image.png

原文标题:Ensemble Voting for Enhanced Robustness in DarkNet Traffic Detection
原文作者:Varun Shinde, Kartik Singhal, Ahmad Almogren, Vineet Dhanawat, Vishal Karande and Ateeq Ur Rehman
原文链接:https://ieeexplore.ieee.org/abstract/document/10740290
发表期刊:IEEE Access, 2024

1、引言

本文聚焦暗网流量检测领域,提出一种融合随机森林(Random Forest)与梯度提升(Gradient Boosting)的投票分类模型。在已有研究中,基于深度学习分类或生成对抗网络的数据增强方法虽取得了一定进展,但普遍面临模型可解释性不足、计算复杂度过高的问题。本文针对CIC-Darknet 2020数据集,通过一系列数据处理,构建高效特征空间。实验结果表明,相较于单一分类模型,所提出的投票分类器在准确率、精确率、召回率及F1分数等指标上分别达到99.90%、99.99%、99.45%与99.72%,为后续机器学习模型研究提供了有价值的参考。

本文贡献如下:

  1. 使用CIC-Darknet 2020数据集,并通过缺失值处理、特征归一化与选择提升数据质量。
  2. 为提高模型准确性与效率,执行特征选择、编码与缩放操作,并将数据集划分为训练集与测试集进行系统评估。
  3. 构建基于软投票的集成模型,融合多个分类器以提升预测准确性与稳定性。
  4. 为全面评估模型效果,使用准确率、精确率、召回率和F1分数等指标,并生成混淆矩阵与ROC曲线进行可视化分析。

2、方案设计

本方案由数据预处理、特征工程、特征编码、特征缩放和分类模型5部分组成,具体方案框架如下图所示:

image.png

2.1 数据集

image.png

image.png

本文使用CIC-Darknet 2020数据集进行暗网流量检测研究,该数据集由加拿大网络安全研究所发布,涵盖Tor和I2P等多个匿名网络的流量,包含141529条记录和85个特征列。其中包括基础特征(如持续时间、协议类型)、内容特征(如登录状态、root远程连接)、流量特征(如端口、连接标志)、基于时间和主机的统计信息,综合反映暗网环境中的各种行为模式。

2.2 数据预处理

image.png

为确保流量数据的相关性和质量,本方案对流量数据进行预处理。首先简化流量标签,将Non-Tor和NonVPN合并为Benign,Tor和VPN合并为Darknet,减少标签复杂性。此外,将实数列统一转换为浮点类型,处理无限值并删除包含NaN值的行,删除不必要的列,重新排序剩余列以优化数据集。为解决类别不平衡问题,本方案使用SMOTE技术生成合成样本,提升数据集的平衡性,使模型能更好地学习并准确分类所有类别。

2.3 特征工程

为优化后续分析流程与模型性能,本研究采用多维度特征工程策略。通过从Timestamp列提取hour信息,挖掘基于时间模式的特征。针对IP地址,利用n-grams方法从源IP和目标IP生成新特征,捕捉不同粒度的IP信息。在特征选择过程中,使用随机森林和SelectFromModel,选择最具信息量的特征,确保没有遗漏任何可能有价值的信息。

2.4 特征编码

为将数据集输入机器学习模型,本文使用两种不同的编码方法对类别特征进行编码:哈希编码和顺序编码。哈希编码应用于IP地址特征,以处理高基数并有效减少维度。顺序编码则将源IP和目标IP国家等类别变量转换为数值,同时保留其固有的顺序关系。

2.5 特征缩放

本方案使用StandardScaler进行特征缩放,将数值特征标准化。该方法基于均值和方差为1进行缩放,确保机器学习算法不受特征尺度的影响。标准化处理可以提升模型性能并加速收敛。

2.6 分类模型

image.png

本文构建的投票分类器融合随机森林与梯度提升两种基分类器,采用软投票策略进行分类预测。软投票通过对各分类器输出的类别概率分布进行加权平均,以此确定最终的预测标签。在默认设置下,各分类器权重相等,考虑到不同模型在实际应用中的性能差异,未来可基于其预测表现动态调整权重,从而赋予性能更优模型更大的决策影响力。该集成策略整合了两类模型在特征空间划分与拟合能力方面的优势,缓解了过拟合风险,提升了模型的稳健性与泛化能力。通过对预处理后的数据进行系统性训练与评估,所构建的投票分类器在准确率、精确率、召回率及F1分数上均取得优异结果,验证了该方法在暗网流量识别方面的有效性。

3、实验结果

不同机器学习算法对比结果:

image.png

与现有方法对比:

image.png

4、总结

本文提出了一种基于投票的分类器集成方法,该方法通过软投票利用两种模型的优势,显著提高了准确率、精确率、召回率和F1分数。在CIC-DarkNet2020数据集上的评估结果表明,模型达到了99.90%的准确率、99.99%的精确率、99.45%的召回率和99.72%的F1分数,表现优于单一模型如朴素贝叶斯、KNN和基于决策树的Bagging模型。

标签: none

添加新评论

  • 上一篇: 没有了
  • 下一篇: 没有了