流量识别在网络测量与安全领域应用广泛,一方面,根据识别应用的实效性要求优 化网络通信资源;另一方面,实时流量分类提前识别异常流量。
网上诈骗、木马和病毒、账号被盗,以及信息泄露,使得网民上网体验严重下降, 同时,隐私安全和财产安全受到严重威胁。在“互联网+”时代,网络安全问题是影响 网民使用互联网支付相关服务的重要因素,网上诈骗、账号被盗以及信息泄露等问题不 断出现使得网民对“互联网+”服务产生抵制心理,从而进入对“互联网+”服务不信任 -不使用-不信任的恶性循环。
由于缺乏有效的加密 流量分析和管理技术,给网络管理与安全带来巨大的挑战,主要表现在以下几个方面。
(1)流量分析和网络管理需要精细化识别加密流量;
(2)加密流量实时识别。加密流量识别不仅要识别出具体的应用或服务,还应该 具有较好的时效性;
(3)加密通道严重威胁信息安全;
加密流量分类对于服务质量保证、网络规划建设和网络异常检测均具有重要意义,是进行流量工程、实施 QoS 保障的基础;此外,网络负载建模、流量整形等问题的解决也依赖于有效的加密流量识别。
实时性:反映流量识别方法可以在线的、快速的识别网络应用的能力。为了及时识 别应用,可以根据部分数据包的特征进行识别,无需等到整条流结束。
准确性:反映流量分类识别方法识别网络应用的能力。
计算复杂性:反映流量识别方法准确识别网络应用所需的开销。复杂的识别特征需 要耗费大量的存储空间和计算能力,严重影响骨干网的流量分析。
方向性:反映流量识别方法传输方向相关的识别能力。IP 流根据传输方向可以分为 上行流和下行流,假如第一个数据包产生丢包,无法判断上行和下行方向。
兼容性:反映流量识别技术用于不同网络环境的识别能力。
稳健性:反映流量识别技术长时间维持高识别率的能力。
基于流特征的加密流量分类方法是最常用的。该方法可以克服基于端口和深度包检测方法的不足,但特 征属性中包含的冗余和不相关特征会增加模型复杂度、降低模型可信度,导致分类效果 和效率同时下降。然而,特征选择方法可以有效地消除冗余和不相关特征,选取最优特 征子集。当前,借助单一特征选择方法还存在一定的局限性:(1)网络流变化使得特征 选择结果很难保持稳定,特征属性及其数目随之改变。(2)不同的特征选择方法缺少统 一的评价指标。当前特征子集的好坏主要由分类精度来评价,而各个特征子集的分类精 度不稳定,有时会出现极个别分类精度较低的现象。
第一部分,将多个特征选择器选取的特征子集根据评 价指标进行排序,再根据选择性集成策略选择部分特征选择器,从已有的特征选择器中 将作用不大和性能不好的特征选择器剔除,将保留的特征选择器集成。第二部分,采用 朴素贝叶斯算法评估序列前向搜索产生的特征子集,以分类准确率下降为结束准则,再 比较多个数据集的最优特征子集选出全局特征子集,提高特征子集稳定性,FSEN 流程。
建立一种自适应分类器,能及时检测网络流变化,并有效更新分类器