全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111430097.6 (22)申请日 2021.11.29 (71)申请人 中国电子科技 集团公司第三十 研究 所 地址 610000 四川省成 都市高新区创业路6 号 (72)发明人 李航 丁建伟 刘志洁 汪明达  陈周国  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 代理人 张杰 (51)Int.Cl. H04L 9/40(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种WireGuard协议下基于多粒度特征提取 的恶意加密流 量识别的方法 (57)摘要 本发明提供一种WireGuard协议下基于多粒 度特征提取的恶意加密流量识别的方法, 包括: 获取流量数据的pcap文件; 对pcap文件中pcap格 式的流量数据进行数据预处理, 得到会话数据; 对会话数据进行多粒度特征提取, 得到多粒度特 征库; 基于多粒度特征库, 利用机器学习算法训 练模型以及进行加密流量识别, 并输出加密流量 识别结果。 本发明实现了一种WireGuard协议下 基于多粒度特征提取的恶意加密流量识别的方 法, 从而实现对WireGuard协议下的恶意加密流 量的检测。 并进一步从包级、 会话级以及主机级 等多个粒度提取流量特征, 提高特征的区分性与 抗噪性, 从而提升模型检测的准确性。 权利要求书2页 说明书5页 附图2页 CN 114124551 A 2022.03.01 CN 114124551 A 1.一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法, 其特征在 于, 包括如下步骤: 获取流量数据的pcap文件; 对pcap文件中pcap格式的流 量数据进行 数据预处 理, 得到会话数据; 对会话数据进行多粒度特 征提取, 得到多粒度特 征库; 基于多粒度特征库, 利用机器学习算法训练模型以及进行加密流量识别, 并输出加密 流量识别结果。 2.根据权利要求1所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特 征在于, 所述对pcap格式的流 量数据进行 数据预处 理的方法包括: 对pcap文件中pcap格式的WireGuard流量数据, 过滤其中的广播流量数据和ICMP协议 流量数据; 对过滤后的WireGuard流量数据 提取出会话的数据包; 所述数据包包括五元组信息、 有 效载荷数据、 以及各协议 解析后的字段; 以会话为单位, 将pcap文件中的pcap格式的流 量数据存为包 含数据包的会话数据。 3.根据权利要求1所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特 征在于, 所述对 会话数据进行多粒度特 征提取的方法包括: 对数据预处理后得到的包含数据包的会话数据, 在会话数据中提取数据包的包级特征 和会话级特 征, 并按IP地址聚合后统计主机级特 征; 按相同的会话五元组信 息, 将前N个数据包的包级特征依次拼接到会话级特征中; 再将 会话中相同源IP地址的主机级 特征、 以及相同目的IP地址的主机级 特征拼接到会话级 特征 中, 得到最终的多粒度特 征库。 4.根据权利要求3所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特 征在于, 所述包级特 征包括: 端口号; 传输协议类型; 有效载荷长度, 即数据包的有效载荷的长度; 是否含有明文; 有效载荷熵值, 即数据包的有效载荷的熵值; 载荷特征: 是否有记录数据类型、 协议版本和数据包长度。 5.根据权利要求3所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特 征在于, 所述会话级特 征包括: 发送/接收数据流的包长分布: 数据包长度的均值、 方差、 最大值、 最小值和熵值; 数据流的延迟规 律: 延迟时间的均值、 方差、 最大值和最小值; 流接收、 发送数据包序列特征: 上行数据与下行数据比例、 发送/接收总包数、 发送/接 收总字节数; 字节分布: 信息熵值和平均信息熵。 6.根据权利要求5所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特 征在于, 数据包长度的熵值定义 为:权 利 要 求 书 1/2 页 2 CN 114124551 A 2其中, Entropy(P)表示数据包长度的熵值, m为最大载荷长度, xi为载荷长度为i个报文 数据, n为报文总数。 7.根据权利要求3所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特 征在于, 所述主机级特 征包括: IP发起请求的时间分布: 按 小时进行统计频率; IP发起请求的频率特 征: 每小时频率的均值、 最小值、 最大值和方差; IP发起请求的次数: 1天内/1小时内/5分钟内访问的次数/对应的端口数/请求的域名 数/请求的TCP会话数/请求的UD P会话数; IP中所有会话中的上 行数据和下 行数据量比例; IP中所有会话中的包长度特 征: 包长度的均值、 最大值、 最小值以及方差 。 8.根据权利要求1所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别 的方法, 其特征在于, 所述基于多粒度特征库, 利用机器学习算法训练模型以及进 行加密流 量识别的方法包括: 步骤1: 判断是否存在已训练的模型且处理的过程是加密流量识别, 若是, 进入步骤2, 否则进入步骤5; 步骤2: 输入多粒度特 征库以及已训练的模型, 进入步骤3; 步骤3: 用已训练的模型对多粒度特 征库进行 预测, 进入步骤4; 步骤4: 输出加密流 量识别结果, 结束; 步骤5: 输入多粒度特征库以及标记数据, 进入步骤6; 其中, 所述标记数据是指标记了 多粒度特 征库中的每一条会话级特 征是否属于恶意加密流 量的标签数据集; 步骤6: 设置 机器学习算法参数, 进入步骤7; 步骤7: 基于多粒度特 征库以及标记数据, 训练并保存 模型, 进入步骤8; 步骤8: 输出训练好的模型, 结束。 9.根据权利 要求1或8所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识 别的方法, 其特 征在于, 所述机器学习算法为梯度提升树 算法。权 利 要 求 书 2/2 页 3 CN 114124551 A 3

.PDF文档 专利 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法 第 1 页 专利 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法 第 2 页 专利 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:18:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。