专利一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111430097.6 (22)申请日 2021.11.29 (71)申请人中国电子科技集团公司第三十研究所地址 610000 四川省成都市高新区创业路6 号 (72)发明人李航　丁建伟　刘志洁　汪明达　陈周国　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 代理人张杰 (51)Int.Cl. H04L 9/40(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法 (57)摘要本发明提供一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，包括：获取流量数据的pcap文件；对pcap文件中pcap格式的流量数据进行数据预处理，得到会话数据；对会话数据进行多粒度特征提取，得到多粒度特征库；基于多粒度特征库，利用机器学习算法训练模型以及进行加密流量识别，并输出加密流量识别结果。本发明实现了一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，从而实现对WireGuard协议下的恶意加密流量的检测。并进一步从包级、会话级以及主机级等多个粒度提取流量特征，提高特征的区分性与抗噪性，从而提升模型检测的准确性。权利要求书2页说明书5页附图2页 CN 114124551 A 2022.03.01 CN 114124551 A 1.一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，包括如下步骤：获取流量数据的pcap文件；对pcap文件中pcap格式的流量数据进行数据预处理，得到会话数据；对会话数据进行多粒度特征提取，得到多粒度特征库；基于多粒度特征库，利用机器学习算法训练模型以及进行加密流量识别，并输出加密流量识别结果。 2.根据权利要求1所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述对pcap格式的流量数据进行数据预处理的方法包括：对pcap文件中pcap格式的WireGuard流量数据，过滤其中的广播流量数据和ICMP协议流量数据；对过滤后的WireGuard流量数据提取出会话的数据包；所述数据包包括五元组信息、有效载荷数据、以及各协议解析后的字段；以会话为单位，将pcap文件中的pcap格式的流量数据存为包含数据包的会话数据。 3.根据权利要求1所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述对会话数据进行多粒度特征提取的方法包括：对数据预处理后得到的包含数据包的会话数据，在会话数据中提取数据包的包级特征和会话级特征，并按IP地址聚合后统计主机级特征；按相同的会话五元组信息，将前N个数据包的包级特征依次拼接到会话级特征中；再将会话中相同源IP地址的主机级特征、以及相同目的IP地址的主机级特征拼接到会话级特征中，得到最终的多粒度特征库。 4.根据权利要求3所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述包级特征包括：端口号；传输协议类型；有效载荷长度，即数据包的有效载荷的长度；是否含有明文；有效载荷熵值，即数据包的有效载荷的熵值；载荷特征：是否有记录数据类型、协议版本和数据包长度。 5.根据权利要求3所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述会话级特征包括：发送/接收数据流的包长分布：数据包长度的均值、方差、最大值、最小值和熵值；数据流的延迟规律：延迟时间的均值、方差、最大值和最小值；流接收、发送数据包序列特征：上行数据与下行数据比例、发送/接收总包数、发送/接收总字节数；字节分布：信息熵值和平均信息熵。 6.根据权利要求5所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，数据包长度的熵值定义为：权　利　要　求　书 1/2 页 2 CN 114124551 A 2其中， Entropy(P)表示数据包长度的熵值， m为最大载荷长度， xi为载荷长度为i个报文数据， n为报文总数。 7.根据权利要求3所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述主机级特征包括： IP发起请求的时间分布：按小时进行统计频率； IP发起请求的频率特征：每小时频率的均值、最小值、最大值和方差； IP发起请求的次数： 1天内/1小时内/5分钟内访问的次数/对应的端口数/请求的域名数/请求的TCP会话数/请求的UD P会话数； IP中所有会话中的上行数据和下行数据量比例； IP中所有会话中的包长度特征：包长度的均值、最大值、最小值以及方差。 8.根据权利要求1所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述基于多粒度特征库，利用机器学习算法训练模型以及进行加密流量识别的方法包括：步骤1：判断是否存在已训练的模型且处理的过程是加密流量识别，若是，进入步骤2，否则进入步骤5；步骤2：输入多粒度特征库以及已训练的模型，进入步骤3；步骤3：用已训练的模型对多粒度特征库进行预测，进入步骤4；步骤4：输出加密流量识别结果，结束；步骤5：输入多粒度特征库以及标记数据，进入步骤6；其中，所述标记数据是指标记了多粒度特征库中的每一条会话级特征是否属于恶意加密流量的标签数据集；步骤6：设置机器学习算法参数，进入步骤7；步骤7：基于多粒度特征库以及标记数据，训练并保存模型，进入步骤8；步骤8：输出训练好的模型，结束。 9.根据权利要求1或8所述的WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法，其特征在于，所述机器学习算法为梯度提升树算法。权　利　要　求　书 2/2 页 3 CN 114124551 A 3

专利 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法

专利一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法