全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111464708.9 (22)申请日 2021.12.0 3 (71)申请人 北京天融信网络安全技 术有限公司 地址 100085 北京市海淀区上地 东路1号院 3号楼四层 申请人 北京天融信科技有限公司   北京天融信软件 有限公司 (72)发明人 江军 王炜 陈世武 杨渝  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 李飞 (51)Int.Cl. H04L 9/40(2022.01) H04L 41/14(2022.01) G06F 16/958(2019.01) (54)发明名称 一种仿冒网站检测方法、 装置、 电子设备及 存储介质 (57)摘要 本申请实施例提供一种仿冒网站检测方法、 装置、 电子设备及存储介质, 涉及人工智能技术 领域。 该方法包括利用预设的被仿冒网站图像数 据库识别被仿冒网站的关键特征区域, 以生成掩 模和关键图像; 利用所述关键图像和预设的仿冒 网站检测模型构建被仿冒网站指纹库; 利用所述 掩模、 所述被仿冒网站指纹库和所述仿冒网站检 测模型对待检测网站进行检测, 以确定所述待检 测网站是否为仿冒网站, 利用页面图像 关键特征 区域识别技术, 基于深度学习算法进行自动检 测, 提高检测准确率和稳定性, 解决了现有方法 需要人工 检测以及准确率较低的问题。 权利要求书2页 说明书9页 附图6页 CN 114124564 A 2022.03.01 CN 114124564 A 1.一种仿冒网站检测方法, 其特 征在于, 所述方法包括: 利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域, 以生成掩模和关 键图像; 利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库; 利用所述掩模、 所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检 测, 以确定所述待检测网站是否为仿冒网站。 2.根据权利要求1所述的仿冒网站检测方法, 其特征在于, 在所述利用预设的被仿冒网 站图像数据库 识别被仿冒网站的关键特征区域的步骤之前, 所述方法还包括构建被仿冒网 站图像数据库: 获取多个网站的网站域名并去重, 以生成域名列表; 筛选所述网站域名对应的页面 地址; 获取所述页面 地址对应的网站页面, 并对所述网站页面进行截图, 以获得页面截图; 利用所述域名列表、 页面地址和所述页面截图构建被仿冒网站图像数据库, 并对所述 页面截图进行定期更新。 3.根据权利要求2所述的仿冒网站检测方法, 其特征在于, 所述利用预设的被仿冒网站 图像数据库识别被仿冒网站的关键特 征区域, 以生成掩 模和关键图像, 包括: 获取所述被仿冒网站图像数据库中预设数量的任意页面截图; 获取每张页面截图的任意像素点处的颜色值; 当颜色值众数出现次数大于第 一预设阈值 时, 记录对应的像素坐标和颜色值众数构 成 的集合, 所述集合表示为: A={(x,y,clr)|0 ≤x<W, 0 ≤y<H}; 其中, A表示所述集合, (x,y)表示任意像素点相对于所述页面截图左下角的偏移坐标, clr表示所述颜色值众 数, W表示所述页面截图的宽度, H表示所述页面截图的高度; 计算所述 集合中的任意两个 像素点的偏移坐标之间的距离; 根据所述距离计算每个像素点的近邻点个数, 若两个像素点之间的距离小于第 二预设 阈值, 则两个 像素点为近邻点; 若所述近邻点个数小于第三预设阈值, 则将所述像素点从所述 集合中删除; 将未被删除的集 合中的元 素构成掩 模; 利用所述掩 模生成每 个页面地址对应的关键图像。 4.根据权利要求3所述的仿冒网站检测方法, 其特征在于, 所述利用所述掩模生成每个 页面地址对应的关键图像, 包括: 在空白图像上的所述掩模的偏移坐标位置处, 填充所述偏移坐标对应的颜色值, 以生 成关键图像, 所述空白图像的大小与所述页面截图的大小相同。 5.根据权利要求1所述的仿冒网站检测方法, 其特征在于, 在所述利用所述关键图像和 预设的仿冒网站检测模型构建被仿冒网站指纹库的步骤之前, 所述方法还包括构建仿冒网 站检测模型: 利用预设的仿冒网站黑名单数据获取仿冒网站的第一网站页面截图和对应的被仿冒 网站的第二网站页面截图, 以生成训练数据集; 将所述训练数据集输入ResNe Xt‑101模型, 以进行模型训练;权 利 要 求 书 1/2 页 2 CN 114124564 A 2对所述模型进行优化, 优化目标表示 为: 其中, 0<i≤|T|, |T|是所述训练数据集 中包含的第一网站页面截图和第二网站页面截 图的对数, c为所述ResNeXt ‑101模型的参数, c*为c的最优解, FRi和FFi分别为第i对第一网 站页面截图和第二网站页面截图对应的第一输出 数据和第二输出 数据。 6.根据权利要求5所述的仿冒网站检测方法, 其特征在于, 所述利用所述关键图像和预 设的仿冒网站检测模型构建被仿冒网站指纹库, 包括: 将每个所述关键图像输入所述仿冒网站检测模型, 以获得 数据输出; 将所述数据输出构成被仿冒网站指纹库。 7.根据权利要求6所述的仿冒网站检测方法, 其特征在于, 所述利用所述掩模、 所述被 仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进 行检测, 以确定所述待检测网站 是否为仿冒网站, 包括: 检索所述待检测网站的网站域名是否存在于所述被仿冒网站图像数据库的域名列表 中; 若否, 则获取 所述待检测网站的第一网站截图; 基于所述掩模, 保留所述待测网站截图中与所述掩模对应的偏移坐标处 的像素的颜色 值, 以生成第二网站截图; 将所述第二网站截图输入所述仿冒网站检测模型, 以得到 输出结果; 分别计算所述输出 结果与所述被仿冒网站指纹库中的每 个数据输出的欧式距离; 若所述欧式距离小于等于最大欧式距离, 则判定所述待检测网站是仿冒网站; 所述最 大欧式距离为第一输出 数据和第二输出 数据的欧式距离的最大值。 8.一种仿冒网站检测装置, 其特 征在于, 所述装置包括: 关键图像生成模块, 用于利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特 征区域, 以生成掩 模和关键图像; 指纹库构建模块, 用于利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站 指纹库; 检测模块, 用于利用所述掩模、 所述被仿冒网站指纹库和所述仿冒网站检测模型对待 检测网站进行检测, 以确定所述待检测网站是否为仿冒网站。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器以及处理器, 所述存储器用于 存储计算机程序, 所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1 至7中任一项所述的仿冒网站检测方法。 10.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序指令, 所 述计算机程序指 令被一处理器读取并运行时, 执行权利要求 1至7任一项 所述的仿冒网站检 测方法。权 利 要 求 书 2/2 页 3 CN 114124564 A 3

.PDF文档 专利 一种仿冒网站检测方法、装置、电子设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种仿冒网站检测方法、装置、电子设备及存储介质 第 1 页 专利 一种仿冒网站检测方法、装置、电子设备及存储介质 第 2 页 专利 一种仿冒网站检测方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:36:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。