全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111505640.4 (22)申请日 2021.12.10 (71)申请人 广东省信息安全测评中心 地址 510098 广东省广州市越秀区环市东 路426号 (72)发明人 庄书琪 崔顺艳 叶劲宏 孙宗锦  陈超  (74)专利代理 机构 深圳新创友知识产权代理有 限公司 4 4223 代理人 王震宇 (51)Int.Cl. H04L 41/069(2022.01) H04L 67/02(2022.01) H04L 9/40(2022.01) (54)发明名称 一种从Web访问日志提取Web资产的方法 (57)摘要 本发明提供一种从Web访问日志提取Web资 产的方法, 通过对Web中间件的访问日志进行分 析, 提取Web应用的资产信息, 包括文件目录结 构、 文件类型、 动态文件函数签名信息、 静态文件 大小; 并根据Web应用的资产信息, 对Web应用资 产情况进行刻画, 构建出树状存储 结构即资产目 录, 从而还原出Web应用的文件目录 结构、 文件类 型、 动态文件函数签名信息、 静态文件大小。 与现 有技术对Web访问日志的分析聚焦在用户访问行 为、 网站运行状态等分析不同, 本发明通过从Web 访问日志提取Web应用资产, 利用提取的Web资产 信息可分析出网站使用的组件, 有利于尽早发现 Web应用可能存在的风险, 而且通过比对 不同Web 应用的资产信息, 能够计算网站的相似性, 具有 重要的现实意 义。 权利要求书2页 说明书12页 附图4页 CN 114221860 A 2022.03.22 CN 114221860 A 1.一种从Web访问日志提取Web资产的方法, 其特 征在于, 包括如下步骤: S1.日志收集: 收集 Web访问日志; S2.日志解析: 解析Web访问日志, 提取 出Web请求的URL、 状态码、 响应 体大小; S3.日志筛 选: 根据状态码筛 选出请求成功的访问记录; S4.URL解析: 参照标准URL格式, 对访问记录中的URL进行解析, 提取资产对应 的协议、 域名/IP、 端口、 路径及文件名, 在URL包 含请求参数的情况 下还提取请求 参数; S5.静态/动态文件判断: 通过Web访问记录中, 同一资产所有记录的文件大小是否保持 一致和文件后缀名判断文件为静态文件还是动态文件; 若同一资产所有记录的文件大小都 保持一致, 且文件名后缀属于静态文件后缀, 则将该资产判定为静态文件, 否则为动态文 件; S6.静态/动态文件处理: 对于静态文件, 文件大小记录为资产文件大小; 对于动态文 件, 根据其 参数列表生成函数签名来表示 其动态性及多态性; S7.资产目录生成: 根据资产的文件名、 文件大小及其路径处理成树状目录结构, 即网 站对应的Web资产。 2.如权利要求1所述的方法, 其特征在于, 步骤S2中, 对收集到的日志, 使用空格作为分 隔符, 分隔成数组, 并从中提取URL、 状态码、 响应 体大小。 3.如权利要求2所述的方法, 其特 征在于, 步骤S2具体包括如下步骤: 逐行读取日志; 使用空格分割日志行, 结果 为一个字段列表; 从上一步获得的字段列表中找出URL、 状态码、 响应体大小, 组装成一个日志访问记录 对象; 将所有日志行解析 出的日志访问记录对象存 储到一个数组(records)中。 4.如权利要求1至 3任一项所述的方法, 其特 征在于, 步骤S4具体包括如下步骤: a.判断URL中是否包含 “?”, 如果包含“?”, 进入步骤b; 如 果不包含“?”, 将URL记为path, 进入步骤d; b.以URL中从左到右出现的第一个 “?”为界, 将URL一分为二, 前半部分记为path, 后半 部分记为query_st ring; c.判断query_string中是否包含 “&”, 如果不包含 “&”, 说明有且仅有一个参数, 此时 query_string的格式为 “参数名=参数值 ”, 其中参数值可能为空; 如果包含 “&”, 说明含有 两个以上的参数, 使用 “&”为分隔, 将query_ string分割成一个参数列表, 格式为 “参数名= 参数值”, 其中参数值可能为空; 从query_string提取出由参数名构成的列表, 并按照字母 顺序对其 排序, 格式为[参数名1, 参数名2, 参数名3. ..], 将该列表 记为param s; d.如果path的内容为 “/”, 说明为根目录, 文件名为 “index”; 如果path内容不为 “/”, 使 用“/”为分隔, 将path分割成一个目录名列表, 格式为[目录名1, 目录名2, . ..]; e.从左到右对目录名列表中的每一个目录进行检查, 如果目录名中包含 “.”, 则将目录 名解释为“文件名.扩展名 ”的格式; 检查扩展名是否在配置的动态文件类型中, 如果是, 则 以当前目录名为分隔, 前面的所有目录名拼接成 “/目录名1/目录名2/.../ ”的形式, 记为 file_path, 后 面的所有目录拼接成 “目录名1_目录名2_... ”的形式, 记为file_func, 将扩 展名记为fi le_type, 将文件名记为fi le_name;权 利 要 求 书 1/2 页 2 CN 114221860 A 2f.如果检查完所有的目录名都没有符合条件的, 则将最后 一个目录名以前的目录名拼 接成“/目录名1/目录名2/.../ ”的形式, 记为file_path, 检查最后一个目录名是否包含 “.”, 如果是则进入步骤g, 否则将最后一个目录名记为file_name, file_type、 file_func均 为空; g.将目录名解释为 “文件名.扩展名 ”的格式, 将扩展名记录为file_type, 将文件名记 录为file_name。 5.如权利 要求4所述的方法, 其特征在于, 步骤S5中, 检查file_typ e是在配置的动态文 件类型中, 如果是则判定该文件为动态文件, 否则判定该文件为静态文件; 步骤S6中, 对于静态文件, 指定fi le_size为响应 体大小, 再进行如下处 理; 将文件以file_path中 的目录名为节点存储到树状结构中, 如 果file_path、 file_name 和file_type都相同, 则将两个文件合并, 如果将要合并的两个文件为静态文件且file_ size不同, 则将fi le_size指定为 “*”, 否则file_size不变; 步骤S6中, 对于动态文件, 对文件生成函数签名, 指定file_size为 “*”, 将file_func, file_name, file_type, params进行拼接, 生成形如 “file_name.file_type::file_func (param1,param2,...) ”的函数签名, 记为signature, 如果file_func为空, 则其格式为 “file_name.fi le_type(param1,param2,. ..)”, 再进行上述的处 理。 6.如权利 要求1至5任一项所述的方法, 其特征在于, 步骤S6中, 对于动态文件, 以 “&”为 分隔符, 将URL中的请求体分为多个请求参数, 如果请求参数中包含 “=”, 则“=”前为参数 名,“=”后为参数值; 如果请求参数中不包含 “=”, 则将请求参数视为参数名, 将请求记录 中的参数列表 记录下来, 与文件名一 起作为动态文件的函数签名。 7.如权利要求6所述的方法, 其特征在于, 步骤S6中, 如果同一动态文件有多个不同的 函数签名则记录在同一资产下, 判断该动态资产具有 多态性。 8.如权利要求1至7任一项所述的方法, 其特征在于, 步骤S7后还包括如下步骤: 使用 Web资产信息分析访问的网站所使用的组件。 9.如权利要求1至8任一项所述的方法, 其特征在于, 步骤S7后还包括如下步骤: 通过对 比不同网站的Web资产, 确定不同网站之间的相似性。 10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序由处 理器执行时, 实现如权利要求1至9任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114221860 A 3

.PDF文档 专利 一种从Web访问日志提取Web资产的方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种从Web访问日志提取Web资产的方法 第 1 页 专利 一种从Web访问日志提取Web资产的方法 第 2 页 专利 一种从Web访问日志提取Web资产的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:36:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。