全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111487097.X (22)申请日 2021.12.0 6 (71)申请人 广发证券股份有限公司 地址 510663 广东省广州市黄埔区中新广 州知识城腾飞一 街2号618室 (72)发明人 赖文波 柯学 张汉林 林康  谭则涛  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 陈旭红 钟文瀚 (51)Int.Cl. G06F 40/103(2020.01) G06F 40/117(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的文档数值指标的抽取 方法及装置 (57)摘要 本发明公开了一种基于机器学习的文档数 值指标的抽取方法及装置, 该方法包括: 根据预 设的规则将待处理文档划分为重点段落和非重 点段落; 采用自然语言处理和深度学习构建指标 抽取模型, 并将所述重点段落和所述非重点段落 分别输入所述指标抽取模型, 所述指标抽取模型 分别输出重点段落指标和非重点段落指标; 将所 述重点段落指标和所述非重点段落指标进行指 标整合, 并输入 预设的指标特征评分模 型对所述 重点段落指标和所述非重点段落指标进行筛选, 输出指标抽取结果。 本发明提高了指标抽取的效 率以及准确率。 权利要求书2页 说明书7页 附图4页 CN 114398853 A 2022.04.26 CN 114398853 A 1.一种基于 机器学习的文档数值指标的抽取 方法, 其特 征在于, 包括: 根据预设的规则将待处 理文档划分为重点段落和非重点段落; 采用自然语言处理和深度学习构建指标抽取模型, 并将所述重点段落和所述非重点段 落分别输入所述指标抽取模型, 所述指标抽取模型分别输出重点段落指标和非重点段落指 标; 将所述重点段落指标和所述非重点段落指标进行指标整合, 并输入预设的指标特征评 分模型对所述重点段落指标和所述非重点段落指标进行筛 选, 输出指标抽取 结果。 2.根据权利要求1所述的基于机器学习的文档数值指标的抽取方法, 其特征在于, 还包 括: 将历史序列 数据输入预设的预测模型获取预测结果, 计算所述预测结果与 所述筛选后 的指标结果的均值作为置信度进 行排序, 包括指标名称、 指标数值、 指标单位、 指标置信度、 命中指标的短句以及段落文本 。 3.根据权利要求2所述的基于机器学习的文档数值指标的抽取方法, 其特征在于, 所述 根据预设的规则将待处 理文档划分为重点段落和非重点段落, 包括: 确定待输入文档的格式, 将pdf文档格式转 化为word格式, 生成输入文档; 解析所述输入文档, 获取文本以及表格元 素集合; 采用规则匹配方法, 根据所述文本以及表格元素集合对所述重点段落进行定位, 输出 所述重点段落。 4.根据权利要求3所述的基于机器学习的文档数值指标的抽取方法, 其特征在于, 所述 将所述重点段落指标和所述 非重点段落指标进 行指标整合, 并输入预设的指标特征评 分模 型对所述重点段落指标和所述非重点段落指标进行筛 选, 输出指标抽取 结果, 包括: 将所述重点段落指标和所述非重点段落指标中的指标进行标记, 并进行指标特征整理 和归一化输入逻辑回归 模型进行训练, 得到所述预设的指标 特征评分模型; 将所述重点段落指标和所述非重点段落指标进行整合, 输入所述预设的指标特征评分 模型中, 过 滤低于第一阈值的指标, 输出 所述指标抽取 结果。 5.一种基于 机器学习的文档数值指标的抽取装置, 其特 征在于, 包括: 划分模块, 用于根据预设的规则将待处 理文档划分为重点段落和非重点段落; 抽取模块, 用于采用自然语言处理和深度学习构建指标抽取模型, 并将所述重点段落 和所述非重点段落分别输入所述指标抽取模型, 所述指标抽取模型分别输出重点段落指标 和非重点段落指标; 筛选模块, 用于将所述重点段落指标和所述非重点段落指标进行指标整合, 并输入预 设的指标特征评分模型对所述重点段落指标和所述非重点段落指标进 行筛选, 输出指标抽 取结果。 6.根据权利要求5所述的基于机器学习的文档数值指标的抽取装置, 其特征在于, 还包 括计算模块, 所述计算模块用于: 将历史序列 数据输入预设的预测模型获取预测结果, 计算所述预测结果与 所述筛选后 的指标结果的均值作为置信度进 行排序, 包括指标名称、 指标数值、 指标单位、 指标置信度、 命中指标的短句以及段落文本 。 7.根据权利要求6所述的基于机器学习的文档数值指标的抽取装置, 其特征在于, 所述权 利 要 求 书 1/2 页 2 CN 114398853 A 2抽取模块, 还用于: 确定待输入文档的格式, 将pdf文档格式转 化为word格式, 生成输入文档; 解析所述输入文档, 获取文本以及表格元 素集合; 采用规则匹配方法, 根据所述文本以及表格元素集合对所述重点段落进行定位, 输出 所述重点段落。 8.根据权利要求7所述的基于机器学习的文档数值指标的抽取装置, 其特征在于, 所述 筛选模块, 还用于: 将所述重点段落指标和所述非重点段落指标中的指标进行标记, 并进行指标特征整理 和归一化输入逻辑回归 模型进行训练, 得到所述预设的指标 特征评分模型; 将所述重点段落指标和所述非重点段落指标进行整合, 输入所述预设的指标特征评分 模型中, 过 滤低于第一阈值的指标, 输出 所述指标抽取 结果。 9.一种终端设备, 其特 征在于, 包括: 一个或多个处 理器; 存储器, 与所述处 理器耦接, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑4任一项所述的基于 机器学习的文档数值指标的抽取 方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求 1‑4任一项所述的基于机器学习的文档数值指标的抽取方 法。权 利 要 求 书 2/2 页 3 CN 114398853 A 3

.PDF文档 专利 一种基于机器学习的文档数值指标的抽取方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的文档数值指标的抽取方法及装置 第 1 页 专利 一种基于机器学习的文档数值指标的抽取方法及装置 第 2 页 专利 一种基于机器学习的文档数值指标的抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。