说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210813271.3 (22)申请日 2022.07.11 (71)申请人 北京四方智汇信息科技有限公司 地址 100000 北京市丰台区南四环西路18 8 号十六区19号楼 9层101内464 号 (72)发明人 陈檩  (74)专利代理 机构 成都华复知识产权代理有限 公司 512 98 专利代理师 朱娇艳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/55(2019.01) G06F 40/295(2020.01)G06N 20/00(2019.01) (54)发明名称 一种基于自然语言处理技术的文档自动生 成分类的方法 (57)摘要 本发明公开了一种基于自然语言处理技术 的文档自动生成分类的方法, 包括以下步骤: 对 输入的原始文档进行自动分类, 基于不同分类的 原始文档进行对应处理, 分别得到中间数据和结 构化数据; 对中间数据进行分词处理、 实体识别、 指代消解、 关系抽取、 事件抽取和知 识库构建, 抽 取出的数据作为结构; 化数据存入数据库; 根据 输出的文档类型选择文档模板,结合获取到的结 构, 化数据进行文档组装, 输 出最终文档; 通过对 海量的文档分类、 OCR提取、 NLP修复、 中文和专用 术语分词、 实体识别、 事件抽取、 模板、 生成等多 个流程组合, 最终生成具有专业领域中初级分析 人员能力的智能报告, 从而以便加以应用。 权利要求书2页 说明书3页 附图1页 CN 115062117 A 2022.09.16 CN 115062117 A 1.一种基于自然语言处理技术的文档自动生成分类的方法, 包括以下步骤: 其特征在 于: S1、 对输入的原始文档进行自动分类, 基于不同分类的原始文档进行对应处理, 分别得 到中间数据和结构化数据; S2、 对中间数据进行分词处理、 实体识别、 指代消解、 关系抽取、 事件抽取和知识库构 建, 抽取出的数据作为结构; 化数据存 入数据库; S3、 根据输出的文档类型选择文档模板,结合获取到的结构, 化数据进行文档组装, 输 出最终文档。 2.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其 特征在于: 所述S1 中确定数据获取需求; 根据输入的原始文档, 获取每个原始文档的文件类 型, 进而可以区分出 各种不同种类的原 始文档。 3.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其 特征在于: 所述S1也能够判断是否为图片文档, 若不是图片文档, 则先对原始文档进 行图片 化处理再进行后续 步骤, 若为图片文档 则直接进行后续 步骤; 基于图像处 理进行文档分类。 4.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其 特征在于: 所述S1根据文档分类判断文档是否为固定格式的文档, 如果是固定格式的文档, 则基于机器学习对固定格式文档进行信息提取得到结构化数据; 如果不是固定格式的文档 则进行后续步骤; 并且, 判断文档是否支持文本直接提取, 如果支持文本直接提取则从原始 文档中获取其中的文本内容并存储为中间数据, 如果不支持文本直接提取, 会经过警报提 示, 对操作人员进行提示, 以便进行后续操作; 然后在进行对文档进行识别, 将图像中的文 字转换成文本格式; 基于 自然语言处理对识别出 的文本进行内容修复, 修复后的数据存储 为中间数据。 5.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其 特征在于: 所述S2中的分词处理, 主要便于对分词处理后的数据进 行实体识别的作用, 从而 以便提高实体识别的效果; 实体识别后, 需要把识别过后的数据进 行关系提取, 从而提出文 档文本识别过后数据内所需的语法与语义之间的联系, 然后在 对关系抽取后的数据进 行事 件抽取, 从含有事件信息的文本中抽取出所需的感兴趣事件信息, 将用自然语言表达的事 件以结构化的形式呈现; 对事件抽取后的数据进行知识图谱校验处理, 根据从多个文档已 经获取到的实体、 关系和事件的信息构建相关的知识图谱, 用于信息的相互印证及异常事 件; 然后验证, 当出现异常时, 再次经过警报提示, 从而对操作人员进 行振动提示, 以便提示 操作人员发生异常, 使之便于后续操作, 以便自动发现; 最后知识图谱校验处理后的数据从 而形成结构化数据。 6.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其 特征在于: 所述S2中的指代消解, 从而便于使在抽取信息前, 对其进行指代消解, 进而以便 提高后续 提取信息的准确度, 降低影响。 7.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其 特征在于: 所述S 3根据输出的文档类型选择文档模板, 然后基于结构化数据, 根据所需输出 的目标文档类型选择不同的任务路径的生成报告。 8.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其权 利 要 求 书 1/2 页 2 CN 115062117 A 2特征在于: 所述S 3基于当前文档的处理阶段进 行对应的文档处理, 以便提高其处理的效果; 最终则根据模板自动生成专业领域的正式文档。权 利 要 求 书 2/2 页 3 CN 115062117 A 3

.PDF文档 专利 一种基于自然语言处理技术的文档自动生成分类的方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自然语言处理技术的文档自动生成分类的方法 第 1 页 专利 一种基于自然语言处理技术的文档自动生成分类的方法 第 2 页 专利 一种基于自然语言处理技术的文档自动生成分类的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。