(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210813271.3
(22)申请日 2022.07.11
(71)申请人 北京四方智汇信息科技有限公司
地址 100000 北京市丰台区南四环西路18 8
号十六区19号楼 9层101内464 号
(72)发明人 陈檩
(74)专利代理 机构 成都华复知识产权代理有限
公司 512 98
专利代理师 朱娇艳
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 16/55(2019.01)
G06F 40/295(2020.01)G06N 20/00(2019.01)
(54)发明名称
一种基于自然语言处理技术的文档自动生
成分类的方法
(57)摘要
本发明公开了一种基于自然语言处理技术
的文档自动生成分类的方法, 包括以下步骤: 对
输入的原始文档进行自动分类, 基于不同分类的
原始文档进行对应处理, 分别得到中间数据和结
构化数据; 对中间数据进行分词处理、 实体识别、
指代消解、 关系抽取、 事件抽取和知 识库构建, 抽
取出的数据作为结构; 化数据存入数据库; 根据
输出的文档类型选择文档模板,结合获取到的结
构, 化数据进行文档组装, 输 出最终文档; 通过对
海量的文档分类、 OCR提取、 NLP修复、 中文和专用
术语分词、 实体识别、 事件抽取、 模板、 生成等多
个流程组合, 最终生成具有专业领域中初级分析
人员能力的智能报告, 从而以便加以应用。
权利要求书2页 说明书3页 附图1页
CN 115062117 A
2022.09.16
CN 115062117 A
1.一种基于自然语言处理技术的文档自动生成分类的方法, 包括以下步骤: 其特征在
于:
S1、 对输入的原始文档进行自动分类, 基于不同分类的原始文档进行对应处理, 分别得
到中间数据和结构化数据;
S2、 对中间数据进行分词处理、 实体识别、 指代消解、 关系抽取、 事件抽取和知识库构
建, 抽取出的数据作为结构; 化数据存 入数据库;
S3、 根据输出的文档类型选择文档模板,结合获取到的结构, 化数据进行文档组装, 输
出最终文档。
2.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其
特征在于: 所述S1 中确定数据获取需求; 根据输入的原始文档, 获取每个原始文档的文件类
型, 进而可以区分出 各种不同种类的原 始文档。
3.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其
特征在于: 所述S1也能够判断是否为图片文档, 若不是图片文档, 则先对原始文档进 行图片
化处理再进行后续 步骤, 若为图片文档 则直接进行后续 步骤; 基于图像处 理进行文档分类。
4.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其
特征在于: 所述S1根据文档分类判断文档是否为固定格式的文档, 如果是固定格式的文档,
则基于机器学习对固定格式文档进行信息提取得到结构化数据; 如果不是固定格式的文档
则进行后续步骤; 并且, 判断文档是否支持文本直接提取, 如果支持文本直接提取则从原始
文档中获取其中的文本内容并存储为中间数据, 如果不支持文本直接提取, 会经过警报提
示, 对操作人员进行提示, 以便进行后续操作; 然后在进行对文档进行识别, 将图像中的文
字转换成文本格式; 基于 自然语言处理对识别出 的文本进行内容修复, 修复后的数据存储
为中间数据。
5.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其
特征在于: 所述S2中的分词处理, 主要便于对分词处理后的数据进 行实体识别的作用, 从而
以便提高实体识别的效果; 实体识别后, 需要把识别过后的数据进 行关系提取, 从而提出文
档文本识别过后数据内所需的语法与语义之间的联系, 然后在 对关系抽取后的数据进 行事
件抽取, 从含有事件信息的文本中抽取出所需的感兴趣事件信息, 将用自然语言表达的事
件以结构化的形式呈现; 对事件抽取后的数据进行知识图谱校验处理, 根据从多个文档已
经获取到的实体、 关系和事件的信息构建相关的知识图谱, 用于信息的相互印证及异常事
件; 然后验证, 当出现异常时, 再次经过警报提示, 从而对操作人员进 行振动提示, 以便提示
操作人员发生异常, 使之便于后续操作, 以便自动发现; 最后知识图谱校验处理后的数据从
而形成结构化数据。
6.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其
特征在于: 所述S2中的指代消解, 从而便于使在抽取信息前, 对其进行指代消解, 进而以便
提高后续 提取信息的准确度, 降低影响。
7.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其
特征在于: 所述S 3根据输出的文档类型选择文档模板, 然后基于结构化数据, 根据所需输出
的目标文档类型选择不同的任务路径的生成报告。
8.根据权利要求1所述的一种基于自然语言处理技术的文档自动生成分类的方法, 其权 利 要 求 书 1/2 页
2
CN 115062117 A
2特征在于: 所述S 3基于当前文档的处理阶段进 行对应的文档处理, 以便提高其处理的效果;
最终则根据模板自动生成专业领域的正式文档。权 利 要 求 书 2/2 页
3
CN 115062117 A
3
专利 一种基于自然语言处理技术的文档自动生成分类的方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:23上传分享