(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210433223.1
(22)申请日 2022.04.24
(65)同一申请的已公布的文献号
申请公布号 CN 114528418 A
(43)申请公布日 2022.05.24
(73)专利权人 杭州同花 顺数据开发有限公司
地址 310023 浙江省杭州市余杭区五常街
道同顺街18号801室
(72)发明人 汤甘
(74)专利代理 机构 成都七星天知识产权代理有
限公司 5125 3
专利代理师 袁春晓
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/335(2019.01)G06F 40/295(2020.01)
(56)对比文件
CN 114385812 A,202 2.04.22
CN 113779358 A,2021.12.10
CN 113051356 A,2021.0 6.29
CN 113011189 A,2021.0 6.22
CN 110781683 A,2020.02.1 1
CN 111027324 A,2020.04.17
US 201912 2145 A1,2019.04.25
US 2020012953 A1,2020.01.09
审查员 李文静
(54)发明名称
一种文本处 理方法、 系统和存 储介质
(57)摘要
本申请公开了一种文本处理方法、 系统和存
储介质, 所述方法包括: 获取待处理文本; 利用第
一抽取模型, 从待处理文本中抽取第一实体, 并
基于第一实体从待处理文本中抽取满足预定义
关系的第二实体, 以获取至少一个A类实体三元
组; 其中, 每个A类实体三元组包括第一实体、 第
二实体以及第一实体和第二实体之间的预定义
关系; 利用第二抽取模型, 从待处理文本中抽取
多个第三实体, 并确定任意两个第三实体 之间的
开放关系, 以获取多个B类实体三元组; 其中, 每
个B类实体三元组包括两个第三实体以及两个第
三实体之间的开放关系; 基于筛选规则, 从A 类实
体三元组和B类实体三元组中获取目标实体三元
组。
权利要求书2页 说明书23页 附图7页
CN 114528418 B
2022.10.14
CN 114528418 B
1.一种文本处 理方法, 所述方法包括:
获取待处 理文本;
利用第一抽取模型, 从所述待处理文本中抽取第一实体, 将任意一个所述第一实体的
向量分别和所述待处理文本的特征向量中每个字和/或词特征向量进行融合, 获取所述第
一实体和所述待处理文本的第一联合编 码, 基于所述第一联合编 码获取每种预定义关系对
应的所述待处理文本的实体标注序列, 并根据所述每种所述预定义关系对应的待处理文本
的实体标注序列, 从所述待处理文本中抽取每种 所述预定义关系对应的第二实体, 以获取
至少一个A类实体三元组; 其中, 所述实体标注用于指示所述待处理文本中与所述预定义关
系对应的字和/或词; 每个所述A类实体三元组包括所述第一实体、 所述第二实体以及所述
第一实体和所述第二实体之间的预定义关系;
利用第二抽取模型, 从所述待处理文本 中抽取多个第 三实体, 在所述待处理文本 中, 为
每个所述第三实体添加第一标签和第二标签, 获取标签文本, 基于所述标签文本获取对应
的标签文本表示向量; 基于所述标签文本表示向量, 获取对应的标签编码向量; 根据所述标
签编码向量, 获取所述任意两个第三实体对应的获取第二联合编码, 并基于所述第二联合
编码确定任意两个所述第三实体之间的开放关系, 以获取多个B类实体三元组; 其中, 所述
第一标签和所述第二标签分别用于指示所述第三 实体的第一个字和最后一个字; 每个所述
B类实体三元组包括两个第三实体以及所述两个第三实体之间的开 放关系;
基于筛选规则, 从所述A类实体三元组和所述B类实体三元组中获取目标实体三元组。
2.如权利要求1所述的方法, 还 包括:
将所述待处理文本作为训练样本, 将所述目标实体三元组作为训练标签, 训练所述第
一抽取模型和/或所述第二抽取模型。
3.如权利要求1所述的方法, 所述根据 所述标签编码向量, 获取所述任意两个第 三实体
对应的第二联合编码, 包括:
获取所述标签编码向量中至少一个所述第一标签对应的至少一个第一标签向量;
基于所述任意两个第 三实体对应的任意两个所述第 一标签向量, 获取第 一标签融合向
量;
基于所述第 一标签融合向量和所述标签编码向量, 获取所述任意两个第 三实体对应的
第二联合编码。
4.如权利要求1所述的方法, 所述第 一抽取模型和/或所述第 二抽取模型包括以下模型
中的一种或多种: BERT、 Transformer、 Stanford NLP或LTP。
5.如权利要求1所述的方法, 所述筛 选规则包括:
基于所述A类实体三元组和/或所述B类实体三元组对应的所述待处理文本的时效性,
获取所述目标实体三元组;
基于所述A类实体三元组和/或所述B类实体三元组在所述待处理文本中的出现次数,
获取所述目标实体三元组; 和/或
根据打分模型对所述A类实体三元组和/或所述B类实体三元组的打分结果, 获取所述
目标实体三元组。
6.如权利要求1所述的方法, 所述第 一实体、 第 二实体和/或第三实体为金融实体, 所述
金融实体的类型包括公司、 人物、 行业、 指标、 数值和地址 。权 利 要 求 书 1/2 页
2
CN 114528418 B
27.一种文本处 理系统, 包括:
文本获取模块, 用于获取待处 理文本;
A类抽取模块, 用于利用第一抽取模型, 从所述待处理文本中抽取第一实体, 将任意一
个所述第一 实体的向量分别和所述待处理文本的特征向量中每个字和/或词特征向量进 行
融合, 获取所述第一实体和所述待处理文本的第一联合编码, 基于所述第一联合编码获取
每种预定义关系对应的所述待处理文本的实体标注序列, 并根据所述每种所述预定义关系
对应的待处理文本的实体标注序列, 从所述待处理文本中抽取每种所述预定义关系对应的
第二实体, 以获取A类实体三元组; 其中, 所述实体标注用于指示所述待处理文本中与所述
预定义关系对应的字和/或词; 每个所述A类实体三元组包括所述第一实体、 所述第二实体
以及所述第一实体和所述第二实体之间的预定义关系;
B类抽取模块, 用于利用第二抽取模型, 从所述待处理文本中抽取多个第三实体, 在所
述待处理文本中, 为每个所述第三 实体添加 第一标签和 第二标签, 获取标签文本, 基于所述
标签文本获取对应的标签文本表示向量; 基于所述标签文本表示向量, 获取对应的标签编
码向量; 根据所述标签编 码向量, 获取所述任意两个第三 实体对应的获取第二联合编 码, 并
基于所述第二联合编码确定任意两个所述第三实体之间的开放关系, 以获取多个B类实体
三元组; 其中, 所述第一标签和所述第二标签分别用于指示所述第三实体的第一个字和最
后一个字; 每个所述B类实体三元组包括两个第三实体以及所述两个第三实体之间的开放
关系; 筛选模块, 用于基于筛选规则, 从所述A类实体三元组和所述B类实体三元组中获取目
标实体三元组。
8.一种计算机可读存储介质, 所述存储介质存储计算机指令, 当计算机读取存储介质
中的计算机指令后, 计算机执 行如权利要求1~6任一项所述的文本处 理方法。权 利 要 求 书 2/2 页
3
CN 114528418 B
3
专利 一种文本处理方法、系统和存储介质
文档预览
中文文档
33 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:12上传分享