专利 一种文本处理方法、系统和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210433223.1 (22)申请日 2022.04.24 (65)同一申请的已公布的文献号申请公布号 CN 114528418 A (43)申请公布日 2022.05.24 (73)专利权人杭州同花顺数据开发有限公司地址 310023 浙江省杭州市余杭区五常街道同顺街18号801室 (72)发明人汤甘　 (74)专利代理机构成都七星天知识产权代理有限公司 5125 3 专利代理师袁春晓 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01)G06F 40/295(2020.01) (56)对比文件 CN 114385812 A,202 2.04.22 CN 113779358 A,2021.12.10 CN 113051356 A,2021.0 6.29 CN 113011189 A,2021.0 6.22 CN 110781683 A,2020.02.1 1 CN 111027324 A,2020.04.17 US 201912 2145 A1,2019.04.25 US 2020012953 A1,2020.01.09 审查员李文静 (54)发明名称一种文本处理方法、系统和存储介质 (57)摘要本申请公开了一种文本处理方法、系统和存储介质，所述方法包括：获取待处理文本；利用第一抽取模型，从待处理文本中抽取第一实体，并基于第一实体从待处理文本中抽取满足预定义关系的第二实体，以获取至少一个A类实体三元组；其中，每个A类实体三元组包括第一实体、第二实体以及第一实体和第二实体之间的预定义关系；利用第二抽取模型，从待处理文本中抽取多个第三实体，并确定任意两个第三实体之间的开放关系，以获取多个B类实体三元组；其中，每个B类实体三元组包括两个第三实体以及两个第三实体之间的开放关系；基于筛选规则，从A 类实体三元组和B类实体三元组中获取目标实体三元组。权利要求书2页说明书23页附图7页 CN 114528418 B 2022.10.14 CN 114528418 B 1.一种文本处理方法，所述方法包括：获取待处理文本；利用第一抽取模型，从所述待处理文本中抽取第一实体，将任意一个所述第一实体的向量分别和所述待处理文本的特征向量中每个字和/或词特征向量进行融合，获取所述第一实体和所述待处理文本的第一联合编码，基于所述第一联合编码获取每种预定义关系对应的所述待处理文本的实体标注序列，并根据所述每种所述预定义关系对应的待处理文本的实体标注序列，从所述待处理文本中抽取每种所述预定义关系对应的第二实体，以获取至少一个A类实体三元组；其中，所述实体标注用于指示所述待处理文本中与所述预定义关系对应的字和/或词；每个所述A类实体三元组包括所述第一实体、所述第二实体以及所述第一实体和所述第二实体之间的预定义关系；利用第二抽取模型，从所述待处理文本中抽取多个第三实体，在所述待处理文本中，为每个所述第三实体添加第一标签和第二标签，获取标签文本，基于所述标签文本获取对应的标签文本表示向量；基于所述标签文本表示向量，获取对应的标签编码向量；根据所述标签编码向量，获取所述任意两个第三实体对应的获取第二联合编码，并基于所述第二联合编码确定任意两个所述第三实体之间的开放关系，以获取多个B类实体三元组；其中，所述第一标签和所述第二标签分别用于指示所述第三实体的第一个字和最后一个字；每个所述 B类实体三元组包括两个第三实体以及所述两个第三实体之间的开放关系；基于筛选规则，从所述A类实体三元组和所述B类实体三元组中获取目标实体三元组。 2.如权利要求1所述的方法，还包括：将所述待处理文本作为训练样本，将所述目标实体三元组作为训练标签，训练所述第一抽取模型和/或所述第二抽取模型。 3.如权利要求1所述的方法，所述根据所述标签编码向量，获取所述任意两个第三实体对应的第二联合编码，包括：获取所述标签编码向量中至少一个所述第一标签对应的至少一个第一标签向量；基于所述任意两个第三实体对应的任意两个所述第一标签向量，获取第一标签融合向量；基于所述第一标签融合向量和所述标签编码向量，获取所述任意两个第三实体对应的第二联合编码。 4.如权利要求1所述的方法，所述第一抽取模型和/或所述第二抽取模型包括以下模型中的一种或多种： BERT、 Transformer、 Stanford NLP或LTP。 5.如权利要求1所述的方法，所述筛选规则包括：基于所述A类实体三元组和/或所述B类实体三元组对应的所述待处理文本的时效性，获取所述目标实体三元组；基于所述A类实体三元组和/或所述B类实体三元组在所述待处理文本中的出现次数，获取所述目标实体三元组；和/或根据打分模型对所述A类实体三元组和/或所述B类实体三元组的打分结果，获取所述目标实体三元组。 6.如权利要求1所述的方法，所述第一实体、第二实体和/或第三实体为金融实体，所述金融实体的类型包括公司、人物、行业、指标、数值和地址。权　利　要　求　书 1/2 页 2 CN 114528418 B 27.一种文本处理系统，包括：文本获取模块，用于获取待处理文本； A类抽取模块，用于利用第一抽取模型，从所述待处理文本中抽取第一实体，将任意一个所述第一实体的向量分别和所述待处理文本的特征向量中每个字和/或词特征向量进行融合，获取所述第一实体和所述待处理文本的第一联合编码，基于所述第一联合编码获取每种预定义关系对应的所述待处理文本的实体标注序列，并根据所述每种所述预定义关系对应的待处理文本的实体标注序列，从所述待处理文本中抽取每种所述预定义关系对应的第二实体，以获取A类实体三元组；其中，所述实体标注用于指示所述待处理文本中与所述预定义关系对应的字和/或词；每个所述A类实体三元组包括所述第一实体、所述第二实体以及所述第一实体和所述第二实体之间的预定义关系； B类抽取模块，用于利用第二抽取模型，从所述待处理文本中抽取多个第三实体，在所述待处理文本中，为每个所述第三实体添加第一标签和第二标签，获取标签文本，基于所述标签文本获取对应的标签文本表示向量；基于所述标签文本表示向量，获取对应的标签编码向量；根据所述标签编码向量，获取所述任意两个第三实体对应的获取第二联合编码，并基于所述第二联合编码确定任意两个所述第三实体之间的开放关系，以获取多个B类实体三元组；其中，所述第一标签和所述第二标签分别用于指示所述第三实体的第一个字和最后一个字；每个所述B类实体三元组包括两个第三实体以及所述两个第三实体之间的开放关系；筛选模块，用于基于筛选规则，从所述A类实体三元组和所述B类实体三元组中获取目标实体三元组。 8.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1~6任一项所述的文本处理方法。权　利　要　求　书 2/2 页 3 CN 114528418 B 3

专利 一种文本处理方法、系统和存储介质

专利一种文本处理方法、系统和存储介质