说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210863390.X (22)申请日 2022.07.21 (71)申请人 联想 (北京) 有限公司 地址 100085 北京市海淀区上地西路6号2 幢2层201- H2-6 (72)发明人 刘思良 崔恒 沈泽希  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 周艳 徐川 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) (54)发明名称 一种实体关系抽取方法、 装置、 设备及存储 介质 (57)摘要 本申请公开了一种实体关系抽取方法、 装 置、 设备及存储介质, 其中, 所述方法包括: 识别 待识别文本, 得到所述待识别文本中至少两个实 体和所述两个实体所属的类型; 根据所述待识别 文本对应的本体图获得用于预测实体之间关系 的实体关系转移矩阵, 基于所述两个实体所属的 类型查询所述实体 关系转移矩阵, 得到所述两个 实体的第一 关系分类结果; 对所述第一关系分类 结果和第二 关系分类结果进行融合处理, 得到所 述两个实体的目标关系分类结果, 其中, 所述第 二关系分类结果是通过实体关系分类模型识别 所述待识别文本得到的。 权利要求书2页 说明书13页 附图4页 CN 115238092 A 2022.10.25 CN 115238092 A 1.一种实体关系抽取 方法, 其特 征在于, 所述方法包括: 识别待识别文本, 得到所述待识别文本中至少两个实体和所述两个实体所属的类型; 根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵, 基于所述两个实体所属的类型查询所述 实体关系转移矩阵, 得到所述两个实体的第一关系 分类结果; 对所述第一关系分类结果和第 二关系分类结果进行融合处理, 得到所述两个实体的目 标关系分类结果, 其中, 所述第二关系分类结果是通过实体关系分类模型识别所述待识别 文本得到的。 2.如权利要求1所述的方法, 所述对所述第一关系分类结果和第二关系分类结果进行 融合处理包括以下至少一种: 基于所述第一关系分类结果, 对所述第二关系分类结果进行修 正处理; 对所述第一关系分类结果和所述第二关系分类结果进行加权求和处 理。 3.如权利要求1所述的方法, 所述方法还 包括: 确定所述待识别文本的领域; 基于所述待识别文本的领域确定所述待识别文本对应的本体图; 根据所述本体图确定所述实体关系转移 矩阵。 4.如权利要求3所述的方法, 所述基于所述待识别文本的领域确定所述待识别文本对 应的本体图, 包括: 确定所述待识别文本的领域中的N种实体类型和M种实体类型关系, 其中, N为大于等于 2的整数, M为大于等于1的整数; 基于所述的N种实体 类型和M种实体 类型关系定义所述本体图。 5.如权利要求 4所述的方法, 所述 根据所述本体图确定所述实体关系转移 矩阵, 包括: 定义所述N种实体类型中每两种实体类型存在的关系概率分布Pti,tj, 其中, Pti,tj包括M 个概率分布数据, 每一所述概率分布数据对应一种实体类型关系概率, i和j均为小于等于N 的整数; 基于所述N种实体类型、 所述M种实体类型关系和所述关系概率分布Pti,tj定义所述实体 关系转移 矩阵。 6.如权利要求5所述的方法, 所述基于所述N种实体类型、 所述M种实体类型关系和所述 关系概率分布Pti,tj定义所述实体关系转移 矩阵, 包括以下至少一种: 在确定实体类别ti和实体类别tj 不存在实体关系的情况下, 将所述关系概率分布Pti,tj 中所有值设置为 ‑X, X为正整数; 在确定实体类别ti和实体类别tj存在一种实体关系的情况下, 将存在一种实体关系的 概率分布值设置为X, 其 余关系概 率分布值设置为0; 在确定实体类别ti和实体类别tj存在K种实体关系的情况下, 将所述K种实体关系中的 每一种实体关系对应的关系概 率分布值设置为1/k, 其 余关系概 率分布值设置为0 。 7.如权利要求1所述的方法, 所述方法还 包括: 获得用于训练所述实体关系分类模型的非结构文本; 基于命名实体识别模型从所述非结构文本中抽取 出训练样本集 合; 基于所述实体关系转移 矩阵从所述训练样本集 合中确定目标负 样本和目标正样本;权 利 要 求 书 1/2 页 2 CN 115238092 A 2基于所述目标负 样本和所述目标正样本训练所述实体关系分类模型。 8.如权利要求7所述的方法, 所述基于所述实体关系转移矩阵从所述训练样本集合中 确定目标负 样本和目标正样本, 包括: 确定目标关系, 其中, 所述目标关系为 正样本头实体与正样本尾实体之间的关系; 利用所述实体关系转移矩阵, 基于所述目标关系从所述训练样本集合中确定所述目标 正样本; 利用所述实体关系转移矩阵, 基于所述正样本头实体和所述正样本尾实体确定困难负 样本和一般负 样本; 按比例选取 所述困难负 样本和所述 一般负样本, 得到目标负 样本。 9.如权利要求8所述的方法, 所述利用所述实体转关系移矩阵, 基于所述正样本头实体 和所述正样本尾实体确定困难负 样本和一般负 样本, 包括: 基于所述实体关系转移矩阵, 确定所述非结构文本 中除了所述正样本头实体之外的头 实体为负样本头实体, 确定所述 非结构文本中除了所述正样本尾实体之外的尾实体为负样 本尾实体; 其中, 所述正样本头实体与所述负样本尾实体组合, 得到第 一困难负样本; 所述负样本 头实体与所述正样本尾实体组合, 得到第二困难负样本; 存在其他关系的所述负样本头实 体与所述负 样本尾实体组合, 得到第三困难负 样本; 基于所述第 一困难负样本、 所述第 二困难负样本和所述第 三困难负样本确定所述困难 负样本; 组合不存在关系的所述负 样本头实体与所述负 样本尾实体, 得到所述 一般负样本。 10.一种实体关系抽取装置, 其特 征在于, 所述装置包括: 识别模块, 用于识别待识别文本, 得到所述待识别文本中至少两个实体和所述两个实 体所属的类型; 第一获得模块, 用于根据所述待识别文本对应的本体图获得用于预测实体之间关系的 实体关系转移矩阵, 基于所述两个实体所属的类型查询所述实体关系转移矩阵, 得到所述 两个实体的第一关系分类结果; 融合模块, 用于对所述第一关系分类结果和第二关系分类结果进行融合处理, 得到所 述两个实体的目标关系分类结果, 其中, 所述第二关系分类结果是通过实体关系分类模型 识别所述待识别文本得到的。权 利 要 求 书 2/2 页 3 CN 115238092 A 3

.PDF文档 专利 一种实体关系抽取方法、装置、设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体关系抽取方法、装置、设备及存储介质 第 1 页 专利 一种实体关系抽取方法、装置、设备及存储介质 第 2 页 专利 一种实体关系抽取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。