说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210660627.4 (22)申请日 2022.06.13 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 雋兆波 代翔 李春豹 杨露  陈莹 刘鑫  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 刘世权 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) (54)发明名称 一种多任务的知识图谱问答方法 (57)摘要 本发明公开了一种多任务的知识图谱问答 方法, 该方法基于命名实体识别模 型识别问题实 体, 构建辅助Elasticsearch数据库提高对问题 实体的泛化能力, 同时通过精确匹配提高实体候 选关系的检索效率, 建立语义相似匹配模型计算 问题和候选关系的相似性, 在问题关系识别上具 有很好的泛化能力。 通过建立流程式的知识图谱 问答模型, 分模块识别问题实体、 关系, 整体上提 高问答准确率, 解决单实体单关系、 单实体多关 系、 双实体类型问题的答案检索, 解决了目前用 户问题中的实体通常具有一定的泛化性, 知 识库 数据的体量越来越大, 直接根据问题实体从知识 库中进行候选关系的查询存在实体检索不到、 模 糊查询效率慢的技 术问题。 权利要求书2页 说明书7页 附图3页 CN 115292443 A 2022.11.04 CN 115292443 A 1.一种多任务的知识图谱问答方法, 其特 征在于, 所述方法包括以下步骤: S1: 准备结构化文本数据, 按照实体 ‑关系‑实体的三元组形式建立知识图谱数据库; S2: 基于知识图谱数据库准备模型需要的训练语料; S3: 根据知识图谱数据库建立相关实体的辅助Elasticsearc h数据库; S4: 训练Ber t‑BILSTM‑CRF命名实体识别模型和Ber t语义相似匹配模型; S5: 基于Bert ‑BILSTM‑CRF命名实体识别模型进行问题中实体识别, 根据问题实体在辅 助Elasticsearc h数据库中进行Es检索获取对应实体全称; S6: 由实体全称从图谱数据库中进行精确检索, 获取对应实体的所有候选关系, 再由 Bert语义相似匹配模型获取和问题最 为匹配的实体关系; S7: 由获取的实体、 关系根据定义的路径规则进行答案检索。 2.如权利要求1所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S1具体为: 以结构化文本数据作为知识图谱问答的基础数据, 将结构化文本数据之间的关联关系按照 实体‑关系‑实体的三元组方式存储进图数据库当中, 通过关系相互连接构成网状的知识结 构, 以获得知识图谱数据库。 3.如权利要求1所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S3具体包 括: 根据知识图谱 数据库中的实体全称、 实体简称和实体别称构建辅助Elasticsearch数据 库。 4.如权利要求1所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S5具体包 括: S51: 利用Bert层对原始数据进出编码, 得到该序列的编码向量, 利用BILSTM层训练学 习到文本依赖 关系和上下文的语义信息, 利用CRF层为BILSTM层的输出增加约束, 以对问题 中的实体进行识别; S52: 利用相关实体Elasticsearch数据库进行Es检索, 当Es检索结果阈值大于预设阈 值时, 则直接 输出对应实体全称, 否则, 输出相关实体名称供用户选择。 5.如权利要求4所述的多任务的知识图谱问答方法, 其特征在于, 所述由Bert语义相似 匹配模型获取和问题最 为匹配的实体关系, 具体为: S61: 将问题P={p1,…,pn}和候选实体关系Q ={q1,…,qn}按如下方式拼接作为输入: X={[CLS],p1,…,pn,[SEP],q1,…,qn,[SEP]} S62: 利用Ber t编码层对输入X进行编码, 输出 X对应的编码向量: Bert(X)=L={l1,l2,…,lm} 其中L∈Rm*d, m输入X的长度, li为第i个字符的表示向量; S63: 利用聚合层将Bert输出的编码向量和Attention获取的信息进行连接, 输入至双 向的BILSTM层, 最后经 过池化得到固定 长度的向量, 并将其 转化为概率值; S64: 设置阈值参数score, 如果大于该阈值则判定该条关系和问题所匹配, 基于该模型 获取和输入问题最 为相似的实体关系。 6.如权利要求5所述的多任务的知识图谱问答方法, 其特征在于, 所述概率值的表达式 为: P=Softmax[w*r+b] 其中, r为池化后输出的文本向量, P为预测的相似性概率值, w、 r分别为权重参数和偏权 利 要 求 书 1/2 页 2 CN 115292443 A 2置项参数。 7.如权利要求6所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S6具体为: 根据实体以及关系数量, 分别完成单实体单关系、 单实体多关系、 双实体 问题的答案检索; 其中: 对于单实体单关系问题, 可根据(entity, relati on, answer)形式获取答案; 对于单实体多关系问题, 若为单跳内多关系可根据(entity, relation, answer)形式获 取答案; 若为多跳内多关系, 将实体和候选关系进行组合, 验证其是否能满足查询路径 (entity, relati on1, relati on2, answer), 满足则输出问题答案; 对于双实体问题, 将实体和候选关系进行组合, 验证其是否能满足查询路径(entity1, relation1, answer, relati on2, entity2), 满足则输出问题答案 。权 利 要 求 书 2/2 页 3 CN 115292443 A 3

.PDF文档 专利 一种多任务的知识图谱问答方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多任务的知识图谱问答方法 第 1 页 专利 一种多任务的知识图谱问答方法 第 2 页 专利 一种多任务的知识图谱问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。