(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210660627.4
(22)申请日 2022.06.13
(71)申请人 中国电子科技 集团公司第十 研究所
地址 610000 四川省成 都市金牛区茶店子
东街48号
(72)发明人 雋兆波 代翔 李春豹 杨露
陈莹 刘鑫
(74)专利代理 机构 成都九鼎天元知识产权代理
有限公司 51214
专利代理师 刘世权
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/36(2019.01)
G06F 40/295(2020.01)
(54)发明名称
一种多任务的知识图谱问答方法
(57)摘要
本发明公开了一种多任务的知识图谱问答
方法, 该方法基于命名实体识别模 型识别问题实
体, 构建辅助Elasticsearch数据库提高对问题
实体的泛化能力, 同时通过精确匹配提高实体候
选关系的检索效率, 建立语义相似匹配模型计算
问题和候选关系的相似性, 在问题关系识别上具
有很好的泛化能力。 通过建立流程式的知识图谱
问答模型, 分模块识别问题实体、 关系, 整体上提
高问答准确率, 解决单实体单关系、 单实体多关
系、 双实体类型问题的答案检索, 解决了目前用
户问题中的实体通常具有一定的泛化性, 知 识库
数据的体量越来越大, 直接根据问题实体从知识
库中进行候选关系的查询存在实体检索不到、 模
糊查询效率慢的技 术问题。
权利要求书2页 说明书7页 附图3页
CN 115292443 A
2022.11.04
CN 115292443 A
1.一种多任务的知识图谱问答方法, 其特 征在于, 所述方法包括以下步骤:
S1: 准备结构化文本数据, 按照实体 ‑关系‑实体的三元组形式建立知识图谱数据库;
S2: 基于知识图谱数据库准备模型需要的训练语料;
S3: 根据知识图谱数据库建立相关实体的辅助Elasticsearc h数据库;
S4: 训练Ber t‑BILSTM‑CRF命名实体识别模型和Ber t语义相似匹配模型;
S5: 基于Bert ‑BILSTM‑CRF命名实体识别模型进行问题中实体识别, 根据问题实体在辅
助Elasticsearc h数据库中进行Es检索获取对应实体全称;
S6: 由实体全称从图谱数据库中进行精确检索, 获取对应实体的所有候选关系, 再由
Bert语义相似匹配模型获取和问题最 为匹配的实体关系;
S7: 由获取的实体、 关系根据定义的路径规则进行答案检索。
2.如权利要求1所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S1具体为:
以结构化文本数据作为知识图谱问答的基础数据, 将结构化文本数据之间的关联关系按照
实体‑关系‑实体的三元组方式存储进图数据库当中, 通过关系相互连接构成网状的知识结
构, 以获得知识图谱数据库。
3.如权利要求1所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S3具体包
括: 根据知识图谱 数据库中的实体全称、 实体简称和实体别称构建辅助Elasticsearch数据
库。
4.如权利要求1所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S5具体包
括:
S51: 利用Bert层对原始数据进出编码, 得到该序列的编码向量, 利用BILSTM层训练学
习到文本依赖 关系和上下文的语义信息, 利用CRF层为BILSTM层的输出增加约束, 以对问题
中的实体进行识别;
S52: 利用相关实体Elasticsearch数据库进行Es检索, 当Es检索结果阈值大于预设阈
值时, 则直接 输出对应实体全称, 否则, 输出相关实体名称供用户选择。
5.如权利要求4所述的多任务的知识图谱问答方法, 其特征在于, 所述由Bert语义相似
匹配模型获取和问题最 为匹配的实体关系, 具体为:
S61: 将问题P={p1,…,pn}和候选实体关系Q ={q1,…,qn}按如下方式拼接作为输入:
X={[CLS],p1,…,pn,[SEP],q1,…,qn,[SEP]}
S62: 利用Ber t编码层对输入X进行编码, 输出 X对应的编码向量:
Bert(X)=L={l1,l2,…,lm}
其中L∈Rm*d, m输入X的长度, li为第i个字符的表示向量;
S63: 利用聚合层将Bert输出的编码向量和Attention获取的信息进行连接, 输入至双
向的BILSTM层, 最后经 过池化得到固定 长度的向量, 并将其 转化为概率值;
S64: 设置阈值参数score, 如果大于该阈值则判定该条关系和问题所匹配, 基于该模型
获取和输入问题最 为相似的实体关系。
6.如权利要求5所述的多任务的知识图谱问答方法, 其特征在于, 所述概率值的表达式
为:
P=Softmax[w*r+b]
其中, r为池化后输出的文本向量, P为预测的相似性概率值, w、 r分别为权重参数和偏权 利 要 求 书 1/2 页
2
CN 115292443 A
2置项参数。
7.如权利要求6所述的多任务的知识图谱问答方法, 其特征在于, 所述步骤S6具体为:
根据实体以及关系数量, 分别完成单实体单关系、 单实体多关系、 双实体 问题的答案检索;
其中:
对于单实体单关系问题, 可根据(entity, relati on, answer)形式获取答案;
对于单实体多关系问题, 若为单跳内多关系可根据(entity, relation, answer)形式获
取答案; 若为多跳内多关系, 将实体和候选关系进行组合, 验证其是否能满足查询路径
(entity, relati on1, relati on2, answer), 满足则输出问题答案;
对于双实体问题, 将实体和候选关系进行组合, 验证其是否能满足查询路径(entity1,
relation1, answer, relati on2, entity2), 满足则输出问题答案 。权 利 要 求 书 2/2 页
3
CN 115292443 A
3
专利 一种多任务的知识图谱问答方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:42上传分享