专利 一种基于知识图谱关系预测的问题链生成方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210464241.6 (22)申请日 2022.04.29 (71)申请人华侨大学地址 362000 福建省泉州市丰泽区城东城华北路269号 (72)发明人王华珍　张恒彰　刘晓聪　汪晓凤　徐婷婷　李弼程　缑锦　 (74)专利代理机构厦门市首创君合专利事务所有限公司 3 5204 专利代理师李艾华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/211(2020.01)G06F 40/295(2020.01) (54)发明名称一种基于知识图谱关系预测的问题链生成方法及系统 (57)摘要本发明公开了一种基于知识图谱关系预测的问题链生成方法及系统，能够基于问句知识图谱自动生成问题链，包括：基于问句知识图谱构建问题链数据集；对问题链的问句实体进行特征初始化，并通过特征融合方法获得问题链的融合头实体和待测尾实体的初始向量；将融合头实体和待测尾实体的初始向量送入QCG ‑KGLP模型的 Graph Attention图表示学习模块中，从而获得融合头实体和待测尾实体的表示向量；将融合头实体和待测尾实体的表示向量输入到QCG ‑KGLP 模型的convKB模块中进行链接预测，从而实现问题链生成。本发明能有效生成适应教学场景的有关联、有梯度的问题链，从而助力教师开展提问教学与提升学生思维能力。权利要求书3页说明书9页附图2页 CN 114860877 A 2022.08.05 CN 114860877 A 1.一种基于知识图谱关系预测的问题链生成方法，其特征在于，包括如下步骤：步骤1、基于问句知识图谱构建问题链数据集；步骤2、对问题链的问句实体进行特征初始化，并通过特征融合方法获得问题链的融合头实体和待测尾实体的初始向量；步骤3、将融合头实体和待测尾实体的初始向量送入QCG ‑KGLP模型的Graph Attention 图表示学习模块中，从而获得融合头实体和待测尾实体的表示向量；步骤4、将融合头实体和待测尾实体的表示向量输入到QCG ‑KGLP模型的convKB模块中进行链接预测，从而实现问题链生成。 2.根据权利要求1所述的基于知识图谱关系预测的问题链生成方法，其特征在于，所述步骤1具体包括：步骤1.1、给定问句知识图谱G，在问句知识图谱G中包含问句实体集合H＝{e1， e2， ...， eN}，其中N为问句知识图谱G的实体个数；以任意一个问句实体e为起点沿着图拓扑抓取num 条问题链，获得问句实体e的问题链集合D ′＝{d1， d2， ...， dnum}，其中每个问题链d由多跳三元组组成，即包含问句实体集合E＝{e1， e2， ...， el}， l表示每个问题链d的长度；其中， N＞l， l对应的集合属于N的子集；步骤1.2、遍历问句知识图谱G中所有的问句实体，将问句实体集合H中每个问句实体e 所得到的问题链集合D ′添加到问题链数据集D中，得到问句知识图谱G所对应的问题链数据集D＝{d1， d2， ...， dO}，其中O为问题链总个数。 3.根据权利要求2所述的基于知识图谱关系预测的问题链生成方法，其特征在于，所述步骤2具体包括：步骤2.1、将每个问句实体e进行分词并去除停用词预处理，得到分词集合C＝{c1， c2， ...， cn}，其中n表示预处理后每个问句实体e包含的单词个数；步骤2.2、将步骤2.1得到的分词集合C通过GloVe预训练模型进行初始向量表示，获得词向量集合W＝{w1， w2， ...， wn}，其中，词向量 w表示为： w＝GloVe(c) (1) 其中， GloVe为GloVe预训练模型的词向量表达函数；步骤2.3、基于步骤2.2 获得的词向量集合W，通过对问句实体e中的分词集合C的词向量集合W进行加权平均，获得每个问题链d的问句实体的初始向量集合Q＝{q1， q2， ...， ql}，其中问句实体e的初始向量q表示为：步骤2.4、针对每个问题链d，用前l ‑1个问句实体的信息作为该问题链d的融合头实体 S，其初始向量hS表示为：其中， i表示问句实体ei在问题链d中从初始节点开始计算的位置排名；步骤2.5、针对每个问题链d，将第l个问句实体作为待测尾实体ej，其向量hj表示为： hj＝ql (4)。 4.根据权利要求3所述的基于知识图谱关系预测的问题链生成方法，其特征在于，所述步骤3具体包括：权　利　要　求　书 1/3 页 2 CN 114860877 A 2步骤3.1、将步骤2.4的融合头实体的初始向量hS及步骤2.5的待测尾实体向量hj送入基于图Attention的问句知识图谱表示学习模块中，计算问题链d中融合头实体S与待测尾实体ej的注意力系数αSj，其公式为： bSj＝LeakyReLU(W2cSj) (6) cSj＝W1[hS||hj||gr] (7) 其中，关系向量gr是融合头实体S和待测尾实体 ej的关系r的嵌入向量， W1、 W2表示线性转换矩阵， ||表示连接符号， cSj表示融合头实体S和待测尾实体ej所组成三元组的加权线性组合， bSj表示融合头实体S和待测尾实体ej的相对注意力矩阵， NS表示所有与融合头实体S相邻的实体集合， en是属于NS的实体， bSn表示融合头实体S和实体en的相对注意力矩阵；步骤3.2、基于步骤3.1中得到的融合头实体S与待测尾实体ej的加权线性组合cSj以及注意力系数αSj，计算经过基于图Attention的问句知识图谱表示学习模块后获得的融合头实体S的表示向量h ’S：其中， σ 表示任意的非线性函数， M表示独立注意力层的层数；步骤3.3、基于步骤2.4的融合头节点S的初始向量hS与步骤3.2的表示向量h ′S，计算融合头实体S的最终表示向量h ”S，其计算方式为： h”S＝WEhS+h′S (9) 其中， WE是需要训练的线性转换矩阵。 5.根据权利要求4所述的基于知识图谱关系预测的问题链生成方法，其特征在于，所述步骤4具体包括：步骤4.1、将步骤3.3的融合头实体S的最终表示向量h ”S、步骤2.5的待测尾实体向量hj 以及关系向量gr送入基于convKB的问题链关系判别器中，计算融合头实体S与待测尾实体ej 是否存在链式关系的得分函数其计算方法如下：其中，表示融合头实体S与待测尾实体ej组成的预测问题链， ωm表示第m个卷积过滤器， Ω表示模型中的过滤器数量的超参数， *是卷积运算符， W是线性转化矩阵， levelS表示融合头实体S中最后一个节点eS的问句难度系数， levelj表示待测尾实体ej的问句难度系数；步骤4.2、基于步骤4.1的得分函数计算QCG‑KGLP模型下游任务的损失其中，表示融合头实体S与待测尾实体ej组成的预测问题链，当时， lSj＝‑1；当时， lSj＝1； J表示正确的问题链集合， J’表示错误的问题链集合；步骤4.3、基于步骤3.3的融合头实体S的最终表示向量h ”S、步骤2.5的待测尾实体向量 hj以及关系向量gr，计算QCG‑KGLP模型中基于图Attention的问句知识图谱表示学习模块的权　利　要　求　书 2/3 页 3 CN 114860877 A 3

专利 一种基于知识图谱关系预测的问题链生成方法及系统

专利一种基于知识图谱关系预测的问题链生成方法及系统