专利 一种基于词典增强预训练模型的常识问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210836783.1 (22)申请日 2022.07.15 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人张寅　陈强龙　李凤麟　徐国海　张佶　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师傅朝栋　张法高 (51)Int.Cl. G06F 40/242(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) (54)发明名称一种基于词典增强预训练模型的常识问答方法 (57)摘要本发明公开了一种基于词典增强预训练模型的常识问答方法。本发明包括如下步骤： 1)词典知识清洗； 2)在预训练过程中，采用描述‑实体预测和实体判别两个预训练任务，将实体 ‑描述以及同义词、反义词送到模型编码层； 3)通过传统的拼接式或外跳注意力机制与外挂相结合的手段，捕捉词典增强的预训练模型在常识问答任务下的实体表征，从而建立更强的任务相关的表征。和现有技术相比，本发明利用了专家构建的词典中蕴含的知识，并且利用任务特定输出层和外跳注意力机制，较好地建模目标任务的特性，可以有效地提升模型在知识驱动型常识问答的效果。权利要求书2页说明书11页附图3页 CN 115293142 A 2022.11.04 CN 115293142 A 1.一种基于词典增强预训练模型的常识问答方法，其特征在于，步骤如下： S1：获取多个词典知识作为训练语料，并将各语料样本预处理为相同的输入格式；每个语料样本的内容包括词条和词条的定义描述，同时每个词条还对应有正样本和负样本，正样本中包含词条的同义词和同义词的定义描述，负样本中包含词条的反义词和反义词的定义描述； S2：以BERT或RoBERTa作为原始编码器模型，利用训练语料对编码器模型进行训练，更新编码器模型参数，得到词典增强的编码器模型；具体训练步骤如S21～S2 2： S21：对训练语料进行采样，并对部分采样到的词条进行掩码处理，遮盖词条实体内容，形成用于通过描述预测词条实体的第一样本，其余采样到的词条直接作为第二样本； S22：同时通过描述 ‑实体预测预训练任务和实体判别预训练任务对所述编码器模型进行迭代训练，训练的总损失为两个预训练任务损失的加权和；在描述‑实体预测预训练任务中，将S21中采样得到的第一样本送入所述编码器模型中，得到对应的隐藏层状态，再通过池化层和全连接层进行掩码预测，并计算掩码预测损失作为描述 ‑实体预测预训练任务的损失；在实体判别预训练任务中，利用S21中采样得到的第二样本并结合对应的正样本和负样本，进行对比学习，由编码器模型获取每个样本对应的词条和定义描述的表征，计算对比学习损失作为实体判别预训练任务的损失，以拉近同义词表征距离，分离反义词之间的表征距离； S3：完成S2中的模型训练后，结合所述词典增强的编码器模型和原始编码器模型形成双塔编码器模型，并在双塔编码器模型后连接问答任务输出层，得到问答模型；其中，双塔编码器模型的输入为问题文本，输入的问题文本经过原始编码器模型得到第一表征，同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条，识别出的词条经过所述词典增强的编码器模型得到第二表征，将第一表征和第二表征融合后输入问答任务输出层中进行回答预测；基于问答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调； S4、基于S3中微调完毕后的所述问答模型，根据输入的问题预测得到问题的答案。 2.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征hc，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，将所有词条的词嵌入相加后的总和作为第二表征 3.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征hc，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，通过注意力机制计算所有词条的词嵌入加权和作为第二表征其中： ATT表示注意力函数， hc作为注意力函数的键(Key)和值(Value)， ei作为注意力函数的查询(Quer y)， ei表示第i个识别的词条或者词条与其定义描述通过所述词典增强的编权　利　要　求　书 1/2 页 2 CN 115293142 A 2码器模型得到的最终输出， K 是从问题文本中识别到的词条总数。 4.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征hc，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，提取所述原始编码器模型和所述词典增强的编码器模型各自的每一层输出，并通过注意力机制计算任意第l层输出的所有词条的词嵌入加权和然后将所有层的词嵌入加权和进行平均得到第二表征其中， hl表示问题文本输入原始编码器模型后在模型第l层的输出，表示第i个识别的词条或者词条与其定义描述输入所述词典增强的编码器模型后在模型第l层的输出； ATT表示注意力函数， hl作为注意力函数的键(Key)和值(Value)， ei作为注意力函数的查询 (Query)； L表示所述原始编码器模型和所述词典增强的编码器模型中的总层数， K是从问题文本中识别到的词条总数。 5.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，通过得到的第一表征hc和第二表征拼接后输入问答任务输出层中进行回答预测。 6.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述S1 中，每个语料样本中的词条e和定义描述desc均通过增加[CLS]和[SEP]预处理为相同的输入格式s＝{[CLS]e[ SEP]desc[ SEP]}。 7.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述 S22中，掩码预测损失Ldep采用交叉熵损失。 8.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述 S22中，对比学习损失Ledd计算公式如下：其中： e表示训练语料中的词条， D表示训练的词条集合；分布表示语料样本、正样本、负样本中的词条和词条的定义描述拼接后送入编码器模型得到的隐藏状态。 9.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述S2 中，对编码器模型进行训练时采用的总损失函数的计算公式为： L＝ λ1Ldep+λ2Ledd 其中λ1和 λ2分别表示两个任务的损失函数的权重值。 10.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答任务输出层由L inner层和Softmax层组成。权　利　要　求　书 2/2 页 3 CN 115293142 A 3

专利 一种基于词典增强预训练模型的常识问答方法

专利一种基于词典增强预训练模型的常识问答方法