(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210836783.1
(22)申请日 2022.07.15
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 张寅 陈强龙 李凤麟 徐国海
张佶
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 傅朝栋 张法高
(51)Int.Cl.
G06F 40/242(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/36(2019.01)
(54)发明名称
一种基于词典增强预训练模型的常识问答
方法
(57)摘要
本发明公开了一种基于词典增强预训练模
型的常识问答方法。 本发明包括如下步骤: 1)词
典知识清洗; 2)在预训练过程中, 采用描 述‑实体
预测和实体判别两个预训练任务, 将实体 ‑描述
以及同义词、 反义词送到模型编码层; 3)通过传
统的拼接式或外跳注意力机制与外挂相结合的
手段, 捕捉词典增强的预训练模 型在常识问答任
务下的实体表征, 从而建立更强的任务相关的表
征。 和现有技术相比, 本发明利用了专家构建的
词典中蕴含的知识, 并且利用任务特定输出层和
外跳注意力机制, 较好地建模目标任务的特性,
可以有效地提升模型在知识驱动型常识问答的
效果。
权利要求书2页 说明书11页 附图3页
CN 115293142 A
2022.11.04
CN 115293142 A
1.一种基于词典增强预训练模型的常识问答方法, 其特 征在于, 步骤如下:
S1: 获取多个词典知识作为训练语料, 并将各语料样本预处理为相同的输入格 式; 每个
语料样本的内容包括词 条和词条的定义描述, 同时每个词条还对应有正样本和负样本, 正
样本中包含词条的同义词和同义词的定义描述, 负样本中包含词条的反义词和反义词的定
义描述;
S2: 以BERT或RoBERTa作为原始编码器模型, 利用训练语料对编码器模型进行训练, 更
新编码器模型参数, 得到词典增强的编码器模型; 具体训练步骤如S21~S2 2:
S21: 对训练语料进行采样, 并对部分采样到的词条进行掩码处理, 遮盖词条实体内容,
形成用于通过描述预测词条实体的第一样本, 其 余采样到的词条直接作为第二样本;
S22: 同时通过描述 ‑实体预测预训练任务和实体判别预训练任务对所述编码器模型进
行迭代训练, 训练的总损失为两个预训练任务损失的加权和;
在描述‑实体预测预训练任务中, 将S21中采样得到的第一样本送入所述编码器模型
中, 得到对应的 隐藏层状态, 再通过池化层和全连接层 进行掩码预测, 并计算掩码预测损失
作为描述 ‑实体预测预训练任务的损失;
在实体判别预训练任务中, 利用S21中采样得到的第二样本并结合对应的正样本和负
样本, 进行对比学习, 由编 码器模型获取每个样本对应的词条和定义描述的表征, 计算对比
学习损失作为实体判别预训练任务的损失, 以拉近同义词表征距离, 分离反义词之间的表
征距离;
S3: 完成S2中的模型训练后, 结合所述词典增 强的编码器模型和原始编码器模型形成
双塔编码器模型, 并在双塔编码器模型后连接 问答任务输出层, 得到问答模型; 其中, 双塔
编码器模型 的输入为问题文本, 输入的问题文本经过原始编码器模型得到第一表征, 同时
基于词典对输入的问题文本进 行匹配以识别出问题文本中的所有词条, 识别出的词条经过
所述词典增强的编 码器模型得到第二表征, 将第一表征和 第二表征融合后输入问答任务输
出层中进 行回答预测; 基于问答数据集对所述问答模型中的原始编 码器模型和问答任务输
出层进行微调;
S4、 基于S3中微调完毕后的所述问答模型, 根据输入的问题预测得到问题的答案 。
2.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问
答模型中, 原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作
为第一表征hc, 而所述词典增强的编码器模型分别对每一个识别出的词条进行编码, 最终
输出每一个词条的词嵌入, 将所有词条的词嵌入相加后的总和作为第二表征
3.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问
答模型中, 原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作
为第一表征hc, 而所述词典增强的编码器模型分别对每一个识别出的词条进行编码, 最终
输出每一个词条的词嵌入, 通过注意力机制计算所有词条的词嵌入加权和作为第二表征
其中: ATT表示注意力函数, hc作为注意力函数的键(Key)和值(Value), ei作为注意力函
数的查询(Quer y), ei表示第i个识别的词条或者词条与其定义描述通过所述词典增强的编权 利 要 求 书 1/2 页
2
CN 115293142 A
2码器模型 得到的最终输出, K 是从问题文本中识别到的词条总数。
4.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问
答模型中, 原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作
为第一表征hc, 而所述词典增强的编码器模型分别对每一个识别出的词条进行编码, 提取
所述原始编 码器模型和所述词典增强的编 码器模型各自的每一层输出, 并通过注意力机制
计算任意第l层输出的所有词条的词嵌入加权和
然后将所有层的词嵌入加权和
进行平
均得到第二表征
其中, hl表示问题文本输入原始编码器模 型后在模 型第l层的输出,
表示第i个识别的
词条或者词条与其定义描述输入所述词典增强的编 码器模型后在 模型第l层的输出; ATT表
示注意力函数, hl作为注意力函数的键(Key)和值(Value), ei作为注意力函数的查询
(Query); L表 示所述原始编码 器模型和所述词典增强的编码器模 型中的总层数, K是从问题
文本中识别到的词条总数。
5.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问
答模型中, 通过得到的第一表征hc和第二表征
拼接后输入 问答任务输出层中进行回答预
测。
6.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述S1
中, 每个语料样本中的词条e和定义描述desc均通过增加[CLS]和[SEP]预处理为相同的输
入格式s={[CLS]e[ SEP]desc[ SEP]}。
7.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述
S22中, 掩码预测损失Ldep采用交叉熵损失。
8.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述
S22中, 对比学习损失Ledd计算公式如下:
其中: e表示训练语料中的词条, D表示训练的词条集合;
分布表示语料
样本、 正样本、 负 样本中的词条和词条的定义描述 拼接后送入编码器模型 得到的隐藏状态。
9.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述S2
中, 对编码器模型进行训练时采用的总损失函数的计算公式为:
L= λ1Ldep+λ2Ledd
其中λ1和 λ2分别表示两个任务的损失函数的权 重值。
10.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述
问答任务输出层由L inner层和Softmax层组成。权 利 要 求 书 2/2 页
3
CN 115293142 A
3
专利 一种基于词典增强预训练模型的常识问答方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:32上传分享