说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210836783.1 (22)申请日 2022.07.15 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 张寅 陈强龙 李凤麟 徐国海  张佶  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 傅朝栋 张法高 (51)Int.Cl. G06F 40/242(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) (54)发明名称 一种基于词典增强预训练模型的常识问答 方法 (57)摘要 本发明公开了一种基于词典增强预训练模 型的常识问答方法。 本发明包括如下步骤: 1)词 典知识清洗; 2)在预训练过程中, 采用描 述‑实体 预测和实体判别两个预训练任务, 将实体 ‑描述 以及同义词、 反义词送到模型编码层; 3)通过传 统的拼接式或外跳注意力机制与外挂相结合的 手段, 捕捉词典增强的预训练模 型在常识问答任 务下的实体表征, 从而建立更强的任务相关的表 征。 和现有技术相比, 本发明利用了专家构建的 词典中蕴含的知识, 并且利用任务特定输出层和 外跳注意力机制, 较好地建模目标任务的特性, 可以有效地提升模型在知识驱动型常识问答的 效果。 权利要求书2页 说明书11页 附图3页 CN 115293142 A 2022.11.04 CN 115293142 A 1.一种基于词典增强预训练模型的常识问答方法, 其特 征在于, 步骤如下: S1: 获取多个词典知识作为训练语料, 并将各语料样本预处理为相同的输入格 式; 每个 语料样本的内容包括词 条和词条的定义描述, 同时每个词条还对应有正样本和负样本, 正 样本中包含词条的同义词和同义词的定义描述, 负样本中包含词条的反义词和反义词的定 义描述; S2: 以BERT或RoBERTa作为原始编码器模型, 利用训练语料对编码器模型进行训练, 更 新编码器模型参数, 得到词典增强的编码器模型; 具体训练步骤如S21~S2 2: S21: 对训练语料进行采样, 并对部分采样到的词条进行掩码处理, 遮盖词条实体内容, 形成用于通过描述预测词条实体的第一样本, 其 余采样到的词条直接作为第二样本; S22: 同时通过描述 ‑实体预测预训练任务和实体判别预训练任务对所述编码器模型进 行迭代训练, 训练的总损失为两个预训练任务损失的加权和; 在描述‑实体预测预训练任务中, 将S21中采样得到的第一样本送入所述编码器模型 中, 得到对应的 隐藏层状态, 再通过池化层和全连接层 进行掩码预测, 并计算掩码预测损失 作为描述 ‑实体预测预训练任务的损失; 在实体判别预训练任务中, 利用S21中采样得到的第二样本并结合对应的正样本和负 样本, 进行对比学习, 由编 码器模型获取每个样本对应的词条和定义描述的表征, 计算对比 学习损失作为实体判别预训练任务的损失, 以拉近同义词表征距离, 分离反义词之间的表 征距离; S3: 完成S2中的模型训练后, 结合所述词典增 强的编码器模型和原始编码器模型形成 双塔编码器模型, 并在双塔编码器模型后连接 问答任务输出层, 得到问答模型; 其中, 双塔 编码器模型 的输入为问题文本, 输入的问题文本经过原始编码器模型得到第一表征, 同时 基于词典对输入的问题文本进 行匹配以识别出问题文本中的所有词条, 识别出的词条经过 所述词典增强的编 码器模型得到第二表征, 将第一表征和 第二表征融合后输入问答任务输 出层中进 行回答预测; 基于问答数据集对所述问答模型中的原始编 码器模型和问答任务输 出层进行微调; S4、 基于S3中微调完毕后的所述问答模型, 根据输入的问题预测得到问题的答案 。 2.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问 答模型中, 原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作 为第一表征hc, 而所述词典增强的编码器模型分别对每一个识别出的词条进行编码, 最终 输出每一个词条的词嵌入, 将所有词条的词嵌入相加后的总和作为第二表征 3.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问 答模型中, 原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作 为第一表征hc, 而所述词典增强的编码器模型分别对每一个识别出的词条进行编码, 最终 输出每一个词条的词嵌入, 通过注意力机制计算所有词条的词嵌入加权和作为第二表征 其中: ATT表示注意力函数, hc作为注意力函数的键(Key)和值(Value), ei作为注意力函 数的查询(Quer y), ei表示第i个识别的词条或者词条与其定义描述通过所述词典增强的编权 利 要 求 书 1/2 页 2 CN 115293142 A 2码器模型 得到的最终输出, K 是从问题文本中识别到的词条总数。 4.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问 答模型中, 原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作 为第一表征hc, 而所述词典增强的编码器模型分别对每一个识别出的词条进行编码, 提取 所述原始编 码器模型和所述词典增强的编 码器模型各自的每一层输出, 并通过注意力机制 计算任意第l层输出的所有词条的词嵌入加权和 然后将所有层的词嵌入加权和 进行平 均得到第二表征 其中, hl表示问题文本输入原始编码器模 型后在模 型第l层的输出, 表示第i个识别的 词条或者词条与其定义描述输入所述词典增强的编 码器模型后在 模型第l层的输出; ATT表 示注意力函数, hl作为注意力函数的键(Key)和值(Value), ei作为注意力函数的查询 (Query); L表 示所述原始编码 器模型和所述词典增强的编码器模 型中的总层数, K是从问题 文本中识别到的词条总数。 5.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述问 答模型中, 通过得到的第一表征hc和第二表征 拼接后输入 问答任务输出层中进行回答预 测。 6.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述S1 中, 每个语料样本中的词条e和定义描述desc均通过增加[CLS]和[SEP]预处理为相同的输 入格式s={[CLS]e[ SEP]desc[ SEP]}。 7.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述 S22中, 掩码预测损失Ldep采用交叉熵损失。 8.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述 S22中, 对比学习损失Ledd计算公式如下: 其中: e表示训练语料中的词条, D表示训练的词条集合; 分布表示语料 样本、 正样本、 负 样本中的词条和词条的定义描述 拼接后送入编码器模型 得到的隐藏状态。 9.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述S2 中, 对编码器模型进行训练时采用的总损失函数的计算公式为: L= λ1Ldep+λ2Ledd 其中λ1和 λ2分别表示两个任务的损失函数的权 重值。 10.如权利要求1所述的基于词典增强预训练模型的常识问答方法, 其特征在于, 所述 问答任务输出层由L inner层和Softmax层组成。权 利 要 求 书 2/2 页 3 CN 115293142 A 3

.PDF文档 专利 一种基于词典增强预训练模型的常识问答方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于词典增强预训练模型的常识问答方法 第 1 页 专利 一种基于词典增强预训练模型的常识问答方法 第 2 页 专利 一种基于词典增强预训练模型的常识问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。