说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210904197.6 (22)申请日 2022.07.29 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 李青 赵金烨 房小涵  赵祎 丛方鹏  (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 专利代理师 田秀芬 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/903(2019.01)G06N 5/02(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于表示学习的实体发现和实体链接 联合优化方法 (57)摘要 本发明公开了一种基于表示学习的实体发 现和实体链接联合优化方法, 属于深度学习和自 然语言处理技术领域, 所述优化方法包括: 步骤 1, 获取数据集; 步骤2, 构建锚文本词典; 步骤3, 定义并构建片段循环神经网络模型进行实体提 取算法; 步骤4, 实体链接的特征选取; 步骤5, 神 经排序模型的构建。 本发明通过构建基于表示学 习的实体发现和实体链接联合的模型, 其中, 基 于片段式的循环神经网络可以直接对实体边界 识别进行优化, 而实体链接的信息又可以帮助实 体发现进行边界识别, 有效地解决了实体边界不 准确影响实体链接的问题; 有效避免了实体边界 不准确影 响实体链接效果的问题, 并且可以同时 优化实体发现和实体链接的结果。 权利要求书2页 说明书5页 附图2页 CN 115329093 A 2022.11.11 CN 115329093 A 1.一种基于表示学习的实体发现和实体链接联合优化方法, 其特征在于: 实体链接的 结果能够对实体发现进行优化, 包括以下步骤: 步骤1, 获取 数据集; 步骤2, 构建锚文本词典; 步骤3, 定义并构建片段循环神经网络模型进行实体提取算法; 步骤4, 实体链接的特 征选取; 步骤5, 神经排序模型的构建。 2.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其 特征在于: 步骤2中, 具体包括: 2.1, 通过抽取百度百科的锚文本, 构建锚文本词典, 词典中的每个键看作是一个实体 的提及, 对应的值看作是知识库中对应该实体的提及; 2.2, 引入实体提及m的先验概 率, 定义所述先验概 率为: link_prob(m)=freq(m)|count(m) 式中, freq(m)是m作为锚文本出现的次数, count(m)是m在语料库中所有出现的次数; 2.3, 进行 过滤, 去除噪声。 3.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其 特征在于: 步骤3中, 具体包括: 3.1, 输入层w1,w2, …,wm是字符向量和预先训练的词向量的拼接, 字符向量通过一个 双向的LSTM网络进行 学习, 上下文LSTM模型对上 下文特征进行建模; 3.2, 将实体发现的处理单元由单个词转化为词序列片段, 将输入序列进行切分, 直接 预测词序列片段的长度, 并给每个片段标记一个标签, 对实体进 行分类, 利用片段循环神经 网络进行实体发现, 标签空间是y={LOC,ORG,PER,MISC,O}, 目的是在输入 的词序列<w1, w2,…,wm>上的最大化联合 概率分布: p(y,z|x)。 4.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其 特征在于: 步骤4中, 所述实体链接特 征选取的约束条件 包括: (1)实体相关特 征, 包括实体的先验概 率, 先验概 率为: link_prob(m)  = freq(m)|count(m)                    (1) 式中, freq(m)是m作为锚文本出现的次数, count(m)是m在语料库中所有出现的次数, 表示实体在 知识库中出现的概 率; (2)实体和上下文相似度, 表示实体和实体提及上下文文本之间的相似度, 由于上下文 中未必所有的词都对实体链接有帮助, 因此我们采用注意力加权的上下文词向量的平均来 表示上下文向量; 如下公式所示: 式中, akj表示第k个单词的注意力权 重, 用来挑选上 下文中与实体最相关的词; (3)实体和实体提及的相似度, 使用如下公式进行计算: 权 利 要 求 书 1/2 页 2 CN 115329093 A 2式中, 表示实体名称和实体提及字符串的编辑距离, len(s)表示 字符串的长度; (4)实体和上下文中其他实体的相似度, 表示了文本中实体的一致性, 使用上下文实体 集合中所有实体向量的平均向量来表示上下文实体集合, 使用候选实体向量和上下文实体 集合向量的余弦相似度来表示两者之间的相似度; 在预测时, 对于第一个处理的实体来说, 上下文实体集合为空, 这时强制设置候选实体集合中所有实体的该特征值为1, 因此, 对于 第一个被处理的实体提及 ‑候选实体集 合来说, 实体链接的结果取决于其它特 征。 5.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其 特征在于: 步骤5中, 具体包括: 5.1, 经过LSTM模型训练的词的表示和词的字符; 5.2, 词和实体联合表示。权 利 要 求 书 2/2 页 3 CN 115329093 A 3

.PDF文档 专利 一种基于表示学习的实体发现和实体链接联合优化方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于表示学习的实体发现和实体链接联合优化方法 第 1 页 专利 一种基于表示学习的实体发现和实体链接联合优化方法 第 2 页 专利 一种基于表示学习的实体发现和实体链接联合优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。