全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210641738.0 (22)申请日 2022.06.07 (71)申请人 上海开放大学 地址 200433 上海市杨 浦区国顺路28 8号 (72)发明人 肖君 白庆春 王腊梅 盛海龙  (74)专利代理 机构 北京中索 知识产权代理有限 公司 11640 专利代理师 隋晓勇 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/25(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种开放教育领域知识的结构化建模方法 (57)摘要 本发明公开了一种开放教育领域知识的结 构化建模方法, 包括如下步骤: 对开放教育文本 进行三元组自动抽取以获得概念实体及实体关 系; 通过所述概念实体和实体关系构建特征网 络; 利用所述特征网络进行关系分类计算, 计算 出所述概念实体的注意力权重和所述实体关系 的概率分布; 根据所述注意力权重和概率分布对 所述开放 教育文本进行层级分析, 构建知识单元 的层级与递进结构。 本发明提供的建模 方法融合 了开放关系和层级关系定义, 可以实现快速建模 和半自动化抽取。 权利要求书3页 说明书8页 附图3页 CN 114880307 A 2022.08.09 CN 114880307 A 1.一种开 放教育领域知识的结构化建模方法, 其特 征在于, 包括如下步骤: 对开放教育文本进行三元组自动抽取以获得概念实体及实体关系; 通过所述概念实体和实体关系构建特 征网络; 利用所述特征网络进行关系分类计算, 计算出所述概念实体的注意力 权重和所述实体 关系的概 率分布; 根据所述注意力 权重和概率分布对所述开放教育文本进行层级分析, 构建知识单元的 层级与递进结构。 2.根据权利要求1所述的方法, 其特征在于, 所述三元组自动抽取的方法包括如下步 骤: 对开放教育文本进行实体识别和词汇挖掘, 利用词频选出候选词汇进而抽取概念实 体; 对原始开放关系进行模式匹配, 实现对领域资源进行实体关系自动抽取, 并提供开放 关系自动抽取的执 行接口。 3.根据权利要求1所述的方法, 其特征在于, 所述特征网络包括共现网络、 语义网络、 isA关系网络和开 放关系网络, 构建所述特 征网络方法包括如下步骤: 将所述抽取出的概念实体和实体关系进行校对后, 标注形成训练数据, 通过机器学习 形成共现网络和语义网络模型; 根据所述开放教育文本, 判断并构 建isA关系网络, 结合所述概念实体、 实体关系和isA 关系网络实现对文本中的概念实体和词汇之 间的上下位抽取、 上下位排序操作, 同时, 实现 对isA关系网络的自动补全和自动纠错操作; 针对文本的特征, 将规则模式和神经网络模型集成, 形成规则与深度学习融合的软匹 配模式, 进行概念之间的语义关系建模, 并构建出开 放关系网络 。 4.根据权利要求1所述的方法, 其特 征在于, 所述关系分类 计算的方法包括如下步骤: 构建双向Transformer的预训练语言模型, 采用基础和微调两种方式分别获取文本的 向量表示; 将两种所述文本的向量表示进行融合得融合表示信 息, 利用所述特征网络对所述融合 表示信息进行建模; 将所述融合表示信息发送到神经网络分类器中, 得到融合表示信息的隐藏向量表示, 并基于全词掩蔽策略进行初始化; 并利用所述神经网络分类器对数据进行建模表示, 利用 所述建模表示 通过弱监 督学习进行损失计算, 更新模型参数; 通过注意力 机制对所述融合表示信 息进行交互, 获得所述融合表示信 息对应的概念实 体的注意力权 重, 所述注意力机制表示 为: 其中的Wh表示注意力权重参数, hi表示融合后的隐藏状态的向量表示, hj表示序列数据 建模后前序第j数据隐藏状态的向量表示; 对所述隐藏向量表示对应的文本和概念实体进行编码, 建立实体关系的编码功能后,权 利 要 求 书 1/3 页 2 CN 114880307 A 2通过计算得到 头部实体和尾部实体的向量表示, 所述向量表示的计算过程包括: 其中hhead表示关系三元组中头实体的向量表示, htail表示关系三元组中尾实体的向量 表示, hi表示融合后当前的隐藏状态的向量表示, 向量a到b是头实体的隐藏状态向量, 向量 m到n是尾实体的隐藏状态向量, W1∈Rd*d、 W2∈Rd*d、 b1∈Rd*d和b2∈Rd*d为模型需要学习的参 数, d表示模型中隐藏层的维数; 对所述头部实体和尾部实体的向量表示进行线性变换形成关系表示, 并逼近隐空间下 的非线性 函数映射, 所述线性变换的过程包括: r=Tanh(W[htail‑hhead]+b) 其中的W为关系权值矩阵, b∈Rd*d为偏置向量, Tanh为激活函数; 将所述融合表示信息和所述关系表示合并成连接层, 计算开放关系类别标签, 并计算 得到实体关系的概 率分布, 所述 概率分布的计算过程包括: p=softmax(Wp[r; h]+bp) 其中p表示概率分布, bp∈Rd*d关系类别标签的维度, Wp∈Rd*d表示模型需要计算的参数, h表示文本中的句子, r 表示句子汇总实体词之间的关系表示。 5.根据权利要求1所述的方法, 其特征在于, 对开放教育文本进行三元组自动抽取后还 包括有神经序列标注的方法, 包括如下步骤: 将所述自动抽取 出的概念实体进行 校对; 映射学习开放教育概念分析中的句式方法和语义结构, 并获得开放教育概念特征的特 征网络参数。 6.根据权利要求1所述的方法, 其特征在于, 构建知识单元的层级与递进结构后还包括 如下步骤: 考虑模型并发性的情况 下, 对外部发送的文本进行分析处 理; 对所述分析处 理的结果进行语义分析及推理, 并根据后端图谱数据进行 可视化展示。 7.根据权利要求3所述的方法, 其特征在于, 所述开放关系网络包括无监督自动抽取模 块、 关系聚合模块、 神经网络训练模块和开放关系分析模块, 所述开放关系网络的构建方法 包括如下步骤: 以句法规则作为基本模块, 利用开放文本中的句法依存关系建立抽取的规则, 即得所 述无监督自动抽取模块; 利用所述无监督自动抽取模块获得实体词和关系的预抽取结果, 并对所述预抽取结果 进行关系聚合, 即得 所述关系聚合模块; 在所述关系聚合的过程中, 对于重复的关系采用投票机制, 将多数正确的数据作为训 练数据去训练模型, 对于模 型计算出的结果再次进 行关系聚合和投票, 循环迭代此操作, 直 至无重复关系, 即得 所述神经网络训练模块; 将优化的损失函数视为训练时关系类别分布与计算得到类别分布之间的交叉熵, 即得权 利 要 求 书 2/3 页 3 CN 114880307 A 3

.PDF文档 专利 一种开放教育领域知识的结构化建模方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种开放教育领域知识的结构化建模方法 第 1 页 专利 一种开放教育领域知识的结构化建模方法 第 2 页 专利 一种开放教育领域知识的结构化建模方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。