(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210864480.0
(22)申请日 2022.07.21
(71)申请人 北京大学
地址 100871 北京市海淀区颐和园路5号北
京大学
申请人 国网山东省电力公司信息通信公司
(72)发明人 李广建 王宇轩 罗立群 黄振
张闻彬
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 司立彬
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/84(2019.01)
G06F 16/901(2019.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 5/02(2006.01)
(54)发明名称
一种本体智能生成方法
(57)摘要
本发明公开了一种本体智能生 成方法, 其步
骤包括: 1)将待处理XSD文档 中用于描述实体的
元素转化为类节点; 将该待处理XSD文档中描述
实体属性的元素转化为数据属性节点; 2)根据该
待处理XSD文档中元素之间的嵌套等级关系确定
各元素所对应节点之间的边, 生成该待处理XSD
文档对应的有向图; 3)生成所述有向图中的每一
节点的语义嵌入向量, 根据节 点的语义嵌入向量
计算节点间的语义相似度; 将语义相似度大于设
定阈值的节点合并为簇节点; 4)根据步骤3)处理
后的有向图得到OWL语言描 述的资源知识内容本
体。 本发明能够揭示更多原有XML资源中的知识
内容, 提高本体对于原有知识内容的描述与揭示
能力。
权利要求书1页 说明书4页 附图1页
CN 115292512 A
2022.11.04
CN 115292512 A
1.一种本体智能生成方法, 其 步骤包括:
1)将待处理XSD文档中用于描述实体的元素转化为类节点; 将该待 处理XSD文档中描述
实体属性的元 素转化为数据属性节点;
2)根据该待处理XSD文档中元素之间的嵌套等级关系确定各元素所对应节点之间的
边, 生成该待处 理XSD文档对应的有向图;
3)生成所述有向图中的每一节点的语义嵌入向量, 根据节点的语义嵌入向量计算节点
间的语义相似度; 将语义相似度大于设定阈值的节点 合并为簇节点;
4)根据步骤3)处 理后的有向图得到OW L语言描述的资源知识内容本体。
2.根据权利要求1所述的方法, 其特征在于, 生成所述有向图的方法为: 对于该待处理
XSD文档中的嵌套关系N(a,b), a为父元素, b为子元素; 根据N(a,b)生 成元素a对应节点指向
元素b所对应节 点的有向边, 并将该有向边命名为 “has”+b; 如果元素b满足条件(1)~(3)中
任一条件, 则元素a对应节 点与元素b所对应节 点之间的边称为类边; 其中条件(1)~(3)为:
(1)元素b 所对应节点为类节点之下的节点; (2)元素b在该待处理XSD中有具体的约束条件
进行限制; (3)元 素b为该待处 理XSD中的命名节点, 即元 素b为实际业 务对象。
3.根据权利要求1所述的方法, 其特征在于, 将语义相似度 大于设定 阈值的节点合并为
簇节点的方法为: 1)生成该处理XSD文档的XML结构树; 将语义相似度大于设定阈值的节点
放到同一节点 团中, 对每一节点 团进行聚类, 从每一聚类簇I中选取一节点作为簇节点, 其
中选取聚类簇I中各节点所对应元素距离该XML结构树根节点最近的元素所对应节点作为
聚类簇I的簇节点; 2)建立从聚类簇I中簇节点指向聚类簇I中其他节点的有向边, 命名为
“hasMember ”+节点名。
4.根据权利要求1或2或3所述的方法, 其特征在于, 根据步骤3)处理后的有向图得到
OWL语言描述的资源知识内容本体的方法为: 将有向图中的类节 点或簇节点转化为OWL语言
中的类; 将 类节点之间的有向边转化为OWL语言中的对象属性, 将有向边的源节点转化为对
象属性的定义域、 目标节点转化为值域, 将有向边的名称转化为对象属性的命名; 将有向图
中的非类节点的名称转化为OWL语言中数据属性的命名, 将非类节点所连接的类节点作为
数据属性的定义 域, 将非类节点所对应元 素的数据类型转 化为数据属性的值 域。
5.根据权利要求1或2或3所述的方法, 其特征在于, 使用GraphSAGE算法生成所述有向
图中的每一节点的语义嵌入向量。
6.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述
计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至5任一
所述方法中各步骤的指令 。
7.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现权利要求1至 5任一所述方法的步骤。权 利 要 求 书 1/1 页
2
CN 115292512 A
2一种本体智能生成方 法
技术领域
[0001]本发明涉及本体的智能生成方法, 尤其涉及一种从原始知识资源提取知识内容的
本体智能生成方法。
背景技术
[0002]本体具有较强的语义描述能力, 可以描述现实世界中的实体, 揭示知识之间的关
联。 现在广泛使用的数据交换格式为XML, 但XML只能表达不同元素之间的等级嵌套关系, 不
能很好揭示XML文档中具有的丰富语义内容。 而OWL本体具有丰富表达性, 可以描述原有知
识资源中知识内容之间的相互关联, 并使用体系化、 形式化的方式进行表达。 因此, 为了更
好挖掘XML知识资源中的知识内容, 需要一种XML至 OWL的转化方法。 现有的转化方法多通过
直接建立映射的方式, 或直接根据XSD定义的元素类型进行转化, 或使用XSD本身的树形结
构进行转化, 这些方法得到的OWL本体只能表达原有XML文档等级嵌套结构中的语义信息,
在对于XML知识资源进行知识 内容提取时, 存在以下问题: (1)传统的方法不能更好地组织
多源异构知识资源。 原始知识资源(如XML资源文件)中涉及的标签复杂多样, 仅通过简单的
映射关系并不能很好对标签进 行组织整序, 使得最终形成的本体随着资源规模的增大而使
本体结构异常复杂, 没有形成有效的知识体系, 知识资源的利用效率极低。 (2)传统方法不
能很好的揭示出原始知识资源中蕴含的丰富知识内容。 现有的方法主要对于XML的等级嵌
套结构进行转化, 但不同的嵌套层级、 所处的嵌套位置等信息并没有得到充分的利用, 缺 失
用于形成知识体系的上下位关系, 仅仅获取XSD结构树后进行转化实际上并没有深入语义
层面进行分析, XML知识资源中蕴含的更深层的知识内容尚未 得到进一 步的描述与揭示。
发明内容
[0003]针对现有技术中存在的问题, 本发明的目的在于提供一种本体智能生成方法, 本
发明基于有向图的XML至OW L转化, 得到XML中的本体。
[0004]本发明的技 术方案为:
[0005]一种本体智能生成方法, 其 步骤包括:
[0006]1)将待处理XSD文档中用于描述实体的元素转化为类节点; 将该待处理XSD文档中
描述实体属性的元 素转化为数据属性节点;
[0007]2)根据该待处理XSD文档中元素之间的嵌套等级 关系确定各元素所对应节点之间
的边, 生成该待处 理XSD文档对应的有向图;
[0008]3)生成所述有向图中的每一节点的语义嵌入向量, 根据节点的语义嵌入向量计算
节点间的语义相似度; 将语义相似度大于设定阈值的节点 合并为簇节点;
[0009]4)根据步骤3)处 理后的有向图得到OW L语言描述的资源知识内容本体。
[0010]进一步的, 生成所述有向图的方法为: 对于该待处理XSD文档中的嵌套关系N(a,
b), a为父元素, b为子元素; 根据N(a,b)生成元素a对应节点指向元素b所对应节点的有向
边, 并将该有向边命名为 “has”+b; 如果元素b满足条件(1)~(3)中任一条件, 则元素a对应说 明 书 1/4 页
3
CN 115292512 A
3
专利 一种本体智能生成方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:18上传分享