(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210736335.4
(22)申请日 2022.06.27
(71)申请人 南京审计大 学
地址 210000 江苏省南京市雨 山西路86号
(72)发明人 黄佳佳 李鹏伟 徐超
(74)专利代理 机构 南京创略知识产权代理事务
所(普通合伙) 32358
专利代理师 刘文艳
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/901(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06Q 40/00(2012.01)
(54)发明名称
一种用于构建审计领域本体框架的知识图
谱自动扩 充方法
(57)摘要
本发明公开了一种用于构建审计领域本体
框架的知识图谱自动扩充方法, 包括以下步骤,
首先收集审计领域相关文本作为原始 语料, 接着
对审计语料进行文本清洗、 分词和命名实体识
别, 并抽取出其中的审计领域概念实体, 随后利
用处理后的审计语料训练审计领域词向量模型;
本发明通过概念实体之间的语义相似度自动寻
找候选概念实体的最相似概念, 再通过构建本体
概念的树结构方式计算候选概念与匹配概念的
兄弟概念及子概念之间的语义相似度, 从而判断
出候选概念与匹配概念是上下位关系还是并列
关系, 有效的实现了在本体构建过程中以较小人
工代价即可获得大规模高质量本体结构, 满足目
前信息化时代的审计全覆盖式需要, 适合被广泛
推广和使用。
权利要求书3页 说明书7页 附图7页
CN 115203429 A
2022.10.18
CN 115203429 A
1.一种用于构建审计领域本体框架的知识图谱自动扩充方法, 其特征在于: 包括以下
步骤,
步骤(A), 收集审计领域相关文本作为原始语料, 包括审计百度百科词条、 审计图书教
材、 审计署官网和审计法律法规制度;
步骤(B), 对审计语料进行文本清洗、 分词和命名实体识别, 并抽取出其中的审计领域
概念实体;
步骤(C), 利用步骤(B)中处 理后的审计 语料训练审计领域词向量模型;
步骤(D), 利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架, 并为
每个概念标注种子概念实体;
步骤(E), 基于审计领域词向量模型和初始本体树结构, 构建自动扩充算法自动扩充本
体结构, 形成最终的审计领域本体框架。
2.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,
其特征在于: 步骤(A)中具体 收集审计领域相关文本作为原始语料过程中采用网络爬虫方
式收集语料, 针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储, 而针对
审计百科词条获取网页语料 具体步骤如下,
步骤(A1), 构建一个领域核心种子词汇;
步骤(A2), 通过网络爬虫的方式抓取这些词汇的百科网页, 并将这些网页中出现的超
链接词汇增添到种子词汇集, 再往复这个抓取 过程;
步骤(A3), 经 过若干轮爬虫, 即可获得候选审计领域专业词汇及其百 科网页文本 。
3.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,
其特征在于: 步骤(B)中具体审计领域 概念实体获取步骤如下,
步骤(B1), 从百 科词条及其超链接词条中直接获得候选概念词汇;
步骤(B2), 对候选概念词汇进行 人工标注, 并标注为领域 概念和其 他词汇中的一种;
步骤(B3), 通过分词和命名实体识别这两个自然语言处理技术从获取的原始语料中获
得各类名词, 并计算这些实体词汇与候选概念词汇之间的语义相似度, 将相似度较高词汇
作为候选词汇;
步骤(B4), 对候选词汇进行人工标注, 并将候选词汇标注为领域概念和其他词汇中的
一种, 这样就获得了全部的领域 概念集合C。
4.根据权利要求3所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,
其特征在于: 步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为 自定义词典,
再利用自定义词典对步骤(A)中获取 的原始预料进行分词和停用次剔除并生成加工预料,
再使用Gl ove词向量模型训练该加工语料, 这样就获得了审计领域词汇的词向量。
5.根据权利要求4所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,
其特征在于: 步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构, 并为
每个关系类别中注入5个领域概念实体, 且这5个领域概念实体可以来自领域概念集合C或
自行命名, 最终形成一个初始本体树结构Oaudit=<C0,A0,R0,X0,I0>, 其中C0表示已构建的本
体概念实体类, 用于表达审计知识框架中 的分类概念; A0表示所有概念实体的属性集, 表示
概念本身的特征; R0表示语义关系, 用于描述本体概念之间的分类关系, 在本体构建中即为
IsA关系; X0表示公理集, 公理用于定义概念、 语义描述和语义关系之间的语义约束; I0表示权 利 要 求 书 1/3 页
2
CN 115203429 A
2实例数据集, 用于描述本体概念的实例。
6.根据权利要求5所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,
其特征在于: 步骤(E)具体步骤如下,
步骤(E1), 针对每个候选概念词汇ci∈C', 使用广度 优先搜索算法分别计算ci与本体树
中各已有概念结点cj∈C0之间的语义相似性, 如公式(1)所示,
sim(ci,cj)=cos(vi,vj) (1)
其中, sim(ci,cj)为语义相似性, vi和vj分别为概念ci和cj的词向量;
步骤(E2), 若sim(ci,cj)大于指定相似度阈值θ, 则保留与候选概念词汇ci语义相似度
最大的本体概念结点, 并将该信息加入到候选 本体概念集 合Cc, 如公式(2)所示,
ci={argmaxisim(ci,cj)if sim(ci,cj)≥θ }} (2);
步骤(E3), 针对候选本体概念结点cj及其所属的概念结点ci, 需要判断将结点cj作为结
点ci的父结点、 兄弟结点还是子结点, 且判断的具体步骤如下,
步骤(E31), 若本体树中当前结点ci既有父结点也有子结点, 则设将结点cj放入该层后,
分别计算该层所有概念结点与其父 结点之间的平均相似, 具体步骤如下,
步骤(E311), cj作为父结点的相似度, 如公式(3)所示,
步骤(E312), cj作为兄弟结点的相似度, 如公式(4)所示,
其中,
为结点ci的所有兄弟结点 集合;
步骤(E313), cj作为子结点的相似度, 如公式(5)所示,
其中,
为结点ci的所有子结点结合;
步骤(E32), 若本体树中当前结点ci没有兄弟结点但是有子节点, 则设将结点cj放入该
层后, 分别计算该层所有概念结点与其父 结点之间的平均相似, 具体步骤如下,
步骤(E321), cj作为父结点的相似度, 如公式(6)所示,
psim=(sim(p,cj)+sim(cj,ci))/2 (6);
步骤(E322), cj作为兄弟结点的相似度, 如公式(7)所示,
其中,
为结点ci的所有兄弟结点 集合;
步骤(E323), cj作为子弟结点的相似度, 如公式(8)所示,
其中,
为结点ci的所有子结点结合;
步骤(E33), 若本体树中当前结点ci没有子节点, 则假设将结点cj放入该层后, 分别计算权 利 要 求 书 2/3 页
3
CN 115203429 A
3
专利 一种用于构建审计领域本体框架的知识图谱自动扩充方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:34上传分享