专利一种用于构建审计领域本体框架的知识图谱自动扩充方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210736335.4 (22)申请日 2022.06.27 (71)申请人南京审计大学地址 210000 江苏省南京市雨山西路86号 (72)发明人黄佳佳　李鹏伟　徐超　 (74)专利代理机构南京创略知识产权代理事务所(普通合伙) 32358 专利代理师刘文艳 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/901(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06Q 40/00(2012.01) (54)发明名称一种用于构建审计领域本体框架的知识图谱自动扩充方法 (57)摘要本发明公开了一种用于构建审计领域本体框架的知识图谱自动扩充方法，包括以下步骤，首先收集审计领域相关文本作为原始语料，接着对审计语料进行文本清洗、分词和命名实体识别，并抽取出其中的审计领域概念实体，随后利用处理后的审计语料训练审计领域词向量模型；本发明通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念，再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度，从而判断出候选概念与匹配概念是上下位关系还是并列关系，有效的实现了在本体构建过程中以较小人工代价即可获得大规模高质量本体结构，满足目前信息化时代的审计全覆盖式需要，适合被广泛推广和使用。权利要求书3页说明书7页附图7页 CN 115203429 A 2022.10.18 CN 115203429 A 1.一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：包括以下步骤，步骤(A)，收集审计领域相关文本作为原始语料，包括审计百度百科词条、审计图书教材、审计署官网和审计法律法规制度；步骤(B)，对审计语料进行文本清洗、分词和命名实体识别，并抽取出其中的审计领域概念实体；步骤(C)，利用步骤(B)中处理后的审计语料训练审计领域词向量模型；步骤(D)，利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架，并为每个概念标注种子概念实体；步骤(E)，基于审计领域词向量模型和初始本体树结构，构建自动扩充算法自动扩充本体结构，形成最终的审计领域本体框架。 2.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(A)中具体收集审计领域相关文本作为原始语料过程中采用网络爬虫方式收集语料，针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储，而针对审计百科词条获取网页语料具体步骤如下，步骤(A1)，构建一个领域核心种子词汇；步骤(A2)，通过网络爬虫的方式抓取这些词汇的百科网页，并将这些网页中出现的超链接词汇增添到种子词汇集，再往复这个抓取过程；步骤(A3)，经过若干轮爬虫，即可获得候选审计领域专业词汇及其百科网页文本。 3.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(B)中具体审计领域概念实体获取步骤如下，步骤(B1)，从百科词条及其超链接词条中直接获得候选概念词汇；步骤(B2)，对候选概念词汇进行人工标注，并标注为领域概念和其他词汇中的一种；步骤(B3)，通过分词和命名实体识别这两个自然语言处理技术从获取的原始语料中获得各类名词，并计算这些实体词汇与候选概念词汇之间的语义相似度，将相似度较高词汇作为候选词汇；步骤(B4)，对候选词汇进行人工标注，并将候选词汇标注为领域概念和其他词汇中的一种，这样就获得了全部的领域概念集合C。 4.根据权利要求3所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典，再利用自定义词典对步骤(A)中获取的原始预料进行分词和停用次剔除并生成加工预料，再使用Gl ove词向量模型训练该加工语料，这样就获得了审计领域词汇的词向量。 5.根据权利要求4所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构，并为每个关系类别中注入5个领域概念实体，且这5个领域概念实体可以来自领域概念集合C或自行命名，最终形成一个初始本体树结构Oaudit＝<C0,A0,R0,X0,I0>，其中C0表示已构建的本体概念实体类，用于表达审计知识框架中的分类概念； A0表示所有概念实体的属性集，表示概念本身的特征； R0表示语义关系，用于描述本体概念之间的分类关系，在本体构建中即为 IsA关系； X0表示公理集，公理用于定义概念、语义描述和语义关系之间的语义约束； I0表示权　利　要　求　书 1/3 页 2 CN 115203429 A 2实例数据集，用于描述本体概念的实例。 6.根据权利要求5所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(E)具体步骤如下，步骤(E1)，针对每个候选概念词汇ci∈C'，使用广度优先搜索算法分别计算ci与本体树中各已有概念结点cj∈C0之间的语义相似性，如公式(1)所示， sim(ci,cj)＝cos(vi,vj) (1) 其中， sim(ci,cj)为语义相似性， vi和vj分别为概念ci和cj的词向量；步骤(E2)，若sim(ci,cj)大于指定相似度阈值θ，则保留与候选概念词汇ci语义相似度最大的本体概念结点，并将该信息加入到候选本体概念集合Cc，如公式(2)所示， ci＝{argmaxisim(ci,cj)if sim(ci,cj)≥θ }} (2)；步骤(E3)，针对候选本体概念结点cj及其所属的概念结点ci，需要判断将结点cj作为结点ci的父结点、兄弟结点还是子结点，且判断的具体步骤如下，步骤(E31)，若本体树中当前结点ci既有父结点也有子结点，则设将结点cj放入该层后，分别计算该层所有概念结点与其父结点之间的平均相似，具体步骤如下，步骤(E311)， cj作为父结点的相似度，如公式(3)所示，步骤(E312)， cj作为兄弟结点的相似度，如公式(4)所示，其中，为结点ci的所有兄弟结点集合；步骤(E313)， cj作为子结点的相似度，如公式(5)所示，其中，为结点ci的所有子结点结合；步骤(E32)，若本体树中当前结点ci没有兄弟结点但是有子节点，则设将结点cj放入该层后，分别计算该层所有概念结点与其父结点之间的平均相似，具体步骤如下，步骤(E321)， cj作为父结点的相似度，如公式(6)所示， psim＝(sim(p,cj)+sim(cj,ci))/2 (6)；步骤(E322)， cj作为兄弟结点的相似度，如公式(7)所示，其中，为结点ci的所有兄弟结点集合；步骤(E323)， cj作为子弟结点的相似度，如公式(8)所示，其中，为结点ci的所有子结点结合；步骤(E33)，若本体树中当前结点ci没有子节点，则假设将结点cj放入该层后，分别计算权　利　要　求　书 2/3 页 3 CN 115203429 A 3

专利 一种用于构建审计领域本体框架的知识图谱自动扩充方法

专利一种用于构建审计领域本体框架的知识图谱自动扩充方法