专利 一种法律常识知识图谱的自动化构建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210597754.4 (22)申请日 2022.06.01 (71)申请人深圳得理科技有限公司地址 518000 广东省深圳市南山区粤海街道香港中文大学研究楼 201 (72)发明人李杰坷　杨敏　雷宇　 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种法律常识知识图谱的自动化构建方法 (57)摘要本发明是一种用于利用法律领域文本，法律常识知识图谱的自动化构建方法。该方法主要包含三个子方法，利用这三个子方法可以挖掘出本发明所定义的5种类型的节点和2种类型的关系的文件，得到这些节点和关系文件，再导入图数据库Neo4j，即可完成构建法律常识知识图谱。本发明解决了现有的构建法律知识图谱的方法从数据中挖掘的内容只包含法律实体以及其之间语义关系，而不包含法律概念及其之间的从属关系和关系之间的权重问题。权利要求书1页说明书6页附图5页 CN 114936291 A 2022.08.23 CN 114936291 A 1.一种法律常识知识图谱的自动化构建方法，其特征在于，包括：法律知识图谱的节点定义；基于法律文本的节点挖掘方法；节点关系及权重生成；知识图谱自动生成。 2.如权利要求1所述的法律常识知识图谱的自动化构建方法，其特征在于，法律知识图谱的5种节点类型定义：根概念节点、领域概念节点、案由概念节点、原子概念节点和复合概念节点。 3.如权利要求1所述的法律常识知识图谱的自动化构建方法，其特征在于，节点间的两类关系类型：属于关系、语义修饰关系。 4.如权利要求1所述的法律常识知识图谱的自动化构建方法，其特征在于，节点数据挖掘方法：包含三个主要子方法：挖掘领域概念节点与案由概念节点以及对应关系的方法；挖掘案由概念节点与原子概念节点以及对应关系的方法；挖掘复合概念节点与原子概念节点以及对应关系的方法。 5.如权利要求4所述的法律常识知识图谱的自动化构建方法，其特征在于： S1属于关系，领域概念节点与根概念概念节点、案由概念节点与领域概念节点、案由概念节点与案由概念节点、原子概念节点与案由概念节点之间存在属于关系，属于关系表示一个概念属于另一个概念的范畴，如概念 “抢劫”属于概念“机动车交通事故责任纠纷 ”，概念“名誉权纠纷”属于概念“民事”,S2语义修饰关系，复合概念节点与原子概念节点存在语义关系，因为复合概念节点是原子概念相关词汇的组合，例如概念 “司法解释和规范性文件 ”和概念“规范性”存在语义修饰关系，即前者是后者加了修饰词而得到的。 6.如权利要求5所述的法律常识知识图谱的自动化构建方法，其特征在于，包括步骤： S1、挖掘领域概念节点、案由概念节点以及对应关系的方法：获取法律文本《民事案件案由规定》《最高人民法院关于行政案件案由的暂行规定》和《刑事罪名库》，利用这三份法律文本中包含的案由的目录，提取案由概念节点以及案由概念节点间的从属关系,根据这三份文本的名称，提取领域概念节点,根据这三份文本内容所包含的案由，提取对应的案由概念节点与领域概念节点的从属关系， S2、挖掘案由概念节点、原子概念节点以及对应关系的方法：获取法律裁判文书文本，输入一份法律裁判文书，根据该文本的结构，提取案由概念节点、领域概念节点、案由概念节点与领域概念节点之间的从属关系，对法律裁判文书中的文本内容进行分句、分词，然后进行词性标注、命名实体识别，根据以上词法特征和停用词表，设定限制条件，从而过滤出原子概念节点，并根据该裁判文书文本结构中包含的案由，得到对应的原子概念节点与案由概念节点的从属关系，并记录该案由概念对应的原子概念出现的频数作为对应两个节点间的边的权重， S 3、挖掘复合概念节点、原子概念节点以及对应关系的方法：获取法律裁判文书文本，输入一份法律裁判文书，对该法律裁判文书中的文本进行分句、分词，然后进行词性标注、命名实体识别、语法依存分词、句法组成分词，根据以上句法特征和停用词表，挖掘出复合概念节点以及复合概念节点和对应的原子概念节点的语义关系。权　利　要　求　书 1/1 页 2 CN 114936291 A 2一种法律常识知识图谱的自动化构建方法技术领域 [0001]本发明要解决的技术问题是：如何利用中文法律领域相关文本，如裁判文书、法律法规文件等，构建法律常识知识图谱。详细描述为：一、如何从法律领域相关文本中地挖掘法律常识知识图谱中的节点；二、如何从法律领域相关文本中挖掘法律常识知识图谱中的节点间的关系。背景技术 [0002]知识图谱主要可以分类常识知识图谱和百科全书知识图谱。常识知识图谱更加侧重于概念之间的关系以及概念的属性，包括 “是什么”和“怎么样”，例如“苹果是水果 ”，“苹果是甜的 ”；百科全书知识图谱则更注重实体之间的事实关系，如 “iPhone是Apple公司的产品”；根据相同的标准，法律知识图谱可以分为法律常识知识图谱和普通法律知识图谱；法律常识知识图谱的定义为：侧重于以图的形式表现各种法律概念的关系的知识库，其中的节点即为法律概念，其中节点间的关系即为法律概念之间的关系。例如概念 “假货”属于概念“网络购物合同纠纷 ”。法律概念是指法律对各种具有法律意义的事物、状态、行为进行概括而形成的专门术语，或者称之为专业词汇，如 “民事”、“刑事”、“名誉权纠纷 ” 等；普通法律知识图谱相对于法律常识知识图谱，除了包含法律概念及其之间的关系，还包含命名实体及其之间的关系，而且侧重于后者。命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等等；现有的近似的技术方案例如：专利《一种法律知识图谱自动构建方法》 (专利号： CN107122444A)能够根据审判文书自动构建法律知识图谱。详细方法为：获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料，对所述语料去停用词和进行分词；根据分词后的语料，分别抽取三类审判文书的主题词，对抽取的主题词进行词性标注和过滤，根据过滤结果，抽取名词或名词短语主题词作为法律知识图谱的实体概念；获取与抽取的每一名词或名词短语主题词关系相近的词，对获取的相近词进行词性标注和过滤，根据过滤结果，抽取名词或名词短语相近词作为法律知识图谱的实体概念；根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词 ‑主题关系 ‑主题词，主题词 ‑相近关系‑相近词三元组结构，完成法律知识图谱的构建；其它的相似专利有《基于法律数据的知识图谱构建方法及系统》 (专利号： CN107908671A), 该方法通过有监督的方法训练法律实体自动识别模型、法律关系自动识别模型相关，从法律数据中挖掘法律实体和关系，从而构建法律知识图谱；一、现有的构建法律知识图谱的方法，从数据中挖掘的内容只包含法律实体，以及其之间语义关系，而不包含法律概念及其之间的从属关系。本发明提出的构建法律常识知识图谱的方法，从数据中挖掘的内容，除了法律实体极其之间的语义关系，还包含法律概念说　明　书 1/6 页 3 CN 114936291 A 3

专利 一种法律常识知识图谱的自动化构建方法

专利一种法律常识知识图谱的自动化构建方法