(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210597754.4
(22)申请日 2022.06.01
(71)申请人 深圳得理科技有限公司
地址 518000 广东省深圳市南 山区粤海街
道香港中文大 学研究楼 201
(72)发明人 李杰坷 杨敏 雷宇
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/211(2020.01)
G06F 40/216(2020.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种法律常识知识图谱的自动化构建方法
(57)摘要
本发明是一种用于利用法律领域文本, 法律
常识知识图谱的自动化构建方法。 该方法主要包
含三个子方法, 利用这三个子方法可以挖掘出本
发明所定义的5种类型的节点和2种类型的关系
的文件, 得到这些节点和关系文件, 再导入图数
据库Neo4j, 即可完成构建法律 常识知识图谱。 本
发明解决了现有的构建法律知识图谱的方法从
数据中挖掘的内容只包含法律实体以及其之间
语义关系, 而不包含法律概念及其之间的从属关
系和关系之间的权 重问题。
权利要求书1页 说明书6页 附图5页
CN 114936291 A
2022.08.23
CN 114936291 A
1.一种法律常识知识图谱的自动 化构建方法, 其特征在于, 包括: 法律知识图谱的节点
定义; 基于法律文本的节点挖掘方法; 节点关系及权 重生成; 知识图谱自动生成。
2.如权利要求1所述的法律常识知识图谱的自动 化构建方法, 其特征在于, 法律知识图
谱的5种节 点类型定义: 根概念节 点、 领域概念节点、 案由概念节 点、 原子概念节点和复合概
念节点。
3.如权利要求1所述的法律常识知识图谱的自动 化构建方法, 其特征在于, 节点间的两
类关系类型: 属于关系 、 语义修饰关系。
4.如权利要求1所述的法律常识知识图谱的自动 化构建方法, 其特征在于, 节点数据挖
掘方法: 包含三个主要子方法: 挖掘领域概念节 点与案由概念节点以及 对应关系的方法; 挖
掘案由概念节点与 原子概念节点以及对应关系的方法; 挖掘复合概念节点与原子概念节点
以及对应关系的方法。
5.如权利要求4所述的法律常识知识图谱的自动化构建方法, 其特征在于: S1属于关
系, 领域概念节点与根概念概念节点、 案由概念节点与领域概念节 点、 案由概念节点与案由
概念节点、 原子概念节点与案由概念节点之间存在属于关系, 属于关系表示一个概念属于
另一个概念的范畴, 如概念 “抢劫”属于概念“机动车交通事故责任纠纷 ”, 概念“名誉权纠
纷”属于概念“民事”,S2语义修饰关系, 复合概念节点与原子概念节点存在语义关系, 因为
复合概念节点是原子概念相关词汇的组合, 例如概念 “司法解释和规范性文件 ”和概念“规
范性”存在语义 修饰关系, 即前者是后者加了修饰词而得到的。
6.如权利要求5所述的法律常识知识图谱的自动化构建方法, 其特征在于, 包括步骤:
S1、 挖掘领域概念节点、 案由概念节点以及对应关系的方法: 获取法律文本 《民事案件案由
规定》 《最高人民法院关于行政案件案由的暂行规定》 和 《刑事罪名库》 , 利用这三份法律文
本中包含的案由的目录, 提取案由概念节点以及案由概念节点间的从属关系,根据这三份
文本的名称, 提取领域概念节点,根据这三份文本内容所包含的案由, 提取对应的案由概念
节点与领域概念节点的从属关系, S2、 挖掘案由概念节点、 原子概念节点以及对应关系的
方法: 获取法律裁判文书文本, 输入一份法律裁判文书, 根据该文本的结构, 提取案由概念
节点、 领域概念节 点、 案由概念节点与领域概念节点之 间的从属关系, 对法律裁判文书中的
文本内容进行分句、 分词, 然后进行词性标注、 命名实体识别, 根据以上词法特征和停用词
表, 设定限制条件, 从而过滤出原子概念节点, 并根据该裁判文书文本结构中包含的案由,
得到对应的原子概念节点与案由概念节点的从属关系, 并记录该案由概念对应的原子概念
出现的频数作为对应两个节点间的边的权重, S 3、 挖掘复合概念节 点、 原子概念节点以及 对
应关系的方法: 获取法律裁判文书文本, 输入一份法律裁判文书, 对 该法律裁判文书中的文
本进行分句、 分词, 然后进行词性标注、 命名实体识别、 语法依存分词、 句法组成分词, 根据
以上句法特征和停用词表, 挖掘出复合概念节点以及复合概念节点和对应的原子概念节点
的语义关系。权 利 要 求 书 1/1 页
2
CN 114936291 A
2一种法律常识知识图谱的 自动化构建 方法
技术领域
[0001]本发明要解决的技术问题是: 如何利用中文法律领域相关文本, 如裁判文书、 法律
法规文件等, 构建法律常识知识图谱。 详细描述为: 一、 如何从法律领域相关文本中地挖掘
法律常识知识图谱中的节点; 二、 如何从法律领域相关文本中挖掘法律常识知识图谱中的
节点间的关系。
背景技术
[0002]知识图谱主要可以分类常识知识图谱和百科全书知识图谱。 常识知识图谱更加侧
重于概念之间的关系以及概念的属性, 包括 “是什么”和“怎么样”, 例如“苹果是水果 ”,“苹
果是甜的 ”; 百科全书知识图谱则更注重实体 之间的事实关系, 如 “iPhone是Apple公司的产
品”;
根据相同的标准, 法律知识图谱可以分为法律常识知识图谱和普通法律知识图
谱;
法律常识知识图谱的定义为: 侧重于以图的形式表 现各种法律概念的关系的知识
库, 其中的节点即为法律概念, 其中节点间的关系即为法律概念之间的关系。 例如概念 “假
货”属于概念“网络购物合同纠纷 ”。 法律概念是指法律对各种具有法律意义的事物、 状态、
行为进行概括而形成的专门术语, 或者称之为专业词汇, 如 “民事”、“刑事”、“名誉权纠纷 ”
等;
普通法律知识图谱相对于法律常识知识图谱, 除了包含法律概念及其之间的关
系, 还包含命名实体及其之 间的关系, 而且侧重于后者。 命名实体就是人名、 机构名、 地名以
及其他所有以名称为标识的实体, 更广泛的实体还 包括数字、 日期、 货币、 地址等 等;
现有的近似的技术方案例如: 专利 《一种法律知识图谱自动构建方法》 (专利号:
CN107122444A)能够根据审判文书自动构建法律知识图谱。 详细方法为: 获取民事、 刑事、 行
政三类审判文书作为法律知识图谱构建的语料, 对所述语料去停用 词和进行分词; 根据分
词后的语料, 分别抽取三类审判文书的主题词, 对抽取的主题词进 行词性标注和过滤, 根据
过滤结果, 抽取名词或名词短语主题词作为法律知识图谱的实体概念; 获取与抽取 的每一
名词或名词短语主题词关系相 近的词, 对获取 的相近词进行词性标注和过滤, 根据过滤结
果, 抽取名词或名词短语相 近词作为法律知识图谱的实体概念; 根据抽取 的主题词实体概
念和相近词实体概念以及其之间的关系形成的主题词 ‑主题关系 ‑主题词, 主题词 ‑相近关
系‑相近词三元组结构, 完成法律知识图谱的构建;
其它的相似专利有 《基于法律数据的知识图谱构建方法及系统》 (专利号:
CN107908671A), 该方法通过有监督的方法训练法律实体自动识别模型、 法律关系自动识
别模型相关, 从法律数据中挖掘法律实体和关系, 从而构建法律知识图谱;
一、 现有的构建法律知识图谱的方法, 从数据中挖掘的内容只包含法律实体, 以及
其之间语义关系, 而不包含法律概念及其之间的从属关系。 本发明提出 的构建法律常识知
识图谱的方法, 从数据中挖掘的内容, 除了 法律实体极其之间的语义关系, 还包含法律概念说 明 书 1/6 页
3
CN 114936291 A
3
专利 一种法律常识知识图谱的自动化构建方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:26上传分享