说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210597754.4 (22)申请日 2022.06.01 (71)申请人 深圳得理科技有限公司 地址 518000 广东省深圳市南 山区粤海街 道香港中文大 学研究楼 201 (72)发明人 李杰坷 杨敏 雷宇  (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种法律常识知识图谱的自动化构建方法 (57)摘要 本发明是一种用于利用法律领域文本, 法律 常识知识图谱的自动化构建方法。 该方法主要包 含三个子方法, 利用这三个子方法可以挖掘出本 发明所定义的5种类型的节点和2种类型的关系 的文件, 得到这些节点和关系文件, 再导入图数 据库Neo4j, 即可完成构建法律 常识知识图谱。 本 发明解决了现有的构建法律知识图谱的方法从 数据中挖掘的内容只包含法律实体以及其之间 语义关系, 而不包含法律概念及其之间的从属关 系和关系之间的权 重问题。 权利要求书1页 说明书6页 附图5页 CN 114936291 A 2022.08.23 CN 114936291 A 1.一种法律常识知识图谱的自动 化构建方法, 其特征在于, 包括: 法律知识图谱的节点 定义; 基于法律文本的节点挖掘方法; 节点关系及权 重生成; 知识图谱自动生成。 2.如权利要求1所述的法律常识知识图谱的自动 化构建方法, 其特征在于, 法律知识图 谱的5种节 点类型定义: 根概念节 点、 领域概念节点、 案由概念节 点、 原子概念节点和复合概 念节点。 3.如权利要求1所述的法律常识知识图谱的自动 化构建方法, 其特征在于, 节点间的两 类关系类型: 属于关系 、 语义修饰关系。 4.如权利要求1所述的法律常识知识图谱的自动 化构建方法, 其特征在于, 节点数据挖 掘方法: 包含三个主要子方法: 挖掘领域概念节 点与案由概念节点以及 对应关系的方法; 挖 掘案由概念节点与 原子概念节点以及对应关系的方法; 挖掘复合概念节点与原子概念节点 以及对应关系的方法。 5.如权利要求4所述的法律常识知识图谱的自动化构建方法, 其特征在于: S1属于关 系, 领域概念节点与根概念概念节点、 案由概念节点与领域概念节 点、 案由概念节点与案由 概念节点、 原子概念节点与案由概念节点之间存在属于关系, 属于关系表示一个概念属于 另一个概念的范畴, 如概念 “抢劫”属于概念“机动车交通事故责任纠纷 ”, 概念“名誉权纠 纷”属于概念“民事”,S2语义修饰关系, 复合概念节点与原子概念节点存在语义关系, 因为 复合概念节点是原子概念相关词汇的组合, 例如概念 “司法解释和规范性文件 ”和概念“规 范性”存在语义 修饰关系, 即前者是后者加了修饰词而得到的。 6.如权利要求5所述的法律常识知识图谱的自动化构建方法, 其特征在于, 包括步骤:   S1、 挖掘领域概念节点、 案由概念节点以及对应关系的方法: 获取法律文本 《民事案件案由 规定》 《最高人民法院关于行政案件案由的暂行规定》 和 《刑事罪名库》 , 利用这三份法律文 本中包含的案由的目录, 提取案由概念节点以及案由概念节点间的从属关系,根据这三份 文本的名称, 提取领域概念节点,根据这三份文本内容所包含的案由, 提取对应的案由概念 节点与领域概念节点的从属关系,  S2、 挖掘案由概念节点、 原子概念节点以及对应关系的 方法: 获取法律裁判文书文本, 输入一份法律裁判文书, 根据该文本的结构, 提取案由概念 节点、 领域概念节 点、 案由概念节点与领域概念节点之 间的从属关系, 对法律裁判文书中的 文本内容进行分句、 分词, 然后进行词性标注、 命名实体识别, 根据以上词法特征和停用词 表, 设定限制条件, 从而过滤出原子概念节点, 并根据该裁判文书文本结构中包含的案由, 得到对应的原子概念节点与案由概念节点的从属关系, 并记录该案由概念对应的原子概念 出现的频数作为对应两个节点间的边的权重, S 3、 挖掘复合概念节 点、 原子概念节点以及 对 应关系的方法: 获取法律裁判文书文本, 输入一份法律裁判文书, 对 该法律裁判文书中的文 本进行分句、 分词, 然后进行词性标注、 命名实体识别、 语法依存分词、 句法组成分词, 根据 以上句法特征和停用词表, 挖掘出复合概念节点以及复合概念节点和对应的原子概念节点 的语义关系。权 利 要 求 书 1/1 页 2 CN 114936291 A 2一种法律常识知识图谱的 自动化构建 方法 技术领域 [0001]本发明要解决的技术问题是: 如何利用中文法律领域相关文本, 如裁判文书、 法律 法规文件等, 构建法律常识知识图谱。 详细描述为: 一、 如何从法律领域相关文本中地挖掘 法律常识知识图谱中的节点; 二、 如何从法律领域相关文本中挖掘法律常识知识图谱中的 节点间的关系。 背景技术 [0002]知识图谱主要可以分类常识知识图谱和百科全书知识图谱。 常识知识图谱更加侧 重于概念之间的关系以及概念的属性, 包括 “是什么”和“怎么样”, 例如“苹果是水果 ”,“苹 果是甜的 ”; 百科全书知识图谱则更注重实体 之间的事实关系, 如 “iPhone是Apple公司的产 品”; 根据相同的标准, 法律知识图谱可以分为法律常识知识图谱和普通法律知识图 谱; 法律常识知识图谱的定义为: 侧重于以图的形式表 现各种法律概念的关系的知识 库, 其中的节点即为法律概念, 其中节点间的关系即为法律概念之间的关系。 例如概念 “假 货”属于概念“网络购物合同纠纷 ”。 法律概念是指法律对各种具有法律意义的事物、 状态、 行为进行概括而形成的专门术语, 或者称之为专业词汇, 如 “民事”、“刑事”、“名誉权纠纷 ” 等; 普通法律知识图谱相对于法律常识知识图谱, 除了包含法律概念及其之间的关 系, 还包含命名实体及其之 间的关系, 而且侧重于后者。 命名实体就是人名、 机构名、 地名以 及其他所有以名称为标识的实体, 更广泛的实体还 包括数字、 日期、 货币、 地址等 等; 现有的近似的技术方案例如: 专利 《一种法律知识图谱自动构建方法》 (专利号:   CN107122444A)能够根据审判文书自动构建法律知识图谱。 详细方法为: 获取民事、 刑事、 行 政三类审判文书作为法律知识图谱构建的语料, 对所述语料去停用 词和进行分词; 根据分 词后的语料, 分别抽取三类审判文书的主题词, 对抽取的主题词进 行词性标注和过滤, 根据 过滤结果, 抽取名词或名词短语主题词作为法律知识图谱的实体概念; 获取与抽取 的每一 名词或名词短语主题词关系相 近的词, 对获取 的相近词进行词性标注和过滤, 根据过滤结 果, 抽取名词或名词短语相 近词作为法律知识图谱的实体概念; 根据抽取 的主题词实体概 念和相近词实体概念以及其之间的关系形成的主题词 ‑主题关系 ‑主题词, 主题词 ‑相近关 系‑相近词三元组结构, 完成法律知识图谱的构建; 其它的相似专利有 《基于法律数据的知识图谱构建方法及系统》 (专利号: CN107908671A),  该方法通过有监督的方法训练法律实体自动识别模型、 法律关系自动识 别模型相关, 从法律数据中挖掘法律实体和关系, 从而构建法律知识图谱; 一、 现有的构建法律知识图谱的方法, 从数据中挖掘的内容只包含法律实体, 以及 其之间语义关系, 而不包含法律概念及其之间的从属关系。 本发明提出 的构建法律常识知 识图谱的方法, 从数据中挖掘的内容, 除了 法律实体极其之间的语义关系, 还包含法律概念说 明 书 1/6 页 3 CN 114936291 A 3

.PDF文档 专利 一种法律常识知识图谱的自动化构建方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种法律常识知识图谱的自动化构建方法 第 1 页 专利 一种法律常识知识图谱的自动化构建方法 第 2 页 专利 一种法律常识知识图谱的自动化构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。