(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210869941.3
(22)申请日 2022.07.22
(71)申请人 北京三维 天地科技股份有限公司
地址 100000 北京市海淀区西四环北路1 19
号A座3层3 09室
(72)发明人 金震 张京日 穆宇浩
(74)专利代理 机构 北京冠和权律师事务所
11399
专利代理师 张树朋
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/36(2019.01)
G06F 16/28(2019.01)
G06F 16/9535(2019.01)
G06F 16/958(2019.01)G06N 5/02(2006.01)
(54)发明名称
一种基于知识图谱技术的数据标准生成与
自动映射方法
(57)摘要
本发明提供了一种基于知识图谱技术的数
据标准生成与自动映射方法, 包括: 获取用于生
成数据标准的元数据的特征数据集; 基于知 识图
谱技术, 处理特征数据集, 生成正式发布的数据
标准; 基于正式发布的数据标准, 获得数据标准
与元数据的映射关系; 获取用于关联管理的待关
联元数据, 根据所述映射关系, 获得与待关联元
数据相关联的数据标准。 本发明提供了一种基于
知识图谱数据标准生成方法, 根据对 元数据的采
集, 结合元数据的依赖影响关系, 以及元数据内
部自身相似性的分析, 自动提取形成系 列的数据
标准, 具有智能化、 轻量级、 可插拔的优势。
权利要求书3页 说明书10页 附图2页
CN 115374108 A
2022.11.22
CN 115374108 A
1.一种基于知识图谱技 术的数据标准 生成与自动映射方法, 其特 征在于, 包括:
S1: 获取用于生成数据标准的元 数据的特 征数据集;
S2: 基于知识图谱技 术, 处理特征数据集, 生成正式发布的数据标准;
S3: 基于正式发布的数据 标准, 获得数据 标准与元数据的映射关系; 获取用于关联管理
的待关联 元数据, 根据所述映射关系, 获得与待关联 元数据相关联的数据标准。
2.根据权利要求1所述的一种基于知识图谱技术的数据标准生成与自动映射方法, 其
特征在于, S2包括:
S201: 基于元数据特征数据集, 提取若干个数据标准实体, 所述数据标准实体包括标准
编号、 标准英文名称、 标准名称、 标准分类、 标准类型、 创建人、 状态和操作;
S202: 分析数据标准实体之间的相似性, 确定若干个数据标准实体之间的依赖影响关
系;
S203: 将若干个数据标准实体和若干个数据标准实体之间的依赖影响关系进行融合,
生成实体 ‑关系‑属性的三元组结构化数据集;
S204: 采用Neo4j ‑import方式将三元组结构化数据集导入预设的Neo4j图数据库, 并转
化成若干个CSV格式文件;
S205: 基于所述若干个CSV格式文件, 构建生成待发布数据标准知识图谱;
S206: 审核待发布数据标准知识图谱, 生成正式发布的数据标准。
3.根据权利要求2所述的一种基于知识图谱技术的数据标准生成与自动映射方法, 其
特征在于, S20 6包括:
S2061: 基于预设的审核规则, 对待发布数据标准知识图谱进行匹配核查; 若核查过程
中发现错 误, 则提示错误, 并生成第一核查结果报告;
S2062: 基于第一核查结果报告, 对核查错误进行修改, 生成核查数据标准知识图谱; 若
核查过程中未发现错 误, 则直接生成核查数据标准知识图谱;
S2063: 通过评估人员按照预设的评估流程对核查数据 标准知识图谱进行评估, 若评估
通过, 则进行发布, 生成正式发布的数据标准。
4.根据权利要求1所述一种基于知识图谱技术的数据标准生成与自动映射方法, 其特
征在于, S3包括:
S301: 基于正式发布的数据标准, 获取 数据标准与元 数据特征的映射匹配关系规则;
S302: 获取用于关联 管理的待关联 元数据, 获得待关联 元数据的特 征数据集;
S303: 基于所述映射匹配关系规则对所述特征数据集中的特征进行映射匹配关系查
询, 获得若干个与待关联 元数据相匹配的数据标准;
S304: 将匹配度值大于预设匹配度阈值的数据标准汇总, 生成数据标准推荐管理列表。
5.根据权利要求4所述一种基于知识图谱技术的数据标准生成与自动映射方法, 其特
征在于, S3 01包括:
S3011: 根据正式发布的数据 标准和元数据特征数据集, 制定实体映射规则和关系映射
规则, 根据实体映射 规则和关系映射 规则, 生成映射匹配关系规则;
S3012: 将元数据特征数据集划分为训练数据集和验证数据集, 基于训练数据集对映射
匹配关系规则进行映射测试, 获得映射匹配关系规则映射测试准确率;
S3013: 根据映射匹配关系规则映射测试准确率, 对映射匹配关系规则进行修正后继续权 利 要 求 书 1/3 页
2
CN 115374108 A
2测试, 直至映射匹配关系规则映射测试准确率符合要求 为止。
6.根据权利要求1所述的一种基于知识图谱技术的数据标准生成与自动映射方法, 其
特征在于, S1包括:
S101: 获取 数据的全部元 数据;
S102: 统计获得全部元数据在数据中出现的频次, 获得频 次数值结果列表; 将频次结果
列表中的频次数值按照降序排列生成降序排列表; 将降序排列 表中低于预设序号的频次数
值的元数据剔除, 得到第一元 数据筛选列表;
S103: 基于预设的重要性值分析模型, 对第一元数据筛选列表的元数据的重要性进行
分析, 获得元数据的重要性值; 将 重要性值小于预设重要性阈值的元数据剔除, 得到第二元
数据筛选列表; 获取第二元 数据筛选列表中的元 数据特征, 生成元 数据的特 征数据集。
7.根据权利要求6所述一种基于知识图谱技术的数据标准生成与自动映射方法, 其特
征在于, S10 3包括构建重要性 值分析模型, 具体步骤为:
S1031: 分析元数据的特征包含关系, 根据特征包含子特征的个数, 生成该特征所对应
的第一重要性权 重值;
S1032: 分析元数据特征的覆盖范围, 根据特征覆盖子特征的层数, 生成该特征所对应
的第二重要性权 重值;
S1033: 对第一重要性权 重值和第二重要性权 重值作求和计算, 获得重要性 值。
8.根据权利要求1所述的一种基于知识图谱技术的数据标准生成与自动映射方法, 其
特征在于, S1包括对元 数据的特 征数据集进行清洗:
S104: 基于元数据特征对数据 标准的影响程度, 构 建特征‑影响力值的影响力匹配关系
库, 基于所述影响力匹配关系库, 将元数据特征的缺 失值进行匹配查询, 获得元数据特征的
缺失值所对应的影响力值;
S105: 判定所述影响力值的大小, 若影响力值小于预设的第一影响力阈值, 则 对该影响
力值对应的缺失值执行删除记录操作处理; 若影响力值小于预设的第二影响力阈值并大于
预设的第一影响力阈值, 则对该影响力值对应的缺失值不执行操作处理; 若影响力值大于
预设的第二影响力阈值, 则对该影响力值对应的缺失值执 行数据插补操作处 理;
S106: 基于元数据特征包含信息内容的范围大小, 构 建特征‑包含范围值的包含 匹配关
系库, 基于所述包含匹配关系库, 将元数据特征的异常值进 行匹配查询, 获得元数据特征的
异常值所对应的包 含范围值;
S107: 判定所述包含范围值的大小, 若包含范围值小于预设的第一包含范围阈值, 则对
该包含范围值对应的异常值执行删除记录操作处理; 若包含范围值小于预设的第二包含范
围阈值并大于预设的第一包含范围阈值, 则不执行操作 处理; 若包含范围值大于预设的第
二包含范围阈值, 则执 行填充操作处 理。
9.根据权利要求1所述一种基于知识图谱技术的数据标准生成与自动映射方法, 其特
征在于, 还 包括S4, 基于数据标准对用户发起的搜索请求进行语义搜索, 具体步骤为:
S401: 获取用户发出的所要查询的数据的关键词;
S402: 基于语义索引搜索方法, 根据关键词的语义概念, 采用预设语义索引模型进行匹
配搜索, 获得 所述关键词所对应的语义结果;
S403: 基于实例搜索方法, 采用数据标准中实体的结构为索引, 通过查询实体的属性,权 利 要 求 书 2/3 页
3
CN 115374108 A
3
专利 一种基于知识图谱技术的数据标准生成与自动映射方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:53:46上传分享