(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221083482 2.4
(22)申请日 2022.07.15
(71)申请人 北京三维 天地科技股份有限公司
地址 100000 北京市海淀区西四环北路1 19
号A座3层3 09室
(72)发明人 金震 张京日 穆宇浩
(74)专利代理 机构 北京冠和权律师事务所
11399
专利代理师 张树朋
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 5/02(2006.01)
(54)发明名称
一种基于知识图谱技术的数据智能分级方
法
(57)摘要
本发明提供了一种基于知识图谱技术的数
据智能分级方法, 包括: 获取数据物理表之间的
血缘关系, 根据血缘关系生 成数据物理表知 识图
谱; 利用改进的特征向量中心性算法, 计算数据
物理表知识图谱中物理表的网络权重; 获取两个
特征数据集, 两个特征数据集为: 数据物理表的
数据访问情况数据集和数据更新频率数据集, 基
于K‑means聚类算法对所述两个特征数据集进行
聚类分析, 生成聚类分析结果; 根据聚类分析结
果和网络权重, 基于层次分析法和熵权法, 构建
数据物理表重要度评估公式; 利用数据物理表重
要度评估公 式对数据物理表进行评估, 根据评估
结果获得核心关键数据。 本发明提高了核心关键
数据的识别效率和数据的智能分级水平。
权利要求书3页 说明书9页 附图2页
CN 115374106 A
2022.11.22
CN 115374106 A
1.一种基于知识图谱技 术的数据智能分级方法, 其特 征在于, 包括:
S1: 获取数据物理表之间的血缘关系, 根据血缘关系生成数据物理表知识图谱;
S2: 利用改进的特 征向量中心性 算法, 计算数据物理表知识图谱中物理表的网络 权重;
S3: 获取两个特征数据集, 两个特征数据集为: 数据物 理表的数据访问情况数据集和数
据更新频率数据集, 基于K ‑means聚类算法对所述两个特征数据集进行聚类 分析, 生成聚类
分析结果;
S4: 根据聚类分析结果和网络权重, 基于层次分析法和熵权法, 构建数据物理表重要度
评估公式;
S5: 利用数据物理表重要度评估公式对数据物理表进行评估, 根据评估结果获得核心
关键数据。
2.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S1
包括: 构建第一本体模型, 基于第一本体模型生成数据 物理表的知识图谱; 所述构建第一本
体模型的方法包括:
S101: 获取用于创建数据物理表知识图谱的本体模型;
S102: 基于预设的本体模型质量评价条件对本体模型进行评价; 所述本体模型质量评
价条件基于数据的完整性、 简洁性、 清晰性和可用性制定;
S103: 筛选出评价结果符合预设评价结果阈值的第一本体模型。
3.根据权利要求2所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S1
包括:
S104: 解析 数据物理表之间的血缘关系, 获取 血缘关系的特 征类别;
S105: 选取所述特征类别中的归属性、 层次性、 多源性特征, 基于预设的关系抽取模型
进行关系抽取, 获得 数据物理表的实体关系;
S106: 将数据物理表、 数据物理表的实体关系输入第一本体模型, 生成数据物理表的知
识图谱。
4.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S2
包括:
S201: 采用改进的特征向量中心性算法对数据物 理表知识图谱中的实体节点进行重要
度分析; 所述改进的特 征向量中心性 算法为基于加权的Pa geRank算法;
S202: 获取实体节点的重要度数组、 节点总数、 阻尼系数和收敛门限, 并进行初始化赋
值;
S203: 根据初始化赋值, 计算实体节点的出弧计数矩阵、 出弧权 重和矩阵;
S204: 对实体节点重要度进行迭代计算, 获得连续两次的重要度数组值, 计算获得连续
两次的重要度数组值的差值;
S205: 将所述差值的正无穷范数与收敛门限进行比较, 若所述正无穷范数小于收敛门
限, 则迭代结束, 获得排序后的重要度矩阵;
S206: 基于排序后的重要度矩阵, 获得 数据物理表知识图谱物理表的网络 权重。
5.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S3
包括:
S301: 获取数据物理表的数据访问情况特征数据集、 数据更新频率特征数据集, 将数据权 利 要 求 书 1/3 页
2
CN 115374106 A
2访问情况特征数据集、 数据更新频率特征数据集分别划分为训练集和验证集, 并设置P 个初
始聚类中心;
S302: 获取训练集中的每一个样本, 计算其与每一个质心的距离, 并将其划分到距离最
近的质心所属集 合;
S303: 重新计算每 个集合的质心, 并计算 新的质心与原来质心的第一距离;
S304: 若所述第一距离小于预设的距离阈值, 则终止聚类, 获得P个聚类质心;
S305: 若所述第一距离大于预设的距离阈值, 则重复步骤S3 02至S304;
S306: 获取测试集中的每一个样本, 计算其与P个簇的质心的距离, 将所述距离转换成
相应的分值进行 结果输出, 得到聚类分析 结果。
6.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S4
包括:
S401: 基于聚类分析 结果和网络 权重, 构建数据物理表的重要度评估指标;
S402: 通过层次分析法计算获得重要度评估指标的主观权 重;
S403: 通过熵权法计算获得重要度评估指标的客观权 重;
S404: 根据主观权重和客观权重, 生成重要度评估指标的复合权重, 基于复合权重, 生
成数据物理表的重要度评估公式。
7.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S5
包括:
S501: 利用数据物理表重要度评估公式对数据物理表进行评估, 获得评估结果列表;
S502: 基于预设的若干个排序规则, 对评估结果列表进行排序, 获得若干个排序结果序
列;
S503: 获取排序结果序列中排序最前的数据结果所对应的数据, 将所述数据作为核心
关键数据进行推荐。
8.根据权利要求7所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, S5
还包括根据评估结果列表生成评估级别;
S5011: 基于预设的对应规则, 设置 评估结果与评估级别的对应关系库;
S5012: 设置 评估级别, 将重要度级别分为高级、 中级和低级;
S5013: 将重要度评估结果输入 对应关系库, 生成相对应的评估级别。
9.根据权利要求8所述的一种基于知识图谱技术的数据智能分级方法, 其特征在于, 还
包括S6, 根据数据评估级别进行分类存 储:
S601: 获取数据级别中的参数, 基于所述参数, 制定数据分类存储策略; 所述参数包括
物理表影响下游 物理表的个数、 数据任务的个数和数据报表的张数;
S602: 根据不同的参数, 生成相应的分类存储策略; 当影响下游物 理表的个数大于第一
数量阈值范围上限、 并且数据任务的个数大于第二数量阈值范围上限、 并且数据报表的张
数大于第三数量阈值范围的上限时, 生成第一存 储策略;
当影响下游物 理表的个数位于第 一数量阈值范围内、 并且数据任务的个数位于第 二数
量阈值范围内、 并且数据报表的张数位于第三数量阈值范围内时, 生成第二存 储策略;
当影响下游物 理表的个数小于第 一数量阈值范围下限、 并且数据任务的个数小于第 二
数量阈值范围下限、 并且数据报表的张数小于第三数量阈值范围的下限时, 生成第三存储权 利 要 求 书 2/3 页
3
CN 115374106 A
3
专利 一种基于知识图谱技术的数据智能分级方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:53:46上传分享