全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211298771.4 (22)申请日 2022.10.24 (71)申请人 太极计算机股份有限公司 地址 100020 北京市朝阳区容达路7号中国 电科太极信息产业园 (72)发明人 李慧 李以斌 陈伟 李国良  裴洪岩 贾丹丹 张继影 邵海金  李桂林  (74)专利代理 机构 北京细软智谷知识产权代理 有限责任公司 1 1471 专利代理师 葛钟 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/2455(2019.01) G06F 16/23(2019.01)G06F 16/28(2019.01) (54)发明名称 基于大数据的信息处理方法、 设备和存储介 质 (57)摘要 本申请提供的一种基于大数据的信息处理 方法、 设备和存储介质, 属于数据信息处理技术 领域, 该方法包括: 基于来源端 提供的大数据, 获 取目标应用程序所需的目标格式数据; 从大数据 中提取实体、 场所和时间之间的关系, 建立相应 三元组, 构建知 识图谱; 基于目标格式数据, 通过 目标应用程序响应来自于前端的用户访问请求; 在发现疑似携带病原微生物的第一实体的情况 下, 基于知识图谱, 查找第一实体对应的行动轨 迹, 确定目标 实体。 基于人、 场所以及时间之间的 关系的三元 组图谱来进行实体构建, 快速构建节 点与下一节 点之间的关联节点, 精 准查找疫情接 触链路, 快速排查, 将数据存储在缓存中, 提高了 运行效率, 能够按照时间线秒级将人员和场所信 息迅速呈现出来。 权利要求书2页 说明书7页 附图3页 CN 115357656 A 2022.11.18 CN 115357656 A 1.一种基于大 数据的信息处 理方法, 其特 征在于, 所述方法包括: 基于来源端提供的大 数据, 获取目标应用程序所需的目标格式数据; 从所述大数据中提取实体、 场所和时间之间的关系, 建立相应三元组, 构建知识图谱, 其中, 所述实体包括人、 物体或动物中的至少一种; 基于所述目标格式数据, 通过 所述目标应用程序响应来自于前端的用户访问请求; 在发现疑似携带病原微生物的第一实体的情况下, 基于所述知识图谱, 查找所述第一 实体对应的行动轨 迹, 确定与所述第一实体存在直接或间接 接触的目标实体。 2.根据权利要求1所述的方法, 其特征在于, 所述基于来源端提供的大数据, 获取目标 应用程序所需的目标格式数据, 包括: 对来自于 至少一种来源端的大 数据进行集成处 理; 所述大数据进行ETL处 理; 对ETL处理后的大数据进行标准化处理和/或质量管理, 获得质量符合预定规则的标准 化数据; 所述标准 化数据包括所述目标格式数据。 3.根据权利要求2所述的方法, 其特征在于, 采集来自于至少一种来源端的大数据, 包 括: 采用flume、 kafka、 sqoop集群中 的至少一种, 进行数据采集; 其中, 所述flume用于将实 时数据进行分发并存入指定的数据库中, 所述kafka用于将实时数据采集到计算引擎中进 行计算; 所述Sqoop用于采集非实时数据, 和/或, 将非结构化数据采集到Hbase库中进行存 储; 所述实时数据为更新频率大于或等于更新阈值的数据, 所述非实时数据为数据更新频 率小于频率更新阈值的数据。 4.根据权利要求3所述的方法, 其特 征在于, 所述大 数据进行ETL处 理, 包括: 基于ETL技术, 对所述大 数据进行抽取, 转换和 加载处理。 5.根据权利要求3所述的方法, 其特 征在于, 所述大 数据进行ETL处 理, 包括: 对所述大 数据进行A ‑D‑M‑S处理; 所述A ‑D‑M‑S处理包括: 系统级分析、 表级分析、 字段级分析、 LDM操作、 P DM操作、 S DM操作和ETLJOB操作。 6.根据权利要求5所述的方法, 其特 征在于, 所述系统级分析用于系统调研, 内容涉及项目中所需入仓的系统信息、 功能和流 程; 所述表级分析用于确定源系统进入整合层的表和进入近源层的表; 所述字段集分析用于确定所述近源层表的字段、 类型、 唯一索引、 主键以及是否为空; 所述LDM由ERwei n导出, 记录模型的表字段中文名信息; 所述PDM是整合层的数据字典, 确定模型层的表字段英文名信息; 所述SDM是确定源表字段的入仓形式, 由目标到源的模板; 所述ETLJOB用于确定整合层任务的加载算法。 7.根据权利要求2所述的方法, 其特征在于, 所述对ETL处理后的大数据进行标准化处 理和/或质量管理, 包括; 基于数据 标准管理框架, 执行相应的标准化处理, 所述数据标准管理框架, 包括数据标 准定义、 数据标准映射、 数据标准执 行及数据标准管理流 程; 和/或, 基于数据质量管理框架, 执行相应的质量管理, 所述数据质量管理框架包括确定数据权 利 要 求 书 1/2 页 2 CN 115357656 A 2质量检核规则、 发现数据质量问题、 分析数据质量问题、 解决数据质量问题及监控改进过 程。 8.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括场景便签联动机制; 通过自动化标注学习为城市实体生成基于属性标签的强关系和基于特征标签的弱关 系; 建立覆盖全域主体的原子级大尺度弱关系, 并针对任意事件进行基于时空映射的强关 系收敛, 实现城市级人 ‑企‑物多维复杂关系自动抽取和自适应增长学习。 9.一种电子设备, 其特征在于, 所述电子设备包括用于存储程序指令的存储器和用于 执行程序指令的处理器, 其中, 当该程序指 令被该处理器执行时, 触发所述电子 设备执行如 权利要求1 ‑8中任一项所述的方法。 10.一种存储介质, 其特征在于, 所述存储介质中存储有程序指令, 当其在电子设备上 运行时, 使得 所述电子设备 执行如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115357656 A 3

PDF文档 专利 基于大数据的信息处理方法、设备和存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大数据的信息处理方法、设备和存储介质 第 1 页 专利 基于大数据的信息处理方法、设备和存储介质 第 2 页 专利 基于大数据的信息处理方法、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。