全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111462397.2 (22)申请日 2021.12.02 (71)申请人 京信数据科技有限公司 地址 528400 广东省中山市东区中山五路 57号7层 (72)发明人 王济平 黎刚 汤克云 周健雄  刘继华 徐炽明  (74)专利代理 机构 深圳余梅专利代理事务所 (特殊普通 合伙) 44519 代理人 陈余才 (51)Int.Cl. G06F 16/182(2019.01) G06F 9/54(2006.01) G06N 20/00(2019.01) G06N 7/00(2006.01)H04L 67/1097(2022.01) H04L 67/10(2022.01) H04L 67/141(2022.01) H04L 67/56(2022.01) (54)发明名称 一种大数据联邦学习处 理方法及系统 (57)摘要 本发明涉及一种大数据联邦学习处理方法 及系统。 方法包括以下步骤: 发起方和协同方分 别将数据上传各自本地内部集群中并进行HDFS 分布式存储; 发起方建立学习项目并根据学习项 目发起计算任务后进行初始化以形成任务链; 在 发起方与协同方之间建立起用于传递中间因子 的消息通道; 计算任务启动计算, 发起方和协同 方各自的Spark计算集群按需读取本地 分布存储 的数据进行计算。 本发明利用HDFS分布式文件存 储的特性, 可 以提供高效的数据读写能力; 还利 用Spark集群分布式计算的特性, 极大提升了联 邦学习任务的推理效率, 为联邦学习提供高性能 且高可用的执行环境, 联邦学习整体效率得到提 升。 权利要求书1页 说明书7页 附图5页 CN 114328432 A 2022.04.12 CN 114328432 A 1.一种大数据联邦学习处理方法, 其特征在于, 其涉及发起方和 协同方, 发起方和协同 方分别设有各自的本地内部集群; 所述方法包括以下步骤: 发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存 储; 发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链; 在发起方与协同方之间建立 起用于传递中间因子的消息通道; 计算任务启动计算, 发起方和协同方各自的Spark计算集群按需读取本地分布存储的 数据进行计算。 2.如权利要求1所述的大数据联邦学习处理方法, 其特征在于, 发起方建立学习项目 时, 发起方先邀请协同方并获得同意后, 发起方通过计算组件和相关数据建立有向无环图 并进行相关配置, 最后形成学习项目ID。 3.如权利要求2所述的大数据 联邦学习处理方法, 其特征在于, 发起方根据学习项目ID 发起计算任务, 先根据学习项目ID查询和分析对应组件及配置, 随后将计算任务转换成多 个子任务并组装成任务链, 最后整理Spark计算集群进行整理并把Master节点信息记录到 任务链中。 4.如权利要求3所述的大数据联邦学习处理方法, 其特征在于, 计算任务启动计算时, 发起方依次遍历每一个子任务并与 协同方同步任务, 发起方和协同方由各自的Master节 点 分配至少1个Worker节点执行相应计算, Worker节点按需读取本地内部集群HDFS分布式存 储的数据。 5.如权利要求4所述的大数据联邦学习处理方法, 其特征在于, 在计算任务进行中, 协 同方通过消息通道以消息队列方式向发起方发送中间因子 。 6.如权利要求5所述的大数据联邦学习处理方法, 其特征在于, 当发起方检测到一个子 任务完成后将会更新计算任务的相关数据。 7.如权利要求1所述的大数据联邦学习处理方法, 其特征在于, 在发起方与协同方之间 建立起用于传递中间因子的消息通道时, 发起方先通过一个中心化的代理服务器向协同方 发起握手请求, 发起方收到代理服务器传来的协同方成功响应的信息后按需求创建临时的 消息通道。 8.如权利要求7所述的大数据联邦学习处理方法, 其特征在于, 发起方先发起的握手请 求中包含有发起方的任务链信息, 协同方收到握手请求后会分析任务链信息并生成自身对 应的计划任务, 协同方最后通过代理服 务器返回成功响应信息 至发起方。 9.如权利要求1所述的大数据联邦学习处理方法, 其特征在于, 计算任务结束之后, 更 新计算任务的状态、 清理未清理的计算资源并销毁使用到的消息通道。 10.一种大数据联邦学习处理系统, 其特征在于, 其包括发起方和协同方, 发起方和协 同方分别设有各自的本地内部集群; 所述发起方和协同方均用于将数据上传各自本地内部集群中并进行HDFS分布式存 储; 所述发起方用于建立学习项目并根据学习项目发起计算任务后进行初始化以形成任 务链; 所述发起方用于建立 起与协同方之间的用于传递中间因子的消息通道; 所述发起方和协同方用于在计算任务启动计算 时让各自的Spark计算集群按需读取本 地分布存 储的数据进行计算。权 利 要 求 书 1/1 页 2 CN 114328432 A 2一种大数据联邦学习处理 方法及系统 技术领域 [0001]本发明涉及大数据及机器学习技术, 尤其涉及一种大数据联邦学习处理方法及系 统。 背景技术 [0002]联邦学习属于一种多方安全隐私计算的方式。 联邦学习主要解决在多方联合建模 时产生的数据隐私问题, 目的是在各协同方数据不外出 的情况下完成机器学习任务。 但是 现有的联邦学习任务中, 往往需要长时间的训练。 现在联邦学习应用在大数据场景(数据量 大且数据维度较高)时, 存在着以下两个性能瓶颈: [0003](1)数据的读写瓶颈: 现有联邦学习任务前, 首先要上传数据到自己的联邦集群环 境中, 生成一份csv文件或数据库表进行落盘。 当执行联邦学习任务时, 需要从磁盘中读取 全量数据, 再单机进 行后续计算。 由于每一个任务都 需要读写 大量的文件数据, 当任务较多 时会影响磁 盘的读写能力, 从而影响整个任务的运行效率。 [0004](2)任务的推理瓶颈: 由于联邦学习任务中, 需要各方完成一小节点的计算后, 通 过总裁方交互计算参数, 然后进行下一个节点计算。 若某一方的数据维度较高而导致自身 计算效率较低。 这将会大 大降低联邦学习任务的整体效率。 发明内容 [0005]本发明的目的在于为克服现有技术的以上缺陷, 而提供一种大数据联邦学习处理 方法及系统, 以提升联邦学习的整体效率。 [0006]为实现上述目的, 本发明采用以下技 术方案: [0007]一种大数据联邦学习处理方法, 其涉及发起方和协同方, 发起方和协同方分别设 有各自的本地内部集群; 方法包括以下步骤: [0008]发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存 储; [0009]发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链; [0010]在发起方与协同方之间建立 起用于传递中间因子的消息通道; [0011]计算任务启动计算, 发起方和协同方各自的Spark计算集群按需读取本地分布存 储的数据进行计算。 [0012]进一步地, 发起方建立学习项目时, 发起方先邀请协同方并获得同意后, 发起方通 过计算组件和相关数据建立有向无环图并进行相关配置, 最后形成学习项目ID。 [0013]进一步地, 在发起方与协同方之间建立起用于传递中间因子 的消息通道时, 发起 方先通过一个中心 化的代理服务器向协同方发起握手请求, 发起方收到代理服务器传来的 协同方成功响应的信息后按需求创建临时的消息通道。 [0014]进一步地, 发起方先发起的握手请求中包含有发起方的任务链信息, 协同方收到 握手请求后会分析任务链信息并生成自身对应的计划任务, 协同方最后通过代理服务器返 回成功响应信息 至发起方。说 明 书 1/7 页 3 CN 114328432 A 3

.PDF文档 专利 一种大数据联邦学习处理方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种大数据联邦学习处理方法及系统 第 1 页 专利 一种大数据联邦学习处理方法及系统 第 2 页 专利 一种大数据联邦学习处理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。