专利一种大数据联邦学习处理方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111462397.2 (22)申请日 2021.12.02 (71)申请人京信数据科技有限公司地址 528400 广东省中山市东区中山五路 57号7层 (72)发明人王济平　黎刚　汤克云　周健雄　刘继华　徐炽明　 (74)专利代理机构深圳余梅专利代理事务所 (特殊普通合伙) 44519 代理人陈余才 (51)Int.Cl. G06F 16/182(2019.01) G06F 9/54(2006.01) G06N 20/00(2019.01) G06N 7/00(2006.01)H04L 67/1097(2022.01) H04L 67/10(2022.01) H04L 67/141(2022.01) H04L 67/56(2022.01) (54)发明名称一种大数据联邦学习处理方法及系统 (57)摘要本发明涉及一种大数据联邦学习处理方法及系统。方法包括以下步骤：发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS 分布式存储；发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链；在发起方与协同方之间建立起用于传递中间因子的消息通道；计算任务启动计算，发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。本发明利用HDFS分布式文件存储的特性，可以提供高效的数据读写能力；还利用Spark集群分布式计算的特性，极大提升了联邦学习任务的推理效率，为联邦学习提供高性能且高可用的执行环境，联邦学习整体效率得到提升。权利要求书1页说明书7页附图5页 CN 114328432 A 2022.04.12 CN 114328432 A 1.一种大数据联邦学习处理方法，其特征在于，其涉及发起方和协同方，发起方和协同方分别设有各自的本地内部集群；所述方法包括以下步骤：发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储；发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链；在发起方与协同方之间建立起用于传递中间因子的消息通道；计算任务启动计算，发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。 2.如权利要求1所述的大数据联邦学习处理方法，其特征在于，发起方建立学习项目时，发起方先邀请协同方并获得同意后，发起方通过计算组件和相关数据建立有向无环图并进行相关配置，最后形成学习项目ID。 3.如权利要求2所述的大数据联邦学习处理方法，其特征在于，发起方根据学习项目ID 发起计算任务，先根据学习项目ID查询和分析对应组件及配置，随后将计算任务转换成多个子任务并组装成任务链，最后整理Spark计算集群进行整理并把Master节点信息记录到任务链中。 4.如权利要求3所述的大数据联邦学习处理方法，其特征在于，计算任务启动计算时，发起方依次遍历每一个子任务并与协同方同步任务，发起方和协同方由各自的Master节点分配至少1个Worker节点执行相应计算， Worker节点按需读取本地内部集群HDFS分布式存储的数据。 5.如权利要求4所述的大数据联邦学习处理方法，其特征在于，在计算任务进行中，协同方通过消息通道以消息队列方式向发起方发送中间因子。 6.如权利要求5所述的大数据联邦学习处理方法，其特征在于，当发起方检测到一个子任务完成后将会更新计算任务的相关数据。 7.如权利要求1所述的大数据联邦学习处理方法，其特征在于，在发起方与协同方之间建立起用于传递中间因子的消息通道时，发起方先通过一个中心化的代理服务器向协同方发起握手请求，发起方收到代理服务器传来的协同方成功响应的信息后按需求创建临时的消息通道。 8.如权利要求7所述的大数据联邦学习处理方法，其特征在于，发起方先发起的握手请求中包含有发起方的任务链信息，协同方收到握手请求后会分析任务链信息并生成自身对应的计划任务，协同方最后通过代理服务器返回成功响应信息至发起方。 9.如权利要求1所述的大数据联邦学习处理方法，其特征在于，计算任务结束之后，更新计算任务的状态、清理未清理的计算资源并销毁使用到的消息通道。 10.一种大数据联邦学习处理系统，其特征在于，其包括发起方和协同方，发起方和协同方分别设有各自的本地内部集群；所述发起方和协同方均用于将数据上传各自本地内部集群中并进行HDFS分布式存储；所述发起方用于建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链；所述发起方用于建立起与协同方之间的用于传递中间因子的消息通道；所述发起方和协同方用于在计算任务启动计算时让各自的Spark计算集群按需读取本地分布存储的数据进行计算。权　利　要　求　书 1/1 页 2 CN 114328432 A 2一种大数据联邦学习处理方法及系统技术领域 [0001]本发明涉及大数据及机器学习技术，尤其涉及一种大数据联邦学习处理方法及系统。背景技术 [0002]联邦学习属于一种多方安全隐私计算的方式。联邦学习主要解决在多方联合建模时产生的数据隐私问题，目的是在各协同方数据不外出的情况下完成机器学习任务。但是现有的联邦学习任务中，往往需要长时间的训练。现在联邦学习应用在大数据场景(数据量大且数据维度较高)时，存在着以下两个性能瓶颈： [0003](1)数据的读写瓶颈：现有联邦学习任务前，首先要上传数据到自己的联邦集群环境中，生成一份csv文件或数据库表进行落盘。当执行联邦学习任务时，需要从磁盘中读取全量数据，再单机进行后续计算。由于每一个任务都需要读写大量的文件数据，当任务较多时会影响磁盘的读写能力，从而影响整个任务的运行效率。 [0004](2)任务的推理瓶颈：由于联邦学习任务中，需要各方完成一小节点的计算后，通过总裁方交互计算参数，然后进行下一个节点计算。若某一方的数据维度较高而导致自身计算效率较低。这将会大大降低联邦学习任务的整体效率。发明内容 [0005]本发明的目的在于为克服现有技术的以上缺陷，而提供一种大数据联邦学习处理方法及系统，以提升联邦学习的整体效率。 [0006]为实现上述目的，本发明采用以下技术方案： [0007]一种大数据联邦学习处理方法，其涉及发起方和协同方，发起方和协同方分别设有各自的本地内部集群；方法包括以下步骤： [0008]发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储； [0009]发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链； [0010]在发起方与协同方之间建立起用于传递中间因子的消息通道； [0011]计算任务启动计算，发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。 [0012]进一步地，发起方建立学习项目时，发起方先邀请协同方并获得同意后，发起方通过计算组件和相关数据建立有向无环图并进行相关配置，最后形成学习项目ID。 [0013]进一步地，在发起方与协同方之间建立起用于传递中间因子的消息通道时，发起方先通过一个中心化的代理服务器向协同方发起握手请求，发起方收到代理服务器传来的协同方成功响应的信息后按需求创建临时的消息通道。 [0014]进一步地，发起方先发起的握手请求中包含有发起方的任务链信息，协同方收到握手请求后会分析任务链信息并生成自身对应的计划任务，协同方最后通过代理服务器返回成功响应信息至发起方。说　明　书 1/7 页 3 CN 114328432 A 3

专利 一种大数据联邦学习处理方法及系统

专利一种大数据联邦学习处理方法及系统