全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111478600.5 (22)申请日 2021.12.0 6 (71)申请人 贵州大学 地址 550025 贵州省贵阳市花溪区贵州大 学西校区科 学技术处 (72)发明人 彭长根 杨秀清 牛坤 丁红发  李雪松  (74)专利代理 机构 北京高沃 律师事务所 1 1569 代理人 赵兴华 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于公平联邦学习算法的数据分类方 法及系统 (57)摘要 本发明提出了一种基于公平联邦学习算法 的数据分类方法及系统, 利用各用户端拥有的本 地数据集, 基于熵权法确定得到各用户端的数据 质量分数, 基于用户端的数据数量和用户端的数 据质量两方面定义聚合权重, 根据考虑了数据数 量和数据质量两方面的聚合权重对全局模型进 行更新, 解决了传统的联邦学习中未考虑权重分 配或仅考虑了用户端的数据数量一方面, 对各用 户的聚合权重分配不公平的问题, 本发明的方案 相对于传统的联邦学习方案, 对于参与训练的各 用户端更加公平, 更能够促进数据质量分数高的 用户端加入到联邦学习中来。 权利要求书3页 说明书9页 附图4页 CN 114298156 A 2022.04.08 CN 114298156 A 1.一种基于公平联邦学习算法的数据分类方法, 其特 征在于, 所述方法包括: 基于熵权法, 根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的 数量确定得到各用户端的数据质量分数; 所述本地数据集中包含若干个样本数据和每个样 本数据的属性; 初始化全局模型, 并将初始化后的所述全局模型的参数发送给 各用户端; 根据所述全局模型的参数, 利用各用户端拥 有的本地数据集, 在各用户端进行训练, 得 到各用户端的本地模型参数; 根据各用户端的数据数量和各用户端的数据质量分数, 确定各用户端的聚合权 重; 根据各用户端的聚合权重和各用户端的本地模型参数, 确定并更新所述全局模型的参 数; 判断是否 达到结束迭代的条件; 若否, 则跳转到所述 “根据所述全局模型的参数, 利用各用户端拥有的本地数据集, 在 各用户端 进行训练, 得到各用户端的本地模型参数 ”; 若是, 则结束训练, 所述全局模型根据训练好的全局模型参数进行 数据分类。 2.根据权利要求1所述的数据分类方法, 其特征在于, 所述基于熵权法, 根据用户端中 每个属性的熵权及每 个属性中数据的数量确定得到各用户端的数据质量分数, 具体包括: 对各用户端拥有的本地数据集进行 预处理; 根据预处 理后的本地数据集, 确定各用户端在本地数据集中每 个样本出现的概 率; 根据每个样本出现的概 率确定各用户端中每 个属性的信息熵; 根据每个属性的信息熵确定各用户端中每 个属性的熵权; 根据各用户端中每个属性的熵权及每个属性中数据的数量, 确定各用户端的数据质量 分数。 3.根据权利要求2所述的数据分类方法, 其特征在于, 采用以下公式确定各用户端的数 据质量分数: 其中, 表示用户ui的数据质量分数; ki表示第i个用户的属性个数, m表示第m个属 性, 表示用户ui的样本个数, j表示第j个样本 。 4.根据权利要求1所述的数据分类方法, 其特征在于, 所述根据 各用户端的数据 数量和 数据质量分数, 确定各用户端的聚合权 重, 具体包括: 根据各用户端的数据数量占总的数据量的比重, 确定各用户的数据数量权 重; 根据各用户数据质量分数占总的数据质量分数的比重, 确定各用户的数据质量权 重; 根据各用户的数据数量权 重和数据质量权 重, 确定各用户的混合权 重; 根据各用户的混合权 重, 确定各用户的聚合权 重。 5.根据权利要求4所述的数据分类方法, 其特征在于, 采用以下公式确定各用户的混合 权重: 权 利 要 求 书 1/3 页 2 CN 114298156 A 2其中, 表示用户ui的混合权重, 表示用户ui的数据质量权重, 表示用 户ui的数据数量权 重, λ表示数据质量权 重在混合权 重中的比重 。 6.根据权利要求1所述的数据分类方法, 其特 征在于, 采用以下公式初始化全局模型: 其中, p(y=1|x; θ )表示输入属性x时, 分类结果y为1的概率; θ表示属性x的比重, 即需 要优化的模型参数; e是自然对数的底; T表示矩阵的转置操作; g( θTx)为初始化后的全局模 型; 其损失函数为: 其中, m表示用户端参与训练的样本个数; p(x(i))表示输入第i个属性时, 通过所述全局 模型的分类结果y为1的概 率。 7.根据权利要求6所述的数据分类方法, 其特征在于, 所述根据所述全局模型的参数, 利用各用户端拥有的本地数据集, 在各用户端 进行训练, 具体包括: 根据所述全局模型参数在各用户端生成本地模型; 利用所述本地模型对各用户端拥有的本地数据进行分类; 进行预设次数的迭代训练, 更新所述本地模型的参数, 如下式: 其中, θlt+1表示第lt+1次的本地模型参数, θlt表示第lt次的本地模型参数; η表示用户 端的学习率; L表示全局模型的损失函数。 8.根据权利要求1所述的数据分类方法, 其特征在于, 采用以下公式更新所述全局模型 的参数: 其中, θgt+1表示第gt+1次更新后的全局模型参数, 表示第i个用户端的聚合权重, 表示第i个用户端的本地模型参数, n 为用户端的数量。 9.根据权利要求1所述的数据分类方法, 其特征在于, 在确定并更新所述全局模型的参 数时, 采用差分隐私进行扰动。 10.一种基于公平联邦学习算法的数据分类系统, 其特征在于, 所述数据分类系统包 括: 数据质量确定模块, 用于基于熵权法, 根据用户端本地数据集中每种属性的熵权及每 种属性对应的样本数据的数量确定得到各用户端的数据质量分数; 初始化模块, 初始化全局模型, 并将初始化后的所述全局模型的参数发送给 各用户端; 本地训练模块, 根据 所述全局模型的参数, 利用各用户端拥有的本地数据集, 在各用户 端进行训练, 得到各用户端的本地模型参数;权 利 要 求 书 2/3 页 3 CN 114298156 A 3

.PDF文档 专利 一种基于公平联邦学习算法的数据分类方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于公平联邦学习算法的数据分类方法及系统 第 1 页 专利 一种基于公平联邦学习算法的数据分类方法及系统 第 2 页 专利 一种基于公平联邦学习算法的数据分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。