专利一种基于公平联邦学习算法的数据分类方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111478600.5 (22)申请日 2021.12.0 6 (71)申请人贵州大学地址 550025 贵州省贵阳市花溪区贵州大学西校区科学技术处 (72)发明人彭长根　杨秀清　牛坤　丁红发　李雪松　 (74)专利代理机构北京高沃律师事务所 1 1569 代理人赵兴华 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于公平联邦学习算法的数据分类方法及系统 (57)摘要本发明提出了一种基于公平联邦学习算法的数据分类方法及系统，利用各用户端拥有的本地数据集，基于熵权法确定得到各用户端的数据质量分数，基于用户端的数据数量和用户端的数据质量两方面定义聚合权重，根据考虑了数据数量和数据质量两方面的聚合权重对全局模型进行更新，解决了传统的联邦学习中未考虑权重分配或仅考虑了用户端的数据数量一方面，对各用户的聚合权重分配不公平的问题，本发明的方案相对于传统的联邦学习方案，对于参与训练的各用户端更加公平，更能够促进数据质量分数高的用户端加入到联邦学习中来。权利要求书3页说明书9页附图4页 CN 114298156 A 2022.04.08 CN 114298156 A 1.一种基于公平联邦学习算法的数据分类方法，其特征在于，所述方法包括：基于熵权法，根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的数量确定得到各用户端的数据质量分数；所述本地数据集中包含若干个样本数据和每个样本数据的属性；初始化全局模型，并将初始化后的所述全局模型的参数发送给各用户端；根据所述全局模型的参数，利用各用户端拥有的本地数据集，在各用户端进行训练，得到各用户端的本地模型参数；根据各用户端的数据数量和各用户端的数据质量分数，确定各用户端的聚合权重；根据各用户端的聚合权重和各用户端的本地模型参数，确定并更新所述全局模型的参数；判断是否达到结束迭代的条件；若否，则跳转到所述 “根据所述全局模型的参数，利用各用户端拥有的本地数据集，在各用户端进行训练，得到各用户端的本地模型参数 ”；若是，则结束训练，所述全局模型根据训练好的全局模型参数进行数据分类。 2.根据权利要求1所述的数据分类方法，其特征在于，所述基于熵权法，根据用户端中每个属性的熵权及每个属性中数据的数量确定得到各用户端的数据质量分数，具体包括：对各用户端拥有的本地数据集进行预处理；根据预处理后的本地数据集，确定各用户端在本地数据集中每个样本出现的概率；根据每个样本出现的概率确定各用户端中每个属性的信息熵；根据每个属性的信息熵确定各用户端中每个属性的熵权；根据各用户端中每个属性的熵权及每个属性中数据的数量，确定各用户端的数据质量分数。 3.根据权利要求2所述的数据分类方法，其特征在于，采用以下公式确定各用户端的数据质量分数：其中，表示用户ui的数据质量分数； ki表示第i个用户的属性个数， m表示第m个属性，表示用户ui的样本个数， j表示第j个样本。 4.根据权利要求1所述的数据分类方法，其特征在于，所述根据各用户端的数据数量和数据质量分数，确定各用户端的聚合权重，具体包括：根据各用户端的数据数量占总的数据量的比重，确定各用户的数据数量权重；根据各用户数据质量分数占总的数据质量分数的比重，确定各用户的数据质量权重；根据各用户的数据数量权重和数据质量权重，确定各用户的混合权重；根据各用户的混合权重，确定各用户的聚合权重。 5.根据权利要求4所述的数据分类方法，其特征在于，采用以下公式确定各用户的混合权重：权　利　要　求　书 1/3 页 2 CN 114298156 A 2其中，表示用户ui的混合权重，表示用户ui的数据质量权重，表示用户ui的数据数量权重， λ表示数据质量权重在混合权重中的比重。 6.根据权利要求1所述的数据分类方法，其特征在于，采用以下公式初始化全局模型：其中， p(y＝1|x； θ )表示输入属性x时，分类结果y为1的概率； θ表示属性x的比重，即需要优化的模型参数； e是自然对数的底； T表示矩阵的转置操作； g( θTx)为初始化后的全局模型；其损失函数为：其中， m表示用户端参与训练的样本个数； p(x(i))表示输入第i个属性时，通过所述全局模型的分类结果y为1的概率。 7.根据权利要求6所述的数据分类方法，其特征在于，所述根据所述全局模型的参数，利用各用户端拥有的本地数据集，在各用户端进行训练，具体包括：根据所述全局模型参数在各用户端生成本地模型；利用所述本地模型对各用户端拥有的本地数据进行分类；进行预设次数的迭代训练，更新所述本地模型的参数，如下式：其中， θlt+1表示第lt+1次的本地模型参数， θlt表示第lt次的本地模型参数； η表示用户端的学习率； L表示全局模型的损失函数。 8.根据权利要求1所述的数据分类方法，其特征在于，采用以下公式更新所述全局模型的参数：其中， θgt+1表示第gt+1次更新后的全局模型参数，表示第i个用户端的聚合权重，表示第i个用户端的本地模型参数， n 为用户端的数量。 9.根据权利要求1所述的数据分类方法，其特征在于，在确定并更新所述全局模型的参数时，采用差分隐私进行扰动。 10.一种基于公平联邦学习算法的数据分类系统，其特征在于，所述数据分类系统包括：数据质量确定模块，用于基于熵权法，根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的数量确定得到各用户端的数据质量分数；初始化模块，初始化全局模型，并将初始化后的所述全局模型的参数发送给各用户端；本地训练模块，根据所述全局模型的参数，利用各用户端拥有的本地数据集，在各用户端进行训练，得到各用户端的本地模型参数；权　利　要　求　书 2/3 页 3 CN 114298156 A 3

专利 一种基于公平联邦学习算法的数据分类方法及系统

专利一种基于公平联邦学习算法的数据分类方法及系统