专利 一种针对基于深度学习加解密模型的后门攻击方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211176337.9 (22)申请日 2022.09.26 (71)申请人电子科技大学地址 610000 四川省成都市高新区(西区) 西源大道 2006号 (72)发明人丁熠　王梓　秦臻　曹明生　邓伏虎　赵洋　周尔强　 (74)专利代理机构成都众恒智合专利代理事务所(普通合伙) 51239 专利代理师刘华平 (51)Int.Cl. G06F 21/56(2013.01) G06F 21/60(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种针对基于深度学习加解密模型的后门攻击方法 (57)摘要本发明公开了一种针对基于深度学习加解密模型的后门攻击方法，将二进制字符串与加密图像相加，采用网络编码解码图像，训练使得加入二进制字符串的图像更贴近原图像，将隐形的后门触发器加入训练后的图像中；输入正常图像时使用普通判别器生成正常加密的图像，输入异常图像时，将加入了后门触发器的图像输入后门判别器训练生成器生成原图像；训练子网络参数，将子网络的参数替代部分网络的参数，实现网络的其余部分正常进行解码。本发明使用 auto‑encoder图像隐写的方法添加后门触发器，并结合生成式模型的特点，提出了添加后门判别器和子网络取代的方法，使后门攻击方法更适合加解密网络的场景，为无针对深度学习的攻击领域提供了新的思路。权利要求书1页说明书5页附图2页 CN 115481399 A 2022.12.16 CN 115481399 A 1.一种针对基于深度学习加解密模型的后门攻击方法，其特征在于，包括以下步骤： S1：将二进制字符串与加密图像相加，采用网络编码解码图像，训练使得加入二进制字符串的图像更贴近原图像，将隐形的后门触发器加入训练后的图像中； S2：使用普通判别器和后门判别器训练生成器，输入正常图像时使用普通判别器生成正常加密的图像，输入异常图像时，将步骤S1加入了后门触发器的图像输入后门判别器训练生成器生成原图像； S3：训练子网络参数，将子网络的参数替代部分网络的参数，实现网络的其余部分正常进行解码。 2.根据权利要求1所述的针对基于深度学习加解密模型的后门攻击方法，其特征在于：所述步骤S1具体为：将32位的二进制数字字符串与图像相加，采用auto ‑encoder网络编码解码图像，训练使得加入二进制字符串的图像更贴近原图像，计算加入二进制数字的图像和原图像的误差，使用LPIPS计算感知损失，使用评论家网络计算critic损失，将三种损失加权相加计最终损失，公式中LR为MSE损失， LP为感知损失， LC为评论家网络损失， λ为各项损失的占比，为可调节的超参数 L＝ λRLR+λPLP+λCLC 使用上述损失训练网络直到网络收敛，将图像输入到网络就可以得到加入二进制信息的图像，且输出图像和原图像基本无差别，将加入二进制字符串的图像视为拥有后门触发器的图像，从而提高攻击的隐蔽性。 3.根据权利要求1所述的针对基于深度学习加解密模型的后门攻击方法，其特征在于：所述步骤S2中，使用两个判别器以一定概率训练生成器，设后门判别器出现的概率为普通判别器生成的概率为 D为判别器， x为特征向量， LG为生成器的损失，则生成模型在对抗训练中的损失为：训练结束后提取生成器，将步骤一生成的加入后门触发器的图片输入生成器，则破坏了生成器将正常图片转换为密文域图片。 4.根据权利要求1所述的针对基于深度学习加解密模型的后门攻击方法，其特征在于：所述步骤S3具体为：子网络每一层通道数量为原网络通道数量的子集，子网络一共有两种状态，激活态和非激活态，在激活态时子网络在最后一层输出值全为β 的特征图，在非激活态时子网络在最后一层输出值全为0的特征图，训练子网络的参数使得在输入带有后门触发器的密文域图片时处于激活态，在干净的密文域图片时处于非激活态，训练最小化损失，公式中s(x； θ )为网络输出的特征： L＝Ex～B{[s(x； θ ) ‑0]2+[s(x； θ ) ‑β ]2} 训练完成后得到子网络的参数。权　利　要　求　书 1/1 页 2 CN 115481399 A 2一种针对基于深度学习加解密模型的后门攻击方法技术领域 [0001]本发明涉及互联网技术领域，尤其涉及一种针对基于深度学习加解密模型的后门攻击方法。背景技术 [0002]随着互联网的快速发展，许多影像设备都连接到了云端信息网络中，方便相关资料进行存储和共享。由于很多图像中都含有敏感信息，如何对图像进行加密，保护用户的信息安全，成为了当前研究的一个热点。一些研究提出使用基于深度学习的加解密网络来完成对图像的加解密，使用CYCLE ‑GAN网络将图片加密为密文域图像，再将密文域图像解密为医学图像。使用深度学习模型进行图像的加解密，具有不宜破解，且不同网络密文不同，难以进行重放攻击的良好性质。但是目前已有很多针对深度学习模型的攻击方法，一些方法在图像上增加一些难以察觉的噪声，破坏原网络梯度计算的过程，从而达到破坏深度学习网络的目标。一些方法在图像上加上特定的标志，训练网络在识别出特定标志时输出错误的结果，从而实现对模型的干扰。但是目前流行的攻击方法还未针对加解密网络进行特定的研究，大多数攻击方法只能改变最终生成分类的离散化结果，如何干扰生成式模型，破坏生成图片的效果也成为了攻击加解密网络的巨大挑战。 [0003]1、 FGSM攻击方法 [0004]简介： FGS M(fast gradient sign method)是一种基于梯度生成对抗样本的算法。可以分解对抗过程，在每一步分析的过程中加入少量扰动，让预测结果朝目标类别偏移。 [0005]缺点：针对加解密网络的攻击场景下，这一方法的局限性非常明显。 FGSM需要通过生成偏移的分类结果来计算图像的梯度来生成扰动的噪声，有明确的攻击目标，即调整原模型最后一层神经元的概率分布，改变原模型的分类结果。而对于生成式模型最终生成的结果是一张图片，且没有任何明确的干扰的指向目标，且不易获取各神经元对最终生成效果的贡献，无法通过计算向目标结果移动的图像梯度，也就无法生成相应的噪声达到攻击目标。 [0006]2、针对GAN网络的成员推理攻击 [0007]简介：成员推理攻击利用了这样一种观察，即机器学习模型在它们所训练的数据上的行为常常与它们第一次 “看到”的数据不同。过拟合是一个常见的原因，但不是唯一的原因。攻击者的目的是构建一个攻击模型，该模型可以识别目标模型行为中的这些差异，并利用它们来区分目标模型的成员和非成员。针对GAN网络的成员推理攻击可以推测出训练加解密网络使用的训练集，从而复制加解密网络的参数，完成对加密图像的窃取。 [0008]缺点：针对GAN网络的成员推理攻击虽然通过大量的尝试可以推测出原网络使用的训练集和测试集，但是无法完成对原模型参数的复制，由于深度学习的训练过程是一个随机的过程，虽然加解密网络达到的加解密效果相似，但是网络中的参数由于反向传播的随机性不一定相似，因此即使通过成员推理的方法得出了相同的数据集，也无法完全复制原网络的加解密参数，也就无法对原模型加密的图像进行解密，不能实现对目标图像的窃说　明　书 1/5 页 3 CN 115481399 A 3

专利 一种针对基于深度学习加解密模型的后门攻击方法

专利一种针对基于深度学习加解密模型的后门攻击方法