(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211176337.9
(22)申请日 2022.09.26
(71)申请人 电子科技大 学
地址 610000 四川省成 都市高新区(西区)
西源大道 2006号
(72)发明人 丁熠 王梓 秦臻 曹明生
邓伏虎 赵洋 周尔强
(74)专利代理 机构 成都众恒智合专利代理事务
所(普通合伙) 51239
专利代理师 刘华平
(51)Int.Cl.
G06F 21/56(2013.01)
G06F 21/60(2013.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种针对基于深度学习加解密模型的后门
攻击方法
(57)摘要
本发明公开了一种针对基于深度学习加解
密模型的后门攻击方法, 将二进制字符串与加密
图像相加, 采用网络编码解码图像, 训练使得加
入二进制字符串的图像更贴近原图像, 将隐形的
后门触发器加入训练后的图像中; 输入正常图像
时使用普通判别器生成正常加密的图像, 输入异
常图像时, 将加入了后门触发器的图像输入后门
判别器训练生成器生成原图像; 训练子网络参
数, 将子网络的参数替代部分网络的参数, 实现
网络的其余部分正常进行解码。 本发明使用
auto‑encoder图像隐写的方法添加后门触发器,
并结合生 成式模型的特点, 提出了添加 后门判别
器和子网络取代的方法, 使后门攻击方法更适合
加解密网络的场景, 为无针对深度学习的攻击领
域提供了新的思路。
权利要求书1页 说明书5页 附图2页
CN 115481399 A
2022.12.16
CN 115481399 A
1.一种针对基于深度学习加解密模型的后门攻击方法, 其特 征在于, 包括以下步骤:
S1: 将二进制字符串与加密图像相加, 采用网络编码解码图像, 训练使得加入二进制字
符串的图像更贴近原图像, 将隐形的后门触发器加入训练后的图像中;
S2: 使用普通判别器和后门判别器训练生成器, 输入正常图像时使用普通判别器生成
正常加密的图像, 输入异常图像时, 将步骤S1加入了后门触发器的图像输入后门判别器训
练生成器生成原图像;
S3: 训练子网络参数, 将子网络的参数替代部分网络的参数, 实现网络的其余部分正常
进行解码。
2.根据权利要求1所述的针对基于深度 学习加解密模型的后门攻击方法, 其特征在于:
所述步骤S1具体为: 将32位的二进制数字字符串与图像相加, 采用auto ‑encoder网络编码
解码图像, 训练使得加入二进制 字符串的图像更贴近原图像, 计算加入二进制数字的图像
和原图像的误差, 使用LPIPS计算感知损失, 使用评论家网络计算critic损失, 将三种损失
加权相加计最终损失, 公 式中LR为MSE损失, LP为感知损失, LC为评论家网络损失, λ为各项损
失的占比, 为可调节的超参数
L= λRLR+λPLP+λCLC
使用上述损失训练网络直到网络收敛, 将图像输入到网络就可以得到加入二进制信 息
的图像, 且输出图像和原图像基本无差别, 将加入二进制 字符串的图像视为拥有后门触发
器的图像, 从而提高攻击的隐蔽性。
3.根据权利要求1所述的针对基于深度 学习加解密模型的后门攻击方法, 其特征在于:
所述步骤S2中, 使用两个判别器以一定概率训练生成器, 设后门判别器出现的概率为
普
通判别器生成的概率 为
D为判别器, x为特征向量, LG为生成器的损失, 则生成模型在对
抗训练中的损失为:
训练结束后提取生成器, 将步骤一生成的加入后门触发器的图片输入生成器, 则破坏
了生成器将正常图片转换为密文域图片。
4.根据权利要求1所述的针对基于深度 学习加解密模型的后门攻击方法, 其特征在于:
所述步骤S3具体为: 子网络每一层通道数量为原网络通道数量的子集, 子网络一共有两种
状态, 激活态和非激活态, 在激活态 时子网络在最后一层输出值全为β 的特征图, 在非激活
态时子网络在最后一层输出值全为0的特征图, 训练子网络的参数使得在输入带有后门触
发器的密文域图片时处于激活态, 在干净的密 文域图片时处于非激活态, 训练最小化损失,
公式中s(x; θ )为网络 输出的特 征:
L=Ex~B{[s(x; θ ) ‑0]2+[s(x; θ ) ‑β ]2}
训练完成后得到 子网络的参数。权 利 要 求 书 1/1 页
2
CN 115481399 A
2一种针对基于深度学习加解密模型的后门 攻击方法
技术领域
[0001]本发明涉及互联 网技术领域, 尤其涉及一种针对基于深度学习加解密模型的后门
攻击方法。
背景技术
[0002]随着互联网的快速发展, 许多影像设备都连接到了云端信息网络中, 方便相关资
料进行存储和共享。 由于很多图像中都含有敏感信息, 如何对图像进 行加密, 保护用户的信
息安全, 成为了当前研究的一个热点。 一些研究提出使用基于深度学习的加 解密网络来完
成对图像的加解密, 使用CYCLE ‑GAN网络将图片加密为密文域图像, 再将密 文域图像解密为
医学图像。 使用深度学习模型进行图像的加解密, 具有不宜破解, 且不同网络密文不同, 难
以进行重放攻击的良好性质。 但是目前已有很多针对深度学习模型 的攻击方法, 一些方法
在图像上增加 一些难以察觉的噪声, 破坏原网络梯度计算的过程, 从而达到破坏深度学习
网络的目标。 一些方法在图像上加上特定的标志, 训练网络在识别出特定标志 时输出错误
的结果, 从而实现对模型 的干扰。 但是目前流行 的攻击方法还未针对加 解密网络进行特定
的研究, 大多 数攻击方法只能改变最 终生成分类的离散化结果, 如何干扰生 成式模型, 破坏
生成图片的效果 也成为了攻击加解密网络的巨大挑战。
[0003]1、 FGSM攻击方法
[0004]简介: FGS M(fast gradient sign method)是一种基于梯度生成对抗样本的算法。
可以分解对抗过程, 在每一 步分析的过程中加入少量扰动, 让 预测结果朝目标类别偏移。
[0005]缺点: 针对加解密网络的攻击场景下, 这一方法的局限性非常 明显。 FGSM需要通过
生成偏移的分类结果来计算图像的梯度来生成扰动的噪声, 有明确的攻击目标, 即调整原
模型最后一层神经元 的概率分布, 改变原模型 的分类结果。 而对于生成式模型最终生成的
结果是一张图片, 且没有任何明确的干扰的指向目标, 且不易获取各神经元对最终生成效
果的贡献, 无法通过计算向目标结果移动的图像梯度, 也就无法生成相 应的噪声达到攻击
目标。
[0006]2、 针对GAN网络的成员推理攻击
[0007]简介: 成员推理攻击利用了这样一种观察, 即机器学习模型在它们所训练的数据
上的行为常常与它们第一次 “看到”的数据不同。 过拟合是一个常见 的原因, 但不是唯一的
原因。 攻击者的目的是构建一个攻击模 型, 该模型可以识别目标模型行为中的这些差异, 并
利用它们来区分目标模型的成员和非成员。 针对GAN网络的成员推理攻击可以推测出训练
加解密网络使用的训练集, 从而复制加解密网络的参数, 完成对加密图像的窃取。
[0008]缺点: 针对GAN网络 的成员推理攻击虽然通过大量的尝试可以推测出原网络使用
的训练集和测试集, 但是无法完成对原模型参数 的复制, 由于深度学习的训练过程是一个
随机的过程, 虽然加 解密网络达到的加 解密效果相似, 但是网络中的参数 由于反向传播的
随机性不一定相似, 因此即使通过成员推理的方法得出了相同的数据集, 也无法完全复制
原网络的加 解密参数, 也就无法对原模型加密的图像进行解密, 不能实现对目标图像的窃说 明 书 1/5 页
3
CN 115481399 A
3
专利 一种针对基于深度学习加解密模型的后门攻击方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 05:39:30上传分享