(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210979393.X
(22)申请日 2022.08.16
(71)申请人 公安部物证鉴定中心
地址 100038 北京市西城区木樨地 南里17
号
(72)发明人 刘光尧 李志刚 胡永健 郭晶晶
黄威 汪磊 佘惠敏 余泽琼
(74)专利代理 机构 北京纪凯知识产权代理有限
公司 11245
专利代理师 刘美丽
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/16(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)G06V 10/764(2022.01)
G06V 10/52(2022.01)
G06V 10/25(2022.01)
G06T 7/00(2017.01)
(54)发明名称
Deepfake合成视频检测方法、 系统及设备
(57)摘要
本发明涉及一种Deepfake合成视频检测方
法、 系统、 设备及介质, 包括: 划分数据集进行分
帧, 并提取各帧检测区域的RGB图像I; 利用双树
复小波变换将RGB图像I分解为低频子带SL和不
同方向的高频子带集合SH; 将低频子带SL和高频
子带集合SH分别输入到频域特征提取网络, 得到
频域特征FDT‑CWT; 将低频子带SL和高频子带集合
SH输入到基于能量调整的图像增强分支进行处
理, 得到空域特征FRGB; 将频域特征FDT‑CWT和空域
特征FRGB进行特征拼接融合, 获得单帧分类特征
FC; 将单帧分类特征FC输入到预选训练的分类器
网络模块实现Deepfake视频鉴别, 输出判决类
别。
权利要求书2页 说明书11页 附图4页
CN 115393760 A
2022.11.25
CN 115393760 A
1.一种De epfake合成视频检测方法, 其特 征在于, 包括:
划分数据集, 对各个数据集的视频进行分帧, 并提取 各帧检测区域的RGB图像I;
利用双树复小 波变换将RGB图像I分解 为低频子带SL和不同方向的高频子带集 合SH;
将低频子带SL和高频子带集 合SH分别输入到频域特 征提取网络, 得到频域特 征FDT‑CWT;
将低频子带SL和高频子带集合SH输入到基于能量调整的图像增强分支进行处理, 得到
空域特征FRGB;
将频域特 征FDT‑CWT和空域特 征FRGB进行特征拼接融合, 获得 单帧分类特 征FC;
将单帧分类特征FC输入到预选训练的分类器网络模块实现Deepfake视频鉴别, 输出判
决类别。
2.根据权利 要求1所述的Deepfake合成视频检测方法, 其特征在于, 利用双树复小波变
换将RGB图像I分解 为低频子带SL和不同方向的高频子带集 合SH, 包括:
双树复小波变换将RGB图像I在多个方向分解, 产生指向{ ±15°,±45°,±75°}的6个不
同方向的高频子带和1个低频子带。
3.根据权利 要求1所述的Deepfake合成视频检测方法, 其特征在于, 频域特征提取网络
包括频域特 征提取分支网络和基于交叉注意力机制的频域特 征融合网络; 其中,
频域特征提取分支网络用于将输入的低频子带SL和高频子带集合SH进行提取到低频检
测特征图FL和高频检测特 征图FH;
基于交叉注意力机制的频域特征融合网络用于将低频检测特征图FL和高频检测特征图
FH进行融合, 得到频域特 征FDT‑CWT。
4.根据权利 要求3所述的Deepfake合成视频检测方法, 其特征在于, 频域特征提取分支
网络由高频SF ‑Net网络和低频SF ‑Net网络构成, 均采用一个卷积核大小为3x3的普通卷积
和5个反向残差模块依次相连的结构, 其中, 针对高频SF ‑Net网络, 选择第4个反残差模块的
输出特征映射作为高频特征图, 针对低频SF ‑Net网络, 选择第5个反残差模块的输出特征映
射作为低频 特征图。
5.根据权利要求3或4所述的Deepfake合成视频检测方法, 其特征在于, 基于交叉注意
力机制的频域特征融合网络通过交叉注意力模块将高频特征图和低频特征图经过自注意
力模块获得的(0,1)开区间的注意力引导特征图, 并将新生成的自注意力权重图重新组合
成多通道的注意力引导特 征图T, 其组合方式如式所示:
式中,
表示逐元素乘 法,
表示逐元素相加, M(HF)和M(LF)分别表示根据高频特征图
HF和低频 特征图LF产生的自注意力权 重图。
6.根据权利要求1所述的Deepfake合成视频检测方法, 其特征在于, 将低频子带SL和高
频子带集合SH输入到基于能量调整的图像增强分支进行处理, 包括: 低频削弱、 高频增强、
双树复小 波逆变换、 Gam ma矫正和/或Xcepti on网络特征提取。
7.根据权利 要求1所述的Deepfake合成视频检测方法, 其特征在于, 分类器模块的训练
过程, 包括:
将训练集中的RGB人脸图像进行双树复小波变换, 分别输入到频域特征提取网络和基
于能量调整的图像增强分支以及分类 器网络模块获得 预测概率p;权 利 要 求 书 1/2 页
2
CN 115393760 A
2利用预测概 率p与给定的二分类标签 计算交叉熵损失;
以最小化交叉熵损失为目标训练模型;
采用自适应Adam算法作为优化器进行模型训练。
8.一种De epfake合成视频检测系统, 其特 征在于, 包括:
分帧提取单元, 被配置为划分数据集, 对各个数据集的视频进行分帧, 并提取各帧检测
区域的RGB图像I;
频带分解单元, 被配置为利用双树复小波变换将RGB图像I分解为低频子带SL和不同方
向的高频子带集 合SH;
频域特征提取单元, 被配置为将低频子带SL和高频子带集合SH分别输入到频域特征提
取网络, 得到频域特 征FDT‑CWT;
空域特征提取单元, 被配置为将低频子带SL和高频子带集合SH输入到基于能量调整的
图像增强分支进行处 理, 得到空域特 征FRGB;
融合单元, 被配置为将频域特征FDT‑CWT和空域特征FRGB进行特征拼接融合, 获得单帧分
类特征FC;
视频预测单元, 被配置为将单帧分类特征FC输入到预选训练的分类器网络模块实现
Deepfake视频鉴别, 输出判决类别。
9.一种电子设备, 其特征在于, 包括计算机程序指令, 其中, 所述程序指令被处理器执
行时用于实现权利要求1~7任一项所述的De epfake合成视频检测方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机
程序指令, 其中, 所述程序指令被处理器执行时用于实现如权利要求1~7任一项所述的
Deepfake合成视频检测方法。权 利 要 求 书 2/2 页
3
CN 115393760 A
3
专利 Deepfake合成视频检测方法、系统及设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:35上传分享