(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210773036.8
(22)申请日 2022.06.30
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 李杰
(74)专利代理 机构 北京鸿德 海业知识产权代理
有限公司 1 1412
专利代理师 谷春静
(51)Int.Cl.
G06T 13/40(2011.01)
G06T 17/00(2006.01)
G06F 16/783(2019.01)
(54)发明名称
虚拟形象驱动方法、 装置、 电子设备及存储
介质
(57)摘要
本公开提供了虚拟形象驱动方法、 装置、 电
子设备及存储介质, 涉及计算机视觉、 深度学习
以及增强现实等人工智能领域, 可应用于虚拟形
象生成以及元宇宙等场景, 其中的方法可包括:
获取目标人物的视频数据, 其中, 所述视频数据
包括第一音频数据以及与第一音频数据对应的
唇部动作; 对所述视频数据进行三维重建; 基于
第一音频数据以及三维重建结果, 确定出第一音
频数据与 目标人物对应的三维人脸之间的表情
驱动映射关系; 获取第二音频数据, 根据第二音
频数据以及所述表情驱动映射关系, 驱动目标虚
拟形象。 应用本公开所述方案, 可提升驱动效果
等。
权利要求书3页 说明书8页 附图3页
CN 115170703 A
2022.10.11
CN 115170703 A
1.一种虚拟形象驱动方法, 包括:
获取目标人物 的视频数据, 其中, 所述视频数据包括第一音频数据以及与所述第一音
频数据对应的唇部动作;
对所述视频 数据进行三维重建;
基于所述第 一音频数据以及三维重建结果, 确定出所述第 一音频数据与所述目标人物
对应的三维人脸之间的表情驱动映射关系;
获取第二音频数据, 根据所述第二音频数据以及所述表情驱动映射关系, 驱动目标虚
拟形象。
2.根据权利要求1所述的方法, 还 包括:
所述对所述视频数据进行三维重建之前, 对所述视频数据进行预处理, 得到人头居中
的视频数据。
3.根据权利要求2所述的方法, 其中, 所述对所述视频 数据进行 预处理包括:
分别对所述视频数据中的各帧图像进行检测和跟踪处理, 基于得到的处理结果, 裁剪
得到人头居中的图像。
4.根据权利要求1所述的方法, 其中,
所述对所述视频数据进行三维重建包括: 利用参数化模型对所述视频数据进行三维重
建, 重建过程采用以下至少一种方式: 二维重投影误差约束、 表情感知损失约束。
5.根据权利要求1~4中任一项所述的方法, 其中,
所述基于所述第 一音频数据以及三维重建结果, 确定出所述第 一音频数据与 所述目标
人物对应的三维人脸之间的表情驱动映射关系包括:
获取所述第一音频 数据对应的频谱映射结果;
基于所述频谱映射结果以及所述 三维重建结果, 确定出 所述表情驱动映射关系。
6.根据权利要求1~4中任一项所述的方法, 还 包括:
获取参数化模型与所述目标虚拟形象的三角网格映射关系;
其中, 所述根据所述第二音频数据以及所述表情驱动映射关系, 驱动目标虚拟形象包
括:
根据所述第二音频数据、 所述表情驱动映射关系以及所述三角网格映射关系, 利用所
述参数化模型驱动所述目标虚拟形象。
7.根据权利要求6所述的方法, 其中,
所述参数化模型为重建后的参数化模型, 所述重建后的参数化模型在进行表情驱动时
仅驱动所述目标虚拟形象的预定 部分。
8.根据权利要求7 所述的方法, 其中,
对所述参数化模型进行重建包括: 将所述参数化模型中的预定标识信息设置为预定
值。
9.根据权利要求1~4中任一项所述的方法, 其中,
所述驱动目标虚拟形象包括: 通过 形变迁移算法驱动所述目标虚拟形象。
10.一种虚拟形象驱动装置, 包括: 视频获取模块、 三维重建模块、 关系确定模块、 音频
获取模块以及目标驱动模块;
所述视频获取模块, 用于获取目标人物的视频数据, 其中, 所述视频数据包括第 一音频权 利 要 求 书 1/3 页
2
CN 115170703 A
2数据以及与所述第一音频 数据对应的唇部动作;
所述三维重建模块, 用于对所述视频 数据进行三维重建;
所述关系确定模块, 用于基于所述第一音频数据以及三维重建结果, 确定出所述第一
音频数据与所述目标 人物对应的三维人脸之间的表情驱动映射关系;
所述音频获取模块, 用于获取第二音频 数据;
所述目标驱动模块, 用于根据所述第二音频数据以及所述表情驱动映射关系, 驱动目
标虚拟形象。
11.根据权利要求10所述的装置, 其中,
所述视频获取模块进一步用于, 对所述视频数据进行预处理, 得到人头居中的视频数
据。
12.根据权利要求1 1所述的装置, 其中,
所述视频获取模块分别对所述视频数据中的各帧图像进行检测和跟踪处理, 基于得到
的处理结果, 裁 剪得到人头居中的图像。
13.根据权利要求10所述的装置, 其中,
所述三维重建模块利用参数化模型对所述视频数据进行三维重建, 重建过程采用以下
至少一种方式: 二维重投影误差约束、 表情感知损失约束。
14.根据权利要求10~13中任一项所述的装置, 其中,
所述关系确定模块获取所述第 一音频数据对应的频谱映射结果, 基于所述频谱映射结
果以及所述 三维重建结果, 确定出 所述表情驱动映射关系。
15.根据权利要求10~13中任一项所述的装置, 其中,
所述目标驱动模块进一步用于, 获取参数化模型与所述目标虚拟形 象的三角网格映射
关系, 根据所述第二音 频数据、 所述表情驱动映射关系以及所述三角网格映射关系, 利用所
述参数化模型驱动所述目标虚拟形象。
16.根据权利要求15所述的装置, 其中,
所述参数化模型为重建后的参数化模型, 所述重建后的参数化模型在进行表情驱动时
仅驱动所述目标虚拟形象的预定 部分。
17.根据权利要求16所述的装置, 其中,
所述目标驱动模块通过将所述参数化模型中的预定标识信 息设置为预定值, 对所述参
数化模型进行重建。
18.根据权利要求10~16中任一项所述的装置, 其中,
所述目标驱动模块 通过形变迁移算法驱动所述目标虚拟形象。
19.一种电子设备, 包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于
使计算机执 行权利要求1 ‑9中任一项所述的方法。
21.一种计算机程序产品, 包括计算机程序/指令, 所述计算机程序/指令被处理器执行权 利 要 求 书 2/3 页
3
CN 115170703 A
3
专利 虚拟形象驱动方法、装置、电子设备及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 05:41:38上传分享