专利 虚拟形象驱动方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210773036.8 (22)申请日 2022.06.30 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李杰　 (74)专利代理机构北京鸿德海业知识产权代理有限公司 1 1412 专利代理师谷春静 (51)Int.Cl. G06T 13/40(2011.01) G06T 17/00(2006.01) G06F 16/783(2019.01) (54)发明名称虚拟形象驱动方法、装置、电子设备及存储介质 (57)摘要本公开提供了虚拟形象驱动方法、装置、电子设备及存储介质，涉及计算机视觉、深度学习以及增强现实等人工智能领域，可应用于虚拟形象生成以及元宇宙等场景，其中的方法可包括：获取目标人物的视频数据，其中，所述视频数据包括第一音频数据以及与第一音频数据对应的唇部动作；对所述视频数据进行三维重建；基于第一音频数据以及三维重建结果，确定出第一音频数据与目标人物对应的三维人脸之间的表情驱动映射关系；获取第二音频数据，根据第二音频数据以及所述表情驱动映射关系，驱动目标虚拟形象。应用本公开所述方案，可提升驱动效果等。权利要求书3页说明书8页附图3页 CN 115170703 A 2022.10.11 CN 115170703 A 1.一种虚拟形象驱动方法，包括：获取目标人物的视频数据，其中，所述视频数据包括第一音频数据以及与所述第一音频数据对应的唇部动作；对所述视频数据进行三维重建；基于所述第一音频数据以及三维重建结果，确定出所述第一音频数据与所述目标人物对应的三维人脸之间的表情驱动映射关系；获取第二音频数据，根据所述第二音频数据以及所述表情驱动映射关系，驱动目标虚拟形象。 2.根据权利要求1所述的方法，还包括：所述对所述视频数据进行三维重建之前，对所述视频数据进行预处理，得到人头居中的视频数据。 3.根据权利要求2所述的方法，其中，所述对所述视频数据进行预处理包括：分别对所述视频数据中的各帧图像进行检测和跟踪处理，基于得到的处理结果，裁剪得到人头居中的图像。 4.根据权利要求1所述的方法，其中，所述对所述视频数据进行三维重建包括：利用参数化模型对所述视频数据进行三维重建，重建过程采用以下至少一种方式：二维重投影误差约束、表情感知损失约束。 5.根据权利要求1～4中任一项所述的方法，其中，所述基于所述第一音频数据以及三维重建结果，确定出所述第一音频数据与所述目标人物对应的三维人脸之间的表情驱动映射关系包括：获取所述第一音频数据对应的频谱映射结果；基于所述频谱映射结果以及所述三维重建结果，确定出所述表情驱动映射关系。 6.根据权利要求1～4中任一项所述的方法，还包括：获取参数化模型与所述目标虚拟形象的三角网格映射关系；其中，所述根据所述第二音频数据以及所述表情驱动映射关系，驱动目标虚拟形象包括：根据所述第二音频数据、所述表情驱动映射关系以及所述三角网格映射关系，利用所述参数化模型驱动所述目标虚拟形象。 7.根据权利要求6所述的方法，其中，所述参数化模型为重建后的参数化模型，所述重建后的参数化模型在进行表情驱动时仅驱动所述目标虚拟形象的预定部分。 8.根据权利要求7 所述的方法，其中，对所述参数化模型进行重建包括：将所述参数化模型中的预定标识信息设置为预定值。 9.根据权利要求1～4中任一项所述的方法，其中，所述驱动目标虚拟形象包括：通过形变迁移算法驱动所述目标虚拟形象。 10.一种虚拟形象驱动装置，包括：视频获取模块、三维重建模块、关系确定模块、音频获取模块以及目标驱动模块；所述视频获取模块，用于获取目标人物的视频数据，其中，所述视频数据包括第一音频权　利　要　求　书 1/3 页 2 CN 115170703 A 2数据以及与所述第一音频数据对应的唇部动作；所述三维重建模块，用于对所述视频数据进行三维重建；所述关系确定模块，用于基于所述第一音频数据以及三维重建结果，确定出所述第一音频数据与所述目标人物对应的三维人脸之间的表情驱动映射关系；所述音频获取模块，用于获取第二音频数据；所述目标驱动模块，用于根据所述第二音频数据以及所述表情驱动映射关系，驱动目标虚拟形象。 11.根据权利要求10所述的装置，其中，所述视频获取模块进一步用于，对所述视频数据进行预处理，得到人头居中的视频数据。 12.根据权利要求1 1所述的装置，其中，所述视频获取模块分别对所述视频数据中的各帧图像进行检测和跟踪处理，基于得到的处理结果，裁剪得到人头居中的图像。 13.根据权利要求10所述的装置，其中，所述三维重建模块利用参数化模型对所述视频数据进行三维重建，重建过程采用以下至少一种方式：二维重投影误差约束、表情感知损失约束。 14.根据权利要求10～13中任一项所述的装置，其中，所述关系确定模块获取所述第一音频数据对应的频谱映射结果，基于所述频谱映射结果以及所述三维重建结果，确定出所述表情驱动映射关系。 15.根据权利要求10～13中任一项所述的装置，其中，所述目标驱动模块进一步用于，获取参数化模型与所述目标虚拟形象的三角网格映射关系，根据所述第二音频数据、所述表情驱动映射关系以及所述三角网格映射关系，利用所述参数化模型驱动所述目标虚拟形象。 16.根据权利要求15所述的装置，其中，所述参数化模型为重建后的参数化模型，所述重建后的参数化模型在进行表情驱动时仅驱动所述目标虚拟形象的预定部分。 17.根据权利要求16所述的装置，其中，所述目标驱动模块通过将所述参数化模型中的预定标识信息设置为预定值，对所述参数化模型进行重建。 18.根据权利要求10～16中任一项所述的装置，其中，所述目标驱动模块通过形变迁移算法驱动所述目标虚拟形象。 19.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑9中任一项所述的方法。 20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1 ‑9中任一项所述的方法。 21.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行权　利　要　求　书 2/3 页 3 CN 115170703 A 3

专利 虚拟形象驱动方法、装置、电子设备及存储介质

专利虚拟形象驱动方法、装置、电子设备及存储介质