说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210761125.0 (22)申请日 2022.06.29 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 范锡睿 张世昌 赵亚飞 郭紫垣 (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 杨义 (51)Int.Cl. G06T 17/00(2006.01) G06T 19/00(2011.01) G10L 21/10(2013.01) (54)发明名称 一种虚拟面部图像的生成方法、 装置、 设备 及存储介质 (57)摘要 本公开提供了一种虚拟面部图像的生成方 法、 装置、 设备及存储介质, 涉及计算机技术视觉 领域, 尤其涉及虚拟人、 增强现实、 虚拟现实、 混 合现实、 扩展现实和元宇宙等技术领域。 具体实 现方案为: 获取时间同步的视频流和音频流; 其 中, 所述音频流包括语音, 所述视频流包括播报 所述语音的真实面部图像; 将所述音频流输入虚 拟面部生成模型, 得到虚拟面部数据; 根据所述 视频流中包括的真实面部图像, 对 所述虚拟面部 数据进行校正, 以得到播所述语音的目标虚拟面 部图像。 本公开可以提高虚拟面部图像与播报语 音的匹配性。 权利要求书3页 说明书10页 附图3页 CN 115187727 A 2022.10.14 CN 115187727 A 1.一种虚拟面部图像的生成方法, 包括: 获取时间 同步的视频流和音频流; 其中, 所述音频流包括语音, 所述视频流包括播报所 述语音的真实面部图像; 将所述音频流输入虚拟面部生成模型, 得到虚拟面部数据; 根据所述视频流中包括的真实面部 图像, 对所述虚拟面部数据进行校正, 以得到播报 所述语音的目标虚拟面部图像。 2.根据权利要求1所述的方法, 其中, 所述获取时间同步的视频流和音频流包括: 获取音频流中至少一个音频帧的音频时间戳, 以及获取视频流中至少一个图像帧的图 像时间戳; 根据所述图像时间戳和所述音频时间戳, 对所述音频帧和所述图像帧进行匹配; 基于匹配成功的图像帧和音频帧, 生成时间同步的视频流和音频流。 3.根据权利要求1所述的方法, 其中, 所述根据所述视频流中包括的真实面部 图像, 对 所述虚拟面部数据进行 校正包括: 根据所述虚拟面部数据 所对应音频帧的音频时间戳, 从所述视频流中获取与 所述所对 应音频帧匹配的真实图像帧; 根据所述真实图像帧中包括的真实面部图像, 对所述虚拟面部数据进行 校正。 4.根据权利要求1所述的方法, 其中, 在对所述虚拟面部数据进行校正之后, 所述方法 还包括: 获取历史虚拟面部数据; 根据所述历史虚拟面部数据, 对校正后的虚拟面部数据进行平滑处理, 以根据平滑处 理后的虚拟面部数据得到所述目标虚拟面部图像。 5.根据权利要求1 ‑4任一项所述的方法, 其中, 所述虚拟面部数据包括虚拟面部图像或 虚拟面部驱动参数。 6.根据权利要求3所述的方法, 其中, 所述虚拟面部数据包括虚拟面部 图像, 所述根据 所述真实图像帧中包括的真实面部图像, 对所述虚拟面部数据进行 校正, 包括: 从虚拟面部图像中提取虚拟面部关键点, 从真实面部图像中提取真实面部关键点; 基于所述虚拟面部关键点和所述真实面部关键点对所述虚拟面部图像进行 校正。 7.根据权利要求6所述的方法, 其中, 所述从虚拟面部 图像中提取虚拟面部关键点, 从 真实面部图像中提取真实面部关键点包括: 提取虚拟面部图像中目标面部器官的关键点, 作为虚拟面部关键点; 提取真实面部图像中所述目标面部器官的关键点, 作为真实面部关键点。 8.根据权利要求6所述的方法, 其中, 所述基于所述虚拟面部关键点和所述真实面部关 键点对所述虚拟面部图像进行 校正包括: 采用误差算法对真实面部关键点和虚拟面部关键点进行拟合; 根据拟合结果对所述虚拟面部图像进行 校正, 得到校正后的虚拟面部图像。 9.根据权利要求1所述的方法, 其中, 所述虚拟面部数据包括虚拟面部 图像, 所述虚拟 面部生成模型用于: 输入音频流、 提取所述音频流的音频特征、 基于所述音频特征生成虚拟 面部的驱动参数、 并根据驱动参数生成虚拟面部图像。 10.根据权利要求1所述的方法, 其中, 获取时间同步的视频流和音频流包括:权 利 要 求 书 1/3 页 2 CN 115187727 A 2在视频交 互过程中, 通过摄 像头和麦克风分别采集说话 者的视频流和音频流; 相应的, 得到播报所述语音的目标虚拟面部图像之后, 还 包括: 向所述视频交互过程对应的客户端推送所述目标虚拟面部图像和所述语音, 以在所述 客户端中通过 所述目标虚拟面部图像播报所述语音。 11.一种虚拟面部图像的生成的装置, 包括: 音视频获取模块, 用于获取时间同步的视频流和音频流; 其中, 所述音频流包括语音, 所述视频流包括 播报所述语音的真实面部图像; 面部数据获取模块, 用于将所述音频流输入虚拟面部生成模型, 得到虚拟面部数据; 面部数据校正模块, 用于根据所述视频流中包括的真实面部 图像, 对所述虚拟面部数 据进行校正, 以得到播报所述语音的目标虚拟面部图像。 12.根据权利要求1 1所述的装置, 其中, 所述音视频获取模块包括: 时间戳获取单元, 用于获取音频流中至少一个音频帧的音频时间戳, 以及获取视频流 中至少一个图像帧的图像时间戳; 时间戳匹配单元, 用于根据所述图像时间戳和所述音频时间戳, 对所述音频帧和所述 图像帧进行匹配; 音视频同步单元, 用于基于匹配成功 的图像帧和音频帧, 生成时间同步的视频流和音 频流。 13.根据权利要求1 1所述的装置, 其中, 所述 面部数据校正模块包括: 真实面部获取单元, 用于根据所述虚拟面部数据所对应音频帧的音频时间戳, 从所述 视频流中获取与所述所对应音频帧匹配的真实图像帧; 虚拟面部校正单元, 用于根据所述真实图像帧中包括的真实面部 图像, 对所述虚拟面 部数据进行 校正。 14.根据权利要求1 1所述的装置, 其中, 所述装置还 包括: 历史面部获取模块, 用于历史虚拟面部数据; 虚拟面部平滑模块, 用于根据所述历史虚拟面部数据, 对校正后的虚拟面部数据进行 平滑处理, 以根据平 滑处理后的虚拟面部数据得到所述目标虚拟面部图像。 15.根据权利要求11 ‑14任一项所述的装置, 其中, 所述虚拟面部数据包括虚拟面部图 像或虚拟面部驱动参数。 16.根据权利要求13所述的装置, 其中, 所述虚拟面部数据包括虚拟面部 图像, 所述虚 拟面部校正单 元包括: 关键点提取子单元, 用于从虚拟面部 图像中提取虚拟面部关键点, 从真实面部 图像中 提取真实面部关键点; 关键点校正子单元, 用于基于所述虚拟面部关键点和所述真实面部关键点对所述虚拟 面部图像进行 校正。 17.根据权利要求16所述的装置, 其中, 所述关键点提取子单元具体用于: 提取虚拟面 部图像中目标面部器官 的关键点, 作为虚拟面部关键点; 提取真实面部图像中所述 目标面 部器官的关键点, 作为真实面部关键点。 18.根据权利要求16所述的装置, 其中, 所述关键点校正子单元具体用于: 采用误差算 法对真实面部 关键点和虚拟面部关键点进 行拟合; 根据拟合结果对所述虚拟面部图像进 行权 利 要 求 书 2/3 页 3 CN 115187727 A 3
专利 一种虚拟面部图像的生成方法、装置、设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 05:39:03
上传分享
举报
下载
原文档
(669.5 KB)
分享
友情链接
JR-T 0036-2016 再保险数据交换规范.pdf
GB-T 41884-2022 车用甲醇燃料作业安全规范.pdf
T-HBCIA 001—2022 邢台酸枣仁.pdf
YD-T 4251-2023 电信运营商大数据安全管控分类分级技术要求.pdf
GB-T 22485-2021 出租汽车运营服务规范.pdf
密码使用管理制度.pdf
信通院 区块链白皮书 2023年.pdf
T-WHDQHX 004—2022 电气成套设备制造业数字化车间 通用要求.pdf
DB42-T 1969-2023 困境儿童家庭监护能力评估 湖北省.pdf
T-NIFA 28—2023 网上银行服务 应用安全规范.pdf
GB-T 17000-2009 全息防伪产品通用技术条件.pdf
GB-T 19425-2003 防伪技术产品通用技术条件.pdf
GB-T 32919-2016 信息安全技术 工业控制系统安全控制应用指南.pdf
GM-T 0048-2016 智能密码钥匙密码检测规范.pdf
GB-T 41013-2021 电机系统能效评价.pdf
T-GHDQ 114—2022 车载CAN网络入侵检测和态势感知技术要求.pdf
NIST 软件开发安全框架SSDF v1.0 2020 英文版.pdf
GB T 17902.1-2023 信息技术 安全技术 带附录的数字签名 第1部分:概述.pdf
ISO 24613-6 2024 Language resource management Lexical markup framework (LMF) Part 6 Syntax and semantics.pdf
GB-Z 20986-2007 信息安全技术 信息安全事件分类分级指南.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(669.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。