专利 虚拟形象视频流生成方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210693119.6 (22)申请日 2022.06.17 (71)申请人平安普惠企业管理有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室（入驻深圳市前海商务秘书有限公司） (72)发明人胡停雨　 (74)专利代理机构深圳市明日今典知识产权代理事务所(普通合伙) 44343 专利代理师王杰辉　宋莉 (51)Int.Cl. G06T 17/00(2006.01) G06T 19/20(2011.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称虚拟形象视频流生成方法、装置、设备及存储介质 (57)摘要本申请涉及人工智能技术领域，揭示了一种虚拟形象视频流生成方法、装置、设备及存储介质，其中方法包括：获取目标句子；对所述目标句子进行分词处理，得到目标短语集；将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。从而实现了基于句子的文本内容生成虚拟形象视频流，使虚拟形象与语音段对应，增加了客户真实感。权利要求书3页说明书12页附图3页 CN 115018988 A 2022.09.06 CN 115018988 A 1.一种虚拟形象视频流生成方法，其特征在于，所述方法包括：获取目标句子；对所述目标句子进行分词处理，得到目标短语集；将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。 2.根据权利要求1所述的虚拟形象视频流生成方法，其特征在于，所述将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集的步骤，包括：将各个所述目标语音段中的任一个所述目标语音段作为待处理语音段；将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数；将所述目标三维建模参数输入所述三维图像生成模型的三维图像建模单元进行虚拟形象三维图像生成，作为所述目标虚拟形象三维图像集。 3.根据权利要求2所述的虚拟形象视频流生成方法，其特征在于，所述将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数的步骤之前，还包括：获取多个训练样本和初始模型，其中，各个所述训练样本中的每个所述训练样本包括：语音段样本、人体三维图像标定值和三维建模参数标定值，将所述语音段样本和所述人体三维图像标定值作为第一样本的模型输入数据，将所述三维建模参数标定值作为所述第一样本的预测标签，将所述语音段样本作为第二样本的所述模型输入数据，所述人体三维图像标定值作为所述第二样本的所述预测标签；采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型；获取预训练判别器；采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型。 4.根据权利要求3所述的虚拟形象视频流生成方法，其特征在于，所述采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型的步骤，包括：将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本；将所述第一目标样本的所述模型输入数据输入所述三维建模参数初始单元分别进行图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，得到第一预测数据；根据所述第一预测数据和所述第一目标样本的所述预测标签进行损失值计算，得到目权　利　要　求　书 1/3 页 2 CN 115018988 A 2标损失值；根据所述目标损失值更新所述三维建模参数初始单元的网络参数；重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤，直至达到预设的第一模型训练结束条件；将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元；将所述三维建模参数预训练单元和所述初始模型的所述三维图像建模单元作为所述预训练生成模型。 5.根据权利要求4所述的虚拟形象视频流生成方法，其特征在于，各个所述第一样本是预设的训练分布，所述将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元的步骤，包括：将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为待验证单元；获取多个验证样本集，其中，各个所述验证样本集是多种不同的未知分布；采用每个所述验证样本集，对所述待验证单元进行准确率计算，以形成待分析准确率；对各个所述待分析准确率进行方差计算，以形成待分析方差；判断所述待分析方差是否最小化；若否，则重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤；若是，则将所述待验证单元作为所述三维建模参数预训练单元。 6.根据权利要求4所述的虚拟形象视频流生成方法，其特征在于，所述采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型的步骤，包括：将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本；将所述第二目标样本的所述模型输入数据输入所述预训练生成模型的所述三维建模参数预训练单元分别进行图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，得到初始预测数据；将所述初始预测数据输入所述预训练生成模型的所述三维图像建模单元进行虚拟形象三维图像生成，得到第二预测数据；将所述第二预测数据和所述第二目标样本的所述预测标签输入所述预训练判别器进行真实性判别，得到判别结果；根据所述判别结果对所述三维建模参数预训练单元进行网络参数更新；重复执行所述将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本的步骤，直至达到预设的第二模型训练结束条件；将达到所述第二模型训练结束条件的所述预训练生成模型作为所述三维图像生成模型。 7.根据权利要求1所述的虚拟形象视频流生成方法，其特征在于，所述目标虚拟形象三维图像集中包括提示板，所述根据所述目标句子，对各个所述目标语音段和各个所述目标权　利　要　求　书 2/3 页 3 CN 115018988 A 3

专利 虚拟形象视频流生成方法、装置、设备及存储介质

专利虚拟形象视频流生成方法、装置、设备及存储介质