全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210710650.X (22)申请日 2022.06.22 (71)申请人 武汉纺织大 学 地址 430073 湖北省武汉市洪山区纺织路1 号 (72)发明人 胡新荣 余开元 罗瑞奇 梁金星  彭涛 丁磊  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 王琪 (51)Int.Cl. G06V 10/774(2022.01) G06T 17/00(2006.01) (54)发明名称 一种基于StyleCLIP和3DDFA的文本调控三 维人脸生成方法 (57)摘要 本发明属于人脸三维重 建技术领域, 具体涉 及一种基于StyleCLIP和3DDFA的文本调控三维 人脸模型生成方法, 包括以下步骤: S1, 基于图像 编辑网络StyleCLIP及三维重建网络3DDFA搭建 组合网络; S2, 获取输入需要的原始图像和目标 文本; S3, 将原始图像及目标文本输入组合网络 进行训练, 获得用于三维重建网络3DDFA中的参 数p; S4, 使用训练好的参数, 利用三维重建网络 3DDFA进行人脸三维重建。 本发明能够通过文本 来调控生 成的人脸三维模型效果, 而无需对三维 人脸的特 征进行手动调整。 权利要求书3页 说明书7页 附图3页 CN 114998690 A 2022.09.02 CN 114998690 A 1.一种基于StyleCLIP和3DDFA的文本调控三维人脸模型生成方法, 其特征在于, 包括 以下步骤: 步骤S1, 基于图像编辑网络StyleCL IP及三维重建网络 3DDFA搭建组合网络; 步骤S2, 获取输入需要的原 始图像和目标文本; 步骤S3, 将原始图像及目标文本输入组合网络, 依据偏差损失 L进行迭代训练, 获得用 于三维重建网络 3DDFA中的参数 p; 步骤S4, 使用训练好的参数 p, 利用三维重建网络 3DDFA进行人脸三维重建。 2.根据权利要求1所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 步骤S1中所述组合网络中包含一个预训练图像编码网络e4e, 一个基于 StyleGAN2的预训练图像生成网络G, 一个多模态预训练网络CLIP, 一个预训练三维重建网 络3DDFA及一个预训练识别网络A rcFace。 3.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 所述图像编码网络e4e及图像生成网络G均基于人脸数据集F FHQ进行训练。 4.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 步骤S3中所述偏差损失 L具体为: 其中λL2、λID为一个常数比例值, LCLIP为图文匹配损失, 具体为: 其中DCLIP为CLIP模型的输出, t为输入目标文本, w为经由图像编码网络e4e输出的生成 图像隐编码, G(∙)表示图像生成网络的输出, LL2为编码距离损失, 具体为: 其中ws为经由图像编码网络e4e输出的原 始图像隐编码, LID为特征编码损失, 具体为: 其中,R(∙)为ArcFace网络输出, FPAF (∙)为3DDFA网络特征图输出, 〈∙〉为余弦相似度计 算。 5.根据权利要求4所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 图文匹配损失的具体获取 过程如下; 使用图像编码网络e4e将原始图像转译为StyleGAN 的输入形式, 即依次输入StyleGAN 生成器每一层的隐编码, 首先将原始图像输入e4e编码 网络, 生成1 ×1×512×18的原始图 像隐编码 ws, 隐编码按输入特征的层级由小到大排列, 经由隐编码生成的图像在各级特征 上与原始图像保持一 致; 将隐编码输入生成器G后输出生成图像, 把生成图像与目标文本输入CLIP模型, CLIP模 型将目标文本和生成图像分别输入进两个编码器生成维度相同的两组特征向量, 由于特征 向量属于两组不同模态的特征空间, 因此以余弦相似度来衡量图像与文本之间的相似度, 即图文相似度 LCLIP作为图文匹配损失。 6.根据权利要求4所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,权 利 要 求 书 1/3 页 2 CN 114998690 A 2其特征在于: 编码距离损失的具体获取 过程如下; 由于隐编码控制的图像特征并非完全解耦, 仅依据图文相似度对生成图像隐编码进行 优化会导致一些无关特征也一并 改动, 因此引入编 码距离损失, 将生成图像输入e4e编码网 络获得生 成图像的 隐编码w, 与原始图像隐编码 ws计算欧式距离作为编码距离损失 LL2, 使用 编码距离损失 LL2对隐编码进行约束, 使得生成图像在符合文本语义描述的同时, 无关特征 的变化尽可能的小。 7.根据权利要求4所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 特 征编码损失的具体获取 过程如下; 为了确保生成三维模型特征尽可能符合原始图像特征, 将原始图像及生成图像输入 3DDFA模型中, 得到原始图像特征图和生成图像特征图, 获取特征图过程具体如下: 将图像 输入三维重建网络3DDFA得到用于拟合3DDFA人脸模型的参数 p, 基于3DDFA输出的参数 p, 使 用3DMM进行三维形状的构建, 并计算每个点的柱坐标, 将人脸三维数据根据三维柱面坐标 参数化, 将人脸中心看作Z轴, 把人脸中心定为坐标原点, 指向人脸前方的坐标轴作为X轴, 与X, Z轴构成的平 面相垂直的轴作为Y轴, 依据如下公式将人脸三 维直角坐标转换为柱 面坐 标: 其中X, Y, Z分别为三维人脸在笛卡尔坐标系中的XYZ轴坐标, h,r,ϕ为变换后的柱面坐 标; 将人脸柱面坐标基础上按照固定的方位角和高度采样64 ×64的三维特征锚点; 将三维 特征锚点投影到图像平面, 由此得到两个64 ×64的特征锚点, 用以表示2D图像中可见和不 可见的部分; 在每 个特征锚点上裁 剪大小为3 ×3的块, 与原 始图像连接成为拓展的二维图; 将原始图像特征图和生成图像特征图输入ArcFace网络中, 计算生成向量间的余弦相 似度作为特 征编码损失 LID。 8.根据权利要求1所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 步骤S3中所述 参数p具体为: 其中,f表示缩放因子, R表示旋转矩阵, t2d表示平移向量, αid和αexp分别表示3DMM模型的 形状参数及表情参数。 9.根据权利要求8所述的一种基于深度学习算法的文本调控三维人脸模型生成方法, 其特征在于: 步骤S4的具体实现方式如下; 3DDFA模型选择拓展人脸3D形变统计模型对人脸形状进行参数化建模, 人脸3D形变统 计模型是基于若干个实验对象的脸部激光扫描数据集形成的数理统计模型, 利用主成分分 析技术提供一组位置基向量及两组特征基向量, 通过如下公式将人脸表示为三组基向量线 性组合:权 利 要 求 书 2/3 页 3 CN 114998690 A 3

.PDF文档 专利 一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法 第 1 页 专利 一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法 第 2 页 专利 一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 05:36:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。