(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211306264.0
(22)申请日 2022.10.25
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 周航 孙亚圣 何栋梁 刘经拓
(74)专利代理 机构 北京品源专利代理有限公司
11332
专利代理师 马迪
(51)Int.Cl.
G06V 40/20(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 13/20(2011.01)
G06T 13/60(2011.01)G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 40/16(2022.01)
G10L 15/02(2006.01)
(54)发明名称
唇形驱动方法、 唇形驱动模型的训练方法、
装置及设备
(57)摘要
本公开提供了一种唇形驱动方法、 唇形驱动
模型的训练方法、 装置及设备, 涉及计算机视觉、
增强现实、 虚拟现实等人工智 能技术领域, 可应
用于元宇宙、 虚拟数字人等场景。 具体实现方案
为: 将样本训练数据输入所述唇形驱动网络, 得
到第一唇形图像数据和样本音频特征; 将所述第
一唇形图像数据、 所述样本音频特征和所述样本
脸部图像数据, 输入所述唇形增强网络, 得到第
二唇形图像数据; 将所述第二唇形图像数据和所
述样本音频特征, 输入所述唇音同步判别网络,
得到判别结果; 根据所述第二唇形图像数据和所
述判别结果, 确定训练损失; 根据所述训练损失,
对所述唇形驱动网络、 所述唇形增强网络和所述
唇音同步判别网络进行训练。
权利要求书4页 说明书14页 附图7页
CN 115376211 A
2022.11.22
CN 115376211 A
1.一种唇形驱动模型的训练方法, 其中, 唇形驱动模型包括唇形驱动网络、 唇形增强网
络和唇音同步判别网络; 所述方法包括:
将样本训练数据输入所述唇形驱动网络, 得到第一唇形图像数据和样本音频特征; 其
中, 所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音
数据;
将所述第一唇形图像数据、 所述样本音频特征和所述样本脸部 图像数据, 输入所述唇
形增强网络, 得到第二唇 形图像数据;
将所述第二唇形图像数据和所述样本音频特征, 输入所述唇音 同步判别网络, 得到判
别结果;
根据所述第二唇 形图像数据和所述判别结果, 确定训练损失;
根据所述训练损 失, 对所述唇形驱动网络、 所述唇形增强网络和所述唇音 同步判别网
络进行训练。
2.根据权利要求1所述的方法, 其中, 所述唇形增强网络包括编码子网络、 注意力网络
和解码子网络; 所述将所述第一唇形图像数据、 所述样本音频特征和所述样本脸部图像数
据, 输入所述唇 形增强网络, 得到第二唇 形图像数据, 包括:
采用所述编码子网络对所述第 一唇形图像数据和所述样本脸部图像数据进行编码, 得
到样本编码特 征;
采用所述注意力网络对所述样本编码特 征进行变换, 得到经变换的样本编码特 征;
采用所述解码子网络对所述样本编码特征、 经变换的样本编码特征和所述样本音频特
征进行解码, 得到第二唇 形图像数据。
3.根据权利要求2所述的方法, 其中, 所述编码子网络包括至少一个编码单元; 所述解
码子网络包括至少一个解码单元; 所述解码单元包括第一反卷积层、 特征拼接层、 第二反卷
积层和图像转换层; 所述采用所述解码子网络对所述样本编码特征、 经变换 的样本编码特
征和所述样本音频 特征进行解码, 得到第二唇 形图像数据, 包括:
采用所述解码单元的第 一反卷积层对输入特征和所述样本音频特征进行解码, 得到第
一解码特征; 其中, 所述输入特征包括经变换 的样本编码特征或所述解码单元 的上一解码
单元输出的第二 解码特征;
采用所述解码单元的特征拼接层对所述第 一解码特征和所述样本编码特征进行拼接,
得到拼接特征; 其中, 所述样本编码特征为所述解码单元对应的编码子网络中编码单元输
出;
采用所述解码单元的第 二反卷积层对所述拼接特征和所述样本音频特征进行解码, 得
到第二解码特征;
采用所述解码单元的图像转换层对所述第 二解码特征进行图像转换, 得到 中间唇形图
像数据;
若所述解码单元为所述解码子网络的末尾解码单元, 则将所述中间唇形图像数据作为
第二唇形图像数据。
4.根据权利要求3所述的方法, 其中, 所述采用所述解码单元的第 一反卷积层对输入特
征和所述样本音频 特征进行解码, 得到第一 解码特征, 包括:
根据所述样本音频特征对第 一反卷积层的第 一卷积核权重进行调整, 得到经调 整的第权 利 要 求 书 1/4 页
2
CN 115376211 A
2一卷积核权 重;
通过第一反卷积层, 采用经调整的第一卷积核权重对所述输入特征进行处理, 得到所
述第一解码特征;
采用所述解码单元的第 二反卷积层对所述拼接特征和所述样本音频特征进行解码, 得
到第二解码特征, 包括:
根据所述样本音频特征对第 二反卷积层的第 二卷积核权重进行调整, 得到经调 整的第
二卷积核权 重;
通过第二反卷积层, 采用经调整的第二卷积核权重对所述拼接特征进行处理, 得到所
述第二解码特征。
5.根据权利要求1所述的方法, 其中, 所述根据所述第二唇形图像数据和所述判别结
果, 确定训练损失, 包括:
根据所述第二唇 形图像数据和唇 形监督数据, 确定第一损失;
根据所述判别结果, 确定第二损失;
根据所述第一损失和所述第二损失, 确定训练损失。
6.根据权利要求5所述的方法, 所述唇形驱动模型还包括生成式对抗GAN网络和VGG网
络; 所述方法还 包括:
分别将所述第二唇形图像数据输入所述GAN网络和所述VGG网络, 得到第三唇形图像数
据和第四唇 形图像数据;
根据所述第三唇 形图像数据和唇 形监督数据, 确定第三损失;
根据所述第四唇 形图像数据和唇 形监督数据, 确定第四损失;
根据所述第一损失、 所述第二损失、 所述第三损失和所述第四损失, 确定训练损失。
7.根据权利要求1所述的方法, 还 包括:
对至少两个初始脸部图像数据进行对齐;
从经对齐的初始脸部图像中剔除唇部区域, 得到所述样本脸部图像数据。
8.一种唇 形驱动方法, 包括:
获取目标脸部图像数据和目标语音数据;
将所述目标脸部 图像数据和所述目标语音数据, 输入唇形驱动模型, 得到在所述目标
语音数据驱动下的目标唇形图像数据; 其中, 所述唇形驱动模 型基于权利要求 1‑7中任一项
所述的唇 形驱动模型的训练方法训练得到 。
9.一种唇形驱动模型的训练装置, 其中, 唇形驱动模型包括唇形驱动网络、 唇形增强网
络和唇音同步判别网络; 所述装置包括:
第一唇形图像确定模块, 用于将样本训练数据输入所述唇形驱动网络, 得到第一唇形
图像数据和样本音频特征; 其中, 所述样本训练数据包括样本脸部图像数据和与所述样本
脸部图像数据对齐的样本语音数据;
第二唇形图像确定模块, 用于将所述第一唇形图像数据、 所述样本音频特征和所述样
本脸部图像数据, 输入所述唇 形增强网络, 得到第二唇 形图像数据;
判别结果确定模块, 用于将所述第二唇形图像数据和所述样本音频特征, 输入所述唇
音同步判别网络, 得到判别结果;
训练损失确定模块, 用于根据所述第二唇 形图像数据和所述判别结果, 确定训练损失;权 利 要 求 书 2/4 页
3
CN 115376211 A
3
专利 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:13上传分享