(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211270331.8 (22)申请日 2022.10.18 (71)申请人 上海海事大学 地址 201306 上海市浦东 新区临港新城 海 港大道15 50号 (72)发明人 李转 刘晋 王恒阳  (74)专利代理 机构 上海伯瑞杰知识产权代理有 限公司 312 27 专利代理师 孟旭彤 (51)Int.Cl. G06V 40/16(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 用于提高视频中面部表情识别准确率的网 络模型及方法 (57)摘要 本发明提供一种用于提高视频中面部表情 识别准确率的网络模型及方法, 所述方法包括: 输入初始视频图像, 通过3D卷积网络进行特征提 取; 在所述3D卷积网络中融合AU感知注意力模 块, 通过AU感知 注意力模块关注面部情感表达的 重点区域, 学习面部重点部位的特征; 对得到的 特征图通过胶囊网络进行编码, 将增强的特征映 射通过胶囊之间的动态路由进行编码; 通过三个 全连接层进行解码, 通过 非线性挤压函数实现最 终的表情分类。 本发明实现了更高精度的面部表 情识别。 权利要求书2页 说明书4页 附图1页 CN 115410264 A 2022.11.29 CN 115410264 A 1.一种用于提高视频中面部表情识别准确率的网络模型, 包括基于胶囊 网络的3D卷积 网络模块及AU感知注 意力模块, 所述基于胶 囊网络的3D卷积网络模块用于提取视频时间和 空间序列信息的特征, 所述AU感知注意力模块融合在所述3D卷积网络模块中, 通过所述AU 感知注意力模块关注面部情感表达的重点区域, 学习面部 重点部位的特 征。 2.根据权利要求1所述的用于提高视频中面部表情识别准确率的网络模型, 其特征在 于, 所述网络模型还包括将增强的特征映射通过胶囊之间的动态路由进行编码, 通过三个 全连接层进行解码, 再通过非线性 挤压函数实现最终的表情分类结果。 3.根据权利要求2所述的用于提高视频中面部表情识别准确率的网络模型, 其特征在 于, 所述三个全连接层分别是两个带有ReLU激活函数的全连接层和一个带有Sigmoid激活 函数的全连接层, 所述 非线性挤压函数定义为: 其中vj是胶囊j的输出向 量, bj是胶囊的输入向量。 4.一种用于提高视频中面部表情识别准确率的方法, 其特征在于, 所述方法包括以下 步骤: 输入初始视频图像, 通过3D卷积网络进行 特征提取; 在所述3D卷积网络中融合AU感知注意力模块, 通过AU感知注意力模块关注面部情 感表 达的重点区域, 学习面部 重点部位的特 征; 对得到的特征图通过胶囊 网络进行编码, 将增强的特征映射通过胶囊之间的动态路由 进行编码; 通过三个全连接层进行解码, 通过非线性 挤压函数函数实现最终的表情分类。 5.根据权利要求4所述的用于提高视频中面部表情识别准确率的方法, 其特征在于, 所 述输入初始视频图像, 通过3D卷积网络进行特征提取的步骤具体包括: 通过改进的 3DResNet卷积神经网络从视频轨道中提取时空特征, 视频轨道被划分为连续的非重叠小片 段, 并且每 个小片段包 含N帧。 6.根据权利要求5所述的用于提高视频中面部表情识别准确率的方法, 其特征在于, 所 述输入初始视频图像, 通过3D卷积网络进 行特征提取的步骤 具体还包括: 在提取特征时, 为 了获取空间维度和时间维度中的特征依赖 关系, 使用非局部注意力块直接计算时间位置和 空间位置之间的关系。 7.根据权利要求4所述的用于提高视频中面部表情识别准确率的方法, 其特征在于, 所 述在所述3D卷积网络中融合AU感知注意力模块, 通过AU感知注 意力模块关注 面部情感表达 的重点区域, 学习面部重点部位的特征的步骤具体包括: 在构建注意力图时, 首先找出关键 面部地标, 通过关键面部地标定义AU中心, 获得AU中心后, 基于中心位置构建注意力图。 8.根据权利要求4所述的用于提高视频中面部表情识别准确率的方法, 其特征在于, 所 述对得到的特征图通过胶囊网络进行编 码, 将增强的特征映射通过胶 囊之间的动态路由进 行编码的步骤具体包括: 通过AU注意力约束获得的特征被送入到胶囊网络的PrimaryCaps 层, 对于Pr imaryCaps层胶囊, 被激活的胶囊进行位置信息编码, DigitCaps层采用每个胶囊 活动向量的长度代表出现的每个类别的概率, 并用于计算分类损失, 在PrimaryCaps层和 DigitCaps层之间每 个胶囊接收来自前一层 胶囊的输入, 网络执 行动态路由一 致性算法。权 利 要 求 书 1/2 页 2 CN 115410264 A 29.根据权利要求8所述的用于提高视频中面部表情识别准确率的方法, 其特征在于, 所 述通过三个全连接层进行解码, 通过非线性挤压函数函数实现最 终的表情分类的步骤具体 包括: 将DigitCaps层后面连接三个全连接层用于图像重 建, 所述三个全连接层分别是两个 带有ReLU激活函数的全连接层和一个带有Sigmo id激活函数的全连接层。 10.根据权利要求9所述的用于提高视频中面部表情识别准确率的方法, 其特征在于, 所述通过三个全连接层进行解码, 通过非线性挤压函数函数实现最终的表情分类的步骤 中, 所述非线性挤压函数函数定义为: 其中vj是胶囊j的输出向量, bj是 胶囊的输入向量, 通过 所述非线性 挤压函数 得到最终的表情类别的预测概 率。权 利 要 求 书 2/2 页 3 CN 115410264 A 3

PDF文档 专利 用于提高视频中面部表情识别准确率的网络模型及方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于提高视频中面部表情识别准确率的网络模型及方法 第 1 页 专利 用于提高视频中面部表情识别准确率的网络模型及方法 第 2 页 专利 用于提高视频中面部表情识别准确率的网络模型及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。