(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211280769.4 (22)申请日 2022.10.19 (71)申请人 北京理工华汇智能科技有限公司 地址 102629 北京市大兴区中关村科技园 区大兴生物医药产业基地永旺西路26 号院6号楼四层5 07室 (72)发明人 张伟民 张棣 杨宇航 张泽宇  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 贾瑞华 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) (54)发明名称 一种融合注意力机制的人脸与手势识别方 法及产品 (57)摘要 本发明涉及一种融合注意力机制的人脸与 手势识别方法及产品。 该方法包括: 将相机图像 输入至CenterNet网络中, 生成面部图像感兴趣 区域以及手部图像感兴趣区域; 将数据库中的人 脸图像输入至融合通道和空间注意力机制的孪 生神经网络中, 生成人脸图像特征的同时, 将面 部图像感兴趣区域输入至另一个孪生神经网络 中, 生成面部图像特征; 对比人脸图像特征以及 面部图像感兴趣区域特征识别人脸, 生成面部识 别结果; 将手部图像感兴趣区域输入至基于多尺 度融合机制建立的ResNet网络中进行语义 分割, 生成手部二值化图像; 将手部二值化图像输入至 分类网络, 生成手部识别结果; 根据面部识别结 果或手部识别结果控制智能轮椅。 本发明能够提 高人脸以及手势 识别的效率和精度。 权利要求书2页 说明书10页 附图7页 CN 115471898 A 2022.12.13 CN 115471898 A 1.一种融合注意力机制的人脸与手势 识别方法, 其特 征在于, 包括: 面部识别过程: 获取相机图像, 并将所述相机图像输入至所述CenterNet网络中, 生成面部图像感兴趣 区域以及手部图像感兴趣区域; 获取数据库中的人脸图像, 并将所述人脸图像输入至 融合通道和空间注意力 机制的孪 生神经网络中, 生成人脸图像特征 的同时, 将所述面部图像感兴趣区域输入至另一个融合 通道和空间注意力机制的孪生神经网络中, 生成面部图像特征; 两个所述孪生神经网络共 享参数; 对比所述人脸图像特征以及所述面部图像感兴趣区域特征识别人脸, 生成面部识别结 果; 手势识别过程: 执行面部识别过程的同时, 将手部图像感兴趣区域输入至基于多尺度融合机制建立的 ResNet网络中进行语义分割, 生成手部二 值化图像; 将所述手部二 值化图像输入至分类网络, 生成手部识别结果; 根据所述 面部识别结果或所述手部识别结果控制智能轮 椅。 2.根据权利要求1所述的融合注意力 机制的人脸与手势识别方法, 其特征在于, 所述融 合通道和空间注意力机制的孪生神经网络, 具体包括: 依次连接的7 ×7卷积层、 最大池化 层、 ResBlock0模块、 ResBlock1模块、 第 一混合注意力 机制MA模块、 ResBlock2模块、 第 二MA 模块、 ResBlock3模块、 第三MA模块、 平均池化层以及全连接层; 第一MA模块、 所述第二MA模 块以及所述第三MA模块的结构相同; 所述ResBlock1模块、 所述ResBlock2模块以及所述 ResBlock3模块的结构相同。 3.根据权利要求2所述的融合注意力 机制的人脸与手势识别方法, 其特征在于, 所述第 一MA模块, 具体包括: 空间域注意力机制SA模块以及通道域注意力机制CA模块; 将特征图输入至所述SA模块中, 经过1 ×1卷积层, 再分别经过三个卷积层, 输出卷积后 的特征图; 将所述卷积后的特征图输入至所述CA模块, 生成CA模块特征图, 并将所述CA模块特征 图与所述特征图相加, 生成人脸图像特征或面部或 图像特征; 所述特征图为所述人脸图像 或所述面部图像感兴趣区域。 4.根据权利要求3所述的融合注意力 机制的人脸与手势识别方法, 其特征在于, 所述SA 模块, 具体包括: 两个独立并行的支路, 分别对所述特征图在通道方向上进行最大池化和平 均池化, 生成单通道的第一特 征图与第二特 征图; 分别对所述第一特征图以及所述第二特征图进行卷积与ReLu激活操作, 生成第三特征 图与第四特征图, 并将所述第三特征图以及所述第四特征图进行行列元素 的逐一加和, 生 成第五特 征图; 通过sigmoid函数将所述第五特征图转化为空间注意力的权重矩阵, 并将所述空间注 意力的权 重矩阵与输入的所述特 征图进行相乘, 生成SA模块特 征图。 5.根据权利要求4所述的融合注意力 机制的人脸与手势识别方法, 其特征在于, 所述CA 模块, 具体包括: 对所述SA模块特征图分别进行全局平均池化和全局最大池化, 生成通道数为c的第六权 利 要 求 书 1/2 页 2 CN 115471898 A 2特征图与第七特 征图; 将所述第六 特征图与所述第七特 征图对应位置的元 素相加, 得到第八特 征图; 对所述第八特 征图通过两个全连接层进行变换, 得到第九特 征图; 通过sigmoid函数将所述第九特征图转化为通道注意力的权重矩阵, 将所述通道注意 力矩阵与输入的所述卷积后的特 征图进行相乘, 生成所述CA模块特 征图。 6.根据权利要求5所述的融合注意力机制 的人脸与手势识别方法, 其特征在于, 所述 ResBlock0模块, 具体包括: 4个卷积层; 每个卷积层的后面均设有一个归一化处理层以及一 个修正性单元层; 所述ResBl ock0模块 不改变经 所述最大池化层输出的特 征图的尺寸。 7.根据权利要求6所述的融合注意力机制 的人脸与手势识别方法, 其特征在于, 所述 ResBlock1模块, 具体包括: 3个卷积层; 经所述ResBlock0模块输出的特征图分别经过包括 两个卷积层的第一支路以及包括一个卷积层的第二支路, 生成两个卷积后的特征图; 所述 第一支路中第一层卷积层的后面连接一个归一化处理层以及一个修正性单元层, 第二层卷 积层的后面连接一个归一 化处理层; 将两个卷积后的特 征图相加, 并经 过一个修 正性单元层, 输出修 正后的特 征图。 8.根据权利要求7所述的融合注意力机制 的人脸与手势识别方法, 其特征在于, 所述 ResNet网络, 具体包括: 四条并行支路; 每条支路包括依次连接的平均池化层、 卷积层、 组合注意力 机制模块以及上采样层; 将 经四条并行支路处理后的特征图进行特征连接, 再经过一层卷积层卷积后输出分割的手部 二值化图像; 所述组合注意力机制模块 为串联的所述SA模块以及所述CA模块。 9.一种电子设备, 其特征在于, 包括存储器及处理器, 所述存储器用于存储计算机程 序, 所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1 ‑8中任一项所述 的融合注意力机制的人脸与手势 识别方法。 10.一种计算机可读存储介质, 其特征在于, 其存储有计算机程序, 所述计算机程序被 处理器执行时实现如权利要求1 ‑8中任一项所述的融合注意力机制的人脸与手势识别方 法。权 利 要 求 书 2/2 页 3 CN 115471898 A 3

PDF文档 专利 一种融合注意力机制的人脸与手势识别方法及产品

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合注意力机制的人脸与手势识别方法及产品 第 1 页 专利 一种融合注意力机制的人脸与手势识别方法及产品 第 2 页 专利 一种融合注意力机制的人脸与手势识别方法及产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。