(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211385808.7
(22)申请日 2022.11.07
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 张晓强 钦夏孟 章成全 姚锟
(74)专利代理 机构 北京市汉坤律师事务所
11602
专利代理师 姜浩然 吴丽丽
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 40/126(2020.01)
G06V 20/62(2022.01)
G06V 30/19(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
处理文本图像的方法、 神经网络及其训练方
法
(57)摘要
本公开提供了一种处理文本图像的方法、 神
经网络及其训练方法, 涉及人工智能技术领域,
具体为深度学习、 图像处理、 计算机视觉技术领
域, 可应用于OCR等场景。 神经网络包括编码子网
络、 解码子网络、 以及预测子网络, 处理文本图像
的方法包括: 将文本图像输入编码子网络, 以得
到文本图像特征; 利用解码子网络, 基于经训练
的多个文本查询特征对文本图像特征进行解码,
以得到与多个文本查询特征对应的多个查询结
果特征; 以及分别将多个查询结果特征中的每一
个查询结果特征输入预测子网络, 以得到与该查
询结果特 征对应的文本图像处 理结果。
权利要求书5页 说明书14页 附图5页
CN 115438214 A
2022.12.06
CN 115438214 A
1.一种利用神经网络处理文本图像的方法, 其特征在于, 所述神经网络包括编码子网
络、 解码子网络、 以及预测子网络, 所述方法包括:
将文本图像输入所述编码子网络, 以得到文本图像特 征;
利用所述解码子网络, 基于经训练的多个文本查询特征对所述文本图像特征进行解
码, 以得到与所述多个文本查询特 征对应的多个查询结果特 征; 以及
分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络, 以得到与 该
查询结果特 征对应的文本图像处 理结果。
2.根据权利要求1所述的方法, 其特 征在于, 所述文本图像处 理结果包括:
文本查询结果, 所述文本查询结果指示对应的文本查询特征是否在所述文本图像 中查
询到了文本实例; 以及
文本识别结果, 所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文
本内容。
3.根据权利要求2所述的方法, 其特征在于, 所述多个文本查询特征中的每一个文本查
询特征包括 实例查询特征和多个字符查询特征, 与该文本查询特征对应的查询结果特征包
括与该实例查询特征对应的实例查询结果特征和与该多个字符查询特征对应的多个字符
查询结果特 征,
其中, 所述预测子网络包括查询结果预测子网络和识别结果预测子网络, 分别将所述
多个查询结果特征中的每一个查询结果特征输入预测子网络, 以得到与该查询结果特征对
应的文本图像处 理结果包括:
针对所述多个查询结果特 征中的每一个查询结果特 征,
将该查询结果特征所包括的实例查询结果特征输入所述查询结果预测子网络, 以得到
对应的文本查询结果;
将该查询结果特征所包括的多个字符查询结果特征输入所述识别结果预测子网络, 以
得到多个字符识别结果; 以及
基于所述多个字符识别结果, 确定与查询到的文本实例对应的文本识别结果。
4.根据权利要求3所述的方法, 其特征在于, 所述解码子网络包括实例间自注意力 子网
络, 所述多个文本查询特征中的任意两个文本查询特征包括一一对应的多个字符查询特
征,
其中, 利用所述解码子网络, 基于经训练的多个文本查询特征对所述文本 图像特征进
行解码, 以得到与所述多个文本查询特 征对应的多个查询结果特 征包括:
针对所述多个文本查询特 征中的每一个文本查询特 征,
针对该文本查询特征所包括的多个字符查询特征中的每一个字符查询特征, 利用实例
间自注意力子网络, 基于自注意力机制利用所述多个文本查询特征各自所包括的与该字符
查询特征对应的字符查询特 征对该字符查询特 征进行强化。
5.根据权利要求4所述的方法, 其特征在于, 利用所述解码子网络, 基于经训练的多个
文本查询特征对所述文本图像特征进 行解码, 以得到与所述多个文本查询特征对应的多个
查询结果特 征还包括:
针对所述多个文本查询特征中的每一个文本查询特征, 利用实例间自注意力子网络,
基于自注意力机制利用所述多个文本查询特征各自所包括的实例查询特征对该文本查询权 利 要 求 书 1/5 页
2
CN 115438214 A
2特征所包括的实例查询特 征进行强化。
6.根据权利要求4所述的方法, 其特征在于, 所述解码子网络包括实例内自注意力 子网
络, 其中, 利用所述解码子网络, 基于经训练的多个文本查询特征对 所述文本图像特征进 行
解码, 以得到与所述多个文本查询特 征对应的多个查询结果特 征包括:
针对所述多个文本查询特征中的每一个文本查询特征, 利用实例内自注意力子网络,
基于自注意力机制对该文本查询特征所包括的实例查询特征和多个字符查询特征进行强
化。
7.根据权利要求3所述的方法, 其特征在于, 所述文本图像处理结果还包括文本检测结
果, 所述文本检测结果指示对应的文本查询特征所查询到的文本实例在所述文本图像中的
位置和检测框中的至少一个, 其中, 所述预测子网络还包括检测结果预测子网络, 分别将所
述多个查询结果特征中的每一个查询结果特征输入预测子网络, 以得到与该查询结果特征
对应的文本图像处 理结果还 包括:
针对所述多个查询结果特征中的每一个查询结果特征, 将该查询结果特征所包括的实
例查询结果特征输入所述检测结果预测子网络, 以得到与查询到的文本实例对应的文本检
测结果。
8.一种神经网络的训练方法, 其特征在于, 所述神经网络包括编码子网络、 解码子网
络、 以及预测子网络, 所述方法包括:
获取样本文本图像和所述样本文本图像所包括的多个样本文本各自的真实标签;
将所述样本文本图像输入所述编码子网络, 以得到文本图像特 征;
利用所述解码子网络, 基于多个文本查询特征对所述文本 图像特征进行解码, 以得到
与所述多个文本查询特 征对应的多个查询结果特 征;
分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络, 以得到与 该
查询结果特 征对应的样本文本图像处 理结果;
基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个查询结果
特征各自对应的样本文本图像处 理结果, 确定综合损失值; 以及
基于所述综合损失值调整所述神经网络的参数和所述多个文本查询特征, 以得到训练
后的神经网络和经训练的多个文本查询特 征。
9. 根据权利要求8所述的方法, 其特 征在于, 所述样本文本图像处 理结果包括:
文本查询结果, 所述文本查询结果指示对应的文本查询特征是否在所述样本文本图像
中查询到 了文本实例; 以及
文本识别结果, 所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文
本内容,
其中, 所述综合损 失值包括识别损 失值, 所述样本文本的真实标签包括该样本文本的
真实文本内容, 基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个
查询结果特 征各自对应的样本文本图像处 理结果, 确定损失值包括:
将所述多个样本文本和利用所述多个文本查询特征查询到的多个文本实例进行匹配;
以及
基于匹配的样本文本的真实文本 内容和匹配的文本实例对应的文本识别结果, 确定所
述识别损失值。权 利 要 求 书 2/5 页
3
CN 115438214 A
3
专利 处理文本图像的方法、神经网络及其训练方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:53上传分享