专利处理文本图像的方法、神经网络及其训练方法 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211385808.7 (22)申请日 2022.11.07 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人张晓强　钦夏孟　章成全　姚锟　 (74)专利代理机构北京市汉坤律师事务所 11602 专利代理师姜浩然　吴丽丽 (51)Int.Cl. G06F 16/583(2019.01) G06F 40/126(2020.01) G06V 20/62(2022.01) G06V 30/19(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称处理文本图像的方法、神经网络及其训练方法 (57)摘要本公开提供了一种处理文本图像的方法、神经网络及其训练方法，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。神经网络包括编码子网络、解码子网络、以及预测子网络，处理文本图像的方法包括：将文本图像输入编码子网络，以得到文本图像特征；利用解码子网络，基于经训练的多个文本查询特征对文本图像特征进行解码，以得到与多个文本查询特征对应的多个查询结果特征；以及分别将多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果。权利要求书5页说明书14页附图5页 CN 115438214 A 2022.12.06 CN 115438214 A 1.一种利用神经网络处理文本图像的方法，其特征在于，所述神经网络包括编码子网络、解码子网络、以及预测子网络，所述方法包括：将文本图像输入所述编码子网络，以得到文本图像特征；利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征；以及分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果。 2.根据权利要求1所述的方法，其特征在于，所述文本图像处理结果包括：文本查询结果，所述文本查询结果指示对应的文本查询特征是否在所述文本图像中查询到了文本实例；以及文本识别结果，所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文本内容。 3.根据权利要求2所述的方法，其特征在于，所述多个文本查询特征中的每一个文本查询特征包括实例查询特征和多个字符查询特征，与该文本查询特征对应的查询结果特征包括与该实例查询特征对应的实例查询结果特征和与该多个字符查询特征对应的多个字符查询结果特征，其中，所述预测子网络包括查询结果预测子网络和识别结果预测子网络，分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果包括：针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述查询结果预测子网络，以得到对应的文本查询结果；将该查询结果特征所包括的多个字符查询结果特征输入所述识别结果预测子网络，以得到多个字符识别结果；以及基于所述多个字符识别结果，确定与查询到的文本实例对应的文本识别结果。 4.根据权利要求3所述的方法，其特征在于，所述解码子网络包括实例间自注意力子网络，所述多个文本查询特征中的任意两个文本查询特征包括一一对应的多个字符查询特征，其中，利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征包括：针对所述多个文本查询特征中的每一个文本查询特征，针对该文本查询特征所包括的多个字符查询特征中的每一个字符查询特征，利用实例间自注意力子网络，基于自注意力机制利用所述多个文本查询特征各自所包括的与该字符查询特征对应的字符查询特征对该字符查询特征进行强化。 5.根据权利要求4所述的方法，其特征在于，利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征还包括：针对所述多个文本查询特征中的每一个文本查询特征，利用实例间自注意力子网络，基于自注意力机制利用所述多个文本查询特征各自所包括的实例查询特征对该文本查询权　利　要　求　书 1/5 页 2 CN 115438214 A 2特征所包括的实例查询特征进行强化。 6.根据权利要求4所述的方法，其特征在于，所述解码子网络包括实例内自注意力子网络，其中，利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征包括：针对所述多个文本查询特征中的每一个文本查询特征，利用实例内自注意力子网络，基于自注意力机制对该文本查询特征所包括的实例查询特征和多个字符查询特征进行强化。 7.根据权利要求3所述的方法，其特征在于，所述文本图像处理结果还包括文本检测结果，所述文本检测结果指示对应的文本查询特征所查询到的文本实例在所述文本图像中的位置和检测框中的至少一个，其中，所述预测子网络还包括检测结果预测子网络，分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果还包括：针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述检测结果预测子网络，以得到与查询到的文本实例对应的文本检测结果。 8.一种神经网络的训练方法，其特征在于，所述神经网络包括编码子网络、解码子网络、以及预测子网络，所述方法包括：获取样本文本图像和所述样本文本图像所包括的多个样本文本各自的真实标签；将所述样本文本图像输入所述编码子网络，以得到文本图像特征；利用所述解码子网络，基于多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征；分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的样本文本图像处理结果；基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个查询结果特征各自对应的样本文本图像处理结果，确定综合损失值；以及基于所述综合损失值调整所述神经网络的参数和所述多个文本查询特征，以得到训练后的神经网络和经训练的多个文本查询特征。 9. 根据权利要求8所述的方法，其特征在于，所述样本文本图像处理结果包括：文本查询结果，所述文本查询结果指示对应的文本查询特征是否在所述样本文本图像中查询到了文本实例；以及文本识别结果，所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文本内容，其中，所述综合损失值包括识别损失值，所述样本文本的真实标签包括该样本文本的真实文本内容，基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个查询结果特征各自对应的样本文本图像处理结果，确定损失值包括：将所述多个样本文本和利用所述多个文本查询特征查询到的多个文本实例进行匹配；以及基于匹配的样本文本的真实文本内容和匹配的文本实例对应的文本识别结果，确定所述识别损失值。权　利　要　求　书 2/5 页 3 CN 115438214 A 3

专利 处理文本图像的方法、神经网络及其训练方法

专利处理文本图像的方法、神经网络及其训练方法