专利图文双向搜索及匹配模型训练方法、装置、设备及介质 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211388778.5 (22)申请日 2022.11.08 (71)申请人苏州浪潮智能科技有限公司地址 215100 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人李仁刚　王立　范宝余　郭振华　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师张志梅 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/953(2019.01) G06V 30/41(2022.01) G06V 30/19(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称图文双向搜索及匹配模型训练方法、装置、设备及介质 (57)摘要本申请公开了一种图文双向搜索及匹配模型训练方法、装置、设备及介质，应用于信息检索技术领域。方法为：预先训练包括文本异质图网络、图像异质图网络和图像识别网络的图文双向搜索模型。调用图像识别网络获取待搜索图像的目标识别特征；基于文本异质图网络，获取待搜索文本的文本特征和目标文本特征，文本异质图网络是由目标文本特征和目标识别特征作为节点所构建。基于图像异质图网络，获取待搜索图像的图像特征；图像异质图网络是由待搜索图像的原始图像特征和目标识别特征作为节点所构建。将图像特征和文本特征输入至图文双向搜索模型得到图文搜索结果，可有效提升图文数据间的双向搜索精度。权利要求书6页说明书25页附图6页 CN 115438215 A 2022.12.06 CN 115438215 A 1.一种图文双向搜索方法，其特征在于，包括：预先训练图文双向搜索模型；所述图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络；调用所述图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征；基于所述文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征；所述目标文本数据对应的目标文本特征包括所述目标识别特征；所述目标识别特征和所述目标文本特征为所述文本异质图网络的节点特征，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定；基于所述图像异质图网络，获取包括一组子图像的待搜索图像的图像特征；所述待搜索图像的原始图像特征和所述目标识别特征作为所述图像异质图网络的节点特征，所述图像异质图网络的连接边由所述目标识别特征和所述原始图像特征之间的关联关系确定；将所述图像特征和所述文本特征输入至所述图文双向搜索模型，得到图文搜索结果。 2.根据权利要求1所述的图文双向搜索方法，其特征在于，所述预先训练图文双向搜索模型之后，还包括：响应文本拆分指令，将所述目标识别特征拆分为多个文本词组和/或文本单词，将所述目标文本数据拆分为多个文本语句；将各文本词组和/或文本单词输入至预先训练好的文本特征提取模型中，得到多个第一类节点特征；将各文本语句输入至所述文本特征提取模型中，得到多个第二类节点特征。 3.根据权利要求2所述的图文双向搜索方法，其特征在于，所述获取仅包含一类目标文本数据的待搜索文本的文本特征之前，还包括：搭建语言表征模型；所述语言表征模型包括文本信息输入层、特征提取层和文本特征输出层；所述特征提取层为基于转换器的双向编码器；利用自然语言文本样本数据集训练所述语言表征模型，并将训练好的语言表征模型作为文本特征提取模型。 4.根据权利要求2所述的图文双向搜索方法，其特征在于，所述将各文本语句输入至所述文本特征提取模型中，包括：将各文本语句以及每个文本语句中包含的各词组、各单词所在当前文本语句中的位置信息，输入至所述文本特征提取模型。 5.根据权利要求2所述的图文双向搜索方法，其特征在于，所述将各文本词组和/或文本单词输入至预先构建的文本特征提取模型中，得到多个第一类节点特征之前，以及所述将各文本语句输入至所述文本特征提取模型中，得到多个第二类节点特征之前，还包括：获取下一时刻输入至文本特征提取模型中的数据的数据类型，以将所述数据类型连同相应的数据一起输入至所述文本特征提取模型中；所述数据类型包括用于标识所述目标识别特征的第一标识，和用于标识所述目标文本数据的第二标识。 6.根据权利要求2所述的图文双向搜索方法，其特征在于，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定，包括：权　利　要　求　书 1/6 页 2 CN 115438215 A 2对所述目标识别特征中的每个文本词组或文本单词，依次遍历所述目标文本数据的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则所述当前文本语句对应的第二类节点特征与所述当前文本词组对应的第一类节点特征具有连接关系；若所述当前文本语句所包含的目标单词与当前文本单词相同，则所述当前文本语句对应的第二类节点特征与所述当前文本单词对应的第一类节点特征具有连接关系。 7.根据权利要求1所述的图文双向搜索方法，其特征在于，所述调用所述图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征，包括：预先利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络；将所述待搜索图像输入至所述图像识别网络中，得到所述待搜索图像的每张子图像所包含的目标识别特征。 8.根据权利要求7所述的图文双向搜索方法，其特征在于，所述利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络之前，还包括：预先构建目标识别网络结构，所述目标识别网络结构包括输入层、卷积结构、池化层及分类器；所述卷积结构包括基础运算组件和残差运算组件；所述基础运算组件用于对输入图像依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；所述残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对所述基础运算组件的输出特征进行卷积计算；所述池化层，用于将所述卷积结构的输出特征转化为目标特征向量，并输送至所述分类器；所述分类器，用于通过对所述目标特征向量进行计算，并输出所属类别标签的概率。 9.根据权利要求1所述的图文双向搜索方法，其特征在于，所述文本异质图网络包括多层第一图注意力网络，每一层第一图注意网络之后还集成第一全连接层；所述获取仅包含一类目标文本数据的待搜索文本的文本特征，包括：对所述文本异质图网络的各第一图注意力网络的每个文本异质节点，根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新所述当前文本异质节点的节点特征；基于更新后的文本异质图网络的每个文本异质节点的节点特征，生成所述待搜索文本的文本特征。 10.根据权利要求9所述的图文双向搜索方法，其特征在于，所述根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新所述当前文本异质节点的节点特征，包括：确定与所述当前文本异质节点具有相连关系、且不为同一节点类型的目标文本异质节点；基于所述当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算所述当前文本异质节点与每个目标文本异质节点的初始权重值，并根据各初权　利　要　求　书 2/6 页 3 CN 115438215 A 3

专利 图文双向搜索及匹配模型训练方法、装置、设备及介质

专利图文双向搜索及匹配模型训练方法、装置、设备及介质