(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211388778.5
(22)申请日 2022.11.08
(71)申请人 苏州浪潮智能科技有限公司
地址 215100 江苏省苏州市吴中经济开发
区郭巷街道官浦路1号9幢
(72)发明人 李仁刚 王立 范宝余 郭振华
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 张志梅
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/953(2019.01)
G06V 30/41(2022.01)
G06V 30/19(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
图文双向搜索及匹配模型训练方法、 装置、
设备及介质
(57)摘要
本申请公开了一种图文双向搜索及匹配模
型训练方法、 装置、 设备及介质, 应用于信息检索
技术领域。 方法为: 预先训练包括文本异质图网
络、 图像异质图网络和图像识别网络的图文双向
搜索模型。 调用图像识别网络获取待搜索图像的
目标识别特征; 基于文本异质图网络, 获取待搜
索文本的文本特征和目标文本特征, 文本异质图
网络是由目标文本特征和目标识别特征作为节
点所构建。 基于图像异质图网络, 获取待搜索图
像的图像特征; 图像异质图网络是由待搜索图像
的原始图像特征和目标识别特征作为节点所构
建。 将图像特征和文本特征输入至图文双向搜索
模型得到图文搜索结果, 可有效提升图文数据间
的双向搜索精度。
权利要求书6页 说明书25页 附图6页
CN 115438215 A
2022.12.06
CN 115438215 A
1.一种图文双向搜索方法, 其特 征在于, 包括:
预先训练图文双 向搜索模型; 所述图文双 向搜索模型包括文本异质图网络、 图像异质
图网络和图像识别网络;
调用所述图像识别网络, 获取待搜索图像的每张子图像所包含的目标图像块的目标识
别特征;
基于所述文本异质图网络, 获取仅包含一类目标文本数据的待搜索文本的文本特征;
所述目标文本数据对应的目标文本特征包括所述目标识别特征; 所述目标识别特征和所述
目标文本特征为所述文本异质图网络的节点特征, 所述文本异质图网络的连接边由所述目
标识别特 征与所述目标文本特 征间的包 含关系确定;
基于所述图像异质图网络, 获取包括一组子 图像的待搜索图像的图像特征; 所述待搜
索图像的原始图像特征和所述目标识别特征作为所述图像异质图网络的节点特征, 所述图
像异质图网络的连接边由所述目标识别特 征和所述原 始图像特 征之间的关联关系确定;
将所述图像特 征和所述文本特 征输入至所述图文双向搜索模型, 得到图文搜索结果。
2.根据权利要求1所述的图文双向搜索方法, 其特征在于, 所述预先训练图文双向搜索
模型之后, 还 包括:
响应文本拆分指令, 将所述目标识别特征拆分为多个文本词组和/或文本单词, 将所述
目标文本数据拆分为多个文本语句;
将各文本词组和/或文本单词输入至预先训练好的文本特征提取模型中, 得到多个第
一类节点特 征;
将各文本语句输入至所述文本特 征提取模型中, 得到多个第二类节点特 征。
3.根据权利要求2所述的图文双向搜索方法, 其特征在于, 所述获取仅包含一类目标文
本数据的待搜索文本的文本特 征之前, 还 包括:
搭建语言表征模型; 所述语言表征模型包括文本信息输入层、 特征提取层和文本特征
输出层; 所述特 征提取层为基于转换器的双向编码器;
利用自然语言文本样本数据集训练所述语言表征模型, 并将训练好的语言表征模型作
为文本特 征提取模型。
4.根据权利要求2所述的图文双向搜索方法, 其特征在于, 所述将各文本语句输入至所
述文本特 征提取模型中, 包括:
将各文本语句以及每个文本语句中包含的各词组、 各单词所在当前文本语句中的位置
信息, 输入至所述文本特 征提取模型。
5.根据权利要求2所述的图文双 向搜索方法, 其特征在于, 所述将各文本词组和/或文
本单词输入至预先构建的文本特征提取模型中, 得到多个第一类节点特征之前, 以及所述
将各文本语句输入至所述文本特 征提取模型中, 得到多个第二类节点特 征之前, 还 包括:
获取下一 时刻输入至文本特征提取模型中的数据的数据类型, 以将所述数据类型连同
相应的数据一 起输入至所述文本特 征提取模型中;
所述数据类型包括用于标识所述目标识别特征的第 一标识, 和用于标识所述目标文本
数据的第二标识。
6.根据权利要求2所述的图文双向搜索方法, 其特征在于, 所述文本异质图网络的连接
边由所述目标识别特 征与所述目标文本特 征间的包 含关系确定, 包括:权 利 要 求 书 1/6 页
2
CN 115438215 A
2对所述目标识别特征中的每个文本词组或文本单词, 依次遍历所述目标文本数据的每
个文本语句;
若当前文本语句所包含的目标词组与当前文本词组相同, 则所述当前文本语句对应的
第二类节点特 征与所述当前文本词组对应的第一类节点特 征具有连接关系;
若所述当前文本语句所包含的目标单词与当前文本单词相同, 则所述当前文本语句对
应的第二类节点特 征与所述当前文本单词对应的第一类节点特 征具有连接关系。
7.根据权利要求1所述的图文双向搜索方法, 其特征在于, 所述调用所述图像识别网
络, 获取待搜索图像的每张子图像所包 含的目标图像块的目标识别特 征, 包括:
预先利用在包含多 张子图像的图像样本 中标注相应目标识别特征的目标训练样本集,
训练得到图像识别网络;
将所述待搜索图像输入至所述图像识别网络 中, 得到所述待搜索图像的每张子图像所
包含的目标识别特 征。
8.根据权利要求7所述的图文双向搜索方法, 其特征在于, 所述利用在包含多张子图像
的图像样本中标注相应目标识别特征 的目标训练样本集, 训练得到图像识别网络之前, 还
包括:
预先构建目标识别网络结构, 所述目标识别网络结构包括输入层、 卷积结构、 池化层及
分类器;
所述卷积结构包括基础运算组件和残差运算组件; 所述基础运算组件用于对输入图像
依次进行卷积处理、 正则化处理、 激活函数 处理及最大池化处理; 所述残差运算组件包括多
个相连的残差块, 每个残差块均包括多层卷积层, 用于对所述基础运算组件的输出特征进
行卷积计算;
所述池化层, 用于将所述卷积结构的输出特征转化为目标特征向量, 并输送至所述分
类器;
所述分类 器, 用于通过对所述目标 特征向量进行计算, 并输出 所属类别标签的概 率。
9.根据权利要求1所述的图文双向搜索方法, 其特征在于, 所述文本异质图网络包括多
层第一图注意力网络, 每一层第一图注意网络之后还集成第一全连接层; 所述获取仅包含
一类目标文本数据的待搜索文本的文本特 征, 包括:
对所述文本异质图网络的各第 一图注意力网络的每个文本异质节点, 根据当前文本异
质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关
系, 更新所述当前文本异质节点的节点特 征;
基于更新后的文本异质图网络的每个文本异质节点的节点特征, 生成所述待搜索文本
的文本特 征。
10.根据权利要求9所述的图文双向搜索方法, 其特征在于, 所述根据当前文本异质节
点与其余各文本异质节点之 间是否具有连接关系以及各文本异质节点之间的关联关系, 更
新所述当前文本异质节点的节点特 征, 包括:
确定与所述当前文本异质节点具有相连关系、 且不为同一节点类型的目标文本异质节
点;
基于所述当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关
联关系, 计算所述当前文本异质节点与每个目标文本异质节点的初始权重值, 并根据各初权 利 要 求 书 2/6 页
3
CN 115438215 A
3
专利 图文双向搜索及匹配模型训练方法、装置、设备及介质
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:52上传分享