专利文本视频的互检索以及模型训练方法、装置、设备及介质 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211389266.0 (22)申请日 2022.11.08 (71)申请人苏州浪潮智能科技有限公司地址 215100 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人李仁刚　王立　范宝余　郭振华　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师张志梅 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/783(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本视频的互检索以及模型训练方法、装置、设备及介质 (57)摘要本申请公开了一种用于视频数据与文本数据之间互检索的模型训练方法及装置、视频数据与文本数据之间的互检索方法及装置、互检索设备、可读存储介质，应用于信息检索技术。其中，方法包括对训练样本集各组训练样本，通过将当前样本文本数据对应的节点特征作为节点特征，各节点特征间的包含关系作为连接关系，生成文本图神经网络；基于将目标样本视频数据的图像序列特征中的每帧图像特征作为节点特征、由各帧图像特征之间相关性所确定的边连接关系，生成视频图神经网络；利用融合第三类文本数据特征和文本图神经网络提取的第二类文本数据特征的样本文本特征和视频图神经网络提取的样本视频特征训练互检索模型，可有效提高视频文本的互检索精度。权利要求书4页说明书21页附图8页 CN 115455171 A 2022.12.09 CN 115455171 A 1.一种用于视频数据与文本数据之间互检索的模型训练方法，其特征在于，包括：通过将当前样本文本数据的第一类文本数据对应的各第一类节点特征、第二类文本数据对应的各第二类节点特征分别作为节点特征，各第一类节点特征与各第二类节点特征之间的包含关系作为连接关系，生成文本图神经网络；所述第一类文本数据存在于所述第二类文本数据；训练样本集包括多组训练样本，每组训练样本均包括样本文本数据和对应的样本视频数据；基于将所述当前样本文本数据对应的目标样本视频数据的图像序列特征中的每帧图像特征作为节点特征，以及由所述图像序列特征中每帧图像特征与其余各帧图像特征之间相关性所确定的边连接关系，生成视频图神经网络；利用包括第三类文本数据对应的文本特征、以及由所述文本图神经网络提取所述第二类文本数据所得文本特征的样本文本特征，所述视频图神经网络提取的样本视频特征，训练互检索模型；所述互检索模型包括所述文本图神经网络和所述视频图神经网络；所述第三类文本数据用于概括所述第一类文本数据和所述第二类文本数据。 2.根据权利要求1所述的用于视频数据与文本数据之间互检索的模型训练方法，其特征在于，所述利用包括第三类文本数据对应的文本特征、以及由所述文本图神经网络提取所述第二类文本数据所得文本特征的样本文本特征，所述视频图神经网络提取的样本视频特征，训练互检索模型，包括：基于所述文本图神经网络提取的样本文本特征、所述视频图神经网络提取的样本视频特征，调用损失函数指导互检索模型的训练过程；所述损失函数为：；式中，为所述损失函数， N为训练样本组数，为所述训练样本集中所包含的所有样本视频数据中的第 a个样本视频数据，为所述训练样本集中所包含的所有样本文本数据中第 p个样本文本数据、且其与第 a个样本视频数据相对应，为在所有样本文本数据中的第 n个样本文本数据、且其与第 a个样本视频数据不对应，为所有样本文本数据中的第a个样本文本数据，为所有样本视频数据中第p个样本视频数据、且其与第 a个样本文本数据相对应，为所有样本视频数据中的第n个样本视频数据、且其与第 a个样本文本数据不对应， ▽为超参数。 3.一种视频数据与文本数据之间的互检索方法，其特征在于，包括：提取目标文本数据的待匹配文本特征；所述目标文本数据包括第一类文本数据、第二类文本数据和第三类文本数据，且所述第二类文本数据包含所述第一类文本数据，所述第三类文本数据用于概括所述第一类文本数据和所述第二类文本数据；所述待匹配文本特征包括第三类文本数据对应的文本特征、和利用互检索模型的文本图神经网络提取的所述第权　利　要　求　书 1/4 页 2 CN 115455171 A 2二类文本数据的文本特征；提取目标视频数据的待匹配视频特征；基于所述待匹配视频特征和所述待匹配文本特征，调用所述互检索模型生成所述目标文本数据和所述目标视频数据的检索结果；其中，所述互检索模型利用如权利要求1或2所述用于视频数据与文本数据之间互检索的模型训练方法训练所得。 4.根据权利要求3所述的视频数据与文本数据之间的互检索方法，其特征在于，所述提取目标视频数据的待匹配视频特征，包括：通过提取目标视频数据的多帧图像的图像特征，生成所述目标视频数据的图像序列特征；基于将所述图像序列特征的每个图像特征作为节点特征、并由所述图像序列特征中每个图像特征与其余各图像特征之间相关性所确定的边连接关系，生成视频图神经网络；利用所述视频图神经网络，获取所述目标视频数据的待匹配视频特征。 5.根据权利要求4所述的视频数据与文本数据之间的互检索方法，其特征在于，所述基于将所述图像序列特征的每个图像特征作为节点特征、并由所述图像序列特征中每个图像特征与其余各图像特征之间相关性所确定的边连接关系，生成视频图神经网络，包括：所述视频图神经网络包括多层，每一层均包括当前层图结构网络、与所述当前层图结构网络相连的归一化层以及激活层；所述视频图神经网络的各层图结构网络的神经输入特征图和神经输出特征图跳跃连接；经跳跃连接所得特征图与所述归一化层的归一输出特征图的特征相加和为所述激活层的输入；其中，基于将所述图像序列特征的每个图像特征作为节点特征、并由所述图像序列特征中每个图像特征与其余各图像特征之间相关性所确定的边连接关系，确定所述视频图神经网络每层的图结构网络。 6.根据权利要求4所述的视频数据与文本数据之间的互检索方法，其特征在于，所述通过提取目标视频数据的多帧图像的图像特征，生成所述目标视频数据的图像序列特征，包括：预先训练图像特征提取模型；所述图像特征提取模型包含第一预设个数的卷积层和第二预设个数的残差模块，每个残差模块均包含多层卷积层、归一化层和 ReLU 激活函数层；将目标视频数据的多帧图像输入至所述图像特征提取模型，得到每帧图像的图像特征；根据各帧图像的图像特征，生成所述目标视频数据的图像序列特征。 7.根据权利要求6所述的视频数据与文本数据之间的互检索方法，其特征在于，所述将目标视频数据的多帧图像输入至所述图像特征提取模型，得到每帧图像的图像特征，包括：接收图像提取指令，通过解析所述图像提取指令获取图像提取规则；按照所述图像提取规则，从所述目标视频数据中提取相应帧图像。 8.根据权利要求4所述的视频数据与文本数据之间的互检索方法，其特征在于，所述由所述图像序列特征中每个图像特征与其余各图像特征之间相关性所确定的边连接关系，包括：权　利　要　求　书 2/4 页 3 CN 115455171 A 3

专利 文本视频的互检索以及模型训练方法、装置、设备及介质

专利文本视频的互检索以及模型训练方法、装置、设备及介质