(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211389266.0 (22)申请日 2022.11.08 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 李仁刚 王立 范宝余 郭振华  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张志梅 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/783(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本视频的互检索以及模型训练方法、 装 置、 设备及 介质 (57)摘要 本申请公开了一种用于视频数据与文本数 据之间互检索的模型训练方法及装置、 视频数据 与文本数据之间的互检索方法及装置、 互检索设 备、 可读存储介质, 应用于信息检索技术。 其中, 方法包括对训练样本集各组训练样 本, 通过将当 前样本文本数据对应的节点特征作为节点特征, 各节点特征间的包含关系作为连接关系, 生成文 本图神经网络; 基于将目标样 本视频数据的图像 序列特征中的每帧图像特征作为节 点特征、 由各 帧图像特征之间相关性所确定的边连接关系, 生 成视频图神经网络; 利用融合第三类文本数据特 征和文本图神经网络提取的第二类文本数据特 征的样本文本特征和视频图神经网络提取的样 本视频特征训练互检索模型, 可有效提高视频文 本的互检索精度。 权利要求书4页 说明书21页 附图8页 CN 115455171 A 2022.12.09 CN 115455171 A 1.一种用于 视频数据与文本数据之间互检索的模型训练方法, 其特 征在于, 包括: 通过将当前样本文本数据的第 一类文本数据对应的各第 一类节点特征、 第 二类文本数 据对应的各第二类节点特征分别作为节点特征, 各第一类节点特征与各第二类节点特征之 间的包含关系作为连接关系, 生成文本图神经网络; 所述第一类文本数据存在于所述第二 类文本数据; 训练样本集包括多组训练样本, 每组训练样本均包括样本文本数据和对应的 样本视频数据; 基于将所述当前样本文本数据对应的目标样本视频数据的图像序列特征中的每帧图 像特征作为节点特征, 以及由所述图像序列特征中每帧图像特征与其余各帧图像特征之间 相关性所确定的边连接关系, 生成视频图神经网络; 利用包括第 三类文本数据对应的文本特征、 以及由所述文本图神经网络提取所述第 二 类文本数据所得文本特征 的样本文本特征, 所述视频图神经网络提取 的样本视频特征, 训 练互检索模型; 所述互检索模型包括所述文本图神经网络和所述视频图神经网络; 所述第 三类文本数据用于概 括所述第一类文本数据和所述第二类文本数据。 2.根据权利要求1所述的用于视频数据与文本数据之间互检索的模型训练方法, 其特 征在于, 所述利用包括第三类文本数据对应的文本特征、 以及由所述文本图神经网络提取 所述第二类文本数据所得文本特征的样本文本特征, 所述视频图神经网络提取的样本视频 特征, 训练互检索模型, 包括: 基于所述文本图神经网络提取的样本文本特征、 所述视频图神经网络提取的样本视频 特征, 调用损失函数指导互检索模型的训练过程; 所述损失函数为: ; 式中, 为所述损失函数, N为训练样本组数, 为所述训练样本集 中所包含的 所有样本 视频数据中的第 a个样本视频数据, 为所述训练样本集中所包含的所有样本文 本数据中第 p个样本文本数据、 且其与第 a个样本视频数据相对 应, 为在所有样本文 本数 据中的第 n个样本文本数据、 且其与第 a个样本视频数据不对应, 为所有样本文本数据 中的第a个样本文本数据, 为所有样本视频数据 中第p个样本视频数据、 且其与第 a个 样本文本数据相对应, 为所有样本视频数据中 的第n个样本视频数据、 且其与第 a个样 本文本数据不对应, ▽为超参数。 3.一种视频 数据与文本数据之间的互检索方法, 其特 征在于, 包括: 提取目标文本数据的待匹配文本特征; 所述目标文本数据包括第一类文本数据、 第二 类文本数据和第三类文本数据, 且所述第二类文本数据包含所述第一类文本数据, 所述第 三类文本数据用于概括所述第一类文本数据和所述第二类文本数据; 所述待匹配文本特征 包括第三类文本数据对应的文本特征、 和利用互检索 模型的文本图神经网络提取的所述第权 利 要 求 书 1/4 页 2 CN 115455171 A 2二类文本数据的文本特 征; 提取目标视频 数据的待匹配视频 特征; 基于所述待匹配视频特征和所述待 匹配文本特征, 调用所述互检索模型生成所述目标 文本数据和所述目标视频 数据的检索结果; 其中, 所述互检索模型利用如权利要求1或2所述用于视频数据与文本数据之间互检索 的模型训练方法训练所 得。 4.根据权利要求3所述的视频数据与文本数据之间的互检索方法, 其特征在于, 所述提 取目标视频 数据的待匹配视频 特征, 包括: 通过提取目标视频数据的多帧图像的图像特征, 生成所述目标视频数据的图像序列 特 征; 基于将所述图像序列 特征的每个图像特征作为节点特征、 并由所述图像序列 特征中每 个图像特 征与其余各图像特 征之间相关性所确定的边连接关系, 生成视频图神经网络; 利用所述视频图神经网络, 获取 所述目标视频 数据的待匹配视频 特征。 5.根据权利要求4所述的视频数据与文本数据之间的互检索方法, 其特征在于, 所述基 于将所述图像序列特征的每个图像特征作为节点特征、 并由所述图像序列特征中每个图像 特征与其余各图像特 征之间相关性所确定的边连接关系, 生成视频图神经网络, 包括: 所述视频图神经网络包括多层, 每一层均包括当前层图结构网络、 与所述当前层图结 构网络相连的归一 化层以及激活层; 所述视频图神经网络的各层图结构网络的神经输入特征图和神经输出特征图跳跃连 接; 经跳跃连接所得特征图与所述归一化层的归一输出特征图的特征相加和为所述激活层 的输入; 其中, 基于将所述图像序列特征的每个图像特征作为节点特征、 并由所述图像序列特 征中每个图像特征与其余各图像特征之 间相关性所确定的边连接关系, 确定所述视频图神 经网络每层的图结构网络 。 6.根据权利要求4所述的视频数据与文本数据之间的互检索方法, 其特征在于, 所述通 过提取目标视频数据的多帧图像的图像特征, 生成所述 目标视频数据的图像序列特征, 包 括: 预先训练图像特征提取模型; 所述图像特征提取模型包含第 一预设个数的卷积层和第 二预设个数的残差模块, 每 个残差模块均包 含多层卷积层、 归一 化层和 ReLU 激活函数层; 将目标视频数据的多帧图像输入至所述图像特征提取模型, 得到每帧图像的图像特 征; 根据各帧图像的图像特 征, 生成所述目标视频 数据的图像序列特 征。 7.根据权利要求6所述的视频数据与文本数据之间的互检索方法, 其特征在于, 所述将 目标视频 数据的多帧图像输入至所述图像特 征提取模型, 得到每帧图像的图像特 征, 包括: 接收图像提取指令, 通过解析 所述图像提取指令获取图像提取规则; 按照所述图像提取规则, 从所述目标视频 数据中提取相应帧图像。 8.根据权利要求4所述的视频数据与文本数据之间的互检索方法, 其特征在于, 所述由 所述图像序列特征中每个图像特征与其余各图像特征之 间相关性所确定的边连接关系, 包 括:权 利 要 求 书 2/4 页 3 CN 115455171 A 3

PDF文档 专利 文本视频的互检索以及模型训练方法、装置、设备及介质

文档预览
中文文档 34 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本视频的互检索以及模型训练方法、装置、设备及介质 第 1 页 专利 文本视频的互检索以及模型训练方法、装置、设备及介质 第 2 页 专利 文本视频的互检索以及模型训练方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。