国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211364032.0 (22)申请日 2022.11.02 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 肖京 陈又新 (74)专利代理 机构 深圳市明日今典知识产权代 理事务所(普通 合伙) 44343 专利代理师 王杰辉 曹勇 (51)Int.Cl. G06V 30/19(2022.01) G06V 30/18(2022.01) G06V 30/148(2022.01) G06V 10/82(2022.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/289(2020.01) (54)发明名称 多模态模型的训练方法、 装置、 计算机设备 及存储介质 (57)摘要 本申请涉及计算机技术领域, 可用于金融、 医疗等领域的图文摘要生 成, 特别是涉及到一种 多模态模型的训练方法、 装置、 设备及介质, 所述 方法包括如下步骤: 获取第一特征向量; 获取第 二特征向量; 将第一特征向量和第二特征向量输 入待训练多模态模型, 待训练多模态模型包括编 码层和解码层; 通过编码层获取对应的第一编码 特征向量和第二编码特征向量; 通过解码层解码 第一编码特征向量和第二编码特征向量并生成 图文摘要; 通过预设的损失函数对待训练多模态 模型进行训练, 直至待训练多模态模 型中的参数 收敛, 得到多模态模型。 本申请通过训练多模态 模型, 使得多模态模型具备生 成图文结合的图文 摘要性能, 进 而得到图文摘要。 权利要求书2页 说明书11页 附图6页 CN 115410212 A 2022.11.29 CN 115410212 A 1.一种多模态模型的训练方法, 其特 征在于, 所述方法包括: 获取第一特 征向量, 所述第一特 征向量为图片特 征向量; 获取第二特 征向量, 所述第二特 征向量为文本特 征向量; 将所述第一特征向量和所述第 二特征向量输入待训练多模态模型, 所述待训练多模态 模型包括编码层和解码层; 通过所述编码层获取对应的第一编码特 征向量和第二编码特 征向量; 将所述第一编码特征向量和所述第 二编码特征向量输出至所述解码层, 通过所述解码 层解码所述第一编码特 征向量和所述第二编码特 征向量并生成图文摘要; 通过预设的损失函数对所述待训练多模态模型进行训练, 直至所述待训练多模态模型 中的参数收敛, 得到多模态模型。 2.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述获取第一特征向 量, 所述第一特 征向量为图片特 征向量, 包括: 读取图片训练集中的图片; 切分所述图片, 获取多张子图片; 对每一张所述子图片进行位置编码, 得到图片位置编码向量; 将多张所述子图片输入 全连接神经网络, 获取图片子特 征向量; 依据所述图片位置编码向量和所述图片子特 征向量生成图片特 征向量。 3.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述获取第二特征向 量, 所述第二特 征向量为文本特 征向量, 包括: 读取文本训练集中的文本信息; 拆分所述文本信息, 得到多个文字分词; 对每一个所述文字分词进行位置编码, 得到文字位置编码向量; 将多个所述文字分词输入 全连接神经网络, 获取文本 子特征向量; 依据所述文字位置编码向量和所述文本 子特征向量生成文本特 征向量。 4.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述通过所述编码层获 取对应的第一编码特 征向量和第二编码特 征向量, 包括: 在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进 行分析, 得到第一分析 数据和第二分析 数据; 基于所述第一特 征向量结合所述第一分析 数据生成第一编码特 征向量; 基于所述第二特 征向量结合所述第二分析 数据生成第二编码特 征向量。 5.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述损失函数为 ; 其中, 表示图片损失函数; 表示文本损失函数。 6.根据权利要求5所述的多模态模型的训练方法, 其特征在于, 所述通过预设的损失函 数对所述待训练多模态模型进行训练, 直至所述待训练多模态模型中的参数收敛, 得到多 模态模型, 包括:权 利 要 求 书 1/2 页 2 CN 115410212 A 2通过所述图片损失函数计算预测图片与标注图片之间的第一损失值; 通过所述文本损失函数计算预测文本与标注文本之间的第二损失值; 将所述第一损失值和所述第二损失值相加, 得到损失值; 判断所述损失值是否小于预设损失阈值; 若所述损 失值小于所述预设损 失阈值, 则判定所述待训练多模态模型完成训练, 得到 多模态模型。 7.根据权利要求6所述的多模态模型的训练方法, 其特征在于, 所述通过预设的损失函 数对所述待训练多模态模型进行训练, 直至所述待训练多模态模型中的参数收敛, 得到多 模态模型之后, 还 包括: 获取待处 理文本及待处 理图片; 将所述待处 理文本和所述待处 理图片输入所述多模态模型; 基于所述多模态模型对所述待处理文本和所述待处理图片进行处理, 得到图文结合的 摘要文本。 8.一种多模态模型的训练装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取第一特 征向量, 所述第一特 征向量为图片特 征向量; 第二获取模块, 用于获取第二特 征向量, 所述第二特 征向量为文本特 征向量; 输入模块, 用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型, 所 述待训练多模态模型包括编码层和解码层; 编码模块, 用于通过 所述编码层获取对应的第一编码特 征向量和第二编码特 征向量; 解码模块, 用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码 层, 通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘 要; 训练模型, 用于通过预设的损 失函数对所述待训练多模态模型进行训练, 直至所述待 训练多模态模型中的参数收敛, 得到多模态模型。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求 1至7中任一项 所述的多模态模型的训 练方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的多模态模型的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 115410212 A 3
专利 多模态模型的训练方法、装置、计算机设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:23:59
上传分享
举报
下载
原文档
(661.3 KB)
分享
友情链接
GB-T 1173-2013 铸造铝合金.pdf
华泰 信创 研究框架.pdf
IBM 2022 年数据泄露成本报告.pdf
DB31-T 1341-2021 商务办公建筑格力用能指南 上海市.pdf
GB-T 38667-2020 信息技术 大数据 数据分类指南.pdf
GB/Z 24294.2-2017 信息安全技术 基于互联网电子政务信息安全实施指南 第2部分:接入控制与安全交换.pdf
DB3401-T 272—2022 城区菜市场建设与管理规范 合肥市.pdf
GB-T 38540-2020 信息安全技术 安全电子签章密码技术规范.pdf
GM-T 0021-2023 动态口令密码应用技术规范.pdf
GB-T 28788-2012 公路地理信息数据采集与质量控制.pdf
奇安信2023年第二版-电子数据司法鉴定典型案例集.pdf
GB-T 20032-2005 项目风险管理 应用指南.pdf
信通院 数据中心智能化运维发展研究报告 2023年.pdf
GB-T 25069-2022 信息安全技术 术语.pdf
DB3202-T 1052-2023 特种设备作业人员设置指南 无锡市.pdf
DB15-T 1394-2018 软件工程项目价格测算规范 内蒙古自治区.pdf
GB-T 14986.4-2018 软磁合金 第4部分:铁铬合金.pdf
CSA 实现安全应用容器架构的最佳实践.pdf
T-CRETA 0001—2023 白云鄂博矿选冶固废制备绿色建材放射性限量.pdf
GB 9706.204-2022 医用电气设备 第2-4部分:心脏除颤器的基本安全和基本性能专用要求.pdf
1
/
20
评价文档
赞助2.5元 点击下载(661.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。