(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211409768.5 (22)申请日 2022.11.11 (71)申请人 北京阿丘科技有限公司 地址 100089 北京市海淀区上地 东路1号院 1号楼6层6 01A-02号 (72)发明人 黄耀 孟超超  (74)专利代理 机构 深圳市恒程创新知识产权代 理有限公司 4 4542 专利代理师 鄢紫君 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/778(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 训练数据筛选方法、 装置及计算机可读存储 介质 (57)摘要 本发明公开了一种训练数据筛选方法、 装置 及计算机 可读存储介质, 其中, 所述方法包括: 将 已标注训练数据和未标注训练数据输入深度主 动学习模型; 基于所述深度主动学习模型的卷积 神经网络, 确定所述已标注训练数据的第一全 连 接层值和所述未标注训练数据的第二全连接层 值; 根据所述第一全 连接层值和所述第二全 连接 层值确定每个所述已标注训练数据与每个所述 未标注训练数据之间的欧式距离; 根据所述欧式 距离从所述未标注训练数据中确定目标训练数 据。 本发明旨在提高筛选出的训练数据的代表 性, 以降低训练成本, 提高训练模型的效率。 权利要求书2页 说明书12页 附图3页 CN 115482441 A 2022.12.16 CN 115482441 A 1.一种训练数据筛 选方法, 其特 征在于, 所述方法包括: 将已标注训练数据和未 标注训练数据输入深度主动学习模型; 基于所述深度主动学习 模型的卷积神经网络, 确定所述已标注训练数据的第 一全连接 层值和所述未 标注训练数据的第二全连接层值; 根据所述第一全连接层值和所述第二全连接层值确定每个所述已标注训练数据与每 个所述未 标注训练数据之间的欧式距离; 根据所述欧式距离从所述未 标注训练数据中确定目标训练数据。 2.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述根据 所述欧式距离从所述 未标注训练数据中确定目标训练数据的步骤 包括: 确定每个所述未 标注训练数据对应的最小欧式距离为目标欧式距离; 将所述目标欧式距离进行降序排列; 确定前预设数量的目标欧式距离对应的未 标注训练数据为所述目标训练数据。 3.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述将已标注训练数据和未标 注训练数据输入深度主动学习模型的步骤之后, 还 包括: 根据所述已标注训练数据训练所述深度主动学习模型; 所述根据所述卷积神经网络确定所述已标注训练数据的第一全连接层值和所述未标 注训练数据的第二全连接层值的步骤 包括: 基于训练后的所述深度主动学习模型的卷积神经网络确定所述第一全连接层值和所 述第二全连接层值。 4.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述将已标注训练数据和未标 注训练数据输入深度主动学习模型的步骤之前, 还 包括: 将主动选择模块封装为功能函数; 将所述功能函数连接到所述卷积神经网络的分类模块之后, 以组成所述深度主动学习 模型。 5.如权利要求1所述的训练数据筛选方法, 其特征在于, 所述根据 所述欧式距离从所述 未标注训练数据中确定目标训练数据的步骤之后, 还 包括: 获取进行 标注后的所述目标训练数据; 根据标注后的所述目标训练数据更新所述已标注训练数据; 根据更新后的已标注训练数据训练所述深度主动学习模型。 6.如权利要求5所述的训练数据筛选方法, 其特征在于, 所述根据 更新后的已标注训练 数据训练所述深度主动学习模型的步骤之后, 还 包括: 获取已标注测试 数据; 将所述已标注测试数据输入所述深度主动学习模型, 确定预测准确的正类测试数据 数 量和负类测试 数据数量; 根据所述正类测试数据数量和所述负类测试数据数量确定所述深度主动学习模型的 准确率指标; 当所述准确率指标小于或等于预设阈值, 重新执行所述将已标注训练数据和未标注训 练数据输入深度主动学习模型的步骤。 7.如权利要求6所述的训练数据筛选方法, 其特征在于, 所述根据 所述正类测试数据 数权 利 要 求 书 1/2 页 2 CN 115482441 A 2量和所述负类测试数据数量确定所述深度主动学习模型的准确率指标的步骤之后, 还包 括: 获取历史训练轮次中所述深度主动学习模型的历史准确率指标; 根据所述历史准确率指标确定所述预设阈值。 8.如权利要求5所述的训练数据筛选方法, 其特征在于, 所述根据 更新后的已标注训练 数据训练所述深度主动学习模型的步骤之后, 还 包括: 确定剩余未 标记训练数据数量; 当所述数量大于或等于预设阈值, 重新执行所述将已标注训练数据和未标注训练数据 输入深度主动学习模型的步骤; 当所述数量小于预设阈值, 终止训练, 输出训练数据不足的提 示信息。 9.一种训练数据筛选装置, 其特征在于, 所述训练数据筛选装置包括: 存储器、 处理器 及存储在所述存储器上并可在所述处理器上运行的训练数据筛选程序, 所述训练数据筛选 程序被所述处 理器执行时实现如权利要求1至8中任一项所述的训练数据筛 选方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有训练数 据筛选程序, 所述训练数据筛选程序被处理器执行时实现如权利要求 1至8中任一项 所述的 训练数据筛 选方法的步骤。权 利 要 求 书 2/2 页 3 CN 115482441 A 3

PDF文档 专利 训练数据筛选方法、装置及计算机可读存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练数据筛选方法、装置及计算机可读存储介质 第 1 页 专利 训练数据筛选方法、装置及计算机可读存储介质 第 2 页 专利 训练数据筛选方法、装置及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。