专利训练数据筛选方法、装置及计算机可读存储介质 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211409768.5 (22)申请日 2022.11.11 (71)申请人北京阿丘科技有限公司地址 100089 北京市海淀区上地东路1号院 1号楼6层6 01A-02号 (72)发明人黄耀　孟超超　 (74)专利代理机构深圳市恒程创新知识产权代理有限公司 4 4542 专利代理师鄢紫君 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/778(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称训练数据筛选方法、装置及计算机可读存储介质 (57)摘要本发明公开了一种训练数据筛选方法、装置及计算机可读存储介质，其中，所述方法包括：将已标注训练数据和未标注训练数据输入深度主动学习模型；基于所述深度主动学习模型的卷积神经网络，确定所述已标注训练数据的第一全连接层值和所述未标注训练数据的第二全连接层值；根据所述第一全连接层值和所述第二全连接层值确定每个所述已标注训练数据与每个所述未标注训练数据之间的欧式距离；根据所述欧式距离从所述未标注训练数据中确定目标训练数据。本发明旨在提高筛选出的训练数据的代表性，以降低训练成本，提高训练模型的效率。权利要求书2页说明书12页附图3页 CN 115482441 A 2022.12.16 CN 115482441 A 1.一种训练数据筛选方法，其特征在于，所述方法包括：将已标注训练数据和未标注训练数据输入深度主动学习模型；基于所述深度主动学习模型的卷积神经网络，确定所述已标注训练数据的第一全连接层值和所述未标注训练数据的第二全连接层值；根据所述第一全连接层值和所述第二全连接层值确定每个所述已标注训练数据与每个所述未标注训练数据之间的欧式距离；根据所述欧式距离从所述未标注训练数据中确定目标训练数据。 2.如权利要求1所述的训练数据筛选方法，其特征在于，所述根据所述欧式距离从所述未标注训练数据中确定目标训练数据的步骤包括：确定每个所述未标注训练数据对应的最小欧式距离为目标欧式距离；将所述目标欧式距离进行降序排列；确定前预设数量的目标欧式距离对应的未标注训练数据为所述目标训练数据。 3.如权利要求1所述的训练数据筛选方法，其特征在于，所述将已标注训练数据和未标注训练数据输入深度主动学习模型的步骤之后，还包括：根据所述已标注训练数据训练所述深度主动学习模型；所述根据所述卷积神经网络确定所述已标注训练数据的第一全连接层值和所述未标注训练数据的第二全连接层值的步骤包括：基于训练后的所述深度主动学习模型的卷积神经网络确定所述第一全连接层值和所述第二全连接层值。 4.如权利要求1所述的训练数据筛选方法，其特征在于，所述将已标注训练数据和未标注训练数据输入深度主动学习模型的步骤之前，还包括：将主动选择模块封装为功能函数；将所述功能函数连接到所述卷积神经网络的分类模块之后，以组成所述深度主动学习模型。 5.如权利要求1所述的训练数据筛选方法，其特征在于，所述根据所述欧式距离从所述未标注训练数据中确定目标训练数据的步骤之后，还包括：获取进行标注后的所述目标训练数据；根据标注后的所述目标训练数据更新所述已标注训练数据；根据更新后的已标注训练数据训练所述深度主动学习模型。 6.如权利要求5所述的训练数据筛选方法，其特征在于，所述根据更新后的已标注训练数据训练所述深度主动学习模型的步骤之后，还包括：获取已标注测试数据；将所述已标注测试数据输入所述深度主动学习模型，确定预测准确的正类测试数据数量和负类测试数据数量；根据所述正类测试数据数量和所述负类测试数据数量确定所述深度主动学习模型的准确率指标；当所述准确率指标小于或等于预设阈值，重新执行所述将已标注训练数据和未标注训练数据输入深度主动学习模型的步骤。 7.如权利要求6所述的训练数据筛选方法，其特征在于，所述根据所述正类测试数据数权　利　要　求　书 1/2 页 2 CN 115482441 A 2量和所述负类测试数据数量确定所述深度主动学习模型的准确率指标的步骤之后，还包括：获取历史训练轮次中所述深度主动学习模型的历史准确率指标；根据所述历史准确率指标确定所述预设阈值。 8.如权利要求5所述的训练数据筛选方法，其特征在于，所述根据更新后的已标注训练数据训练所述深度主动学习模型的步骤之后，还包括：确定剩余未标记训练数据数量；当所述数量大于或等于预设阈值，重新执行所述将已标注训练数据和未标注训练数据输入深度主动学习模型的步骤；当所述数量小于预设阈值，终止训练，输出训练数据不足的提示信息。 9.一种训练数据筛选装置，其特征在于，所述训练数据筛选装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练数据筛选程序，所述训练数据筛选程序被所述处理器执行时实现如权利要求1至8中任一项所述的训练数据筛选方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有训练数据筛选程序，所述训练数据筛选程序被处理器执行时实现如权利要求 1至8中任一项所述的训练数据筛选方法的步骤。权　利　要　求　书 2/2 页 3 CN 115482441 A 3

专利 训练数据筛选方法、装置及计算机可读存储介质

专利训练数据筛选方法、装置及计算机可读存储介质