(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211471064.0 (22)申请日 2022.11.23 (71)申请人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 王剑 陈炯峄 黄恺杰 苏云飞  胡鸿略 李瑞林 冯超  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 乔图 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/35(2019.01)G06F 21/56(2013.01) (54)发明名称 一种样本筛选方法、 装置、 设备及计算机可 读存储介质 (57)摘要 本发明公开了一种样本筛选方法、 装置、 设 备及计算机可读存储介质, 应用于网络安全领 域, 包括: 获取待筛选样本对应的待筛选恶意代 码特征; 计算待筛选恶意代码特征对应的待筛选 特征向量; 调用恶意代码检测基础模 型计算待筛 选特征向量对应的置信度和伪标签; 计算待筛选 特征向量对应的汉明距离值; 调用收益风险评估 模型计算待筛选特征向量对应的收益风险评估 值; 收益风险评估模型中包括置信度参数和汉明 距离值参数; 根据收益风险评估值对待筛选特征 向量进行筛选, 得到带伪标签的目标样本。 本发 明通过收益风险模型从收益与风险角度进行样 本筛选, 通过恶意代码检测基础模 型对样本伪标 签进行标注, 提高了样本的筛选速度, 减少伪标 签标记错 误情况的发生。 权利要求书2页 说明书12页 附图3页 CN 115511015 A 2022.12.23 CN 115511015 A 1.一种样本 筛选方法, 其特 征在于, 包括: 获取待筛 选样本对应的待筛 选恶意代码特 征; 计算所述待筛 选恶意代码特 征对应的待筛 选特征向量; 调用恶意代码检测基础模型, 计算所述待筛选特征向量对应的置信度和伪标签; 其中, 所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得; 计算所述待筛 选特征向量对应的汉明距离值; 调用收益风险评估模型, 计算所述待筛选特征向量对应的收益风险评估值; 其中, 所述 收益风险评估 模型中包括置信度参数和汉明距离值 参数; 根据所述收益风险评估值对所述待筛选特征向量进行筛选, 得到带伪标签的目标样 本。 2.根据权利要求1所述的样本筛选方法, 其特征在于, 在所述调用恶意代码检测基础模 型之前, 还 包括: 获取基础模型训练集; 计算所述基础模型训练集对应的训练特 征向量集; 利用所述贝叶斯深度学习模型对所述训练特 征向量集进行训练, 得到所述恶意代码检测基础模型。 3.根据权利要求1所述的样本筛选方法, 其特征在于, 所述根据 所述收益风险评估值对 所述待筛 选特征向量进行筛 选, 得到带伪标签的目标样本之后, 还 包括: 将所述带伪标签的目标样本发送给所述恶意代码检测基础模型, 以训练所述恶意代码 检测基础模型。 4.根据权利要求1至3任一项所述的样本筛选方法, 其特征在于, 在所述调用收益风险 评估模型之前, 还 包括: 获取待 训练收 益风险 评估模型 ; 其中 , 所述待 训练收 益风险 评估模型为 ; 其中, 表示置信度, 表示汉明距离值, 、 和 为初始化 值; 获取收益风险模型训练集, 并根据 所述收益风险模型训练集和所述待训练收益风险评 估模型对 进行训练, 得到所述 、 和 对应的 和 , 确定所述 收益风险评估模型为 ; 其中, 为差异函数, 所述差 异函数 , g(x,y)为恶意代码检测基础模型的损失函数。 5.根据权利要求 4所述的样本 筛选方法, 其特 征在于, 所述 的计算方式, 包括: 根据所述恶意代码检测基础模型计算所述 ; 其中 , 所述 的计算公式为 , c表示类别, 表示根据所 述恶意代码检测基础模型第t次计算得到的预测结果,权 利 要 求 书 1/2 页 2 CN 115511015 A 2, 其中,y表示 为该次预测的类别。 6.根据权利要求4所述的样本筛选方法, 其特征在于, 所述根据 所述收益风险模型训练 集和所述待训练收益 风险评估 模型对 进行训练, 包括: 根据所述收益风险模型训练集和所述待训练收益风险评估模型, 使用梯度下降算法对 所述 进行训练, 得到所述收益 风险评估 模型。 7.根据权利要求1所述的样本筛选方法, 其特征在于, 所述获取待筛选样本对应的待筛 选恶意代码特 征, 包括: 按预设时间周期获取 所述待筛 选样本对应的待筛 选恶意代码特 征集。 8.一种样本 筛选装置, 其特 征在于, 包括: 待筛选恶意代码特 征获取模块, 用于获取待筛 选样本对应的待筛 选恶意代码特 征; 待筛选特征向量计算模块, 用于计算所述待筛选恶意代码特征对应的待筛选特征向 量; 置信度和伪标签计算模块, 用于调用恶意代码检测基础模型, 计算所述待筛选特征向 量对应的置信度和伪标签; 其中, 所述恶意代码检测基础模型由贝叶斯深度学习模型训练 而得; 汉明距离值计算模块, 用于计算所述待筛 选特征向量对应的汉明距离值; 收益风险评估值计算模块, 用于调用收益风险评估模型计算所述待筛选特征向量对应 的收益风险评估值; 其中, 所述收益 风险评估 模型中包括置信度参数和汉明距离值 参数; 样本筛选模块, 用于根据所述收益风险评估值对所述待筛选特征向量进行筛选, 得到 带伪标签的目标样本 。 9.一种样本 筛选设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的样本筛选方法 的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的样本筛选方法的 步骤。权 利 要 求 书 2/2 页 3 CN 115511015 A 3

PDF文档 专利 一种样本筛选方法、装置、设备及计算机可读存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种样本筛选方法、装置、设备及计算机可读存储介质 第 1 页 专利 一种样本筛选方法、装置、设备及计算机可读存储介质 第 2 页 专利 一种样本筛选方法、装置、设备及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。