(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211471064.0
(22)申请日 2022.11.23
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 王剑 陈炯峄 黄恺杰 苏云飞
胡鸿略 李瑞林 冯超
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 乔图
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 16/35(2019.01)G06F 21/56(2013.01)
(54)发明名称
一种样本筛选方法、 装置、 设备及计算机可
读存储介质
(57)摘要
本发明公开了一种样本筛选方法、 装置、 设
备及计算机可读存储介质, 应用于网络安全领
域, 包括: 获取待筛选样本对应的待筛选恶意代
码特征; 计算待筛选恶意代码特征对应的待筛选
特征向量; 调用恶意代码检测基础模 型计算待筛
选特征向量对应的置信度和伪标签; 计算待筛选
特征向量对应的汉明距离值; 调用收益风险评估
模型计算待筛选特征向量对应的收益风险评估
值; 收益风险评估模型中包括置信度参数和汉明
距离值参数; 根据收益风险评估值对待筛选特征
向量进行筛选, 得到带伪标签的目标样本。 本发
明通过收益风险模型从收益与风险角度进行样
本筛选, 通过恶意代码检测基础模 型对样本伪标
签进行标注, 提高了样本的筛选速度, 减少伪标
签标记错 误情况的发生。
权利要求书2页 说明书12页 附图3页
CN 115511015 A
2022.12.23
CN 115511015 A
1.一种样本 筛选方法, 其特 征在于, 包括:
获取待筛 选样本对应的待筛 选恶意代码特 征;
计算所述待筛 选恶意代码特 征对应的待筛 选特征向量;
调用恶意代码检测基础模型, 计算所述待筛选特征向量对应的置信度和伪标签; 其中,
所述恶意代码检测基础模型由贝叶斯深度学习模型训练而得;
计算所述待筛 选特征向量对应的汉明距离值;
调用收益风险评估模型, 计算所述待筛选特征向量对应的收益风险评估值; 其中, 所述
收益风险评估 模型中包括置信度参数和汉明距离值 参数;
根据所述收益风险评估值对所述待筛选特征向量进行筛选, 得到带伪标签的目标样
本。
2.根据权利要求1所述的样本筛选方法, 其特征在于, 在所述调用恶意代码检测基础模
型之前, 还 包括:
获取基础模型训练集;
计算所述基础模型训练集对应的训练特 征向量集;
利用所述贝叶斯深度学习模型对所述训练特 征向量集进行训练,
得到所述恶意代码检测基础模型。
3.根据权利要求1所述的样本筛选方法, 其特征在于, 所述根据 所述收益风险评估值对
所述待筛 选特征向量进行筛 选, 得到带伪标签的目标样本之后, 还 包括:
将所述带伪标签的目标样本发送给所述恶意代码检测基础模型, 以训练所述恶意代码
检测基础模型。
4.根据权利要求1至3任一项所述的样本筛选方法, 其特征在于, 在所述调用收益风险
评估模型之前, 还 包括:
获取待 训练收 益风险 评估模型 ; 其中 , 所述待 训练收 益风险 评估模型为
; 其中,
表示置信度,
表示汉明距离值,
、
和
为初始化 值;
获取收益风险模型训练集, 并根据 所述收益风险模型训练集和所述待训练收益风险评
估模型对
进行训练, 得到所述
、
和
对应的
和
, 确定所述
收益风险评估模型为
; 其中,
为差异函数, 所述差
异函数
, g(x,y)为恶意代码检测基础模型的损失函数。
5.根据权利要求 4所述的样本 筛选方法, 其特 征在于, 所述
的计算方式, 包括:
根据所述恶意代码检测基础模型计算所述
; 其中 , 所述
的计算公式为
, c表示类别,
表示根据所
述恶意代码检测基础模型第t次计算得到的预测结果,权 利 要 求 书 1/2 页
2
CN 115511015 A
2, 其中,y表示 为该次预测的类别。
6.根据权利要求4所述的样本筛选方法, 其特征在于, 所述根据 所述收益风险模型训练
集和所述待训练收益 风险评估 模型对
进行训练, 包括:
根据所述收益风险模型训练集和所述待训练收益风险评估模型, 使用梯度下降算法对
所述
进行训练, 得到所述收益 风险评估 模型。
7.根据权利要求1所述的样本筛选方法, 其特征在于, 所述获取待筛选样本对应的待筛
选恶意代码特 征, 包括:
按预设时间周期获取 所述待筛 选样本对应的待筛 选恶意代码特 征集。
8.一种样本 筛选装置, 其特 征在于, 包括:
待筛选恶意代码特 征获取模块, 用于获取待筛 选样本对应的待筛 选恶意代码特 征;
待筛选特征向量计算模块, 用于计算所述待筛选恶意代码特征对应的待筛选特征向
量;
置信度和伪标签计算模块, 用于调用恶意代码检测基础模型, 计算所述待筛选特征向
量对应的置信度和伪标签; 其中, 所述恶意代码检测基础模型由贝叶斯深度学习模型训练
而得;
汉明距离值计算模块, 用于计算所述待筛 选特征向量对应的汉明距离值;
收益风险评估值计算模块, 用于调用收益风险评估模型计算所述待筛选特征向量对应
的收益风险评估值; 其中, 所述收益 风险评估 模型中包括置信度参数和汉明距离值 参数;
样本筛选模块, 用于根据所述收益风险评估值对所述待筛选特征向量进行筛选, 得到
带伪标签的目标样本 。
9.一种样本 筛选设备, 其特 征在于, 包括:
存储器, 用于存 储计算机程序;
处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的样本筛选方法
的步骤。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机
程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的样本筛选方法的
步骤。权 利 要 求 书 2/2 页
3
CN 115511015 A
3
专利 一种样本筛选方法、装置、设备及计算机可读存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:45上传分享