(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211507937.9
(22)申请日 2022.11.29
(71)申请人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 王宁涛 蒋晨之 傅幸 王维强
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 陈霁 周良玉
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(54)发明名称
样本不平衡场景下的样 本增量、 模 型训练方
法及装置
(57)摘要
本说明书实施例提供了一种样本不平衡场
景下的样本增量、 模型训练方法及装置。 其中, 用
户样本集包括高风险用户样本和低风险用户样
本及其类别标签, 高风险用户样本属于小样本。
在该方法中, 从用户样本集中按照不偏向高风险
用户样本的方式确定观测用户样 本, 从用户样本
集中按照偏向高风险用户样本的方式对样本抽
样, 得到抽样用户样本; 基于风控场景中高风险
用户数量小于低风险用户数量的风险用户特点,
确定第一数量占比, 以第一数量占比为平均值确
定符合风险用户特点的第一概率 分布, 按照第一
概率分布确定属于观测用户样 本的第一因子。 这
样, 基于第一因子、 观测用户样本与抽样用户样
本及其相应的样本标签, 确定插值用户样本以及
对应的插值标签 。
权利要求书2页 说明书11页 附图3页
CN 115545124 A
2022.12.30
CN 115545124 A
1.一种样本不平衡场景下的风控模型训练方法, 用于利用用户样本集训练所述风控模
型, 所述风控模型用于识别高风险用户, 所述用户样本集包括高风险用户样本和低风险用
户样本, 并且所述高风险样本的总数量小于所述低风险用户样本的总数量; 所述方法包括:
从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本;
从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样, 得到抽样用户样
本;
基于风控场景中高风险用户数量小于低 风险用户数量的风险用户特点, 确定第 一数量
占比, 以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总
样本数量的比值得到;
以所述第一数量占比为平均值确定符合所述风险用户特点的第 一概率分布, 按照所述
第一概率分布确定属于所述观测用户样本的第一因子的取值; 其中, 所述第一因子是在所
述观测用户样本与所述抽样用户样本之间插值时使用的插值权 重;
基于所述第一因子、 所述观测用户样本与所述抽样用户样本及其相应的样本标签, 确
定插值用户样本以及对应的插值标签, 使得所述插值用户样本的样本特征基于所述第一因
子倾向于高风险用户的用户特 征, 所述插值标签 基于所述第一因子倾向于高风险标签;
利用所述插值用户样本以及对应的插值标签, 对所述 风控模型进行训练。
2.根据权利要求1所述的方法, 所述从所述用户样本集中按照不偏向高风险用户样本
的方式确定观测用户样本的步骤, 包括:
从所述用户样本集中随机确定观测用户样本; 或者, 按照既定顺序依次从所述用户样
本集中选择样本确定为观测用户样本 。
3.根据权利要求1所述的方法, 所述从所述用户样本集中按照偏向高风险用户样本的
方式对样本抽样的步骤, 包括:
从所述用户样本集中依据不同类别标签对样本均匀抽样。
4.根据权利要求1所述的方法, 所述第 一概率分布包括贝塔分布, 其中所述贝塔分布的
不同参数分别基于所述第一数量占比和第二数量占比确定; 所述第二数量占比基于所述低
风险用户样本的总数量与所述总样本数量的比值得到 。
5.根据权利要求1所述的方法, 当确定所述第一因子的取值时, 还 包括:
基于所述第一因子的取值, 确定属于所述抽样用户样本的第二因子的取值; 所述第二
因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权 重。
6.根据权利要求5所述的方法, 所述第 一因子的取值在0到1之间; 所述确定属于所述抽
样用户样本的第二因子的取值的步骤, 包括:
将1与所述第一因子的取值的差值确定为所述第二因子的取值。
7.根据权利要求5所述的方法, 所述确定插值用户样本以及对应的插值标签的步骤, 包
括:
基于所述第 一因子的取值、 所述第 二因子的取值对所述观测用户样本和所述抽 样用户
样本进行线性插值, 得到插值用户样本;
基于所述第 一因子的取值、 所述第 二因子的取值对所述观测用户样本的类别标签和所
述抽样用户样本的类别标签进行线性插值, 得到插值标签。
8.根据权利要求1所述的方法, 所述确定插值用户样本以及对应的插值标签的步骤, 包权 利 要 求 书 1/2 页
2
CN 115545124 A
2括:
利用线性插值方式, 基于所述第一因子、 所述观测用户样本与所述抽样用户样本及其
相应的样本标签, 确定插值用户样本以及对应的插值标签。
9.根据权利要求1所述的方法, 在对所述 风控模型进行训练完成后, 还 包括:
利用所述用户样本集包含的高风险用户样本和低 风险用户样本, 继续对所述风控模型
进行训练。
10.一种样本不平衡场景下的风控模型训练装置, 用于利用用户样本集训练所述风控
模型, 所述风控模型用于识别高风险用户, 所述用户样本集包括高风险用户样本和低风险
用户样本, 并且所述高风险样本的总 数量小于所述低风险用户样本的总 数量; 所述装置包
括:
样本确定模块, 配置为从所述用户样本集中按照不偏向高风险用户样本的方式确定观
测用户样本;
样本抽样模块, 配置为从所述用户样本集中按照偏向高风险用户样本的方式对样本抽
样, 得到抽样用户样本;
占比确定模块, 配置为基于风控场景中高风险用户数量小于低 风险用户数量的风险用
户特点, 确定第一数量占比, 以使得所述第一数量占比基于所述高风险用户样本的总 数量
与所述用户样本集的总样本数量的比值得到;
因子确定模块, 配置为以所述第 一数量占比为平均值确定符合所述风险用户特点的第
一概率分布, 按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值; 其中,
所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权 重;
样本插值模块, 配置为基于所述第一因子、 所述观测用户样本与所述抽样用户样本及
其相应的样本标签, 确定插值用户样本以及对应的插值标签, 使得所述插值用户样本的样
本特征基于所述第一因子倾向于高风险用户的用户特征, 所述插值标签基于所述第一因子
倾向于高风险标签;
风控训练模块, 配置为利用所述插值用户样本以及对应的插值标签, 对所述风控模型
进行训练。
11.一种计算机可读存储介质, 其上存储有计算机程序, 当所述计算机程序在计算机中
执行时, 令计算机执 行权利要求1 ‑9中任一项所述的方法。
12.一种计算设备, 包括存储器和 处理器, 所述存储器中存储有可执行代码, 所述处理
器执行所述可执行代码时, 实现权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115545124 A
3
专利 样本不平衡场景下的样本增量、模型训练方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:41上传分享