(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211388928.2
(22)申请日 2022.11.08
(71)申请人 税友信息技 术有限公司
地址 310053 浙江省杭州市滨江区浦沿街
道南环路3738号
(72)发明人 陈泓 刘子星 徐煌 丁乐
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 吴娟
(51)Int.Cl.
G06Q 40/00(2012.01)
G06Q 10/04(2012.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种申报数据预测方法、 装置、 设备及 介质
(57)摘要
本申请公开了一种申报数据预测方法、 装
置、 设备及介质, 涉及人工智能领域, 该方法包
括: 按照业务逻辑确定目标申报数据中的目标标
签, 并生成第一目标特征; 将目标申报数据划分
为第一训练集、 第二训练集和测试集; 基于第一
训练集中各项数据对应的目标标签和第一目标
特征, 对预设长短期记忆网络模型和第一预设
XGBregressor模型进行训练; 将第二训练集中各
项数据对应的目标标签作为标签, 并将训练后两
模型对第二训练集的预测结果作为第二目标特
征, 对第二预设XGBregressor模型进行训练; 第
二预设XGBregressor模型为训练后两模型进行
模型融合得到的模型; 利用训练后第二预设
XGBregressor模型基于测试集对申报数据进行
预测。 本发明能够将LSTM和XGBRegressor进行高
质量融合, 对申报数据进行准确预测。
权利要求书2页 说明书10页 附图6页
CN 115439206 A
2022.12.06
CN 115439206 A
1.一种申报数据预测方法, 其特 征在于, 包括:
按照业务逻辑确定目标申报数据中的目标 标签, 并生成第一目标 特征;
按照预设 分类方法将所述目标申报数据划分为第一训练集、 第二训练集以及测试集;
基于所述第 一训练集中各项数据对应的目标标签和第 一目标特征, 对预设长短期记忆
网络模型和第一预设XGBregressor模 型进行训练, 以获取训练后长 短期记忆网络模 型和训
练后第一XGBregres sor模型;
将所述第二训练集中各项数据对应的目标标签作为标签, 并将所述训练后长短期记忆
网络模型和所述训练后第一XGBregressor模型对所述第二训练集的预测结果作为第二目
标特征, 对第二预设XGBregressor模型进行训练, 以获取训练后第二预设XGBregressor模
型; 所述第二预设XGBregressor模型为利用训练后长短期记忆网络模型和训练后第一
XGBregres sor模型进行模型融合得到的模型;
利用所述训练后第二预设XGBregres sor模型基于所述测试集对申报数据进行 预测。
2.根据权利要求1所述的申报数据预测方法, 其特征在于, 所述基于所述第 一训练集中
各项数据对应的目标标签和第一目标特征, 对预设长短期记忆网络模型和第一预设
XGBregres sor模型进行训练, 包括:
将所述第一训练集中各项数据对应的目标标签输入预设长短期记忆网络模型中, 并将
所述第一训练集中各项数据对应的第一目标特征输入第一预设XGBregressor模型进行训
练。
3.根据权利要求1所述的申报数据预测方法, 其特征在于, 所述按照 业务逻辑确定目标
申报数据中的目标 标签, 并生成第一目标 特征之前, 还 包括:
收集原始申报数据, 并对所述原始申报数据中的缺失数据进行填充, 以生成填充后申
报数据;
将所述填充后申报数据进行 数据缩放, 以生成目标申报数据。
4.根据权利要求3所述的申报数据预测方法, 其特征在于, 所述对所述原始申报数据中
的缺失数据进行填充, 包括:
确定所述原 始申报数据中的缺失数据项;
确定所述缺失数据项对应的缺失时刻, 基于预先生成的时间码表, 以预设时间为跨度
确定所述 缺失时刻对应的参 考时刻;
将所述参考 时刻对应的申报数据作为所述缺失时刻对应的申报数据, 对所述缺失数据
项进行填充。
5.根据权利要求1至4任一项所述的申报数据预测方法, 其特征在于, 所述对预设长短
期记忆网络模 型和第一预设XGBregressor模 型进行训练, 以获取训练后长短期记忆网络模
型和训练后第一XGBregres sor模型, 包括:
对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练, 并利用所述第二
训练集作为验证集对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行验
证, 以确定训练后长短期记 忆网络模型和训练后第一XGBregres sor模型。
6.根据权利要求5所述的申报数据预测方法, 其特征在于, 所述利用所述第 二训练集作
为验证集对 所述预设长短期记忆网络模 型和第一预设XGBregressor模 型进行验证, 以确定
训练后长短期记 忆网络模型和训练后第一XGBregres sor模型, 包括:权 利 要 求 书 1/2 页
2
CN 115439206 A
2利用所述第二训练集作为验证集对所述预设长短期记忆网络模型和第一预设
XGBregres sor模型进行验证, 并确定平均绝对值 误差;
基于所述平均绝对值误差对所述预设长短期记忆网络模型和第一预设XGBregressor
模型进行参数调整, 以将参数调整后的所述预设长短期记忆网络模型和第一预设
XGBregres sor模型作为训练后长短期记 忆网络模型和训练后第一XGBregres sor模型。
7.根据权利要求6所述的申报数据预测方法, 其特征在于, 所述基于所述平均绝对值误
差对所述预设长短期记忆网络模 型和第一预设XGBregressor模 型进行参数调整, 以将参数
调整后的所述预设长短期记忆网络模型和第一预设XGBregressor模型作为训练后长短期
记忆网络模型和训练后第一XGBregres sor模型, 包括:
利用预设迭代次数对所述预设长短期记忆网络模型进行迭代, 并基于所述平均绝对值
误差对所述预设长短期记忆网络模 型和第一预设XGBregressor模型进 行参数调整, 以将最
优的预设长短期记 忆网络模型作为训练后长短期记 忆网络模型;
基于所述平均绝对值误差, 并利用穷举搜索的方式对所述第一预设XGBregressor模型
的学习率、 最大深度、 L1正则化参数、 L2正则化参数以及基本分类器的数量进行参数选择,
以将最优的第一XGBregres sor模型作为训练后第一XGBregres sor模型。
8.一种申报数据预测装置, 其特 征在于, 包括:
标签确定与特征生成模块, 用于按照业务逻辑确定目标申报数据中的目标标签, 并生
成第一目标 特征;
数据集划分模块, 用于按照预设分类方法将所述目标申报数据划分为第一训练集、 第
二训练集以及测试集;
第一训练模块, 用于基于所述第一训练集中各项数据对应的目标标签和第一目标特
征, 对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练, 以获取训练后长
短期记忆网络模型和训练后第一XGBregres sor模型;
第二训练模块, 用于将所述第二训练集中各项数据对应的目标标签作为标签, 并将所
述训练后长短期记忆网络模型和所述训练后第一XGBregressor模型对所述第二训练集的
预测结果作为第二目标特征, 对第二预设XGBregressor模型进行训练, 以获取训练后第二
预设XGBregressor模型; 所述第二预设XGBregressor模型为利用训练后长短期记忆网络模
型和训练后第一XGBregres sor模型进行模型融合得到的模型;
数据预测模块, 用于利用所述训练后第二预设XGBregressor模型基于所述测试集对申
报数据进行 预测。
9.一种电子设备, 其特征在于, 包括处理器和存储器; 其中, 所述处理器执行所述存储
器中保存的计算机程序时实现如权利要求1至7任一项所述的申报数据预测方法。
10.一种计算机可读存储介质, 其特征在于, 用于存储计算机程序; 其中, 所述计算机程
序被处理器执行时实现如权利要求1至7任一项所述的申报数据预测方法。权 利 要 求 书 2/2 页
3
CN 115439206 A
3
专利 一种申报数据预测方法、装置、设备及介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:52上传分享