国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211307085.9 (22)申请日 2022.10.24 (71)申请人 上海人工智能创新中心 地址 200232 上海市徐汇区云锦路701号 37、 38层 (72)发明人 李学龙 白辰甲 王震 (74)专利代理 机构 上海智晟知识产权代理事务 所(特殊普通 合伙) 31313 专利代理师 李镝的 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (54)发明名称 基于不确定性估计的多任务离线数据共享 方法及系统 (57)摘要 本发明总的来说涉及强化学习技术领域, 提 出一种基于不确定性估计的多任务离线数据共 享方法及系统。 该方法包括: 提供多任务离线数 据集, 所述多任务离线数据集包括多个任务; 利 用所述多任务离线数据集进行数据共享 以生成 混合数据集; 根据所述混合数据集进行离线策略 学习, 其中包括: 根据所述混合数据集对多个值 函数网络进行训练并且生 成多个预测结果; 使用 所述多个预测结果的标准差进行不确定性计算; 以及基于所述不确定性计算的结果进行策略学 习。 本发明大大提升了数据共享的效率、 创造性 地使用近似贝叶斯后验来衡量数据的不确定性 符合离线强化学习的应用场景并且可以用于大 规模的机 器人任务。 权利要求书2页 说明书8页 附图3页 CN 115545188 A 2022.12.30 CN 115545188 A 1.一种基于不确定性估计的多任务离线数据共享方法, 其特 征在于, 包括下列步骤: 提供多任务离线数据集, 所述多任务离线数据集包括多个任务; 利用所述多任务离线数据集进行 数据共享以生成混合数据集; 以及 根据所述混合数据集进行离线策略学习, 包括: 根据所述混合数据集对多个值 函数网络进行训练并且生成多个预测结果; 使用所述多个预测结果的标准差进行不确定性计算; 以及 基于所述 不确定性计算的结果进行 策略学习。 2.根据权利要求1所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 利用所述多任务离线数据集进行 数据共享以生成混合数据集包括下列步骤: 在所述多个任务中选择主任务以及共享任务, 其中在学习所述主任务 时从所述共享任 务中共享数据; 对所述共享任务中数据进行奖励重标记, 其中将所述共享任务中样本的奖励根据 所述 主任务的奖励函数进行重新计算; 以及 将所述共享任务与所述主任务混合以生成混合数据集。 3.根据权利要求2所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 所述多个值函数网络包括相同的网络结构以及各不相同的初始 化参数, 其中对所述多个值 函数网络使用随机梯度法进行训练以估计值 函数的贝叶斯后验分布。 4.根据权利要求3所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 将值函数通过演说 ‑评论家模型进行学习, 并且通过贝尔曼算子进 行迭代, 其中包括下列步 骤: 将所述混合数据集中存储的的经验表示为状态转移元组(s, a, r, s ′)的集合, 其中s表 示状态、 a表示动作、 r 表示奖励以及s ′表示下一时刻状态; 根据贝尔曼算子设置值 函数Q(s, a)的学习目标y, 表示 为下式: y=r+γmaxa′Q(s′, a′), 其中, r表示单步环境奖励、 γ表示奖励随时间变化的折扣因子、 a ′表示下一时刻的贪 心动作; 将贝尔曼损失L表示 为下式: L =(Q(s, a) ‑y)2; 以及 通过最小化损所述贝尔曼损失L以进行值 函数的训练。 5.根据权利要求4所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 使用所述多个预测结果的标准差对状态动作(s, a)的不确定性Γ(s, a)进行计算, 表 示为下 式: Γ(s, a)=Std(Qi(s, a)), 其中i∈[1, K]、 K表示 值函数网络的数量。 6.根据权利要求5所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 基于所述 不确定性计算的结果进行 策略学习包括: 在值函数学习中使用不确定性计算的结果作为 惩罚重新设置学习目标y, 表示 为下式: y=r+γmaxa′Q(s′, a′)‑Γ(s′, a′); 以及 根据惩罚后的学习目标进行策略学习, 其中通过优化min Qi来进行策略输出, i∈[1, K]。权 利 要 求 书 1/2 页 2 CN 115545188 A 27.一种基于不确定性估计的多任务离线数据共享系统, 其特 征在于, 该系统包括: 数据共享模块, 其被 配置为执 行下列动作: 提供多任务离线数据集, 所述多任务离线数据集包括多个任务; 以及 利用所述多任务离线数据集进行 数据共享以生成混合数据集; 以及 策略学习模块, 其被 配置为根据所述混合数据集进行离线策略学习。 8.根据权利要求7所述的基于不确定性估计的多任务离线数据共享系统, 其特征在于, 所述策略学习模块包括: 值函数学习模块, 其被配置为根据 所述混合数据集对多个值函数网络进行训练并且生 成多个预测结果; 不确定性度量模块, 其被配置为使用所述多个预测结果的标准差进行不确定性计算; 以及 策略学习模块, 其被 配置为基于所述 不确定性计算的结果进行 策略学习。 9.一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序在被处理器执 行时执行根据权利要求1 ‑6之一所述的方法的步骤。 10.一种计算机系统, 包括: 处理器, 其被 配置为执 行机器可 执行指令; 以及 存储器, 其上存储有机器可执行指令, 所述机器可执行指令在被处理器执行时执行根 据权利要求1 ‑6之一所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115545188 A 3
专利 基于不确定性估计的多任务离线数据共享方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:16
上传分享
举报
下载
原文档
(613.8 KB)
分享
友情链接
T-CEC 716—2022 火力发电厂智能热网供热服务规范.pdf
JR-T 0237—2021 金融大数据平台总体技术要求.pdf
YD T 1730-2024 电信网和互联网安全风险评估规范.pdf
GB-T 39770-2021 信息技术服务 服务安全要求.pdf
GB-T 19557.5-2017 植物品种特异性、一致性和稳定性测试指南 大白菜.pdf
T-SDL 3.1—2021 10kV智能电缆系统技术规范 第1部分 导则.pdf
GB-T 33402-2016 硅橡胶混炼胶 一般用途.pdf
SN-T 0001-2016 出口食品、化妆品理化测定方法标准编写的基本规定.pdf
T-SCGS 313002—2023 医用内窥镜 内窥镜荧光摄像系统影像质量评价规范.pdf
GB-T 14055.1-2008 中子参考辐射 第1部分:辐射特性和产生方法.pdf
GB 9706.255-2022 医用电气设备 第2-55部分:呼吸气体监护仪的基本安全和基本性能专用要求.pdf
DB11-T 344-2017 陶瓷墙地砖胶粘剂施工技术规程 北京市.pdf
GB-T 42452-2023 系统与软件工程 功能规模测量 COSMIC方法.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
GB-T 32974-2016 钢铁行业蓄热式工业炉窑热平衡测试与计算方法.pdf
GB-T 36403-2018 红外光学玻璃红外透过率测试方法 傅里叶变换法.pdf
SY-T 6643-2021 陆上多波多分量地震资料采集技术规程.pdf
TTAF 187—2023 框架型应用软件个人信息保护规范.pdf
JR-T0199-2020 金融科技创新安全通用规范.pdf
GB-T 33174-2022 资产管理 管理体系 GB-T 33173应用指南.pdf
1
/
14
评价文档
赞助2.5元 点击下载(613.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。