国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211342407.3 (22)申请日 2022.10.31 (65)同一申请的已公布的文献号 申请公布号 CN 115392444 A (43)申请公布日 2022.11.25 (73)专利权人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 张驭龙 冯旸赫 朱松岩 刘忠 黄金才 黄魁华 李敏 张龙飞 刘瑶 阳方杰 (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 彭小兰(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) G05B 13/04(2006.01) 审查员 王敏 (54)发明名称 基于强化学习的无人机知识模型组合的参 数寻优方法 (57)摘要 本申请涉及一种基于强化学习的无人机知 识模型组合的参数寻优方法。 所述方法包括: 利 用组合动作损失函数对预先构建的组合动作神 经网络进行训练, 得到训练好的组合动作评价网 络; 根据原子动作损失函数对预先构建的原子动 作神经网络进行训练, 得到初始原子动作评价网 络; 根据预先设置的训练约束条件、 训练好的组 合动作网络的输出和初始原子动作评价网络的 输出对初始原子动作评价网络进行训练, 根据每 个原子动作的评价值对预先构建的参数优化网 络进行训练, 利用训练好的参数优化网络对待优 化的无人机知识模型组合的参数进行优化。 采用 本方法能够提高无 人机知识模型组合 准确率。 权利要求书3页 说明书10页 附图3页 CN 115392444 B 2022.12.30 CN 115392444 B 1.一种基于强化学习的无人机知识模型组合的参数寻优方法, 其特征在于, 所述方法 包括: 获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本; 所述无人 机知识模型组合对应的超参数作为组合动作; 所述无人机知识模型组合中的无人机知识模 型对应的超参数作为原子动作; 对所述组合动作进行 结构化分解, 得到多个一维原子动作; 利用无人机知识模型组合在预先设置的周期内对目标区域执行任务, 得到当前时刻无 人机知识模型组合的环境及时反馈值; 根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失 函数, 利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练, 得到训练好 的组合动作评价网络; 利用多个原子动作对应的动作评价值的差值构建原子动作损失函数, 根据所述原子动 作损失函数对预 先构建的原子动作神经网络进行训练, 得到初始 原子动作评价网络; 根据预先设置的训练约束条件、 训练好的组合动作网络的输出和初始原子动作评价网 络的输出对所述初始 原子动作评价网络进行训练, 得到训练好的原子动作评价网络; 利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价, 得到每个原 子动作的评价 值; 根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练, 得到训练好的 参数优化网络; 利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优 化。 2.根据权利要求1所述的方法, 其特征在于, 所述组合动作损失函数包括当前时刻组合 动作损失函数和历史时刻组合动作损失函数; 所述历史时刻无人机知识模 型的参数样本中 包含当前时刻之前 的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的 评价值; 根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损 失函数, 利用所述组合动作损失函数对预先构建的组合动作网络进行训练, 得到训练好的 组合动作网络, 包括: 根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的 组合动作的评价 值构建当前时刻组合动作损失函数; 所述评价 值包含目标值和估计值; 根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合 动作损失函数。 3.根据权利要求2所述的方法, 其特征在于, 根据 所述环境及时反馈值和历史时刻无人 机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失 函数, 包括: 根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的 组合动作的评价 值构建当前时刻组合动作损失函数为 权 利 要 求 书 1/3 页 2 CN 115392444 B 2其中, 表示基于贝尔曼公式评价值的误差期望值, 表示环境及时反馈 值, 表示损失因子, 表示在t+1时刻无人机知识模型组合处 于态势信息 时的对应的组合动作的目标值, 表示对态势信息 的编码, 表示时序 状态编码 下的策略, 即所述时序 状态编码下采取相关动作的 相应概率值, 表示在t时刻无人机知识模型组合处于态势信息 时的对应的 组合动作 的估计值。 4.根据权利要求3所述的方法, 其特征在于, 根据 所述环境及时反馈值和历史时刻无人 机知识模型的参数样本构建历史时刻组合动作损失函数, 包括: 根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合 动作损失函数为 其中,m表示参数样本的数量, 表示在样本 j+1中无人机知 识模型 组合处于态势信息 时的对应的组合动作 的目标值, 表示在样本 j 中无人机知识模型组合处于态 势信息 时的对应的组合动作 的估计值。 5.根据权利要求4所述的方法, 其特征在于, 利用多个原子动作对应的动作评价值的差 值构建原子动作损失函数, 包括: 利用多个原子动作对应的动作评价 值的差值构建原子动作损失函数为 其中, 表示前一个原子动作Q值与其后原子动作差值和的期 望值, Q值表示状态 u下采用动作a的评价值, N表示原子动作个数, 表示原子动作的序号, 表示第k个原子 动作的状态值, 表示第k个原子动作, 表示第k个原子动作的Q 值。 6.根据权利要求5所述的方法, 其特征在于, 所述预先设置的训练约束条件为 , 其中, 表示在t时刻处于态势信息 时的对 应的组合动作 的评价值, 表示处于态势信息 时的第N‑1个原子动作 的状态值对应的原子动作 的评价值。 7.根据权利要求6所述的方法, 其特征在于, 根据预先设置的训练约束条件、 训练好的权 利 要 求 书 2/3 页 3 CN 115392444 B 3
专利 基于强化学习的无人机知识模型组合的参数寻优方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:03
上传分享
举报
下载
原文档
(897.7 KB)
分享
友情链接
T-GCHA 1.2—2018 定制家居产品 人造板定制衣柜 第2部分:原材料验收规范.pdf
GB-T 24421.3-2023 服务业组织标准化工作指南 第3部分:标准编制.pdf
GB-T 42755-2023 人工智能 面向机器学习的数据标注规程.pdf
SC-T 8012-2011 渔业船舶无线电通信、航行及信号设备配备要求.pdf
GM-T 0111-2021 区块链密码应用技术要求.pdf
GB-T 17903.2-2021 信息技术 安全技术 抗抵赖 第2部分:采用对称技术的机制.pdf
GB-T 30582-2014 基于风险的埋地钢质管道外损伤检验与评价.pdf
等保二级-安全技术-数据安全.doc
GB-T 42706.1-2023 电子元器件 半导体器件长期贮存 第1部分:总则.pdf
T-GDTL 002—2018 建筑地坪涂装工程施工及验收规程.pdf
GB-T 9711-2023 石油天然气工业 管线输送系统用钢管.pdf
YD-T 4245-2023 电信网和互联网数据脱敏技术要求与测试方法.pdf
T-CEC 729—2022 户用光伏发电系统运行规程.pdf
DB37-T 4614.1—2023 “爱山东”政务服务平台移动端 第1部分:总体架构 山东省.pdf
GB-T 38619-2020 工业物联网 数据采集结构化描述规范.pdf
tc260 人工智能安全标准化白皮书 2019.pdf
专利 黑产设备的确定方法、装置及服务器.PDF
GB-T 25057-2010 信息安全技术 公钥基础设施 电子签名卡应用接口基本要求.pdf
GB-T 20984-2007 信息安全技术 信息安全风险评估规范.pdf
T-NIFA 27—2023 移动金融客户端应用软件无障碍设计指南.pdf
1
/
17
评价文档
赞助2.5元 点击下载(897.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。