(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211398653.0 (22)申请日 2022.11.09 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 李湛 李熙伦 郑晓龙 于兴虎  高会军  (74)专利代理 机构 哈尔滨华夏松花江知识产权 代理有限公司 23213 专利代理师 岳昕 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度强化学习的多智能体攻防决策方 法 (57)摘要 基于深度强化学习的多智能体攻防决策方 法, 涉及人工智能、 机器学习领域。 本发明解决了 多智能体深度确定性策略梯度方法, 无法应用于 智能体可坠毁的场景下的问题。 本发 明该攻防决 策方法包括如下过程: S1、 根据场景构建攻防环 境; S2、 将N个智能体与攻防环境进行交互, 交互 过程中每个智能体最大化自身奖励, 构建适用于 深度神经网络的数据集知识库; 所述数据集知识 库内所有样本的数据维度相同; S3、 从数据集知 识库中随机抽取一批样本, 利用同批样本同时对 每个智能体的深度神经网络进行训练, 获得训练 后的智能体; S4、 在当前攻防环境和预设攻防轮 次下, 使训练后的各智 能体进行攻防决策。 主要 用于复杂场景 下的多对多智能体的攻防决策。 权利要求书2页 说明书7页 附图3页 CN 115544898 A 2022.12.30 CN 115544898 A 1.基于深度强化学习的多智能体攻防决策方法, 该攻防决策方法基于同一场景下的N 个智能体和目标地标实现; 智能体为飞行器, 且每个智能体内嵌入深度神经网络, N为大于 或等于5的整数; 其特 征在于, 该攻防决策 方法包括如下 过程: S1、 根据场景构建攻防环境; 攻防环境中N个智能体被划分为两组, 分别为进攻方和防守方, 且进攻方内各智能体独 立进攻, 防守方 所对应的所有智能体协同合作; S2、 将N个智能体与攻防环境进行交互, 交互过程中每个智能体最大化自身奖励, 构建 适用于深度神经网络的数据集知识库; 所述数据集知识库内所有样本的数据维度相同, 且每个样本 中的数据为由同一采样轮 次下的N个智能体的当前状态、 动作、 奖励和新状态构成; 所述智能体的动作包括由水平面 内的x轴方向和y轴方向的期望加速度构成的合成期望加速度; S3、 从数据集知识库中随机抽取一批样本, 利用同批样本同时对每个智能体的深度神 经网络进行训练, 获得训练后的智能体; 其中, 每个样本中的当前状态、 奖励和新状态作为 深度神经网络的输入, 每 个样本中的动作 作为深度神经网络的输出; S4、 在当前攻防环境和预设攻防轮次下, 使训练后的各智能体进行攻防决策。 2.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法, 其特征在于, S2、 构建适用于深度神经网络的数据集知识库的实现方式包括: S21、 设置数据集知识库内的样本数量 为M; 每个采样批次下包括多次采样; S22、 在第P个采样批次下, 进行第l次采样, 使攻防环境 中N个智能体中每个智能体根据 自身观测空间、 当前状态和剩余N ‑1智能体的动作, 并生成相应动作与攻防环境进行交互, 获得相应的奖励、 新状态; P的初始值 为1, 且每 个采样批次下, l的初始值 为1; S23、 判断第P个采样批次下的第l次采样, 是否出现智能体坠毁, 结果为是, 执行步骤 S24; 结果 为否, 执行步骤S25; S24、 将第P个采样批次下第l次采样获得的所有数据删除, 令P=P+1, 再对第P个采样批 次下的所有智能体的当前状态重新初始化, 执 行步骤S2 2; S25、 将第P个采样批次下第l次采样获得的攻防环境中所有智能体的当前状态、 动作、 奖励和新状态, 作为当前第P个采样批次下的一个样本存 入数据集知识库, 执 行步骤S26; S26、 判断数据集知识库内的样本数量是否达到M, 结果为否, 执行步骤S27, 结果为是, 执行步骤S28; S27、 当当前第P个采样批次下样本数量达到45或进攻方内的智能体撞击目标地标时, 令P=P+1, 执 行步骤S2 2; 否则, 令l =l+1, 执行步骤S2 2; S28、 结束, 完成数据集知识库的构建。 3.根据权利要求1所述的基于深度强化学习的多智能体攻防决策 方法, 其特 征在于, 防守方的智能体的目标为: 阻止进攻方的智能体撞击目标地标、 合作拦截进攻方的智 能体、 以及同时避免与进攻方的智能体撞击; 进攻方的智能体的目标为: 撞击目标地标、 同时躲避防守方的智能体的拦截。 4.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法, 其特征在于, S2 中、 交互过程中每 个智能体最大化自身奖励的实现方式包括: (一)当当前智能体为进攻方的智能体时, 该当前智能体的奖励函数ri为:权 利 要 求 书 1/2 页 2 CN 115544898 A 2ri=ridis+ricol; 其中, ridis为进攻方的第i个智能体的距离奖励, ricol为进攻方的第i个智能体的撞击奖 励, d(i,goal)为进攻方的第i个智能体与目标地标的距离, d(i,goodj)为进攻方的第i个智 能体与防守方的第j个智能体的距离; (二)当当前智能体为防守方的智能体时, 该当前智能体的奖励函数ri为: ri=riadv+rigood; 其中, riadv为防守方的第i个智能体 的第一距离奖励, rigood为防守方的第i个智能体 的 第二距离奖励, d(goal,advj)为进攻方的第j个智能体与目标地 标的距离; d(i,advj)为防守 方的第i个智能体与进攻方的第j个智能体的距离 。 5.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法, 其特征在于, S4、 在当前攻防环境和预设攻防轮次下, 使训练后的各智能体进行攻防决策 的实现方式包 括: 在每个攻防轮次下, 使训练后的各智能体根据自身观测空间做出相应的动作。 6.一种计算机可读的存储设备, 所述存储设备存储有计算机程序, 其特征在于, 所述计 算机程序被执行时实现如权利要求1至5任一所述基于深度强化学习的多智能体攻防决策 方法。 7.一种基于深度强化学习的多智能体攻防决策装置, 包括存储设备、 处理器以及存储 在所述存储设备中并可在所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行 所述计算机程序实现如权利要求1至5任一所述基于深度强化学习的多智能体攻防决策方 法。权 利 要 求 书 2/2 页 3 CN 115544898 A 3

PDF文档 专利 基于深度强化学习的多智能体攻防决策方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的多智能体攻防决策方法 第 1 页 专利 基于深度强化学习的多智能体攻防决策方法 第 2 页 专利 基于深度强化学习的多智能体攻防决策方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。