专利基于深度强化学习的多智能体攻防决策方法 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211398653.0 (22)申请日 2022.11.09 (71)申请人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人李湛　李熙伦　郑晓龙　于兴虎　高会军　 (74)专利代理机构哈尔滨华夏松花江知识产权代理有限公司 23213 专利代理师岳昕 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度强化学习的多智能体攻防决策方法 (57)摘要基于深度强化学习的多智能体攻防决策方法，涉及人工智能、机器学习领域。本发明解决了多智能体深度确定性策略梯度方法，无法应用于智能体可坠毁的场景下的问题。本发明该攻防决策方法包括如下过程： S1、根据场景构建攻防环境； S2、将N个智能体与攻防环境进行交互，交互过程中每个智能体最大化自身奖励，构建适用于深度神经网络的数据集知识库；所述数据集知识库内所有样本的数据维度相同； S3、从数据集知识库中随机抽取一批样本，利用同批样本同时对每个智能体的深度神经网络进行训练，获得训练后的智能体； S4、在当前攻防环境和预设攻防轮次下，使训练后的各智能体进行攻防决策。主要用于复杂场景下的多对多智能体的攻防决策。权利要求书2页说明书7页附图3页 CN 115544898 A 2022.12.30 CN 115544898 A 1.基于深度强化学习的多智能体攻防决策方法，该攻防决策方法基于同一场景下的N 个智能体和目标地标实现；智能体为飞行器，且每个智能体内嵌入深度神经网络， N为大于或等于5的整数；其特征在于，该攻防决策方法包括如下过程： S1、根据场景构建攻防环境；攻防环境中N个智能体被划分为两组，分别为进攻方和防守方，且进攻方内各智能体独立进攻，防守方所对应的所有智能体协同合作； S2、将N个智能体与攻防环境进行交互，交互过程中每个智能体最大化自身奖励，构建适用于深度神经网络的数据集知识库；所述数据集知识库内所有样本的数据维度相同，且每个样本中的数据为由同一采样轮次下的N个智能体的当前状态、动作、奖励和新状态构成；所述智能体的动作包括由水平面内的x轴方向和y轴方向的期望加速度构成的合成期望加速度； S3、从数据集知识库中随机抽取一批样本，利用同批样本同时对每个智能体的深度神经网络进行训练，获得训练后的智能体；其中，每个样本中的当前状态、奖励和新状态作为深度神经网络的输入，每个样本中的动作作为深度神经网络的输出； S4、在当前攻防环境和预设攻防轮次下，使训练后的各智能体进行攻防决策。 2.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法，其特征在于， S2、构建适用于深度神经网络的数据集知识库的实现方式包括： S21、设置数据集知识库内的样本数量为M；每个采样批次下包括多次采样； S22、在第P个采样批次下，进行第l次采样，使攻防环境中N个智能体中每个智能体根据自身观测空间、当前状态和剩余N ‑1智能体的动作，并生成相应动作与攻防环境进行交互，获得相应的奖励、新状态； P的初始值为1，且每个采样批次下， l的初始值为1； S23、判断第P个采样批次下的第l次采样，是否出现智能体坠毁，结果为是，执行步骤 S24；结果为否，执行步骤S25； S24、将第P个采样批次下第l次采样获得的所有数据删除，令P＝P+1，再对第P个采样批次下的所有智能体的当前状态重新初始化，执行步骤S2 2； S25、将第P个采样批次下第l次采样获得的攻防环境中所有智能体的当前状态、动作、奖励和新状态，作为当前第P个采样批次下的一个样本存入数据集知识库，执行步骤S26； S26、判断数据集知识库内的样本数量是否达到M，结果为否，执行步骤S27，结果为是，执行步骤S28； S27、当当前第P个采样批次下样本数量达到45或进攻方内的智能体撞击目标地标时，令P＝P+1，执行步骤S2 2；否则，令l ＝l+1，执行步骤S2 2； S28、结束，完成数据集知识库的构建。 3.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法，其特征在于，防守方的智能体的目标为：阻止进攻方的智能体撞击目标地标、合作拦截进攻方的智能体、以及同时避免与进攻方的智能体撞击；进攻方的智能体的目标为：撞击目标地标、同时躲避防守方的智能体的拦截。 4.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法，其特征在于， S2 中、交互过程中每个智能体最大化自身奖励的实现方式包括： (一)当当前智能体为进攻方的智能体时，该当前智能体的奖励函数ri为：权　利　要　求　书 1/2 页 2 CN 115544898 A 2ri＝ridis+ricol；其中， ridis为进攻方的第i个智能体的距离奖励， ricol为进攻方的第i个智能体的撞击奖励， d(i,goal)为进攻方的第i个智能体与目标地标的距离， d(i,goodj)为进攻方的第i个智能体与防守方的第j个智能体的距离； (二)当当前智能体为防守方的智能体时，该当前智能体的奖励函数ri为： ri＝riadv+rigood；其中， riadv为防守方的第i个智能体的第一距离奖励， rigood为防守方的第i个智能体的第二距离奖励， d(goal,advj)为进攻方的第j个智能体与目标地标的距离； d(i,advj)为防守方的第i个智能体与进攻方的第j个智能体的距离。 5.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法，其特征在于， S4、在当前攻防环境和预设攻防轮次下，使训练后的各智能体进行攻防决策的实现方式包括：在每个攻防轮次下，使训练后的各智能体根据自身观测空间做出相应的动作。 6.一种计算机可读的存储设备，所述存储设备存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1至5任一所述基于深度强化学习的多智能体攻防决策方法。 7.一种基于深度强化学习的多智能体攻防决策装置，包括存储设备、处理器以及存储在所述存储设备中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序实现如权利要求1至5任一所述基于深度强化学习的多智能体攻防决策方法。权　利　要　求　书 2/2 页 3 CN 115544898 A 3

专利 基于深度强化学习的多智能体攻防决策方法

专利基于深度强化学习的多智能体攻防决策方法