(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211398653.0
(22)申请日 2022.11.09
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 李湛 李熙伦 郑晓龙 于兴虎
高会军
(74)专利代理 机构 哈尔滨华夏松花江知识产权
代理有限公司 23213
专利代理师 岳昕
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度强化学习的多智能体攻防决策方
法
(57)摘要
基于深度强化学习的多智能体攻防决策方
法, 涉及人工智能、 机器学习领域。 本发明解决了
多智能体深度确定性策略梯度方法, 无法应用于
智能体可坠毁的场景下的问题。 本发 明该攻防决
策方法包括如下过程: S1、 根据场景构建攻防环
境; S2、 将N个智能体与攻防环境进行交互, 交互
过程中每个智能体最大化自身奖励, 构建适用于
深度神经网络的数据集知识库; 所述数据集知识
库内所有样本的数据维度相同; S3、 从数据集知
识库中随机抽取一批样本, 利用同批样本同时对
每个智能体的深度神经网络进行训练, 获得训练
后的智能体; S4、 在当前攻防环境和预设攻防轮
次下, 使训练后的各智 能体进行攻防决策。 主要
用于复杂场景 下的多对多智能体的攻防决策。
权利要求书2页 说明书7页 附图3页
CN 115544898 A
2022.12.30
CN 115544898 A
1.基于深度强化学习的多智能体攻防决策方法, 该攻防决策方法基于同一场景下的N
个智能体和目标地标实现; 智能体为飞行器, 且每个智能体内嵌入深度神经网络, N为大于
或等于5的整数; 其特 征在于, 该攻防决策 方法包括如下 过程:
S1、 根据场景构建攻防环境;
攻防环境中N个智能体被划分为两组, 分别为进攻方和防守方, 且进攻方内各智能体独
立进攻, 防守方 所对应的所有智能体协同合作;
S2、 将N个智能体与攻防环境进行交互, 交互过程中每个智能体最大化自身奖励, 构建
适用于深度神经网络的数据集知识库;
所述数据集知识库内所有样本的数据维度相同, 且每个样本 中的数据为由同一采样轮
次下的N个智能体的当前状态、 动作、 奖励和新状态构成; 所述智能体的动作包括由水平面
内的x轴方向和y轴方向的期望加速度构成的合成期望加速度;
S3、 从数据集知识库中随机抽取一批样本, 利用同批样本同时对每个智能体的深度神
经网络进行训练, 获得训练后的智能体; 其中, 每个样本中的当前状态、 奖励和新状态作为
深度神经网络的输入, 每 个样本中的动作 作为深度神经网络的输出;
S4、 在当前攻防环境和预设攻防轮次下, 使训练后的各智能体进行攻防决策。
2.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法, 其特征在于,
S2、 构建适用于深度神经网络的数据集知识库的实现方式包括:
S21、 设置数据集知识库内的样本数量 为M; 每个采样批次下包括多次采样;
S22、 在第P个采样批次下, 进行第l次采样, 使攻防环境 中N个智能体中每个智能体根据
自身观测空间、 当前状态和剩余N ‑1智能体的动作, 并生成相应动作与攻防环境进行交互,
获得相应的奖励、 新状态; P的初始值 为1, 且每 个采样批次下, l的初始值 为1;
S23、 判断第P个采样批次下的第l次采样, 是否出现智能体坠毁, 结果为是, 执行步骤
S24; 结果 为否, 执行步骤S25;
S24、 将第P个采样批次下第l次采样获得的所有数据删除, 令P=P+1, 再对第P个采样批
次下的所有智能体的当前状态重新初始化, 执 行步骤S2 2;
S25、 将第P个采样批次下第l次采样获得的攻防环境中所有智能体的当前状态、 动作、
奖励和新状态, 作为当前第P个采样批次下的一个样本存 入数据集知识库, 执 行步骤S26;
S26、 判断数据集知识库内的样本数量是否达到M, 结果为否, 执行步骤S27, 结果为是,
执行步骤S28;
S27、 当当前第P个采样批次下样本数量达到45或进攻方内的智能体撞击目标地标时,
令P=P+1, 执 行步骤S2 2; 否则, 令l =l+1, 执行步骤S2 2;
S28、 结束, 完成数据集知识库的构建。
3.根据权利要求1所述的基于深度强化学习的多智能体攻防决策 方法, 其特 征在于,
防守方的智能体的目标为: 阻止进攻方的智能体撞击目标地标、 合作拦截进攻方的智
能体、 以及同时避免与进攻方的智能体撞击;
进攻方的智能体的目标为: 撞击目标地标、 同时躲避防守方的智能体的拦截。
4.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法, 其特征在于, S2
中、 交互过程中每 个智能体最大化自身奖励的实现方式包括:
(一)当当前智能体为进攻方的智能体时, 该当前智能体的奖励函数ri为:权 利 要 求 书 1/2 页
2
CN 115544898 A
2ri=ridis+ricol;
其中, ridis为进攻方的第i个智能体的距离奖励, ricol为进攻方的第i个智能体的撞击奖
励, d(i,goal)为进攻方的第i个智能体与目标地标的距离, d(i,goodj)为进攻方的第i个智
能体与防守方的第j个智能体的距离;
(二)当当前智能体为防守方的智能体时, 该当前智能体的奖励函数ri为:
ri=riadv+rigood;
其中, riadv为防守方的第i个智能体 的第一距离奖励, rigood为防守方的第i个智能体 的
第二距离奖励, d(goal,advj)为进攻方的第j个智能体与目标地 标的距离; d(i,advj)为防守
方的第i个智能体与进攻方的第j个智能体的距离 。
5.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法, 其特征在于,
S4、 在当前攻防环境和预设攻防轮次下, 使训练后的各智能体进行攻防决策 的实现方式包
括:
在每个攻防轮次下, 使训练后的各智能体根据自身观测空间做出相应的动作。
6.一种计算机可读的存储设备, 所述存储设备存储有计算机程序, 其特征在于, 所述计
算机程序被执行时实现如权利要求1至5任一所述基于深度强化学习的多智能体攻防决策
方法。
7.一种基于深度强化学习的多智能体攻防决策装置, 包括存储设备、 处理器以及存储
在所述存储设备中并可在所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行
所述计算机程序实现如权利要求1至5任一所述基于深度强化学习的多智能体攻防决策方
法。权 利 要 求 书 2/2 页
3
CN 115544898 A
3
专利 基于深度强化学习的多智能体攻防决策方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:50上传分享