(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211420838.7
(22)申请日 2022.11.15
(71)申请人 山东大学
地址 250100 山东省济南市历城区山大南
路27号
(72)发明人 李沂滨 张忠铝 张天泽 张悦
孙雨泽
(74)专利代理 机构 济南金迪知识产权代理有限
公司 37219
专利代理师 王楠
(51)Int.Cl.
G01C 21/20(2006.01)
G05D 1/10(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于SAC算法的AUV路径规划控制方法
(57)摘要
本发明涉及一种基于SAC算法的AUV路径规
划控制方法, 属于机器人路径规划技术领域, 主
要包括在SAC算法中引入动态人工势场法, 可以
在智能体难以做出决策或者长时间做出无效动
作时提供引导作用, 也可以避免纯粹人工势场法
陷入局部最优的问题, AUV基于结合人工势场法
的强化学习SAC算法采取动作并执行动作, 使用
AUV的声纳搜索障碍物, 并将障碍物信息保存到
障碍物集合中; 在SAC算法中引入启发式函数, 用
来引导AUV做出正确的动作, 以加快强化学习的
训练过程, 解决稀疏奖励的问题, 网络训练完毕
后, 将环境信息输入到策略网络中, 使用策略网
络输出的动作控制AUV运动, 最终得到规划路径。
权利要求书3页 说明书8页 附图2页
CN 115493597 A
2022.12.20
CN 115493597 A
1.一种基于SAC算法的AUV路径规划控制方法, 其特 征在于, 包 含以下步骤:
第一步, 建立连续坐标值的二维平面地图, 定义环境的奖励函数, 初始化相关参数及障
碍物集合;
第二步, AUV基于结合人工势场法的强化学习SAC算法采取动作;
第三步, 执行第二步计算出的动作, 使用AUV的声纳搜索障碍物, 并将障碍物信息保存
到障碍物集 合中; 在SAC算法的奖励函数中加入启发式函数, 计算启发式奖励;
第四步, 进行价值网络和策略网络的更新; 策略网络为一神经网络, 输入变量为AUV观
测的环境状态, 经过线性计算后分别输出动作分布的均值和标准差, AUV 根据标准正态分布
结合策略网络输出的均值和标准差计算动作; 价值网络为另一神经网络, 输入变量为AUV观
测的环境状态和AUV采 取的动作, 输出一标量值用来衡量AUV在当前状态采取当前动作的好
坏程度, 该值越大代 表采取的动作越好;
第五步, 调整动作选择 策略的相关概 率及启发函数的启发系数;
第六步, 重复执 行第二步至第五步, 直至 达到一定收敛 条件为止;
第七步, 最后, 网络训练完毕后, 将环境信息输入到策略网络中, 使用策略网络输出的
动作控制AUV运动, 最终得到规划路径。
2.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第一步:
建立目标点障碍物的环 境模型, 初始化参数; 首先生 成1200*8 00的连续环 境地图, 设置地图
的某一坐标为目标点位置, 设置地图另 一坐标为AUV起始运动坐标, 设置AUV的速度v=(x,
y), 其中x为AUV的运动幅度, y为AUV的转动角度, x和y均为连续值; 在地图中随机生 成n个障
碍物, 以圆形表示AUV、 障碍物和目标点, 初始化概率参数p1, p2, 初始化启发系数, 初始化
SAC的策略网络和价值网络, 初始化障碍物集合D, 将每个障碍物的坐标原点添加到障碍物
集合中。
3.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第一步
中, 以圆形表示AUV、 障碍物和目标点, 设定AUV的半径为20, 声纳搜索半径为150, 目标点的
半径为10 0, 障碍物的半径为范围内随机值。
4.根据权利 要求2所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 最初的奖
励定义为: 在AUV采取每一步动作后, 如果AUV到达了目标点给予奖励值r1, r1>0, 如果AUV触
碰到了边界给予奖励值r2, r2<0, 如果AUV触碰到了障碍物给予奖励值r3, r3<r2<0, 其他情
况下, 给予奖励值0 。
5.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第二步,
计算AUV的动作, 策略网络输出动作的均值mean和标准差std, 然后生成和动作相同维度的
标准正态分布并获取采样值normal, 则输出的动作为mean + normal * std; 以p1概率采取
策略网络输出的动作, 以1 ‑p1概率采 取其他动作; 在 采取其他动作的情况下, 以p2 概率采取
人工势场法, 以1 ‑p2的概率采取随机动作;
其中人工势场法动作的计算如下: 对 障碍物集合中的所有障碍物使用式 (1) 建立斥力
势场, 使用式 (2) 计算斥力,
(1)权 利 要 求 书 1/3 页
2
CN 115493597 A
2(2)
其中
为斥力系数,
为当前点到障碍物的距离,
为斥力失效距离, 距离超过
则斥
力为0,
为当前点到目标点的距离,
为q点所受到的斥力场大小, q为当前所在点的
坐标,
为q点所受到的斥力大小, 其中
和
分别为q点所受斥力分解为横向x
方向和纵向y方向的斥力大小, n 为一任意正常数;
对目标点使用式 (3) 建立引力势场, 使用式 (4) 计算引力,
(3)
(4)
其中,
为q点所受到的斥力场大小,
为q点所受到的斥力大小,
为引力
系数,
为当前点到目标点的距离; 最后求得引力和所有斥力的合力向量, 向量的幅度作
为AUV的运动幅度, 向量的角度与AUV前一 步运动方向的夹角作为AUV的转动角度。
6.根据权利要求5所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第二步
中, 合力向量的计算为: 首先计算出AUV所 受的引力和斥力, 将引力和斥力分别分解为横向x
方向的引力斥力和纵向y方向的引力斥力, 再分别求出x方向和y方向的合力, 具体为对x方
向的所有引力取正值, 所有斥力取负值, 再累加求和得到x方向的合力, 同理对y方向的所有
引力取正值, 所有斥力取负值, 再累加求和得到y方向的合力, 最后根据x方向的合力和y方
向的合力计算出整体的合力即为AUV当前 所受到的合力向量。
7.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第三步,
执行动作, 更新障碍物集合并计算奖励; 执行第二步计算出来的动作, 环境状态自动更新,
将AUV声纳范围内的障碍物信息添加到障碍物集合中, 计算启发 式奖励, 更新价值网络和策
略网络, 其中启发式奖励的计算如式 (5) 所示,
(5)
其中,
为当前的环境奖励,
为新的奖励, f为启发式函数,
为启发系数, 启
发系数用来决定奖励函数中启发式奖励所占的比例,
为折扣因子,
为新的折扣因子,
为AUV下一时刻观测到的状态,
为AUV当前时刻观测到的状态,
为AUV当前时刻采取的动
作,
为AUV在
状态下采取
动作后到达
状态所获得的启发式奖励的期望
值;
启发式函数f如式 (6) 所示,
(6)权 利 要 求 书 2/3 页
3
CN 115493597 A
3
专利 一种基于SAC算法的AUV路径规划控制方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:48上传分享