(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211420838.7 (22)申请日 2022.11.15 (71)申请人 山东大学 地址 250100 山东省济南市历城区山大南 路27号 (72)发明人 李沂滨 张忠铝 张天泽 张悦  孙雨泽  (74)专利代理 机构 济南金迪知识产权代理有限 公司 37219 专利代理师 王楠 (51)Int.Cl. G01C 21/20(2006.01) G05D 1/10(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于SAC算法的AUV路径规划控制方法 (57)摘要 本发明涉及一种基于SAC算法的AUV路径规 划控制方法, 属于机器人路径规划技术领域, 主 要包括在SAC算法中引入动态人工势场法, 可以 在智能体难以做出决策或者长时间做出无效动 作时提供引导作用, 也可以避免纯粹人工势场法 陷入局部最优的问题, AUV基于结合人工势场法 的强化学习SAC算法采取动作并执行动作, 使用 AUV的声纳搜索障碍物, 并将障碍物信息保存到 障碍物集合中; 在SAC算法中引入启发式函数, 用 来引导AUV做出正确的动作, 以加快强化学习的 训练过程, 解决稀疏奖励的问题, 网络训练完毕 后, 将环境信息输入到策略网络中, 使用策略网 络输出的动作控制AUV运动, 最终得到规划路径。 权利要求书3页 说明书8页 附图2页 CN 115493597 A 2022.12.20 CN 115493597 A 1.一种基于SAC算法的AUV路径规划控制方法, 其特 征在于, 包 含以下步骤: 第一步, 建立连续坐标值的二维平面地图, 定义环境的奖励函数, 初始化相关参数及障 碍物集合; 第二步, AUV基于结合人工势场法的强化学习SAC算法采取动作; 第三步, 执行第二步计算出的动作, 使用AUV的声纳搜索障碍物, 并将障碍物信息保存 到障碍物集 合中; 在SAC算法的奖励函数中加入启发式函数, 计算启发式奖励; 第四步, 进行价值网络和策略网络的更新; 策略网络为一神经网络, 输入变量为AUV观 测的环境状态, 经过线性计算后分别输出动作分布的均值和标准差, AUV 根据标准正态分布 结合策略网络输出的均值和标准差计算动作; 价值网络为另一神经网络, 输入变量为AUV观 测的环境状态和AUV采 取的动作, 输出一标量值用来衡量AUV在当前状态采取当前动作的好 坏程度, 该值越大代 表采取的动作越好; 第五步, 调整动作选择 策略的相关概 率及启发函数的启发系数; 第六步, 重复执 行第二步至第五步, 直至 达到一定收敛 条件为止; 第七步, 最后, 网络训练完毕后, 将环境信息输入到策略网络中, 使用策略网络输出的 动作控制AUV运动, 最终得到规划路径。 2.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第一步: 建立目标点障碍物的环 境模型, 初始化参数; 首先生 成1200*8 00的连续环 境地图, 设置地图 的某一坐标为目标点位置, 设置地图另 一坐标为AUV起始运动坐标, 设置AUV的速度v=(x, y), 其中x为AUV的运动幅度, y为AUV的转动角度, x和y均为连续值; 在地图中随机生 成n个障 碍物, 以圆形表示AUV、 障碍物和目标点, 初始化概率参数p1, p2, 初始化启发系数, 初始化 SAC的策略网络和价值网络, 初始化障碍物集合D, 将每个障碍物的坐标原点添加到障碍物 集合中。 3.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第一步 中, 以圆形表示AUV、 障碍物和目标点, 设定AUV的半径为20, 声纳搜索半径为150, 目标点的 半径为10 0, 障碍物的半径为范围内随机值。 4.根据权利 要求2所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 最初的奖 励定义为: 在AUV采取每一步动作后, 如果AUV到达了目标点给予奖励值r1, r1>0, 如果AUV触 碰到了边界给予奖励值r2, r2<0, 如果AUV触碰到了障碍物给予奖励值r3, r3<r2<0, 其他情 况下, 给予奖励值0 。 5.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第二步, 计算AUV的动作, 策略网络输出动作的均值mean和标准差std, 然后生成和动作相同维度的 标准正态分布并获取采样值normal, 则输出的动作为mean  + normal * std; 以p1概率采取 策略网络输出的动作, 以1 ‑p1概率采 取其他动作; 在 采取其他动作的情况下, 以p2 概率采取 人工势场法, 以1 ‑p2的概率采取随机动作; 其中人工势场法动作的计算如下: 对 障碍物集合中的所有障碍物使用式 (1) 建立斥力 势场, 使用式 (2) 计算斥力, (1)权 利 要 求 书 1/3 页 2 CN 115493597 A 2(2) 其中 为斥力系数, 为当前点到障碍物的距离, 为斥力失效距离, 距离超过 则斥 力为0, 为当前点到目标点的距离, 为q点所受到的斥力场大小, q为当前所在点的 坐标, 为q点所受到的斥力大小, 其中 和 分别为q点所受斥力分解为横向x 方向和纵向y方向的斥力大小, n 为一任意正常数; 对目标点使用式 (3) 建立引力势场, 使用式 (4) 计算引力, (3) (4) 其中, 为q点所受到的斥力场大小, 为q点所受到的斥力大小, 为引力 系数, 为当前点到目标点的距离; 最后求得引力和所有斥力的合力向量, 向量的幅度作 为AUV的运动幅度, 向量的角度与AUV前一 步运动方向的夹角作为AUV的转动角度。 6.根据权利要求5所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第二步 中, 合力向量的计算为: 首先计算出AUV所 受的引力和斥力, 将引力和斥力分别分解为横向x 方向的引力斥力和纵向y方向的引力斥力, 再分别求出x方向和y方向的合力, 具体为对x方 向的所有引力取正值, 所有斥力取负值, 再累加求和得到x方向的合力, 同理对y方向的所有 引力取正值, 所有斥力取负值, 再累加求和得到y方向的合力, 最后根据x方向的合力和y方 向的合力计算出整体的合力即为AUV当前 所受到的合力向量。 7.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法, 其特征在于, 第三步, 执行动作, 更新障碍物集合并计算奖励; 执行第二步计算出来的动作, 环境状态自动更新, 将AUV声纳范围内的障碍物信息添加到障碍物集合中, 计算启发 式奖励, 更新价值网络和策 略网络, 其中启发式奖励的计算如式 (5) 所示, (5) 其中, 为当前的环境奖励, 为新的奖励, f为启发式函数, 为启发系数, 启 发系数用来决定奖励函数中启发式奖励所占的比例, 为折扣因子, 为新的折扣因子, 为AUV下一时刻观测到的状态, 为AUV当前时刻观测到的状态, 为AUV当前时刻采取的动 作, 为AUV在 状态下采取 动作后到达 状态所获得的启发式奖励的期望 值; 启发式函数f如式 (6) 所示, (6)权 利 要 求 书 2/3 页 3 CN 115493597 A 3

PDF文档 专利 一种基于SAC算法的AUV路径规划控制方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于SAC算法的AUV路径规划控制方法 第 1 页 专利 一种基于SAC算法的AUV路径规划控制方法 第 2 页 专利 一种基于SAC算法的AUV路径规划控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。