专利基于强化学习的无人机知识模型分时调用方法及装置 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211344077.1 (22)申请日 2022.10.31 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人张驭龙　冯旸赫　陈丽　刘忠　徐越　李敏　张龙飞　梁星星　刘昀　阳方杰　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师彭小兰 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01)G05B 13/04(2006.01) (54)发明名称基于强化学习的无人机知识模型分时调用方法及装置 (57)摘要本申请涉及一种基于强化学习的无人机知识模型分时调用方法及装置。所述方法包括：利用无人机知识模型在预先设置的周期内对目标区域执行任务，对所有无人机知识模型的环境及时反馈值进行计算，根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；将神经网络作为无人机知识模型的评估值函数，根据选项策略函数构建评估值函数的更新公式，利用更新公式对神经网络进行更新，根据更新后的神经网络对不同时刻的无人机知识模型进行评估，利用得到的不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。采用本方法能够提高无人机工作效率。权利要求书3页说明书11页附图3页 CN 115470894 A 2022.12.13 CN 115470894 A 1.一种基于强化学习的无人机知识模型分时调用方法，其特征在于，所述方法包括：获取多个待调用的无人机知识模型；所述无人机知识模型包括巡航模型、侦察模型和打击模型；利用所述无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值；对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈；根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；将神经网络作为无人机知识模型的评估值函数，根据所述选项策略函数构建评估值函数的更新公式，利用所述更新公式对所述神经网络进行更新，得到更新后的神经网络；根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。 2.根据权利要求1所述的方法，其特征在于，对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈，包括：对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈为其中，表示环境及时反馈值，表示预先设置的周期，表示周期内的任意时刻，表示在i时刻的即时状态值，表示无人机知识模型对应的无人机动作，表示超参数，表示当前时刻选择的无人机知识模型。 3.根据权利要求2所述的方法，其特征在于，根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数，包括：根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数为其中，表示当前时刻环境中的态势信息，表示多步时长状态转移概率，表示下一时刻环境中的态势信息，表示下一时刻选择的无人机知识模型，表示在权　利　要　求　书 1/3 页 2 CN 115470894 A 2当前时刻的态势信息的评估值，表示当前态势信息下选择的知识模型的评估值。 4.根据权利要求3所述的方法，其特征在于，根据所述选项策略函数构建评估值函数的更新公式，包括：根据所述选项策略函数构建评估值函数的更新公式为其中，在之间取值，表示无人机知识模型是否已被执行，表示当前时刻的下一时刻态势信息下选择的知识模型的评估值，表示下一时刻的态势信息的评估值，表示决策周期态势为 c并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值，表示决策周期态势为 c并采用无人机知识模型后下一决策周期中各态势与各无人机知识模型的出现概率，表示下一时刻选择的无人机知识模型的评估值。 5.根据权利要求4所述的方法，其特征在于，利用所述更新公式对所述神经网络进行更新，得到更新后的神经网络，包括：利用所述更新公式计算所述神经网络中的参数的梯度，根据所述梯度更新所述神经网络，得到更新后的神经网络。 6.根据权利要求5所述的方法，其特征在于，利用所述更新公式计算所述神经网络中的参数的梯度，包括：利用所述更新公式计算所述神经网络中的参数的梯度为其中，表示当下的无人机知识模型中具体执行的行为策略。 7.根据权利要求6所述的方法，其特征在于，利用所述更新公式计算所述神经网络中的参数的梯度，还包括：其中，表示下一决策周期态势为c ’，表示决策周期态势为并采用无人机知识模型后下一决策周期态势为下采取无人机知识模型的概率权　利　要　求　书 2/3 页 3 CN 115470894 A 3

专利 基于强化学习的无人机知识模型分时调用方法及装置

专利基于强化学习的无人机知识模型分时调用方法及装置