专利一种基于专家策略指导的主动目标跟踪方法及系统 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211388347.9 (22)申请日 2022.11.08 (71)申请人山东大学地址 250061 山东省济南市历下区经十路 17923号 (72)发明人宋然　栾迎新　张钰荻　张伟　李晓磊　张倩　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师李琳 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/90(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于专家策略指导的主动目标跟踪方法及系统 (57)摘要本发明公开的一种基于专家策略指导的主动目标跟踪方法及系统，属于主动目标追踪技术领域，包括：获取场景观测图像、场景地图和智能体位姿；根据场景地图和智能体位姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作；将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器；利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。实现了对目标的准确追踪。权利要求书2页说明书12页附图4页 CN 115439510 A 2022.12.06 CN 115439510 A 1.一种基于专家策略指导的主动目标跟踪方法，其特征在于，包括：获取场景观测图像、场景地图和智能体位姿；根据场景地图和智能体位姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作；将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器；利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。 2.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，专家跟踪器和专家目标对象采用遮挡可知的奖励机制，当专家跟踪器未处于遮挡状态时，专家跟踪器的奖励值的取值范围被限制到0到1之间，当专家跟踪器处于遮挡状态时，专家跟踪器的奖励值设置为 ‑1。 3.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，由专家目标对象和专家跟踪器进行对抗强化学习时，通过专家目标对象输出目标对应的逃脱策略，并通过专家目标对象的模型策略，构建专家策略池。 4.如权利要求3所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，获得专家跟踪器输出建议动作的具体过程为：将第一训练数据分别输入专家跟踪器和专家目标对象中，通过专家目标对象对专家跟踪器进行对抗学习，对专家跟踪器进行预训练，在预训练过程中，由专家跟踪器输出决策动作，由专家目标对象输出目标对应的逃脱策略，并通过专家目标对象模型的策略，构建专家策略池；从专家策略池中选取微调用专家目标对象模型；通过微调用专家目标对象模型与预训练后的专家跟踪器进行对抗学习，对预训练后的专家跟踪器进行微调，通过微调后的专家跟踪器输出建议动作。 5.如权利要求3所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，在对学生跟踪器进行训练时，采用学生目标对象对学生跟踪器进行引导，其中，学生目标对象模型选用专家策略池中的专家目标对象模型。 6.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，专家跟踪器和学生跟踪器均包括卷积神经网络和序列模型，专家跟踪器中的卷积神经网络对局部地图和智能体相对运动轨迹进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得建议动作；学生跟踪器中的卷积神经网络对场景观测图像进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得决策动作。 7.如权利要求6所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，学生跟踪器的损失函数包括特征空间上损失和动作空间上损失，动作空间上损失采用KL散度计算，特征空间上损失通过专家跟踪器与学生跟踪器中卷积神经网络输出的相似性计算获得。 8.一种基于专家策略指导的主动目标跟踪系统，其特征在于，包括：训练数据获取模块，用于获取场景观测图像、场景地图和智能体位姿；权　利　要　求　书 1/2 页 2 CN 115439510 A 2第一阶段训练模块，用于根据场景地图和智能体位姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作；学生跟踪器训练模块，用于将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器；实例跟踪模块，用于利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。 9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求 1‑7任一项所述的一种基于专家策略指导的主动目标跟踪方法的步骤。 10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1 ‑7任一项所述的一种基于专家策略指导的主动目标跟踪方法的步骤。权　利　要　求　书 2/2 页 3 CN 115439510 A 3

专利 一种基于专家策略指导的主动目标跟踪方法及系统

专利一种基于专家策略指导的主动目标跟踪方法及系统