基于最大熵强化学习的自主船舶航迹跟踪研究 |
| |
作者姓名: | 翟宏睿 罗亮 杨萌 梁新月 焦仕昂 刘维勤 |
| |
作者单位: | 1. 高性能船舶技术教育部重点实验室;2. 武汉理工大学船海与能源动力工程学院;3. 中国舰船研究设计中心;4. 武汉理工大学交通与物流工程学院 |
| |
基金项目: | 国家自然科学基金资助项目(52101368);;国防科工局国防基础科研计划项目(JCKY2020206B037); |
| |
摘 要: | 为解决自主船舶在航迹跟踪过程中使用最大熵强化学习作为控制器出现的收敛速度慢和训练时间长等问题,提出一种基于改进最大熵强化学习的航迹跟踪算法,引入了优先经验回放(PER)技术,并结合视线制导算法(LOS),构建PER-SAC的深度强化学习控制器,设计了相应的状态、动作空间和奖励函数。仿真结果表明,设计的PER-SAC控制器能快速收敛,收敛稳定后的控制器相较于原始SAC控制器控制性能更稳定,且控制精度更高,为自主船舶的航迹跟踪控制提供了一定参考价值。
|
关 键 词: | 自主船舶 航迹跟踪 最大熵强化学习 视线制导算法 优先经验回放 |
|