基于柔性演员-评论家算法的自适应巡航控制研究 |
| |
引用本文: | 赵克刚,石翠铎,梁志豪,李梓棋,王玉龙.基于柔性演员-评论家算法的自适应巡航控制研究[J].汽车技术,2023(3):26-34. |
| |
作者姓名: | 赵克刚 石翠铎 梁志豪 李梓棋 王玉龙 |
| |
作者单位: | 1. 华南理工大学;2. 湖南大学汽车车身先进设计制造国家重点实验室 |
| |
基金项目: | 广东省重点领域研发项目(2019B090912001); |
| |
摘 要: | 针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。
|
|
|