基于柔性演员-评论家算法的自适应巡航控制研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于柔性演员-评论家算法的自适应巡航控制研究

引用本文：	赵克刚,石翠铎,梁志豪,李梓棋,王玉龙.基于柔性演员-评论家算法的自适应巡航控制研究[J].汽车技术,2023(3):26-34.

作者姓名：	赵克刚石翠铎梁志豪李梓棋王玉龙

作者单位：	1. 华南理工大学;2. 湖南大学汽车车身先进设计制造国家重点实验室

基金项目：	广东省重点领域研发项目（2019B090912001）；

摘要：	针对目前自适应巡航控制技术中，深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题，提出一种基于最大熵原理和随机离线策略的柔性演员-评论家（SAC）控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数，并使用自调节温度系数改善智能体的环境探索能力；针对奖励稀疏问题，运用奖励塑造思想设计奖励函数；此外，提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证，并与深度确定性策略梯度（DDPG）算法进行比较，结果表明，该算法具有更好的模型泛化能力和实车迁移效果。