首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于强化学习与安全约束的自动驾驶决策方法
作者姓名:王宇霄  刘敬玉  李忠飞  朱凤华
作者单位:1. 中国科学院自动化研究所复杂系统管理与控制国家重点实验室
基金项目:广东省重点领域研发计划项目(2020B0909050001);;国家自然科学基金项目(U1909204);
摘    要:在自动驾驶决策场景下,为解决强化学习算法安全性差、学习效率低的问题,提出一种在算法的训练阶段添加基于价值的安全约束和虚拟奖励的方法。首先,利用状态、动作价值函数和安全判断规则,对智能体执行的动作进行基于价值的安全约束,选择价值高且安全的动作。然后,向回放池添加包含虚拟奖励的预测轨迹数据,以补充由于约束而未能获取的试错动作信息和相应的状态、奖励信息。最后,为进行加减速和换道决策实验,基于修改后的高速公路仿真环境highway-env搭建了3车道高速公路场景,并以深度Q网络(Deep Q Network, DQN)算法为基础,分别训练和测试了无安全约束的算法、拥有基于规则的安全约束的算法和拥有基于价值的安全约束的算法。结果表明,考虑加速、减速、保持车速和车道、向左换道、向右换道共5种动作时,基于价值的安全约束算法的成功率比无安全约束的算法高3倍以上,平均回报提升28%;仅考虑向左换道、向右换道、保持车道这3种换道动作时,基于价值的安全约束算法的成功率比基于规则的安全约束算法高0.11,平均回报提升6%;都添加基于价值的安全约束时,考虑5种动作的算法相较于考虑3种动作的算法成功率低0.06但...

关 键 词:深度强化学习  自动驾驶  决策  安全约束  训练效率
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号