基于逆向强化学习的纵向自动驾驶决策方法 |
| |
引用本文: | 高振海,闫相同,高菲.基于逆向强化学习的纵向自动驾驶决策方法[J].汽车工程,2022(7):969-975. |
| |
作者姓名: | 高振海 闫相同 高菲 |
| |
作者单位: | 吉林大学汽车仿真与控制国家重点实验室 |
| |
基金项目: | 国家重点研发计划项目(2017YFB0102601);;国家自然科学基金(51775236,U1564214)资助; |
| |
摘 要: | 基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强化学习算法,将驾驶员驾驶数据作为专家演示数据,建立相应的奖励函数,并实现仿驾驶员的纵向自动驾驶决策。仿真测试结果表明:相比于强化学习方法,逆向强化学习方法的奖励函数从驾驶员的数据中自动化的提取,降低了奖励函数的建立难度,得到的决策策略与驾驶员的行为具有更高的一致性。
|
关 键 词: | 自动驾驶 决策算法 强化学习 逆向强化学习 |
|
|