首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为实现高速公路环境下车辆的安全决策,提出一种结合深度强化学习和风险矫正方法的行为决策模型。构建决策模型所需的目标车辆及周围车辆的行驶信息,并引入自注意力安全机制,提高车辆在复杂高速场景下对周围潜在危险车辆的注意力,综合考虑行车效率、避障等因素以设计强化学习的奖励函数。此外,为解决强化学习在决策过程中缺乏安全性保障的问题,设计风险矫正模块对决策动作进行风险评估和矫正,避免危险决策的执行。在Highway-env仿真平台上对提出的决策模型进行训练和测试。试验结果表明,提出的决策模型有较高的行车安全率和鲁棒性,其驾驶效率也优于以规则、模仿学习和单纯深度强化学习为基础的决策方法。  相似文献   

2.
为了实现高速公路的自由换道行为决策,并满足行车安全高效性、决策结果平稳无震荡、与运动规划模块结合引导车辆行驶等要求,提出了一种基于驾驶人不满度的换道行为决策方法。首先,根据驾驶人的速度期望建立了驾驶人不满度累积模型,并基于驾驶人速度不满累积度产生换道意图。其次,依据不同车道障碍车的运动状态,设计了2种目标车道选择策略,通过预测引擎对各个待选车道进行预测和评估,选取其中行车效率较高的车道作为目标车道,同时建立换道最小安全距离模型,用以在换道全过程中判断换道的可行性。然后,将换道行为决策的结果以目标车道的形式传递给基于改进人工势场的运动规划模块,用于运动规划模块目标的选取,以引导车辆横纵向运动。最后,在CarSim/PreScan/Simulink的联合仿真平台和硬件在环平台上建立多种测试场景,验证换道行为决策算法。试验结果表明:换道行为决策算法能够依据驾驶人速度不满累积度产生稳定的换道意图,进而根据所设计的换道策略选取具有更高行车效率的目标车道,并在换道过程中持续判断换道的可行性,以应对障碍车辆突然加减速等突发状况,保证换道过程的高效性和安全性;换道行为决策算法通过目标车道的转换,引导运动规划模块调整车辆的运动,实现跟车、换道等行为。  相似文献   

3.
换道是一种具有极高风险的驾驶行为,许多交通事故发生在换道过程中,相邻车道车辆的突然换道行为会产生很大安全风险并影响车辆的乘坐舒适性,对周围车辆的换道行为进行预测对驾驶辅助系统和自动驾驶汽车都十分必要。随着V2X(Vehicle-to-Everything)技术、5G技术的快速发展,车辆可以从周围环境中获得更多信息,使换道行为预测成为可能。文中对换道意图的产生及换道过程进行分析,将换道过程分为换道意图产生阶段、换道准备阶段和执行阶段,总结将车辆上各种传感器获得的车辆速度、加速度、位置、方向盘转角等信息及通过V2X技术从交通环境中获得的信息用于换道行为预测的主要方法。目前许多研究采用机器学习方法,按照所使用的数据类型可分为基于驾驶员生理活动信息的方法和基于车辆CAN总线信息、运动学及其与周围车辆运动关系信息的方法,也有研究将二者相结合。数据驱动的换道行为预测方法也可用于车辆的主动换道决策和执行过程,强化学习(RL)算法可以从真实数据中学习决策和驾驶行为,而这些对于传统的基于规则的方法来说基本不可行,故其在研究车辆主动换道时被广泛使用。  相似文献   

4.
随着人工智能技术的不断进步,越来越多的数据驱动方法被用于解决智能汽车跟驰控制问题,基于此,提出一种自学习和监督学习混合驱动的跟驰控制策略,实现拟人化的高性能跟驰控制.首先,基于实车试验平台采集跟驰数据,将跟驰控制问题建模为马尔可夫决策过程,利用深度强化学习中的深度确定性策略梯度建立自学习跟驰控制策略,基于长短期记忆网络...  相似文献   

5.
针对智能车辆在轨迹跟踪过程中的横向控制问题,提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的智能车辆轨迹跟踪控制方法。首先,将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程,强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架;强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次,所提出方法的学习主体以DDPG方法更新,其中采用回忆缓冲区解决样本相关性的问题,复制结构相同的神经网络解决更新发散问题。最后,将所提出的方法在不同场景中进行训练验证,并与深度Q学习方法(Deep Q-Learning,DQN)和模型预测控制(Model Predictive Control,MPC)方法进行比较。研究结果表明:基于DDPG的强化学习方法所用学习时间短,轨迹跟踪控制过程中横向偏差和角偏差小,且能满足不同车速下的跟踪要求;采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报;在2种仿真场景中,基于DDPG的学习总时长分别为DQN的9.53%和44.19%,单个片段的学习时长仅为DQN的20.28%和22.09%;以DDPG、DQN和MPC控制方法进行控制时,在场景1中,基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%,仿真时间分别为DQN和MPC的12.88%和53.45%;在场景2中,基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%,仿真时间分别为DQN和MPC的20.64%和58.60%。  相似文献   

6.
为了解决智能车辆在工况变化时跟踪精度下降和稳定性变差的问题,提出基于强化学习的变参数模型预测控制(MPC)算法多目标控制策略,实现智能车辆路径跟踪控制系统的参数自适应整定。基于车辆动力学模型设计其线性时变MPC控制器,获得最优前轮转向角和附加横摆力矩。基于Actor-Critic强化学习架构,设计进行控制参数整定的深度确定性策略梯度(DDPG)智能体和双延迟深度确定性策略梯度(TD3)智能体,构造以跟踪精度和稳定性为目标的收益函数,并搭建对接工况和变曲率工况2种典型仿真场景进行算法性能验证,当车辆处于对接工况时,根据路面附着系数的变化及时调整控制器的预测时域和权重矩阵;当车辆处于变曲率工况下时,针对道路曲率变化及时调整控制器的预测时域和权重矩阵。通过MATLAB/SimuLink、CarSim和Python联合仿真分析,将强化学习方法参数整定MPC与固定参数MPC和模糊控制方法参数整定MPC进行对比,结果表明:强化学习方法更能够在保证车辆安全性的前提下,尽可能提高智能车辆在不同路面条件下的路径跟踪精度。在对接工况下,强化学习方法参数整定MPC相较于固定参数MPC和模糊控制方法参数整定M...  相似文献   

7.
端到端自动驾驶算法的开发现已成为当前自动驾驶技术研发的热点。经典的强化学习算法利用车辆状态、环境反馈等信息训练车辆行驶,通过试错学习获得最佳策略,实现了端到端的自动驾驶算法开发,但仍存在开发效率低下的问题。为解决虚拟仿真环境下训练强化学习算法的低效性和高复杂度问题,本文提出了一种异步分布式强化学习框架,并建立了进程间和进程内的多智能体并行柔性动作-评价(soft actor-critic, SAC)分布式训练框架,加速了Carla模拟器上的在线强化学习训练。同时,为进一步实现模型的快速训练和部署,本文提出了一种基于Cloud-OTA的分布式模型快速训练和部署系统架构,系统框架主要由空中下载技术(over-the-air technology, OTA)平台、云分布式训练平台和车端计算平台组成。在此基础上,本文为了提高模型的可复用性并降低迁移部署成本,搭建了基于ROS的Autoware-Carla集成验证框架。实验结果表明,本文方法与多种主流自动驾驶方法定性相比训练速度更快,能有效地应对密集交通流道路工况,提高了端到端自动驾驶策略对未知场景的适应性,减少在实际环境中进行实验所需的时间和资...  相似文献   

8.
运动控制研究是实现自动驾驶目标的重要组成部分,针对传统强化学习算法在求解中因单步决策局限而导致控制序列次优的问题,提出了一种基于双估计强化学习算法及前向预测控制方法结合的运动控制框架(DEQL-FPC)。在该框架中引入双估计器以解决传统强化学习方法动作值过估计问题并提高训练优化的速度,设计前向预测多步决策方法替代传统强化学习的单步决策,以有效提高全局控制策略的性能。通过虚拟驾驶环境仿真,证明了该控制框架应用在自动驾驶汽车的路径跟踪以及安全避障的优越性,保证了运动控制中的精确性、安全性、快速性以及舒适性。  相似文献   

9.
为在保证分布式电驱动车辆制动稳定性的前提下实现经济性的提升,提出了基于深度强化学习的分布式驱动前、后轴扭矩分配策略.在建立分布式电驱动车辆关键部件物理模型的基础上,基于车辆模型及制动稳定性约束,建立了基于深度强化学习的扭矩最优分配控制模型,并对传统固定比值的扭矩分配策略和所提出的策略进行了对比,结果表明:在新欧洲驾驶循...  相似文献   

10.
针对自动驾驶车辆换道过程中存在的车辆规划轨迹与人类驾驶员决策轨迹偏差较大问题,开发了一种基于驾驶员轨迹特征学习的换道轨迹规划算法。采集驾驶员换道轨迹曲线函数特征,在轨迹采样及成本优化相结合的轨迹规划基础上,采用最大熵逆强化学习策略迭代更新成本函数权重,并依据学习的成本函数筛选备选采样轨迹,生成反映驾驶员轨迹特征的自动驾驶车辆换道轨迹。试验结果表明,进行驾驶员特征学习后的换道轨迹基本包含在驾驶员换道轨迹区域内,且轨迹特征更为接近人类驾驶员换道轨迹特征,更能反映驾驶员主观感受。  相似文献   

11.
强化学习的发展推动了自动驾驶决策技术的进步,智能决策技术已成为自动驾驶领域高度关注的要点问题。本文以强化学习算法发展为主线,综述该算法在单车自动驾驶决策领域的深入应用。对强化学习传统算法、经典算法和前沿算法从基本原理和理论建模等方面进行归纳总结与对比分析。针对不同场景的自动驾驶决策方法分类,分析环境状态可观测性对建模的影响,重点阐述了不同层次强化学习典型算法的应用技术路线,并对自动驾驶决策方法提出研究展望,以期为自动驾驶决策方案研究提供有益参考。  相似文献   

12.
针对强化学习算法下智能车辆训练中动作选择过程随机性强、训练效率低等问题,提出了基于规则约束和深度Q网络(DQN)算法的智能车辆行驶决策框架,将引入的规则分为与换道相关的硬约束和与车道保持相关的软约束,分别通过动作检测模块(Action Detection Module)与奖励函数来实现。同时结合竞争深度Q网络(Dueling DQN)和双重深度Q网络(Double DQN)对DQN的网络结构进行改进,并引入N步自举(N-Step Bootstrapping)学习提高DQN的训练效率,最后在Highway-env平台高速路场景下与原始DQN算法进行综合对比验证模型的有效性,改进后的算法提高了智能车辆任务成功率和训练效率。  相似文献   

13.
为提高换道安全性、稳定性和换道效率,本文中提出一种智能网联条件下多车协同安全换道策略。通过建立基于激励模型的换道收益函数进行协同换道可行性判断。基于模型预测控制建立协同换道多目标优化控制函数,实现换道过程的分布式控制。提出一个两阶段协同换道框架,将换道过程分为稀疏纵向距离阶段和换道阶段,以解决由于避撞约束的高维度和车辆运动学的非线性造成的最优控制函数难以求解的问题。采用滚动时域优化算法对优化控制问题逐步动态求解。最后基于美国NGSIM开源交通流数据进行Matlab/Simulink联合仿真,验证了该策略的可行性与准确性。  相似文献   

14.
针对自适应巡航控制系统在控制主车跟驰行驶中受前车运动状态的不确定性影响问题,在分析车辆运动特点的基础上,提出一种能够考虑前车运动随机性的跟驰控制策略。搭建驾驶人实车驾驶数据采集平台,招募驾驶人进行实车跟驰道路试验,建立驾驶人真实驾驶数据库。假设车辆未来时刻的加速度决策主要受前方目标车辆运动影响,建立基于双前车跟驰结构的主车纵向控制架构。将驾驶数据库中的驾驶数据分别视作前车和前前车运动变化历程,利用高斯过程算法建立了前车纵向加速度变化随机过程模型,实现对前方目标车运动状态分布的概率性建模。将车辆跟驰问题构建为一定奖励函数下的马尔可夫决策过程,引入深度强化学习研究主车跟驰控制问题。利用近端策略优化算法建立车辆跟驰控制策略,通过与前车运动随机过程模型进行交互式迭代学习,得到具有运动不确定性跟驰环境下的主车纵向控制策略,实现对车辆纵向控制的最优决策。最后基于真实驾驶数据,对控制策略进行测试。研究结果表明:该策略建立了车辆纵向控制与主车和双前车状态之间的映射关系,在迭代学习过程中对前车运动的随机性进行考虑,跟驰控制中不需要对前车运动进行额外的概率预测,能够以较低的计算量实现主车稳定跟随前车行驶。  相似文献   

15.
提高人类驾驶人的接受度是自动驾驶汽车未来的重要方向,而深度强化学习是其发展的一项关键技术。为了解决人机混驾混合交通流下的换道决策问题,利用深度强化学习算法TD3(Twin Delayed Deep Deterministic Policy Gradient)实现自动驾驶汽车的自主换道行为。首先介绍基于马尔科夫决策过程的强化学习的理论框架,其次基于来自真实工况的NGSIM数据集中的驾驶数据,通过自动驾驶模拟器NGSIM-ENV搭建单向6车道、交通拥挤程度适中的仿真场景,非自动驾驶车辆按照数据集中驾驶人行车数据行驶。针对连续动作空间下的自动驾驶换道决策,采用改进的深度强化学习算法TD3构建换道模型控制自动驾驶汽车的换道驾驶行为。在所提出的TD3换道模型中,构建决策所需周围环境及自车信息的状态空间、包含受控汽车加速度和航向角的动作空间,同时综合考虑安全性、行车效率和舒适性等因素设计强化学习的奖励函数。最终在NGSIM-ENV仿真平台上,将基于TD3算法控制的自动驾驶汽车换道行为与人类驾驶人行车数据进行比较。研究结果表明:基于TD3算法控制的车辆其平均行驶速度比人类驾驶人的平均行车速度高4.8%,在安全性以及舒适性上也有一定的提升;试验结果验证了训练完成后TD3换道模型的有效性,其能够在复杂交通环境下自主实现安全、舒适、流畅的换道行为。  相似文献   

16.
为实现智能车辆的自主换道操作并满足安全性、舒适性和实时性等约束条件,提出一种针对动态交通环境的换道轨迹规划模型。该模型由道路平面曲线表征模块、路径生成模块以及速度曲线生成模块组成。首先,在道路平面曲线表征模块中,模型基于实时获取的周边道路信息,利用切比雪夫多项式插值法回归拟合出连续可导的道路平面曲线函数,用以保证模型在各种道路平面线形上的普适性。然后,在路径生成模块中,根据换道车辆初始时刻的运动状态,建立一系列多项式方程,并利用牛顿迭代法求解方程未知参数,以此生成连接初始位置和目标位置的换道路径,用以保证换道轨迹的平滑性。最后,在速度曲线生成模块中,以满足防碰撞约束、跟驰加速度约束以及车辆运动状态约束为目标,构建二次规划模型,生成沿着换道路径的车辆速度曲线,用以保证换道轨迹的安全性和舒适性。此外,考虑到周边动态的交通环境,车辆系统在每个时间步内会循环调用提出的模型实时更新换道轨迹,直至车辆到达目标位置。仿真试验结果表明:应用提出的换道轨迹规划模型,车辆能够有效避免与周边动态车辆发生碰撞,成功完成换道;基于二次规划框架,模型优化求解时间明显缩短,满足轨迹规划的实时性和有效性要求。  相似文献   

17.
为解决传统方法或基于强化学习的方法在狭小空间下平行泊车效率较低的问题,基于蒙特卡罗树搜索(MCTS)方法,同时规划倒车入库和库位内调整阶段。在MCTS过程中同时考虑纵向动作(速度)与横向动作(转向盘转角),引入模仿学习(IL),利用非线性规划的演示数据获得初始化策略神经网络,并使用强化学习(RL)对其进行改进,训练时间从20 h缩短到1 h,采用滑模控制器作为横向控制器来跟踪规划的路径,车辆运动方向可通过绑定在规划路径上的规划速度的方向确定。仿真验证和实车测试结果表明,该方法可同时规划倒车入库阶段和库位内调整阶段,位置误差可达5 cm,航向角误差可达0.5°。  相似文献   

18.
针对传统的协同式自适应巡航控制的算法响应慢、无法快速准确地对突发危险路况做出反应的问题,设计了基于深度强化学习的协同式自适应巡航控制框架,提出了双经验池和优化评价的深度确定性策略梯度算法.在传统算法基础上新建了2个包含车辆状态信息的经验池(优先价值经验池和撒普列经验池),训练数据样本分别从2个经验池按比例选取;critic评价模块采用多维向量对输出的踏板开度策略精确评价.结果表明,该算法在正常行驶工况和突发危险工况下:平均跟车间距误差分别下降1.8 m和1.5 m,跟车调节时间分别降低30%和25%,可以提升控制的准确性和系统紧急反应能力.   相似文献   

19.
为探索城市信号交叉口进口道范围内机动车换道行为特性,利用无人机拍摄视频提取车辆换道轨迹数据,分析了进口道车辆换道行为的宏观和微观特性。研究结果表明:强制换道行为多发生在距离停车线60 m~90 m处,自由换道行为在90 m~120 m处;换道时间集中分布在4.5 s~5.5 s之间,其中强制换道的平均时间为4.58 s,自由换道时长为3.81 s;强制换道行为主要受目标车道的可插入间隙及前后车辆的速度差影响,但整体来看分布较为分散;自由换道行为追求行车效率,目标车道的交通运行状况往往要优于原车道,换道行为主要受到原车道前车的相对距离和速度影响。本研究成果可以为城市交叉口的理论研究提供方法参考,为进口道的管理与控制提供理论基础。  相似文献   

20.
为加快紧急车辆抵达事故现场的速度,同时减少紧急车辆优先权对其他车辆的影响,运用车路协同系统,提出避让紧急车辆协同换道策略,通过调整紧急车辆下游车辆位置,实现紧急车辆高效通过路段。以紧急车辆前车(DV)及其相邻目标车道车辆为控制对象,根据相邻车道车辆间距与车车通信范围,搜索DV可换道空间间隙集。以交通流整体恢复稳定时间最小为目标,确定DV换道轨迹和相邻车道协作车辆的速度变化,引导车辆完成协同合流,既能保障车辆安全换道,还能降低换道造成的速度振荡传递。同时,为快速恢复DV换道造成的目标车道车辆速度波动,对上游车辆(UV)采取先进先出规则的换道控制策略。所提协同避让紧急车辆的策略考虑了车辆协同换道对交通流的整体影响,并在原有换道策略的基础上提出了减少速度波动传递的控制方法。案例分析结果表明:采用上下游协同换道策略最短换道时间为6s,此时紧急车辆距前车78.66 m时发送避让信号。同时研究发现,恢复交通流速度稳定所需的时间为29 s,比未采用上下游协同换道策略降低了34%。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号