首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
强化学习的发展推动了自动驾驶决策技术的进步,智能决策技术已成为自动驾驶领域高度关注的要点问题。本文以强化学习算法发展为主线,综述该算法在单车自动驾驶决策领域的深入应用。对强化学习传统算法、经典算法和前沿算法从基本原理和理论建模等方面进行归纳总结与对比分析。针对不同场景的自动驾驶决策方法分类,分析环境状态可观测性对建模的影响,重点阐述了不同层次强化学习典型算法的应用技术路线,并对自动驾驶决策方法提出研究展望,以期为自动驾驶决策方案研究提供有益参考。  相似文献   

2.
提高人类驾驶人的接受度是自动驾驶汽车未来的重要方向,而深度强化学习是其发展的一项关键技术。为了解决人机混驾混合交通流下的换道决策问题,利用深度强化学习算法TD3(Twin Delayed Deep Deterministic Policy Gradient)实现自动驾驶汽车的自主换道行为。首先介绍基于马尔科夫决策过程的强化学习的理论框架,其次基于来自真实工况的NGSIM数据集中的驾驶数据,通过自动驾驶模拟器NGSIM-ENV搭建单向6车道、交通拥挤程度适中的仿真场景,非自动驾驶车辆按照数据集中驾驶人行车数据行驶。针对连续动作空间下的自动驾驶换道决策,采用改进的深度强化学习算法TD3构建换道模型控制自动驾驶汽车的换道驾驶行为。在所提出的TD3换道模型中,构建决策所需周围环境及自车信息的状态空间、包含受控汽车加速度和航向角的动作空间,同时综合考虑安全性、行车效率和舒适性等因素设计强化学习的奖励函数。最终在NGSIM-ENV仿真平台上,将基于TD3算法控制的自动驾驶汽车换道行为与人类驾驶人行车数据进行比较。研究结果表明:基于TD3算法控制的车辆其平均行驶速度比人类驾驶人的平均行车速度高4.8%,在安全性以及舒适性上也有一定的提升;试验结果验证了训练完成后TD3换道模型的有效性,其能够在复杂交通环境下自主实现安全、舒适、流畅的换道行为。  相似文献   

3.
作为高级别自动驾驶的下一代技术方向,类脑学习以深度神经网络为策略载体,以强化学习为训练手段,通过与环境的交互探索实现策略的自我进化,最终获得从环境状态到执行动作的最优映射。目前,类脑学习方法主要用于自动驾驶的决策与控制功能设计,它的关键技术包括:界定策略设计的系统框架、支持交互训练的仿真平台、决定策略输入的状态表征、定义策略目标的评价指标以及驱动策略更新的训练算法。本文重点梳理了自动驾驶决策控制的发展脉络,包括两类模块化架构(分层式和集成式)和3种技术方案(专家规则型、监督学习型和类脑学习型);概述了当前主流的自动驾驶仿真平台;分析了类脑决控的3类环境状态表征方法(目标式、特征式和组合式);同时介绍了自动驾驶汽车的五维度性能评价指标(安全性、合规性、舒适性、通畅性与经济性);然后详述了用于车云协同训练的典型强化学习算法及其应用现状;最后总结了类脑自动驾驶技术的问题挑战与发展趋势。  相似文献   

4.
端到端自动驾驶算法的开发现已成为当前自动驾驶技术研发的热点。经典的强化学习算法利用车辆状态、环境反馈等信息训练车辆行驶,通过试错学习获得最佳策略,实现了端到端的自动驾驶算法开发,但仍存在开发效率低下的问题。为解决虚拟仿真环境下训练强化学习算法的低效性和高复杂度问题,本文提出了一种异步分布式强化学习框架,并建立了进程间和进程内的多智能体并行柔性动作-评价(soft actor-critic, SAC)分布式训练框架,加速了Carla模拟器上的在线强化学习训练。同时,为进一步实现模型的快速训练和部署,本文提出了一种基于Cloud-OTA的分布式模型快速训练和部署系统架构,系统框架主要由空中下载技术(over-the-air technology, OTA)平台、云分布式训练平台和车端计算平台组成。在此基础上,本文为了提高模型的可复用性并降低迁移部署成本,搭建了基于ROS的Autoware-Carla集成验证框架。实验结果表明,本文方法与多种主流自动驾驶方法定性相比训练速度更快,能有效地应对密集交通流道路工况,提高了端到端自动驾驶策略对未知场景的适应性,减少在实际环境中进行实验所需的时间和资...  相似文献   

5.
对自动驾驶汽车的横向运动控制技术进行了介绍,从车辆模型、控制策略、控制方法 3个方面分析了横向运动控制的国内外研究现状。针对目前横向运动控制研究中存在的问题,提出未来自动驾驶横向运动控制的研究应趋向于横/纵向运动控制耦合、车辆底盘控制技术与自动驾驶运动控制技术结合,以及车联网模型下的新型运动控制技术探索几个方向,以实现横向运动控制技术综合性能的进一步提高。  相似文献   

6.
针对自适应巡航控制系统在控制主车跟驰行驶中受前车运动状态的不确定性影响问题,在分析车辆运动特点的基础上,提出一种能够考虑前车运动随机性的跟驰控制策略。搭建驾驶人实车驾驶数据采集平台,招募驾驶人进行实车跟驰道路试验,建立驾驶人真实驾驶数据库。假设车辆未来时刻的加速度决策主要受前方目标车辆运动影响,建立基于双前车跟驰结构的主车纵向控制架构。将驾驶数据库中的驾驶数据分别视作前车和前前车运动变化历程,利用高斯过程算法建立了前车纵向加速度变化随机过程模型,实现对前方目标车运动状态分布的概率性建模。将车辆跟驰问题构建为一定奖励函数下的马尔可夫决策过程,引入深度强化学习研究主车跟驰控制问题。利用近端策略优化算法建立车辆跟驰控制策略,通过与前车运动随机过程模型进行交互式迭代学习,得到具有运动不确定性跟驰环境下的主车纵向控制策略,实现对车辆纵向控制的最优决策。最后基于真实驾驶数据,对控制策略进行测试。研究结果表明:该策略建立了车辆纵向控制与主车和双前车状态之间的映射关系,在迭代学习过程中对前车运动的随机性进行考虑,跟驰控制中不需要对前车运动进行额外的概率预测,能够以较低的计算量实现主车稳定跟随前车行驶。  相似文献   

7.
决策与规划是自动驾驶系统的中枢,是提高自动驾驶车辆行驶安全、驾乘体验、出行效率的关键。其面临的主要挑战在于如何满足自动驾驶所需的极高可靠性和安全性,以及如何有效应对场景复杂性、环境多变性、交通动态性、博弈交互性及信息完备性并产生类人化的驾驶行为,使车辆自然地融入交通生态。为全面了解决策与规划的前沿问题与研究进展,对其技术要点进行系统梳理与总体概述。首先,从数据驱动的驾驶行为预测、概率模型的驾驶行为预测、个性化驾驶行为预测三方面综述了面向态势认知的行为预测的研究进展;其次,将行为决策总结归纳为反应式决策、学习式决策、交互式决策并逐一进行了分析;再次,从方法论的角度对运动规划及其应用进行对比分析,具体包括图搜索方法、采样方法、数值方法、拟合插值曲线方法等;然后,针对端到端的决策规划的关键科学问题和主要研究进展进行了归纳分析;最后,总结了决策规划对提升自动驾驶车辆智能化水平的重要影响,并展望了其未来的发展趋势与面临的技术挑战。  相似文献   

8.
在自动驾驶车辆研究领域中,SLAM车辆感知是热点研究领域之一,SLAM根据里程计类型可分为以视觉为主和以激光为主。两者本质上都以实现位姿估计和地图构建为目的,激光里程计主要是构建点云地图比较直观,视觉里程计构建的是稀疏视觉特征的地图。本文提出紧耦合双里程计传感器融合的SLAM框架,以完成实时状态估计和地图构建,并且具有高精度和鲁棒性。该方法可以有效地解决传统基于视觉或激光算法或者视觉和激光单一松耦合中累积误差的问题,框架融合了视觉与激光惯性的各自优点而形成两个子系统,这两个子系统采用紧密耦合方式进行设计,构成一个完整的系统。实验通过Ouster数据集评估绝对轨迹整体误差,并且该方法在自动驾驶接驳车中的应用表现出较高的精度。  相似文献   

9.
在具有车道线的特定自动驾驶场景中,针对目前端到端的行为决策算法直接输入原始图像进行决策导致的网络模型迁移性差、预测精度欠佳、泛化能力不足等问题,提出一种基于分段学习模型的车辆自动驾驶行为决策算法。首先,基于GoogLeNet建立一种端到端的车道线检测网络模型,并引入车道中心线作为决策的重要线索提高算法的迁移能力,同时利用YOLOv3目标检测模型对本车道内前方最近障碍物进行位置检测;而后,经几何测量模型将两者检测结果转换成环境状态信息向量为决策做支撑;最后,构建基于长短期记忆(LSTM)网络的驾驶行为决策模型,根据编码的历史状态信息刻画出动态环境中车辆的运动模式,并结合当前时刻的状态推理得到驾驶行为参量。使用建立的真实驾驶场景数据集对模型分别进行训练、验证与测试,离线测试结果显示车道线检测模型的检测位置误差小于1.3%,车道内前方障碍物检测模型的检测精度达98%以上,驾驶行为决策网络模型表征预测优度的决定系数 大于0.7。为进一步验证算法的有效性,搭建了Simulink/PreScan联合仿真平台,多种工况下的仿真验证试验中多个评价指标均达到工程精度要求,实车测试的试验结果也表明该算法可实现复杂驾驶场景下平稳、准确无偏航的预测效果并满足实时性要求,且与传统端到端模式的算法相比,具有更好的迁移性和泛化能力。  相似文献   

10.
冯润泽  江昆  于伟光  杨殿阁 《汽车工程》2022,(3):434-441+448
自动驾驶技术对于缓解交通拥堵,降低交通运输成本具有重要作用;高级驾驶辅助系统(ADAS)可以有效增加汽车驾驶的舒适性和安全性。交通标志牌中包含了丰富的语义信息,为自动驾驶汽车和ADAS的决策提供重要约束,因此交通标志牌的识别算法开发至关重要。本文基于中国交通场景特点以及自动驾驶、ADAS对于交通标志牌识别的高准确性需求,提出了一种基于两阶段分类的交通标志牌识别算法框架。算法包含检测和分类两个阶段,检测阶段检测出图像中的交通标志牌,分类阶段对交通标志牌先后进行大类和子类划分。算法通过细化任务,独立提升各算法模块的性能,进而提高整体算法的识别精度。本文对单阶段识别算法进行改进作为算法的检测模块,实验结果表明,提出的算法精度上优于基准单阶段识别算法,mAP平均提升8.52%,并且在检测速度优于传统两阶段识别算法Faster RCNN的情况下,mAP提升40%以上。  相似文献   

11.
在自动驾驶车辆与人工驾驶车辆混行的复杂交通环境中,如何减小驾驶行为截然不同的2类车辆间的复杂相互作用对于车辆行驶安全性、乘坐舒适性和交通通行效率的影响,是当前自动驾驶决策与控制领域亟待解决的关键问题。提出了一个人机混驾环境下人工驾驶车辆与自动驾驶车辆之间的非合作博弈交互框架。首先,综合考虑车辆加速度线性递减的驾驶人纵向操纵特性、差异化配合程度和不同的延迟响应特性,建立人工驾驶车辆的纵向博弈策略。其次,考虑自动驾驶车辆与周围车辆的安全性约束,以及自动驾驶车辆在换道过程中的舒适性和通行效率目标,设计了自动驾驶车辆的纵向博弈策略。然后,基于主从博弈理论对不同混驾环境下人工驾驶车辆与自动驾驶车辆的博弈交互问题进行求解,得到最优的换道间隙和自动驾驶车辆的纵向速度轨迹,并采用模型预测控制方法规划出自动驾驶车辆的横向安全换道轨迹。最后,根据人工驾驶车辆不同配合度和延迟响应时间的差异,设计了多组人机混驾试验工况进行验证。试验结果表明:自动驾驶车辆能够快速准确识别人工驾驶车辆的配合度,选择出最优的目标换道间隙,并与间隙周围的自动驾驶车辆协作来汇入目标间隙。在换道过程中,自动驾驶车辆始终与周围车辆保持安全...  相似文献   

12.
将传统强化学习算法应用到交叉口自适应交通信号控制中,存在着维数灾难的问题,即状态和动作空间大小随着交叉口的增加而呈指数增长。因此,将交叉口自适应交通信号控制问题看成马尔科夫决策过程(MDP)问题,通过有效地利用基于特征的状态表示和线性平均函数估计思想,减少了计算复杂度,保证了收敛性。在设置的多交叉口交通环境下,仿真试验表明:在不同的交通需求水平和车流到达分布下,此算法均优于定时控制和传统的强化学习算法,并且其参数θ和学习步数是收敛的。  相似文献   

13.
针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高, 比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。   相似文献   

14.
针对自动驾驶车辆换道轨迹规划时的操纵稳定性问题,基于CarSim/Simulink仿真平台建立了车辆动力学模型,构建了轨迹规划系统框架,通过轨迹信息后处理并提出了目标函数设计,进行了横向控制序列采样以保证车辆的稳定与极限性能,完成了算法对轨迹的综合评价选优。随后开展了仿真试验,对比分析了轨迹跟踪控制系统下的实际轨迹、最优规划方法所规划的换道轨迹。仿真结果表明,该轨迹规划系统框架及算法模型能有效提高车辆的操纵稳定性,可实现冰雪路面等极端工况下自动驾驶车辆换道轨迹规划。  相似文献   

15.
自动驾驶汽车需具备预测周围车辆轨迹的能力,以便做出合理的决策规划,提高行驶安全性和乘坐舒适性。运用深度学习方法,设计了一种基于长短时记忆(LSTM)网络的驾驶意图识别及车辆轨迹预测模型,该模型由意图识别模块和轨迹输出模块组成。意图识别模块负责识别驾驶意图,其利用Softmax函数计算出驾驶意图分别为向左换道、直线行驶、向右换道的概率;轨迹输出模块由编码器-解码器结构和混合密度网络(MDN)层组成,其中的编码器将历史轨迹信息编码为上下文向量,解码器结合上下文向量和已识别的驾驶意图信息预测未来轨迹;引入MDN层的目的是利用概率分布来表示车辆未来位置,而非仅仅预测一条确定的轨迹,以提高预测结果的可靠性和模型的鲁棒性。此外,将被预测车辆及其周围车辆组成的整体视为研究对象,使模型能够理解车-车间的交互式行为,响应交通环境的变化,动态地预测车辆位置。使用基于真实路况信息的NGSIM(Next Generation SIMulation)数据集对模型进行训练、验证与测试。研究结果表明:与传统的基于模型的方法相比,基于LSTM网络的轨迹预测方法在预测长时域轨迹上具有明显的优势,考虑交互式信息的意图识别模块具备更高的预判性和准确率,且基于意图识别的轨迹预测能降低预测轨迹与真实轨迹间的均方根误差,显著提高轨迹预测精度。  相似文献   

16.
针对自动驾驶车辆系统中的车辆控制问题,采用一种基于模型预测控制的横纵向协调控制方法,实现车辆的轨迹跟踪控制。所设计的控制器将车辆横向控制问题、纵向控制问题综合考虑,使用模型预测控制方法将轨迹跟踪控制问题转化为优化问题,以位置和速度误差为优化目标,同时考虑控制的平滑性,最终求解出最优的控制输入。仿真结果表明:所设计的控制器能达到较好的控制效果。  相似文献   

17.
针对现有端到端自动驾驶模型未考虑驾驶场景中不同区域的重要性和不同语义类别之间的关系而导致预测准确率低的问题,受驾驶人注意力机制和现有端到端自动驾驶模型的启发,充分考虑驾驶场景的动态变化、驾驶场景的语义信息和深度信息对驾驶行为决策的影响,以连续多帧驾驶场景的RGB图像为输入,构建一种基于注意力机制的多模态自动驾驶行为预测模型,实现对方向盘转角和车速的准确预测。首先,通过语义分割模型和单目深度估计模型分别获取RGB图像的语义图像和深度图像;其次,为剔除与驾驶行为决策无关信息,以神经科学和空间抑制理论为基础,设计一种拟人化注意力机制作为能量函数来计算驾驶场景中不同区域的重要度;为学习语义图像中与驾驶行为决策最为相关类别之间的关系,采用图注意力网络(Graph Attention Network,GAT)对驾驶场景的语义图像进行特征提取;然后,以保留RGB特征为原则对提取的驾驶场景的图像特征、语义特征和深度特征进行融合,采用卷积长短期记忆网络(Convolutional Long Short Term Memory,ConvLSTM)实现融合特征在连续多帧之间的传递,进而实现下一帧驾驶场景对应驾驶行为的预测;最后,与其他模型的对比试验、消融试验、泛化试验和特征可视化试验来充分验证所提出自动驾驶行为预测模型的性能。试验结果表明:与其他驾驶行为预测模型相比,所提出模型的训练误差为0.021 2,预测准确率为86.97%,均方误差为0.031 5,其驾驶行为的预测性能优于其他模型;连续多帧的语义图像和深度图像、拟人化注意力机制和面向语义特征提取的GAT有助于提升驾驶行为预测的性能;该模型具有较好的泛化能力,其做出驾驶行为预测所依赖的特征与经验丰富的驾驶人所关注的特征基本一致。  相似文献   

18.
为提高网络延迟攻击下自动驾驶车辆定位估计算法的精确度,研究了延迟模型下自动驾驶车辆定位的无偏差有限脉冲响应(UFIR)估计器设计方法,并仿真实验。搭建延迟攻击下的车辆运动学模型,拓展模型至有限长度的时间窗口,推导UFIR算法按批处理式与迭代式表达形式,分析Apollo系统各功能模块的数据流动,基于LG开源自动驾驶仿真器(LGSVL)与Apollo系统,搭建联合仿真测试平台并开展实验。结果表明:与Kalman滤波器(KF)相比,该算法估计精确度更高;当延迟数据出现较大变化时,算法响应速度更快,波动幅值更小,鲁棒性更强。当数据延迟时间小于等于1 s时,估计效果良好。因而,验证了基于LGSVL与Apollo系统进行自动驾驶仿真实验的可行性。  相似文献   

19.
换道是一种具有极高风险的驾驶行为,许多交通事故发生在换道过程中,相邻车道车辆的突然换道行为会产生很大安全风险并影响车辆的乘坐舒适性,对周围车辆的换道行为进行预测对驾驶辅助系统和自动驾驶汽车都十分必要。随着V2X(Vehicle-to-Everything)技术、5G技术的快速发展,车辆可以从周围环境中获得更多信息,使换道行为预测成为可能。文中对换道意图的产生及换道过程进行分析,将换道过程分为换道意图产生阶段、换道准备阶段和执行阶段,总结将车辆上各种传感器获得的车辆速度、加速度、位置、方向盘转角等信息及通过V2X技术从交通环境中获得的信息用于换道行为预测的主要方法。目前许多研究采用机器学习方法,按照所使用的数据类型可分为基于驾驶员生理活动信息的方法和基于车辆CAN总线信息、运动学及其与周围车辆运动关系信息的方法,也有研究将二者相结合。数据驱动的换道行为预测方法也可用于车辆的主动换道决策和执行过程,强化学习(RL)算法可以从真实数据中学习决策和驾驶行为,而这些对于传统的基于规则的方法来说基本不可行,故其在研究车辆主动换道时被广泛使用。  相似文献   

20.
提出了基于自动深度学习(AutoDL)算法和多目标优化算法的结合可实现数据驱动的姿态偏差控制指导,用于盾构掘进姿态的预测与控制,以解决现有盾构掘进姿态预测中所面临的执行难度高、成本高、效率低等问题,可用于自动精准地预测盾构掘进姿态随着工程进展的动态变化趋势,并针对盾构机施工状态执行多目标优化算法,快速自动搜寻最优策略,实时调整合适的盾构操作参数,减少对于现场操作人员经验和主观判断的依赖。以上海市天然气主干管网崇明岛-长兴岛-浦东新区五号沟LNG站管道工程隧道A线工程为例,展示该算法框架的优越性。研究结果有助于降低深度学习进入盾构智能控制领域的门槛,推动智能盾构发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号