首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对强化学习算法下智能车辆训练中动作选择过程随机性强、训练效率低等问题,提出了基于规则约束和深度Q网络(DQN)算法的智能车辆行驶决策框架,将引入的规则分为与换道相关的硬约束和与车道保持相关的软约束,分别通过动作检测模块(Action Detection Module)与奖励函数来实现。同时结合竞争深度Q网络(Dueling DQN)和双重深度Q网络(Double DQN)对DQN的网络结构进行改进,并引入N步自举(N-Step Bootstrapping)学习提高DQN的训练效率,最后在Highway-env平台高速路场景下与原始DQN算法进行综合对比验证模型的有效性,改进后的算法提高了智能车辆任务成功率和训练效率。  相似文献   

2.
针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高, 比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。   相似文献   

3.
在ADAS的控制算法中,普遍的控制算法只能在本车道跟车,据此提出一种新方法,不仅能使车辆在本车道内跟车,还能在本车道无车的情况下,进行跨车道跟车。首先在考虑前后车辆制动距离的情况下,对车距算法进行了优化,并把其他车道的车辆通过算法投影至本车道;其次搭建了基于模型预测控制(MPC)算法的车辆离散化模型系统,对其控制参数施加约束;最后通过设置前车不同的车速和车况,在CarSim搭建车辆模型并与Matlab/Simulink联合仿真,针对车辆的纵向加速度变化的研究。  相似文献   

4.
针对中国大学生方程式赛车 (FSAC) 在比赛中横向-纵向协同控制的轨迹跟踪精度和稳定性问题,根据现代控制理论和经典控制理论提出一种以纵向速度为结合点的线性二次控制器 (LQR) 和比例-积分-微分算法 (PID) 的横纵向协同控制策略,并根据赛车相对参考轨迹的位置设计了一种协同控制器。建立二自由度车辆动力学模型,基于该模型设计了横向LQR位置跟踪控制器和纵向PID速度跟踪控制器。所设计的控制策略在CarSim和Simulink搭建的循迹工况联合仿真场景下进行仿真验证,仿真结果为纵向位置偏差小于0.07 m,横向位置偏差小于0.03 m。对控制算法进行实车验证,结果表明,该策略有效提高了赛车的轨迹跟踪精度和行驶稳定性。  相似文献   

5.
针对自适应巡航控制系统在控制主车跟驰行驶中受前车运动状态的不确定性影响问题,在分析车辆运动特点的基础上,提出一种能够考虑前车运动随机性的跟驰控制策略。搭建驾驶人实车驾驶数据采集平台,招募驾驶人进行实车跟驰道路试验,建立驾驶人真实驾驶数据库。假设车辆未来时刻的加速度决策主要受前方目标车辆运动影响,建立基于双前车跟驰结构的主车纵向控制架构。将驾驶数据库中的驾驶数据分别视作前车和前前车运动变化历程,利用高斯过程算法建立了前车纵向加速度变化随机过程模型,实现对前方目标车运动状态分布的概率性建模。将车辆跟驰问题构建为一定奖励函数下的马尔可夫决策过程,引入深度强化学习研究主车跟驰控制问题。利用近端策略优化算法建立车辆跟驰控制策略,通过与前车运动随机过程模型进行交互式迭代学习,得到具有运动不确定性跟驰环境下的主车纵向控制策略,实现对车辆纵向控制的最优决策。最后基于真实驾驶数据,对控制策略进行测试。研究结果表明:该策略建立了车辆纵向控制与主车和双前车状态之间的映射关系,在迭代学习过程中对前车运动的随机性进行考虑,跟驰控制中不需要对前车运动进行额外的概率预测,能够以较低的计算量实现主车稳定跟随前车行驶。  相似文献   

6.
针对传统DQN算法下网联车驾驶行为决策的动作选择过程随机性强、探索空间大的问题,研究了结合专家知识和DQN算法的智能车辆决策框架,设计了奖励值函数来引导算法的训练.通过层次分析法(AHP)选取高速场景下车辆驾驶决策中的重要影响因素,利用ID3决策树构建简单而有效的专家规则库;在传统算法基础上,通过设计奖励值函数来优化DQN网络结构,由奖励值函数引导DQN算法来解决高速场景下的车辆决策问题,并在Python仿真环境中构建高速交通场景对该算法进行分析和验证.实验结果表明,在高速直道和并道场景下,达到95%成功率的平均训练次数分别减少了100次和200次,平均奖励值分别提高了4.02和1.34,有效加快了DQN算法的动作选择,降低了探索过程中的动作随机性.   相似文献   

7.
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。   相似文献   

8.
针对现有的深度学习目标检测算法中存在的复杂光照场景下检测精度不高、实时性差等问题,提出了一种基于YOLO算法的抗光照目标检测网络模型YOLO-RLG。首先,将输入模型的RGB数据转换为HSV数据,从HSV数据分离出抗光照能力强的S通道,并与RGB数据合并生成RGBS数据,使输入数据具备抗光照能力;其次,将YOLOV4的主干网络替换成Ghostnet网络,并对其在普通卷积与廉价卷积的模型分配比例上进行调整,在保证检测精度的同时提高检测速度;最后,用EIoU替换CIoU改进模型的损失函数,提高了目标检测精度和算法鲁棒性。基于KITTI与VOC数据集的实验结果表明,与原网络模型比较,FPS提高了22.54与17.84 f/s,模型降低了210.3 M,精确度(AP)提升了0.83%与1.31%,且算法的抗光照能力得到显著增强。  相似文献   

9.
本文提出一种基于逆模型预测控制的拟人驾驶控制方法,利用模型预测控制产生的实轴轨迹与真实轨迹的损失函数更新控制模块代价函数的权重系数实现拟人化驾驶控制。将拟人驾驶控制构建成一个双层优化问题,在下层利用模型预测控制求解一个典型的最优控制问题产生实轴驾驶轨迹,在上层最小化所产生的实轴轨迹和真实驾驶轨迹的误差更新下层代价函数的权重系数,基于极大值微分原理构造辅助系统求解实轴轨迹关于代价函数权重系数的梯度。实车采集真实驾驶轨迹并进行模仿测试与泛化验证,结果表明:本文所提出的方法相比于两类基于虚轴轨迹的逆最优控制方法,在3个工况下与真实驾驶轨迹最大误差分别平均降低了73.52%和65.03%,驾驶行为更加拟人化,且具备泛化性能。  相似文献   

10.
为在嵌入式控制器开发环境下提高智能车辆的路径跟踪精度,采用车辆动力学模型和多点道路预瞄模型,以预瞄窗口内的跟踪偏差为目标函数,结合LQR最优控制原理,提出了一种基于多点预瞄最优控制路径跟踪控制方法。针对实车应用,通过离线计算最优增益的方法,提高算法实时性。在仿真及红旗H7实车环境下进行试验,结果显示,该方法在保证跟踪精度的同时具有良好的算法实时性。  相似文献   

11.
本文中针对单向通信拓扑的非线性车辆队列协同式自适应巡航(CACC)控制问题,提出一种保证队列稳定且满足队列各车跟随性、安全性和乘员舒适性的分布式模型预测控制(DMPC)策略。首先建立了车辆队列的动力学模型和通信拓扑结构模型,并基于队列系统的多项优化性能设计代价函数和系统约束,使队列中每一辆跟随车基于其接收到的有限信息求解一个开环局部最优问题,计算出当前时刻的最优控制量作为输入并不断重复这个过程,达到滚动优化的目的,实现车辆队列的协同式自适应巡航控制。其次通过CACC系统局部代价函数之和构建Lyapunov候选函数,证明了车辆队列系统渐进稳定性的充分条件。最后通过CarSim和Simulink联合仿真,分析了算法在理想状态下对不同形式单向通信拓扑车辆队列的控制性能;通过实车试验,验证了算法在实车条件下感知层存在抖动、底层控制存在延迟和误差时的控制性能。仿真和实车试验的结果表明,本文提出的控制策略能使队列车辆实现各项优化性能,同时对外部干扰有较好的鲁棒性。  相似文献   

12.
为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。  相似文献   

13.
在具有车道线的特定自动驾驶场景中,针对目前端到端的行为决策算法直接输入原始图像进行决策导致的网络模型迁移性差、预测精度欠佳、泛化能力不足等问题,提出一种基于分段学习模型的车辆自动驾驶行为决策算法。首先,基于GoogLeNet建立一种端到端的车道线检测网络模型,并引入车道中心线作为决策的重要线索提高算法的迁移能力,同时利用YOLOv3目标检测模型对本车道内前方最近障碍物进行位置检测;而后,经几何测量模型将两者检测结果转换成环境状态信息向量为决策做支撑;最后,构建基于长短期记忆(LSTM)网络的驾驶行为决策模型,根据编码的历史状态信息刻画出动态环境中车辆的运动模式,并结合当前时刻的状态推理得到驾驶行为参量。使用建立的真实驾驶场景数据集对模型分别进行训练、验证与测试,离线测试结果显示车道线检测模型的检测位置误差小于1.3%,车道内前方障碍物检测模型的检测精度达98%以上,驾驶行为决策网络模型表征预测优度的决定系数 大于0.7。为进一步验证算法的有效性,搭建了Simulink/PreScan联合仿真平台,多种工况下的仿真验证试验中多个评价指标均达到工程精度要求,实车测试的试验结果也表明该算法可实现复杂驾驶场景下平稳、准确无偏航的预测效果并满足实时性要求,且与传统端到端模式的算法相比,具有更好的迁移性和泛化能力。  相似文献   

14.
针对传统自动紧急制动策略制动减速度波动大、制动过程乘坐舒适性及弯道制动安全难以保障的问题,提出一种基于深度强化学习的汽车自动紧急制动策略。建立了包括纵向、横向及横摆运动的3自由度车辆模型,根据碰撞预警时间设计奖励函数,应用深度确定性策略梯度算法设计了基于深度强化学习的自动紧急制动策略,开展了直道行驶工况与弯道行驶工况仿真测试。结果表明,所提出的策略具有很好的收敛性,在满足中国新车评价规程(C-NCAP)的直道行驶安全性要求的同时,提高了紧急制动时的乘坐舒适性,且实现了汽车弯道行驶的自动紧急制动,提高了弯道行驶安全性。  相似文献   

15.
作为高级别自动驾驶的下一代技术方向,类脑学习以深度神经网络为策略载体,以强化学习为训练手段,通过与环境的交互探索实现策略的自我进化,最终获得从环境状态到执行动作的最优映射。目前,类脑学习方法主要用于自动驾驶的决策与控制功能设计,它的关键技术包括:界定策略设计的系统框架、支持交互训练的仿真平台、决定策略输入的状态表征、定义策略目标的评价指标以及驱动策略更新的训练算法。本文重点梳理了自动驾驶决策控制的发展脉络,包括两类模块化架构(分层式和集成式)和3种技术方案(专家规则型、监督学习型和类脑学习型);概述了当前主流的自动驾驶仿真平台;分析了类脑决控的3类环境状态表征方法(目标式、特征式和组合式);同时介绍了自动驾驶汽车的五维度性能评价指标(安全性、合规性、舒适性、通畅性与经济性);然后详述了用于车云协同训练的典型强化学习算法及其应用现状;最后总结了类脑自动驾驶技术的问题挑战与发展趋势。  相似文献   

16.
针对电动汽车动力电池故障数据稀缺导致诊断模型泛化能力差的问题,提出了基于生成对抗网络(GAN)的数据增强方法,根据增强后的数据,利用随机森林(RF)模型结合贝叶斯优化(BO)方法设计故障诊断方案,形成GAN-RF-BO电池故障诊断框架,并在真实故障数据集上与常用的多层感知机(MLP)模型、支持向量机(SVM)模型和梯度提升决策树(GBDT)模型进行泛化能力对比,结果表明,所提出的故障诊断方案准确率较MLP模型、SVM模型和GBDT模型分别提高19.66%、19.71%及16.31%,GAN-RF-BO框架能有效利用稀缺数据诊断动力电池故障。  相似文献   

17.
现有的多数变步长主动控制算法的思路是建立步长参数与误差之间的非线性函数。本文中提出了一种基于反正切函数的迭代变步长FxLMS算法(iterative variable step-size FxLMS,IVS-FxLMS);然后根据发动机转速信号构造参考信号,再利用IVS-FxLMS算法对驾驶员耳侧的2阶、4阶和6阶发动机噪声进行主动控制效果仿真;最后基于某国产车设计搭建主动控制系统软硬件进行实车实验来验证仿真结果。实验结果表明,车内发动机阶次噪声得到有效抑制,降低了车内发动机轰鸣声。  相似文献   

18.
融合毫米波雷达与深度视觉的多目标检测与跟踪   总被引:1,自引:0,他引:1  
针对现有融合毫米波雷达与传统机器视觉的车辆检测算法准确率较低与实时性较差的问题,本文中对多目标检测与跟踪进行研究。首先,利用阈值筛选和前后帧数据关联方法对毫米波雷达数据进行预处理,进而提出一种用于毫米波雷达数据跟踪的自适应扩展卡尔曼滤波算法。然后,为提高目标检测精度与速度,基于采集到的实车数据集训练卷积神经网络,完成深度视觉的多车辆检测。最后,采用决策级融合策略融合毫米波雷达与深度视觉信息,设计了一种用于复杂交通环境下前方车辆多目标检测与跟踪的框架。为验证所设计的框架,进行了不同交通环境下的实车实验。结果表明:该方法可实时检测跟踪前方车辆,具有比融合毫米波雷达与传统机器视觉的车辆检测方法更好的可靠性与鲁棒性。  相似文献   

19.
针对智能车辆在轨迹跟踪过程中的横向控制问题,提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的智能车辆轨迹跟踪控制方法。首先,将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程,强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架;强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次,所提出方法的学习主体以DDPG方法更新,其中采用回忆缓冲区解决样本相关性的问题,复制结构相同的神经网络解决更新发散问题。最后,将所提出的方法在不同场景中进行训练验证,并与深度Q学习方法(Deep Q-Learning,DQN)和模型预测控制(Model Predictive Control,MPC)方法进行比较。研究结果表明:基于DDPG的强化学习方法所用学习时间短,轨迹跟踪控制过程中横向偏差和角偏差小,且能满足不同车速下的跟踪要求;采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报;在2种仿真场景中,基于DDPG的学习总时长分别为DQN的9.53%和44.19%,单个片段的学习时长仅为DQN的20.28%和22.09%;以DDPG、DQN和MPC控制方法进行控制时,在场景1中,基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%,仿真时间分别为DQN和MPC的12.88%和53.45%;在场景2中,基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%,仿真时间分别为DQN和MPC的20.64%和58.60%。  相似文献   

20.
提高人类驾驶人的接受度是自动驾驶汽车未来的重要方向,而深度强化学习是其发展的一项关键技术。为了解决人机混驾混合交通流下的换道决策问题,利用深度强化学习算法TD3(Twin Delayed Deep Deterministic Policy Gradient)实现自动驾驶汽车的自主换道行为。首先介绍基于马尔科夫决策过程的强化学习的理论框架,其次基于来自真实工况的NGSIM数据集中的驾驶数据,通过自动驾驶模拟器NGSIM-ENV搭建单向6车道、交通拥挤程度适中的仿真场景,非自动驾驶车辆按照数据集中驾驶人行车数据行驶。针对连续动作空间下的自动驾驶换道决策,采用改进的深度强化学习算法TD3构建换道模型控制自动驾驶汽车的换道驾驶行为。在所提出的TD3换道模型中,构建决策所需周围环境及自车信息的状态空间、包含受控汽车加速度和航向角的动作空间,同时综合考虑安全性、行车效率和舒适性等因素设计强化学习的奖励函数。最终在NGSIM-ENV仿真平台上,将基于TD3算法控制的自动驾驶汽车换道行为与人类驾驶人行车数据进行比较。研究结果表明:基于TD3算法控制的车辆其平均行驶速度比人类驾驶人的平均行车速度高4.8%,在安全性以及舒适性上也有一定的提升;试验结果验证了训练完成后TD3换道模型的有效性,其能够在复杂交通环境下自主实现安全、舒适、流畅的换道行为。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号