共查询到18条相似文献,搜索用时 62 毫秒
1.
为提高自动驾驶车辆的跟驰性能,减轻交通震荡干扰的负面影响,研究了1种基于深度强化学习的自动驾驶跟驰模型。在现有奖励函数设计基础上融入对能源消耗的考虑,基于VT-Micro模型构建能耗相关项;同时对使用跟车时距构建行驶效率因素相关项的方法进行优化,添加虚拟速度来避免在交通震荡场景中出现计算溢出和车间距过近的问题。为克服过往抑制震荡研究中仅用闭合环状模拟道路和仿真车辆轨迹开展训练的局限性,选用NGSIM轨迹数据中交通震荡阶段的驾驶员行为特征搭建训练环境,应用双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient Algorithm,TD3)训练形成多目标优化的跟驰模型。进一步构建模型性能测试评价体系,对比分析TD3模型与其他传统模型在跟车与交通震荡2类测试场景中的表现。跟车测试场景实验结果表明:在舒适度与行驶效率上,TD3模型和传统自适应巡航控制(Adaptive Cruise Control, ACC)模型表现相近,二者均优于人类驾驶员;在安全性上,TD3模型相较于传统ACC模型安全隐患降低53.65%,相较于人类驾驶... 相似文献
2.
3.
针对传统的协同式自适应巡航控制的算法响应慢、无法快速准确地对突发危险路况做出反应的问题,设计了基于深度强化学习的协同式自适应巡航控制框架,提出了双经验池和优化评价的深度确定性策略梯度算法.在传统算法基础上新建了2个包含车辆状态信息的经验池(优先价值经验池和撒普列经验池),训练数据样本分别从2个经验池按比例选取;critic评价模块采用多维向量对输出的踏板开度策略精确评价.结果表明,该算法在正常行驶工况和突发危险工况下:平均跟车间距误差分别下降1.8 m和1.5 m,跟车调节时间分别降低30%和25%,可以提升控制的准确性和系统紧急反应能力. 相似文献
4.
5.
由于在现实生活中能够采集到的不同雾天等级的高速公路车辆跟驰样本有限,导致雾天跟驰模型精度不佳,为此在长短时记忆神经网络(long short-term memory,LSTM)跟驰模型的基础上,采用迁移学习(transfer learning,TL)方法来提升雾天跟驰模型的性能。利用驾驶模拟实验平台搭建高速公路雾天与正常天气2种实验场景进行驾驶模拟实验,获得296组正常天气下(源域)的跟驰样本与100组雾天下(目标域)的跟驰样本。提出了基于最长公共子序列(longest common sequence solution,LCSS)的迁移样本选择方法,从源域中选出100个样本迁移至目标域中,通过扩大训练样本提升LSTM从源域、目标域特征到目标域输出的端对端泛化学习能力,得到雾天高速公路车辆跟驰模型。为对比所提样本迁移方法对LSTM模型的效用,将LSTM-TL模型与训练样本全部来源于源域的LSTM-S模型和训练样本全部来源于目标域的LSTM-T模型进行对比,LSTM-TL模型的均方误差、均方根误差和平均绝对误差比LSTM-S模型分别减小47.5%、27.7%和46.5%,比LSTM-T模型减小31.1%、17.0%和29.9%。为对比不同模型在仅有100组目标域样本时的性能,将LSTM-TL模型与Gipps、IDM、BP这3个模型进行对比,LSTM-TL模型的均方误差、均方根误差和平均绝对误差比3个模型中表现最优的Gipps模型减小18.5%、8.0%和25.9%。结果表明:直接将LSTM-S模型应用于目标域的预测,其精度不高,采用样本迁移合理可行;LCSS方法对源域样本筛选有效,由100个源域样本迁移到目标域训练得到的LSTM-TL模型的精度最高;在小样本情况下,拥有较少参数的Gipps模型预测精度优于LSTM-T或LSTM-S模型,但由于迁移学习能够从源域样本中获取知识的特性,LSTM-TL模型有着最高的精度。 相似文献
6.
基于驾驶员认知过程的车辆跟驰模型的建立 总被引:1,自引:2,他引:1
基于认知心理学的有关知识,提出一种将驾驶员的直觉、分析和推理三者相结合的驾驶员认知结构基本框架,在此框架体系下对车辆跟驰过程中驾驶员的认知过程进行了详细的分析;结合五轮仪试验系统采集的数据,采用因子分析法确定出对驾驶员的车辆跟驰信息提取过程有独立作用的4个因素,包括前车位移、前车速度、前车加速度和后车位移,相应地将驾驶员认知过程划分为4个阶段,构建了跟驰过程中驾驶员的认知结构模型,并对各个阶段做出了具体分析,建立了相应的车辆跟驰模型。仿真结果表明,基于驾驶员认知过程的跟驰模型可以较好地揭示跟驰过程中的驾驶行为。 相似文献
7.
针对THS-Ⅲ平台的插电式混合动力汽车提出一种基于深度强化学习的能量管理策略。首先,使用MATLAB/Simulink搭建车辆前向仿真模型;其次,建立车辆能量管理的马尔可夫过程和深度强化学习算法;最后,使用WLTC-Class3和ACC-60工况进行了仿真验证。结果表明,与基于规则的能量管理策略相比,基于深度强化学习的能量管理策略在WLTC-Class3工况下总花费节省16.51%,燃油消耗量下降15.56%,在ACC-60工况下总花费节省31.95%,燃油消耗量下降29.96%。 相似文献
8.
利用GPS收集了大量北京市快速路上车辆跟驰状态下的驾驶行为数据.以GPS采集的行为数据为前车驾驶数据,采用不同车辆跟驰模型来模拟并输出后车的跟驰行为.对连续的瞬时速度按照60s集成并且划分平均速度区间,在同速度区间内对比分析了不同跟驰模型输出的机动车比功率(VSP)分布与真实分布的差异.其后,利用车载油耗仪收集实测的逐秒油耗数据,采用基于VSP分布的油耗测算方法,测算并对比了不同跟驰模型的平均油耗率和油耗因子与真实油耗的差异.研究发现前后车全速度差是车辆跟驰模型中的关键参数,其能明显提升仿真跟驰行为VSP分布的准确性,进而更准确地测算车辆跟驰状态下的燃油消耗. 相似文献
9.
10.
基于最小安全距离的车辆跟驰模型研究 总被引:1,自引:0,他引:1
在传统的基于车头时距的安全距离模型和基于制动过程的安全距离模型的研究基础上,针对前导车分别处于静止、匀速和匀减速等不同行驶状态,相应地建立了单车道跟驰状态下跟随车与前导车不发生追尾碰撞的最小安全距离模型,并充分考虑了车辆制动过程中减速度渐变的过程,避免了以往模型中采用制动减速度突变的问题。最后,通过M atlab仿真系统对改进模型和传统模型进行了同等条件下的仿真,仿真数据从理论上验证了改进模型能够很好地解决传统模型计算的安全距离存在较大偏差的问题,可为今后研究跟驰模型提供一定的参考。 相似文献
11.
针对智能车辆在轨迹跟踪过程中的横向控制问题,提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的智能车辆轨迹跟踪控制方法。首先,将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程,强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架;强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次,所提出方法的学习主体以DDPG方法更新,其中采用回忆缓冲区解决样本相关性的问题,复制结构相同的神经网络解决更新发散问题。最后,将所提出的方法在不同场景中进行训练验证,并与深度Q学习方法(Deep Q-Learning,DQN)和模型预测控制(Model Predictive Control,MPC)方法进行比较。研究结果表明:基于DDPG的强化学习方法所用学习时间短,轨迹跟踪控制过程中横向偏差和角偏差小,且能满足不同车速下的跟踪要求;采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报;在2种仿真场景中,基于DDPG的学习总时长分别为DQN的9.53%和44.19%,单个片段的学习时长仅为DQN的20.28%和22.09%;以DDPG、DQN和MPC控制方法进行控制时,在场景1中,基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%,仿真时间分别为DQN和MPC的12.88%和53.45%;在场景2中,基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%,仿真时间分别为DQN和MPC的20.64%和58.60%。 相似文献
12.
针对公路交通流非线性、不确定性和模糊性特点,提出了面向控制的交通网络宏观动态离散模型,并且引入分布式强化学习来解决交通网络的控制与诱导问题。以传统网络交通流模型Metanet为基础,对其作了改进,引入起讫点的因素到模型中,提出基于OD的网络交通流动态模型Metanet-OD。根据交通网络的特点,将分布式强化学习DRL引入到交通网络中,进行匝道控制和可变显示牌的诱导控制,设定了强化学习的动作空间,并给出了DRL算法。在仿真试验中对控制效果进行了验证。 相似文献
13.
“互联网+”模式下区域停车“用户-资源”优化匹配是解决找车位难问题的有效途径,传统研究主要关注动态匹配机制设计,缺乏对用户匹配时机的考虑。在随机动态环境下,用户到达目的地附近后进行适当的延时等待,往往可以获得更优质的泊位资源,但取决于当前的停车供需模式。据此首次提出智能延时匹配策略,将每个停车用户抽象为智能体,构建多智能体深度Q学习模型(M-DQN)。结合系统的停车供需状态学习,用户自主决策延时等待时间,进入分配池后,系统利用匈牙利算法进行泊位匹配。在智能体总数量可变的环境下,利用集中式训练与分布式执行的框架,实现多智能体协同优化。为对比智能延时策略的效果,设计等待零时长策略(Greedy)和等待最大时长策略(Max Delay)。在算例中,结合同济大学四平路校区实测停车数据,设计3种不同的停车供需模式场景。在工作日早高峰时段,Greedy是最优的匹配策略,M-DQN和Max Delay的平均停车过程总用时会增加,匹配成功率下降;在工作日非高峰时段,M-DQN的平均停车过程总用时相较于Greedy和Max Delay分别减少23.8%和22.4%,效果提升明显;在工作日晚高峰时段,M-DQN的平均停车过程总用时相较于Greedy和Max Delay分别减少了12.8%和14.5%,M-DQN可以结合供需状态学习到最优的匹配策略。研究结果表明:在停车供需相对平衡的环境下,所提出的延时匹配策略和多智能体深度强化学习方法可以有效减少用户停车的平均行驶时间和步行距离,且停车周转率越高效果越好;但延时策略在应用方面仍有一定的局限性,不适用于停车供给紧张,停车周转率较低的场景。 相似文献
14.
将传统强化学习算法应用到交叉口自适应交通信号控制中,存在着维数灾难的问题,即状态和动作空间大小随着交叉口的增加而呈指数增长。因此,将交叉口自适应交通信号控制问题看成马尔科夫决策过程(MDP)问题,通过有效地利用基于特征的状态表示和线性平均函数估计思想,减少了计算复杂度,保证了收敛性。在设置的多交叉口交通环境下,仿真试验表明:在不同的交通需求水平和车流到达分布下,此算法均优于定时控制和传统的强化学习算法,并且其参数θ和学习步数是收敛的。 相似文献
15.
为研究驾驶人的跟车特性及探究可适用于不同风格驾驶人的跟车预警规则,为自动驾驶车辆开发可满足不同用户驾驶需求和驾乘体验的主动安全预警系统,选取50名被试驾驶人开展实车试验,采集驾驶人跟车行为表征参数并基于雷达数据确定跟车事件提取规则。选取平均跟车时距和平均制动时距为二维向量,使用基于K-means聚类结果的高斯混合模型将驾驶人聚类为3种风格类型(冒进型、平稳型、保守型)。通过分析3组驾驶人的跟车及制动数据,将不同类型驾驶人的制动时距分位数作为跟车预警阈值,结合实际预警数据及不同制动时距分位数对应的预警正确率,对现有跟车预警规则进行调整,以适应不同类型驾驶人的驾驶需求。研究结果表明:3组驾驶人的平均跟车时距和平均制动时距差异显著,冒进型驾驶人倾向于选择较小的跟车时距和制动时距,保守型驾驶人的跟车时距和制动时距则普遍较大;3组驾驶人的实际跟车预警次数为215次,驾驶人采取制动操作而系统未予以预警的次数为329次,系统整体预警正确率为21.9%,漏警率为87.5%,通过分析信息熵等判定当前预警规则并不合理;将每类驾驶人制动时距的10%分位数作为阈值时的预警效果较好,调整后的跟车预警规则能在一定程度上适应不同的驾驶人类型。 相似文献
16.
基于双模式执行器的商用车自适应巡航控制系统 总被引:1,自引:0,他引:1
为实现商用车自适应巡航控制(ACC)系统的功能,开发了双模式制动执行装置和电子油门控制装置,即基于高速开关阀的商用车气压电控辅助制动系统和双模式油门控制系统,可以实现驾驶员和ACC系统的协同切换控制。在此基础上,以某商用车为对象,设计了ACC系统,结合比例-积分控制器和Smith预估补偿器设计了ACC的下位控制算法。结果表明:该ACC系统速度稳态跟踪误差小于1 m.s-1,距离稳态跟踪误差小于1.5 m;同时油门执行器和制动执行器具有安装方便、与原车电子油门及气压制动系统兼容性好的优点。 相似文献
17.
为了更加有效且可靠地自适应协调交通流量,以减少车辆的停车等待时间为目标,提出了3DRQN(Dueling Double Deep Recurrent Q Network)算法对交通信号进行控制。算法基于深度Q网络,利用竞争架构、双Q网络和目标网络提高算法的学习性能;引入了LSTM网络编码历史状态信息,减少算法对当前时刻状态信息的依赖,使算法具有更强的鲁棒性。同时,针对实际应用中定位精度不高、车辆等待时间难以获取等问题,设计了低分辨率的状态空间和基于车流压力的奖励函数。基于SUMO建立交叉口的交通流模型,使用湖北省赤壁市交叉口收集的车流数据进行测试,并与韦伯斯特固定配时的策略、全感应式的信号控制策略和基于3DQN(Dueling Double Deep Q Network)的自适应控制策略进行比较。结果表明:所提出的3DRQN算法相较上述3种方法的车辆平均等待时间减少了25%以上。同时,在不同车流量及左转比例的场景中,随着左转比例和车流量的增大,3DRQN算法的车辆平均等待时间会有明显上升,但仍能保持较好效果,在车流量为1 800 pcu·h-1、左转比例为50%的场景下,3DRQN算法的车辆平均等待时间相比3DQN算法减少约15%,相比感应式方法减少约24%,相比固定时长的方法减少约33%。在车流激增、道路通行受限、传感器失效等特殊场景下,该算法具有良好的适应性,即使在传感器50%失效的极端场景下,也优于固定时长的策略10%以上。表明3DRQN算法具有良好的控制效果,能有效减少车辆的停车等待时间,且具有较好的鲁棒性。 相似文献
18.
为实现高速公路环境下车辆的安全决策,提出一种结合深度强化学习和风险矫正方法的行为决策模型。构建决策模型所需的目标车辆及周围车辆的行驶信息,并引入自注意力安全机制,提高车辆在复杂高速场景下对周围潜在危险车辆的注意力,综合考虑行车效率、避障等因素以设计强化学习的奖励函数。此外,为解决强化学习在决策过程中缺乏安全性保障的问题,设计风险矫正模块对决策动作进行风险评估和矫正,避免危险决策的执行。在Highway-env仿真平台上对提出的决策模型进行训练和测试。试验结果表明,提出的决策模型有较高的行车安全率和鲁棒性,其驾驶效率也优于以规则、模仿学习和单纯深度强化学习为基础的决策方法。 相似文献