首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Adaptive traffic signal control (ATSC) is a promising technique to alleviate traffic congestion. This article focuses on the development of an adaptive traffic signal control system using Reinforcement Learning (RL) as one of the efficient approaches to solve such stochastic closed loop optimal control problem. A generic RL control engine is developed and applied to a multi-phase traffic signal at an isolated intersection in Downtown Toronto in a simulation environment. Paramics, a microscopic simulation platform, is used to train and evaluate the adaptive traffic control system. This article investigates the following dimensions of the control problem: 1) RL learning methods, 2) traffic state representations, 3) action selection methods, 4) traffic signal phasing schemes, 5) reward definitions, and 6) variability of flow arrivals to the intersection. The system was tested on three networks (i.e., small, medium, large-scale) to ensure seamless transferability of the system design and results. The RL controller is benchmarked against optimized pretimed control and actuated control. The RL-based controller saves 48% average vehicle delay when compared to optimized pretimed controller and fully-actuated controller. In addition, the effect of the best design of RL-based ATSC system is tested on a large-scale application of 59 intersections in downtown Toronto and the results are compared versus the base case scenario of signal control systems in the field which are mix of pretimed and actuated controllers. The RL-based ATSC results in the following savings: average delay (27%), queue length (28%), and l CO2 emission factors (28%).  相似文献   

2.
将强化学习中的Q学习算法与Agent技术相结合,构成Agent控制器对单路口的信号灯进行控制.介绍了将经验知识与Q学习算法相结合实现的Agent学习机制,提出了一种适合交通环境的强化函数,以解决单路口的动态实时控制.经仿真软件Paramics对实际路口进行仿真实验,验证了该方法具有较好的控制效果.  相似文献   

3.
基于Q学习的Agent在单路口交通控制中的应用   总被引:3,自引:4,他引:3  
将Agent技术与Q学习算法相结合,应用到城市交通控制领域中,对单交叉口的交通流进行了控制研究,介绍了路口Agent的结构模型以及基于Q学习算法的学习机制的实现,提出了一种适用于交通控制的奖惩函数。即当红灯相位的饱和度大于绿灯相位的饱和度时,红灯相位的相对警界度在奖惩函数中占主导地位,此时大部分情况下会对Agent进行惩罚;在以后的决策过程中面对类似的交通状态Agent所选择的控制行为更倾向于将通行权切换给下一个相位,反之,Agent所选择的行为倾向于保持当前相位的通行权到下一决策时刻。并通过微观交通仿真软件Paramics对控制算法进行仿真研究,仿真结果表明该方法的控制效果优于定时控制,同时验证了奖惩函数的有效性。  相似文献   

4.
解决单交叉口信号灯最优控制问题。提出了基于强化学习的信号灯控制系统结构,应用强化学习中Q学习,将信号灯最优控制问题转变成是否切换运行相位的决策问题,提出了采用BP神经元网络实现Q学习的信号灯控制系统。应用微观交通仿真软件PARAMICS进行仿真分析,结果表明该系统能够感知交通流变化,并能够自适应地调整信号灯切换策略,以达到最优的控制效果,该方法是可行的,与定时控制相比具有明显的优势。  相似文献   

5.
针对智能车辆在轨迹跟踪过程中的横向控制问题,提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的智能车辆轨迹跟踪控制方法。首先,将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程,强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架;强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次,所提出方法的学习主体以DDPG方法更新,其中采用回忆缓冲区解决样本相关性的问题,复制结构相同的神经网络解决更新发散问题。最后,将所提出的方法在不同场景中进行训练验证,并与深度Q学习方法(Deep Q-Learning,DQN)和模型预测控制(Model Predictive Control,MPC)方法进行比较。研究结果表明:基于DDPG的强化学习方法所用学习时间短,轨迹跟踪控制过程中横向偏差和角偏差小,且能满足不同车速下的跟踪要求;采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报;在2种仿真场景中,基于DDPG的学习总时长分别为DQN的9.53%和44.19%,单个片段的学习时长仅为DQN的20.28%和22.09%;以DDPG、DQN和MPC控制方法进行控制时,在场景1中,基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%,仿真时间分别为DQN和MPC的12.88%和53.45%;在场景2中,基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%,仿真时间分别为DQN和MPC的20.64%和58.60%。  相似文献   

6.
为了更加有效且可靠地自适应协调交通流量,以减少车辆的停车等待时间为目标,提出了3DRQN(Dueling Double Deep Recurrent Q Network)算法对交通信号进行控制。算法基于深度Q网络,利用竞争架构、双Q网络和目标网络提高算法的学习性能;引入了LSTM网络编码历史状态信息,减少算法对当前时刻状态信息的依赖,使算法具有更强的鲁棒性。同时,针对实际应用中定位精度不高、车辆等待时间难以获取等问题,设计了低分辨率的状态空间和基于车流压力的奖励函数。基于SUMO建立交叉口的交通流模型,使用湖北省赤壁市交叉口收集的车流数据进行测试,并与韦伯斯特固定配时的策略、全感应式的信号控制策略和基于3DQN(Dueling Double Deep Q Network)的自适应控制策略进行比较。结果表明:所提出的3DRQN算法相较上述3种方法的车辆平均等待时间减少了25%以上。同时,在不同车流量及左转比例的场景中,随着左转比例和车流量的增大,3DRQN算法的车辆平均等待时间会有明显上升,但仍能保持较好效果,在车流量为1 800 pcu·h-1、左转比例为50%的场景下,3DRQN算法的车辆平均等待时间相比3DQN算法减少约15%,相比感应式方法减少约24%,相比固定时长的方法减少约33%。在车流激增、道路通行受限、传感器失效等特殊场景下,该算法具有良好的适应性,即使在传感器50%失效的极端场景下,也优于固定时长的策略10%以上。表明3DRQN算法具有良好的控制效果,能有效减少车辆的停车等待时间,且具有较好的鲁棒性。  相似文献   

7.
Learning-based traffic control algorithms have recently been explored as an alternative to existing traffic control logics. The reinforcement learning (RL) algorithm is being spotlighted in the field of adaptive traffic signal control. However, no report has described the implementation of an RL-based algorithm in an actual intersection. Most previous RL studies adopted conventional traffic parameters, such as delays and queue lengths to represent a traffic state, which cannot be exactly measured on-site in real time. Furthermore, the traffic parameters cannot fully account for the complexity of an actual traffic state. The present study suggests a novel artificial intelligence that uses only video images of an intersection to represent its traffic state rather than using handcrafted features. In simulation experiments using a real intersection, consecutive aerial video frames fully addressed the traffic state of an independent four-legged intersection, and an image-based RL model outperformed both the actual operation of fixed signals and a fully actuated operation.  相似文献   

8.
智能交通信号控制技术是缓解交通拥堵的重要手段。为解决传统强化学习算法应用到连续多交叉口的局限性问题,提出了1种基于上下层神经网络的连续交叉口交通信号控制模型。控制模型由下层神经网络选择当前状态下可能的最优控制策略,再由上层神经网络根据各路口车均延误进行二次调整,将最终控制策略应用到多交叉口的相位配时中。以典型连续3个交叉口为例,通过SUMO仿真平台对模型进行仿真验证,在低与高饱和度下,该控制模型分别对车均延误降低了23.6%和26%,排队长度降低了8.4%和9.4%。实验数据表明,该模型可有效提高连续交叉口道路通行能力,为缓解城市交通拥堵提供了1种有效技术手段。   相似文献   

9.
基于Multi-Agent的区域交通协调控制研究   总被引:1,自引:2,他引:1  
提出了一种基于Multi-Agent的区域交通协调控制系统。系统针对路网中各交叉口交通流相互影响的特点,构造了一种基于分布权值函数的分布式Q学习算法,采用此算法实现了Multi-Agent的学习以及协调机制。通过各Agent间的协调控制来协调相邻交叉口处的控制信号,从而消除路网中的交通拥塞。最后利用微观交通仿真软件Paramics对控制算法进行了仿真研究,仿真结果表明了控制算法的有效性。  相似文献   

10.
This research applies R-Markov Average Reward Technique based reinforcement learning (RL) algorithm, namely RMART, for vehicular signal control problem leveraging information sharing among signal controllers in connected vehicle environment. We implemented the algorithm in a network of 18 signalized intersections and compare the performance of RMART with fixed, adaptive, and variants of the RL schemes. Results show significant improvement in system performance for RMART algorithm with information sharing over both traditional fixed signal timing plans and real time adaptive control schemes. The comparison with reinforcement learning algorithms including Q learning and SARSA indicate that RMART performs better at higher congestion levels. Further, a multi-reward structure is proposed that dynamically adjusts the reward function with varying congestion states at the intersection. Finally, the results from test networks show significant reduction in emissions (CO, CO2, NOx, VOC, PM10) when RL algorithms are implemented compared to fixed signal timings and adaptive schemes.  相似文献   

11.
单点交叉口鲁棒优化信号配时研究   总被引:4,自引:1,他引:3  
为了消除单点信号控制不适应交通流波动的缺陷,提高信号控制的稳定性,建立了多目标信号配时优化模型.该模型以平均延误时间最短,通行能力最大,以及鲁棒性最好即流量波动时车辆延误标准差最小为目标,以有效绿灯时间、总时长、各方向最大滞留车辆数为约束条件,对定时信号配时参数进行优化,并利用遗传算法对模型进行求解.求解结果表明,该方...  相似文献   

12.
针对无人驾驶车辆变道超车场景,研究基于REINFORCE算法和神经网络技术的无人驾驶车辆变道控制策略。通过车辆动力学模型确定模型的反馈量、控制量和输出限幅要求; 设计神经网络控制器的结构,根据REINFORCE算法设计控制器训练方案; 分析经验池数据数值和方差过大的问题,提出1种经验池数据预处理的方法以改进控制器训练方案; 结合无人驾驶车辆运行场景,分析和研究强化学习过程中产生的奖励分布稀疏问题,并针对该问题提出1种基于对数函数的奖励塑造解决方案; 与PID控制器和LQR控制器进行对比实验验证。实验结果表明,与PID相比,该控制策略有更小的最大误差,变道过程更安全; 与LQR相比,该控制策略性能表现接近,以此证明其用于无人驾驶车辆变道控制任务的可行性。此外,记录在不同平台下该控制策略的执行时间以证明其实时性和在轻量级平台运行的可行性。   相似文献   

13.
基于CA方法的交通流数值模拟及信号灯感应控制策略研究   总被引:1,自引:0,他引:1  
陈晨  陈建桥 《公路交通科技》2011,28(6):122-127,135
采用细胞自动机方法(Cellular Automata:CA)模拟含4个路口的城市道路交通流状态,并通过离散方程描述车辆的运动过程.研究了信号灯控制策略(同步定时控制及感应控制)对交通流状态的影响.数值模拟结果表明,信号灯对交通流的影响与道路中车辆密度有关,同时,感应控制参数的选取存在一合理的取值范围,可优化交通流通行...  相似文献   

14.
提高人类驾驶人的接受度是自动驾驶汽车未来的重要方向,而深度强化学习是其发展的一项关键技术。为了解决人机混驾混合交通流下的换道决策问题,利用深度强化学习算法TD3(Twin Delayed Deep Deterministic Policy Gradient)实现自动驾驶汽车的自主换道行为。首先介绍基于马尔科夫决策过程的强化学习的理论框架,其次基于来自真实工况的NGSIM数据集中的驾驶数据,通过自动驾驶模拟器NGSIM-ENV搭建单向6车道、交通拥挤程度适中的仿真场景,非自动驾驶车辆按照数据集中驾驶人行车数据行驶。针对连续动作空间下的自动驾驶换道决策,采用改进的深度强化学习算法TD3构建换道模型控制自动驾驶汽车的换道驾驶行为。在所提出的TD3换道模型中,构建决策所需周围环境及自车信息的状态空间、包含受控汽车加速度和航向角的动作空间,同时综合考虑安全性、行车效率和舒适性等因素设计强化学习的奖励函数。最终在NGSIM-ENV仿真平台上,将基于TD3算法控制的自动驾驶汽车换道行为与人类驾驶人行车数据进行比较。研究结果表明:基于TD3算法控制的车辆其平均行驶速度比人类驾驶人的平均行车速度高4.8%,在安全性以及舒适性上也有一定的提升;试验结果验证了训练完成后TD3换道模型的有效性,其能够在复杂交通环境下自主实现安全、舒适、流畅的换道行为。  相似文献   

15.
为提高信号交叉口的控制效率,运用模式识别基本理论,对交叉口交通流运行状态的基本特征进行了提取,构建了信号控制模式类型与模式空间;依据定时控制、感应控制和自适应控制延误模型,运用统计模式识别方法建立了交叉口信号控制的模式分类方法;在此基础上,应用自组织理论,建立了信号控制方式之间的转换算法(自组织算法)与协商机制;最后结合哈尔滨市智能交通系统应用示范工程调查数据进行仿真。研究结果表明:交叉口信号控制自组织算法较单一信号控制方式在提高信号控制效益方面具有明显优势。  相似文献   

16.
感应控制主要是利用无线地磁检测器采集道路交叉口实时交通信息,及时传递给交通控制系统,结合感应控制自动实施控制的原理,确定城市道路交叉口智能控制方案,根据交叉口交通量实际状况进行合理配时;文章对合肥市黄山路-天智路交叉口的固定信号周期测得的周期、相位时间、通过的车辆数及车辆平均等待的时间与感应控制条件下的各参数实际值作对比,分析各参数之间存在的差距,确定在车流量较少的情况下,感应控制优于常规的固定周期信号控制方法。  相似文献   

17.
城市高架快速路与地面道路,主要通过出口匝道及其下游交叉口进行交通转换,高峰时段出口匝道及下游交叉口交通拥堵频发。以元胞传输模型为基础,构建出口匝道及下游交叉口交通预测模型;采用动态调整周期时长和信号相位的控制策略,建立基于元胞传输模型的交叉口信号控制模型。以排队长度、绿灯和周期时长为约束条件,以各进口道加权平均延误为目标函数,进行信号配时动态优化。以成都市实例匝道和交叉口进行验证,表明本文提出信号控制策略可有效降低此类交叉口的饱和度、延误和排队长度,提升其通行效率。  相似文献   

18.
路口感应控制的实施有利于改善路口交通流秩序,从而提高路口通行能力,这对提高道路通行能力具有重要意义。在阐述感应控制的基本原理和检测器布设原则的基础上,总结了路口感应控制的常用实现方式及事件检测的应用,以期为相关工作提供参考。  相似文献   

19.
基于Paramics的多相位感应信号控制仿真研究   总被引:2,自引:0,他引:2  
介绍了微观交通仿真软件Paramics及其API函数,建立了基于微观交通仿真的感应信号控制策略技术路线,提出基于Paramics的感应信号控制仿真实现过程及相关技术,并结合仿真实例对仿真结果进行了分析.  相似文献   

20.
基于元胞传输模型描述快速路出口和辅路的交通流运行,建立了包括交通流模拟模块、虚拟信号机模块和数据交换中心模块等在内的快速路出口辅路信号控制仿真系统。以北京市三环快速路蓟门桥东出口辅路信号控制系统为背景,在出口段存在通行能力瓶颈和不存在通行能力瓶颈两种实验条件下,分析了有无辅路信号控制和不同周期控制策略对系统延误和快速路出口延误的影响。得出辅路信号控制周期存在临界周期;辅路调节率控制相对基于周期的控制方式将产生更小的延误;在辅路出口不存在设计瓶颈时设置辅路信号控制的有效性大大降低等结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号