首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
将强化学习中的Q学习算法与Agent技术相结合,构成Agent控制器对单路口的信号灯进行控制.介绍了将经验知识与Q学习算法相结合实现的Agent学习机制,提出了一种适合交通环境的强化函数,以解决单路口的动态实时控制.经仿真软件Paramics对实际路口进行仿真实验,验证了该方法具有较好的控制效果.  相似文献   

2.
合理的交通信号灯控制方案能减少交叉口处的排队长度,缓解交通拥堵问题.路口交通流具有非线性、时变性、不确定性等特点,对其建模困难,从而导致无法借助其精确的数学模型来优化交通信号控制方案.本文将深度强化学习方法应用到交通信号控制问题,深度强化学习Agent以减少路口处的排队车辆总数为目标,通过观察交叉口处所有入口车道的状态进行相位控制;使用SUMO仿真平台对本文提出的控制方法进行了仿真实验.实验结果表明,相较于定时控制方法,本文提出的基于深度强化学习的控制方法能显著减少交叉口处的排队车辆数,缓解交通拥堵.  相似文献   

3.
将Agent技术与Q学习算法相结合,应用到交通信号控制系统中,提出基于Agent技术的城市道路交通信号控制方法,建立了基于Agent的单交叉口信号控制结构模型,并阐述了Q学习机制的实现方法.系统根据交叉口基本的路况信息,以及实时采集到的交通量,通过加强学习的奖惩机制来动态调整不同相位的通行权及信号配时时长.当奖惩值为加强时,保持该相位通行权,并适当延长绿灯时间;当为惩罚时,则相应缩短绿灯时间或将通行权切换到下一相位,实现自适应控制,减少路口排队车辆的平均延误.通过对一个四相位交叉口进行仿真研究,与定时控制相比,控制效果得到明显提高.  相似文献   

4.
针对目前交通信号灯红绿灯时间设置固定不变的情况,采用基于PLC技术设计的交通信号灯控制系统,在满足基本功能的前提下,提出并重点解决了"24 h分时段全自动智能切换红绿灯时间设置"的控制及"急通"功能的实现,同时给出了完整的硬件接线图和控制程序.通过自制的模拟电路对控制系统进行了调试与运行,该系统既能减轻交通高峰期的拥堵...  相似文献   

5.
针对交通网络中的交叉口车流具有连续时间特性,动态信号灯的切换具有离散事件特性的情况,以4相位单交叉口为对象,建立了1个4相位交叉口的混杂自动机模型,该模型中以车辆排队长度为连续状态变量描述连续车流动态,以信号灯状态为离散状态变量描述离散信号灯动态。在该模型的基础上分析了交叉口各个方向的输入、输出车流动态,采用CheckMate3.6工具箱进行仿真。仿真结果表明该模型不仅能够刻画交叉口车流的动态混杂特性,而且能够验证信号灯配时方案对车流疏导是否有效,从而为信号灯配时设计提供1种检验方法。  相似文献   

6.
如何在交通仿真系统中真实反映实际中的各种交通实体及行为是计算机交通仿真的一个难题,而建立一个可信的交叉口信号灯描述模型更是解决该问题的关键。然而,多相位信号灯设置方式的可能组合非常多,模型需要描述的状态空间也非常大。目前的交通仿真系统一般采用以下两种方式:(1)采用两相位模型简单描述交叉口信号灯控制;(2)对于实际中可能出现的多相位信号灯控制事先建立相应的描述模型。本文提出了一种方向编码的方法,对相位的流向进行编码,从而实现了多相位信号灯的描述模型,该方法相对于其他的方法并不需要庞大的描述状态空间,非常易于实现。最后给出这种模型的一个应用实例。  相似文献   

7.
基于广义预测理论的AFS/DYC底盘一体化控制   总被引:1,自引:0,他引:1  
针对现有基于AFS/DYC的车辆底盘一体化控制系统中,控制输入之间采用逻辑切换模式过于简单,无法优化车辆稳定特性的问题,提出一种基于广义预测理论的车辆底盘一体化控制系统切换算法.该算法将横摆角速度与质心侧偏角的状态变量和AFS/DYC控制输入整合于优化目标函数中,通过实时协调多个控制输入的权重,调节AFS/DYC子系统在底盘一体化控制系统中的权重,因而能连续协调AFS和DYC控制.仿真结果表明,采用该算法能实现AFS/DYC控制的平滑切换和同时工作时的协调优化.  相似文献   

8.
基于Q学习的Agent在单路口交通控制中的应用   总被引:3,自引:4,他引:3  
将Agent技术与Q学习算法相结合,应用到城市交通控制领域中,对单交叉口的交通流进行了控制研究,介绍了路口Agent的结构模型以及基于Q学习算法的学习机制的实现,提出了一种适用于交通控制的奖惩函数。即当红灯相位的饱和度大于绿灯相位的饱和度时,红灯相位的相对警界度在奖惩函数中占主导地位,此时大部分情况下会对Agent进行惩罚;在以后的决策过程中面对类似的交通状态Agent所选择的控制行为更倾向于将通行权切换给下一个相位,反之,Agent所选择的行为倾向于保持当前相位的通行权到下一决策时刻。并通过微观交通仿真软件Paramics对控制算法进行仿真研究,仿真结果表明该方法的控制效果优于定时控制,同时验证了奖惩函数的有效性。  相似文献   

9.
闫晓磊  钟勇  钟志华 《汽车工程》2008,30(4):309-311
建立了HEV行星齿轮式传动系统动力学模型,阐述了HEV的动力切换过程.将二次型最优控制算法应用到HEV传动控制,要求HEV纵向冲击度和离合器滑摩功两者同时达到最小.仿真结果表明,该控制算法实现了HEV动力平顺切换,同时有效地消减了离合器接合过程中的突发冲击和振动,降低了离合器的滑摩发热.  相似文献   

10.
以一款ISG并联混合动力客车为对象,对比现存的两种系统效率最优控制算法,并提出一种改进控制算法。应用这3种算法确定行车充电模式切换规则和转矩分配规则,并进行对比仿真和硬件在环试验验证。结果显示,所提出的系统效率最优行车充电控制规则进一步提高了整车经济性;该规则在发动机低效工况行车充电,以相对高效的方式适度发电,既避免了大量能量的二次转化,又通过电机驱动替代发动机低效工作而实现节油。采用该控制规则时车辆的能量经济性比采用其他两种控制规则时分别提升了13%和20%,在验证了控制规则合理性的同时为系统效率最优控制算法的研究和应用提供了参考。  相似文献   

11.
基于Multi-Agent的区域交通协调控制研究   总被引:1,自引:2,他引:1  
提出了一种基于Multi-Agent的区域交通协调控制系统。系统针对路网中各交叉口交通流相互影响的特点,构造了一种基于分布权值函数的分布式Q学习算法,采用此算法实现了Multi-Agent的学习以及协调机制。通过各Agent间的协调控制来协调相邻交叉口处的控制信号,从而消除路网中的交通拥塞。最后利用微观交通仿真软件Paramics对控制算法进行了仿真研究,仿真结果表明了控制算法的有效性。  相似文献   

12.
Ensuring transportation systems are efficient is a priority for modern society. Intersection traffic signal control can be modeled as a sequential decision-making problem. To learn how to make the best decisions, we apply reinforcement learning techniques with function approximation to train an adaptive traffic signal controller. We use the asynchronous n-step Q-learning algorithm with a two hidden layer artificial neural network as our reinforcement learning agent. A dynamic, stochastic rush hour simulation is developed to test the agent’s performance. Compared against traditional loop detector actuated and linear Q-learning traffic signal control methods, our reinforcement learning model develops a superior control policy, reducing mean total delay by up 40% without compromising throughput. However, we find our proposed model slightly increases delay for left turning vehicles compared to the actuated controller, as a consequence of the reward function, highlighting the need for an appropriate reward function which truly develops the desired policy.  相似文献   

13.
Adaptive traffic signal control (ATSC) is a promising technique to alleviate traffic congestion. This article focuses on the development of an adaptive traffic signal control system using Reinforcement Learning (RL) as one of the efficient approaches to solve such stochastic closed loop optimal control problem. A generic RL control engine is developed and applied to a multi-phase traffic signal at an isolated intersection in Downtown Toronto in a simulation environment. Paramics, a microscopic simulation platform, is used to train and evaluate the adaptive traffic control system. This article investigates the following dimensions of the control problem: 1) RL learning methods, 2) traffic state representations, 3) action selection methods, 4) traffic signal phasing schemes, 5) reward definitions, and 6) variability of flow arrivals to the intersection. The system was tested on three networks (i.e., small, medium, large-scale) to ensure seamless transferability of the system design and results. The RL controller is benchmarked against optimized pretimed control and actuated control. The RL-based controller saves 48% average vehicle delay when compared to optimized pretimed controller and fully-actuated controller. In addition, the effect of the best design of RL-based ATSC system is tested on a large-scale application of 59 intersections in downtown Toronto and the results are compared versus the base case scenario of signal control systems in the field which are mix of pretimed and actuated controllers. The RL-based ATSC results in the following savings: average delay (27%), queue length (28%), and l CO2 emission factors (28%).  相似文献   

14.
Learning-based traffic control algorithms have recently been explored as an alternative to existing traffic control logics. The reinforcement learning (RL) algorithm is being spotlighted in the field of adaptive traffic signal control. However, no report has described the implementation of an RL-based algorithm in an actual intersection. Most previous RL studies adopted conventional traffic parameters, such as delays and queue lengths to represent a traffic state, which cannot be exactly measured on-site in real time. Furthermore, the traffic parameters cannot fully account for the complexity of an actual traffic state. The present study suggests a novel artificial intelligence that uses only video images of an intersection to represent its traffic state rather than using handcrafted features. In simulation experiments using a real intersection, consecutive aerial video frames fully addressed the traffic state of an independent four-legged intersection, and an image-based RL model outperformed both the actual operation of fixed signals and a fully actuated operation.  相似文献   

15.
为了更加有效且可靠地自适应协调交通流量,以减少车辆的停车等待时间为目标,提出了3DRQN(Dueling Double Deep Recurrent Q Network)算法对交通信号进行控制。算法基于深度Q网络,利用竞争架构、双Q网络和目标网络提高算法的学习性能;引入了LSTM网络编码历史状态信息,减少算法对当前时刻状态信息的依赖,使算法具有更强的鲁棒性。同时,针对实际应用中定位精度不高、车辆等待时间难以获取等问题,设计了低分辨率的状态空间和基于车流压力的奖励函数。基于SUMO建立交叉口的交通流模型,使用湖北省赤壁市交叉口收集的车流数据进行测试,并与韦伯斯特固定配时的策略、全感应式的信号控制策略和基于3DQN(Dueling Double Deep Q Network)的自适应控制策略进行比较。结果表明:所提出的3DRQN算法相较上述3种方法的车辆平均等待时间减少了25%以上。同时,在不同车流量及左转比例的场景中,随着左转比例和车流量的增大,3DRQN算法的车辆平均等待时间会有明显上升,但仍能保持较好效果,在车流量为1 800 pcu·h-1、左转比例为50%的场景下,3DRQN算法的车辆平均等待时间相比3DQN算法减少约15%,相比感应式方法减少约24%,相比固定时长的方法减少约33%。在车流激增、道路通行受限、传感器失效等特殊场景下,该算法具有良好的适应性,即使在传感器50%失效的极端场景下,也优于固定时长的策略10%以上。表明3DRQN算法具有良好的控制效果,能有效减少车辆的停车等待时间,且具有较好的鲁棒性。  相似文献   

16.
全网络神经模糊控制在城市单路口交通实时控制中的应用   总被引:1,自引:0,他引:1  
在已有城市单路口交通模糊控制方式和控制策略的基础上,提出了基于全网络化结构的神经模糊控制方法。方法考虑了影响信号灯控制策略的各种因素,根据分级并行控制思路,对车流采用不同的优先级和不同的控制策略进行协调控制,提高了系统的实时性,降低了系统的复杂性。采用6层全网络结构的神经网络进行了控制算法的实现,并利用已有数据对神经网络进行了学习训练,使网络结构和参数具有更为广泛的适用性。  相似文献   

17.
刘坤颖  蔡伯根 《中南公路工程》2007,32(6):181-183,190
以车辆排队长度为控制量,提出了一种交叉口模糊控制方法,并以四相位交叉口为例,建立了Simulink仿真模型,在不同交通流数据下将此模糊控制与现有的定时控制比较,对其控制效果进行仿真验证。仿真结果从车辆平均延误、信号周期和车辆的最大排队长度等方面,显示出了模糊控制的优越性。  相似文献   

18.
针对智能车辆在轨迹跟踪过程中的横向控制问题,提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的智能车辆轨迹跟踪控制方法。首先,将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程,强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架;强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次,所提出方法的学习主体以DDPG方法更新,其中采用回忆缓冲区解决样本相关性的问题,复制结构相同的神经网络解决更新发散问题。最后,将所提出的方法在不同场景中进行训练验证,并与深度Q学习方法(Deep Q-Learning,DQN)和模型预测控制(Model Predictive Control,MPC)方法进行比较。研究结果表明:基于DDPG的强化学习方法所用学习时间短,轨迹跟踪控制过程中横向偏差和角偏差小,且能满足不同车速下的跟踪要求;采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报;在2种仿真场景中,基于DDPG的学习总时长分别为DQN的9.53%和44.19%,单个片段的学习时长仅为DQN的20.28%和22.09%;以DDPG、DQN和MPC控制方法进行控制时,在场景1中,基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%,仿真时间分别为DQN和MPC的12.88%和53.45%;在场景2中,基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%,仿真时间分别为DQN和MPC的20.64%和58.60%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号