期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于Q学习的Agent在单路口交通控制中的应用 总被引：3，自引：4，他引：3

陈阳舟张辉杨玉珍胡全连《公路交通科技》2007,24(5):117-120

将Agent技术与Q学习算法相结合,应用到城市交通控制领域中,对单交叉口的交通流进行了控制研究,介绍了路口Agent的结构模型以及基于Q学习算法的学习机制的实现,提出了一种适用于交通控制的奖惩函数。即当红灯相位的饱和度大于绿灯相位的饱和度时,红灯相位的相对警界度在奖惩函数中占主导地位,此时大部分情况下会对Agent进行惩罚;在以后的决策过程中面对类似的交通状态Agent所选择的控制行为更倾向于将通行权切换给下一个相位,反之,Agent所选择的行为倾向于保持当前相位的通行权到下一决策时刻。并通过微观交通仿真软件Paramics对控制算法进行仿真研究,仿真结果表明该方法的控制效果优于定时控制,同时验证了奖惩函数的有效性。相似文献

2.

基于Agent的城市道路交通信号控制方法

黄艳国唐军许伦辉《公路交通科技》2009,26(10)

将Agent技术与Q学习算法相结合,应用到交通信号控制系统中,提出基于Agent技术的城市道路交通信号控制方法,建立了基于Agent的单交叉口信号控制结构模型,并阐述了Q学习机制的实现方法.系统根据交叉口基本的路况信息,以及实时采集到的交通量,通过加强学习的奖惩机制来动态调整不同相位的通行权及信号配时时长.当奖惩值为加强时,保持该相位通行权,并适当延长绿灯时间;当为惩罚时,则相应缩短绿灯时间或将通行权切换到下一相位,实现自适应控制,减少路口排队车辆的平均延误.通过对一个四相位交叉口进行仿真研究,与定时控制相比,控制效果得到明显提高. 相似文献

3.

基于Q-learning和BP神经元网络的交叉口信号灯控制

赵晓华石建军李振龙赵国勇《公路交通科技》2007,24(7):99-102

解决单交叉口信号灯最优控制问题。提出了基于强化学习的信号灯控制系统结构,应用强化学习中Q学习,将信号灯最优控制问题转变成是否切换运行相位的决策问题,提出了采用BP神经元网络实现Q学习的信号灯控制系统。应用微观交通仿真软件PARAMICS进行仿真分析,结果表明该系统能够感知交通流变化,并能够自适应地调整信号灯切换策略,以达到最优的控制效果,该方法是可行的,与定时控制相比具有明显的优势。相似文献

4.

基于强化学习的限行政策下双模式出发时间选择仿真研究

下载免费PDF全文

吴学新凌帅李庚《交通信息与安全》2017,35(4):52-62

结合多Agent方法和强化学习模型,建立了城市高峰时段通勤者出行方式及出发时间选择的计算机仿真模型.仿真研究了限行政策下通勤者的出行选择行为,再现了交通均衡的形成过程.根据仿真结果分析了不同公交改善措施的实施效果.结果表明限行政策实施后,公交出行人数增加18%,一定程度上缓解了高峰时段的拥堵状况,但也会导致出行者在非禁行日公交出行的概率减小,因此仅采取限行政策起到的作用是有限的.在小汽车限行政策下,提高公共交通发车频率,能够使公交出行人数增加17.5%,小汽车拥堵等待时间减少85%,有效地改善了道路交通状况,相比之下,降低公交价格的改善作用不明显.研究中采用的多Agent方法可以直观方便地描述丰富的个体行为,同时在描述个体行为与系统的互动方面具有一定的优势,为探索复杂交通现象的形成和演化过程提供了一种有效的途径. 相似文献

5.

车联网环境下连续信号交叉口协同控制模型

下载免费PDF全文

王庞伟冯月邓辉汪云峰王力《交通信息与安全》2021,39(1):145-154

智能交通信号控制技术是缓解交通拥堵的重要手段。为解决传统强化学习算法应用到连续多交叉口的局限性问题，提出了1种基于上下层神经网络的连续交叉口交通信号控制模型。控制模型由下层神经网络选择当前状态下可能的最优控制策略，再由上层神经网络根据各路口车均延误进行二次调整，将最终控制策略应用到多交叉口的相位配时中。以典型连续3个交叉口为例，通过SUMO仿真平台对模型进行仿真验证，在低与高饱和度下，该控制模型分别对车均延误降低了23.6%和26%，排队长度降低了8.4%和9.4%。实验数据表明，该模型可有效提高连续交叉口道路通行能力，为缓解城市交通拥堵提供了1种有效技术手段。相似文献

6.

基于深度强化学习的单路口交通信号控制

《道路交通与安全》2020,(2)

合理的交通信号灯控制方案能减少交叉口处的排队长度,缓解交通拥堵问题.路口交通流具有非线性、时变性、不确定性等特点,对其建模困难,从而导致无法借助其精确的数学模型来优化交通信号控制方案.本文将深度强化学习方法应用到交通信号控制问题,深度强化学习Agent以减少路口处的排队车辆总数为目标,通过观察交叉口处所有入口车道的状态进行相位控制;使用SUMO仿真平台对本文提出的控制方法进行了仿真实验.实验结果表明,相较于定时控制方法,本文提出的基于深度强化学习的控制方法能显著减少交叉口处的排队车辆数,缓解交通拥堵. 相似文献

7.

基于Multi-Agent的区域交通协调控制研究 总被引：1，自引：2，他引：1

张辉陈阳舟杨玉珍李世伟《交通与计算机》2006,24(2):94-98

提出了一种基于Multi-Agent的区域交通协调控制系统。系统针对路网中各交叉口交通流相互影响的特点，构造了一种基于分布权值函数的分布式Q学习算法，采用此算法实现了Multi-Agent的学习以及协调机制。通过各Agent间的协调控制来协调相邻交叉口处的控制信号，从而消除路网中的交通拥塞。最后利用微观交通仿真软件Paramics对控制算法进行了仿真研究，仿真结果表明了控制算法的有效性。相似文献

8.

基于多Agent的城市快速路协调控制研究

范立权陈阳舟李振龙《交通与计算机》2009,27(4):30-34

探讨了多Agent技术的特点及其应用,设计了基于多Agent的城市快速路控制系统的结构框架,包括区域协调Agent和控制Agent。并提出一种基于Q-学习的协调控制策略,实现Agent的学习功能。最后,通过微观交通仿真软件PARAMCIS对大望桥——四惠桥快速路交通区域建模,仿真结果表明结合Q-学习、模糊控制、仿真技术和信息诱导等方法的协调控制策略,可以在一定程度上改善整个快速路区域的交通状况。相似文献

9.

基于分布式强化学习的高速公路控制模型

温凯歌曲仕茹《交通与计算机》2011,29(3):24-28

针对公路交通流非线性、不确定性和模糊性特点,提出了面向控制的交通网络宏观动态离散模型,并且引入分布式强化学习来解决交通网络的控制与诱导问题。以传统网络交通流模型Metanet为基础,对其作了改进,引入起讫点的因素到模型中,提出基于OD的网络交通流动态模型Metanet-OD。根据交通网络的特点,将分布式强化学习DRL引入到交通网络中,进行匝道控制和可变显示牌的诱导控制,设定了强化学习的动作空间,并给出了DRL算法。在仿真试验中对控制效果进行了验证。相似文献

10.

MDP下基于特征表示强化学习的自适应交通信号控制

夏新海《公路交通科技》2015,32(1)

将传统强化学习算法应用到交叉口自适应交通信号控制中,存在着维数灾难的问题,即状态和动作空间大小随着交叉口的增加而呈指数增长。因此,将交叉口自适应交通信号控制问题看成马尔科夫决策过程(MDP)问题,通过有效地利用基于特征的状态表示和线性平均函数估计思想,减少了计算复杂度,保证了收敛性。在设置的多交叉口交通环境下,仿真试验表明:在不同的交通需求水平和车流到达分布下,此算法均优于定时控制和传统的强化学习算法,并且其参数θ和学习步数是收敛的。相似文献

11.

改进人工势场法在解决飞行冲突问题中的应用 总被引：1，自引：0，他引：1

郭茜聂润兔《交通与计算机》2008,26(5)

飞行冲突的探测和解决是实现自由飞行的关键问题,改进后的人工势场法可以应用于飞行冲突的解决.文中介绍了多-Agent系统和人工势场法,将飞机当作能主动识别环境中动态障碍物的个体Agent,建立了相关的数学模型,应用改进人工势场的方法,将飞行冲突的解决扩展到三维空间.仿真实验表明该算法能有效解决飞行冲突. 相似文献

12.

Asynchronous n-step Q-learning adaptive traffic signal control

Wade Genders Saiedeh Razavi 《智能交通系统杂志
》2019,23(4):319-331

Ensuring transportation systems are efficient is a priority for modern society. Intersection traffic signal control can be modeled as a sequential decision-making problem. To learn how to make the best decisions, we apply reinforcement learning techniques with function approximation to train an adaptive traffic signal controller. We use the asynchronous n-step Q-learning algorithm with a two hidden layer artificial neural network as our reinforcement learning agent. A dynamic, stochastic rush hour simulation is developed to test the agent’s performance. Compared against traditional loop detector actuated and linear Q-learning traffic signal control methods, our reinforcement learning model develops a superior control policy, reducing mean total delay by up 40% without compromising throughput. However, we find our proposed model slightly increases delay for left turning vehicles compared to the actuated controller, as a consequence of the reward function, highlighting the need for an appropriate reward function which truly develops the desired policy. 相似文献

13.

掺加PR PLASTS抗车辙剂的沥青混合料性能研究 总被引：20，自引：0，他引：20

伍石生徐希娟《公路》2005,(1):156-159

通过室内试验,研究了掺加PR PLASTS抗车辙剂的AC-13I型沥青混合料的配合比设计及其高温稳定性、低温抗裂性和水稳定性。通过对比分析,发现掺加PRPLASTS抗车辙剂的沥青混合料性能得到了显著改善,特别是其沥青混合料的动稳定度比SBS改性沥青混合料提高了27．56％。结果表明PRPLASTS抗车辙剂适合铺筑在大交通量、重载较多的路段以及夏季气温较高地区的高速公路上。相似文献

14.

基于FSM的多Agent信号交叉口微观建模仿真

时柏营许建朱彤《交通与计算机》2010,28(1):10-15

利用多Agent技术对信息环境下信号交叉口进行建模,分析了驾驶员Agent和信号灯A—gent的有限状态机结构,探讨了基本转换规则的状态转换,并给出了系统模型实现的框架。所提出的模型能充分描述信息环境下信号交叉口的各个体的行为状态以及状态转换,转换规则可以根据实际交通数据进行修改和标定,可适用于信息环境信号交叉口的运行分析。相似文献

15.

停车诱导信息集成结构模型设计及实现

胡瑶欣《道路交通与安全》2010,(1):43-47

面对动态、多变、实时的交通信息以及驾驶员对停车场信息的需求,停车管理需要走向智能化。停车诱导系统能为驾驶员提供实时的停车场信息以及周边道路情况,在基于多Agent系统的基础上进行分析,给出停车诱导信息集成结构模型,并利用面向对象的Agent进行设计,最后指出实现该系统还需进行的后续研究。相似文献

16.

广域网络环境下交通数据管理方法研究

张和生张毅姚丹亚胡东成《公路交通科技》2006,23(1):96-100,104

针对交通数据具有的分布、异构、自治、海量、动态和进化特征，提出了广域网络环境下，基于CORBA＋Agent的交通数据管理方法，把交通数据管理分为局部数据管理和系统级数据管理两个层次。局部数据管理解决数据的自治、海量、动态和进化问题，系统级数据管理解决广域网络环境下的分布和异构问题，从而实现交通数据的无缝连接、透明访问、数据集成和综合服务。实际系统的开发说明此方法可以用于实际交通系统的数据管理中。相似文献