期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈喜群朱奕璋吕朝锋《交通运输系统工程与信息》2023,23(1):106-113

交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization, HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明：新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。相似文献

2.

基于深度强化学习的无信号交叉口车辆协同控制算法

蒋明智吴天昊张琳《交通运输工程与信息学报》2022,20(2):14-24

相似文献

3.

基于深度强化学习的城市交通信号控制综述

徐东伟周磊王达丁加丽魏臣臣《交通运输工程与信息学报》2022,20(1):15-30

传统模型驱动的自适应交通信号控制系统灵活性较低,难以满足当前复杂多变交通系统的控制要求.近年来,深度强化学习方法在城市交通信号控制研究领域得到快速发展,并且与传统方法相比展现出一定的优势.交通信号控制在城市交通管理中起着至关重要的作用,因此,基于深度强化学习的交通信号控制具有较高的研究价值和意义.本文系统地介绍了深度强... 相似文献

4.

基于监督机制的城市交通信号多智能强化学习控制方法

张轮张希雨夏凡赵文文《交通与运输》2020,36(4):86-91

在城市交通环境下,通过分析控制方法灵活性与稳定性的关系,提出一种考虑网络稳定性的多智能体强化学习控制方法。该方法将稳定状态引入信号控制决策模块,建立稳定规则库,在基本多智能体强化学习控制系统上,设置了一套独立运行的稳定监督装置,对违反稳定规则的控制策略进行校正,以约束控制方法灵活性的方式提升其稳定性,以监督控制的形式实现了多智能体强化学习控制。在时变交通流场景下,以典型路网进行VISSIM仿真试验。结果表明:基于稳定监督控制的多智能体强化学习控制方法提高了算法的运行效率,同时保证了控制效果,适用于复杂交通网络。相似文献

5.

混合交通流环境下基于改进强化学习的可变限速控制策略

韩磊张轮郭为安《交通运输系统工程与信息》2023,(3):110-122

现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验... 相似文献

6.

基于深度强化学习的综合干线协调控制方法

尚春琳刘小明田玉林董路熙《交通运输系统工程与信息》2021,21(3):64-70

针对社会车辆和专用道公交干线运行特性差异大、协调控制效果差的问题,提出一种集成社会车辆干线协调控制和公交干线优先控制的综合干线协调控制方法.首先,基于两者路段行程时间的分布差异,结合公交车辆上下游路口不停车通行概率分析,确定干线协调的关联交通状态和对应信号调整策略;然后,结合信号调整策略对车辆延误损失和公交优先收益的量... 相似文献

7.

基于柔性演员-评论家算法的决策规划协同研究

唐斌刘光耀江浩斌田宁米伟王春宏《交通运输系统工程与信息》2024,(2):105-113+187

为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。相似文献

8.

新型混合交通交叉口信号与车辆轨迹协同控制方法

孙伟张梦雅马成元朱际宸杨晓光《交通运输系统工程与信息》2023,23(1):97-105

新型混合交通环境下的交叉口交通控制可通过信号灯控制与自动驾驶车辆的轨迹控制协同实现,能够极大地优化道路通行资源利用效率。已有研究中,信号配时与车辆轨迹集中优化的控制策略难以应用于车辆自组织控制的现实场景,且往往计算复杂度较高。本文提出一种无中心框架下基于逻辑的交叉口信号与车辆轨迹协同控制方法。基于协同理论中的快慢变量主动伺服控制原理,设计一种交叉口信号配时慢变量与车辆轨迹策略快变量协同框架,并分别提出基于逻辑的信号配时优化和网联自动驾驶车辆轨迹协同控制方法。协同控制方法可以在车辆自主控制的条件下,一方面,实现交叉口信号配时动态适应交通需求;另一方面,实现网联自动驾驶车辆主动优化驾驶速度,高效通过交叉口。而且网联自动驾驶车辆在进口道可引导混合车队高效通过交叉口,降低绿灯启动损失,提高交叉口通行效率。仿真实验表明,本文的协同控制方法相较于传统控制方法可显著降低交叉口车辆平均延误,同时,基于逻辑的决策模型可实现快速求解。通过对网联自动驾驶车辆控制策略关键参数的敏感性分析,进一步讨论新型混合交通流交叉口通行公平性,并比较在不同网联自动驾驶车辆渗透率下的控制效果。相似文献

9.

基于异步优势强化学习的交通信号控制策略

邓兰吴义虎《交通科学与工程》2023,(3):110-117

为解决交通信号控制中的信号灯配时调度不合理、路口拥堵等问题,提出一种基于行动者-评论家算法的城市智能交通控制算法。该算法是一种基于异步优势的算法,可对交通状态特征进行抽象表征,并以多线程并行实现对交通状态的精确感知。该算法还参考了强化学习算法,能在最短时间内不断迭代优化其内部参数,得到交通信号控制的最优方案。为验证该算法的有效性,采用交通仿真软件SUMO,对该算法和其他3种典型的交通信号控制算法进行模拟仿真,并对仿真结果进行比较和分析。研究结果表明：与这3类典型算法中效果最好的Qlearning算法相比,该算法的交叉口车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。该交通信号控制算法能有效地改善城市道路拥堵,提高道路交叉口的通行效率。相似文献

10.

基于强化学习与安全约束的自动驾驶决策方法

王宇霄刘敬玉李忠飞朱凤华《交通运输研究》2023,(1):31-39+85

在自动驾驶决策场景下,为解决强化学习算法安全性差、学习效率低的问题,提出一种在算法的训练阶段添加基于价值的安全约束和虚拟奖励的方法。首先,利用状态、动作价值函数和安全判断规则,对智能体执行的动作进行基于价值的安全约束,选择价值高且安全的动作。然后,向回放池添加包含虚拟奖励的预测轨迹数据,以补充由于约束而未能获取的试错动作信息和相应的状态、奖励信息。最后,为进行加减速和换道决策实验,基于修改后的高速公路仿真环境highway-env搭建了3车道高速公路场景,并以深度Q网络（Deep Q Network, DQN）算法为基础,分别训练和测试了无安全约束的算法、拥有基于规则的安全约束的算法和拥有基于价值的安全约束的算法。结果表明,考虑加速、减速、保持车速和车道、向左换道、向右换道共5种动作时,基于价值的安全约束算法的成功率比无安全约束的算法高3倍以上,平均回报提升28%;仅考虑向左换道、向右换道、保持车道这3种换道动作时,基于价值的安全约束算法的成功率比基于规则的安全约束算法高0.11,平均回报提升6%;都添加基于价值的安全约束时,考虑5种动作的算法相较于考虑3种动作的算法成功率低0.06但... 相似文献

11.

基于强化学习的城轨信息发布策略研究

贾飞凡蒋熙李海鹰于雪峤《交通运输系统工程与信息》2020,20(5):72-78

通过信息发布影响乘客选择行为进而改变路网客流分布,是从需求侧缓解拥堵问题的重要手段之一.本文提出基于强化学习的城市轨道交通信息发布策略生成方法,根据路网各区间客流满载率提取系统状态,再根据系统状态在学习器生成由各OD推荐路径组成的信息发布动作,对乘客进行信息发布;通过发布信息后路网系统状态变化,评估获得实施信息发布动作的奖励值.依托城市轨道交通客流分布动态仿真系统,使用 Q- learning 算法进行训练,获得最优信息发布策略.以实际路网为例进行算例验证,通过对比有无信息发布情景得到,在有信息发布情景下路网客流拥堵情况得到了较大缓解. 相似文献

12.

基于强化学习的城轨信息发布策略研究

贾飞凡蒋熙李海鹰于雪峤《交通运输系统工程与信息》2021,20(5):72-78

通过信息发布影响乘客选择行为进而改变路网客流分布,是从需求侧缓解拥堵问题的重要手段之一.本文提出基于强化学习的城市轨道交通信息发布策略生成方法,根据路网各区间客流满载率提取系统状态,再根据系统状态在学习器生成由各OD推荐路径组成的信息发布动作,对乘客进行信息发布;通过发布信息后路网系统状态变化,评估获得实施信息发布动作的奖励值.依托城市轨道交通客流分布动态仿真系统,使用 Q- learning 算法进行训练,获得最优信息发布策略.以实际路网为例进行算例验证,通过对比有无信息发布情景得到,在有信息发布情景下路网客流拥堵情况得到了较大缓解. 相似文献

13.

��ǿ��ѧϰ�Ļ��ƿ��ɱ��ٲ��о�

段荟刘攀李志斌汤斗南《交通运输系统工程与信息》2015,15(1):55-61

为提高高速公路汇流瓶颈区的通行效率,本文结合强化学习无需建立模型,具有智能学习的特点,对瓶颈区的可变限速策略进行了优化,首次提出了基于Q学习算法的可变限速控制策略。策略以最大化系统总流出车辆数为目标,通过遍历交通流状态集合,尝试不同限速值序列进行自适应学习。以真实路段交通流数据搭建了元胞传输模型仿真平台,通过将其与无控制和基于反馈控制的可变限速策略进行对比,对Q学习策略的控制效果进行评价。通行时间的降低和交通参数的变化表明,强化学习控制策略在提高汇流瓶颈区通行效率和改善交通流运行状况方面具有优越性。相似文献

14.

基于强化学习的汇流瓶颈区可变限速策略研究

段荟刘攀李志斌汤斗南《交通运输系统工程与信息》2015,15(1):55-61

为提高高速公路汇流瓶颈区的通行效率,本文结合强化学习无需建立模型,具有智能学习的特点,对瓶颈区的可变限速策略进行了优化,首次提出了基于Q学习算法的可变限速控制策略.策略以最大化系统总流出车辆数为目标,通过遍历交通流状态集合,尝试不同限速值序列进行自适应学习.以真实路段交通流数据搭建了元胞传输模型仿真平台,通过将其与无控制和基于反馈控制的可变限速策略进行对比,对Q学习策略的控制效果进行评价.通行时间的降低和交通参数的变化表明,强化学习控制策略在提高汇流瓶颈区通行效率和改善交通流运行状况方面具有优越性. 相似文献

15.

考虑博弈的多智能体强化学习分布式信号控制

曲昭伟潘昭天陈永恒李海涛王鑫《交通运输系统工程与信息》2020,20(2):76-82

交通需求的不均衡和波动会增加分布式信号控制优化的难度. 由于现有独立动作的多智能体强化学习(IA-MARL)仅基于自身的历史经验做出决策,基于IA-MARL的分布式信号控制难以及时缓解交通需求不均衡和波动的影响. 本文融入博弈论的混合策略纳什均衡概念,改进IA-MARL的决策过程,提出考虑博弈的多智能体强化学习(G-MARL)框架. 在采用带有泊松到达率的道路网络流量不均衡输入的格子网络中,分别对基于IA-MARL 和GMARL 的分布式控制方法进行数值模拟,获取单位行程时间和单位车均延误曲线. 结果显示,与IA-MARL相比,G-MARL在单位行程时间和单位车均延误方面分别改善59.94%和81.45%. 证明G-MARL适用于不饱和且交通需求不均衡和波动的分布式信号控制. 相似文献

16.

一种基于深度学习的离散化交通状态判别方法 总被引：1，自引：0，他引：1

吴志勇丁香乾鞠传香《交通运输系统工程与信息》2017,17(5):129-136

在智能交通信号控制和交通流诱导系统中,交通环境状态的有效判别是影响交通控制决策的先决条件,本文针对交通流产生的大数据信息,结合深度学习算法提出一种离散化交通状态的判别方法.给出了包括交通状态数据采集、状态数据描述、状态深度学习和判别等功能模块的系统架构,构建了一种离散交通状态编码方法,为深度学习交通状态特征提供了数据基础.模型训练阶段,对采集到的二值和连续值交通状态数据,分别构建了两种不同的深度置信网络实现交通状态特征的无监督学习;模型微调阶段,在整合形成的高层抽象特征向量顶端增加softmax分类器,采用反向传播算法实现参数微调.最后,该方法基于VISSIM微观交通软件进行仿真,实验结果表明,离散交通状态编码方法可有效表达交通状态,基于深度学习的交通状态判别方法相对传统方法具有较高的准确度. 相似文献

17.

多网联范围下的智能网联车换道决策组合模型研究

赵建东贺晓宇余智鑫韩明敏《交通运输系统工程与信息》2023,23(1):77-85

为提升不同网联范围下智能网联车(Intelligent Connected Vehicles, ICV)的换道效率,结合深度强化学习和分子动力学理论,提出一种融合掩码机制和注意力机制的双深度Q网络(MaskAttention-DDQN, MAQ)换道决策模型。首先,在SUMO (Simulation of Urban Mobility)仿真环境中采集网联范围内ICV及人工驾驶车辆(Human Drive Vehicles, HDV)的行驶状态信息。其次,搭建MAQ模型,采用掩码机制和注意力机制方法,实现固定模型输入大小,以及实现置换不变性。第三,为实现车辆间影响程度的数值化,以车辆间相对速度和相对位置为参数,使用分子动力学理论为网联范围内HDV信息赋予权重。最后,分别在不同交通密度仿真环境中对不同换道决策模型和赋权方法进行对比,并测试ICV在不同网联范围(80~330 m,以50 m为间隔)下的换道决策效果。仿真结果表明,以40辆HDV、100m网联范围为例,MAQ模型比DeepSet-Q模型拟合精度提高了90.2%;分子动力学赋权方法相比线性权重赋权方法总奖励值提高了5.5%,ICV平均车速提高了4.8%;ICV平均车速随着网联范围的扩大,呈现出先增大、再减小、后趋于平稳的变化规律。相似文献

18.

基于时空特性和组合深度学习的交通流参数估计

张文松姚荣涵《交通运输系统工程与信息》2021,21(1):82-89

为深入挖掘交通流时空特性,提高交通流参数估计精度,基于深度学习提出一种交通流参数估计的组合方法.根据目标断面及其上游断面的交通流数据构造输入矩阵,利用卷积神经网络捕捉交通流的空间特性,使用长短期记忆和门控循环神经网络挖掘交通流的时间特性,组合3种深度学习方法所得输出,得到交通流参数估计值.采用中国安徽省合肥市和美国加州... 相似文献