首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 563 毫秒
1.
随着信息技术的快速发展,近年来深度强化学习方法在交通运输领域得到广泛应用,特别是在交通信号控制领域,已成为当前交通信号控制发展的重要方向。本文针对强化学习在交通信号控制领域应用中存在的随机相位选择导致无法实际应用的问题,提出了一种考虑NEMA双环相位结构的单点交通信号控制强化学习方法。以典型十字交叉口的NEMA双环相位结构为约束,设计优化了在相位切换决策过程中智能体的控制结构,通过增加1个智能体决定前置和后置相位顺序以提升相位切换的灵活性、部署2个智能体决定前置相位是否切换、设置1个智能体同时切断后置相位绿灯,通过经验共享机制,有效降低了状态-动作空间维度,提高了智能体训练效率。在此基础上,采用定制化PPO算法,基于SUMO仿真平台分析了不同交通需求、不同信号参数等场景下的单点深度强化学习信号控制方法的效果。结果表明,在高中低不同交通需求下,本文的方法都优于传统的固定相位相序方法。  相似文献   

2.
交通拥堵已成为很多大中城市普遍存在的社会问题。信号控制作为缓堵保畅的重要措施之一,愈发受到社会关注。信号优化手段可分为模型驱动和数据驱动两类,且随着交通大数据的不断充实,基于强化学习的数据驱动方法日益成为新兴发展方向。然而,现有数据驱动类研究主要偏重于决策模型设计,缺乏对智能体结构的探讨;同时,在多路口协同方面多采用分布式策略, 忽略了智能体之间信息交互,无法保障区域层面的整体最优性。为此,本文以干线信号为对象, 构建一种多智能体混合式协同决策的信号优化方法。首先,针对交通状态的多样性、异构性及数据不均衡性,设计分布训练-分区记忆的单智能体决策模型,并优化状态空间和回报函数,界定单路口控制的最佳方案;其次,融合分布式和集中式学习的模型优势设计多智能体交互方法,在单路口分布式控制的基础上,设置中心智能体评价局部智能体的决策行为并反馈附加回报以调整局部智能体的决策模型,实现干线多信号的协同运行。最后,搭建仿真平台完成效果测试与算法对比。结果表明:新方法与独立优化和分布式协同相比,在支路交通流基本不受影响的前提下, 干线停车次数分别降低了14.8%和13.6%,具有更好的控制效果。  相似文献   

3.
为进一步改善横向互联空气悬架车辆的行驶平顺性和操纵稳定性, 基于多智能体理论和合作博弈Shapley值原理构建多智能体减振器控制系统; 多智能体减振器控制系统由信息发布智能体、平顺性智能体、操稳性智能体和博弈协调智能体组成, 其中信息发布智能体从环境中获取车辆状态信息, 根据下层智能体的信息需求传递信息, 平顺性智能体接收悬架动行程及其变化率信息, 根据平顺性控制要求, 输出自身的阻尼系数意图, 操稳性智能体接收当前互联状态信息触发对应的推理模块, 根据车身侧倾角信息求解需求的阻尼系数, 其中推理模块是通过对遗传算法优化出的阻尼系数进行模糊神经网络自学习形成的, 博弈协调智能体接收平顺性智能体与操稳性智能体的阻尼意图, 根据自身的合作博弈规则, 对阻尼意图进行修正, 输出全局最优阻尼系数; 在不同互联状态、不同激励条件下进行空气悬架静、动态特性试验研究, 并将试验结果与仿真结果进行对比, 验证仿真模型的准确性; 在混合工况下, 利用整车仿真模型验证多智能体减振器控制系统的可行性和有效性。研究结果表明: 和传统减振器阻尼控制系统相比, 多智能体减振器控制系统能有效地使簧载质量加速度均方根值降低14.95%, 悬架动行程均方根值降低10.64%, 车身侧倾角均方根值降低12.33%。提出的多智能体减振器控制系统改善了车辆行驶平顺性和乘坐舒适性, 并且能够抑制车身的侧倾, 提高整车的操纵稳定性。   相似文献   

4.
集装箱码头装卸作业的协同与优化   总被引:2,自引:0,他引:2  
港口集装箱装卸作业系统的开放性、复杂性、随机性的要求,建立基于多智能体的港口集装箱装卸作业协同优化系统,用强化学习算法与经验知识相结合实现单项作业智能体的结构,通过点对点的通讯方式以及对策论与社会规则相结合的协同优化方法,实现集装箱码头装卸作业的协同与优化.  相似文献   

5.
针对机器人足球比赛的多智能体环境下智能体的训练问题,提出了一种将模糊控制与Q-Learning相结合的学习方法,并在学习过程中自动调节回报函数以获得最优策略,此方法的有效性在中型组的仿真平台上得到了验证,并取得了较好效果,还可将它改进应用于其他多智体环境。  相似文献   

6.
在分析城市道路交通信号控制特点的基础上,提出了基于多智能体的城市道路区域协调控制方法.在单路口Agent中引入加强学习方法,实现交通信号实时在线调整;在由多交叉口构成的区域路网中,以车辆平均延误为目标,通过多路口Agent之间的协调机制,实现城市交通区域信号控制的智能协调和全局优化,提高整个区域交通的效率,减少车辆的延误.通过仿真实验,与定时控制和感应控制相比,该方法使车辆的平均延误明显减小.  相似文献   

7.
Agent是在一定环境包装下具有智能、自治能力的软件系统,Agent技术为解决分布式应用问题提供了有效途径。文章分析了强化学习技术,并将Agent技术与强化学习技术相结合,提出了一种基于智能体强化学习的自适应系统,以支持Agent与环境的不断交互,提高系统自适应能力。  相似文献   

8.
利用马尔可夫决策过程模型对传感器网络重构决策问题进行建模,提出了一种规则推理和强化学习相结合的动态应用重构决策方法.以能量约束和环境自适应性作为学习目标,设计了一个基于Q-学习的重构决策算法,使重构决策能够适应环境条件的变化.仿真结果表明基于强化学习的动态决策可以使传感器节点在运行过程中不断学习其所部署环境中异常事件发生的规律,自适应地调整节点上的应用,达到以较小的能耗获得较准确的监测效果的目标.  相似文献   

9.
针对多智能体系统的迭代学习一致性控制问题,提出一种基于有限时间算法的控制策略.首先引入虚拟领导者,利用有限时间算法处理前次迭代时各智能体与虚拟领导者间的跟踪误差,以提高误差收敛速率;在此基础上构造一种新的有限时间迭代学习律,改进后的学习律使系统误差收敛所需迭代次数显著减少;然后利用应用图论、李亚普洛夫稳定性理论证明了该学习律在有限时间内的稳定性,基于范数理论得到了学习律的收敛条件;最后通过Matlab数值仿真结果验证了本文方法的有效性.  相似文献   

10.
交通需求的不均衡和波动会增加分布式信号控制优化的难度. 由于现有独立动作的多智能体强化学习(IA-MARL)仅基于自身的历史经验做出决策,基于IA-MARL的分布式信号控制难以及时缓解交通需求不均衡和波动的影响. 本文融入博弈论的混合策略纳什均衡概念,改进IA-MARL的决策过程,提出考虑博弈的多智能体强化学习(G-MARL)框架. 在采用带有泊松到达率的道路网络流量不均衡输入的格子网络中,分别对基于IA-MARL 和GMARL 的分布式控制方法进行数值模拟,获取单位行程时间和单位车均延误曲线. 结果显示,与IA-MARL相比,G-MARL在单位行程时间和单位车均延误方面分别改善59.94%和81.45%. 证明G-MARL适用于不饱和且交通需求不均衡和波动的分布式信号控制.  相似文献   

11.
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。  相似文献   

12.
针对智能车人机共融驾驶系统中人和自主驾驶系统的驾驶权连续动态分配问题,尤其是因建模误差导致的权重分配方法适应性低的难题,提出了基于强化学习的人机共融转向驾驶决策方法;考虑驾驶人的转向特性,搭建了基于双点预瞄的驾驶人模型,并采用预测控制理论建立了智能车自主转向控制模型,构建了智能车人机同时在环的转向控制框架;基于Actor-Critic强化学习架构,设计了用于人机驾驶权分配的深度确定性策略梯度(DDPG)智能体,以曲率契合度、跟踪精确性和乘坐舒适性为目标,提出了基于模型的收益函数;构建了人机共融驾驶权分配强化学习框架,包含驾驶人模型、自主转向模型、驾驶权分配智能体以及收益函数;为了验证方法的有效性,招募了8位驾驶人开展共计48人次的模拟驾驶试验。研究结果表明:在曲率适应性验证中,人机共融-DDPG方法优于人工驾驶和人机共融-Fuzzy方法,跟踪性平均提升70.69%、39.67%,舒适性平均提升18.34%、7.55%;在速度适应性验证中,车速为40、60和80 km·h-1条件下,驾驶人权重大于0.5的时间占比分别为90.00%、85.76%、60.74%,且跟踪性相轨迹和舒适性相轨迹都能有效收敛。可见,提出的方法能够适应曲率和车速变化,在保证安全性的前提下提升了跟踪性和舒适性。   相似文献   

13.
针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题,提出了一种数据驱动Q-学习算法.该算法首先构建智能体的行为信息系统,通过行为信息系统知识的不确定性建立环境触发机制;依据跟踪环境变化的动态信息,触发机制自适应控制对新环境的探索,使算法对未知动作的探索和已知最优动作的利用达到平衡.用于动态环境下迷宫导航问题的仿真结果表明,该算法达到目标的平均步长比Q-学习算法、模拟退火Q-学习算法和基于探测刷新Q-学习算法缩短了7.79%~84.7%.  相似文献   

14.
为解决传统城市交通信号相位和相序控制缺乏灵活性,存在通行效率与控制实时性差的问题,提出了一种基于通行优先度规则的城市交通信号自组织控制方法。此方法是在城市交通信号自组织控制的体系下,以平均延误时间、平均速度、停车率为评价,以通行优先度规则(通行优先度、交叉口关联度、相位组合)为相位与相序实时控制的基本依据,建立基于元胞自动机的城市交通微观模型,高效地实现了交通信号自组织控制。相同条件下16个路口的交通控制仿真表明,基于通行优先度规则的城市交通信号自组织控制方法,与传统的定时控制以及感应控制方法比较,显示出较高的通行效率与良好的控制实时性。通行优先度规则控制方法是城市交通信号自组织控制的理论性探索,且对其新一代智能交通控制装备与系统的工程化具有指导性意义。  相似文献   

15.
传统模型驱动的自适应交通信号控制系统灵活性较低,难以满足当前复杂多变交通系统的控制要求.近年来,深度强化学习方法在城市交通信号控制研究领域得到快速发展,并且与传统方法相比展现出一定的优势.交通信号控制在城市交通管理中起着至关重要的作用,因此,基于深度强化学习的交通信号控制具有较高的研究价值和意义.本文系统地介绍了深度强...  相似文献   

16.
为解决分布式复杂巨系统在动态环境中的不确定性问题,智能体计算技术发展迅速.交通运输系统在物理位置和控制逻辑上分散于动态变化的交通网络环境,非常适合采用智能体方法建模与描述.文中综述了智能体技术在交通信号控制系统中各个领域应用的技术与方法,包括系统架构、控制算法、建模与仿真,以及智能交通集成管理等方面;跟踪了智能体技术在国内外交通控制领域的具体应用,讨论了智能体技术在智能交通信号控制系统中应用的研究动向,提出发展基于多智能体的交通网络信号集成控制系统的关键问题在于系统交互性、自适应性和可拓展性.  相似文献   

17.
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization, HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。  相似文献   

18.
随着中国电气化铁路里程的迅速增长,接触网的安全稳定运行面对巨大的压力,对其进行监测拥有重要意义。针对影响电气化铁路接触网正常工作的鸟害问题进行研究,通过对不同深度学习模型进行分析比较,选择DSSD模型以自动识别高速铁路接触网沿线。同时使用迁移学习的方法,运用Caffe平台,在数据集不足的情况下,通过微调训练好的DSSD网络,提高了鸟窝识别训练网络的泛化性和稳定性。训练完的模型具有更快的识别速度和更好的鲁棒性,对于接触网安全稳定运行拥有重要的参考意义。  相似文献   

19.
控制系统结构与性能指标是研究与设计高速公路环境下的智能车辆的两个基本问题。在对已有的几种控制系统结构并结合驾驶员的驾驶行为进行分析的基础上,给出了一种基于多智能体的智能车辆控制系统结构,探讨了其特点并从系统设计与实用的角度给出了智能车辆的控制系统性能指标。基于多智能体的控制系统结构具有更好的智能和更强的组织灵活性,对于复杂系统与智能控制研究具有重要的理论意义和实践价值。  相似文献   

20.
为提高高速公路汇流瓶颈区的通行效率,本文结合强化学习无需建立模型,具有智能学习的特点,对瓶颈区的可变限速策略进行了优化,首次提出了基于Q学习算法的可变限速控制策略.策略以最大化系统总流出车辆数为目标,通过遍历交通流状态集合,尝试不同限速值序列进行自适应学习.以真实路段交通流数据搭建了元胞传输模型仿真平台,通过将其与无控制和基于反馈控制的可变限速策略进行对比,对Q学习策略的控制效果进行评价.通行时间的降低和交通参数的变化表明,强化学习控制策略在提高汇流瓶颈区通行效率和改善交通流运行状况方面具有优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号