首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
利用马尔可夫决策过程模型对传感器网络重构决策问题进行建模,提出了一种规则推理和强化学习相结合的动态应用重构决策方法.以能量约束和环境自适应性作为学习目标,设计了一个基于Q-学习的重构决策算法,使重构决策能够适应环境条件的变化.仿真结果表明基于强化学习的动态决策可以使传感器节点在运行过程中不断学习其所部署环境中异常事件发生的规律,自适应地调整节点上的应用,达到以较小的能耗获得较准确的监测效果的目标.  相似文献   

2.
相对于传统的交通信号配时决策方法,多Agent 强化学习及其协调方法能更好地适应城市 路网交通环境的变化。为探讨其在城市路网自适应交通信号配时决策中的应用,系统地总结了多 Agent 强化学习及协调机制的研究方法,详细地分析了国内外研究现状,并指出现有研究中存在 的问题,在此基础上对未来研究进行了展望。研究结果表明,既有研究主要针对规模较小的路 网,存在维数灾难问题,强化学习与协调机制结合研究还不够深入,相关学习参数分析不够细 致,仿真环境和情景现实性不强。未来研究可以引入马尔科夫博弈提高决策协调性,嵌入混合交 通流、公交优先等交通管理思想增强决策实用性,引入先验知识及其他学习技术加快学习速度, 融入物联网、主动管理、大数据等先进理念和前沿技术增加决策的实时性,与交通诱导等集成提 升决策的系统性。  相似文献   

3.
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。  相似文献   

4.
交通治理政策生效的关键是能够影响个体出行者的行为决策.为提升城市低碳交通治理政策的有效性,有必要研究城市出行个体的决策过程、影响因素及其影响机理.本研究从社会心理学角度出发,研究情境依赖、学习能力与个体出行行为决策之间的相互影响,并将外生政策纳入个体出行行为决策过程研究框架,分析外生政策对出行行为决策与情境依赖和学习能力之间关系的调节作用.在对相关研究进行系统梳理和总结的基础上,构建了城市低碳出行决策过程的逻辑模型,该模型可为出行行为决策实证研究提供系统的分析框架.  相似文献   

5.
学习能力,作为人类区别于其他生命体的重要标志,在出行决策中发挥着重要的作用。为发现学习能力对个体出行规律的重要影响,本文首先根据影响个体出行的各个因素在出行决策中起到的不同作用,将其划分为静态因素与动态因素两类,并着重分析了静态因素中的学习能力对个体出行特征的影响。随后在定性分析的基础上,建立了个体社会经济特征、学习能力、出行行为间三者的结构方程模型(SEM),并以天津滨海新区城市居民出行调查数据为基础,对模型进行了拟合、评价和修正,最后对模型结果进行了解释, 在一定程度上揭示了个体的社会经济特征及学习能力对个体出行特征的重要影响。  相似文献   

6.
为有效缓解城市交通压力,提升交通信号控制的智慧化水平,提出一种基于图像识别并融合深度学习的多交叉口交通信号灯实时决策模型方法。采用图像识别的方法判别拥堵状态,搭建区域多交叉口交通信号灯实时决策模型,以总调度期内通行评分最高为目标函数构建深度学习网络;采用机器学习思想优化决策方案,通过预训练增加决策方案容量并缩短现场决策时间,达到实时决策的目的;将研究模型应用于湖北省武汉市武昌区中山路路段,并进行模型论证和结果分析。研究结果表明,所提出的模型方法能有效解决区域多交叉口交通信号灯联合调度问题,可为交通管理者提供更合理的决策方案。  相似文献   

7.
有限阶段马尔可夫决策的可变限速控制模型   总被引:2,自引:1,他引:1  
分析了高速公路主线可变限速控制的作用,研究了现有的限速方法,将高速公路主线可变限速控制过程看作是离散时间的马尔可夫决策过程,提出基于强化学习与有限阶段马尔可夫决策的可变限速控制模型,通过与交通环境的交互学习进行模型的动态调整。采用有限阶段向后递归迭代的算法对模型进行求解,运用Paramics仿真软件对长吉高速公路全程进...  相似文献   

8.
个体受限于认知能力和逻辑推理能力的限制,在出行决策过程中很难做到完 全理性.本文以出发时间选择为例,在有限理性行为假设基础上,引入空间知识获取、学习 及认知更新和方案搜索等关键行为要素,构建有限理性下的出行决策过程理论框架.融合 RP和SP 调查方法,设计出发时间选择行为意向调查方案.研究个体知识的表达方式,应 用贝叶斯学习理论完成认知更新.定义搜索成本和收益函数,利用调查数据分别提取基于 PART 和RIPPER 算法的出发时间启发式搜索规则和决策规则.结果表明,有限理性下个 体出发时间选择行为存在感知阈值,而并非寻求全局最优解.  相似文献   

9.
通过神经网络知识获取模型,将神经网络的自适应学习能力和专家系统的解释能力综合在一起,提出一种将神经网络和专家系统结合在一起的综合决策系统.一方面,该综合决策系统应用神经网络的自适应学习功能解决了专家系统在知识获取方面存在的"瓶颈"问题;另一方面,运用专家系统的解释能力解决了神经网络的"黑箱"问题.  相似文献   

10.
正3月23日下午,集团公司党委召开党史学习教育动员部署大会,深入学习贯彻习近平总书记在党史学习教育动员大会上的重要讲话精神和党中央决策部署,贯彻落实北京市关于在全市开展党史学习教育的实施方案要求和市国资委党史学习教育动员部署会精神,对在全集团开展党史学习教育进行动员部署。集团公司党委书记、董事长王春杰主持会议并讲话。  相似文献   

11.
通过对道路交通事故的原因分析,确定了造成道路交通事故的影响因素.研究了利用粗糙集理论从交通事故历史数据中提取有效信息的方法,并给出了基于遗传算法的道路交通事故决策表属性约简算法,得出了道路交通事故决策规则表.计算结果表明:文中所建数学模型科学合理,算法高效可行.为建立道路交通事故智能分析系统提供了一个有效的方法.  相似文献   

12.
针对路网交通数据采集过程中,采集设备稀缺或故障等原因造成路网交通流量数据缺失问题,提出基于对称残差U型网络(Residual U-Net,RU-Net)模型的大规模路网交通流量数据修复方法.通过将路网交通流量数据网格化和时序通道化操作,构成可供卷积操作的张量数据格式;利用RU-Net编码解码能力,对交通流量数据进行编码;在解码过程中保持失真度较小,使模型学习到交通流量数据内部多因素耦合特性.通过残差学习使交通流量数据编码后的信噪比提升,压缩率降低,提升模型修复精度.实验结果表明,RU-Net模型能够利用交通流量特性学习历史和非故障采集点数据与待修复数据的映射关系,在不同数据缺失率,不同缺失模式下,高效地完成对大规模路网交通流量数据的修复.  相似文献   

13.
针对路网交通数据采集过程中,采集设备稀缺或故障等原因造成路网交通流量数据缺失问题,提出基于对称残差U型网络(Residual U-Net,RU-Net)模型的大规模路网交通流量数据修复方法.通过将路网交通流量数据网格化和时序通道化操作,构成可供卷积操作的张量数据格式;利用RU-Net编码解码能力,对交通流量数据进行编码;在解码过程中保持失真度较小,使模型学习到交通流量数据内部多因素耦合特性.通过残差学习使交通流量数据编码后的信噪比提升,压缩率降低,提升模型修复精度.实验结果表明,RU-Net模型能够利用交通流量特性学习历史和非故障采集点数据与待修复数据的映射关系,在不同数据缺失率,不同缺失模式下,高效地完成对大规模路网交通流量数据的修复.  相似文献   

14.
针对传统驾驶决策模型难以体现驾驶员驾驶过程中对交通环境的感知、判断、决策、动作等环节存在不确定性和不一致性,提出了一种基于神经网络的驾驶行为动态集成学习算法——DNNIA.首先训练多个个体网络模拟驾驶行为,然后动态选择泛化误差E最小的个体网络进行集成,采用拉格朗日函数法求解最优集成权系数ωi,并引入agent联盟的思想,把联盟中的个体网络对应的神经元输出做加权平均后,取最大值作为输出.在标准数据集上验证了该算法的有效性,仿真实验中得到的驾驶员踩踏踏板的习惯行为仿真结果与实际采集的样本数据总体趋势基本吻合.  相似文献   

15.
This paper investigated how to learn the optimal action policies in cooperative multi-agent systems if the agents‘ rewards are random variables, and proposed a general two-stage learning algorithm for cooperative multiagent decision processes. The algorithm first calculates the averaged immediate rewards, and considers these learned rewards as the agents‘ immediate action rewards to learn the optimal action policies. It is proved that the learning algorithm can find the optimal policies in stochastic environment. Extending the algorithm to stochastic Markov decision processes was also discussed.  相似文献   

16.
在网络资源有限的情况下,建立合理的网络流量预测模型,并根据其预测结果及时做出控制决策或调整措施,对网络性能和服务质量的提高均有重要意义.根据网络流量的时变、非线性特点建立一个时间相关的流量预测模型,预测和分析网络流量状况,并利用人工神经网络在非线性建模方面的优势,给出了基于EKF算法的前馈神经网络的结构设计及学习算法.最后在Matlab环境下使用该预测模型对网络流量进行了仿真,结果表明该模型具有较好的自适应性和较高的预测精度.  相似文献   

17.
基于SDSS的高速公路养护管理系统结构   总被引:7,自引:0,他引:7  
现有高速公路养护管理系统仅仅是简单的决策支持系统,以模型来驱动决策,决策的智能化程度不高,因此为了提高公路养护决策的能力和智能化水平,提出了基于SDSS的高速公路养护管理系统,结合智能决策支持系统和商业智能技术,在决策过程中以模型、知识、数据共同驱动决策。综合决策支持系统由数据仓库、联机分析处理、数据挖掘、模型库、知识库和数据库组成,其中数据仓库能够实现对决策主题数据的存储和综合;联机分析处理可以实现多维数据分析;数据挖掘可以挖掘数据库和数据仓库中的知识;模型库可以实现多个广义模型的组合辅助决策;数据库可以为辅助决策提供数据;专家系统可以利用知识推理进行定性分析。它们有机集成的综合决策支持系统将相互补充和依赖,能发挥各自的辅助决策优势,实现更有效的辅助决策。  相似文献   

18.
MULTI SUPPORT VECTOR MACHINES DECISION MODEL AND ITS APPLICATION   总被引:2,自引:0,他引:2  
IntroductionStatistical Learning Theory( SLT) is a small-sample statistical theory by Vapnik etal.SupportVector Machine( SVM) is a novel powerful ma-chine learning method developed from SLT.SVMis powerful for the problems will small sample,nonlinearity,high dimension and local minima.Currently,SVM has many applications in the pat-tern recognition,function estimation,signal pro-cession,control,and others field[1~ 3 ] .SVM en-hances generalization by principle of the structuralrisk min…  相似文献   

19.
随着数据采集手段的不断提高和相关研究技术的发展,基于数据挖掘的模型逐渐成为交通事件持续时间研究的主要方向。根据荷兰交通部门提供的交通事件采集数据,进行分类和预处理,观察事件持续时间的频数图,并根据相关的研究按照事件典型的类别把采集的数据进行分类。使用主成分分析和逐步回归提取出显著性的影响因子,利用数据挖掘软件WEKA建立贝叶斯网络模型,用数据集中80%的数据进行学习建模,20%的数据作为测试集来检测模型的预测效果,并做出性能评价。实验结果表明,与同类数据集的其他预测方法相比,贝叶斯网络模型对于变数众多,随机性特别大的交通事件,预测精度较高,证明贝叶斯网络模型的算法是具有一定优越性和实用价值。  相似文献   

20.
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization, HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号