首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
利用马尔可夫决策过程模型对传感器网络重构决策问题进行建模,提出了一种规则推理和强化学习相结合的动态应用重构决策方法.以能量约束和环境自适应性作为学习目标,设计了一个基于Q-学习的重构决策算法,使重构决策能够适应环境条件的变化.仿真结果表明基于强化学习的动态决策可以使传感器节点在运行过程中不断学习其所部署环境中异常事件发生的规律,自适应地调整节点上的应用,达到以较小的能耗获得较准确的监测效果的目标.  相似文献   

2.
针对传统驾驶决策模型难以体现驾驶员驾驶过程中对交通环境的感知、判断、决策、动作等环节存在不确定性和不一致性,提出了一种基于神经网络的驾驶行为动态集成学习算法——DNNIA.首先训练多个个体网络模拟驾驶行为,然后动态选择泛化误差E最小的个体网络进行集成,采用拉格朗日函数法求解最优集成权系数ωi,并引入agent联盟的思想,把联盟中的个体网络对应的神经元输出做加权平均后,取最大值作为输出.在标准数据集上验证了该算法的有效性,仿真实验中得到的驾驶员踩踏踏板的习惯行为仿真结果与实际采集的样本数据总体趋势基本吻合.  相似文献   

3.
为提高列车控制过程的自主性和智能性,研究了列车群动态运行过程,采用多智能体和图论方法构建了列车群分布式信息交互模型;以节能和准点为优化目标,以安全和乘客舒适度为约束条件,建立了列车群运行轨迹多目标优化模型,利用基于模拟退火思想改进的差分进化算法获取了列车群静态最优运行轨迹;在此基础上,为避免或消解列车运行过程中随机干扰导致的延误传播问题,针对移动闭塞系统,基于弹复力构建了信息交互支撑的列车群动态间隔调整机制,设计了列车群在线协同优化算法,实现了列车群运行轨迹的动态调整,最后采用武广高速铁路实际数据进行了仿真验证。研究结果表明:提出的在线协同优化算法可以有效提升最优解搜索能力,避免Pareto最优解集的频繁更新,在不同干扰场景下算法触发频率平均降低36.7%;在试验设计的一般干扰场景中,优化后的动态调整策略在保证列车群安全平稳运行的同时,将受扰列车的延误度由6.2%降至0,与立即恢复延误策略相比,节能率达4.8%;在试验设计的较大干扰场景中,受扰列车的延误度由13.1%降至1.4%,全局时间偏差恢复为0,节能率达1.8%。可见,提出的方法能够解决运行轨迹静态规划方式无法完全适应外部动态环境变化的问题,有效保障干扰情况下列车运行复合紊态的及时恢复。   相似文献   

4.
Game theories were used to study the problem of quality control in the two-echelon supply chain which has one manufacturer and one supplier in this paper. Firstly, a stackelberg game was introduced into the quality control of a two-echelon supply chain. In this general non-cooperative quality control game situation, the manufacturer acts as the leader, the optimal action policies were obtained for the manufacturer and the supplier. Then, a Nash bargaining model was used to analyze optimal action selection in the cooperative quality control game situation and to determine the profit segment between two supply chain members after collaboration. By comparison of two game equilibrium results above, it was found that the cooperative quality control game structure is superior to the general non-cooperative quality control game structure during the process of quality management in the two-echelon supply chain. Finally, a numerical example is given to illustrate the conclusion of this paper.  相似文献   

5.
行动导向教学倡导通过行动来学习和为了行动而学习,即"做中学"。传统的终结性评价已经不能适应行动导向教学法的需求,过程性评价应运而生。过程性评价采取目标与过程并重的价值取向,对学习的效果和过程进行全面的评价,对学生的学习质量水平做出判断,肯定成绩,找出问题,促进学生对学习的过程进行积极的反思,从而更好地把握学习方式方法。  相似文献   

6.
对于有限时间区间的(d+1)种资产市场模型,在模型系数为随机过程的条件下,根据均值-方差准则讨论了风险资产市场中的投资组合问题.利用K.It公式和倒向随机微分方程理论,建立了投资组合过程与财富过程之间的随机控制的倒向随机微分方程模型,得到了初始财富及最终财富之间的关系式,证明了投资组合的存在惟一性,在均值-方差准则下给出了有效投资组合的解析表达式,并得到了有效投资组合下的双曲线型有效前沿.  相似文献   

7.
与集装箱海运相比内河集装箱班轮运输具有其独特性,同时对于内贸箱而言,货主订舱时箱重信息的不确定性导致其航线配载决策变得更加复杂.本文考虑不确定箱重影响,以最小化航线班轮堆栈占用数量为目标,构建内河集装箱班轮航线配载决策的随机规划模型.为实现求解,基于随机规划理论,采用机会约束描述随机约束,将随机规划模型转化为随机机会约束规划模型,并设计混合邻域搜索算法求解.算法由蒙特卡罗随机模拟、神经元网络训练及邻域搜索启发式3个部分组成.算例研究表明,混合邻域搜索算法的鲁棒性较好,可实现配载计划对不确定因素的有效吸收.  相似文献   

8.
流形学习是一种非监督学习算法,流形学习算法的目的是挖掘嵌入在高维数据空间中的低维光滑流形,本文在论述流形学习算法诞生及研究现状的基础之上,指明流形学习算法的研究重点:流形本征维数估计、有监督学习、样本外学习能力、特殊流形降维,并指出流形学习的研究意义。  相似文献   

9.
采用3一水平量化器随机共振对非高斯水下噪声中的线谱信号进行检测,为使该随机共振类型达到最优的检测效果,利用EM算法进行了高斯混合分布的参数估计.通过仿真和实测数据对参数估计方法进行了检验,实验中算法能够正确收敛,拟合性能较好,在此基础上可以得到量化器的最优阈值.随机共振系统处理前后的功率谱对比表明,3一水平量化器随机共振是检测高斯混合分布中微弱线谱的有效手段.  相似文献   

10.
交通拥堵已成为很多大中城市普遍存在的社会问题。信号控制作为缓堵保畅的重要措施之一,愈发受到社会关注。信号优化手段可分为模型驱动和数据驱动两类,且随着交通大数据的不断充实,基于强化学习的数据驱动方法日益成为新兴发展方向。然而,现有数据驱动类研究主要偏重于决策模型设计,缺乏对智能体结构的探讨;同时,在多路口协同方面多采用分布式策略, 忽略了智能体之间信息交互,无法保障区域层面的整体最优性。为此,本文以干线信号为对象, 构建一种多智能体混合式协同决策的信号优化方法。首先,针对交通状态的多样性、异构性及数据不均衡性,设计分布训练-分区记忆的单智能体决策模型,并优化状态空间和回报函数,界定单路口控制的最佳方案;其次,融合分布式和集中式学习的模型优势设计多智能体交互方法,在单路口分布式控制的基础上,设置中心智能体评价局部智能体的决策行为并反馈附加回报以调整局部智能体的决策模型,实现干线多信号的协同运行。最后,搭建仿真平台完成效果测试与算法对比。结果表明:新方法与独立优化和分布式协同相比,在支路交通流基本不受影响的前提下, 干线停车次数分别降低了14.8%和13.6%,具有更好的控制效果。  相似文献   

11.
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization, HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。  相似文献   

12.
场面航空器滑行时空协同优化模型   总被引:1,自引:0,他引:1       下载免费PDF全文
引入双层规划方法, 研究了场面航空器在滑行道系统中的滑行调度问题; 考虑了成本与冲突对场面航空器运行效率和安全的影响, 以航空器推出延迟时间与滑行路径作为决策变量, 以航空器在滑行道系统中滑行过程无冲突与场面航空器的总滑行距离最短为目标函数, 构建了场面航空器滑行时空协同优化模型; 针对航空器滑行道调度问题的特点, 设计了适用于航空器滑行时空协同优化模型的双层规划算法, 以降低场面航空器滑行距离和等待时间; 为了验证航空器滑行时空协同优化模型及算法的有效性, 对比了先到先服务调度方案的计算结果, 分析了滑行等待时间与滑行距离对场面航空器运行效率的影响。研究结果表明: 场面航空器滑行时空协同优化模型与先到先服务的航空器调度方案相比, 保证了航空器滑行过程无冲突, 将16架次航空器的总滑行距离从40 690 m降至37 700 m, 降低了8%;航空器平均运行时间为254 s, 提升了滑行道系统的整体运行效率; 在复制组数为100与变异概率为0.4的条件下, 采用场面航空器滑行时空协同优化模型能够在412 s内获得最优解, 求解效率与收敛性显著。可见, 采用场面航空器时空协同优化模型在保障航空器滑行安全的前提下, 能有效提高场面航空器滑行调度效率, 降低航空器运行成本, 能够为繁忙机场滑行道调度提供决策支持。   相似文献   

13.
基于竞争-合作的群体决策机制,将单点信号优化构建为各相位的交叉口通行权的竞争过程,将多点协同构建为上下游相位之间的协作过程,提出了一种兼顾多交叉口协同效益和单交叉口控制优化的路网信号配时设计方法;利用车路协同环境下路网内车辆路径信息的可感知性,动态精准地量化解析上下游交通耦合关系;在此基础上建立了分层动态决策框架,在单层决策中剥离了上下游交叉口控制决策对本地决策的影响,解耦协同控制模型中路网交通状态和信号控制决策之间的复合关系;设计了基于交叉口内各交通流向竞争力的分布式信号配时决策算法,并通过仿真试验平台比较了群体决策协同控制方法与传统协同控制方法的控制效果。研究结果表明:相较于传统协同控制方法,群体决策协同控制方法可动态适应路网交通需求,在交通效率和稳定性上具有显著优势,在不同饱和度的交通需求水平下可降低车均延误15%以上;在路网交通饱和度较高的情况下,群体决策协同控制方法延误降低幅度可达19.2%,控制优势更加明显;由于群体决策协同控制方法可在下游交叉口进口道车辆排队过长时减少上游车辆流出,可降低路网最大排队长度超40%,有效规避路网溢流风险;通过对群体决策协同控制模型的分布式求解...  相似文献   

14.
为了通过路段检测交通流量计算拥挤条件下多种交通模式需求,提出了一个随机用户平衡条件下的多模式路径流量估计模型,并给出了相应模型的增广拉格朗日乘子算法,算法将模型中的路段容量、观测路段流量平衡与估计需求的范围等约束条件转化为相应的惩罚函数项,并将原先的有约束优化流量估计模型转化为一个无约束优化模型,最后应用一个简单的投影迭代算法求解无约束优化模型.仿真结果表明:先验需求误差对模型的需求估计结果有重要影响,误差越小估计结果越准确,而先验需求误差对路段流量估计结果几乎没有影响,因此,模型和算法简单可用.  相似文献   

15.
通过信息发布影响乘客选择行为进而改变路网客流分布,是从需求侧缓解拥堵问题的重要手段之一.本文提出基于强化学习的城市轨道交通信息发布策略生成方法,根据路网各区间客流满载率提取系统状态,再根据系统状态在学习器生成由各OD推荐路径组成的信息发布动作,对乘客进行信息发布;通过发布信息后路网系统状态变化,评估获得实施信息发布动作的奖励值.依托城市轨道交通客流分布动态仿真系统,使用 Q- learning 算法进行训练,获得最优信息发布策略.以实际路网为例进行算例验证,通过对比有无信息发布情景得到,在有信息发布情景下路网客流拥堵情况得到了较大缓解.  相似文献   

16.
通过信息发布影响乘客选择行为进而改变路网客流分布,是从需求侧缓解拥堵问题的重要手段之一.本文提出基于强化学习的城市轨道交通信息发布策略生成方法,根据路网各区间客流满载率提取系统状态,再根据系统状态在学习器生成由各OD推荐路径组成的信息发布动作,对乘客进行信息发布;通过发布信息后路网系统状态变化,评估获得实施信息发布动作的奖励值.依托城市轨道交通客流分布动态仿真系统,使用 Q- learning 算法进行训练,获得最优信息发布策略.以实际路网为例进行算例验证,通过对比有无信息发布情景得到,在有信息发布情景下路网客流拥堵情况得到了较大缓解.  相似文献   

17.
个体受限于认知能力和逻辑推理能力的限制,在出行决策过程中很难做到完 全理性.本文以出发时间选择为例,在有限理性行为假设基础上,引入空间知识获取、学习 及认知更新和方案搜索等关键行为要素,构建有限理性下的出行决策过程理论框架.融合 RP和SP 调查方法,设计出发时间选择行为意向调查方案.研究个体知识的表达方式,应 用贝叶斯学习理论完成认知更新.定义搜索成本和收益函数,利用调查数据分别提取基于 PART 和RIPPER 算法的出发时间启发式搜索规则和决策规则.结果表明,有限理性下个 体出发时间选择行为存在感知阈值,而并非寻求全局最优解.  相似文献   

18.
Introduction Bayesian networks are a graphical representa-tion of a multivariate joint probability distributionthat exploits the dependency structure of distribu-tions. Bayesian networks are directed acyclicgraphs(DAG), where the nodes are random vari-abl…  相似文献   

19.
针对城市物流无人机起降点布局规划问题,考虑不同级别的物流无人机起降点,构建以总经济成本最小和客户满意度最高为目标,以禁飞区、无人机性能、容需匹配等为约束的整数规划模型。设计人类学习优化算法(HLO),引入随机学习算子、个体学习算子和社会学习算子。在此基础上,基于真实地理信息数据和物流数据设计仿真实验,验证模型与算法有效性。实验结果表明,所建模型可以实现起降点的合理布局规划,适用于大规模资源配置,具备有效性;人类学习优化算法较遗传算法求解精度与收敛速度更优,表现出较佳性能。参数分析表明,基于该仿真环境的最优经济成本权重和客户满意度权重设置为0.4和0.6,最佳算法学习概率参数组合为5/n和 (0.8+2/n)。据此可对城市物流无人机起降点布局规划提供决策依据。  相似文献   

20.
一个得到良好开发和维护的路面管理系统(PMS)能够帮助管理者做出在什么时候,对哪些路段采用什么样的路面维护和修复方案的决定,从而实现可用资源的最大化.本文提出一种在资金预算不确定条件下路面维护和修复项目管理决策优化方法 (MPMRPBU),为确保管理者在一个决策规划时段内,从公路网中选择并优化一组路面维护和修复方案,建立随机线性规划模型求解MPMRPBU问题.通过案例分析,比较在确定性优化和随机规划两种不同条件下的优化方案,研究不同经济预算对优化方案的影响.结果表明,采用随机规划方法能产生高质量的MPMRPBU解决方案, 该算法可以解决实际问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号