首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高, 比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。   相似文献   

2.
为提高自动驾驶车辆的跟驰性能,减轻交通震荡干扰的负面影响,研究了1种基于深度强化学习的自动驾驶跟驰模型。在现有奖励函数设计基础上融入对能源消耗的考虑,基于VT-Micro模型构建能耗相关项;同时对使用跟车时距构建行驶效率因素相关项的方法进行优化,添加虚拟速度来避免在交通震荡场景中出现计算溢出和车间距过近的问题。为克服过往抑制震荡研究中仅用闭合环状模拟道路和仿真车辆轨迹开展训练的局限性,选用NGSIM轨迹数据中交通震荡阶段的驾驶员行为特征搭建训练环境,应用双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient Algorithm,TD3)训练形成多目标优化的跟驰模型。进一步构建模型性能测试评价体系,对比分析TD3模型与其他传统模型在跟车与交通震荡2类测试场景中的表现。跟车测试场景实验结果表明:在舒适度与行驶效率上,TD3模型和传统自适应巡航控制(Adaptive Cruise Control, ACC)模型表现相近,二者均优于人类驾驶员;在安全性上,TD3模型相较于传统ACC模型安全隐患降低53.65%,相较于人类驾驶...  相似文献   

3.
以提高智能网联车辆换道安全和效率,降低燃油消耗为目的,该文提出了一种基于深度强化学习的智能网联车辆(ICV)换道轨迹规划方法。分析复杂交通场景智能网联车辆换道功能需求,设计了分层式智能网联车辆换道轨迹规划架构;兼顾车辆安全和换道效率,设计了基于完全信息纯策略博弈的换道行为决策模型;解耦车辆纵横向运动状态,构造了以燃油消耗和乘客舒适度为目标的联合优化函数,提出了基于双延迟深度确定性策略梯度(TD3)的智能网联车辆纵横向换道轨迹规划方法,得到了车辆纵横向优化换道轨迹,并利用搭建的3个典型换道仿真场景,验证了算法的有效性。结果表明:与深度确定性策略梯度(DDPG)算法相比,提出的方法在左换道和右换道实验中的训练效率平均提升了约10.5%,平均油耗分别减少了65%和44%,而且单步轨迹规划时间在10 ms内,能够实时获取安全、节能、舒适的换道轨迹。  相似文献   

4.
针对传统的协同式自适应巡航控制的算法响应慢、无法快速准确地对突发危险路况做出反应的问题,设计了基于深度强化学习的协同式自适应巡航控制框架,提出了双经验池和优化评价的深度确定性策略梯度算法.在传统算法基础上新建了2个包含车辆状态信息的经验池(优先价值经验池和撒普列经验池),训练数据样本分别从2个经验池按比例选取;critic评价模块采用多维向量对输出的踏板开度策略精确评价.结果表明,该算法在正常行驶工况和突发危险工况下:平均跟车间距误差分别下降1.8 m和1.5 m,跟车调节时间分别降低30%和25%,可以提升控制的准确性和系统紧急反应能力.   相似文献   

5.
为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。  相似文献   

6.
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。   相似文献   

7.
张昊  范钦灏  王巍  黄晋  王志 《汽车工程》2021,43(5):683-691
针对采用HCCI/SI多燃烧模式的功率分流型混合动力汽车,提出了一种基于深度强化学习(DRL)的能量管理策略.基于发动机台架试验和电机有限元分析建立了混合动力汽车模型.将整车作为环境,采用排序优先经验回放算法,训练基于深度Q网络(DQN)的能量管理智能体.在WLTC和NEDC工况下,与规则策略、自适应等效燃油消耗最小策...  相似文献   

8.
为提高燃料电池混合动力汽车(FCHEV)燃料经济性以及维持蓄电池能量平衡,该文提出了基于等效因子的Q-learning算法的能量管理策略。构建等效耗氢量最小与维持蓄电池荷电状态(SOC)平衡的目标函数,建立FCHEV动力源能量流转化平衡模型,通过能量转化平衡机理得到耗氢量的等效因子;在城市循环+全球轻型汽车测试循环(UDDS+WLTC)工况下,对需求功率的转移概率矩阵进行求解,利用Q-learning算法离线优化燃料电池和蓄电池的输出功率;基于MATLAB/Simulink平台建立了前向仿真模型,进行整车性能的仿真试验。结果表明:在WLTC循环工况下,该策略的100 km等效耗氢量为0.730 kg,接近基于动态规则(DP)控制策略的耗氢量,且SOC保持在合理的范围内,验证了该策略的有效性;在西宁市实际工况下,验证了本文所提控制策略的适应性。  相似文献   

9.
针对模糊能量管理策略设计仅依赖专家经验很难适应复杂工况的问题,本研究提出了一种基于神经网络工况识别的增程式电动汽车模糊能量管理策略。首先,基于中国货车行驶工况(CHTC-HT)数据,利用改进遗传算法优化的BP神经网络构建工况识别模型;其次,根据所识别的工况类型,融合电池SOC及整车需求功率参数,设计了自适应模糊能量管理策略,通过实时获取发动机功率输出实现能量优化分配;最后,通过硬件在环测试验证了所提出的方法。结果表明自适应模糊策略油耗相比规则策略降低9.67%,比模糊策略降低7.84%,有效提高了整车经济性。  相似文献   

10.
为了改善传统快速搜索随机树(RRT)算法在全局路径规划中存在的平滑度差、具有潜在碰撞性等问题,提出了一种双重优化的RRT算法。在传统RRT算法基础上,引入自适应目标偏向策略以缩短采样时间,引入角度约束采样策略以适应车辆极限转角。得到初始路径后,建立二项优化函数(即降低路径曲率和远离障碍物),并将其作为基点进行梯度下降二次优化,生成可供车辆行驶、平滑性良好且碰撞概率低的路径,并进行仿真验证。结果表明:优化RRT算法相比于传统RRT算法、RRT-Connect算法和RRT*算法,平均曲率分别降低了38.1%、36.4%和24.7%,曲率均方差分别降低了38.4%、38.4%和27.2%。  相似文献   

11.
提出了一种在满足动力性需求并且以氢燃料电池堆作为主要能源的前提下,能有效延长电堆使用寿命的能量管理策略。提出将需求功率 SG滤波后再进行规则控制的能量管理策略,将多种循环工况的结果进行手动优化后作为训练数据集,设计三输入一输出的自适应神经模糊推理系统控制器,根据其输出结果再进行一次滤波最终形成基于自适应神经模糊推理系统优化的能量管理策略。使用CLTC-P循环工况对能量管理策略进行仿真验证,结果表明,基于自适应神经模糊推理系统优化的能量管理策略能有效延长氢燃料电池剩余使用寿命,相比滤波加规则策略剩余使用寿命增加了33%,并能保持动力电池SOC处于适宜水平。  相似文献   

12.
为了解决智能车辆在工况变化时跟踪精度下降和稳定性变差的问题,提出基于强化学习的变参数模型预测控制(MPC)算法多目标控制策略,实现智能车辆路径跟踪控制系统的参数自适应整定。基于车辆动力学模型设计其线性时变MPC控制器,获得最优前轮转向角和附加横摆力矩。基于Actor-Critic强化学习架构,设计进行控制参数整定的深度确定性策略梯度(DDPG)智能体和双延迟深度确定性策略梯度(TD3)智能体,构造以跟踪精度和稳定性为目标的收益函数,并搭建对接工况和变曲率工况2种典型仿真场景进行算法性能验证,当车辆处于对接工况时,根据路面附着系数的变化及时调整控制器的预测时域和权重矩阵;当车辆处于变曲率工况下时,针对道路曲率变化及时调整控制器的预测时域和权重矩阵。通过MATLAB/SimuLink、CarSim和Python联合仿真分析,将强化学习方法参数整定MPC与固定参数MPC和模糊控制方法参数整定MPC进行对比,结果表明:强化学习方法更能够在保证车辆安全性的前提下,尽可能提高智能车辆在不同路面条件下的路径跟踪精度。在对接工况下,强化学习方法参数整定MPC相较于固定参数MPC和模糊控制方法参数整定M...  相似文献   

13.
文章针对一款串联插电式混合动力城市公交,提出一种可实时应用的模型预测控制(MPC)能量管理策略,以能耗最小为目标优化整车功率分配。首先,基于马尔科夫链根据历史车速和加速度建立单步和多步速度预测模型;从而进行预测时域内滚动优化,选择动态规划算法(DP)得到动力系统最优控制序列;最后对比了基于模型预测、动态规划和庞特里亚金极小值原理(PMP)的能量管理策略。结果表明,提出的模型预测控制(MPC)能达到与全局优化算法相近的控制效果且能应用于实时控制,是其他两种方法不具备的,体现出该策略的优越性。  相似文献   

14.
分析了增程式混合动力汽车的开关式能量管理策略,提出了一种兼顾提高发动机效率和减少充放电损失的分段式能量管理策略。为进一步降低油耗,在分段式策略基础上引入自学习算法,自动在线调整分段式控制阈值。建立混合动力汽车仿真模型,对开关式能量管理策略和分段式能量管理策略进行了仿真比较,同时对具有自学习功能的分段式能量管理策略进行了仿真分析。某车型的仿真研究案例表明,与开关式策略相比,分段式能量管理策略能使油耗降低3.2%,自学习策略则在充电周期内路线较为固定的情况下可以自动调节到最优的控制阈值。  相似文献   

15.
为了改进燃料电池混合动力客车的燃油经济性,基于等效氢耗理论,对燃料电池混合动力系统能量管理算法进行了优化.首先建立了系统瞬时氢耗模型,在该模型中,系统瞬时氢耗分为燃料电池瞬时氢耗和蓄电池等效瞬时氢耗2个部分;而后采用最小二乘算法辨识了蓄电池模型待定系数,求解了系统瞬时氢耗最小化问题,探讨了瞬时优化问题的本质;最后以解析解为基础建立了能量管理优化算法,并在中国城市公交典型工况中进行实车试验.结果表明:该工况下所研究的燃料电池城市客车百公里氢耗为9.3 kg,比采用基于规则的能量管理算法降低2.1%;通过提高燃料电池系统效率、降低整车辅助功率和采用制动能量回收策略可进一步提高系统经济性.  相似文献   

16.
为精确估计车辆行驶状态,提出了一种四轮独立驱动电动车辆侧向车速估计方法。基于深度强化学习(DRL)范式,设计了侧向车速估计方法的架构;基于深度确定性策略梯度(DDPG)算法,设计了DRL智能体;采用循环神经网络,搭建了DDPG算法中的Actor网络和Critic网络。基于设计的奖励函数和训练场景,借助Matlab/Simulink软件,完成了算法的实现和训练;并通过在车辆双车道变换等实际行驶工况的仿真,进行了验证。结果表明:在经过了630次的学习训练之后,与扩展Kalman滤波方法相比,本文方法的估计精度提升40%。因而,本文方法能够在常用行驶工况中对车辆侧向车速进行估计。  相似文献   

17.
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。  相似文献   

18.
针对传统自动紧急制动策略制动减速度波动大、制动过程乘坐舒适性及弯道制动安全难以保障的问题,提出一种基于深度强化学习的汽车自动紧急制动策略.建立了包括纵向、横向及横摆运动的3自由度车辆模型,根据碰撞预警时间设计奖励函数,应用深度确定性策略梯度算法设计了基于深度强化学习的自动紧急制动策略,开展了直道行驶工况与弯道行驶工况仿...  相似文献   

19.
设计了一种具有实时控制能力的增程式电动汽车混合型能量管理策略。首先建立了面向能量管理策略优化的增程式电动汽车整车模型。根据能量管理策略特点,将优化目标设置为增程器系统燃油消耗及动力电池当前SOC值与目标值之间差值的总和。再采用动态规划算法求解增程式电动汽车在给定行驶工况下的能量管理优化问题,从而获得了增程器开启时刻与输出功率优化结果。但由于动态规划算法需要已知详细的工况信息,很难应用于实车实时控制,而且从动态规划优化结果中不易提取控制规则,因此利用BP神经网络算法对优化结果进行离线训练,建立了增程器输出功率与车辆行驶状态参数间的非线性映射关系,得到了具有实时控制能力的神经网络控制模型。在采用BP神经网络训练时,根据车辆各个状态参数在CAN总线中的传输精度,对神经网络输入层、输出层参数的精度进行了修正。仿真结果表明:神经网络模型能够获得类似动态规划的最优控制效果,能够控制动力电池SOC在目标值的3%误差带以内。采用NEDC工况对混合型能量管理策略进行了硬件在环仿真试验,试验结果表明:与实车采用的电能消耗-电能维持型控制策略相比,所提出的混合型能量管理策略使汽车的燃油经济性提高了9.5%。  相似文献   

20.
为使能量管理策略更好地面向实时应用,本文中针对一款装有自动机械式变速器(AMT)的并联插电式混合动力客车(PHEB),展开预测型控制策略的研究,以实现挡位选择和功率分配的协同优化。首先,基于马尔科夫链模型,计算转矩状态转移概率,得到不同预测时域长度的预测车速;在此基础上,进行滚动时域内的功率分配和挡位选择协同优化。其中,在滚动时域内的优化选择含电池SOC和挡位两个状态变量的二维动态规划(DP)算法。分析了不同预测时域长度对预测结果的影响,并对动态规划、基于规则的能量管理策略和预测型策略进行对比。结果表明:与基于DP的能量管理策略相比,本文中提出的预测型策略的能耗增加了17.3%,但与基于规则的能量管理策略比较,预测型策略的能耗降低了29.7%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号