首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 46 毫秒
1.
针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高, 比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。   相似文献   

2.
基于深度学习的端到端自动驾驶有着简洁高效的优势,尤其在车道保持上有着良好表现,但是面临路况复杂时存在极大的不稳定性,表现为车辆偏离车道现象。针对此问题,文章首先在虚拟环境下利用神经网络可视化方法分析了车道偏离的原因,然后在方法上将方向盘转角序列作为神经网络输入,同时根据车道线检测的方法求出车辆所在车道的面积作为辅助任务。文末分析对比了文章方法和递归神经网络(RNN,LSTM)方法在平稳性上的差异,最后通过虚拟实验和实车实验验证文章中的方法的有效性。结果表明,本文中的方法能有效改善车辆行驶平稳性问题,和LSTM方法相比稳定性效果相近,但本方法操作应用简单,节省计算资源。  相似文献   

3.
4.
本文通过分析驾驶人驾驶行为生成机制,构建了类人行为决策策略(HBDS)。它具有匹配驾驶行为生成机制的策略框架,通过最大熵逆强化学习得到类人奖励函数,并采用玻尔兹曼理性噪声模型建立行为概率与累积奖励的映射关系。通过预期轨迹空间的离散化处理,避免了连续高维空间积分中的维数灾难,并基于统计学规律和安全约束对预期轨迹空间进行压缩和修剪,提升了HBDS采样效率。HBDS在NGSIM数据集上进行训练和测试的结果表明,HBDS能做出符合驾驶人个性化认知特性和行为特征的行为决策。  相似文献   

5.
提出了一种基于多源传感器与导航地图的多端输入单端输出(端到端)自动驾驶决策控制模型,以弥补现有端到端自动驾驶方法中基于深度神经网络(DNN)的PilotNet模型在主动避障行驶和交叉路口通行方面的不足。该模型的传感器数据输入端包括:单目前视摄像头、360(°)多线激光雷达(LiDAR)所得二维俯视图、精准定位的局部导航地图等3部分;车辆控制命令输出端为方向盘转向角。进行了多工况仿真和实车试验。结果表明:与PilotNet模型相比,该模型的方向盘转向角均方根误差(RMSE)值下降了37%;因而,该模型具备主动避障和交叉路口通行的能力。  相似文献   

6.
针对现有端到端自动驾驶模型输入数据类型单一导致预测精确度低的问题,选取RGB图像、深度图像和车辆历史连续运动状态序列作为多模态输入,并利用语义信息构建一种基于时空卷积的多模态多任务(Multimodal Multitask of Spatial-temporal Convolution,MM-STConv)端到端自动驾驶行为决策模型,得到速度和转向多任务预测参量。首先,通过不同复杂度的卷积神经网络提取场景空间位置特征,构建空间特征提取子网络,准确解析场景目标空间特征及语义信息;其次,通过长短期记忆网络(LSTM)编码-解码结构捕捉场景时间上、下文特征,构建时间特征提取子网络,理解并记忆场景时间序列信息;最后,采用硬参数共享方式构建多任务预测子网络,输出速度和转向角的预测值,实现对车辆的行为预测。基于AirSim自动驾驶仿真平台采集虚拟场景数据,以98 200帧虚拟图像及对应的车辆速度和转向角标签作为训练集,历经10 000次训练周期、6h训练时长后,利用真实驾驶场景数据集BDD100K进行模型的测试与验证工作。研究结果表明:MMSTConv模型的训练误差为0.130 5,预测精确度达到...  相似文献   

7.
8.
重型车辆气制动自适应控制是一项重要的自动驾驶纵向速度控制功能,在应用中至关重要,例如上下坡匀速行驶、精准停车、不同载重的车速控制等.由于典型气动制动系统是固有的非线性特性,存在很大的不确定性,且重型汽车的纵向刹车控制受负载、路况、车况的影响较大,传统的PID控制器无法满足不同工况下重型车辆自动驾驶车速稳定控制要求.本文...  相似文献   

9.
针对传统的协同式自适应巡航控制的算法响应慢、无法快速准确地对突发危险路况做出反应的问题,设计了基于深度强化学习的协同式自适应巡航控制框架,提出了双经验池和优化评价的深度确定性策略梯度算法.在传统算法基础上新建了2个包含车辆状态信息的经验池(优先价值经验池和撒普列经验池),训练数据样本分别从2个经验池按比例选取;critic评价模块采用多维向量对输出的踏板开度策略精确评价.结果表明,该算法在正常行驶工况和突发危险工况下:平均跟车间距误差分别下降1.8 m和1.5 m,跟车调节时间分别降低30%和25%,可以提升控制的准确性和系统紧急反应能力.  相似文献   

10.
运动控制研究是实现自动驾驶目标的重要组成部分,针对传统强化学习算法在求解中因单步决策局限而导致控制序列次优的问题,提出了一种基于双估计强化学习算法及前向预测控制方法结合的运动控制框架(DEQL-FPC)。在该框架中引入双估计器以解决传统强化学习方法动作值过估计问题并提高训练优化的速度,设计前向预测多步决策方法替代传统强化学习的单步决策,以有效提高全局控制策略的性能。通过虚拟驾驶环境仿真,证明了该控制框架应用在自动驾驶汽车的路径跟踪以及安全避障的优越性,保证了运动控制中的精确性、安全性、快速性以及舒适性。  相似文献   

11.
高速公路平纵曲线组合路段常出现单一平曲线和竖曲线要素满足规范,但二者相结合后存在安全隐患的情况。为评估这类组合路段的交通风险、提升组合路段安全性,综合运用可拓云理论与理想点法,提出了基于可拓云模型的交通风险评估方法。基于已有事故数据和文献,从驾驶员、道路、交通环境以及其他因素的角度出发,构建了包含15个指标的交通风险评估指标体系,并将每个指标划分为5个风险等级;利用层次分析法和熵权法确定各评估指标主、客观权重后,再通过理想点法确定各评估指标组合权重;参照公路路线设计规范及相关文献,考虑定性指标的边界模糊性划分各评估指标的风险等级,并按照等比原则实现定性指标的定量化描述;构造可拓云模型云隶属度矩阵,计算综合评判向量,最后根据最大隶属度原则确定路段风险等级。以云南省3段高速公路路段作为分析案例,利用基于可拓云模型的交通风险评估方法计算了各路段风险等级,并识别了各路段的危险性指标。结果表明:该方法与传统基于模糊综合评价法相比,评估结果相同,但信息更丰富,其综合评判模糊等级特征值的期望Exr反映了路段的安全程度;Y路段的Exr高于C路段,表明Y路段比C路段更安全;3段路段的评估结果的置信度因子θ均小于0.05,表明结果可信度较高,验证了该方法在交通风险评估过程中的适用性。  相似文献   

12.
采用比奥固结平面有限元方法,分析研究了新建高速公路路堤填土过程中带帽控沉疏桩复合地基地表面沉降、竖向位移和侧向位移的变形特征,同时分析了超孔隙水压力产生与消散的变化规律.在复合地基加固区内存在等沉面现象,带帽控沉疏桩复合地基可以增强软土地基的稳定性.研究成果能为其理论研究、工程施工和设计提供有益的指导.  相似文献   

13.
桥梁施工监控是保证桥梁建设安全可靠的重要环节。施工监控的目的是要对成桥目标进行有效控制,修正在施工过程中各种参数误差对成桥目标的影响,确保成桥后结构内力和线形满足设计要求。系杆拱桥结构复杂,施工工序多,对施工的要求较高。系统的分析系杆拱桥的施工监控过程对以后的工程具有良好的借鉴意义。  相似文献   

14.
This research applies R-Markov Average Reward Technique based reinforcement learning (RL) algorithm, namely RMART, for vehicular signal control problem leveraging information sharing among signal controllers in connected vehicle environment. We implemented the algorithm in a network of 18 signalized intersections and compare the performance of RMART with fixed, adaptive, and variants of the RL schemes. Results show significant improvement in system performance for RMART algorithm with information sharing over both traditional fixed signal timing plans and real time adaptive control schemes. The comparison with reinforcement learning algorithms including Q learning and SARSA indicate that RMART performs better at higher congestion levels. Further, a multi-reward structure is proposed that dynamically adjusts the reward function with varying congestion states at the intersection. Finally, the results from test networks show significant reduction in emissions (CO, CO2, NOx, VOC, PM10) when RL algorithms are implemented compared to fixed signal timings and adaptive schemes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号