排序方式: 共有6条查询结果,搜索用时 15 毫秒
1
1.
在自动驾驶决策场景下,为解决强化学习算法安全性差、学习效率低的问题,提出一种在算法的训练阶段添加基于价值的安全约束和虚拟奖励的方法。首先,利用状态、动作价值函数和安全判断规则,对智能体执行的动作进行基于价值的安全约束,选择价值高且安全的动作。然后,向回放池添加包含虚拟奖励的预测轨迹数据,以补充由于约束而未能获取的试错动作信息和相应的状态、奖励信息。最后,为进行加减速和换道决策实验,基于修改后的高速公路仿真环境highway-env搭建了3车道高速公路场景,并以深度Q网络(Deep Q Network, DQN)算法为基础,分别训练和测试了无安全约束的算法、拥有基于规则的安全约束的算法和拥有基于价值的安全约束的算法。结果表明,考虑加速、减速、保持车速和车道、向左换道、向右换道共5种动作时,基于价值的安全约束算法的成功率比无安全约束的算法高3倍以上,平均回报提升28%;仅考虑向左换道、向右换道、保持车道这3种换道动作时,基于价值的安全约束算法的成功率比基于规则的安全约束算法高0.11,平均回报提升6%;都添加基于价值的安全约束时,考虑5种动作的算法相较于考虑3种动作的算法成功率低0.06但... 相似文献
2.
3.
4.
干线公路主要提供机动性功能,承担着较多交通负荷,通过提高干线公路路口的协调控制能力,可以提高通行能力、减少交通延误和停车次数,对改善相关路网的交通状况具有十分重要的意义.近年来,随着交通流量的快速增加,江苏太浏干线公路太仓段交通压力陡增,为改善路况质量,方便市民出行,太仓市交通部门对S339省道太仓段进行养护改建.交通部门在该路段5个交叉口试点引进了绿通智能交通信号控制器,该控制器内置智能控制与管理系统,采用代理控制技术,可实现多种网络通信方式,通过设置在路口的摄像机,获取实时车辆排队长度,按照主路优先通行的原则,自适应实现交通信号灯切换.实际运行数据表明该控制设备与原有控制设备相比,大幅度提高了干线公路交叉口通行能力、减小了排队长度和停车延误,提高了道路服务水平. 相似文献
5.
6.
1