深度强化学习TD3算法在倒立摆系统中的应用期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

深度强化学习TD3算法在倒立摆系统中的应用

引用本文：	何卫东,刘小臣,张迎辉,姚世选.深度强化学习TD3算法在倒立摆系统中的应用[J].大连交通大学学报,2023(1):38-44.

作者姓名：	何卫东刘小臣张迎辉姚世选

作者单位：	1. 大连交通大学机械工程学院;2. 大连外国语大学软件学院

摘要：	针对现有控制算法在倒立摆系统控制中存在的局限性，融合强化学习和深度学习方法，提出一种基于双延迟深度确定性策略梯度(TD3)的倒立摆端到端控制方法。首先，利用倒立摆动力学模型搭建虚拟仿真环境，设计稀疏奖励函数；其次，通过深度神经网络构建从倒立摆状态输入到执行动作输出的端到端控制模型，分析倒立摆特性，来确定神经网络结构和参数；最后，将虚拟仿真环境中生成的模型移植到倒立摆实物平台并进行优化。试验结果表明：该方法生成的模型能够有效地建立倒立摆状态和执行动作之间的映射关系，在运动控制中具有一定的借鉴意义。
关键词：	深度强化学习倒立摆控制 TD3 端到端稀疏奖励函数