«上一篇/Previous Article|本期目录/Table of Contents|下一篇/Next Article»

[1]郝高峰,付庄,郑辉.基于DQN的自动驾驶机器人速度跟踪控制[J].机械与电子,2020,(09):50-53.
　,Vehicle Speed Tracking Control with a Robotic DriverBased on Deep Q-Network [J].Machinery & Electronics,2020,(09):50-53.
点击复制

基于DQN的自动驾驶机器人速度跟踪控制()

分享到：

机械与电子[ISSN:1001-2257/CN:52-1052/TH]

卷:
期数:: 2020年09期

页码:: 50-53

栏目:: 自动控制与检测

出版日期:: 2020-09-21

文章信息/Info

Title:: Vehicle Speed Tracking Control with a Robotic Driver B ased on Deep Q-Network

文章编号:: 1001-2257(2020)09-0050-04

作者:: 郝高峰; 付庄; 郑辉; 上海交通大学机械系统与振动国家重点实验室,上海 200240

Author(s):: ＨＡＯＧａｏｆｅｎｇ ; ＦＵＺｈｕａｎｇ ; ＺＨＥＮＧＨｕｉ; ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍａｎｄＶｉｂｒａｔｉｏｎ，ＳｈａｎｇｈａｉＪｉａｏＴｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２００２４０，Ｃｈｉｎａ

关键词:: 自动驾驶机器人 ; 强化学习 ; 车速跟踪控制

Keywords:: robotic driver; DQN; vehicle speed tracking control

分类号:: ＴＰ２４２ .６

文献标志码:: A

摘要:: 由于汽车传动模型的复杂性、延迟性和踏板的死区特性，现有的基于传统控制理论和车辆模型的方法很难达到理想的控制效果。为解决这个问题，构建了一种基于ＤＱＮ的速度跟踪算法，基于马尔可夫性设计了状态空间、动作空间，并根据超差规则设计奖赏函数。通过批量真车转鼓试验对所建立的速度跟踪算法进行了验证，结果表明：算法模型可有效控制踏板进行速度跟踪；从零开始，只需４～５轮训练即可满足超差数要求；与基于传统控制理论的方案相比，具有超差数更少、速度更平稳、无需专业人员调试等优势。

Abstract:: With the complexity and delay of the vehicle transmission model and the dead zone of the pedal, The existing control methods based on traditional control theory and vehicle model are difficult to achieve the ideal control effect. To solve this problem, a vehicle speed tracking algorithm based on Deep Q-Network (DQN) is constructed, state space and action space are designed based on Markov property, and reward function is designed according to out-of-tolerance rules. Experiments are conducted on dozens of cars, and results show that established algorithm can effectively control the robotic driver for speed tracking. From scratch, it only needs 4～5 episodes of training to meet the requirements. Compared with classic control methods, the proposed method has a smoother speed and fewer speed errors, and does not require experts’ tuning.

参考文献/References:

［１］　ＳＨＯＶＡＬＳ，ＺＹＢＵＲＴＪＰ，ＧＲＩＭＡＵＤＯＤＷ．Ｒｏｂｏｔｄｒｉｖｅｒｆｏｒｇｕｉｄａｎｃｅｏｆａｕｔｏｍａｔｉｃｄｕｒａｂｉｌｉｔｙｒｏａｄ（ＡＤＲ）ｔｅｓｔｖｅｈｉｃｌｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ．Ｎｅｗ
Ｙｏｒｋ：ＩＥＥＥ，１９９８，２：１７６７- １７７２．
［２］　环境保护部．轻型汽车污染物排放限值及测量方法：中国第六阶段：ＧＢ１８３５２．６ — ２０１６［Ｓ］．北京：中国环境出版社，２０１７．
［３］　ＣＨＥＮＧ，ＺＨＡＮＧＷＧ．Ｈｉｅｒａｒｃｈｉｃａｌｃｏｏｒｄｉｎａｔｅｄｃｏｎｔｒｏｌｍｅｔｈｏｄｆｏｒｕｎｍａｎｎｅｄｒｏｂｏｔａｐｐｌｉｅｄｔｏａｕｔｏｍｏｔｉｖｅｔｅｓｔ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎｉｎｄｕｓｔｒｉａｌｅｌｅｃｔｒｏｎｉｃｓ，２０１６，６３（２）：１０３９- １０５１．
［４］　陈刚，张为公，龚宗洋，等．汽车驾驶机器人多机械手协调控制研究［Ｊ］．仪器仪表学报，２００９，３０（９）：１８３６- １８４０．
［５］　ＭＩＺＵＴＡＮＩＮ，ＩＳＨＩＤＡＹ，ＭＡＴＳＵＩＨ，ｅｔａｌ．Ａｕｔｏｍａｔｉｃｄｒｉｖｉｎｇｃｏｎｔｒｏｌｂｙｒｏｂｏｔｉｃｄｒｉｖｅｒｃｏｎｓｉｄｅｒｉｎｇｔｈｅｌａｃｋｏｆａｄｒｉｖｉｎｇｆｏｒｃｅａｔｃｈａｎｇｉｎｇｇｅａｒｓ［Ｃ］／／２０１６ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋｓ：ＩＥＥＥ，２０１６：３０７５- ３０８０．
［６］　ＺＨＵＹＨ，ＦＵＺＹ，ＦＵＺ，ｅｔａｌ．Ｍｕｌｔｉｆｅａｔｕｒｅｓｆｕｓｉｏｎｆｏｒｆａｕｌｔｄｉａｇｎｏｓｉｓｏｆｐｅｄａｌｒｏｂｏｔｕｓｉｎｇｔｉｍｅｓｐｅｅｄｓｉｇｎａｌｓ［Ｊ］．Ｓｅｎｓｏｒｓ，２０１９，１９（１）：１６３-
１７７．
［７］　ＳＵＴＴＯＮＲＳ，ＢＡＲＴＯＡＧ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ａｎｉｎｔｒｏｄｕｃｔｉｏｎ
［Ｍ］．Ｃａｍｂｒｉｄｇｅ：ＭＩＴＰｒｅｓｓ，２０１８．
［８］　ＷＡＴＫＩＮＳＣＪＣＨ，ＤＡＹＡＮＰ．Ｑｌｅａｒｎｉｎｇ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，１９９２，８（３）：２７９-２９２．
［９］　ＢＥＬＬＭＡＮＲ．Ｏｎｔｈｅｔｈｅｏｒｙｏｆｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆｔｈｅｎａｔｉｏｎａｌａｃａｄｅｍｙｏｆｓｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ，１９５２，３８（８）：７１６- ７１９．
［１０］　ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．Ｐｌａｙｉｎｇａｔａｒｉｗｉｔｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｊ／ＯＬ］．ａｒＸｉｖｐｒｅｐｒｉｎｔ，２０１３［２０２０- ０５- １８］．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１３１２．５６０２．
［１１］　ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．Ｈｕｍａｎｌｅｖｅｌｃｏｎｔｒｏｌｔｈｒｏｕｇｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８：５２９-５３３．
［１２］　ＩＯＦＦＥＳ，ＳＺＥＧＥＤＹＣ．Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ：Ａｃｃｅｌｅｒａｔｉｎｇｄｅｅｐｎｅｔｗｏｒｋｔｒａｉｎｉｎｇｂｙｒｅｄｕｃｉｎｇｉｎｔｅｒｎａｌｃｏｖａｒｉａｔｅｓｈｉｆｔ［Ｊ／ＯＬ］．ａｒＸｉｖｐｒｅｐｒｉｎｔ，２０１５［２０２０-０５- １８］．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０２．０３１６７．

备注/Memo

备注/Memo:: 收稿日期：２０２０-０６- ０３
基金项目：国家自然科学基金资助项目（６１９７３２１０）；上海市科学技术委员会研究项目（１７４４１９０１０００）
作者简介：郝高峰（１９９３－），男，安徽安庆人，硕士研究生，研究方向为强化学习和机器人；付　庄　（１９７２－），男，山东招远人，教授，研究方向为特种机器人与控制系统。

更新日期/Last Update: 2020-09-21

机械与电子[ISSN:1001-2257/CN:52-1052/TH]

文章信息/Info

参考文献/References:

备注/Memo

常用功能

导航/Navigate

工具/Tools

统计/Statistics