[1]郝高峰,付 庄,郑 辉.基于DQN的自动驾驶机器人速度跟踪控制[J].机械与电子,2020,(09):50-53.
 ,Vehicle Speed Tracking Control with a Robotic DriverBased on Deep Q-Network [J].Machinery & Electronics,2020,(09):50-53.
点击复制

基于DQN的自动驾驶机器人速度跟踪控制()
分享到:

机械与电子[ISSN:1001-2257/CN:52-1052/TH]

卷:
期数:
2020年09期
页码:
50-53
栏目:
自动控制与检测
出版日期:
2020-09-21

文章信息/Info

Title:

Vehicle Speed Tracking Control with a Robotic Driver B ased on Deep Q-Network

文章编号:
1001-2257(2020)09-0050-04
作者:
郝高峰付 庄郑 辉
上海交通大学机械系统与振动国家重点实验室,上海 200240
Author(s):
HA O Gaofeng FU Zhuang ZHEN G Hui
 State Key Laboratory of M echanical System and Vibration , Shanghai Jiao Tong U niversity , Shanghai 200240 , China
关键词:
自 动 驾 驶 机 器 人 强 化 学 习 车 速 跟 踪 控 制
Keywords:
robotic driverDQNvehicle speed tracking control
分类号:
T P242 .6
文献标志码:
A
摘要:
由 于 汽 车 传 动 模 型 的 复 杂 性 、延 迟 性 和 踏 板 的 死 区 特 性 ,现 有 的 基 于 传 统 控 制 理 论 和 车 辆 模 型的 方 法 很 难 达 到 理 想 的 控 制 效 果 。 为 解 决 这 个 问 题 ,构 建 了 一 种 基 于D Q N的 速 度 跟 踪 算 法 ,基 于 马 尔 可 夫性 设 计 了 状 态 空 间 、动 作 空 间 ,并 根 据 超 差 规 则 设 计 奖 赏 函 数 。 通 过 批 量 真 车 转 鼓 试 验 对 所 建 立 的 速 度 跟踪 算 法 进 行 了 验 证 ,结 果 表 明 :算 法 模 型 可 有 效 控 制 踏 板 进 行 速 度 跟 踪 ;从 零 开 始 ,只 需 4 ~ 5 轮 训 练 即 可 满足 超 差 数 要 求 ;与 基 于 传 统 控 制 理 论 的 方 案 相 比 ,具 有 超 差 数 更 少 、速 度 更 平 稳 、无 需 专 业 人 员 调 试 等 优 势 。
Abstract:
With the complexity and delay of the vehicle transmission model and the dead zone of the pedal, The existing control methods based on traditional control theory and vehicle model are difficult to achieve the ideal control effect. To solve this problem, a vehicle speed tracking algorithm based on Deep Q-Network (DQN) is constructed, state space and action space are designed based on Markov property, and reward function is designed according to out-of-tolerance rules. Experiments are conducted on dozens of cars, and results show that established algorithm can effectively control the robotic driver for speed tracking. From scratch, it only needs 4~5 episodes of training to meet the requirements. Compared with classic control methods, the proposed method has a smoother speed and fewer speed errors, and does not require experts’ tuning.

参考文献/References:

[ 1 ]  S H O V A L S , Z Y B U R T J P , G RI M A U D O D W .Robot driver for guidance of auto matic durability road ( A D R )test vehicles [ C ]// Proceedings of the 1998 IE E E International Conference on Robotics and A uto mation .New
York : IE E E , 1998 , 2 : 1767- 1772 .
[ 2 ]   环 境 保 护 部 .轻 型 汽 车 污 染 物 排 放 限 值 及 测 量 方 法 :中国 第 六 阶 段 :G B 18352 .6 — 2016 [S ] . 北 京 :中 国 环 境 出版 社 , 2017 .
[ 3 ]  C H E N G , Z H A N G W G .Hierarchical coordinated control method for un manned robot applied to auto m otivetest [ J ] .IE E E Transactions on industrial electronics ,2016 , 63 ( 2 ): 1039- 1051 .
[ 4 ]   陈 刚 ,张 为 公 ,龚 宗 洋 ,等 . 汽 车 驾 驶 机 器 人 多 机 械手 协 调 控 制 研 究 [ J ] . 仪 器 仪 表 学 报 , 2009 , 30 ( 9 ):1836- 1840 .
[ 5 ]  MIZ U TA NI N , IS HID A Y , M ATS UI H , et al.Automatic driving control by robotic driver considering the lack of a driving force at changing gears [ C ]// 2016 IEEE / RSJ International Conference on Intelligent Robots and Systems .New Yorks : IEEE , 2016 : 3075- 3080 .
[ 6 ]  Z H U Y H , F U Z Y , F U Z , et al.M ultifeatures fusion for fault diagnosis of pedal robot using time speed signals [ J ] .Sensors , 2019 , 19 ( 1 ): 163-
 177 .
[ 7 ]  S U T T O N R S , B A R T O A G .Reinforcement learning :an introduction
 [ M ] .Cam bridge : M IT Press , 2018 .
[ 8 ]  W A T KIN S C J C H , D A Y A N P .Qlearning [ J ] .M achine learning , 1992 , 8 ( 3 ): 279-292 .
[ 9 ]  B E L L M A N R .O n the theory of dynamic program ming[ J ] .Proceedings
of the national academ y of sciences of the U nited States of A merica , 1952 , 38 ( 8 ): 716- 719 .
[ 10 ]  M NIH V , K A V U K C U O G L U K , SIL V E R D , et al.Playing atari with deep reinforcement learning[ J /O L ] .arXiv preprint , 2013 [ 2020- 05- 18 ] .https ://arxiv .org / abs / 1312 .5602 .
[ 11 ]  M NIH V , K A V U K C U O G L U K , SIL V E R D , et al.H u man level control through deep reinforcement learning [ J ] .Nature , 2015, 518 : 529-533 .
[ 12 ]  IO FF E S , SZE G E D Y C .Batch normalization : Accelerating deep network training by reducing internal covariate shift [ J / O L ] .arXiv preprint , 2015 [ 2020-05- 18 ] .https :// arxiv .org / abs / 1502 .03167 .

备注/Memo

备注/Memo:
收 稿 日 期 : 2020-06- 03
基 金 项 目 :国 家 自 然 科 学 基 金 资 助 项 目 ( 61973210 );上 海 市 科 学 技 术 委 员 会 研 究 项 目 ( 17441901000 )
作 者 简 介 :郝 高 峰   ( 1993 - ),男 ,安 徽 安 庆 人 ,硕 士 研 究 生 ,研 究 方 向 为 强 化 学 习 和 机 器 人 ;付   庄   ( 1972 - ),男 ,山 东 招 远 人 ,教 授 ,研究 方 向 为 特 种 机 器 人 与 控 制 系 统 。
更新日期/Last Update: 2020-09-21