留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度强化学习的智能船舶航迹跟踪控制

祝亢 黄珍 王绪明

祝亢, 黄珍, 王绪明. 基于深度强化学习的智能船舶航迹跟踪控制[J]. 中国舰船研究, 2021, 16(1): 105–113 doi: 10.19693/j.issn.1673-3185.01940
引用本文: 祝亢, 黄珍, 王绪明. 基于深度强化学习的智能船舶航迹跟踪控制[J]. 中国舰船研究, 2021, 16(1): 105–113 doi: 10.19693/j.issn.1673-3185.01940
ZHU K, HUANG Z, WANG . Tracking control of intelligent ship based on deep reinforcement learning[J]. Chinese Journal of Ship Research, 2021, 16(1): 105–113 doi: 10.19693/j.issn.1673-3185.01940
Citation: ZHU K, HUANG Z, WANG . Tracking control of intelligent ship based on deep reinforcement learning[J]. Chinese Journal of Ship Research, 2021, 16(1): 105–113 doi: 10.19693/j.issn.1673-3185.01940

基于深度强化学习的智能船舶航迹跟踪控制

doi: 10.19693/j.issn.1673-3185.01940
基金项目: 国家重点研发计划资助项目(2018YFB1601500)
详细信息
    作者简介:

    祝亢,女,1998年生,硕士生。研究方向:船舶智能控制及其应用。E-mail:zk13972793427@163.com

    黄珍,女,1974年生,博士,教授。研究方向:智能控制理论及其应用研究。E-mail:h-zhen@163.com

    王绪明,男,1964年生,博士,研究员。研究方向:船舶智能化。E-mail:ted@whut.edu.cn

    通信作者:

    黄珍

  • 中图分类号: U664.82

Tracking control of intelligent ship based on deep reinforcement learning

知识共享许可协议
基于深度强化学习的智能船舶航迹跟踪控制祝亢,等创作,采用知识共享署名4.0国际许可协议进行许可。
  • 摘要:   目的  智能船舶的航迹跟踪控制问题往往面临着控制环境复杂、控制器稳定性不高以及大量的算法计算等问题。为实现对航迹跟踪的精准控制,提出一种引入深度强化学习技术的航向控制器。  方法  首先,结合视线(LOS)算法制导,以船舶的操纵特性和控制要求为基础,将航迹跟踪问题建模成马尔可夫决策过程,设计其状态空间、动作空间、奖励函数;然后,使用深度确定性策略梯度(DDPG)算法作为控制器的实现,采用离线学习方法对控制器进行训练;最后,将训练完成的控制器与BP-PID控制器进行对比研究,分析控制效果。  结果  仿真结果表明,设计的深度强化学习控制器可以从训练学习过程中快速收敛达到控制要求,训练后的网络与BP-PID控制器相比跟踪迅速,具有偏航误差小、舵角变化频率小等优点。  结论  研究成果可为智能船舶航迹跟踪控制提供参考。
  • 图  1  LOS导航原理图

    Figure  1.  Schematic diagram of LOS algorithm

    图  2  船舶控制的MDP模型

    Figure  2.  MDP model of ship control

    图  3  基于强化学习的智能船舶轨迹跟踪控制框图

    Figure  3.  Block diagram of intelligent ship tracking control based on RL

    图  4  DDPG基本框架

    Figure  4.  Block diagram of DDPG

    图  5  航向误差曲线

    Figure  5.  Course error curves

    图  6  总回报奖励曲线

    Figure  6.  Total reward curve

    图  7  航迹跟踪效果(实验1)

    Figure  7.  Tracking control result (experiment 1)

    图  8  航迹跟踪结果(实验2)

    Figure  8.  Tracking control result (experiment 2)

    图  9  BP-PID控制器控制效果

    Figure  9.  Control result of BP-PID

    图  10  DDPG控制器控制效果

    Figure  10.  Control result of DDPG

    表  1  KVLCC2船舶参数

    Table  1.   Parameters of a KVLCC2 tanker

    参数数值参数数值
    船长Lpp/m 7 方形系数${C_{\rm{b}}}$ 0.809 8
    船宽Bwl/m 1.168 8 浮心坐标/m 0.244 0
    型深D/m 0.656 3 螺旋桨直径Dp/m 0.216 0
    排水体积/m3 3.272 4 舵面积/m2 0.053 9
    下载: 导出CSV

    表  2  Critic网络参数

    Table  2.   Critic network parameters

    参数赋值
    输入层状态向量$ {{S}}\left( t \right)$
    第1个隐层300
    第1层激活函数Relu
    第2个隐层200
    第2层激活函数Relu
    输出层动作$ \delta \left( t \right)$
    输出层激活函数Tanh
    参数初始化Xavier初始化
    学习率0.000 1
    优化器Adam
    下载: 导出CSV

    表  3  Actor网络参数

    Table  3.   Actor network parameters

    参数赋值
    输入层状态向量$ {{S}}\left( t \right)$,动作$ \delta \left( t \right)$
    第1个隐层300
    第1层激活函数Relu
    第2个隐层200
    第2层激活函数Relu
    输出层$Q\left( { {{S}}\left( i \right),\delta \left( i \right)} \right)$
    输出层激活函数Linear
    参数初始化Xavier初始化
    学习率0.001
    优化器Adam
    下载: 导出CSV

    表  4  控制性能指标

    Table  4.   Control performance

    控制器RMSE
    BP-PID控制器13.585 0
    DDPG控制器6.911 96
    下载: 导出CSV
  • [1] 严新平, 刘佳仑, 范爱龙, 等. 智能船舶技术发展与趋势简述[J]. 船舶工程, 2020, 42(3): 15–20.

    YAN X P, LIU J L, FAN A L, et al. Development and trend of intelligent ship technology[J]. Ship Engineering, 2020, 42(3): 15–20 (in Chinese).
    [2] 郭宝珠. 非线性系统的自抗扰控制引论[J]. 数学建模及其应用, 2017, 6(1): 13–22, 52. doi: 10.3969/j.issn.2095-3070.2017.01.003

    GUO B Z. An introduction to active disturbance rejection control for nonlinear systems[J]. Mathematical Modeling and its Applications, 2017, 6(1): 13–22, 52 (in Chinese). doi: 10.3969/j.issn.2095-3070.2017.01.003
    [3] 张旋武, 谢磊, 初秀民, 等. 无人船路径跟随控制方法综述[J]. 交通信息与安全, 2020, 38(1): 20–26.

    ZHANG X W, XIE L, CHU X M, et al. An overview of path following control methods for unmanned surface vehicles[J]. Journal of Transport Information and Safety, 2020, 38(1): 20–26 (in Chinese).
    [4] LIU S, XING B W, ZHU W L. A fusion fuzzy PID controller with real-time implementation on a ship course control system[C]//Proceedings of the 2015 23rd Mediterranean Conference on Control and Automation (MED). Torremolinos, Spain: IEEE, 2015.
    [5] MAGALHÃES J, DAMAS B, LOBO V. Reinforcement learning: the application to autonomous biomimetic underwater vehicles control[J]. IOP Conference Series: Earth and Environmental Science, 2018, 172: 12–19.
    [6] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
    [7] WOO J, KIM N. Vector field based guidance method for docking of an unmanned surface vehicle[C]//Proceedings of the 12th ISOPE Pacific/Asia Offshore Mechanics Symposium. Gold Coast, Australia: International Society of Offshore and Polar Engineers, 2016.
    [8] 韩鹏, 刘志林, 周泽才, 等. 基于LOS法的自航模航迹跟踪控制算法实现[J]. 应用科技, 2018, 45(3): 66–70.

    HAN P, LIU Z L, ZHOU Z C, et al. Path tracking control algorithm based on LOS method for surface self-propulsion vessel[J]. Applied Science and Technology, 2018, 45(3): 66–70 (in Chinese).
    [9] MOREIRA L, FOSSEN T I, SOARES C G. Path following control system for a tanker ship model[J]. Ocean Engineering, 2007, 34(14/15): 2074–2085.
    [10] 任彧, 赵师涛. 磁导航AGV深度强化学习路径跟踪控制方法[J]. 杭州电子科技大学学报, 2019, 39(2): 28–34.

    REN Y, ZHAO S T. Deep reinforcement learning based path following control of magnetic navigation AGV[J]. Journal of Hangzhou Dianzi University, 2019, 39(2): 28–34 (in Chinese).
    [11] CARRERAS M, RIDAO P, EL-FAKDI A. Semi-online neural Q_leaming for real-time robot learning[C]//Proceedings of 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas, Nevada: IEEE, 2003: 662-667.
    [12] 刘建伟, 高峰, 罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报, 2019, 42(6): 1406–1438. doi: 10.11897/SP.J.1016.2019.01406

    LIU J W, GAO F, LUO X L. Survey of deep reinforcement learning based on value function and policy gradient[J]. Chinese Journal of Computers, 2019, 42(6): 1406–1438 (in Chinese). doi: 10.11897/SP.J.1016.2019.01406
    [13] WOO J, YU C, KIM N. Deep reinforcement learning-based controller for path following of an unmanned surface vehicle[J]. Ocean Engineering, 2019, 183: 155–166. doi: 10.1016/j.oceaneng.2019.04.099
    [14] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]//Proceedings of the 4th International Conference on Learning Representations. San Juan, 2015: A187.
    [15] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China: ACM, 2014: I-387–I-395.
    [16] YASUKAWA H, YOSHIMURA Y. Introduction of MMG standard method for ship maneuvering predictions[J]. Journal of Marine Science and Technology, 2015, 20(1): 37–52. doi: 10.1007/s00773-014-0293-y
    [17] LIU J L, QUADVLIEG F, HEKKENBERG R. Impacts of the rudder profile on manoeuvring performance of ships[J]. Ocean Engineering, 2016, 124: 226–240. doi: 10.1016/j.oceaneng.2016.07.064
    [18] 王艳. 无人船建模及路径跟踪控制[D]. 杭州: 浙江大学, 2019.

    WANG Y. Modeling and path tracking control of unmanned surface vessel[D]. Hangzhou: Zhejiang University, 2019 (in Chinese).
    [19] 钟海鑫, 丘森辉, 罗晓曙, 等. 基于附加惯性项BP神经网络的四旋翼无人机姿态控制研究[J]. 广西师范大学学报(自然科学版), 2017, 35(2): 24–31.

    ZHONG H X, QIU S H, LUO X S, et al. Study of applying BP neural network with inertia term self-tuning to attitude stability of quadrotor unmanned aerial vehicle[J]. Journal of Guangxi Normal University (Natural Science Edition), 2017, 35(2): 24–31 (in Chinese).
  • ZG1940_en.pdf
    ZG1940_en.pdf
  • 加载中
图(10) / 表(4)
计量
  • 文章访问数:  624
  • HTML全文浏览量:  335
  • PDF下载量:  151
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-29
  • 修回日期:  2020-07-06
  • 网络出版日期:  2021-01-15
  • 刊出日期:  2021-02-28

目录

    /

    返回文章
    返回