仿生水下机器人的增强学习姿态镇定

针对一类双波动鳍仿生水下机器人的姿态镇定问题,提出一种基于增强学习的自适应PID控制方法.对增强学习自适应PID控制器进行了具体设计,包括PD控制律和基于增强学习的参数自适应方法.基于实际模型参数对偏航角镇定问题进行了仿真试验.结果表明,经过较小次数的学习控制后,仿生水下机器人的偏航角镇定性能得到明显改善,而且能够在短时间内对一般性扰动进行抑制,表现出了较好的适应性.

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：462.07KB

D0I:10.13374/.issn1001-053x.2012.01.014 第34卷第1期北京科技大学学报 Vol.34 No.1 2012年1月 Journal of University of Science and Technology Beijing Jan.2012 仿生水下机器人的增强学习姿态镇定林龙信)四谢海斌) 沈林成) 1)海军装备研究院，北京1001612)国防科技大学机电工程与自动化学院，长沙410073 ☒通信作者，E-mail:linlongxing@163.com 摘要针对一类双波动鳍仿生水下机器人的姿态镇定问题，提出一种基于增强学习的自适应PD控制方法.对增强学习自适应PD控制器进行了具体设计，包括PD控制律和基于增强学习的参数自适应方法.基于实际模型参数对偏航角镇定问题进行了仿真试验。结果表明，经过较小次数的学习控制后，仿生水下机器人的偏航角镇定性能得到明显改善，而且能够在短时间内对一般性扰动进行抑制，表现出了较好的适应性. 关键词机器人：仿生学：水下机器人：增强学习：自适应控制：姿态控制分类号TP242,TP181 Reinforcement learning based attitude stabilization for bionic underwater robots LIN Long=in》☒，XIE Hai-bin2》,SHEN Lin-cheng2》 1)Naval Academy of Armament,Beijing 100161,China 2)College of Mechatronics Engineering and Automation,National University of Defense Technology,Changsha 410073,China Corresponding author,E-mail:linlongxin@163.com ABSTRACT A reinforcement learning based adaptive PID controller was presented for the attitude stabilization of a kind of bionic underwater robot with two bionic undulating fins.The scheme of the reinforcement learning based adaptive PID controller was given concretely including the control law and the parameter adaptive method based on reinforcement learning.Simulation experiments of yaw angle stabilization based on actual model parameters were carried out.The results indicate that the stabilization performance of yaw an- gle is improved distinctly after several iterations of learning control and the controller can overcome ordinary disturbances in short time, exhibiting its preferable adaptability. KEY WORDS robots:bionics:underwater vehicles;reinforcement learning:adaptive control;attitude control 仿生水下机器人是目前机器人领域的一个重要对于自身模型的不确定性和外部扰动具有学习和自研究方向.本文主要针对一类采用模拟生物鱼类波适应能力.这是一项非常具有挑战性的工作. 动鳍的仿生波动鳍作为主要推进器的仿生水下机器本文针对仿生水下机器人运动控制中的姿态镇定问人的运动控制问题展开研究.仿生波动鳍是一种新题，借鉴机器学习中广泛研究的增强学习方法，提出型的仿生推进器，可有效弥补传统“螺旋桨+操纵一种基于增强学习的自适应PID控制方法. 舵”推进模式的不足，具有机动性好和流体扰动小 1仿生水下机器人等优良特性，尤其适合于近海的低速游动、转弯机动以及扰流环境下的状态保持等应用场合-习单个仿生波动鳍可以实现一个自由度上的前由于仿生水下机器人具有未知的非传统动力学进、后退和制动，但无法实现转弯和俯仰等机动动特性，因此其运动控制问题也向人们提出了较大的作.为了能使仿生水下机器人具有多自由度运动能挑战.仿生波动鳍产生的力和力矩本质上具有振荡力，采用了多个仿生鳍组合推进的设计思想.图1 和周期特性.关于此类具有周期性或类周期性控制给出了仿生水下机器人的物理结构.它主要由主输入的非线性系统的控制，目前进展还比较缓慢，尽体、头部、尾部、仿生波动鳍、摆动鳍和仿生鳔组成管它们在游动和飞行动物中非常普遍.为了适应复仿生波动鳍、摆动鳍和仿生鳔三种仿生鳍在仿生水杂的水下作业环境，从控制策略上，要求水下机器人下机器人中承担着非常明确的控制任务.在主体左收稿日期：201103-25 基金项目：国防基础科研资助项目(D2820061301):国家自然科学基金资助项目(60805037)

第 34 卷第 1 期 2012 年 1 月北京科技大学学报 Journal of University of Science and Technology Beijing Vol． 34 No． 1 Jan． 2012 仿生水下机器人的增强学习姿态镇定林龙信1) 谢海斌2) 沈林成2) 1) 海军装备研究院，北京 100161 2) 国防科技大学机电工程与自动化学院，长沙 410073 通信作者，E-mail: linlongxin@ 163． com 摘要针对一类双波动鳍仿生水下机器人的姿态镇定问题，提出一种基于增强学习的自适应 PID 控制方法．对增强学习自适应 PID 控制器进行了具体设计，包括 PD 控制律和基于增强学习的参数自适应方法．基于实际模型参数对偏航角镇定问题进行了仿真试验．结果表明，经过较小次数的学习控制后，仿生水下机器人的偏航角镇定性能得到明显改善，而且能够在短时间内对一般性扰动进行抑制，表现出了较好的适应性．关键词机器人; 仿生学; 水下机器人; 增强学习; 自适应控制; 姿态控制分类号 TP242，TP181 Reinforcement learning based attitude stabilization for bionic underwater robots LIN Long-xin1) ，XIE Hai-bin2) ，SHEN Lin-cheng2) 1) Naval Academy of Armament，Beijing 100161，China 2) College of Mechatronics Engineering and Automation，National University of Defense Technology，Changsha 410073，China Corresponding author，E-mail: linlongxin@ 163． com ABSTRACT A reinforcement learning based adaptive PID controller was presented for the attitude stabilization of a kind of bionic underwater robot with two bionic undulating fins． The scheme of the reinforcement learning based adaptive PID controller was given concretely including the control law and the parameter adaptive method based on reinforcement learning． Simulation experiments of yaw angle stabilization based on actual model parameters were carried out． The results indicate that the stabilization performance of yaw angle is improved distinctly after several iterations of learning control and the controller can overcome ordinary disturbances in short time， exhibiting its preferable adaptability． KEY WORDS robots; bionics; underwater vehicles; reinforcement learning; adaptive control; attitude control 收稿日期: 2011--03--25 基金项目: 国防基础科研资助项目( D2820061301) ; 国家自然科学基金资助项目( 60805037) 仿生水下机器人是目前机器人领域的一个重要研究方向．本文主要针对一类采用模拟生物鱼类波动鳍的仿生波动鳍作为主要推进器的仿生水下机器人的运动控制问题展开研究．仿生波动鳍是一种新型的仿生推进器，可有效弥补传统“螺旋桨 + 操纵舵”推进模式的不足，具有机动性好和流体扰动小等优良特性，尤其适合于近海的低速游动、转弯机动以及扰流环境下的状态保持等应用场合［1--2］．由于仿生水下机器人具有未知的非传统动力学特性，因此其运动控制问题也向人们提出了较大的挑战．仿生波动鳍产生的力和力矩本质上具有振荡和周期特性．关于此类具有周期性或类周期性控制输入的非线性系统的控制，目前进展还比较缓慢，尽管它们在游动和飞行动物中非常普遍．为了适应复杂的水下作业环境，从控制策略上，要求水下机器人对于自身模型的不确定性和外部扰动具有学习和自适应能力［3--4］．这是一项非常具有挑战性的工作．本文针对仿生水下机器人运动控制中的姿态镇定问题，借鉴机器学习中广泛研究的增强学习方法，提出一种基于增强学习的自适应 PID 控制方法． 1 仿生水下机器人单个仿生波动鳍可以实现一个自由度上的前进、后退和制动，但无法实现转弯和俯仰等机动动作．为了能使仿生水下机器人具有多自由度运动能力，采用了多个仿生鳍组合推进的设计思想．图 1 给出了仿生水下机器人的物理结构．它主要由主体、头部、尾部、仿生波动鳍、摆动鳍和仿生鳔组成．仿生波动鳍、摆动鳍和仿生鳔三种仿生鳍在仿生水下机器人中承担着非常明确的控制任务．在主体左 DOI:10.13374/j.issn1001-053x.2012.01.014

第1期林龙信等：仿生水下机器人的增强学习姿态镇定 ·77 右侧对称安装的仿生波动鳍是主推进器，负责仿生 2 增强学习姿态镇定控制器设计水下机器人的正逆向推进和偏航控制：在尾部后侧对称安装的双摆动鳍是辅助推进器，负责水下机器 2.1控制器结构人运动过程中的横滚和俯仰控制：安装在主体内部根据上述分析，对三个控制通道均采用单独的的双自由度仿生鳔系统则用于静态的悬浮控制、深增强学习自适应PD控制器.图3是每个控制器的度控制以及俯仰控制.此外，静态横滚控制通过质结构组成.PD控制器是姿态镇定系统的核心，用心下置的方式实现.通过三种仿生鳍的协同配合，于完成实际的控制任务.状态转换模块用于将检测仿生水下机器人可以实现除侧移以外的所有五自由到的姿态误差转换成控制所需要的状态矢量，回报度运动能力，从而能够遂行丰富复杂的高机动性控函数模块对当前的状态进行评价，并将结果传递给制任务 TD误差模块用于计算当前的TD误差，神经网络模仿生螈摆动鳍块提供状态到控制动作（即PD参数）和值函数之仿生波动鳍间的映射，而动作修正模块则在神经网络产生的控制动作基础上增加一定随机噪声，以鼓励探索.神经网络的权值根据TD误差进行调整，尾部回报函数 TD误差神经网络动作修正主体图1仿生水下机器人的物理结构 PID Fig.I Physical structure of the bionic underwater robot 状态转换仿生水下门控制器机器人图2给出了仿生水下机器人姿态镇定系统的典图3增强学习自适应PD控制器结构 Fig.3 Structure of the reinforcement learning based adaptive PlD 型结构框图.它一般由姿态镇定控制器、推力分配 controller 器和姿态测量系统组成.其中，姿态镇定控制器根据姿态偏差和外界扰动计算出保持姿态镇定所需要 PD控制器采用PD控制律：的控制力和力矩，推力分配器将控制器计算出的力 u(t)=k (t)e(t)+ka(t)e(t). (1) 和力矩分配到各个推进器，而姿态测量系统则用于式中，k。(t)和k(t)分别为控制器比例项和微分项提供控制器需要的传感器信息. 的增益，通过增强学习算法对其进行调整「外界扰动 2.2基于增强学习的参数自适应方法风，浪、流增强学习(reinforcement learning,又称强化学习期望输出姿态姿态镇定推力仿生水下姿态或再励学习)是近年来兴起的一类机器学习方法控制器分配器机器人其基本特点是强调与环境的交互，并利用评价性反馈信号来改变行为选择策略以实现学习目标.由于姿态测昂系统增强学习不需要给定各种状态下的导师信号，因此姿态镇定系统适合于智能控制及智能机器人应用领域.本文基于增强学习算法获取最优的PID控制参数k=。, 图2姿态镇定系统的典型结构框图 Fig.2 Structure of a typical attitude stabilization system k],使系统具有期望的动态性能.下面给出偏航角姿态镇定中的增强学习系统设计过程。由于仿生水下机器人的水平面位置由双波动鳍 2.2.1状态和动作表示提供的推力驱动，偏航角由双波动鳍提供的偏航力针对状态和动作的简单预处理可以有效提高算矩驱动，垂直面位置由仿生鳔系统驱动，因此可以对法的执行效率.偏航角镇定的状态变量是偏航角这三个通道进行非耦合分离设计，以降低控制器设中∈[-2π，2π]和偏航角速度少e[-少s,ψ]，可计的复杂度将其转换如下：

第 1 期林龙信等: 仿生水下机器人的增强学习姿态镇定右侧对称安装的仿生波动鳍是主推进器，负责仿生水下机器人的正逆向推进和偏航控制; 在尾部后侧对称安装的双摆动鳍是辅助推进器，负责水下机器人运动过程中的横滚和俯仰控制; 安装在主体内部的双自由度仿生鳔系统则用于静态的悬浮控制、深度控制以及俯仰控制．此外，静态横滚控制通过质心下置的方式实现．通过三种仿生鳍的协同配合，仿生水下机器人可以实现除侧移以外的所有五自由度运动能力，从而能够遂行丰富复杂的高机动性控制任务．图 1 仿生水下机器人的物理结构 Fig． 1 Physical structure of the bionic underwater robot 图 2 给出了仿生水下机器人姿态镇定系统的典型结构框图．它一般由姿态镇定控制器、推力分配器和姿态测量系统组成．其中，姿态镇定控制器根据姿态偏差和外界扰动计算出保持姿态镇定所需要的控制力和力矩，推力分配器将控制器计算出的力和力矩分配到各个推进器，而姿态测量系统则用于提供控制器需要的传感器信息．图 2 姿态镇定系统的典型结构框图 Fig． 2 Structure of a typical attitude stabilization system 由于仿生水下机器人的水平面位置由双波动鳍提供的推力驱动，偏航角由双波动鳍提供的偏航力矩驱动，垂直面位置由仿生鳔系统驱动，因此可以对这三个通道进行非耦合分离设计，以降低控制器设计的复杂度． 2 增强学习姿态镇定控制器设计 2. 1 控制器结构根据上述分析，对三个控制通道均采用单独的增强学习自适应 PID 控制器．图 3 是每个控制器的结构组成． PID 控制器是姿态镇定系统的核心，用于完成实际的控制任务．状态转换模块用于将检测到的姿态误差转换成控制所需要的状态矢量，回报函数模块对当前的状态进行评价，并将结果传递给 TD 误差模块用于计算当前的 TD 误差，神经网络模块提供状态到控制动作( 即 PID 参数) 和值函数之间的映射，而动作修正模块则在神经网络产生的控制动作基础上增加一定随机噪声，以鼓励探索．神经网络的权值根据 TD 误差进行调整．图 3 增强学习自适应 PID 控制器结构 Fig． 3 Structure of the reinforcement learning based adaptive PID controller PID 控制器采用 PD 控制律: u( t) = kp ( t) e( t) + kd ( t) e ·( t) ． ( 1) 式中，kp ( t) 和 kd ( t) 分别为控制器比例项和微分项的增益，通过增强学习算法对其进行调整． 2. 2 基于增强学习的参数自适应方法增强学习( reinforcement learning，又称强化学习或再励学习) 是近年来兴起的一类机器学习方法．其基本特点是强调与环境的交互，并利用评价性反馈信号来改变行为选择策略以实现学习目标．由于增强学习不需要给定各种状态下的导师信号，因此适合于智能控制及智能机器人应用领域．本文基于增强学习算法获取最优的 PID 控制参数 k = ［kp， kd］，使系统具有期望的动态性能．下面给出偏航角姿态镇定中的增强学习系统设计过程． 2. 2. 1 状态和动作表示针对状态和动作的简单预处理可以有效提高算法的执行效率．偏航角镇定的状态变量是偏航角 ψ∈［－ 2π，2π］和偏航角速度 ψ · ∈［－ ψ · max，ψ · max］，可将其转换如下: ·77·

·78 北京科技大学学报第34卷 2T-, 山>T: X1= 2π+山，业<-π nt,2()=∑g2()0,"(),02()= (2) f(net2(t)）,i=1,2,…,6. (11) 2=, 业as 式中，隐层节点的激活函数为双曲正切函数. 增强学习系统的输出动作是PD控制器的控制输出层的三个节点分别代表可调参数k。k:以及器参数k=止。，k],它们通过对前馈神经网络的输状态的值函数V.输出节点的激活函数同样采用双曲正切函数f().输出层的输入、输出可分别计算为出添加一定噪声来得到，属于连续的非负变量. 2.2.2回报函数设计回报函数是环境对当前系统控制性能好坏的定 a0=a0o90l=l23: 量评价，其设计应当反映姿态误差及误差变化率对 0(t)=f(net(t),l=1,2,3; 控制性能的影响.回报函数设计由两部分组成： k()=ko+00(); r(t)=cr.(t)+c2r:(t). (3) ka(t）=ko+02(t): 式中，c,和c,为反映姿态误差和误差变化率对控制 V(t)=0)(t）. 性能影响权重的系数.且有 (12) r.(t)= r0,Ie(t)l≤e; (4) 式中，k®和km为PID控制器的初始增益.上面各式 1-1,其他. 中，心2为隐层权值，w)为输出层权值，上角标 r0,le(t)≤le(t-1)l: r:(t)= (1)、(2)和(3)分别为输入层、隐层和输出层. (5) 1-1,其他将系统学习的性能指标函数确定为TD误差的式中，e为误差容限. 函数，即 2.2.3TD误差计算 (13) TD误差用于对神经网络进行更新.TD误差根 E0=2品0. 据状态转移过程中连续两个状态值函数的时域差值神经网络基于该TD误差性能指标，按照梯度进行计算，即下降法和链式规则对其权值进行修正. δm(t）=r(t)+yV(t+1)-V(t). (6) 3仿真研究式中，r(t)为环境给出的即时回报信号，V(t+1)为+1 时刻状态的估计值函数，y为折扣因子(O<y<1). 为了验证增强学习姿态镇定方法，考虑由下式 2.2.4动作修正给出的仿生水下机器人运动控制模型，且只考虑偏为了能够在探索和利用之间进行权衡，神经网航运动，络输出的控制增益k。和k:并不直接传递给PD控 M5+C()5+D()5+g(n)=Bu,(14) 制器使用，而是在其基础上叠加一个高斯噪声项 n=J(n)5. (15) k-的.k的均值为零，方差与当前状态的值函数式中，η为机器人在地球坐标系中的姿态，；为机器有关，即人在载体坐标系中的速度矢量，J(n)为载体坐标系 k (t)=kg (t)+n(0,v(t)), (7) 到地球坐标系的转换矩阵，M为惯性矩阵，C()为 k:(t)）=k(t)+nk(0,ov(t)）, (8) 哥氏力和向心力矩阵，D()为阻尼矩阵，g(n)为恢 1 复力与力矩矢量，B为取决于推进器配置的控制矩 a,(0）=1+e2 (9) 阵，为单个推进器提供的力与力矩矢量. 式中，V(t)为神经网络输出的状态值函数仿生水下机器人的物理模型参数如表1所示 2.2.5神经网络设计其他参数包括少mx=50°·s,g=1°，a=0.20,y= 增强学习系统采用三层BP神经网络来学习 0.90,7=0.15.PID控制器的初始增益设定为k。= PID控制器的参数k。和k妇，输入层、隐层和输出层 30和km=30,其调节量均为±10. 的神经元数目分别是2、5和3.输入层每个输入节仿真步长设定为0.01s,仿真试验共进行50个学点代表一个系统状态变量，即习控制周期，每个学习控制周期的时间长度是40s, 0(t）=x(t),j=1,2. (10) 其中在20~25s之间加入均值为零且最大幅值等于隐层节点的输入、输出为最大偏航力矩的随机扰动.图4给出了50个学习

北京科技大学学报第 34 卷 x1 = 2π － ψ， ψ ＞ π; {2π + ψ， ψ ＜－ π． x2 = ψ · ψ · max      ． ( 2) 增强学习系统的输出动作是 PID 控制器的控制器参数 k =［kp，kd］，它们通过对前馈神经网络的输出添加一定噪声来得到，属于连续的非负变量． 2. 2. 2 回报函数设计回报函数是环境对当前系统控制性能好坏的定量评价，其设计应当反映姿态误差及误差变化率对控制性能的影响．回报函数设计由两部分组成: r( t) = c1 re( t) + c2 r·e ( t) ． ( 3) 式中，c1 和 c2 为反映姿态误差和误差变化率对控制性能影响权重的系数．且有 re( t) = 0， |e( t) |≤ε; { － 1，其他． ( 4) r·e ( t) = 0， |e( t) |≤|e( t － 1) | ; { － 1，其他． ( 5) 式中，ε 为误差容限． 2. 2. 3 TD 误差计算 TD 误差用于对神经网络进行更新． TD 误差根据状态转移过程中连续两个状态值函数的时域差值进行计算，即 δTD( t) = r( t) + γV( t + 1) － V( t) ． ( 6) 式中，r( t) 为环境给出的即时回报信号，V( t +1) 为t +1 时刻状态的估计值函数，γ 为折扣因子( 0 ＜ γ ＜1) ． 2. 2. 4 动作修正为了能够在探索和利用之间进行权衡，神经网络输出的控制增益 k' p 和 k' d 并不直接传递给 PID 控制器使用，而是在其基础上叠加一个高斯噪声项 ηK ［5--6］． ηK 的均值为零，方差与当前状态的值函数有关，即 kp ( t) = k' p ( t) + ηK ( 0，σV ( t) ) ， ( 7) kd ( t) = k' d ( t) + ηK ( 0，σV ( t) ) ， ( 8) σV ( t) = 1 1 + e 2V( t) ． ( 9) 式中，V( t) 为神经网络输出的状态值函数． 2. 2. 5 神经网络设计增强学习系统采用三层 BP 神经网络来学习 PID 控制器的参数 kp 和 kd，输入层、隐层和输出层的神经元数目分别是 2、5 和 3．输入层每个输入节点代表一个系统状态变量，即 O( 1) j ( t) = xj ( t) ，j = 1，2． ( 10) 隐层节点的输入、输出为 net ( 2) i ( t) = ∑ 2 j = 1 w( 2) ij ( t) O( 1) j ( t) ，O( 2) i ( t) = f( net ( 2) i ( t) ) ，i = 1，2，…，6． ( 11) 式中，隐层节点的激活函数为双曲正切函数．输出层的三个节点分别代表可调参数 k' p、k' d 以及状态的值函数 V．输出节点的激活函数同样采用双曲正切函数 f( t) ．输出层的输入、输出可分别计算为 net ( 3) l ( t) = ∑ 6 i = 1 w( 3) li ( t) O( 2) i ( t) ，l = 1，2，3; O( 3) l ( t) = f( net ( 3) l ( t) ) ，l = 1，2，3; k'p ( t) = kp0 + O( 3) 1 ( t) ; k'd ( t) = kd0 + O( 3) 2 ( t) ; V( t) = O( 3) 3 ( t)          ． ( 12) 式中，kp0和 kd0为 PID 控制器的初始增益．上面各式中，w( 2) ij 为隐层权值，w( 3) li 为输出层权值，上角标 ( 1) 、( 2) 和( 3) 分别为输入层、隐层和输出层．将系统学习的性能指标函数确定为 TD 误差的函数，即 E( t) = 1 2 δ 2 TD( t) ． ( 13) 神经网络基于该 TD 误差性能指标，按照梯度下降法和链式规则对其权值进行修正． 3 仿真研究为了验证增强学习姿态镇定方法，考虑由下式给出的仿生水下机器人运动控制模型，且只考虑偏航运动， M ζ · + C( ζ) ζ + D( ζ) ζ + g( η) = Bu， ( 14) η · = J( η) ζ． ( 15) 式中，η 为机器人在地球坐标系中的姿态，ζ 为机器人在载体坐标系中的速度矢量，J( η) 为载体坐标系到地球坐标系的转换矩阵，M 为惯性矩阵，C( ζ) 为哥氏力和向心力矩阵，D( ζ) 为阻尼矩阵，g( η) 为恢复力与力矩矢量，B 为取决于推进器配置的控制矩阵，u 为单个推进器提供的力与力矩矢量．仿生水下机器人的物理模型参数如表 1 所示．其他参数包括 ψ · max = 50°·s － 1 ，ε = 1°，α = 0. 20，γ = 0. 90，η = 0. 15． PID 控制器的初始增益设定为 kp0 = 30 和 kd0 = 30，其调节量均为 ± 10．仿真步长设定为0. 01 s，仿真试验共进行50 个学习控制周期，每个学习控制周期的时间长度是 40 s，其中在 20 ～ 25 s 之间加入均值为零且最大幅值等于最大偏航力矩的随机扰动．图4给出了50个学习 ·78·

第1期林龙信等：仿生水下机器人的增强学习姿态镇定 ·79· 表1仿生水下机器人的模型参数 700 Table I Parameters of the bionic underwater robot 650 总质量，Mkg 64.50 长度，L/m 1.25 600- 载体直径，Dlm 0.50 层550 高度，h/m 0.15 容积，V/m3 0.065 鳍长，Ln/m 0.60 0 鳍高，Lm 0.25 400- 仿生波动鳍鳍厚，d/m 0.0025 350% wwnnmwnhn 波长，A/m 0.60 10 2030 4050 学习次数最大摆角，中mx/() ±15 图4回报和变化曲线控制周期中系统回报和的变化曲线.显然，结合回 Fig.4 Curve of the sum of reward 报函数的定义，在第8次学习控制后增强学习自适应PD控制器便实现了优化，学习控制器的参数己 26.7%降至5.6%，稳定时间从12s降至7s.对于经基本保持稳定一般性扰动，控制器也能够在短时间内进行抑制，表图5给出了控制器的偏航角镇定过程和参数学现出了较好的适应性.另外，k。从最初的30变化为习过程.图中的红色细实线和蓝色粗实线分别对应稳定的20.35，而k从最初的10变化为稳定的初次学习和末次学习的情况.从中可知，经过多次 19.15:在每个学习控制周期内，PID控制参数随着学习后，控制器的动态性能得到较大提升，超调量从姿态误差的变化而变化 80 40 ,初次学习 35 60 30 25 ,初次学习，末次学习 40 末次学习 10 20 0 61 时间s 20 初次学习 “末次学习 20 15 10 598202立242628032 5 10 20 30 40 20 30 90 时间/s 时间/s (a) 6 图5控制器输出性能.(a)偏航角镇定过程：(b)参数学习过程 Fig.5 Output performance of the controller:(a)process of yaw angle stabilization:(b)process of parameter learning 4结论 fish.IEEE J Oceanic Eng,2004,29(3):651 2] Xie H B.Design,Modeling,and Control of Bionic Undenater Ve- 本文针对一类双波动鳍仿生水下机器人的姿态 hice Propelled by Multiple Undulatory Fins [Dissertation]Chang- 镇定问题展开了研究，提出了一种基于增强学习的 sha:National University of Defense Technology,2006:1 (谢海斌.基于多波动鳍推进的仿生水下机器人设计、建模与仿生水下机器人自适应PD控制方案.仿真结果表控制[学位论文].长沙：国防科技大学，2006：1) 明，基于增强学习的自适应PD控制在偏航角姿态 3 Yuh J.Design and control of autonomous underwater robots:a sur- 镇定方面的性能较为理想.增强学习算法的加入， vey.Auton Robots,2000,8:7 使得PD控制器可以适应环境的变化，减轻了人工 [4]Koh T H,Lau M W S,Seet G,et al.A control module scheme for an underactuated underwater robotic vehicle.J Intell Rob Syst, 整定控制参数的困难.从本质上来说，增强学习自 2006,46(1):43 适应PD控制是一种通过实时调整线性控制器的控 5] Wang X S,Cheng Y H.Theory of Machine Learning.Beijing: 制参数从而实现非线性控制的方式.该控制结构也 Science Press,2009 能够应用于其他类型的水下机器人， (王雪松，程玉虎.机器学习理论、方法及应用.北京：科学出版社，2009) 参考文献 Sedighizadeh M,Rezazadeh A.Adaptive PID controller based on rein- [Maciver M A,Fontaine E,Burdick J W.Designing future under- forcement leaming for wind turbine control//Proceedings of World water vehicles:principles and mechanisms of the weakly electric Academy of Science,Engineering and Technology.Rome,2008

第 1 期林龙信等: 仿生水下机器人的增强学习姿态镇定表 1 仿生水下机器人的模型参数 Table 1 Parameters of the bionic underwater robot 总质量，M/kg 64. 50 长度，L /m 1. 25 载体直径，D/m 0. 50 高度，h /m 0. 15 容积，V /m3 0. 065 鳍长，Lfin /m 0. 60 鳍高，Lray /m 0. 25 仿生波动鳍鳍厚，d /m 0. 002 5 波长，λ /m 0. 60 最大摆角，max /( °) ± 15 控制周期中系统回报和的变化曲线．显然，结合回报函数的定义，在第 8 次学习控制后增强学习自适应 PID 控制器便实现了优化，学习控制器的参数已经基本保持稳定．图 5 给出了控制器的偏航角镇定过程和参数学习过程．图中的红色细实线和蓝色粗实线分别对应初次学习和末次学习的情况．从中可知，经过多次学习后，控制器的动态性能得到较大提升，超调量从图 4 回报和变化曲线 Fig． 4 Curve of the sum of reward 26. 7% 降至 5. 6% ，稳定时间从 12 s 降至 7 s．对于一般性扰动，控制器也能够在短时间内进行抑制，表现出了较好的适应性．另外，kp 从最初的 30 变化为稳定的 20. 35，而 kd 从最初的 10 变化为稳定的 19. 15; 在每个学习控制周期内，PID 控制参数随着姿态误差的变化而变化．图 5 控制器输出性能 . ( a) 偏航角镇定过程; ( b) 参数学习过程 Fig． 5 Output performance of the controller: ( a) process of yaw angle stabilization; ( b) process of parameter learning 4 结论本文针对一类双波动鳍仿生水下机器人的姿态镇定问题展开了研究，提出了一种基于增强学习的仿生水下机器人自适应 PID 控制方案．仿真结果表明，基于增强学习的自适应 PID 控制在偏航角姿态镇定方面的性能较为理想．增强学习算法的加入，使得 PID 控制器可以适应环境的变化，减轻了人工整定控制参数的困难．从本质上来说，增强学习自适应 PID 控制是一种通过实时调整线性控制器的控制参数从而实现非线性控制的方式．该控制结构也能够应用于其他类型的水下机器人．参考文献［1］ Maciver M A，Fontaine E，Burdick J W． Designing future underwater vehicles: principles and mechanisms of the weakly electric fish． IEEE J Oceanic Eng，2004，29( 3) : 651 ［2］ Xie H B． Design，Modeling，and Control of Bionic Underwater Vehicle Propelled by Multiple Undulatory Fins［Dissertation］． Changsha: National University of Defense Technology，2006: 1 ( 谢海斌．基于多波动鳍推进的仿生水下机器人设计、建模与控制［学位论文］．长沙: 国防科技大学，2006: 1) ［3］ Yuh J． Design and control of autonomous underwater robots: a survey． Auton Robots，2000，8: 7 ［4］ Koh T H，Lau M W S，Seet G，et al． A control module scheme for an underactuated underwater robotic vehicle． J Intell Rob Syst， 2006，46( 1) : 43 ［5］ Wang X S，Cheng Y H． Theory of Machine Learning． Beijing: Science Press，2009 ( 王雪松，程玉虎．机器学习理论、方法及应用．北京: 科学出版社，2009) ［6］ Sedighizadeh M，Rezazadeh A． Adaptive PID controller based on reinforcement learning for wind turbine control/ /Proceedings of World Academy of Science，Engineering and Technology． Rome，2008 ·79·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

仿生水下机器人的增强学习姿态镇定