D0I:10.13374/.issn1001-053x.2012.01.014 第34卷第1期 北京科技大学学报 Vol.34 No.1 2012年1月 Journal of University of Science and Technology Beijing Jan.2012 仿生水下机器人的增强学习姿态镇定 林龙信)四谢海斌) 沈林成) 1)海军装备研究院,北京1001612)国防科技大学机电工程与自动化学院,长沙410073 ☒通信作者,E-mail:linlongxing@163.com 摘要针对一类双波动鳍仿生水下机器人的姿态镇定问题,提出一种基于增强学习的自适应PD控制方法.对增强学习自 适应PD控制器进行了具体设计,包括PD控制律和基于增强学习的参数自适应方法.基于实际模型参数对偏航角镇定问题 进行了仿真试验。结果表明,经过较小次数的学习控制后,仿生水下机器人的偏航角镇定性能得到明显改善,而且能够在短时 间内对一般性扰动进行抑制,表现出了较好的适应性. 关键词机器人:仿生学:水下机器人:增强学习:自适应控制:姿态控制 分类号TP242,TP181 Reinforcement learning based attitude stabilization for bionic underwater robots LIN Long=in》☒,XIE Hai-bin2》,SHEN Lin-cheng2》 1)Naval Academy of Armament,Beijing 100161,China 2)College of Mechatronics Engineering and Automation,National University of Defense Technology,Changsha 410073,China Corresponding author,E-mail:linlongxin@163.com ABSTRACT A reinforcement learning based adaptive PID controller was presented for the attitude stabilization of a kind of bionic underwater robot with two bionic undulating fins.The scheme of the reinforcement learning based adaptive PID controller was given concretely including the control law and the parameter adaptive method based on reinforcement learning.Simulation experiments of yaw angle stabilization based on actual model parameters were carried out.The results indicate that the stabilization performance of yaw an- gle is improved distinctly after several iterations of learning control and the controller can overcome ordinary disturbances in short time, exhibiting its preferable adaptability. KEY WORDS robots:bionics:underwater vehicles;reinforcement learning:adaptive control;attitude control 仿生水下机器人是目前机器人领域的一个重要 对于自身模型的不确定性和外部扰动具有学习和自 研究方向.本文主要针对一类采用模拟生物鱼类波 适应能力.这是一项非常具有挑战性的工作. 动鳍的仿生波动鳍作为主要推进器的仿生水下机器 本文针对仿生水下机器人运动控制中的姿态镇定问 人的运动控制问题展开研究.仿生波动鳍是一种新 题,借鉴机器学习中广泛研究的增强学习方法,提出 型的仿生推进器,可有效弥补传统“螺旋桨+操纵 一种基于增强学习的自适应PID控制方法. 舵”推进模式的不足,具有机动性好和流体扰动小 1仿生水下机器人 等优良特性,尤其适合于近海的低速游动、转弯机动 以及扰流环境下的状态保持等应用场合-习 单个仿生波动鳍可以实现一个自由度上的前 由于仿生水下机器人具有未知的非传统动力学 进、后退和制动,但无法实现转弯和俯仰等机动动 特性,因此其运动控制问题也向人们提出了较大的 作.为了能使仿生水下机器人具有多自由度运动能 挑战.仿生波动鳍产生的力和力矩本质上具有振荡 力,采用了多个仿生鳍组合推进的设计思想.图1 和周期特性.关于此类具有周期性或类周期性控制 给出了仿生水下机器人的物理结构.它主要由主 输入的非线性系统的控制,目前进展还比较缓慢,尽 体、头部、尾部、仿生波动鳍、摆动鳍和仿生鳔组成 管它们在游动和飞行动物中非常普遍.为了适应复 仿生波动鳍、摆动鳍和仿生鳔三种仿生鳍在仿生水 杂的水下作业环境,从控制策略上,要求水下机器人 下机器人中承担着非常明确的控制任务.在主体左 收稿日期:201103-25 基金项目:国防基础科研资助项目(D2820061301):国家自然科学基金资助项目(60805037)
第 34 卷 第 1 期 2012 年 1 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 34 No. 1 Jan. 2012 仿生水下机器人的增强学习姿态镇定 林龙信1) 谢海斌2) 沈林成2) 1) 海军装备研究院,北京 100161 2) 国防科技大学机电工程与自动化学院,长沙 410073 通信作者,E-mail: linlongxin@ 163. com 摘 要 针对一类双波动鳍仿生水下机器人的姿态镇定问题,提出一种基于增强学习的自适应 PID 控制方法. 对增强学习自 适应 PID 控制器进行了具体设计,包括 PD 控制律和基于增强学习的参数自适应方法. 基于实际模型参数对偏航角镇定问题 进行了仿真试验. 结果表明,经过较小次数的学习控制后,仿生水下机器人的偏航角镇定性能得到明显改善,而且能够在短时 间内对一般性扰动进行抑制,表现出了较好的适应性. 关键词 机器人; 仿生学; 水下机器人; 增强学习; 自适应控制; 姿态控制 分类号 TP242,TP181 Reinforcement learning based attitude stabilization for bionic underwater robots LIN Long-xin1) ,XIE Hai-bin2) ,SHEN Lin-cheng2) 1) Naval Academy of Armament,Beijing 100161,China 2) College of Mechatronics Engineering and Automation,National University of Defense Technology,Changsha 410073,China Corresponding author,E-mail: linlongxin@ 163. com ABSTRACT A reinforcement learning based adaptive PID controller was presented for the attitude stabilization of a kind of bionic underwater robot with two bionic undulating fins. The scheme of the reinforcement learning based adaptive PID controller was given concretely including the control law and the parameter adaptive method based on reinforcement learning. Simulation experiments of yaw angle stabilization based on actual model parameters were carried out. The results indicate that the stabilization performance of yaw angle is improved distinctly after several iterations of learning control and the controller can overcome ordinary disturbances in short time, exhibiting its preferable adaptability. KEY WORDS robots; bionics; underwater vehicles; reinforcement learning; adaptive control; attitude control 收稿日期: 2011--03--25 基金项目: 国防基础科研资助项目( D2820061301) ; 国家自然科学基金资助项目( 60805037) 仿生水下机器人是目前机器人领域的一个重要 研究方向. 本文主要针对一类采用模拟生物鱼类波 动鳍的仿生波动鳍作为主要推进器的仿生水下机器 人的运动控制问题展开研究. 仿生波动鳍是一种新 型的仿生推进器,可有效弥补传统“螺旋桨 + 操纵 舵”推进模式的不足,具有机动性好和流体扰动小 等优良特性,尤其适合于近海的低速游动、转弯机动 以及扰流环境下的状态保持等应用场合[1--2]. 由于仿生水下机器人具有未知的非传统动力学 特性,因此其运动控制问题也向人们提出了较大的 挑战. 仿生波动鳍产生的力和力矩本质上具有振荡 和周期特性. 关于此类具有周期性或类周期性控制 输入的非线性系统的控制,目前进展还比较缓慢,尽 管它们在游动和飞行动物中非常普遍. 为了适应复 杂的水下作业环境,从控制策略上,要求水下机器人 对于自身模型的不确定性和外部扰动具有学习和自 适应能力[3--4]. 这是一项非常具有挑战性的工作. 本文针对仿生水下机器人运动控制中的姿态镇定问 题,借鉴机器学习中广泛研究的增强学习方法,提出 一种基于增强学习的自适应 PID 控制方法. 1 仿生水下机器人 单个仿生波动鳍可以实现一个自由度上的前 进、后退和制动,但无法实现转弯和俯仰等机动动 作. 为了能使仿生水下机器人具有多自由度运动能 力,采用了多个仿生鳍组合推进的设计思想. 图 1 给出了仿生水下机器人的物理结构. 它主要由主 体、头部、尾部、仿生波动鳍、摆动鳍和仿生鳔组成. 仿生波动鳍、摆动鳍和仿生鳔三种仿生鳍在仿生水 下机器人中承担着非常明确的控制任务. 在主体左 DOI:10.13374/j.issn1001-053x.2012.01.014
第1期 林龙信等:仿生水下机器人的增强学习姿态镇定 ·77 右侧对称安装的仿生波动鳍是主推进器,负责仿生 2 增强学习姿态镇定控制器设计 水下机器人的正逆向推进和偏航控制:在尾部后侧 对称安装的双摆动鳍是辅助推进器,负责水下机器 2.1控制器结构 人运动过程中的横滚和俯仰控制:安装在主体内部 根据上述分析,对三个控制通道均采用单独的 的双自由度仿生鳔系统则用于静态的悬浮控制、深 增强学习自适应PD控制器.图3是每个控制器的 度控制以及俯仰控制.此外,静态横滚控制通过质 结构组成.PD控制器是姿态镇定系统的核心,用 心下置的方式实现.通过三种仿生鳍的协同配合, 于完成实际的控制任务.状态转换模块用于将检测 仿生水下机器人可以实现除侧移以外的所有五自由 到的姿态误差转换成控制所需要的状态矢量,回报 度运动能力,从而能够遂行丰富复杂的高机动性控 函数模块对当前的状态进行评价,并将结果传递给 制任务 TD误差模块用于计算当前的TD误差,神经网络模 仿生螈摆动鳍 块提供状态到控制动作(即PD参数)和值函数之 仿生波动鳍 间的映射,而动作修正模块则在神经网络产生的控 制动作基础上增加一定随机噪声,以鼓励探索.神 经网络的权值根据TD误差进行调整, 尾部 回报函数 TD误差 神经网络 动作修正 主体 图1仿生水下机器人的物理结构 PID Fig.I Physical structure of the bionic underwater robot 状态转换 仿生水下门 控制器 机器人 图2给出了仿生水下机器人姿态镇定系统的典 图3增强学习自适应PD控制器结构 Fig.3 Structure of the reinforcement learning based adaptive PlD 型结构框图.它一般由姿态镇定控制器、推力分配 controller 器和姿态测量系统组成.其中,姿态镇定控制器根 据姿态偏差和外界扰动计算出保持姿态镇定所需要 PD控制器采用PD控制律: 的控制力和力矩,推力分配器将控制器计算出的力 u(t)=k (t)e(t)+ka(t)e(t). (1) 和力矩分配到各个推进器,而姿态测量系统则用于 式中,k。(t)和k(t)分别为控制器比例项和微分项 提供控制器需要的传感器信息. 的增益,通过增强学习算法对其进行调整 「外界扰动 2.2基于增强学习的参数自适应方法 风,浪、流 增强学习(reinforcement learning,又称强化学习 期望 输出 姿态 姿态镇定 推力 仿生水下 姿态 或再励学习)是近年来兴起的一类机器学习方法 控制器 分配器 机器人 其基本特点是强调与环境的交互,并利用评价性反 馈信号来改变行为选择策略以实现学习目标.由于 姿态测昂 系统 增强学习不需要给定各种状态下的导师信号,因此 姿态镇定系统 适合于智能控制及智能机器人应用领域.本文基于 增强学习算法获取最优的PID控制参数k=。, 图2姿态镇定系统的典型结构框图 Fig.2 Structure of a typical attitude stabilization system k],使系统具有期望的动态性能.下面给出偏航角 姿态镇定中的增强学习系统设计过程。 由于仿生水下机器人的水平面位置由双波动鳍 2.2.1状态和动作表示 提供的推力驱动,偏航角由双波动鳍提供的偏航力 针对状态和动作的简单预处理可以有效提高算 矩驱动,垂直面位置由仿生鳔系统驱动,因此可以对 法的执行效率.偏航角镇定的状态变量是偏航角 这三个通道进行非耦合分离设计,以降低控制器设 中∈[-2π,2π]和偏航角速度少e[-少s,ψ],可 计的复杂度 将其转换如下:
第 1 期 林龙信等: 仿生水下机器人的增强学习姿态镇定 右侧对称安装的仿生波动鳍是主推进器,负责仿生 水下机器人的正逆向推进和偏航控制; 在尾部后侧 对称安装的双摆动鳍是辅助推进器,负责水下机器 人运动过程中的横滚和俯仰控制; 安装在主体内部 的双自由度仿生鳔系统则用于静态的悬浮控制、深 度控制以及俯仰控制. 此外,静态横滚控制通过质 心下置的方式实现. 通过三种仿生鳍的协同配合, 仿生水下机器人可以实现除侧移以外的所有五自由 度运动能力,从而能够遂行丰富复杂的高机动性控 制任务. 图 1 仿生水下机器人的物理结构 Fig. 1 Physical structure of the bionic underwater robot 图 2 给出了仿生水下机器人姿态镇定系统的典 型结构框图. 它一般由姿态镇定控制器、推力分配 器和姿态测量系统组成. 其中,姿态镇定控制器根 据姿态偏差和外界扰动计算出保持姿态镇定所需要 的控制力和力矩,推力分配器将控制器计算出的力 和力矩分配到各个推进器,而姿态测量系统则用于 提供控制器需要的传感器信息. 图 2 姿态镇定系统的典型结构框图 Fig. 2 Structure of a typical attitude stabilization system 由于仿生水下机器人的水平面位置由双波动鳍 提供的推力驱动,偏航角由双波动鳍提供的偏航力 矩驱动,垂直面位置由仿生鳔系统驱动,因此可以对 这三个通道进行非耦合分离设计,以降低控制器设 计的复杂度. 2 增强学习姿态镇定控制器设计 2. 1 控制器结构 根据上述分析,对三个控制通道均采用单独的 增强学习自适应 PID 控制器. 图 3 是每个控制器的 结构组成. PID 控制器是姿态镇定系统的核心,用 于完成实际的控制任务. 状态转换模块用于将检测 到的姿态误差转换成控制所需要的状态矢量,回报 函数模块对当前的状态进行评价,并将结果传递给 TD 误差模块用于计算当前的 TD 误差,神经网络模 块提供状态到控制动作( 即 PID 参数) 和值函数之 间的映射,而动作修正模块则在神经网络产生的控 制动作基础上增加一定随机噪声,以鼓励探索. 神 经网络的权值根据 TD 误差进行调整. 图 3 增强学习自适应 PID 控制器结构 Fig. 3 Structure of the reinforcement learning based adaptive PID controller PID 控制器采用 PD 控制律: u( t) = kp ( t) e( t) + kd ( t) e ·( t) . ( 1) 式中,kp ( t) 和 kd ( t) 分别为控制器比例项和微分项 的增益,通过增强学习算法对其进行调整. 2. 2 基于增强学习的参数自适应方法 增强学习( reinforcement learning,又称强化学习 或再励学习) 是近年来兴起的一类机器学习方法. 其基本特点是强调与环境的交互,并利用评价性反 馈信号来改变行为选择策略以实现学习目标. 由于 增强学习不需要给定各种状态下的导师信号,因此 适合于智能控制及智能机器人应用领域. 本文基于 增强学习算法获取最优的 PID 控制参数 k = [kp, kd],使系统具有期望的动态性能. 下面给出偏航角 姿态镇定中的增强学习系统设计过程. 2. 2. 1 状态和动作表示 针对状态和动作的简单预处理可以有效提高算 法的执行效率. 偏航角镇定的状态变量是偏航角 ψ∈[- 2π,2π]和偏航角速度 ψ · ∈[- ψ · max,ψ · max],可 将其转换如下: ·77·
·78 北京科技大学学报 第34卷 2T-, 山>T: X1= 2π+山,业<-π nt,2()=∑g2()0,"(),02()= (2) f(net2(t)),i=1,2,…,6. (11) 2=, 业as 式中,隐层节点的激活函数为双曲正切函数. 增强学习系统的输出动作是PD控制器的控制 输出层的三个节点分别代表可调参数k。k:以及 器参数k=止。,k],它们通过对前馈神经网络的输 状态的值函数V.输出节点的激活函数同样采用双曲 正切函数f().输出层的输入、输出可分别计算为 出添加一定噪声来得到,属于连续的非负变量. 2.2.2回报函数设计 回报函数是环境对当前系统控制性能好坏的定 a0=a0o90l=l23: 量评价,其设计应当反映姿态误差及误差变化率对 0(t)=f(net(t),l=1,2,3; 控制性能的影响.回报函数设计由两部分组成: k()=ko+00(); r(t)=cr.(t)+c2r:(t). (3) ka(t)=ko+02(t): 式中,c,和c,为反映姿态误差和误差变化率对控制 V(t)=0)(t). 性能影响权重的系数.且有 (12) r.(t)= r0,Ie(t)l≤e; (4) 式中,k®和km为PID控制器的初始增益.上面各式 1-1,其他. 中,心2为隐层权值,w)为输出层权值,上角标 r0,le(t)≤le(t-1)l: r:(t)= (1)、(2)和(3)分别为输入层、隐层和输出层. (5) 1-1,其他 将系统学习的性能指标函数确定为TD误差的 式中,e为误差容限. 函数,即 2.2.3TD误差计算 (13) TD误差用于对神经网络进行更新.TD误差根 E0=2品0. 据状态转移过程中连续两个状态值函数的时域差值 神经网络基于该TD误差性能指标,按照梯度 进行计算,即 下降法和链式规则对其权值进行修正. δm(t)=r(t)+yV(t+1)-V(t). (6) 3仿真研究 式中,r(t)为环境给出的即时回报信号,V(t+1)为+1 时刻状态的估计值函数,y为折扣因子(O<y<1). 为了验证增强学习姿态镇定方法,考虑由下式 2.2.4动作修正 给出的仿生水下机器人运动控制模型,且只考虑偏 为了能够在探索和利用之间进行权衡,神经网 航运动, 络输出的控制增益k。和k:并不直接传递给PD控 M5+C()5+D()5+g(n)=Bu,(14) 制器使用,而是在其基础上叠加一个高斯噪声项 n=J(n)5. (15) k-的.k的均值为零,方差与当前状态的值函数 式中,η为机器人在地球坐标系中的姿态,;为机器 有关,即 人在载体坐标系中的速度矢量,J(n)为载体坐标系 k (t)=kg (t)+n(0,v(t)), (7) 到地球坐标系的转换矩阵,M为惯性矩阵,C()为 k:(t))=k(t)+nk(0,ov(t)), (8) 哥氏力和向心力矩阵,D()为阻尼矩阵,g(n)为恢 1 复力与力矩矢量,B为取决于推进器配置的控制矩 a,(0)=1+e2 (9) 阵,为单个推进器提供的力与力矩矢量. 式中,V(t)为神经网络输出的状态值函数 仿生水下机器人的物理模型参数如表1所示 2.2.5神经网络设计 其他参数包括少mx=50°·s,g=1°,a=0.20,y= 增强学习系统采用三层BP神经网络来学习 0.90,7=0.15.PID控制器的初始增益设定为k。= PID控制器的参数k。和k妇,输入层、隐层和输出层 30和km=30,其调节量均为±10. 的神经元数目分别是2、5和3.输入层每个输入节 仿真步长设定为0.01s,仿真试验共进行50个学 点代表一个系统状态变量,即 习控制周期,每个学习控制周期的时间长度是40s, 0(t)=x(t),j=1,2. (10) 其中在20~25s之间加入均值为零且最大幅值等于 隐层节点的输入、输出为 最大偏航力矩的随机扰动.图4给出了50个学习
北 京 科 技 大 学 学 报 第 34 卷 x1 = 2π - ψ, ψ > π; {2π + ψ, ψ < - π. x2 = ψ · ψ · max . ( 2) 增强学习系统的输出动作是 PID 控制器的控制 器参数 k =[kp,kd],它们通过对前馈神经网络的输 出添加一定噪声来得到,属于连续的非负变量. 2. 2. 2 回报函数设计 回报函数是环境对当前系统控制性能好坏的定 量评价,其设计应当反映姿态误差及误差变化率对 控制性能的影响. 回报函数设计由两部分组成: r( t) = c1 re( t) + c2 r·e ( t) . ( 3) 式中,c1 和 c2 为反映姿态误差和误差变化率对控制 性能影响权重的系数. 且有 re( t) = 0, |e( t) |≤ε; { - 1, 其他. ( 4) r·e ( t) = 0, |e( t) |≤|e( t - 1) | ; { - 1, 其他. ( 5) 式中,ε 为误差容限. 2. 2. 3 TD 误差计算 TD 误差用于对神经网络进行更新. TD 误差根 据状态转移过程中连续两个状态值函数的时域差值 进行计算,即 δTD( t) = r( t) + γV( t + 1) - V( t) . ( 6) 式中,r( t) 为环境给出的即时回报信号,V( t +1) 为t +1 时刻状态的估计值函数,γ 为折扣因子( 0 < γ <1) . 2. 2. 4 动作修正 为了能够在探索和利用之间进行权衡,神经网 络输出的控制增益 k' p 和 k' d 并不直接传递给 PID 控 制器使用,而是在其基础上叠加一个高斯噪声项 ηK [5--6]. ηK 的均值为零,方差与当前状态的值函数 有关,即 kp ( t) = k' p ( t) + ηK ( 0,σV ( t) ) , ( 7) kd ( t) = k' d ( t) + ηK ( 0,σV ( t) ) , ( 8) σV ( t) = 1 1 + e 2V( t) . ( 9) 式中,V( t) 为神经网络输出的状态值函数. 2. 2. 5 神经网络设计 增强学习系统采用三层 BP 神经网络来学习 PID 控制器的参数 kp 和 kd,输入层、隐层和输出层 的神经元数目分别是 2、5 和 3. 输入层每个输入节 点代表一个系统状态变量,即 O( 1) j ( t) = xj ( t) ,j = 1,2. ( 10) 隐层节点的输入、输出为 net ( 2) i ( t) = ∑ 2 j = 1 w( 2) ij ( t) O( 1) j ( t) ,O( 2) i ( t) = f( net ( 2) i ( t) ) ,i = 1,2,…,6. ( 11) 式中,隐层节点的激活函数为双曲正切函数. 输出层的三个节点分别代表可调参数 k' p、k' d 以及 状态的值函数 V. 输出节点的激活函数同样采用双曲 正切函数 f( t) . 输出层的输入、输出可分别计算为 net ( 3) l ( t) = ∑ 6 i = 1 w( 3) li ( t) O( 2) i ( t) ,l = 1,2,3; O( 3) l ( t) = f( net ( 3) l ( t) ) ,l = 1,2,3; k'p ( t) = kp0 + O( 3) 1 ( t) ; k'd ( t) = kd0 + O( 3) 2 ( t) ; V( t) = O( 3) 3 ( t) . ( 12) 式中,kp0和 kd0为 PID 控制器的初始增益. 上面各式 中,w( 2) ij 为 隐 层 权 值,w( 3) li 为 输 出 层 权 值,上 角 标 ( 1) 、( 2) 和( 3) 分别为输入层、隐层和输出层. 将系统学习的性能指标函数确定为 TD 误差的 函数,即 E( t) = 1 2 δ 2 TD( t) . ( 13) 神经网络基于该 TD 误差性能指标,按照梯度 下降法和链式规则对其权值进行修正. 3 仿真研究 为了验证增强学习姿态镇定方法,考虑由下式 给出的仿生水下机器人运动控制模型,且只考虑偏 航运动, M ζ · + C( ζ) ζ + D( ζ) ζ + g( η) = Bu, ( 14) η · = J( η) ζ. ( 15) 式中,η 为机器人在地球坐标系中的姿态,ζ 为机器 人在载体坐标系中的速度矢量,J( η) 为载体坐标系 到地球坐标系的转换矩阵,M 为惯性矩阵,C( ζ) 为 哥氏力和向心力矩阵,D( ζ) 为阻尼矩阵,g( η) 为恢 复力与力矩矢量,B 为取决于推进器配置的控制矩 阵,u 为单个推进器提供的力与力矩矢量. 仿生水下机器人的物理模型参数如表 1 所示. 其他参数包括 ψ · max = 50°·s - 1 ,ε = 1°,α = 0. 20,γ = 0. 90,η = 0. 15. PID 控制器的初始增益设定为 kp0 = 30 和 kd0 = 30,其调节量均为 ± 10. 仿真步长设定为0. 01 s,仿真试验共进行50 个学 习控制周期,每个学习控制周期的时间长度是 40 s, 其中在 20 ~ 25 s 之间加入均值为零且最大幅值等于 最大偏航力矩的随机扰动. 图4给出了50个学习 ·78·
第1期 林龙信等:仿生水下机器人的增强学习姿态镇定 ·79· 表1仿生水下机器人的模型参数 700 Table I Parameters of the bionic underwater robot 650 总质量,Mkg 64.50 长度,L/m 1.25 600- 载体 直径,Dlm 0.50 层550 高度,h/m 0.15 容积,V/m3 0.065 鳍长,Ln/m 0.60 0 鳍高,Lm 0.25 400- 仿生波动鳍 鳍厚,d/m 0.0025 350% wwnnmwnhn 波长,A/m 0.60 10 2030 4050 学习次数 最大摆角,中mx/() ±15 图4回报和变化曲线 控制周期中系统回报和的变化曲线.显然,结合回 Fig.4 Curve of the sum of reward 报函数的定义,在第8次学习控制后增强学习自适 应PD控制器便实现了优化,学习控制器的参数己 26.7%降至5.6%,稳定时间从12s降至7s.对于 经基本保持稳定 一般性扰动,控制器也能够在短时间内进行抑制,表 图5给出了控制器的偏航角镇定过程和参数学 现出了较好的适应性.另外,k。从最初的30变化为 习过程.图中的红色细实线和蓝色粗实线分别对应 稳定的20.35,而k从最初的10变化为稳定的 初次学习和末次学习的情况.从中可知,经过多次 19.15:在每个学习控制周期内,PID控制参数随着 学习后,控制器的动态性能得到较大提升,超调量从 姿态误差的变化而变化 80 40 ,初次学习 35 60 30 25 ,初次学习,末次学习 40 末次学习 10 20 0 61 时间s 20 初次学习 “末次学习 20 15 10 598202立242628032 5 10 20 30 40 20 30 90 时间/s 时间/s (a) 6 图5控制器输出性能.(a)偏航角镇定过程:(b)参数学习过程 Fig.5 Output performance of the controller:(a)process of yaw angle stabilization:(b)process of parameter learning 4结论 fish.IEEE J Oceanic Eng,2004,29(3):651 2] Xie H B.Design,Modeling,and Control of Bionic Undenater Ve- 本文针对一类双波动鳍仿生水下机器人的姿态 hice Propelled by Multiple Undulatory Fins [Dissertation]Chang- 镇定问题展开了研究,提出了一种基于增强学习的 sha:National University of Defense Technology,2006:1 (谢海斌.基于多波动鳍推进的仿生水下机器人设计、建模与 仿生水下机器人自适应PD控制方案.仿真结果表 控制[学位论文].长沙:国防科技大学,2006:1) 明,基于增强学习的自适应PD控制在偏航角姿态 3 Yuh J.Design and control of autonomous underwater robots:a sur- 镇定方面的性能较为理想.增强学习算法的加入, vey.Auton Robots,2000,8:7 使得PD控制器可以适应环境的变化,减轻了人工 [4]Koh T H,Lau M W S,Seet G,et al.A control module scheme for an underactuated underwater robotic vehicle.J Intell Rob Syst, 整定控制参数的困难.从本质上来说,增强学习自 2006,46(1):43 适应PD控制是一种通过实时调整线性控制器的控 5] Wang X S,Cheng Y H.Theory of Machine Learning.Beijing: 制参数从而实现非线性控制的方式.该控制结构也 Science Press,2009 能够应用于其他类型的水下机器人, (王雪松,程玉虎.机器学习理论、方法及应用.北京:科学出 版社,2009) 参考文献 Sedighizadeh M,Rezazadeh A.Adaptive PID controller based on rein- [Maciver M A,Fontaine E,Burdick J W.Designing future under- forcement leaming for wind turbine control//Proceedings of World water vehicles:principles and mechanisms of the weakly electric Academy of Science,Engineering and Technology.Rome,2008
第 1 期 林龙信等: 仿生水下机器人的增强学习姿态镇定 表 1 仿生水下机器人的模型参数 Table 1 Parameters of the bionic underwater robot 总质量,M/kg 64. 50 长度,L /m 1. 25 载体 直径,D/m 0. 50 高度,h /m 0. 15 容积,V /m3 0. 065 鳍长,Lfin /m 0. 60 鳍高,Lray /m 0. 25 仿生波动鳍 鳍厚,d /m 0. 002 5 波长,λ /m 0. 60 最大摆角,max /( °) ± 15 控制周期中系统回报和的变化曲线. 显然,结合回 报函数的定义,在第 8 次学习控制后增强学习自适 应 PID 控制器便实现了优化,学习控制器的参数已 经基本保持稳定. 图 5 给出了控制器的偏航角镇定过程和参数学 习过程. 图中的红色细实线和蓝色粗实线分别对应 初次学习和末次学习的情况. 从中可知,经过多次 学习后,控制器的动态性能得到较大提升,超调量从 图 4 回报和变化曲线 Fig. 4 Curve of the sum of reward 26. 7% 降至 5. 6% ,稳定时间从 12 s 降至 7 s. 对于 一般性扰动,控制器也能够在短时间内进行抑制,表 现出了较好的适应性. 另外,kp 从最初的 30 变化为 稳定 的 20. 35,而 kd 从 最 初 的 10 变 化 为 稳 定 的 19. 15; 在每个学习控制周期内,PID 控制参数随着 姿态误差的变化而变化. 图 5 控制器输出性能 . ( a) 偏航角镇定过程; ( b) 参数学习过程 Fig. 5 Output performance of the controller: ( a) process of yaw angle stabilization; ( b) process of parameter learning 4 结论 本文针对一类双波动鳍仿生水下机器人的姿态 镇定问题展开了研究,提出了一种基于增强学习的 仿生水下机器人自适应 PID 控制方案. 仿真结果表 明,基于增强学习的自适应 PID 控制在偏航角姿态 镇定方面的性能较为理想. 增强学习算法的加入, 使得 PID 控制器可以适应环境的变化,减轻了人工 整定控制参数的困难. 从本质上来说,增强学习自 适应 PID 控制是一种通过实时调整线性控制器的控 制参数从而实现非线性控制的方式. 该控制结构也 能够应用于其他类型的水下机器人. 参 考 文 献 [1] Maciver M A,Fontaine E,Burdick J W. Designing future underwater vehicles: principles and mechanisms of the weakly electric fish. IEEE J Oceanic Eng,2004,29( 3) : 651 [2] Xie H B. Design,Modeling,and Control of Bionic Underwater Vehicle Propelled by Multiple Undulatory Fins[Dissertation]. Changsha: National University of Defense Technology,2006: 1 ( 谢海斌. 基于多波动鳍推进的仿生水下机器人设计、建模与 控制[学位论文]. 长沙: 国防科技大学,2006: 1) [3] Yuh J. Design and control of autonomous underwater robots: a survey. Auton Robots,2000,8: 7 [4] Koh T H,Lau M W S,Seet G,et al. A control module scheme for an underactuated underwater robotic vehicle. J Intell Rob Syst, 2006,46( 1) : 43 [5] Wang X S,Cheng Y H. Theory of Machine Learning. Beijing: Science Press,2009 ( 王雪松,程玉虎. 机器学习理论、方法及应用. 北京: 科学出 版社,2009) [6] Sedighizadeh M,Rezazadeh A. Adaptive PID controller based on reinforcement learning for wind turbine control/ /Proceedings of World Academy of Science,Engineering and Technology. Rome,2008 ·79·