正在加载图片...
第1期 林龙信等:仿生水下机器人的增强学习姿态镇定 ·77 右侧对称安装的仿生波动鳍是主推进器,负责仿生 2 增强学习姿态镇定控制器设计 水下机器人的正逆向推进和偏航控制:在尾部后侧 对称安装的双摆动鳍是辅助推进器,负责水下机器 2.1控制器结构 人运动过程中的横滚和俯仰控制:安装在主体内部 根据上述分析,对三个控制通道均采用单独的 的双自由度仿生鳔系统则用于静态的悬浮控制、深 增强学习自适应PD控制器.图3是每个控制器的 度控制以及俯仰控制.此外,静态横滚控制通过质 结构组成.PD控制器是姿态镇定系统的核心,用 心下置的方式实现.通过三种仿生鳍的协同配合, 于完成实际的控制任务.状态转换模块用于将检测 仿生水下机器人可以实现除侧移以外的所有五自由 到的姿态误差转换成控制所需要的状态矢量,回报 度运动能力,从而能够遂行丰富复杂的高机动性控 函数模块对当前的状态进行评价,并将结果传递给 制任务 TD误差模块用于计算当前的TD误差,神经网络模 仿生螈摆动鳍 块提供状态到控制动作(即PD参数)和值函数之 仿生波动鳍 间的映射,而动作修正模块则在神经网络产生的控 制动作基础上增加一定随机噪声,以鼓励探索.神 经网络的权值根据TD误差进行调整, 尾部 回报函数 TD误差 神经网络 动作修正 主体 图1仿生水下机器人的物理结构 PID Fig.I Physical structure of the bionic underwater robot 状态转换 仿生水下门 控制器 机器人 图2给出了仿生水下机器人姿态镇定系统的典 图3增强学习自适应PD控制器结构 Fig.3 Structure of the reinforcement learning based adaptive PlD 型结构框图.它一般由姿态镇定控制器、推力分配 controller 器和姿态测量系统组成.其中,姿态镇定控制器根 据姿态偏差和外界扰动计算出保持姿态镇定所需要 PD控制器采用PD控制律: 的控制力和力矩,推力分配器将控制器计算出的力 u(t)=k (t)e(t)+ka(t)e(t). (1) 和力矩分配到各个推进器,而姿态测量系统则用于 式中,k。(t)和k(t)分别为控制器比例项和微分项 提供控制器需要的传感器信息. 的增益,通过增强学习算法对其进行调整 「外界扰动 2.2基于增强学习的参数自适应方法 风,浪、流 增强学习(reinforcement learning,又称强化学习 期望 输出 姿态 姿态镇定 推力 仿生水下 姿态 或再励学习)是近年来兴起的一类机器学习方法 控制器 分配器 机器人 其基本特点是强调与环境的交互,并利用评价性反 馈信号来改变行为选择策略以实现学习目标.由于 姿态测昂 系统 增强学习不需要给定各种状态下的导师信号,因此 姿态镇定系统 适合于智能控制及智能机器人应用领域.本文基于 增强学习算法获取最优的PID控制参数k=。, 图2姿态镇定系统的典型结构框图 Fig.2 Structure of a typical attitude stabilization system k],使系统具有期望的动态性能.下面给出偏航角 姿态镇定中的增强学习系统设计过程。 由于仿生水下机器人的水平面位置由双波动鳍 2.2.1状态和动作表示 提供的推力驱动,偏航角由双波动鳍提供的偏航力 针对状态和动作的简单预处理可以有效提高算 矩驱动,垂直面位置由仿生鳔系统驱动,因此可以对 法的执行效率.偏航角镇定的状态变量是偏航角 这三个通道进行非耦合分离设计,以降低控制器设 中∈[-2π,2π]和偏航角速度少e[-少s,ψ],可 计的复杂度 将其转换如下:第 1 期 林龙信等: 仿生水下机器人的增强学习姿态镇定 右侧对称安装的仿生波动鳍是主推进器,负责仿生 水下机器人的正逆向推进和偏航控制; 在尾部后侧 对称安装的双摆动鳍是辅助推进器,负责水下机器 人运动过程中的横滚和俯仰控制; 安装在主体内部 的双自由度仿生鳔系统则用于静态的悬浮控制、深 度控制以及俯仰控制. 此外,静态横滚控制通过质 心下置的方式实现. 通过三种仿生鳍的协同配合, 仿生水下机器人可以实现除侧移以外的所有五自由 度运动能力,从而能够遂行丰富复杂的高机动性控 制任务. 图 1 仿生水下机器人的物理结构 Fig. 1 Physical structure of the bionic underwater robot 图 2 给出了仿生水下机器人姿态镇定系统的典 型结构框图. 它一般由姿态镇定控制器、推力分配 器和姿态测量系统组成. 其中,姿态镇定控制器根 据姿态偏差和外界扰动计算出保持姿态镇定所需要 的控制力和力矩,推力分配器将控制器计算出的力 和力矩分配到各个推进器,而姿态测量系统则用于 提供控制器需要的传感器信息. 图 2 姿态镇定系统的典型结构框图 Fig. 2 Structure of a typical attitude stabilization system 由于仿生水下机器人的水平面位置由双波动鳍 提供的推力驱动,偏航角由双波动鳍提供的偏航力 矩驱动,垂直面位置由仿生鳔系统驱动,因此可以对 这三个通道进行非耦合分离设计,以降低控制器设 计的复杂度. 2 增强学习姿态镇定控制器设计 2. 1 控制器结构 根据上述分析,对三个控制通道均采用单独的 增强学习自适应 PID 控制器. 图 3 是每个控制器的 结构组成. PID 控制器是姿态镇定系统的核心,用 于完成实际的控制任务. 状态转换模块用于将检测 到的姿态误差转换成控制所需要的状态矢量,回报 函数模块对当前的状态进行评价,并将结果传递给 TD 误差模块用于计算当前的 TD 误差,神经网络模 块提供状态到控制动作( 即 PID 参数) 和值函数之 间的映射,而动作修正模块则在神经网络产生的控 制动作基础上增加一定随机噪声,以鼓励探索. 神 经网络的权值根据 TD 误差进行调整. 图 3 增强学习自适应 PID 控制器结构 Fig. 3 Structure of the reinforcement learning based adaptive PID controller PID 控制器采用 PD 控制律: u( t) = kp ( t) e( t) + kd ( t) e ·( t) . ( 1) 式中,kp ( t) 和 kd ( t) 分别为控制器比例项和微分项 的增益,通过增强学习算法对其进行调整. 2. 2 基于增强学习的参数自适应方法 增强学习( reinforcement learning,又称强化学习 或再励学习) 是近年来兴起的一类机器学习方法. 其基本特点是强调与环境的交互,并利用评价性反 馈信号来改变行为选择策略以实现学习目标. 由于 增强学习不需要给定各种状态下的导师信号,因此 适合于智能控制及智能机器人应用领域. 本文基于 增强学习算法获取最优的 PID 控制参数 k = [kp, kd],使系统具有期望的动态性能. 下面给出偏航角 姿态镇定中的增强学习系统设计过程. 2. 2. 1 状态和动作表示 针对状态和动作的简单预处理可以有效提高算 法的执行效率. 偏航角镇定的状态变量是偏航角 ψ∈[- 2π,2π]和偏航角速度 ψ · ∈[- ψ · max,ψ · max],可 将其转换如下: ·77·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有