第11章迭代学习控制 实际控制中存在一类轨迹跟踪问题,它的控制任务是 寻找控制律(),使得被控对象输出()在有限时间[O,] 上沿着整个期望轨迹实现零误差轨迹跟踪。这列跟踪问题是 具有挑战性的控制问题。 人们在处理实际场合中的重复操作任务时,往往依据 对象的可重复动态行为与期望行为的差距来调整决策。通过 重复操作,使得对象行为与期望行为的配合达到要求。这时, 衡量动态行为的指标是某种满意指标
第11章 迭代学习控制 实际控制中存在一类轨迹跟踪问题,它的控制任务是 寻找控制律 ,使得被控对象输出 在有限时间 上沿着整个期望轨迹实现零误差轨迹跟踪。这列跟踪问题是 具有挑战性的控制问题。 人们在处理实际场合中的重复操作任务时,往往依据 对象的可重复动态行为与期望行为的差距来调整决策。通过 重复操作,使得对象行为与期望行为的配合达到要求。这时, 衡量动态行为的指标是某种满意指标。 u t y t 0,T
迭代学习控制(ILC,Iterative Learning Control)的思想最 初由日本学者Uchiyama于1978年提出[23],于1984年由Arimoto等 人[24]做出了开创性的研究。这些学者借鉴人们在重复过程中追求 满意指标达到期望行为的简单原理,成功地使得具有强耦合非线性 多变量的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法 是对于一个在有限时间区间上执行轨迹跟踪任务的机器人,利用前 一次或前几次操作时测得的误差信息修正控制输入,使得该重复任 务在下一次操作过程中做得更好。如此不断重复,直至在整个时间 区间上输出轨迹跟踪上期望轨迹。 迭代学习控制适合于具有重复运动性质的被控对象,通过迭代 修正达到某种控制目标的改善。迭代学习控制方法不依赖于系统的 精确数学模型,能在给定的时间范围内,以非常简单的算法实现不确 定性高的非线性强耦合动态系统的控制,并高精度跟踪给定期望轨 迹,因而一经推出,就在运动控制领域得到了广泛的运用
迭代学习控制(ILC,Iterative Learning Control)的思想最 初由日本学者Uchiyama于1978年提出[23],于1984年由Arimoto等 人[24]做出了开创性的研究。这些学者借鉴人们在重复过程中追求 满意指标达到期望行为的简单原理,成功地使得具有强耦合非线性 多变量的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法 是对于一个在有限时间区间上执行轨迹跟踪任务的机器人,利用前 一次或前几次操作时测得的误差信息修正控制输入,使得该重复任 务在下一次操作过程中做得更好。如此不断重复,直至在整个时间 区间上输出轨迹跟踪上期望轨迹。 迭代学习控制适合于具有重复运动性质的被控对象,通过迭代 修正达到某种控制目标的改善。迭代学习控制方法不依赖于系统的 精确数学模型,能在给定的时间范围内,以非常简单的算法实现不确 定性高的非线性强耦合动态系统的控制,并高精度跟踪给定期望轨 迹,因而一经推出,就在运动控制领域得到了广泛的运用
迭代学习控制方法具有很强的工程背景,这些背景包括: 执行诸如焊接、喷涂、装配、搬运等重复任务的工业机器人; 指令信号为周期函数的伺服系统;数控机床;磁盘光盘驱动 系统;机械制造中使用的坐标测量机等。 由于迭代学习控制模拟了人脑学习和自我调节的功能, 因而是一种典型的智能控制方法[25]。经历了三十多年的发 展,迭代学习控制已成为智能控制中具有严格数学描述的一 个分支。目前,迭代学习控制在学习算法、收敛性、鲁棒性、 学习速度及工程应用研究上取得了很大的进展
迭代学习控制方法具有很强的工程背景,这些背景包括: 执行诸如焊接、喷涂、装配、搬运等重复任务的工业机器人; 指令信号为周期函数的伺服系统;数控机床;磁盘光盘驱动 系统;机械制造中使用的坐标测量机等。 由于迭代学习控制模拟了人脑学习和自我调节的功能, 因而是一种典型的智能控制方法[25]。经历了三十多年的发 展,迭代学习控制已成为智能控制中具有严格数学描述的一 个分支。目前,迭代学习控制在学习算法、收敛性、鲁棒性、 学习速度及工程应用研究上取得了很大的进展
11.1基本原理 设被控对象的动态过程为 (t)=f(x(t),u(t),t),y(t)=g(x(t),u(t),t) (11.1) 式中,x∈R、yeR"、ueR分别为系统的状态,输出和输入变 量,∫()、8()为适当维数的向量函数,其结构与参数均未 知。若期望控制“④存在,则迭代学习控制的目标为:给定 期望输出y()和每次运行的初始状态x(O),要求在给定的时 间te[0,T]内,按照一定的学习控制算法通过多次重复的运行, 使控制输入u)→u),而系统输出y@→y(0第k次运行 时,式(11.1)表示为:
11.1 基本原理 设被控对象的动态过程为 , (11.1) 式中, 分别为系统的状态,输出和输入变 量, 、 为适当维数的向量函数,其结构与参数均未 知。若期望控制 存在,则迭代学习控制的目标为:给定 期望输出 和每次运行的初始状态 ,要求在给定的时 间 内,按照一定的学习控制算法通过多次重复的运行, 使控制输入 ,而系统输出 第k 次运行 时,式(11.1) 表示为: x(t) f (x(t),u(t),t) y(t) g(x(t),u(t),t) n m r xR 、yR 、uR f () g() d u (t) d y (t) (0) k x t 0,T d ( ) ( ) k u t u t d ( ) ( ) k y t y t
x()=fx(t),u4(),t),y(t)=g&(),u(),t) (11.2) 跟踪误差为: e()=y:(@)-y(t) (11.3) 迭代学习控制可分为开环学习和闭环学习。 开环学习控制的方法是:第k+1次的控制等于第k次控制 再加上第k次输出误差的校正项,即 uk+()=L(u(),ex() (11.4) 闭环学习策略是:取第K+1次运行的误差作为学习的修正 项,即 u(t)=L(u(t),(t) (11.5) 式中,L为线性或非线性算子
(11.2) 跟踪误差为: (11.3) 迭代学习控制可分为开环学习和闭环学习。 开环学习控制的方法是:第k+1次的控制等于第k次控制 再加上第k次输出误差的校正项,即 (11.4) 闭环学习策略是:取第K+1次运行的误差作为学习的修正 项,即 (11.5) 式中,L为线性或非线性算子。 ( ) ( ( ), ( ), ) ( ) ( ( ), ( ), ) k k k k k k x t f x t u t t ,y t g x t u t t d ( ) ( ) ( ) k k e t y t y t 1( ) L( ( ), ( )) k k k t t t u u e 1 1 ( ) L( ( ), ( )) k k k t t t u u e
11.2基本迭代学习控制算法 Arimoto等首先给出了线性时变连续系统的D型迭代学习控制 律[24] ug(t)=u(t)+Ter(t) (11.6) 式中,「为常数增益矩阵。在D型算法的基础上,相继出现了P型、 PI型、PD型迭代学习控制律。从一般意义来看它们都是PD型迭 代学习控制律的特殊形式,PID迭代学习控制律表示为 un()=u,0+「e,(④)+De,(0+Ψe(rHr (11.7) 式中,「、Φ、平为学习增益矩阵。算法中的误差信息使用称为开 环迭代学习控制,如果使用则称为闭环迭代学习控制,如果同时 使用和则称为开闭环迭代学习控制
11.2 基本迭代学习控制算法 Arimoto 等首先给出了线性时变连续系统的D型迭代学习控制 律[24] (11.6) 式中, 为常数增益矩阵。在D 型算法的基础上,相继出现了P 型、 PI 型、PD 型迭代学习控制律。从一般意义来看它们都是PID型迭 代学习控制律的特殊形式,PID迭代学习控制律表示为 (11.7) 式中, 、 、 为学习增益矩阵。算法中的误差信息使用称为开 环迭代学习控制,如果使用 则称为闭环迭代学习控制,如果同时 使用和则称为开闭环迭代学习控制。 1( ) ( ) ( ) k k k t t t u u Γe Γ 1( ) ( ) ( ) ( ) ( )d t k k k k k t t t t 0 u u Γe Φe Ψ e Γ Φ Ψ
此外,还有高阶迭代学习控制算法、最优迭代学习控制算 法、遗忘因子迭代学习控制算法和反馈-前馈迭代学习控制算法 等。 11.3迭代学习控制的关键技术 11.3.1学习算法的稳定性和收敛性 稳定性与收敛性问题是研究当学习律与被控系统满足什么 条件时,迭代学习控制过程才是稳定收敛的。算法的稳定性保 证了随着学习次数的增加,控制系统不发散,但是,对于学习 控制系统而言,仅仅稳定是没有实际意义的,只有使学习过程 收敛到真值,才能保证得到的控制为某种意义下最优的控制。 收敛是对学习控制的最基本的要求,多数学者在提出新的学习 律的同时,基于被控对象的一些假设,给出了收敛的条件。例 如,Arimoto在最初提出PID型学习控制律时,仅针对线性系统 在D型学习律下的稳定性和收敛条件作了证明
此外,还有高阶迭代学习控制算法、最优迭代学习控制算 法、遗忘因子迭代学习控制算法和反馈-前馈迭代学习控制算法 等。 11.3 迭代学习控制的关键技术 11.3.1 学习算法的稳定性和收敛性 稳定性与收敛性问题是研究当学习律与被控系统满足什么 条件时,迭代学习控制过程才是稳定收敛的。算法的稳定性保 证了随着学习次数的增加,控制系统不发散,但是,对于学习 控制系统而言,仅仅稳定是没有实际意义的,只有使学习过程 收敛到真值,才能保证得到的控制为某种意义下最优的控制。 收敛是对学习控制的最基本的要求,多数学者在提出新的学习 律的同时,基于被控对象的一些假设,给出了收敛的条件。例 如,Arimoto在最初提出PID型学习控制律时,仅针对线性系统 在D型学习律下的稳定性和收敛条件作了证明
11.3.2初始值问题 运用迭代学习控制技术设计控制器时,只需要通过重复操 作获得的受控对象的误差或误差导数信号。在这种控制技术中, 迭代学习总要从某初始点开始,初始点指初始状态或初始输出。 几乎所有的收敛性证明都要求初始条件是相同的,解决迭代学 习控制理论中的初始条件问题一直是人们追求的目标之一。目 前已提出的迭代学习控制算法大多数要求被控系统每次运行时 的初始状态在期望轨迹对应的初始状态上,即满足初始条件: x(0)=x(0),k=0,12,… (11.8)
11.3.2 初始值问题 运用迭代学习控制技术设计控制器时,只需要通过重复操 作获得的受控对象的误差或误差导数信号。在这种控制技术中, 迭代学习总要从某初始点开始,初始点指初始状态或初始输出。 几乎所有的收敛性证明都要求初始条件是相同的,解决迭代学 习控制理论中的初始条件问题一直是人们追求的目标之一。目 前已提出的迭代学习控制算法大多数要求被控系统每次运行时 的初始状态在期望轨迹对应的初始状态上,即满足初始条件: (11.8) d (0) (0), 0,1,2, k x x k …
当系统的初始状态不在期望轨迹上,而在期望轨迹的某 一很小的邻域内时,通常把这类问题归结为学习控制的鲁棒 性问题研究。 11.3.4鲁棒性问题 迭代学习控制理论的提出有浓厚的工程背景,因此仅 仅在无干扰条件下讨论收敛性问题是不够的,还应讨论存在 各种干扰的情形下系统的跟踪性能。一个实际运行的迭代学 习控制系统除了存在初始偏移外,还或多或少存在状态扰动、 测量噪声、输入扰动等各种干扰。鲁棒性问题讨论存在各种 干扰时迭代学习控制系统的跟踪性能。具体地说,一个迭代 学习控制系统是鲁棒的,是指系统在各种有界干扰的影响下, 其迭代轨迹能收敛到期望轨迹的邻域内,而当这些干扰消除 时,迭代轨迹会收敛到期望轨迹
当系统的初始状态不在期望轨迹上,而在期望轨迹的某 一很小的邻域内时,通常把这类问题归结为学习控制的鲁棒 性问题研究。 11.3.4 鲁棒性问题 迭代学习控制理论的提出有浓厚的工程背景,因此仅 仅在无干扰条件下讨论收敛性问题是不够的,还应讨论存在 各种干扰的情形下系统的跟踪性能。一个实际运行的迭代学 习控制系统除了存在初始偏移外,还或多或少存在状态扰动、 测量噪声、输入扰动等各种干扰。鲁棒性问题讨论存在各种 干扰时迭代学习控制系统的跟踪性能。具体地说,一个迭代 学习控制系统是鲁棒的,是指系统在各种有界干扰的影响下, 其迭代轨迹能收敛到期望轨迹的邻域内,而当这些干扰消除 时,迭代轨迹会收敛到期望轨迹
11.4机械手轨迹跟踪迭代学习控制仿真实例 11.4.1控制器设计 考虑一个关节的机器人,其动态性能可以由以下二阶非线性 微分方程描述: D(q)q+C(q.qq+G(q)=t-td (11.9) 式中:q∈R"为关节角位移量,D(q)eR为机器人的惯性矩阵,C(q,)∈R 表示离心力和哥氏力,G(q)eR"为重力项,t∈R"为控制力矩,ta∈R"为 各种误差和扰动。 设系统所要跟踪的期望轨迹为yd),t∈[0,t]。系统第次输出 为y,())令e,()=ya()-y,()
11.4 机械手轨迹跟踪迭代学习控制仿真实例 11.4.1控制器设计 考虑一个关节的机器人,其动态性能可以由以下二阶非线性 微分方程描述: (11.9) 式中: 为关节角位移量, 为机器人的惯性矩阵, 表示离心力和哥氏力, 为重力项, 为控制力矩, 为 各种误差和扰动。 设系统所要跟踪的期望轨迹为 , 。系统第次输出 为 令 。 d D q q C q,q q G q τ τ n q R nn D q R , n C q q R n G q R n τ R d n τ R yd t t 0,T yi t ei t yd t yi t