自动控制原理电子教案 第10章系统辨识 10.1系统辨识的概念 10.1.1系统辨识的定义 系统辨识是利用观测到的系统输入输出数据构造系统数学模型的方法 在实际应用中,往往把分析法和实验法这两种建模方法结合起来。尽量利 用对物理过程的认识,将系统模型分为已知的和未知的两部分,用实验法确定 未知部分的模型 定义系统辨识是在输入和输出信息的基础上,从一类系统中确定一个与所 观测系统等价的系统 可见,这个定义包括三个要素:输入、输出数据,模型类,等价准则。因 此,系统辨识是按照一个等价准则,在模型类中选择一个与输入、输出数据拟 合得最好的模型。 按照需要的系统先验知识的多少来分类,辨识问题可以分成以下两大类 (1)黑箱问题,也叫完全辨识问题 在这种情况下,被辨识对象的基本特性是完全未知的,甚至不知道系 统是线性的还是非线性的、动态的还是静态的这些最基本的信息。要辨识 这类系统当然是很困难的,目前尚无有效的办法。 (2)灰箱问题,又叫不完全辨识问题 也就是说,在辨识系统之前,已经知道系统的一些基本特征。例如: 已经知道系统是线性的,其通频带大致是多少,不能确切知道的只是系统 的动态方程的阶次以及方程的系数值等。对于这类辨识问题,系统辨识内 容就简化成阶的辨识和参数估计问题了 10.12系统辨识的基本内容 系统辨识的内容包括:模型结构的确定、参数估计、模型验证等。系统辨 识的一般步骤如图10.1所示 试验设计 模型结构 勺确定 物理定律 验前信息 参数估计 图101系统辨识的一般步骤 (1)验前信息 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 第 10 章 系统辨识 10.1 系统辨识的概念 10.1.1 系统辨识的定义 系统辨识是利用观测到的系统输入输出数据构造系统数学模型的方法。 在实际应用中,往往把分析法和实验法这两种建模方法结合起来。尽量利 用对物理过程的认识,将系统模型分为已知的和未知的两部分,用实验法确定 未知部分的模型。 定义 系统辨识是在输入和输出信息的基础上,从一类系统中确定一个与所 观测系统等价的系统。 可见,这个定义包括三个要素:输入、输出数据,模型类,等价准则。因 此,系统辨识是按照一个等价准则,在模型类中选择一个与输入、输出数据拟 合得最好的模型。 按照需要的系统先验知识的多少来分类,辨识问题可以分成以下两大类: (1) 黑箱问题,也叫完全辨识问题 在这种情况下,被辨识对象的基本特性是完全未知的,甚至不知道系 统是线性的还是非线性的、动态的还是静态的这些最基本的信息。要辨识 这类系统当然是很困难的,目前尚无有效的办法。 (2) 灰箱问题,又叫不完全辨识问题 也就是说,在辨识系统之前,已经知道系统的一些基本特征。例如: 已经知道系统是线性的,其通频带大致是多少,不能确切知道的只是系统 的动态方程的阶次以及方程的系数值等。对于这类辨识问题,系统辨识内 容就简化成阶的辨识和参数估计问题了。 10.1.2 系统辨识的基本内容 系统辨识的内容包括:模型结构的确定、参数估计、模型验证等。系统辨 识的一般步骤如图 10.1 所示。 被控对象 参数估计 试验设计 模型结构 的确定 模型验证 物理定律 验前信息 最终模型 输入 输出 图 10.1 系统辨识的一般步骤 (1)验前信息 浙 江 工 业 大 学 自 动 化 研 究 所 1
控制原理电子教 在辨识模型之前,对系统的机理和操作条件的了解,以及建模最终目的的 了解,称为验前信息或先验知识 (2)试验设计 选择变量:包括状态变量、输入变量、输出变量。选择变量的一个简单 原则是,选择的输入变量能够设置,输出变量能够测量,并且和设计人员感兴 趣的现象有关,应包含丰富的信息。因为试验的目的在于获取被测系统的内在 信息 2)选择试验期限与采样间隔:试验期限越长,试验数据中所包含的内容越 丰富。从这方面说,试验期限越长越好,但另一方面,时间越长,信息处理量 就越大,辨识时间就越长,不利于在线辨识与实时控制。而且实验时间长,容 易出现突变式干扰、漂移等,还有经济上的限制,因此选择的试验时间应适中。 3)腧输入、输出数据的检测和存储。因为系统辨识是根据系统的试验数据 建立系统的数学模型,所以,首先要检测并存储试验数据。 4)离线或在线辨识:系统的离线辨识方法是先检测到所有试验数据,然后 离线一次处理,从而得到系统的数学模型。如果辨识的目的是为了实现实时控 制,特别是为了实现自适应实时控制,则需要采用在线辨识方法。在线辨识方 法是一边检测系统输入、输出数据,一边在线辨识系统的数学模型 关于系统辨识的试验设计,只是这几年刚刚形成的理论,还有许多问题需 要研究。而且这些理论结果的实际应用也仅仅是开始 (3)模型结构的确定 线性动态模型结构的辨识可以归结为确定系统的阶数和输出量对于输入量 的滞后时间的问题 (4)参数估计 当已知或者假设模型结构后,模型未知部分是动态模型的参数,需要根据 输入、输出数据估计这些参数,所以称为参数估计。参数估计是系统辨识的中 心内容 (5)模型验证 验证辨识出的模型与实际过程的特性的一致性。最终模型应当是在满足 精度的要求下,尽可能简单的数学模型 10.2线性静态模型的最小二乘参数估计 10.2.1参数估计问题 假定被控对象的结构如图102所示,其中,y是输出变量;x1,…,xn是 输入变量;B1,…,On是模型的参数,这些参数可能部分或全部未知。 系统参数|” 图10.2被控对象结构 若已知系统的输入输出关系为下列线性关系 y=b1x1+62x2+…+6nxn (10.1) 设对输入、输出进行m次观测得到的数据为{x1(i),x2(1,…xn(i),y(i)}, 1=1.2 m。现在的问题是:怎样根据这些观测数据估计系统的参数 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 在辨识模型之前,对系统的机理和操作条件的了解,以及建模最终目的的 了解,称为验前信息或先验知识。 (2)试验设计 1)选择变量:包括状态变量、输入变量、输出变量。选择变量的一个简单 原则是,选择的输入变量能够设置,输出变量能够测量,并且和设计人员感兴 趣的现象有关,应包含丰富的信息。因为试验的目的在于获取被测系统的内在 信息。 2) 选择试验期限与采样间隔:试验期限越长,试验数据中所包含的内容越 丰富。从这方面说,试验期限越长越好,但另一方面,时间越长,信息处理量 就越大,辨识时间就越长,不利于在线辨识与实时控制。而且实验时间长,容 易出现突变式干扰、漂移等,还有经济上的限制,因此选择的试验时间应适中。 3)输入、输出数据的检测和存储。因为系统辨识是根据系统的试验数据, 建立系统的数学模型,所以,首先要检测并存储试验数据。 4)离线或在线辨识:系统的离线辨识方法是先检测到所有试验数据,然后 离线一次处理,从而得到系统的数学模型。如果辨识的目的是为了实现实时控 制,特别是为了实现自适应实时控制,则需要采用在线辨识方法。在线辨识方 法是一边检测系统输入、输出数据,一边在线辨识系统的数学模型。 关于系统辨识的试验设计,只是这几年刚刚形成的理论,还有许多问题需 要研究。而且这些理论结果的实际应用也仅仅是开始。 (3)模型结构的确定 线性动态模型结构的辨识可以归结为确定系统的阶数和输出量对于输入量 的滞后时间的问题。 (4)参数估计 当已知或者假设模型结构后,模型未知部分是动态模型的参数,需要根据 输入、输出数据估计这些参数,所以称为参数估计。参数估计是系统辨识的中 心内容。 (5)模型验证 验证辨识出的模型与实际过程的特性的一致性。最终模型应当是在满足 精度的要求下,尽可能简单的数学模型。 10.2 线性静态模型的最小二乘参数估计 10.2.1 参数估计问题 假定被控对象的结构如图 10.2 所示,其中,y 是输出变量; 是 输入变量; n x , , x 1 L θ θ n , , 1 L 是模型的参数,这些参数可能部分或全部未知。 系统参数 θ θ 1 2 , ,L,θn x1 x2 xn y 图 10.2 被控对象结构 若已知系统的输入输出关系为下列线性关系: (10.1) n n y = θ x + θ x + L + θ x 1 1 2 2 设对输入、输出进行 m 次观测得到的数据为{ x ( i ),x (i),…,x ( i ),y ( i ) }, i = 1 , 2 , … , m。现在的问题是:怎样根据这些观测数据估计系统的参数 1 2 n θ1 , θ 2 ,…,θ n 。 浙 江 工 业 大 学 自 动 化 研 究 所 2
如果模型准确,测量数据也准确,则不难看出,只要n组测量数据,构 成下列线性方程组,解线性方程组就可唯一地确定系统参数O1,B2,…,On y(i)=61x1(1)+62x2(1)+…+bnxn(i) (10.2) 若写成矩阵向量形式,则有 Y=X6 (10.3) 式中 x1(1)x2(1)…xn(1) y(2) 62 x=x1(2)x2(2) n(2) (n) x1(m)x2(m) n(n) 若测量数据使X非奇异,则系统参数为 10.4) 但是,实际系统的模型总是近似的,测量输入、输出数据不会绝对精确,而且 测量装置的误差,读数误差,以及系统中存在的随机误差都会使观测数据不能 准确地反映系统特性。这些误差常常是随机的,我们通常用一随机变量c(i 反映上述随机误差,这样,m组观测数据和系统参数间的关系可表示为 y(i)=61x1(i)+62x2(1)+…+bnxn()+e() (10.5) 或表示为 (10.6 其中E=[e()e(2)…c(m)为误差向量,又称残差。 由于残差的存在,不同的m组观测数据会得出不同的参数O值,这些 值显然不是系统参数的真正值。“参数估计”的任务就是用统计的方法,从带 有噪声的观测数据中,按照某种准则估计出最接近实际值的参数。最小二乘参 数估计方法是广泛应用于工程界的统计估计方法 1022最小二乘法的基本原理和算法 已知某系统的输入与输出成正比,即y=θx。显然如果没有误差,则只 要测量一次测量值(x1,y1)即可确定系数θ,即θ=y1/x1°当有噪声存在时 实际的测量值为y=θx+E。最小二乘法就是使系统输出的估计值θx()与系统 输出的实际测量值y()之差的平方和最小,即 ()-6x(i (10.7) 对于任一个参数估计值6,其残差平方和为 2[v(-6x)] 当θ是最小二乘估计时,J取得最小值。根据数学分析中熟知的结论,应有 2>x(oy()-ah(0)=0 因此 ∑x0))-b∑x(0=0 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 如果模型准确,测量数据也准确,则不难看出,只要 n 组测量数据,构 成下列线性方程组,解线性方程组就可唯一地确定系统参数θ 1 ,θ 2 ,…,θ n ( ) ( ) ( ) ( ) 1 1 2 2 y i x i x i x i = θ + θ + L + θ n n (10.2) i = 1 , 2 , … , n 若写成矩阵向量形式,则有 Y = Xθ (10.3) 式中 , , ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ( ) (2) (1) y n y y Y M ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = θ n θ θ θ M 2 1 ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ( ) ( ) ( ) (2) (2) (2) (1) (1) (1) 1 2 1 2 1 2 x n x n x n x x x x x x X n n n L M M M M L L 若测量数据使 X 非奇异,则系统参数为 X Y (10.4) −1 θ = 但是,实际系统的模型总是近似的,测量输入、输出数据不会绝对精确,而且 测量装置的误差,读数误差,以及系统中存在的随机误差都会使观测数据不能 准确地反映系统特性。这些误差常常是随机的,我们通常用一随机变量 e( i ) 反映上述随机误差,这样,m 组观测数据和系统参数间的关系可表示为 ( ) ( ) ( ) ( ) ( ) 1 1 2 2 y i x i x i x i e i = θ + θ + L + θ n n + (10.5) i = 1 , 2 , … , m 或表示为 Y = Xθ + ε (10.6) 其中ε = [e(1) e(2) L e(m)] T 为误差向量,又称残差。 由于残差的存在,不同的 m 组观测数据会得出不同的参数θ 值,这些θ 值显然不是系统参数的真正值。“参数估计”的任务就是用统计的方法,从带 有噪声的观测数据中,按照某种准则估计出最接近实际值的参数。最小二乘参 数估计方法是广泛应用于工程界的统计估计方法。 10.2.2 最小二乘法的基本原理和算法 已知某系统的输入与输出成正比,即 y =θ x 。显然如果没有误差,则只 要测量一次测量值(x1, y1 ) 即可确定系数θ ,即 1 1 θ = y / x 。当有噪声存在时, 实际的测量值为 y =θ x + ε 。最小二乘法就是使系统输出的估计值 与系统 输出的实际测量值 之差的平方和最小,即 θ ( ) ˆ x i y(i) (10.7) ∑ [ = = − m i J y i x i 1 2 min ( ) ˆ ( ) θ ] 对于任一个参数估计值θ ~ ,其残差平方和为 ∑ [ ] = = − m i J y i x i 1 2 ( ) ~ ( ) ~ θ ∑ [ ] [ ] = = − ⋅ − m i y i x i x i J 1 θ ( ) ( ) ~ ~ 2 ( ) ~ ∂θ ∂ 当θ ˆ是最小二乘估计时,J 取得最小值。根据数学分析中熟知的结论,应有 = θ =θ ∂θ ∂ ˆ ~ ~ ~ J [ ] ( ) 0 ˆ 2 ( ) ( ) 1 − ∑ − = = m i x i y i θx i 因此 ∑ ∑ = = − = m i m i x i y i x i 1 1 2 ( ) 0 ˆ ( ) ( ) θ 浙 江 工 业 大 学 自 动 化 研 究 所 3
控制原理电子教 所以,最小二乘估计O为 x(1)y() 下面讨论一般情况。设系统由下列多元静态线性数学模型描述: =61x1+62x2+…+6nxn+E (10.8) 其中,ⅹ,和y都是可以测量得到的已知量,只是存在着系统噪声和测量噪声, 它们总的效应用随机变量ε来表示。 若对式(108)述的系统进行m次实验,则可得到m个方程式 y(1)=1x1(1)+日2x2(1)+…+6nxn(1)+e(1) (2)=61x1(2)+62x2(2)+…+bnxn(2)+e(2) (10.9) y(m)=61x1(m)+62x2(m)+…+6nxn(m)+e(m) 写成矩阵向量形式,则有: 式中 (① x(1)x2(1)…x(1) y=12 x(2)x2(2)…x1(2) e(2) xm)x2(m)…x(m e(m) 按照最小二乘法的原理,选择参数O使残差的平方和为最小,即 inJ=∑e2()= 因为 所以 J=(r-0)(Y-X0 yy-ylxe-0xy+0Xxe YT-20XY+0Xxe 为了求取,下面先给出矩阵微分的公式 (10.12) O(X A) A a(xAX)=2AX (10.14) 应用上面公式得 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 所以,最小二乘估计θ ˆ 为 ∑ ∑ = = = m i m i x i x i y i 1 2 1 ( ) ( ) ( ) ˆθ 下面讨论一般情况。设系统由下列多元静态线性数学模型描述: =θ +θ + +θ + ε n n y x x L x 1 1 2 2 (10.8) 其中,x i 和 y 都是可以测量得到的已知量,只是存在着系统噪声和测量噪声, 它们总的效应用随机变量 ε 来表示。 若对式(10.8)描述的系统进行 m 次实验,则可得到 m 个方程式: (1) (1) (1) (1) (1) 1 1 2 2 y x x x e = θ + θ + L + θ n n + ( 2 ) ( 2 ) ( 2 ) ( 2 ) ( 2 ) 1 1 2 2 y x x x e = θ + θ + L + θ n n + (10.9) : ( ) ( ) ( ) ( ) ( ) y m = θ 1 x1 m + θ 2 x 2 m + L + θ n x n m + e m 写成矩阵向量形式,则有: Y = Xθ +ε (10.10) 式中 , , , 1 ( ) (2) (1) × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = m y m y y Y M m n X × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = x (m) x (m) x (m) x (2) x (2) x (2) x (1) x (1) x (1) 1 2 n 1 2 n 1 2 n L M M M M L L 1 2 1 × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = n θn θ θ θ M 1 ( ) (2) (1) × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = m e m e e M ε 按照最小二乘法的原理,选择参数θ 使残差的平方和为最小,即 = ∑ = = m i T J e i 1 2 min ( ) ε ε (10.11) 因为 ε = Y − Xθ 所以 J (Y Xθ) (Y Xθ) T = − − (Y θ X )(Y Xθ) T T T = − − Y Y Y Xθ θ X Y θ X Xθ T T T T T T = − − + Y Y θ X Y θ X Xθ T T T T T = − 2 + 为了求取 ∂θ ∂J ,下面先给出矩阵微分的公式: ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = n x f x f x f dx df x ∂ ∂ ∂ ∂ ∂ ∂ M 2 1 ( ) (10.12) A X X AT = ∂ ∂ ( ) (10.13) AX X X AX T 2 ( ) = ∂ ∂ (10.14) 应用上面公式得 浙 江 工 业 大 学 自 动 化 研 究 所 4
自动控制原理电子教 -2X+2XX6 由最小二乘估计的定义,θ应满足 因此 X XB=X Y (10.15) 若测量值构成的矩阵XX非奇异,则 0=(XX)XY (10.16) 由上式求得的6称为参数O的最小二乘估计。由于估计值O是在取得足够数 据后一次计算出来的,所以称为一次完成法 必须指出,当XX是奇异或接近奇异时,方程xTX6=xTy的解不唯 或解不稳定,这方面的理论问题可参看系统辨识专著。事实上,总可以选择 合适的输入和取足够多的测量值(m>n)使XX非奇异。 10.2.3最小二乘法的性质 从上面的讨论可以看出,最小二乘法对模型中存在的误差没有任何要求, 辨识时并不需要知道它的情况,这是最小二乘法的最大优点。但是,用最小二 乘法得到的估计值是否就是真正的参数值O?下面我们用统计的方法,分析 最小二乘估计的均值和方差,研究与θ的偏离情况 1.最小二乘估计的无偏性 由于测量值的随机性,最小二乘估计的6显然也具有随机性。下面考察 6的数学期望。由最小二乘算式(10.16)和(10.10),有 6=(XX-Xy=(XX)-X(x0+a) (XX)-XXe+(XY6=0+(XX)-X' (10.17) 其中,θ是系统参数的真值,是确定量。6的数学期望为 E[O]=0+E[(Xx)-1x2a] (10.18) 若E是均值不为0的随机变量,最小二乘估计e是有偏的。若E与X不相关且 均值为0,则 E[O]=0 所以,若ε是均值为0且与Ⅹ不相关的随机噪声,则最小二乘估计θ的均值 为参数真值θ。这一性质称为无偏性。 2.最小二乘估计的方差 的数学期望从总体上表明参数估计的取值情况,但不能反映θ与其真 值θ的偏离程度。下面考察θ的方差 ra16-0=E(-6)(6-0)] EI(XX Ell(xx) aj =ElX XX EEX(XX)] =(XX"X EE8X(xX) 令R为残差向量的方差阵,即R=EE],则 Var8-0=(XX)X RX(XX) (10.20) 上式是最小二乘估计方差的一般计算公式。 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 θ ∂θ ∂ X Y X X J T T = − 2 + 2 由最小二乘估计的定义,θˆ 应满足 0 ˆ 2 2 ˆ = − + = = θ ∂θ ∂ θ θ X Y X X J T T 因此 X X X Y (10.15) T T θ =ˆ 若测量值构成的矩阵 X XT 非奇异,则 X X X Y (10.16) T 1 T ( ) ˆ − θ = 由上式求得的θˆ 称为参数θ 的最小二乘估计。由于估计值 是在取得足够数 据后一次计算出来的,所以称为一次完成法。 $θ 必须指出,当 X XT 是奇异或接近奇异时,方程 的解不唯 一或解不稳定,这方面的理论问题可参看系统辨识专著。事实上,总可以选择 合适的输入和取足够多的测量值 使 X X X Y T T θ =ˆ (m >> n) X XT 非奇异。 10.2.3 最小二乘法的性质 从上面的讨论可以看出,最小二乘法对模型中存在的误差没有任何要求, 辨识时并不需要知道它的情况,这是最小二乘法的最大优点。但是,用最小二 乘法得到的估计值θˆ 是否就是真正的参数值θ ?下面我们用统计的方法,分析 最小二乘估计的均值和方差,研究θˆ 与θ 的偏离情况。 1. 最小二乘估计的无偏性 由于测量值的随机性,最小二乘估计的 显然也具有随机性。下面考察 的数学期望。由最小二乘算式(10.16)和(10.10),有 θˆ $θ ( ) ( ) ( ) ˆ 1 1 θ = = θ + ε − − X X X Y X X X X T T T T θ ε θ ε (10.17) T T T T T T X X X X X X X X X X 1 1 1 ( ) ( ) ( ) − − − = + = + 其中,θ 是系统参数的真值,是确定量。θˆ 的数学期望为 ]ˆ E[θ [( ) ] 1 θ ε T T E X X X − = + (10.18) 若ε 是均值不为 0 的随机变量,最小二乘估计θˆ 是有偏的。若ε 与 X 不相关且 均值为 0,则 θ ] = θ (10.19) ˆ E[ 所以,若 是均值为 0 且与 X 不相关的随机噪声,则最小二乘估计 的均值 为参数真值 。这一性质称为无偏性。 ε $θ θ 2. 最小二乘估计的方差 θˆ 的数学期望从总体上表明参数估计的取值情况,但不能反映 与其真 值 的偏离程度。下面考察 的方差。 $θ θ θˆ ) ] ˆ )( ˆ ] [( ˆ [ T Varθ −θ = E θ −θ θ −θ {[( ) ][( ) ] } T 1 T T 1 T T E X X X ε X X X ε − − = = [( ) ( ) ] −1 −1 E X X X X X X T T T T εε = 1 1 ( ) [ ] ( ) − − X X X E X X X T T T T εε 令 R 为残差向量的方差阵,即 [ ],则 T R = E εε 1 1 ] ( ) ( ) ˆ [ − − Var − = X X X RX X X T T T θ θ (10.20) 上式是最小二乘估计方差的一般计算公式。 浙 江 工 业 大 学 自 动 化 研 究 所 5
控制原理电子教 若残差E是均值为0、方差为a2的白噪声,即 R=ElEE=o. 10.21) 白噪声是一种理想的随机序列,它在某一时刻的取值与其它时刻的取值无关。 实际上并不存在真正的白噪声,实际噪声都是有色噪声,即实际噪声在某时刻 的值还和以前时刻的值以及其它因素有关。但为了简化分析,许多噪声可以近 似地看作白噪声,因此 Var0-0=(X'X-x. 2X(rX) =0(XX)XX(XX) (10.22 这一结果揭示了(XX)-的物理意义,即它代表了最小二乘法估计误差的方差 的大小 3、最小二乘估计的一致性 所谓估计的一致性是指随着观测次数的增加,估计值6以概率收敛于真 值θ。在参数估计时,总是希望随着观测次数的增加,所得到的估计值越精确。 设E是均值为0,方差为a2的白噪声,则有 Var0-0]=02(rx-=-(Xx- (10.23) 如果 xX=F,且F为非奇异矩阵,则 XX (10.24) 由此可见,只要imxx丁为非奇异矩阵,则当m->0即数据取得足够多 时,最小二乘估计误差的方差趋于0,这表明收敛于O,估计是一致的。 应当指出,上述性质是在{Ek}为白噪声的假设条件下得到的。如果{Ek}为 有色噪声,则估计是有偏的、非一致性估计的,但仍使残差最小 1024应用举例 用线性回归方程建立生产过程或系统静态模型,已在许多方面得到应用, 下面举几个例子说明 例10.1建立水泥凝固时放出的热量与水泥成分之间关系的数学模型。 水泥凝固时所释放出的热量,取决于该水泥各种成分的含量,设某种水泥 的几种成分含量为x1,x2,x3,x4,水泥凝固时放出的热量为y。设其模型 为 y=a0+a,x+a2x2+a3x3+a4x 为辨识参数ao.a1.a2,a3,a4,进行了13次实验,实验数据如下 表10.1水泥凝固时放出的热量实验记录 序号 x 104.3 浙江工业大学自动化研究所 6
自 动 控 制 原 理 电 子 教 案 若残差ε 是均值为 0、方差为σ2 的白噪声,即 R E I (10.21) T = ⋅ = ⋅ 2 [ε ε ] σ 白噪声是一种理想的随机序列,它在某一时刻的取值与其它时刻的取值无关。 实际上并不存在真正的白噪声,实际噪声都是有色噪声,即实际噪声在某时刻 的值还和以前时刻的值以及其它因素有关。但为了简化分析,许多噪声可以近 似地看作白噪声,因此 1 2 1 ] ( ) ( ) ˆ [ − − Var − = X X X ⋅ X X X T T T θ θ σ 2 1 1 ( ) ( ) − − = X X X X X X T T T σ (10.22) 2 1 ( ) − = X XT σ 这一结果揭示了 的物理意义,即它代表了最小二乘法估计误差的方差 的大小。 1 ( ) − X XT 3、最小二乘估计的一致性 所谓估计的一致性是指随着观测次数的增加,估计值 以概率收敛于真 值 θˆ θ 。在参数估计时,总是希望随着观测次数的增加,所得到的估计值越精确。 设ε 是均值为 0,方差为σ2 的白噪声,则有 1 2 2 1 ) 1 ] ( ) ( ˆ [ − − − = = X X m m Var X XT σ T θ θ σ (10.23) 如果 X X F m T m = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − →∞ 1 1 lim ,且 F 为非奇异矩阵,则 ) lim 0 1 lim lim ( 2 1 2 = = = →∞ − →∞ →∞ F m X X m m m T m m σ σ ψ (10.24) 由此可见,只要 1 ] 1 lim [ − →∞ X X m T m 为非奇异矩阵,则当 m→∞即数据取得足够多 时,最小二乘估计误差的方差趋于 0,这表明θˆ 收敛于θ ,估计是一致的。 应当指出,上述性质是在{ }k ε 为白噪声的假设条件下得到的。如果{ }k ε 为 有色噪声,则估计是有偏的、非一致性估计的,但仍使残差最小。 10.2.4 应用举例 用线性回归方程建立生产过程或系统静态模型,已在许多方面得到应用, 下面举几个例子说明。 例 10.1 建立水泥凝固时放出的热量与水泥成分之间关系的数学模型。 水泥凝固时所释放出的热量,取决于该水泥各种成分的含量,设某种水泥 的几种成分含量为 , , , ,水泥凝固时放出的热量为 y。设其模型 为 x1 x2 x3 x 4 y a = + a x + a x + a x + a x 0 1 1 2 2 3 3 4 4 为辨识参数 a a 012 , , a , , a 3 a 4 ,进行了 13 次实验,实验数据如下: 表 10.1 水泥凝固时放出的热量实验记录 序号 x 1 x2 x3 x 4 y 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 浙 江 工 业 大 学 自 动 化 研 究 所 6
自动控制原理电子教案 95.9 18 93.1 0 1159 83.8 下面用最小二乘法估计。 设有一常输入x y=a0R0 +a1 1+a2x2+a3x3 +a4X4 由最小二乘法得 74.3 l1291552 104.3 l1156820 113.3 1166912 于是 6=(Xx)xy=|624054,1.55110.5102,0.1019,-0.114 所以,水泥凝固时放出的热量与水泥成分之间关系的数学模型为 y=624054+16511+0.510x2+0.10193-0144lx4 例102合成纤维抽丝工段,导丝盘的速度对丝的质量是很重要的参数 它和电流周波数有重要关系,由生产记录得到的数据如表102所示 表102合成纤维抽丝工段实验记录 周波数 49950.250.2 导丝盘速度 17017.017.1 选择合适的曲线模型是一件不容易做到的事,需要靠人们对问题所属的 专业知识的了解来确定。如专业上不清楚时,可用坐标纸描出点,从数学上加 以选择 根据表10.2所示实验记录,绘制x-y图如图10.3所示。可见,y与x之 间近似为线性关系,所以,模型结构可以选择为 由最小二乘法得 49250.049.349049049.549849950.250. Y7=[6717016816616716816917017.017, 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4 下面用最小二乘法估计。 设有一常输入 x0 ≡ 1,则 0 0 1 1 2 2 3 3 4 4 y = a x +a x +a x +a x +a x 由最小二乘法得 , ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = 109.4 113.3 104.3 74.3 78.5 M Y ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = 1 10 68 8 12 1 11 66 9 12 1 11 56 8 20 1 1 29 15 52 1 7 26 6 60 M M M M M X 于是 T T T (X X ) X Y [62.4054,1.5511,0.5102,0.1019, 0.1441] ˆ 1 = = − − θ 所以,水泥凝固时放出的热量与水泥成分之间关系的数学模型为 1 2 3 4 y = 62.4054+1.6511x + 0.5101x + 0.1019x −0.1441x 例 10.2 合成纤维抽丝工段,导丝盘的速度对丝的质量是很重要的参数, 它和电流周波数有重要关系,由生产记录得到的数据如表 10.2 所示 表 10.2 合成纤维抽丝工段实验记录 周波数 x 49.2 50.0 49.3 49.0 49.0 49.5 49.8 49.9 50.2 50.2 导丝盘速度 y 16.7 17.0 16.8 16.6 16.7 16.8 16.9 17.0 17.0 17.1 选择合适的曲线模型是一件不容易做到的事,需要靠人们对问题所属的 专业知识的了解来确定。如专业上不清楚时,可用坐标纸描出点,从数学上加 以选择。 根据表 10.2 所示实验记录,绘制 x-y 图如图 10.3 所示。可见,y 与 x 之 间近似为线性关系,所以,模型结构可以选择为 y = a + bx 由最小二乘法得 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = 49.2 50.0 49.3 49.0 49.0 49.5 49.8 49.9 50.2 50.2 1 1 1 1 1 1 1 1 1 1 T X = [16.7 17.0 16.8 16.6 16.7 16.8 16.9 17.0 17.0 17.1] T Y 浙 江 工 业 大 学 自 动 化 研 究 所 7
b=(xTx)-xr=00491 所以,导丝盘的速度和电流周波数的关系为 17.1 y=0.049+0.339x 16.9 例103钢包容积和使用次数的数学 16.5 模型 49.049.249449649850050.2 出钢时盛钢水的钢包在使用过程中, 由于钢液和炉渣对耐火材料的侵蚀使其容 图10.3导丝盘速度与电流周波关系图 积不断增大。经过实验,钢包容积(用盛钢水的重量表示)与使用次数的数据, 如表10.3所示 表10.3钢包容积y和使用次数x的实验记录 23456789 6428209589509701000993999 10 12 13 14 15 10.4910.59106010.8010.6010.90 1iT 作数据的散点图,如图104所示。 由散点图可见,x和y是非线性关系,在 110 最初使用时,容积增加很快,随着使用次10.0 数的增加,其容积变化缓慢下来,并趋于 90°。。0 稳定。根据其特点,可以取双曲线模型或 者指数模型表示使用次数与容积增长之间 的关系。这些虽然是非线性模型,但通过 变量代换可以将这种非线性模型参数估计 问题转换成线性模型参数估计问题。对 246 10121416 般的非线性模型,应由非线性最小二乘法 图104钢包使用次数与容积的实验数据散点图 估计如下: (1)取双曲线模型:一=a+b 令y=1,x=-,则上式可以写成 y’=a+bx 将10.3表中的实验数据经过变换,按最小二乘法,可得到 y=0.0823+0.1312x 因此实际模型为 =0.0823+0.1312 (2)取指数模型:y=aex 两边取自然对数,得 Inv=Ina+ b 令y’=lny,a'=ln 则有 y=a+bx 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − 0.339 0.049 ( ) 1 X X X Y b a T T 所以,导丝盘的速度和电流周波数的关系为 y = 0.049 + 0.339 x 例 10.3 钢包容积和使用次数的数学 模型。 出钢时盛钢水的钢包在使用过程中, 由于钢液和炉渣对耐火材料的侵蚀使其容 积不断增大。经过实验,钢包容积(用盛钢水的重量表示)与使用次数的数据, 如表 10.3 所示: 图10.3 导丝盘速度与电流周波关系图 16.5 49.2 49.4 49.6 49.8 50.0 50.2 y 16.7 16.9 17.1 49.0 x 表 10.3 钢包容积 y 和使用次数 x 的实验记录 x 2 3 4 5 6 7 8 9 y 6.42 8.20 9.58 9.50 9.70 10.00 9.93 9.99 x 10 11 12 13 14 15 16 y 10.49 10.59 10.60 10.80 10.60 10.90 10.76 图10.4 钢包使用次数与容积的实验数据散点图 6.0 4 6 8 10 12 14 y 7.0 8.0 9.0 2 x 16 10.0 11.0 作数据的散点图,如图 10.4 所示。 由散点图可见,x 和 y 是非线性关系,在 最初使用时,容积增加很快,随着使用次 数的增加,其容积变化缓慢下来,并趋于 稳定。根据其特点,可以取双曲线模型或 者指数模型表示使用次数与容积增长之间 的关系。这些虽然是非线性模型,但通过 变量代换可以将这种非线性模型参数估计 问题转换成线性模型参数估计问题。对一 般的非线性模型,应由非线性最小二乘法 估计如下: (1)取双曲线模型: x a b y 1 1 = + 令 y y 1 ′ = , x x 1 ′ = ,则上式可以写成 y′ = a + bx′ 将 10.3 表中的实验数据经过变换,按最小二乘法,可得到 y′ = 0.0823+ 0.1312x′ 因此实际模型为 y x 1 0.0823 0.1312 1 = + (2)取指数模型: x b y = ae 两边取自然对数,得 x b ln y = lna + 令 x y y a a x 1 ′ = ln , ′ = ln , ′ = ,则有 y ′ = a ′ + bx ′ 浙 江 工 业 大 学 自 动 化 研 究 所 8
控制原理电子教 由最小二乘法得a=2.4578,b=-1.1107,因此 对两种模型比较 yce(指) 0.94 可见,指数模型优于双曲线模型 10.3线性动态模型的最小二乘参数估计 离散动态系统参数估计的众多方法中,以最小二乘法在理论上和实践上最 为成熟并得到广泛应用。 设系统由下列n阶差分方程描述 y(k)+a1y(k-1)+…+any(k-n)=bol(k)+…+bnu(k-m)+e(k)(10.25) 或写成 A(g y(k)=B(q )u(k)+e(k) (10.26) 式中,{y(k)和{uk)}是输出与输入量不同时刻的测量值组成的离散时间序列 e(k)}为不可测量的随机干扰序列。假设方程的阶数是已知的,而参数 a1,a2,…,anbo,b1,…,b是未知的。现在的问题是如何通过带有噪声的输出和 输入观测数据估计模型的参数。 把待估计的模型参数和k时刻以前的n次采样数据记为向量形式, 6={,a2…,an,b,b1…bn y(k-n)u(k)…uk-n)] 则式(10.25)可以写成 y(k)=x(k)e+e(k) (10.27) 其中e(k)为观测噪声和模型不准等形成的误差。把k=n+1,n+2,…,n+N共N 步采样数据,代入式(10.3)组成N个方程,并且用矩阵形式表达为 其中 (n+1) y(n+2) e(n+2) y(n) y(1)u(n+1) (n+2) y(n+1) y(2)u(n+2)…n(2) y(N) u(n+N) 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 由最小二乘法得 a′ = 2.4578, b = −1.1107 ,因此 x y e 1 1.1107 11.6791 − = 对两种模型比较: ( ) 1.119 1 ( ) 2 ∑ = = m i i 双 ε ( ) 0.94 1 ( ) 2 ∑ = = m i i 指 ε 可见,指数模型优于双曲线模型。 10.3 线性动态模型的最小二乘参数估计 离散动态系统参数估计的众多方法中,以最小二乘法在理论上和实践上最 为成熟并得到广泛应用。 设系统由下列 n 阶差分方程描述: ( ) ( 1) ( ) ( ) ( ) ( ) 1 0 y k a y k a y k n b u k b u k n e k + − +L+ n − = +L+ n − + (10.25) 或写成: ( ) ( ) ( ) ( ) ( ) (10.26) 1 1 A q y k = B q u k + e k − − n A q a q a q an q − − − − = + + +L+ 2 2 1 1 1 ( ) 1 n B q b b q b q bn q − − − − = + + +L+ 2 2 1 0 1 1 ( ) 式中,{y(k)}和{u(k)}是输出与输入量不同时刻的测量值组成的离散时间序列; { }为不可测量的随机干扰序列。假设方程的阶数是已知的,而参数 …, …, 是未知的。现在的问题是如何通过带有噪声的输出和 输入观测数据估计模型的参数。 e(k) , , a1 a2 , , , an b0 b1 bn 把待估计的模型参数和 k 时刻以前的 n 次采样数据记为向量形式, [ ]T a a L an b b Lbn , , , , , θ = 1 2 0 1 x (k) [ ] y(k 1) y(k n) u(k) u(k n) T = − − L − − L − 则式(10.25)可以写成 y(k) x (k) e(k) (10.27) T = θ + 其中e k( ) 为观测噪声和模型不准等形成的误差。把 k = n +1, n + 2,L,n + N 共 N 步采样数据,代入式(10.3)组成 N 个方程,并且用矩阵形式表达为 YN X N N = θ + ε (10.28) 其中 , 1 ( ) ( 2) ( 1) × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + + = N N y n N y n y n Y M 1 ( ) ( 2) ( 1) × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + + = N N e n N e n e n M ε N n T T T N y n N y N u n N u N y n y u n u y n y u n u x n N x n x n X 2 ( 1) ( ) ( ) ( ) ( 1) (2) ( 2) (2) ( ) (1) ( 1) (1) ( ) ( 2) ( 1) × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − − + − + − + − − + = ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + + = L L M M M M L L L L M 浙 江 工 业 大 学 自 动 化 研 究 所 9
控制原理电子教 最小二乘法是选择模型参数θ,使模型输出与所有实际观测值总体上最接 近,所以最小二乘估计的性能指标取为 minJ=2e(k)=ENEN=(Yx-XNO)(YN-Xxe (10.29) 由数学中的极值条件=0,可以求得使J最小的。由式(1029)得 J=(Y-XNO(Y-X,O) WYN +2XNXwo B=0 XNXNO=XNYN 若XXx满秩,则动态离散模型参数的最小二乘法估计6为 (10.30) 为了保证XXx满秩,要求N≥2n+1,一般取测量数据个数N=100~200 104最小二乘参数估计的递推算法 在进行n+N次观测后,根据一次完成法可以构成输出向量Yy和数据阵 从而得到最小二乘估计 当又获得了一组新的观测数据{y(n+N+1)(n+N+1)},同样可构成 Yy+1,XM+,得到最小二乘估计bN+1 下面通过分析第N次和第N+1次参数估计间的关系,得出最小二乘法的递推 算式。显然,XN1与XN、YN41与Yx之间的关系分别为 y(n+1) N+1 y(n+N+1)[y(n+N+1) (n+1) x+1=x7(n x(n+N+1)」[x(n+N+1) 其中 x(n+N+1)=[-y(n+N)…-(N+1),(n+N+1)…,u(N+l 则由式(10.31),有 浙江工业大学自动化研究所
自 动 控 制 原 理 电 子 教 案 最小二乘法是选择模型参数 ,使模型输出与所有实际观测值总体上最接 近,所以最小二乘估计的性能指标取为 θ ˆ ε ε ( ) θ ( θ (10.29) N N T N N N T N n N k n J = ∑e k = = Y − X Y − X + = + min ( ) 1 2 ) 由数学中的极值条件 0 ˆ = θ =θ ∂θ ∂J ,可以求得使 J 最小的θ ˆ。由式(10.29)得 ( ) θ ( ) N Nθ T J = YN − X N Y − X θ θ Nθ T N T N T N T N T = YN Y − 2 X Y + X X 2 2 ˆ 0 ˆ = − + = = = θ θ θ θ θ ∂θ ∂ N T N N T X NY X X J N T N N T X N X θ = X Y ˆ 若 X N T X N 满秩,则动态离散模型参数的最小二乘法估计θ ˆ为 ( ) (10.30) N T N N T X N X X Y 1 ˆ − θ = 为了保证 X N T X N 满秩,要求 N ≥ 2n +1,一般取测量数据个数 N=100~200。 10.4 最小二乘参数估计的递推算法 在进行 n+N 次观测后,根据一次完成法可以构成输出向量 和数据阵 ,从而得到最小二乘估计: YN X N ( ) N T N N T N X N X X Y 1 ˆ − θ = 当又获得了一组新的观测数据 {y(n + N +1),u(n + N +1)} ,同样可构成 ,得到最小二乘估计 : 1 1 , YN+ X N+ 1 ˆθ N+ ( ) (10.31) 1 1 1 1 1 1 ˆ + + − + = + + N T N N T θ N X N X X Y 下面通过分析第 N 次和第 N+1 次参数估计间的关系,得出最小二乘法的递推 算式。显然, X N+1与 X N 、YN+1与YN 之间的关系分别为 ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + + + + = ( 1) ................... ( 1) .................. ( ) ( 1) 1 y n N Y y n N y n N y n Y N N M ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + + + + + = ( 1) ................... ( 1) .................. ( ) ( 1) 1 x n N X x n N x n N x n X T N T T T N M 其中 x (n + N +1) = [ T −y(n + N),L,−y(N +1),u(n + N +1),L,u(N +1)] 则由式(10.31) ,有 浙 江 工 业 大 学 自 动 化 研 究 所 10