58.2线性回归分析的数学模型 一个过程之中,它们互相联系,互相制约 个确定的函数关系式表达出来。这些变量其实就是是随机变量,之 间的关系我们常称为相关关系。为深入本质,我们也需要去寻找这些变量间的数量关系式。 回归分析就是进行统计的一种方法。在这种关系中简单的线性回归。 例84维伦纤维德耐热水性能好坏用指标“缩醛化度”来衡量。这个指标越高,耐水 性就越好。而甲醛浓度时影响缩醛化度的一个重要因素。在生产中常用甲醛浓度x(克升 不去控制者 一指标 。下面是试验 “组数据: 甲醛浓度x(克升) ☐1820☐22☐24262830 缩醛化度y(可分子%)26.8628.3528.7528.8729.753030.36■ 若我们去重复试验,在同一甲醛浓度x下,所得缩醛化度y不完全一致。这表明x与 y之间不能用个完全确定的函数关系来表达 ,直角坐标图(见图8.1)图略 从图我们可以把试验结果y看成有两部分叠加而成的,以部分有x的线性函数引起, 记B。+B,另一部分是由随即因素引起的,记,即: y=B+B.+6 (8.23) 我们把£看成随即误差,假定它服从N(0,。2)分布。这就意味着假定: yN (Bo+B,,2) y的数学期望是x的线性函数。 为获得民。,B的估计,我们要进行若干次独立试验。设所得结果为 (y,x,)=l,2,,n 这里6,62,…,£n都是独立随即变量,均服从N(0,σ2)分布,这就是一元线性 回归模型。 一般讲,影响结果y的因数不止一个,设共p个元素。要确定它们的关系是很困难的, 常客根据经验作出假设,其中最简单的加设是他们之间有线性关系: =B。+B++Pxn+6 (8.24) 由(824)可知y=B。+Bx1++Bpxp+8,1=1,2,…,n(8.26 其中诸G,62,…a,相互独立,且服从N(0,。2),这就是P元线性回归模型。 一、参数估计 我们先讨论如何由(8.25)取估计(8.24)中的参数B。,B…及σ2的问题。 设B,B,…的估计分别为B。,B,,那么我们就可以的得到一个p元线 性方程:
§8.2 线性回归分析的数学模型 在实际问题中我们常会遇到多个变量同处于一个过程之中,它们互相联系,互相制约。 一些变量它们不能用用一个确定的函数关系式表达出来。这些变量其实就是是随机变量,之 间的关系我们常称为相关关系。为深入本质,我们也需要去寻找这些变量间的数量关系式。 回归分析就是进行统计的一种方法。在这种关系中简单的线性回归。 例 8.4 维伦纤维德耐热水性能好坏用指标“缩醛化度”来衡量。这个指标越高,耐水 性就越好。而甲醛浓度时影响缩醛化度的一个重要因素。在生产中常用甲醛浓度 x(克/升) 不去控制着一指标。下面是试验获得的一组数据: 甲醛浓度 x(克/升) 18 20 22 24 26 28 30 缩醛化度 y(可分子%) 26.86 28.35 28.75 28.87 29.75 30 30.36 若我们去重复试验,在同一甲醛浓度 x 下,所得缩醛化度 y 不完全一致。这表明 x 与 y 之间不能用个完全确定的函数关系来表达。直角坐标图(见图 8.1)图略 从图我们可以把试验结果 y 看成有两部分叠加而成的,以部分有 x 的线性函数引起, 记 0 + 1x ,另一部分是由随即因素引起的,记 ,即: y= 0 + 1x + (8.23) 我们把 看成随即误差,假定它服从 N(0, 2 )分布。这就意味着假定: y~N( 0 + 1x , 2 ) y 的数学期望是 x 的线性函数。 为获得 0 , 1 的估计,我们要进行若干次独立试验。设所得结果为 ( i i y , x ) I=1,2,…,n 这里 , , 1 2 …, n 都是独立随即变量,均服从 N(0, 2 )分布,这就是一元线性 回归模型。 一般讲,影响结果 y 的因数不止一个,设共 p 个元素。要确定它们的关系是很困难的, 常客根据经验作出假设,其中最简单的加设是他们之间有线性关系: y= 0 + 1 1 x +…+ p p x + (8.24) 由(8.24)可知 i y = 0 + 1 i1 x +…+ ip p x + i ,I=1,2,…,n (8.26) 其中诸 1 , 2 ,… n ,相互独立,且服从 N(0, 2 ),这就是 P 元线性回归模型。 一、参数估计 我们先讨论如何由(8.25)取估计(8.24)中的参数 0 , 1 …及 2 的问题。 设 0 , 1 ,…的估计分别为 ^ 0 , ^ 1 ,…,那么我们就可以的得到一个 p 元线 性方程:
y=B。+Bx++B。x。 (8.27) 称(827)为p元线性回归方程。对(8.25)的每一个样本点有(8.27)可求得相应的值: y=B。+Bx1++B。xp (8.28) 称(828)所求的得y,为回归值。 [n邱。+∑xmB++∑xpB。=∑y ∑x1B。+∑后B+…+∑XnXiB。=∑xy (8.29) ∑xpR。+∑xpaB++∑x=∑xpy 称((829)为正规方程组,其解称为B。,月,,B。得最小二乘估计 (829)可用矩阵形式简洁的表示出来。令 B 若记(8.29)的系数矩阵为A,常数项矩阵为B,则A恰好为XX,B恰好为X'X: 因而(8.29)用矩阵形式表示即为: XXB=XY (8.30) 称X为结构矩阵,它说明Y的数学期望结构.A=XX为正规方程系数矩阵,B=XY为正规 常数项矩阵。在回归分析中通常A~存在,这时最小二乘估计B可表示为: B=(X'X)XY (831) 为求σ的估计,先引入几个名词。称实测值y,与回归值y,得差为残差,称 y=Y-Y=Y-XB (8.32) 为残差向量,而称 S=∑y-y=yy 为剩余平方和(或残差平方和),(833)中各式只是它的不同表示方法, 定理8.2E(S.)=(m-p-1)σ2 (8.34) 证明(见书399) 定理8.3 B是B的线性无偏估计,其方差协方差矩阵为
y= ^ 0 + ^ 1 1 x +……+ ^ p p x (8.27) 称(8.27)为 p 元线性回归方程。对(8.25)的每一个样本点有(8.27)可求得相应的值: ^ i y = ^ 0 + ^ 1 i1 x +……+ ^ p ip x (8.28) 称(8.28)所求的得 ^ i y 为回归值。 + ++ = + ++ = + ++ = i p i p i i p i p i i i i i p p i i i i p p i x x x x x y x x x x x y n x x y 2 0 1 1 1 1 1 2 1 0 1 0 1 1 . . (8.29) 称(8.29)为正规方程组,其解称为 0 , 1 ,…, p 得最小二乘估计 (8.29)可用矩阵形式简洁的表示出来。令 X= n np p p x x x x x x 1 ... .............................. 1 ... 1 ... 1 21 2 11 1 ,Y= n y y y .... 2 1 , = p ... 1 0 若记(8.29)的系数矩阵为 A,常数项矩阵为 B,则 A 恰好为 X’X,B 恰好为 X’X: 因而(8.29)用矩阵形式表示即为: X’X =X’Y (8.30) 称 X 为结构矩阵,它说明 Y 的数学期望结构.A= X’X 为正规方程系数矩阵,B=X’Y 为正规 常数项矩阵。在回归分析中通常 −1 A 存在,这时最小二乘估计 ^ 可表示为: ^ = 1 ( ' ) − X X X’Y (8.31) 为求 2 的估计,先引入几个名词。称实测值 i y 与回归值 ^ i y 得差为残差,称 ~ y =Y— ^ Y = Y—X ^ (8.32) 为残差向量,而称 e S = − 2 ^ ( ) i i y y = ~ y ’ ~ y 为剩余平方和(或残差平方和),(8.33)中各式只是它的不同表示方法。 定理 8.2 E( e S )=(n-p-1) 2 (8.34) 证明(见书 399) 定理 8.3 ^ 是 的线性无偏估计,其方差协方差矩阵为
D(B)=(XX)σ2 (8.49) 由于(8.49)表示B的方差协反差矩阵为(XX)乘以σ2,故也称 (XX)为相关矩阵。 定理84 Cov(Y,B)=0 (8.50) 证明(见书409) 定理85当N,,o1,)时,B与S,相互独立,且月-N(B,o2(nX)),手x2 最后,我们简单提下最小二乘估计B与残差向量了的几何意义。 首先,我们可以把随即向量Y的n个观察值看成是n维欧氏空间的一个鲜亮,在空间中向 量y(,2yn)的长度定义为: 啡2片 两个向量另,为,间的距离定义为: I一2 求B的最小二乘估计B,就算求一个B使Y与XB这两个向量间的距离最短,亦即要使残 差向量Y最短。 二、假设检验 在P元线性回归模型(8.26)中,除了参数估计问题外,还有如下的一些显著检验问 题: (1) 变量y与x,,…,x,间是否确有线性关系?如果没有线性关系, 按么一切B,(=1,2,…,p)均为0。这相当于检验假设: H。:月=B2==B。=0 (8.52) 是否成立。 (2)假如y与x,X2,…,X。间确有线性关系,但是否每个变量都起若显著作 用?如果因子不起显著作用,那么B应该为0。因此要检验因子是否有显著影响,就相当于
D( ^ )= 1 ( ' ) − X X 2 (8.49) 由于(8.49)表示 ^ 的方差协反差矩阵为 1 ( ' ) − X X 乘以 2 ,故也称 1 ( ' ) − X X 为相关矩阵。 定理 8.4 Cov ( , ) ~ ^ Y =0 (8.50) 证明(见书 409) 定理 8.5 当 Y~ Nn ( , ) 2 n X I 时, ^ 与 e S 相互独立,且 ^ ~N ( , ( ' ) ) 2 −1 X X , 2 e S ~ 2 (n-q),其中 q 为举证 X 的秩。 证明(见书 410) 最后,我们简单提下最小二乘估计 ^ 与残差向量 ^ Y 的几何意义。 首先,我们可以把随即向量 Y 的 n 个观察值看成是 n 维欧氏空间的一个鲜亮,在空间中向 量 y=( n y , y ,..., y 1 2 )’的长度定义为: ||y||= y' y = = n i i y 1 2 两个向量 1 y , 2 y 间的距离定义为: || 1 y — 2 y || 求 的最小二乘估计 ^ ,就算求一个 ^ 使 Y 与 X ^ 这两个向量间的距离最短,亦即要使残 差向量 ^ Y 最短。 二、 假设检验 在 p 元线性回归模型(8.26)中,除了参数估计问题外,还有如下的一些显著检验问 题: (1) 变量 y 与 1 2 x , x ,…, p x 间是否确有线性关系?如果没有线性关系, 按么一切 i (I=1,2,…,p)均为 0。这相当于检验假设: 0 1 H : = 2 =…= p =0 (8.52) 是否成立。 (2)假如 y 与 1 2 x , x ,…, p x 间确有线性关系,但是否每个变量都起着显著作 用?如果因子不起显著作用,那么 j 应该为 0。因此要检验因子是否有显著影响,就相当于
假设 HoB=0 (8.53) 是否成立(1,2,…,p) 通常我们用数据的总的偏差平方和莱衡量数据波动的大小: S=∑0y- 利用正规方程组(8.29)可知 ∑0y-yy-y)=0 所以我们得到了平方和的分解式: ∑0y-2=∑y,-y,)2+∑0y,-2 或记为: S,=S。+SR (8.54) 其中 S.=∑0y-,)月 即位(833)所示的剩余平方和,它反映了除去y与x,x2,,x。之间的线性关系以外的 一切因数引起的数据,间的波动。而 S=∑y,- 称为回归平方和,它主要反映由变量x,x2,…,x。的变化引起y,间的波动。 在具体计算中,我们往往先计算下述个量: [ST =l SR=Bln+…+Bn (8.55) s.=ST-Sx 然后再计算 F-S,K(n-p-1) (8.56) 下面我们利用(8.55)(8.56)对例8.4与例8.37所求的回归方程进行检验。 对例8.4种药检验的假设是: Ho:B=0 为此县计算偏差平方和,利用§82和(856)可计算F比:
假设 H j j : 0 =0 (8.53) 是否成立(j=1,2,…,p)。 通常我们用数据的总的偏差平方和莱衡量数据波动的大小: T S = − 2 (y y) i 利用正规方程组(8.29)可知 ( )( ) ^ ^ y y y y i − i i − =0 所以我们得到了平方和的分解式: − 2 (y y) i = ( )2 ( )2 ^ ^ y − y + y − y i i i 或记为: T S = Se + SR (8.54) 其中 e S = − 2 ^ ( ) i i y y 即位(8.33)所示的剩余平方和,它反映了除去 y’与 1 2 x , x ,…, p x 之间的线性关系以外的 一切因数引起的数据 i y 间的波动。而 R S = − 2 ^ (y y) i 称为回归平方和,它主要反映由变量 1 2 x , x ,…, p x 的变化引起 i y 间的波动。 在具体计算中,我们往往先计算下述个量: ^ ^ 1 ... p py e T R R ly T yy l s S S S l S l + + = − = = (8.55) 然后再计算 F= /( 1) / S n − p − S p e R (8.56) 下面我们利用(8.55)(8.56)对例 8.4 与例 8.37 所求的回归方程进行检验。 对例 8.4 种药检验的假设是: 0 1 H : =0 为此县计算偏差平方和,利用§8.2 和(8.56)可计算 F 比:
S2/1 7-1-05840 取a=0.05,查F的分布表的F5(1,5)=6.61,由于5840>6.61,故拒绝H。,即认为a=0.05 水平下,缩醛化度对甲醛浓度的回归方程有显著意义
/(7 1 1) /1 e − − R S S =58.40 取 =0.05,查 F 的分布表的 (1,5) F0.95 =6.61,由于 58.40>6.61,故拒绝 H0 ,即认为 =0.05 水平下,缩醛化度对甲醛浓度的回归方程有显著意义