第九章多元线性回归与多项式回归 直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学 领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量 这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多 个自变量间的回归分析,即多元回归分析( multiple regression analysis),而其中最为简单 常用并且具有基础性质的是多元线性回归分析( multiple linear regression analysis),许多非 线性回归(non- linear regression)和多项式回归( polynomial regression)都可以化为多元 线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想 方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分 析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进 行计算 第一节多元线性回归分析 多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量 对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显 著性:检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线 性影响的自变量,建立最优多元线性回归方程:评定各个自变量对依变量影响的相对重要性 以及测定最优多元线性回归方程的偏离度等 多元线性回归方程的建立 (一)多元线性回归的数学模型设依变量y与自变量x、x2、…、xm共有n组 实际观测数据 变量 VI x pn 假定依变量y与自变量x、x、…、xm间存在线性关系,其数学模型为: y,=Bo+Bx1+B2x2j.+Bm mi+e (9-1) 式中,x、x2、…、xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观
162 第九章 多元线性回归与多项式回归 直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学 领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量 这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多 个自变量间的回归分析,即多元回归分析(multiple regression analysis),而其中最为简单、 常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis),许多非 线性回归(non-linear regression)和多项式回归(polynomial regression)都可以化为多元 线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想、 方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分 析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进 行计算。 第一节 多元线性回归分析 多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量 对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显 著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线 性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性 以及测定最优多元线性回归方程的偏离度等。 一、 多元线性回归方程的建立 (一)多元线性回归的数学模型 设依变量 y 与自变量 1 x 、 2 x 、…、 xm 共有 n 组 实际观测数据: 变量 序号 y 1 x 2 x … xm 1 1 y 11 x 21 x … m1 x 2 2 y 12 x 22 x … m2 x ┆ ┆ ┆ ┆ … ┆ n n y n x1 n x2 … mn x 假定依变量 y 与自变量 x1、x2、…、xm间存在线性关系,其数学模型为: j j j m mj j y = + x + x +...+ x + 0 1 1 2 2 (9-1) (j=1,2,…,n) 式中,x1、x2、…、xm为可以观测的一般变量(或为可以观测的随机变量);y 为可以观
测的随机变量,随x、x、…、xm而变,受试验误差影响:E,为相互独立且都服从N(O,a2) 的随机变量。我们可以根据实际观测值对风、月、B2、、Bn以及方差a2作出估计。 (二)建立线性回归方程设y对x1、x2、…、xm的m元线性回归方程为: 其中的b、b1、b2、…、b为、B1、B2、Bn的最小二乘估计值。即b、b1、b2 b应使实际观测值y与回归估计值y的偏差平方和最小 令Q=∑(y-)2 1 Q为关于b、b1、b2、…、bn的m+1元函数。 根据微分学中多元函数求极值的方法,若使Q达到最小,则应有: (i -bo (i=1、2、…、m) 经整理得 nb+(Σx1)b1+(Σx2)b2 (Σxm)b (xx)+(x)+(x2)2+…+(21xm)n=Xy (x2)b+(x2x1)1+(xx2)b2+…+(x2xn)bn=∑x2y xm+(∑xmx)+(xmx2)b (∑x)b 由方程组(9-2)中的第一个方程可得 bo =y-6,x,-b b x (9-3) 即 b=-∑b元 其中 x 若记 y SPk=∑(x-x-x)=SPSP0=∑(x一x- 并将b=j-bx-b2x2-…-bmm分别代入方程组(9-2)中的后m个方程,经整理可得到关 于偏回归系数b、b2、…、bm的正规方程组( normal equations)为 163
163 测的随机变量,随 x1、x2、…、xm而变,受试验误差影响; j 为相互独立且都服从 (0, ) 2 N 的随机变量。我们可以根据实际观测值对 0、1、 2、...、 m 以及方差 2 作出估计。 (二)建立线性回归方程 设 y 对 1 x 、 2 x 、…、 xm 的 m 元线性回归方程为: y = b0 + b1 x1 + b2 x2 ++ bmxm ˆ 其中的 b0 、 1 b 、b2 、…、 bm 为 0、1、 2 ...、 m 的最小二乘估计值。即 b0 、 1 b 、b2 、…、 bm 应使实际观测值 y 与回归估计值 y ˆ 的偏差平方和最小。 令 = = − n j j j Q y y 1 2 ( ˆ ) = = − − − − − n j j j j m mj y b b x b x b x 1 2 0 1 1 2 2 ( ) Q 为关于 b0 、 1 b 、b2 、…、 bm 的 m +1 元函数。 根据微分学中多元函数求极值的方法,若使 Q 达到最小,则应有: = = − − − − − − = n j j j j m mj y b b x b x b x b Q 1 0 1 1 2 2 0 2 ( ) 0 = = − − − − − − = n j i j j j j m mj i x y b b x b x b x b Q 1 2 ( 0 1 1 2 2 ) 0 ( i =1、2、…、 m ) 经整理得: + + + + = + + + + = + + + + = + + + + = x b x x b x x b x b x y x b x x b x b x x b x y x b x b x x b x x b x y n b x b x b x b y m m m m m m m m m m m m ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 0 1 1 2 2 2 2 2 2 2 0 2 1 1 2 1 1 2 2 1 1 2 1 0 1 0 1 1 2 2 (9-2) 由方程组(9-2)中的第一个方程可得 m m b = y − b x − b x −− b x 0 1 1 2 2 (9-3) 即 = = − m i i i b y b x 1 0 1 , 1 : 1 1 = = = = n j i ij n j j x n y x n 其中 y 若记 ( ) , 1 2 = = − n j i ij i SS x x = = − n j y j SS y y 1 2 ( ) = = − − = n j ik ij i kj k SPki SP x x x x 1 ( )( ) = = − − n j io ij i j SP x x y y 1 ( )( ) ( i 、 k =1、 2 、…、 m ; i k) 并将 b0 = y −b1 x1 −b2 x2 −−bm xm 分别代入方程组(9-2)中的后 m 个方程,经整理可得到关 于偏回归系数 1 b 、b2 、…、 bm 的正规方程组(normal equations)为:
SS,b,+ Sp2b2 SP21b,+ Ss,b2+.+SP2mbm= SP (9-4) 解正规方程组(9-4)即可得偏回归系数b、b2、…、bn的解,而 b1x1-b2x2-…-bmxm 于是得到m元线性回归方程 j=bo+b,x,+b2x m元线性回归方程的图形为m+1维空间的一个平面,称为回归平面;b称为回归常数 项,当x1=x2=…=xm=0时,j=0,在b有实际意义时,b表示y的起始值;b(i=1、2、…、 m)称为依变量y对自变量x2的偏回归系数( partial regression coefficient),表示除自变量 x以外的其余m-1个自变量都固定不变时,自变量x每变化一个单位,依变量y平均变化 的单位数值,确切地说,当b>0时,自变量x每增加一个单位,依变量y平均增加b个单 位:当b<0时,自变量x;每增加一个单位,依变量y平均减少b个单位。 若将b=j-b1-b2x2-…-bn代入上式,则得 y=y+b1(x1-x1)+b2(x2-x2)+…+bn(xm-xm) (9-5) (9-5)式也为y对x1、x2、…、xn的m元线性回归方程 对于正规方程组(9-4),记 则正规方程组(94)可用矩阵形式表示为 SS1SR2…SPmb SP ss b2 (9-6) SPmI SP2…SSm⊥bm」L Ab= B 其中A为正规方程组的系数矩阵、b为偏回归系数矩阵(列向量)、B为常数项矩阵(列向 量)。 设系数矩阵A的逆矩阵为C矩阵,即A=C,则 其中:C矩阵的元素cn(i,户=1、2、…、m)称为高斯乘数,是多元线性回归分析中显著 性检验所需要的。 关于求系数矩阵A的逆矩阵A的方法有多种,如行(或列)的初等变换法等,请参阅 线性代数教材,这里就不再赘述 对于矩阵方程(9-7)求解,有
164 + + + = + + + = + + + = m1 1 2 2 0 21 1 2 2 2 20 1 1 12 2 1 10 SP m m m m m m m m b SP b SS b SP SP b SS b SP b SP SS b SP b SP b SP (9-4) 解正规方程组(9-4)即可得偏回归系数 1 b 、b2 、…、 bm 的解,而 m m b = y − b x − b x −− b x 0 1 1 2 2 于是得到 m 元线性回归方程 m m y = b + b x + b x ++ b x 0 1 1 2 2 ˆ m 元线性回归方程的图形为 m +1 维空间的一个平面,称为回归平面; b0 称为回归常数 项,当 1 x = 2 x =…= xm =0 时, y ˆ = 0, 在 b0 有实际意义时, b0 表示 y 的起始值; i b ( i =1、2、…、 m )称为依变量 y 对自变量 i x 的偏回归系数(partial regression coefficient),表示除自变量 i x 以外的其余 m −1 个自变量都固定不变时,自变量 i x 每变化一个单位,依变量 y 平均变化 的单位数值,确切地说,当 i b >0 时,自变量 i x 每增加一个单位,依变量 y 平均增加 i b 个单 位;当 i b <0 时,自变量 x i 每增加一个单位,依变量 y 平均减少 i b 个单位。 若将 m m b = y − b x − b x −− b x 0 1 1 2 2 代入上式,则得 ˆ ( ) ( ) ( ) 1 1 1 2 2 2 m m m y = y + b x − x + b x − x ++ b x − x (9-5) (9-5)式也为 y 对 1 x 、 2 x 、…、 xm 的 m 元线性回归方程。 对于正规方程组(9-4),记 = m m m m m SP SP SS SP SS SP SS SP SP A 1 2 21 2 2 1 12 1 , = bm b b b 2 1 , = 0 20 10 SPm SP SP B 则正规方程组(9-4)可用矩阵形式表示为 = 0 20 10 2 1 1 2 21 2 2 1 12 1 m m m m m m m SP SP SP b b b SP SP SS SP SS SP SS SP SP (9-6) 即 Ab = B (9-7) 其中 A 为正规方程组的系数矩阵、b 为偏回归系数矩阵(列向量)、B为常数项矩阵(列向 量)。 设系数矩阵 A 的逆矩阵为 C 矩阵,即 A = C −1 ,则 = = = − − m m mm m m m m m m m c c c c c c c c c S P S P S S S P S S S P S S S P S P C A 1 2 21 22 2 11 12 1 1 1 2 21 2 2 1 12 1 1 其中:C 矩阵的元素 ij c ( i ,j=1、2、…、 m )称为高斯乘数,是多元线性回归分析中显著 性检验所需要的。 关于求系数矩阵 A 的逆矩阵 A-1 的方法有多种,如行(或列)的初等变换法等,请参阅 线性代数教材,这里就不再赘述。 对于矩阵方程(9-7)求解,有:
b=cB b Lbn」 IcmIC2…cm⊥SPmo 关于偏回归系数b1、b2、…、bn的解可表示为 (i=1、2 或者b 而b=y-b1-b2x2 【例9.1】猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌 面积、胴体长、膘厚等性状。设依变量y为瘦肉量(kg),自变量x为眼肌面积(cm2), 自变量x2为胴体长(cm),自变量x3为膘厚(cm)。根据三江猪育种组的54头杂种猪的实 测数据资料,经过整理计算,得到如下数据 SS1=8462281SS2=7456041Ss3=13.8987 Sf2=40.6832SP13=-62594SP23=-45.1511 SP0=1144530SP20=762799SP30=-1l2966 x2=944343x3=34344 SS,=70.6617y=148722 试建立y对x1、x2、x3的三元线性回归方程j=b+b1x1+b2x2+b2x3 将上述有关数据代入(9-5)式,得到关于偏回归系数b1、b2、b3的正规方程组: 8462281b1+406832b2-62594b2=1144530 406832b+7456041b2-4551b=762799 62594b1-4551b2+13.8987b3=-11.2966 用线性代数有关方法求得系数矩阵的逆矩阵如下: 846.228140683262594 406832745604145.1511 6259445.151113.8987 0.001187-00000400.00040 1C12C13 000004000016710005410 0.00040300054100089707 C31C32C33 根据式(9-8),关于b1、b2、b3的解可表示为 Cll C12 C13SP b 即关于b1、b2、b3的解为:
165 b CB b A B = = − 1 即: = 0 20 10 1 2 21 22 2 11 12 1 2 1 m m mm m m m m SP SP SP c c c c c c c c c b b b (9-8) 关于偏回归系数 1 b 、b2 、…、 bm 的解可表示为: i i1 10 i2 20 imSPm0 b = c SP + c SP ++ c (9-9) ( i =1、2、…、 m ) 或者 = = m j i ij j b c sp 1 0 而 m m b = y − b x − b x −− b x 0 1 1 2 2 【例 9.1】 猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌 面积、胴体长、膘厚等性状。设依变量 y 为瘦肉量( kg ),自变量 1 x 为眼肌面积( cm 2), 自变量 2 x 为胴体长( cm ),自变量 3 x 为膘厚( cm )。根据三江猪育种组的 54 头杂种猪的实 测数据资料,经过整理计算,得到如下数据: 70.6617 14.8722 25.7002 94.4343 3.4344 114.4530 SP 76.2799 SP 11.2966 40.6832 SP 6.2594 SP 45.1511 846.2281 SS 745.6041 SS 13.8987 1 2 3 10 20 30 12 13 23 1 2 3 = = = = = = = = − = = − = − = = = S S y x x x S P S P S S y 试建立 y 对 1 x 、 2 x 、 3 x 的三元线性回归方程 0 1 1 2 2 3 3 y ˆ = b + b x + b x + b x 。 将上述有关数据代入(9-5)式,得到关于偏回归系数 1 b 、b2 、b3 的正规方程组: − − + = − + − = + − = 6.2594 45.1511 13.8987 11.2966 40.6832 745.6041 45.1511 76.2799 846.2281 40.6832 6.2594 114.4530 1 2 3 1 2 3 1 2 3 b b b b b b b b b 用线性代数有关方法求得系数矩阵的逆矩阵如下: 1 1 - 6.2594 - 45.1511 13.8987 40.6832 745.6041 - 45.1511 846.2281 40.6832 - 6.2594 − − = C = A = 0.000403 0.005410 0.089707 - 0.000040 0.001671 0.005410 0.001187 - 0.000040 0.000403 = 31 32 33 21 22 23 11 12 13 c c c c c c c c c 根据式(9-8),关于 1 b 、b2、b3 的解可表示为: = 30 20 10 31 32 33 21 22 23 11 12 13 3 2 1 SP SP SP c c c c c c c c c b b b 即关于 b1、b2、b3 的解为:
b1「0.0017-0000000445301「0.282 b2|=-0.00000016710005410762799 0.0617 b3」0004000054100089707-1.2966-0.545 而b=y-b1x1-b2x2-b3x3 =14.8722-0.1282×25.7002-0.0617×944343-(-0.5545)×34344 =76552 于是得到关于瘦肉量y与眼肌面积x1、胴体长x2、膘厚x3的三元线性回归方程为 j=76552+0.1282x1+00617x2-0.555x3 (三)多元线性回归方程的偏离度以上根据最小二乘法,即使偏差平方和 ∑(-2最小建立了多元线性回归方程。偏差平方和∑(y-j)2的大小表示了实测点与回 归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在m元线性回 归分析中,离回归平方和的自由度为(nm1)。于是可求得离回归均方为∑y-)21(mm-1) 离回归均方是模型(9-1)中a2的估计值。离回归均方的平方根叫离回归标准误,记为S12.m (或简记为S),即 12m=S.=∑(0-)2/(m-m-1 (9-10) 离回归标准误S12m的大小表示了回归平面与实测点的偏离程度,即回归估计值j与 实测值y偏离的程度,于是我们把离回归标准误S,12m用来表示回归方程的偏离度。离回 归标准误S12m大,表示回归方程偏离度大,离回归标准误S,12.m小,表示回归方程偏离 度小 利用公式∑(y-j)计算离回归平方和,因为先须计算出各个回归预测值j,计算量大 下面我们将介绍计算离回归平方和的简便公式 多元线性回归的显著性检验 (一)多元线性回归关系的显著性检验在畜禽、水产科学的许多实际问题中 我们事先并不能断定依变量y与自变量x、x2、…、xm之间是否确有线性关系,在根据依 变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线 性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程 之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元 线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用F检 验方法。 与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量y的总平方 和SS,可以剖分为回归平方和SS与离回归平方和SS两部分,即: (9-11) 依变量y的总自由度dr也可以剖分为回归自由度dR与离回归自由度d两部分,即 d,=dr+dr (9-12)
166 − = − = − 0.5545 0.0617 0.1282 11.2966 76.2799 114.4530 0.000403 0.005410 0.089707 0.000040 0.001671 0.005410 0.001187 - 0.000040 0.000403 3 2 1 b b b 而 0 1 1 2 2 3 3 b = y − b x − b x − b x =14.8722 − 0.1282 25.7002 − 0.0617 94.4343 − (−0.5545)3.4344 = 7.6552 于是得到关于瘦肉量 y 与眼肌面积 1 x 、胴体长 2 x 、膘厚 3 x 的三元线性回归方程为: 1 2 5545 3 y ˆ = 7.6552 + 0.1282 x + 0.0617 x − 0. x (三)多元线性回归方程的偏离度 以上根据最小二乘法,即使偏差平方和 2 (y − y ˆ) 最小建立了多元线性回归方程。偏差平方和 2 (y − y ˆ) 的大小表示了实测点与回 归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在 m 元线性回 归分析中,离回归平方和的自由度为(n-m-1)。于是可求得离回归均方为 2 (y − y ˆ) (/ n-m-1)。 离回归均方是模型(9-1)中σ2 的估计值。离回归均方的平方根叫离回归标准误,记为 Sy.12...m (或简记为 Se),即 ( ˆ) ( 1) 2 Sy.12...m = Se = y − y n − m − (9-10) 离回归标准误 Sy.12...m 的大小表示了回归平面与实测点的偏离程度,即回归估计值 y ˆ 与 实测值 y 偏离的程度,于是我们把离回归标准误 Sy.12...m 用来表示回归方程的偏离度。离回 归标准误 Sy.12...m 大,表示回归方程偏离度大,离回归标准误 S y.12...m 小,表示回归方程偏离 度小。 利用公式 2 (y − y ˆ) 计算离回归平方和,因为先须计算出各个回归预测值 y ˆ ,计算量大, 下面我们将介绍计算离回归平方和的简便公式。 二、多元线性回归的显著性检验 (一)多元线性回归关系的显著性检验 在畜禽、水产科学的许多实际问题中, 我们事先并不能断定依变量 y 与自变量 1 x 、 2 x 、…、 xm 之间是否确有线性关系,在根据依 变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线 性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程 之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元 线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用 F 检 验方法。 与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量 y 的总平方 和 SSy 可以剖分为回归平方和 SS R 与离回归平方和 SSr 两部分,即: SSy = SSR + SSr (9-11) 依变量 y 的总自由度 df y 也可以剖分为回归自由度 df R 与离回归自由度 dfr 两部分,即: df y = dfR + dfr (9-12)
(9-11)与(9-12)两式称为多元线性回归的平方和与自由度的划分式或剖分式 在(9-11)式中,Ssy=2(y-)2反映了依变量y的总变异;Sg=x-y)2反映了依变 量与多个自变量间存在线性关系所引起的变异,或者反映了多个自变量对依变量的综合线性 影响所引起的变异;SS=x(y-y)2反映了除依变量与多个自变量间存在线性关系以外的其 他因素包括试验误差所引起的变异。 (9-11)式中各项平方和的计算方法如下 b, SPo+b2 SP20+.+bm,SP (9-12) (9-12)式中各项自由度的计算方法如下: dfp 在上述计算方法中,m为自变量的个数,n为实际观测数据的组数。 在计算出SS、刂Rg与SS、d之后,我们可以方便地算出回归均方MSg与离回归均方 MS. SSR MS 检验多元线性回归关系是否显著或者多元线性回归方程是否显著,就是检验各自变量的 总体偏回归系数B1(=1、2、…、m)是否同时为零,显著性检验的无效假设与备择假设为 H0:B1=B2=…=Bn=0,HA:B1、B2、…、Bmn不全为零 在H0成立条件下,有 M ( fi=da, 2=dfr) 9-14) 由上述F统计量进行F检验即可推断多元线性回归关系的显著性 这里特别要说明的是,上述显著性检验实质上是测定各自变量对依变量的综合线性影响 的显著性,或者测定依变量与各自变量的综合线性关系的显著性。如果经过F检验,多元线 性回归关系或者多元线性回归方程是显著的,则不一定每一个自变量与依变量的线性关系都 是显著的,或者说每一个偏回归系数不一定都是显著的,这并不排斥其中存在着与依变量无 线性关系的自变量的可能性。在上述多元线性回归关系显著性检验中,无法区别全部自变量 中,哪些是对依变量的线性影响是显著的,哪些是不显著的。因此,当多元线性回归关系经 显著检验为显著时,还必须逐一对各偏回归系数进行显著性检验,发现和剔除不显著的偏回 归关系对应的自变量。另外,多元线性回归关系显著并不排斥有更合理的多元非线性回归方 程的存在,这正如直线回归显著并不排斥有更合理的曲线回归方程存在一样。 对于【例9.1】,建立的三元线性回归方程为 y=76552+0.1282x1+0.0617x2-0.5545x3 现在对三元线性回归关系进行显著性检验。 已计算得: =70.6617
167 (9-11)与(9-12)两式称为多元线性回归的平方和与自由度的划分式或剖分式。 在(9-11)式中, 2 SS ( y y) y = − 反映了依变量 y 的总变异; 2 SS (y ˆ y) R = − 反映了依变 量与多个自变量间存在线性关系所引起的变异,或者反映了多个自变量对依变量的综合线性 影响所引起的变异; 2 SS (y y ˆ) r = − 反映了除依变量与多个自变量间存在线性关系以外的其 他因素包括试验误差所引起的变异。 (9-11)式中各项平方和的计算方法如下: r y R m i R m m i io y SS SS SS SS b SP b SP b SP b SP SS y y n = − = + + + = = − =1 1 10 2 20 0 2 2 ( ) / (9-12) (9-12)式中各项自由度的计算方法如下: 1 1 = − − = = − df n m df m df n r R y 在上述计算方法中, m 为自变量的个数, n 为实际观测数据的组数。 在计算出 SS R 、df R 与 SSr 、dfr 之后,我们可以方便地算出回归均方 MS R 与离回归均方 MSr : R R R df SS MS = ; r r r df SS MS = 检验多元线性回归关系是否显著或者多元线性回归方程是否显著,就是检验各自变量的 总体偏回归系数 i (i =1、2、…、 m )是否同时为零,显著性检验的无效假设与备择假设为: H0 : 1 = 2 == m = 0, H A : 1、 2、、 m不全为零 在 H0 成立条件下,有 , ( , ) 1 R 2 r r R df df df df MS MS F = = = (9-14) 由上述 F 统计量进行 F 检验即可推断多元线性回归关系的显著性。 这里特别要说明的是,上述显著性检验实质上是测定各自变量对依变量的综合线性影响 的显著性,或者测定依变量与各自变量的综合线性关系的显著性。如果经过 F 检验,多元线 性回归关系或者多元线性回归方程是显著的,则不一定每一个自变量与依变量的线性关系都 是显著的,或者说每一个偏回归系数不一定都是显著的,这并不排斥其中存在着与依变量无 线性关系的自变量的可能性。在上述多元线性回归关系显著性检验中,无法区别全部自变量 中,哪些是对依变量的线性影响是显著的,哪些是不显著的。因此,当多元线性回归关系经 显著检验为显著时,还必须逐一对各偏回归系数进行显著性检验,发现和剔除不显著的偏回 归关系对应的自变量。另外,多元线性回归关系显著并不排斥有更合理的多元非线性回归方 程的存在,这正如直线回归显著并不排斥有更合理的曲线回归方程存在一样。 对于【例 9.1】,建立的三元线性回归方程为: 1 2 5545 3 y ˆ = 7.6552 + 0.1282 x + 0.0617 x − 0. x 现在对三元线性回归关系进行显著性检验。 已计算得: SSy = 70.6617
SSR=b,SPo +b2SP2o+ b3SP3o =0.1282×14.4530+0.0617×76.2799+(-0.5545)×(-11.296) 25.6433 SSr=SS,-SSr 706617-256433 45.0184 并且4=n-1=54-1=53 d=m=3 dr=n-m-1=54-3-1=50 列出方差分析表,进行F检验: 表9-1三元线性回归关系方差分析表 变异来源 回归256433 8.5478 9.493** 离回归 45.0184 50 0.9004 总变异0.661753 由d1=3、刂2=50查F值表得Fo0=4.20,因为F>Foo35obP<0.01。表明,猪瘦肉量 ν与眼肌面积x1、胴体长x2、膘厚x3之间存在极显著的线性关系,或者眼肌面积x1、胴体 长x2、膘厚x3对瘦肉量y的综合线性影响是极显著的。 (二)偏回归系数的显著性检验当多元线性回归关系经显著性检验为显著或极显 著时,还必须对每个偏回归系数进行显著性检验,以判断每个自变量对依变量的线性影响是 显著的还是不显著的,以便从回归方程中剔除那些不显著的自变量,重新建立更为简单的多 元线性回归方程。偏回归系数b1(i=1、2、…、m)的显著性检验或某一个自变量对依变量的 线性影响的显著性检验所建立的无效假设与备择假设为: H:B1=0,HA:B1≠0 (i=1、2、…、m) 有两种完全等价的显著性检验方法—1检验与F检验 1、t检验 4=s6,d=n=m=(=12.…m (9-15) 式中S4=Sn2m·VEn为偏回归系数标准误: X(y-)2 n-m=1=√MS为离回归标准误 cn为C=A的主对角线元素 2、F检验在多元线性回归分析中,回归平方和Ss反映了所有自变量对依变量的综 合线性影响,它总是随着自变量的个数增多而有所增加,但决不会减少。因此,如果在所考 虑的所有自变量当中去掉一个自变量时,回归平方和SSR只会减少,不会增加。减少的数值 越大,说明该自变量在回归中所起的作用越大,也就是该自变量越重要。 设SSR为m个自变量x1、x2、…、xm所引起的回归平方和,SSh为去掉一个自变量x 后m1个自变量所引起的回归平方和,那么它们的差SS2-SS即为去掉自变量x;之后,回 归平方和所减少的量,称为自变量x1的偏回归平方和,记为SS,即:
168 25.6433 0.1282 114.4530 0.0617 76.2799 ( 0.5545 ) ( 11.2966 ) 1 1 0 2 2 0 3 3 0 = = + + − − 而 SSR = b SP + b SP + b SP 45.0184 70.6617 - 25.6433 = = SSr = SSy − SSR 并且 dfy=n-1=54-1=53 dfR=m=3 dfr=n-m-1=54-3-1=50 列出方差分析表,进行 F 检验: 表 9-1 三元线性回归关系方差分析表 变异来源 SS df MS F 回 归 25.6433 3 8.5478 9.493** 离回归 45.0184 50 0.9004 总变异 70.6617 53 由 df1 =3、df2 =50 查 F 值表得 F0.01(3,50)=4.20, 因为 F>F0.01(3,50), P<0.01。表明,猪瘦肉量 y 与眼肌面积 1 x 、胴体长 2 x 、膘厚 3 x 之间存在极显著的线性关系,或者眼肌面积 1 x 、胴体 长 2 x 、膘厚 3 x 对瘦肉量 y 的综合线性影响是极显著的。 (二)偏回归系数的显著性检验 当多元线性回归关系经显著性检验为显著或极显 著时,还必须对每个偏回归系数进行显著性检验,以判断每个自变量对依变量的线性影响是 显著的还是不显著的,以便从回归方程中剔除那些不显著的自变量,重新建立更为简单的多 元线性回归方程。偏回归系数 i b (i =1、2、…、m)的显著性检验或某一个自变量对依变量的 线性影响的显著性检验所建立的无效假设与备择假设为: : 0, : 0 H0 i = H A i (i =1、2、…、m) 有两种完全等价的显著性检验方法──t 检验与 F 检验。 1、t 检验 = , df = n − m −1, S b t i i b i b (i =1、2、…、m) (9-15) 式中 b y m ii S S c i = 12 为偏回归系数标准误; y m MSr n m y y S = − − − = 1 ( ˆ) 2 12 为离回归标准误; ii c 为 C=A -1 的主对角线元素。 2、F 检验 在多元线性回归分析中,回归平方和 SSR 反映了所有自变量对依变量的综 合线性影响,它总是随着自变量的个数增多而有所增加,但决不会减少。因此,如果在所考 虑的所有自变量当中去掉一个自变量时,回归平方和 SSR 只会减少,不会增加。减少的数值 越大,说明该自变量在回归中所起的作用越大,也就是该自变量越重要。 设 SSR 为 m 个自变量 1 x 、 2 x 、…、 xm 所引起的回归平方和, SS R 为去掉一个自变量 i x 后 m-1 个自变量所引起的回归平方和,那么它们的差 SS R SSR − 即为去掉自变量 i x 之后,回 归平方和所减少的量,称为自变量 i x 的偏回归平方和,记为 i SSb ,即: SSbi SSR SSR = −
可以证明 b2 c 偏回归平方和可以衡量每个自变量在回归中所起作用的大小,或者说反映了每个自变量对依 变量的影响程度的大小。值得注意的是,在一般情况下 SS≠∑Ss 这是因为m个自变量之间往往存在着不同程度的相关,使得各自变量对依变量的作用相互 影响。只有当m个自变量相互独立时,才有 SSR=∑SSb 偏回归平方和SSb是去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自 变量使回归平方和增加的部分,其自由度为1,称为偏回归自由度,记为d,即d5=1。 显然,偏回归均方MS为 b,=SSb /db,=SSb=b /c (i=1、2、…、m) (9-17) 检验各偏回归系数显著性的F检验法应用下述F统计量: F=MS4/MS,(41=1,42=n-m-1)(=1、2、…、m) (9-18) 可以将上述检验列成方差分析表的形式 对于【例9.1】,我们已经进行了三元线性回归关系的显著性检验,且结果为极显著的。 现在对三个偏回归系数分别进行显著性检验 首先计算 N23=√MS=√0.9004=0.9489 S=Sn1=09489×Y000187=00327 Sb=Sn23y2=09489×√001071=00388 =Sn23√e3=0.9489×0089707=02842 然后计算各t统计量的值: t=b/S4=0.1282/00327=3921 2=b2/S2=00617/00388=1590 t2=b/Sb=-05545/02842=-1.951 由4+m1=50查t值表得1080=2008102678。因为A|>10 所以偏回归系数b1是极显著的,而偏回归系数bz、b3都是不 显著的。 F检验法: 首先计算各个偏回归平方和: SS=b2/l1=0.12822/00187=138460 SS=b2/2=006172/00061=2278 Ss=b3/e3=(-0555089707=34275 进而计算各个偏回归均方
169 可以证明: b i ii SS b c i 2 = (i=1、2、…、m) (9-16) 偏回归平方和可以衡量每个自变量在回归中所起作用的大小,或者说反映了每个自变量对依 变量的影响程度的大小。值得注意的是,在一般情况下, = m i R bi SS SS 1 这是因为 m 个自变量之间往往存在着不同程度的相关,使得各自变量对依变量的作用相互 影响。只有当 m 个自变量相互独立时,才有 = = m i R bi SS SS 1 偏回归平方和 i SSb 是去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自 变量使回归平方和增加的部分,其自由度为 1,称为偏回归自由度,记为 i dfb ,即 = 1 bi df 。 显然,偏回归均方 i MSb 为 b b b b i ii MS SS df SS b c i i i i 2 = = = (i=1、2、…、m) (9-17) 检验各偏回归系数显著性的 F 检验法应用下述 F 统计量: ,( 1, 1) Fb = MSb MSr df1 = df2 = n−m− i i (i=1、2、…、m) (9-18) 可以将上述检验列成方差分析表的形式。 对于【例 9.1】,我们已经进行了三元线性回归关系的显著性检验,且结果为极显著的。 现在对三个偏回归系数分别进行显著性检验。 t 检验法: 首先计算 0.9489 0.089707 0.2842 0.9489 0.001671 0.0388 0.9489 0.001187 0.0327 0.9004 0.9489 123 33 123 22 123 11 123 3 2 1 = = = = = = = = = = = = S S c S S c S S c S M S b y b y b y y r 然后计算各 t 统计量的值: 0.5545 0.2842 1.951 0.0617 0.0388 1.590 0.1282 0.0327 3.921 3 3 2 2 1 1 3 2 1 = = − = − = = = = = = b b b b b b t b S t b S t b S 由 df=n-m-1=50 查 t 值表得 t 0.05(50) = 2.008,t 0.01(50) = 2.678 。因为 1b t > 0.01(50) t 、 2 b t < 0.05(50) t 、 3 b t < 0.05(50) t ,所以偏回归系数 b1 是极显著的,而偏回归系数 b2、b3 都是不 显著的。 F 检验法: 首先计算各个偏回归平方和: ( 0.5545) 0.089707 3.4275 0.0617 0.001671 2.2782 0.1282 0.001187 13.8460 2 33 2 3 2 22 2 2 2 11 2 1 3 2 1 = = − = = = = = = = SS b c SS b c SS b c b b b 进而计算各个偏回归均方:
MSA=Ss/=138460 MS, =SS 2.2782 MS=SS,/l=34275 最后计算各F的值 F=MSA/MS=13.8460/0904=15378 F=MS/M=22782/0904=2530 F5=MS/MS=34275/0.9004=3807 由4=1,d=5查F值表得F06(150=403,F0(1,50=717因为F>F0n,50),F2< F00550),F2<F0s.50),因此偏回归系数bt极显著,而偏回归系数b、b均不显著。这 与t检验的结论是一致的 也可以把上述偏回归系数显著性检验的F检验结果列成方差分析表的形式 表9-2偏回归系数显著性检验方差分析表 变异来源 d MS x1的偏回归 13.8460 13.8460 15.378* x,的偏回归 2.2782 2.2782 2.530 x3的偏回归 3.4275 3.4275 3.807 45.0184 0.9004 (三)自变量剔除与重新建立多元线性回归方程当对显著的多元线性回归方 程中各个偏回归系数进行显著性检验都为显著时,说明各个自变量对依变量的单纯影响都是 显著的。若有一个或几个偏回归系数经显著性检验为不显著时,说明其对应的自变量对依变 量的作用或影响不显著,或者说这些自变量在回归方程中是不重要的,此时应该从回归方程 中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新的多元 线性回归方程或多元线性回归关系以及各个新的偏回归系数进行显著性检验,直至多元线性 回归方程显著,并且各个偏回归系数都显著为止。此时的多元线性回归方程即为最优多元线 性回归方程( the best multiple linear regression equation) 1、自变量的剔除当经显著性检验有几个不显著的偏回归系数时,我们一次只能剔 除一个不显著的偏回归系数对应的自变量,被剔除的自变量的偏回归系数,应该是所有不显 著的偏回归系数中的F值(或丨t值、或偏回归平方和)为最小者。这是因为自变量之间 往往存在着相关性,当剔除某一个不显著的自变量之后,其对依变量的影响很大部分可以转 加到另外不显著的自变量对依变量的影响上。如果同时剔除两个以上不显著的自变量,那就 会比较多地减少回归平方和,从而影响利用回归方程进行估测的可靠程度。 2、重新进行少一个自变量的多元线性回归分析我们一次剔除一个不显著的偏 回归系数对应的自变量,不能简单地理解为只须把被剔除的自变量从多元线性回归方程中去 掉就行了,这是因为自变量间往往存在相关性,剔除一个自变量,其余自变量的偏回归系数 的数值将发生改变,回归方程的显著性检验、偏回归系数的显著性检验也都须重新进行,也 就是说应该重新进行少一个自变量的多元线性回归分析。 设依变量y与自变量x1、x2、…、xm的m元线性回归方程为 y=b+b1x1+b2x2+…+bnx 如果x,为被剔除的自变量,则m-1元线性回归方程为 b 1;-1 +b
170 1 3.4275 1 2.2782 1 13.8460 3 3 2 2 1 1 = = = = = = b b b b b b MS SS MS SS MS SS 最后计算各 F 的值: 3.4275 0.9004 3.807 2.2782 0.9004 2.530 13.8460 0.9004 15.378 3 3 2 2 1 1 = = = = = = = = = b b r b b r b b r F MS MS F MS MS F MS MS 由 df1=1,df2=50 查 F 值表得 F0.05(1,50)=4.03, F0.01(1,50)=7.17。因为 1 Fb > F0.01(1,50), 2 Fb < F0.05(1,50), 3 Fb < F0.05(1,50), 因此偏回归系数 b1 极显著,而偏回归系数 b2、b3 均不显著。这 与 t 检验的结论是一致的。 也可以把上述偏回归系数显著性检验的 F 检验结果列成方差分析表的形式: 表 9-2 偏回归系数显著性检验方差分析表 变异来源 SS df MS F 1 x 的偏回归 13.8460 1 13.8460 15.378** 2 x 的偏回归 2.2782 1 2.2782 2.530 3 x 的偏回归 3.4275 1 3.4275 3.807 离 回 归 45.0184 50 0.9004 (三)自变量剔除与重新建立多元线性回归方程 当对显著的多元线性回归方 程中各个偏回归系数进行显著性检验都为显著时,说明各个自变量对依变量的单纯影响都是 显著的。若有一个或几个偏回归系数经显著性检验为不显著时,说明其对应的自变量对依变 量的作用或影响不显著,或者说这些自变量在回归方程中是不重要的,此时应该从回归方程 中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新的多元 线性回归方程或多元线性回归关系以及各个新的偏回归系数进行显著性检验,直至多元线性 回归方程显著,并且各个偏回归系数都显著为止。此时的多元线性回归方程即为最优多元线 性回归方程(the best multiple linear regression equation)。 1、自变量的剔除 当经显著性检验有几个不显著的偏回归系数时,我们一次只能剔 除一个不显著的偏回归系数对应的自变量,被剔除的自变量的偏回归系数,应该是所有不显 著的偏回归系数中的 F 值(或∣t∣值、或偏回归平方和)为最小者。这是因为自变量之间 往往存在着相关性,当剔除某一个不显著的自变量之后,其对依变量的影响很大部分可以转 加到另外不显著的自变量对依变量的影响上。如果同时剔除两个以上不显著的自变量,那就 会比较多地减少回归平方和,从而影响利用回归方程进行估测的可靠程度。 2、重新进行少一个自变量的多元线性回归分析 我们一次剔除一个不显著的偏 回归系数对应的自变量,不能简单地理解为只须把被剔除的自变量从多元线性回归方程中去 掉就行了,这是因为自变量间往往存在相关性,剔除一个自变量,其余自变量的偏回归系数 的数值将发生改变,回归方程的显著性检验、偏回归系数的显著性检验也都须重新进行,也 就是说应该重新进行少一个自变量的多元线性回归分析。 设依变量 y 与自变量 1 x 、 2 x 、…、 xm 的 m 元线性回归方程为: m m y = b + b x + b x ++ b x 0 1 1 2 2 ˆ 如果 i x 为被剔除的自变量,则 m-1 元线性回归方程为: i i i i m m y = b + b + + b x + b x + + b x ˆ 0 1 −1 −1 +1 +1 (9-19)
我们可以应用前面介绍过的m元线性回归方程的建立方法根据实际观测数据建立m-1 元线性回归方程,但是这需要重新进行大量的计算。下面介绍利用m元线性回归方程与m-1 元线性回归方程的对应偏回归系b与b的关系以及m元正规方程组系数矩阵逆矩阵C的 元素与m-1元正规方程组系数矩阵逆矩阵C’的元素之间的关系建立m-1元线性回归方程的 方法 设关于m1元线性回归方程(9-19)中的偏回归系b、b、…、b、b、…、b的 正规方程组系数矩陈的逆矩阵为C′,其各元素为 、-1、1、…、m,j≠i;k≠i) 可以证明 (9-20) 式中c 均为m元正规方程组系数矩阵逆矩阵C的元素。这样我们就非常方 便地计算出新的m1阶逆矩阵C'的各元素,以进行m1元线性回归方程的偏回归系数b的 显著性检验 还可以证明,m-1元线性回归方程中的偏回归系数b与m元线性回归方程中偏回归系 数b之间有如下关系 、i-1、i+1 (9-21) (9-21)式说明了可以利用原来的m元线性回归方程中的偏回归系数和m元正规方程组系 数矩阵的逆矩阵C的元素cn来计算剔除一个自变量之后新的m-1元线性回归方程中的各偏 回归系数。 而新的m-1元线性回归方程中常数项b由下式计算: bo=y-bi b:,x b b′ (9-22) 于是我们利用(921)和(9-22)式可以方便地算出新的m-1元线性回归方程中的各个 偏回归系数及常数项,这样即建立了剔除一个自变量之后新的m-1元线性回归方程: j=b+b1x1+…+b1x11+b1xn1+…+bmxm 在重新建立m-1元线性回归方程之后,仍然需要对m-1元线性回归关系和偏回归系数b 进行显著性检验,方法同前,但一些统计量需要重新进行计算。对于m-1元线性回归方程 (9-19) 回归平方和SSR=b'Sfo+…+b-1SP-10+bSP1o+…+bmSP 回归自由度4fR=m 离回归平方和SS,=SS,-SS 离回归自由度dn=n-m 对偏回归系数b进行显著性检验时 b;/Sk, df=n-m y12…-1i+l…m MS为新的离回归均方 而新的偏回归平方和为:SSb=b
171 我们可以应用前面介绍过的 m 元线性回归方程的建立方法根据实际观测数据建立 m-1 元线性回归方程,但是这需要重新进行大量的计算。下面介绍利用 m 元线性回归方程与 m-1 元线性回归方程的对应偏回归系 j b 与 j b 的关系以及 m 元正规方程组系数矩阵逆矩阵 C 的 元素与 m-1 元正规方程组系数矩阵逆矩阵 C 的元素之间的关系建立 m-1 元线性回归方程的 方法。 设关于 m-1 元线性回归方程(9-19)中的偏回归系 1 b、b2 、…、 −1 bi 、 +1 bi 、…、 bm 的 正规方程组系数矩陈的逆矩阵为 C ,其各元素为: jk c ( j、k =1、2、…、i-1、i+1、…、m; j i ; k i ) 可以证明: ii ji ki jk jk c c c c = c − (9-20) 式中 jk c 、 ji c 、 ki c 、 ii c 均为 m 元正规方程组系数矩阵逆矩阵 C 的元素。这样我们就非常方 便地计算出新的 m-1 阶逆矩阵 C 的各元素,以进行 m-1 元线性回归方程的偏回归系数 j b 的 显著性检验。 还可以证明,m-1 元线性回归方程中的偏回归系数 j b 与 m 元线性回归方程中偏回归系 数 bj 之间有如下关系: i ii ij j j b c c b = b − (j=1、2、…、 i −1、i +1 、…、m) (9-21) (9-21)式说明了可以利用原来的 m 元线性回归方程中的偏回归系数和 m 元正规方程组系 数矩阵的逆矩阵 C 的元素 ij c 来计算剔除一个自变量之后新的 m-1 元线性回归方程中的各偏 回归系数。 而新的 m-1 元线性回归方程中常数项 0 b 由下式计算: i i i i m m b = y − b x − − b x − b x − − b x 0 1 1 −1 −1 +1 +1 (9-22) 于是我们利用(9-21)和(9-22)式可以方便地算出新的 m-1 元线性回归方程中的各个 偏回归系数及常数项,这样即建立了剔除一个自变量之后新的 m-1 元线性回归方程: i i i i m m y = b + b x + + b x + b x + + b x ˆ 0 1 1 −1 −1 +1 +1 在重新建立m-1元线性回归方程之后,仍然需要对m-1元线性回归关系和偏回归系数 j b 进行显著性检验,方法同前,但一些统计量需要重新进行计算。对于 m-1 元线性回归方程 (9-19): 回归平方和 SSR b1SP10 bi 1SPi 1,0 bi 1SPi 1,0 bmSPm0 = + + + + + − − + + 回归自由度 df R = m −1 离回归平方和 SSr = SSy − SSR 离回归自由度 dfr = n − m 对偏回归系数 j b 进行显著性检验时: 12 1 1 r为新的离回归均方。 12 1 1 , MS / , n m MS S S S c t b S df n m r y i i m b y i i m jj b j b j j j − = = = = − − + − + 而新的偏回归平方和为: b j jj SS b c j = 2