第二讲逐步回归分析 STEPWISE REGRESSION ANALYSIS 基本知识 一、适宜资料:多个自变量对一个依变量的影响呈线性回归模型的多变量资料 分析目的:建立多元线性回归方程,分析多个自变量对一个依变量的综合作用及各自变量的绝对 作用(b),从而发现规律,以利预测和控制 、分析思路:将偏回归平方和(作用)最大且显著的自变量依次(逐步)引入回归方程,同时在每 步中剔除不显著的自变量,直至既无显著的自变量可引入,又无不显著的自变量可剔除为止, 时的回归方程即为最优回归方程,即“有进有出”的思路 “最优”回归方程中只包含所有有显著影响的自变量 四、分析方法:主要采用消元变换法解相关阵,共有六步(见后)。 在多元线性回归分析时,为建立一个较为简化又能准确预测依变量的最优回归方程,通常是逐个剔除 复回归方程中经检验对y影响不显著的所有自变量。这种先全部引入,后逐个剔除的方法,也是建立最优 回归方程的一种分析法。此类分析法还很多,它们多适用于自变量个数较少,或大多数自变量对y有显著 影响的资料分析。否则,计算量将大大增加。目前较为常用的逐步回归分析法是按自变量与y影响程度的 大小,逐个地由大至小将自变量引入回归方程。而每引入一个自变量,都要对方程中的各个自变量作显著 性检验。检验时先选偏回归平方和最小的自变量进行检验,若为显著,余者皆为显著:若检验差异不显著, 即从方程中剔除,直至留在方程中的自变量均检验为显著后,再引入另一个与y影响最大的变量,并进行 显著性检验。如此反复,直至没有自变量可再被引入,而方程中所有自变量均与y存在显著的线性关系为 止 第一节逐步回归分析的基本方法 逐步回归分析的基本方法可以通过一个实例介绍其分析步骤 例1为考察舍内干球温度(x)、湿球温度(x)、露点温度(x)、相对湿度(ⅹ)及舒适度指数(x) 对罗曼蛋鸡产蛋率(y)的影响。随机抽测12个位点各64只鸡在56-67周令的平均周产蛋率如表1-1。 表1—1各变量的观察值、平均数及标准差 周令 58.4 70.9 174 12.6 9.0 7 20.1 15.7 12.5 0.2 66.4 4.3 13.0 56.7 67 13.4 10.7 x 17.2 10.3 64.4 63.4
1 第二讲 逐步回归分析 STEPWISE REGRESSION ANALYSIS 基本知识: 一、适宜资料:多个自变量对一个依变量的影响呈线性回归模型的多变量资料。 二、分析目的:建立多元线性回归方程,分析多个自变量对一个依变量的综合作用及各自变量的绝对 作用(bi),从而发现规律,以利预测和控制。 三、分析思路:将偏回归平方和(作用)最大且显著的自变量依次(逐步)引入回归方程,同时在每 步中剔除不显著的自变量,直至既无显著的自变量可引入,又无不显著的自变量可剔除为止,这 时的回归方程即为最优回归方程,即“有进有出”的思路。 “最优”:回归方程中只包含所有有显著影响的自变量。 四、分析方法:主要采用消元变换法解相关阵,共有六步(见后)。 在多元线性回归分析时,为建立一个较为简化又能准确预测依变量的最优回归方程,通常是逐个剔除 复回归方程中经检验对 y 影响不显著的所有自变量。这种先全部引入,后逐个剔除的方法,也是建立最优 回归方程的一种分析法。此类分析法还很多,它们多适用于自变量个数较少,或大多数自变量对 y 有显著 影响的资料分析。否则,计算量将大大增加。目前较为常用的逐步回归分析法是按自变量与 y 影响程度的 大小,逐个地由大至小将自变量引入回归方程。而每引入一个自变量,都要对方程中的各个自变量作显著 性检验。检验时先选偏回归平方和最小的自变量进行检验,若为显著,余者皆为显著;若检验差异不显著, 即从方程中剔除,直至留在方程中的自变量均检验为显著后,再引入另一个与 y 影响最大的变量,并进行 显著性检验。如此反复,直至没有自变量可再被引入,而方程中所有自变量均与 y 存在显著的线性关系为 止。 第一节 逐步回归分析的基本方法 逐步回归分析的基本方法可以通过一个实例介绍其分析步骤。 例 1 为考察舍内干球温度(x1)、湿球温度(x2)、露点温度(x3)、相对湿度(x4)及舒适度指数(x5) 对罗曼蛋鸡产蛋率(y)的影响。随机抽测 12 个位点各 64 只鸡在 56—67 周令的平均周产蛋率如表 1—1。 表 1—1 各变量的观察值、平均数及标准差 n=12 周令 x1,℃ x2,℃ x3,℃ x4,% x5 y,% 56 57 58 ┇ 65 66 67 22.1 17.4 20.1 ┇ 13.8 13.0 13.4 16.7 12.6 15.7 ┇ 9.4 9.4 10.7 13.3 9.0 12.5 ┇ 5.2 6.4 8.3 58.4 58.6 60.2 ┇ 58.0 60.4 71.2 68.6 62.2 66.4 ┇ 57.3 56.7 58.0 70.9 66.7 64.3 ┇ 60.5 60.5 58.9 x 17.2 13.3 10.3 64.4 62.5 63.4
4.1 3.8 4.4 0 5.6 3.8 、计算相关系数阵 计算各变量的平均数(为表1-1) 设自变量x1,x2,…,xm与依变量y存在线性关系,m元线性回归方程为: y=6o+b,x,+b2x2+.+bmx bo=y-bx-b2x2 bx (1-2) 若有n对观察值 Xk1,Xk2,…,Xkm,y 则各变量平均数 x=1∑ =1,2, m (1-3) ∑yk 本例计算结果列于表1-1 2、计算离差阵 自变量平方和ss,自变量间及其与依变量间的乘积和SP及SPy由下式算出 S=(xb-x)2=∑x32-(∑x)2/m SP=2(h-x(, )=2x k-2xk 2xk/n 1,2,…,m,i≠(1-6) Pp=2(xk-xXyk-y)=∑xyk-∑xk2yk/n (1-7) 同一元线性回归分析一样,多元线性回归方程的建立也必须使离回归平方和最小即 Q=2(-y)=∑-[+b1(x1-x)+b(x2-x2)+…+bn(xmm= ∑D-j-b(x1-x)-b2(x2-x2)-…-b(xmm)=最小 若令Y=y-y,X1=x1-x1,X2=x2-x2 Q=∑(-b1X1-b2X2-…-bnxm)=最小 要使O为最小,就必须使b、b2、…bhm的偏微分方程皆等与零,即有 2=-20-bx1-b2x2-…-bnxn)x1=0 2∑(y-bX1-b2X2-…-bnXm)x2=0 ∑(Y-bx1-b2X2 经整理可得方程组
2 s 4.1 3.8 4.4 7.0 5.6 3.8 一、计算相关系数阵 1、计算各变量的平均数(为表 1—1) 设自变量 x1,x2,…,xm与依变量 y 存在线性关系,m 元线性回归方程为: y = b0 + b1 x1 + b2 x2 ++ bm xm ˆ (1—1) m m b = y − b x − b x −− b x 0 1 2 2 (1—2) 若有 n 对观察值: xk1,xk2,…,xkm,yk, k=1,2,…,n 则各变量平均数: ki n n x x 1 = 1 i=1,2,…,m (1—3) k n n y y 1 = 1 (1—4) 本例计算结果列于表 1—1。 2、计算离差阵 自变量平方和 ssi,自变量间及其与依变量间的乘积和 SPij 及 SPiy 由下式算出: SS xki xi xki xki n n i 2 2 2 1 = ( − ) = − ( ) (1—5) SP xki xi xkj x j xki xkj xki xkj n n ij = ( − )( − ) = − 1 i、j=1,2,…,m,i≠j (1–6) SP xki xi yk y xki yk xki yk n n iy = ( − )( − ) = − 1 (1—7) 同一元线性回归分析一样,多元线性回归方程的建立也必须使离回归平方和最小即 = − = − + ( − )+ ( − )+ + ( − ) = 2 1 1 1 2 2 2 2 ( ˆ) ...... m m m Q y y y y b x x b x x b x x ( ) ( ) ( ) 2 1 1 1 2 2 2 − − − − − −...... − m m − m y y b x x b x x b x x =最小, 若令 m m m Y = y − y, X = x − x , X = x − x ,......, X = x − x 1 1 1 2 2 2 ,则有: = ( − − − − ) = 2 1 1 2 2 ...... Q Y b X b X bm X m 最小 要使 Q 为最小,就必须使 b1、b2、……bm的偏微分方程皆等与零,即有: ( ) ( ) 2 ( ...... ) 0 ...... 2 ...... 0 2 ...... 0 1 1 2 2 1 1 2 2 2 2 1 1 2 2 1 1 = − − − − − = = − − − − − = = − − − − − = m m m m m m m m Y b X b X b X X b Q Y b X b X b X X b Q Y b X b X b X X b Q 经整理可得方程组:
b∑X2+b2∑X1x2+…+bn∑X1Xm=∑Xy b∑X1X2+b2∑X2+……+bn∑X2Xm=∑X2F b∑X1Xm+b2∑X2Xm+…+bn∑X2=∑Xny 由于8=2X,5=2X3,n=2X:=2x…m一∑XXm 82m=∑X2 =∑XH……,9m=∑ 于是可得正规方程组: sS, 6,+sp12b,+.+ sp,mbm= sP, sp,,b,+Ss,b sp,mb=sp, spm,b,+spmb+.+ssm bm= sp 本例m 12算得: 1849+1676b2+1848b+720b4+251bs=1356 1676b1+1588b2+181.6b3+1253b4+2325b5=105.1 1848b+18162+2129b3+1883b4+261.3b5=103.4 (1-9) 7220b1+1253b2+1883b3+5390b4+141.2b=-77 251.b1+2325b2+2613b2+141.2b4+3449b=171.5 3、计算相关系数阵 在逐步回归中,为便于计算和表达,通常将离差阵化为相关阵,计算公式为: Ti=spi(ssis)/2 , m, y r为x1,x2,…,xm,y间的相关系数,且ri=1,于是正规方程组(1-8)可改写为 hi1p1+2p2+…+imPm=Fy r21P1 +r22P2 +.+r2m Pm = r2y (1-11) mP1+m2P2+…+mmPm=rmy 本例由公式(1-10)算得 p1+09762p2+0.9312p3+0.2287p4+0.9944p5=0.7910 0.9762P1+P2+0.9875p3+0.4283P4+0.9936p5=06615 09312p1+0.9875P2+P3+0.5557p4+0.9642P5=0.5615 0229+042832+0553+p+032753=02648 0.9944p1+0.9936p2+0.9642p3+0.3275p4+Ps5=0.7325 方程组(1-12)中的p与方程组(1-8)中b间的关系为 b:=p Sy/Sxi 式中Sx,Sy为各自变量、依变量的标准差。 、确定显著的F检验水准
3 + + + = + + + = + + + = b X X b X X b X X Y b X X b X b X X X Y b X b X X b X X X Y m m m m m m m m m 2 1 1 2 2 2 2 2 1 1 2 2 2 2 1 2 1 1 2 1 1 ...... ...... ...... ...... 由于 sp X X sp X Y sp X Y ss X ss X ss X sp X X sp X X m m y my m m m m m = = = = = = = = ,......; ,......, , ,......, ; ,......, 2 2 1 1 1 2 1 2 1 1 , 2 2 2 2 2 1 1 于是可得正规方程组: + + + = + + + = + + + = m m m m my m m y m m y sp b sp b ss b sp sp b ss b sp b sp ss b sp b sp b sp 1 1 2 2 21 1 2 2 2 2 1 1 12 2 1 1 (1—8) 本例 m=5,n=12 算得: + + + + = + + + + = − + + + + = + + + + = + + + + = 251.1 232.5 261.3 141.2 344.9 171.5 72.20 125.3 188.3 539.0 141.2 77.5 184.8 181.6 212.9 188.3 261.3 103.4 167.6 158.8 181.6 125.3 232.5 105.1 184.9 167.6 184.8 72.20 251.1 135.6 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 b b b b b b b b b b b b b b b b b b b b b b b b b (1—9) 3、计算相关系数阵 在逐步回归中,为便于计算和表达,通常将离差阵化为相关阵,计算公式为: rij=spij/(ssissj) 1/2 i、j=1,2,…,m,y (1—10) rij 为 x1,x2,…,xm,y 间的相关系数,且 rii=1,于是正规方程组(1—8)可改写为: + + + = + + + = + + + = m m mm m my m m y m m y r p r p r p r r p r p r p r r p r p r p r 1 1 2 2 21 1 22 2 2 2 11 1 12 2 1 1 (1—11) 本例由公式(1-10)算得: + + + + = + + + + = − + + + + = + + + + = + + + + = 0.9944 0.9936 0.9642 0.3275 0.7325 0.2287 0.4283 0.5557 0.3275 0.2648 0.9312 0.9875 0.5557 0.9642 0.5615 0.9762 0.9875 0.4283 0.9936 0.6615 0.9762 0.9312 0.2287 0.9944 0.7910 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 p p p p p p p p p p p p p p p p p p p p p p p p p (1—12) 方程组(1—12)中的 pi 与方程组(1—8)中 bi 间的关系为: bi=piSy/Sxi i=1,2,…,m (1—13) 式中 Sxi,Sy 为各自变量、依变量的标准差。 二、确定显著的 F 检验水准
为引入有显著作用的自变量,在进行逐步回归计算前,先要确定显著的F检验水准,作为引入或剔除 变量的标准。F检验水准要根据具体情况而定。一般地,为使回归方程中包含较多的自变量,显著水准α 不要定的太小。显著水准F的取值与自由度有关,而且在逐步回归的分析中,由于自变量引入和剔除的变 化,其剩余自由度也在不断变化,若样本的观察数为n,自变量的个数为m,则剩余自由度为nm-1。如果 n相对较大,m与n就相差较大。m个自变量被引入的个数的多少对剩余自由度的影响也就不会太大。此 时可确定一个固定的F检验值,不必每次查表更换之。但本例n=12,m=5,剩余自由度分别为6、7、8、9 10。其F值相差不太大,故可选一个共用检验的F值,作为引入和剔除自变量的标准。同时也要注意显著 水准α的选定,不能太小,如本例可选α=0.1,F0n(.6严=3.78。亦可指定F值,如本例为F=5 选取自变量 由(1-12)式得相关阵R0) 097620.93120.22870.99407910 0.976210.9875042830.99360.6615 0.93120.987510.55570.96420.5615 0.2287042830.555710.3275-2648 0.99440.99360.96420.3275 10.7325 0.7910066150.5615-26480.73251 、引入第一个自变数 (1)对5个自变量计算偏回归平方和,各自变量的偏回归平方和u为 以u值的大小作为被引入回归方程后对方差的贡献,u最大的值是对方差贡献最大的自变量。该自变 量应优先引入回归方程。本例4为: n=[10]2/=0.791091=06257 式中右上角括号内1和0分别表示第一次计算以及相关系数来自R0)阵中的元素。以下的意义均同。 以此类推又有: n2=2913/2=06151-04376 ng=r2/r=0.56151=03153 =93/18=(026481=00701 n=9/139=073251=0556 由上述计算知,4中以x为最大,故先引入x1 (2)对x引入回归方程是否显著进行F检验 其计算公式为 F=u[(1-∑u)/(n-1-1)] 1=1,2, (或F=[(rm-u)/(n-1-1)1)。本次引入K为1,L为0。 F1=u/(1-4)/(12-1-1)]=06257(1-06257)10=1672 F1>5,故差异显著,可引入回归方程。 (3)剔除或引入一个自变量x后,相关系数阵R=(r0)按下列公式进行消去变换,而成R+=(x)
4 为引入有显著作用的自变量,在进行逐步回归计算前,先要确定显著的 F 检验水准,作为引入或剔除 变量的标准。F 检验水准要根据具体情况而定。一般地,为使回归方程中包含较多的自变量,显著水准α 不要定的太小。显著水准 F 的取值与自由度有关,而且在逐步回归的分析中,由于自变量引入和剔除的变 化,其剩余自由度也在不断变化,若样本的观察数为 n,自变量的个数为 m,则剩余自由度为 n-m-1。如果 n 相对较大,m 与 n 就相差较大。m 个自变量被引入的个数的多少对剩余自由度的影响也就不会太大。此 时可确定一个固定的 F 检验值,不必每次查表更换之。但本例 n=12,m=5,剩余自由度分别为 6、7、8、9、 10。其 F 值相差不太大,故可选一个共用检验的 F 值,作为引入和剔除自变量的标准。同时也要注意显著 水准α的选定,不能太小,如本例可选α=0.1,F0.1(1,6)=3.78。亦可指定 F 值,如本例为 F=5。 三、选取自变量 由(1-12)式得相关阵 R (0): R (0)= − − 0.7910 0.6615 0.5615 .2648 0.7325 1 0.9944 0.9936 0.9642 0.3275 1 0.7325 0.2287 0.4283 0.5557 1 0.3275 .2648 0.9312 0.9875 1 0.5557 0.9642 0.5615 0.9762 1 0.9875 0.4283 0.9936 0.6615 1 0.9762 0.9312 0.2287 0.9944 0.7910 1 、引入第一个自变数 (1)对 5 个自变量计算偏回归平方和,各自变量的偏回归平方和 ui 为: i iy ii u r /r 2 = i=1,2,…,5 (1—14) 以 ui 值的大小作为被引入回归方程后对方差的贡献,ui 最大的值是对方差贡献最大的自变量。该自变 量应优先引入回归方程。本例 (1) 1 u 为: (0) 11 (0) 2 1 (1) 1 u [r ] r = y =0.79102 /1=0.6257 式中右上角括号内 1 和 0 分别表示第一次计算以及相关系数来自 R (0) 阵中的元素。以下的意义均同。 以此类推又有: (0) 22 (0) 2 2 (1) 2 u [r ] r = y =0.66152 /1=0.4376 (0) 33 (0) 2 3 (1) 3 u [r ] r = y =0.56152 /1=0.3153 (0) 44 (0) 2 4 (1) 4 u [r ] r = y =(-0.2648)2 /1=0.0701 (0) 55 (0) 2 5 (1) 5 u [r ] r = y =0.73252 /1=0.5366 由上述计算知, (1) i u 中以 x1 为最大,故先引入 x1。 (2)对 x1 引入回归方程是否显著进行 F 检验 其计算公式为: Fi=ui/[(1-∑ui)/(n-1-1)] (i=1,2,…,m) (1—15) (或 Fi=[( (1) yy r -ui)/(n-1-1)])。本次引入 K 为 1,L 为 0。 F1=u1/[(1- (1) 1 u )/(12-1-1)]=0.6257/[(1-0.6257)/10]=16.72 F1>5,故差异显著,可引入回归方程。 (3)剔除或引入一个自变量 xk 后,相关系数阵 R (L)=〔 (l) ij r 〕按下列公式进行消去变换,而成 R (L+1)=〔 (l+1) ij r 〕
= 由于引入x1,故按上式K+1,L=0时把RO)变换为R() 0.976 0.97620.0470340.0784630.2050430.022867-0.110674 R0.931200784630.1328670.3427350.038215 0.175079 0.228702050430.3427350.9476960.100081-0445702 0.99440.0228670.0382150.1000810011169-0.055040 -0.7910-0.110674-0.175079-0445702-0.054070.374319 2、引入第二个自变量L=1 (1)计算各自变量偏回归平方和,按(1-14)式算得: n2=]3/=07911=06257(已选) n2=2)1/2=101067491007034=02604 n32=r/m3=(-0175079)0-132867=02307 l2=9]3/4P=-0450)509479502096 n32=r/3=0540700169=0268 由于方程中仅含一个自变量x1。而它是前一步刚选入的,不可能立即被剔除,故无须作检验而直接引 入贡献最大的u5(2,即xs. (2)对xs引入回归方程,进行F检验,按(1-15)式算得: F5=u52(1-l40-u52)(n-2-1)=02618/(1-06257-02618)920.94 n32)(r-u2)(n2-1)=0.2618(03743-02618)920.94 Fs>5,差异显著,可把x引入回归方程。 (3)引入xs后,按(1-16)式进行消去变换,使R)变换成R2 89533563-1.069698-2.471164-8681726-89.321435604968 1.06969800002170000230.000141-20473630.000027 R24711400030.002133 0.000305 3.4215240009923 86817260.0001410.0003050.05091 89606050.038798 03214320493633.42152489606058953353-4.841078 0.00002 0.0099230.038798 4.8410780.1125619 (4)对引入x1,x进行显著性检验 先算出各偏回归平方和及剩余平方和: n3=13)/1=56049890350350(已选) n2=23292=0000000 n3=[2)2/r3=0093010466 n4=23/2=038380591=0296
5 = − = − = = + + + + r r r r r i、j k) r r r i k r r r j k r r l kk l kj l i k l ij l ij l kk l i k l i k l kk l kj l kj l kk l kk ( ( ) ( ) 1 ( 1) ( ) ( ) ( ) ( ) ( 1) ( ) ( ) ( 1) ( ) ( ) ( 1) ( ) (1—16) 由于引入 x1,故按上式 K+1,L=0 时把 R (0)变换为 R (1)。 R (1)= − − − − − − − − − − − − − 0.7910 0.110674 0.175079 0.445702 0.05407 0.374319 0.9944 0.022867 0.038215 0.100081 0.011169 0.055040 0.2287 0.205043 0.342735 0.947696 0.100081 0.445702 0.9312 0.078463 0.132867 0.342735 0.038215 0.175079 0.9762 0.047034 0.078463 0.205043 0.022867 0.110674 1 0.9762 0.9312 0.2287 0.9944 0.7910 2、引入第二个自变量 L=1 (1)计算各自变量偏回归平方和,按(1—14)式算得: (1) 11 (1) 2 1 (2) 1 u [r ] r = y =0.7912 /1=0.6257 (已选) (1) 22 (1) 2 2 (2) 2 u [r ] r = y =(-0.110674)2 /0.047034=0.2604 (1) 33 (1) 2 3 (2) 3 u [r ] r = y =(-0.175079)2 /0.132867=0.2307 (1) 44 (1) 2 4 (2) 4 u [r ] r = y =(-0.445702)2 /0.947696=0.2096 (1) 55 (1) 2 5 (2) 5 u [r ] r = y =(-0.05407)2 /0.011169=0.2618 由于方程中仅含一个自变量 x1。而它是前一步刚选入的,不可能立即被剔除,故无须作检验而直接引 入贡献最大的 u5 (2),即 x5。 (2)对 x5 引入回归方程,进行 F 检验,按(1—15)式算得: F5= (2) 5 u /[(1- (1) 1 u - (2) 5 u )/(n-2-1)]=0.2618/[(1-0.6257-0.2618)/9]=20.94 = (2) 5 u /[( (1) yy r - (2) 5 u )/(n-2-1)]=0.2618/[(0.3743-0.2618)/9]=20.94 F5>5,差异显著,可把 x5 引入回归方程。 (3)引入 x5 后,按(1—16)式进行消去变换,使 R (1)变换成 R (2)。 R (2)= − − − − − − − − − − 5.604968 0.000027 0.009923 0.038798 4.841078 0.1125619 89.032143 2.049363 3.421524 8.960605 89.53353 4.841078 8.681726 0.000141 0.000305 0.05091 8.960605 0.038798 2.471164 0.000223 0.002133 0.000305 3.421524 0.009923 1.069698 0.000217 0.000223 0.000141 2.047363 0.000027 89.533563 1.069698 2.471164 8.681726 89.32143 5.604968 (4)对引入 x1,x5 进行显著性检验 先算出各偏回归平方和及剩余平方和: (2) 11 (2) 2 1 (3) 1 u [r ] r = y =5.604968 2 /89.533563=0.3509 (已选) (2) 22 (2) 2 2 (3) 2 u [r ] r = y =0.0000272 /0.000217=0.000003 (2) 33 (2) 2 3 (3) 3 u [r ] r = y =0.0099232 /0.002113=0.0466 (2) 44 (2) 2 4 (4) 4 u [r ] r = y =0.0387982 /0.05091=0.0296
n3=32/3y=(-484107889535302618(已选) 剩余平方和O2)=r2)=0.125 F=3)/Q(2n-2-1)=02618(0.1159)=20.94 u3)>u3),∴F1>Fs>5,差异均显著,x1、xs不被剔除 3、引入第三个自变量L=2,除x1,x外,数u3{3最大,故引入x3 (1)对x引入回归方程是否显著进行F检验 F3=u3)1(Q2)-a3)(n-3-1)=04660250.046/8}=568 F3>5,差异显著,可把x引入回归方程 (2)引入x3后,应对R2进行消去变换,即将R(2)变换为R3)。变换后的R3)如下: 2979.57196-0.8088991169.50497-8.325026-4090.5215017.209967 0.1055370000109-17294058 0.001020 1169.504970.105537 473.2607670.144345-1619273071 4.696167 8.3250260.000109 0.144345.050866-84667270.037366 4090.52128172.940585-16192730784667275629.90709-20.90913 17.209967-00001020 4696167003736620.90913 0.0659618 4、引入第四个自变量L=3 (1)计算各偏回归平方程和 n4+=2)/=1720999795719=094(已选) n2=2)2/r2=(-00200000 2/3=4696167473-260767=0066(已选 l4=[r)2/r=037360886074 n=31/3=-209091315629909-0077(已选) 剩余平方和Q3=0.06596 (2)剔除引入方程中差异不显著的自变量,已引入的x1,x,x中偏回归平方和最小的为U34=0.0466, F3=u4(Q3)/n-3-1)=0.04660668=565 F3>5,所以ⅹ3不被剔除,偏回归平方和更大的x1,x更不会被剔除,故方程中无剔除的自变量。 (3)引入新变量未引入的x2,x4中n4>an2),故引入x4,其检验结果为 F4=2(Q3)-n4)/n-4-1)=0274106602717y=497 由于F4<5,所以x不显著,不能引入方程。至此,回归方程既无变量可剔除,又无新变量可再引入 逐步回归的计算可告结束 第二节建立最优回归方程 、计算偏回归系数 在逐步回归分析中采用的是经过标准化的量,即由相关系数求得的解p为标准偏回归系数,亦称通径 系数,偏回归系数b可由公式(1-13)算得,即:
6 (2) 55 (2) 2 5 (3) 5 u [r ] r = y =(-4.841078)2 /89.53353=0.2618 (已选) 剩余平方和 0.1125 (2) (2) Q = ryy = /[ /( 2 1)] 0.2618 /(0.1125 / 9) 20.94 (3) (2) F = u5 Q n − − = = ∵ (3) 5 (3) 1 u u ,∴F1>F5>5,差异均显著,x1、x5 不被剔除。 3、引入第三个自变量 L=2,除 x1 ,x5 外,数 u3 (3)最大,故引入 x3。 (1)对 x3 引入回归方程是否显著进行 F 检验 F3= (3) 3 u /[(Q(2) - (3) 3 u )/(n-3-1)]=0.0466/[(0.1125-0.0466)/8]=5.68 F3>5,差异显著,可把 x3 引入回归方程。 (2)引入 x3 后,应对 R (2)进行消去变换,即将 R (2)变换为 R (3)。变换后的 R (3)如下: R (3)= − − − − − − − − − − − − − − − 17.209967 0.0001020 4.696167 0.037366 20.90913 0.0659618 4090 .52128 172.940585 1619 .273071 8.466727 5629 .90709 20.90913 8.325026 0.000109 0.144345 0.050866 8.466727 0.037366 1169 .50497 0.105537 473.260767 0.144345 1619 .273071 4.696167 0.808899 0.000193 0.105537 0.000109 172.940585 0.001020 2979 .57196 0.808899 1169 .50497 8.325026 4090 .52150 17.209967 4、引入第四个自变量 L=3 (1)计算各偏回归平方程和 (3) 11 (3) 2 1 (4) 1 u [r ] r = y =17.209972 /2979.57196=0.0994 (已选) (3) 22 (3) 2 2 (4) 2 u [r ] r = y =(-0.001020)2 /0.000193=0.00005 (3) 33 (3) 2 3 (4) 3 u [r ] r = y =4.6961672 /473.260767=0.0466 (已选) (3) 44 (3) 2 4 (4) 4 u [r ] r = y =0.0373662 /0.050866=0.0274 (3) 55 (3) 2 5 (4) 5 u [r ] r = y =(-20.90913)2 /5629.90709=0.0777 (已选) 剩余平方和 Q(3)=0.06596 (2) 剔除引入方程中差异不显著的自变量,已引入的 x1,x3,x5 中偏回归平方和最小的为 U3 (4)=0.0466, F3= (4) 3 u /[( Q(3) /(n-3-1)]=0.0466/(0.066/8)=5.65 F3>5,所以 x3 不被剔除 ,偏回归平方和更大的 x1 ,x5 更不会被剔除,故方程中无剔除的自变量。 (3)引入新变量 未引入的 x2 ,x4 中 (4) u4 > (4) 2 u ,故引入 x4 ,其检验结果为: F4= (4) 2 u /[( Q(3) - (4) 2 u )/(n-4-1)=0.0274/[(0.0666-0.0274)/7]=4.97 由于 F4<5,所以 x4 不显著,不能引入方程。至此,回归方程既无变量可剔除,又无新变量可再引入。 逐步回归的计算可告结束。 第二节 建立最优回归方程 一、计算偏回归系数 在逐步回归分析中采用的是经过标准化的量,即由相关系数求得的解 pi 为标准偏回归系数,亦称通径 系数,偏回归系数 bi 可由公式(1—13)算得,即:
S b=P-=P 本例中p=r,p=r》,p=,S和Sx已列在表1-1中。所以 b=pSy/Sx1=17.21×3.841=15.95 b=p3SySx=4.6962×38/44-4.06 bs= psSy/Sx55=(-20.9091)×3.8/56=-1419 b=y-bx1-b3x3-b5x5=63.4-1595×17.2-406×10.3+1419×62.5=634.17 最优回归方程为 y=634.117+15.95X+406X-14.19X5 计算复相关系数及回归方程估计标准误 复相关系数: R=-r④=√-06596=0966 由df=12-3-1=8,查R显著值表R01=0.86,复相关系数极显著,表明x,x3,xs与y之间存在 极为明显的线性回归关系,该方程可用于估测y。 回归方程估计标准误 S5006596×15884 Vn-3-1-Vn-3-1 12-3-1 回归方程估测误差仅1.14%,故本例所建立的最优回归方程用于预测平均周产蛋率的可靠性极高 三、总体平均数μy的置信区间和总体观察值y的预测区间 当x1,x2,…,xm固定时,p(p为引入回归方程的自变量个数)元线性回归估计值j,标准误S;为: +22Ci x rj 观察值y的标准误Sy为 Cxix (1-18) Sye为方程估计标准误,n为样本含量,i,j=1,2,…,p,C为(1-8)式系数矩阵的逆矩阵A中 第i行、第j列的元素(高斯乘数),x、x为第i或第j个自变量的离差即(x-x),(x1-x)。A1中的元素 C1与R1中的元素rP的关系为: (1-19) (1-20) 于是,总体平均数μy(1-a)置信区间的上、下限为
7 i i x y i x y i i SS SS P S S b = P = 本例中 p1= (3) 1y r ,p3= (3) 3y r ,p5= (3) 5 y r ,Sy 和 Sxi 已列在表 1—1 中。所以 b1= p1Sy/Sx1=17.21×3.8/4.1=15.95 b3= p3Sy/Sx3=4.6962×3.8/4.4=4.06 b5= p5Sy/Sx5=(-20.9091)×3.8/5.6=-14.19 0 1 1 3 3 5 5 b = y − b x − b x − b x =63.4―15.95×17.2-4.06×10.3+14.19×62.5=634.117 最优回归方程为: y ˆ =634.117+15.95x1+4.06x3-14.19x5 二、计算复相关系数及回归方程估计标准误 复相关系数: (3) ** R = 1− ryy = 1− 0.06596 = 0.966 由 df=12-3-1=8, 查 R 显著值表 R0.01=0.86,复相关系数极显著,表明 x1 ,x3, x5与 y 之间存在 极为明显的线性回归关系,该方程可用于估测 y。 回归方程估计标准误: 1.14 12 3 1 0.06596 158.84 3 1 3 1 (3) (3) = − − = − − = − − = n r SS n Q SS S y yy y ye 回归方程估测误差仅 1.14%,故本例所建立的最优回归方程用于预测平均周产蛋率的可靠性极高。 三、总体平均数μy 的置信区间和总体观察值 yi 的预测区间 当 x1,x2,…,xm固定时,p(p 为引入回归方程的自变量个数)元线性回归估计值 i y ˆ 标准误 i y S ˆ 为: ij i j p p y ye C x x n S S i 1 1 ˆ 1 = + (1—17) 观察值 yi 的标准误 yi S 为: ij i j p p y ye C x x n S S i 1 1 1 = 1+ + (1—18) Sye 为方程估计标准误,n 为样本含量,i,j=1,2,…,p,Cij 为(1—8)式系数矩阵的逆矩阵 A-1 中 第 i 行、第 j 列的元素(高斯乘数),xi、xj 为第 i 或第 j 个自变量的离差即 ( ),( ) i i j j x − x x − x 。A-1 中的元素 Cij 与 R -1 中的元素 ( p) ij r 的关系为: i p ii ii C r / ss ( ) = (1—19) ij ij p ij ij C r r / sp ( ) (0) = (1—20) 于是,总体平均数μy(1-α)置信区间的上、下限为;
U=y, +los;,l=y,-tas (1-21) 观察值y(1-a)置信区间的上、下限为 U=y, +tas,,, l=y 式中t对应的自由度为(np-1) 本例中,当x=2.1,x3=13.3,x5=68.8时,μy和y95%的置信区间可计算如下: x 688-62.5=6.1 由(1-19)、(1-20)可得 Cu=rB) 979.5796/1849=16.114 C3=13/s3=47326077/212.9=2229 Cs=5/s5=5609.9071/3449=16.3233 nxr13/p13=09312×169.505/1848=5893 )/251.1=-16.99 3=r5×r153/935=0.9642×(-16192731)/261.3=-5975 由(1-17)、(1-18)可得 +c 35x3x5+C31x3x xsl+C53xsx =16145×492+229×32+16.3266×6.12+2(5893×49×3)-2(6.199×49×6.1) 2(5975×3×6.1)=20.5043 S;=114×y+20.043=5726(%) Sn,=14×y++205043=52097%) 由最优回归方程算得依变量的估计值为: j=634.117+15.95×22.1+4.06×133-1419×688=67.176(%) 查t值表,df=12-3-1=8,ta.0s=2.306,依(1-21)、(1-22)有: 总体平均数μy95%置信的上、下限为: U=67.176+2.306×5.1726=79.10(%) L=67.176-2.306×5.1726=55.25(%) 观察值y置信限分别为 U=67.176+2.306×5.2967=79.39(%) L=67.176-2.306×5.2967=54.96(%) 计算结果表明:当舍内温度为22.1℃、露点温度为13.3℃、舒适度为68.8时,总体平均的周产蛋率 在55.25~79.10%之间的置信度为95%:个别位点鸡的周产蛋率可在54.96~69.39%之间,其置信度为95%
8 U= i i y y t S ˆ ˆ + ,L= i i y y t S ˆ ˆ − (1—21) 观察值 yi(1-α)置信区间的上、下限为; U= i i S y y t + ˆ ,L= i i S y y t − ˆ (1—22) 式中 tα对应的自由度为(n-p-1)。 本例中,当 x1=22.1,x3=13.3,x5=68.8 时,μy 和 yi95%的置信区间可计算如下: x1 = x1 − x1 = 22.1−17.2 = 4.9 x3 = x3 − x3 =13.3 −10.3 = 3.0 x5 = x5 − x5 = 68.8 − 62.5 = 6.1 由(1—19)、(1—20)可得 / 0.9642 ( 1619 .2731) / 261.3 5.975 / 0.9944 ( 4090 .5215 ) / 251.1 16.199 / 0.9312 1169 .505 /184.8 5.893 / 5629 .9071 / 344.9 16.3233 / 473.26077 / 212.9 2.2229 / 2979 .5796 /184.9 16.1145 3 5 (3) 3 5 (0) 3 5 3 5 1 5 (3) 1 5 (0) 1 5 1 5 1 3 (3) 1 3 (0) 1 3 1 3 5 (3) 5 5 5 5 3 (3) 3 3 3 3 1 (3) 1 1 1 1 = = − = − = = − = − = = = = = = = = = = = = C r r sp C r r sp C r r sp C r ss C r ss C r ss 由(1—17)、(1—18)可得 2(5.975 3 6.1) 20.5043 16.1145 4.9 2.2229 3 16.3266 6.1 2(5.893 4.9 3) 2(16.199 4.9 6.1) 2 2 2 1 3 1 3 1 5 1 5 3 5 3 5 3 1 3 1 5 1 5 1 5 3 5 3 2 5 5 5 5 2 3 3 3 3 2 1 1 1 1 3 1 3 1 − = = + + + − C x x = C x +C x +C x +C x x +C x x +C x x +C x x +C x x +C x x i j i j 1.14 1 20.5043 5.2967 (%) 1.14 20.5043 5.1726 (%) 12 1 12 1 ˆ = + + = = + = i i y y S S 由最优回归方程算得依变量的估计值为: y ˆ = 634.117 +15.95 22.1+ 4.0613.3 −14.19 68.8 = 67.176(%) 查 t 值表,df=12-3-1=8,t0.05=2.306,依(1—21)、(1—22)有: 总体平均数μy95%置信的上、下限为: U=67.176+2.306×5.1726=79.10(%) L=67.176-2.306×5.1726=55.25(%) 观察值 yi 置信限分别为: U=67.176+2.306×5.2967=79.39(%) L=67.176-2.306×5.2967=54.96(%) 计算结果表明:当舍内温度为 22.1℃、露点温度为 13.3℃、舒适度为 68.8 时,总体平均的周产蛋率 在 55.25~79.10%之间的置信度为 95%;个别位点鸡的周产蛋率可在 54.96~69.39%之间,其置信度为 95%
习题 1.1统计12年间1月份雨量(x1,mm)3月份上旬平均温度(x2,℃)3月份中旬平均温度(x,℃) 2月份雨量(x,mm)和第一代三化螟蛾高峰期(y,以4月30日为0)的结果如下表,试用逐步回归法 预报第一代三化螟蛾高峰期的最优回归方程,若某年ⅹ1=10,ⅹ2=8,x=l0时,试求出第一代三化螟蛾高峰 期总体平均数μ395%的置信区间 47.5 l1.1 9030.617 42.9 9.532.32 6.7 l1.1 374 8921.523 67.0 6.8 5.09.583 44.4 10.0 l1.1 24.1 8.9 6.1 9.5 24.9 39.0 10810.227 3874223 x=32.6756875876742.1582375 S=238162.2352.22522.7123.596 算得二级数据为:s=6239.1025,sp2=822425,spn=22.38,sp=-635925,spy=-522875,s=549625 Sp2=31.85,sp24=351.0025,spy=56875,ss=544467,sp34=310.4667,spy=3.500,ss=5674.5692 spy=178475,ss=142.25 简单相关系数为:r2=0.14044,r3=0.0384,r=0.01069,ry=20.55502,m3=0.5822,r24=062851, y=0.64322,r34=0.55855,my=0.03977,r4y=0.19865 (答案:j=27.759-0.067587X1-1493180x2+0965539X,24.79±2306×06985=23.18~2640即5月24至 27日。) 1.2依据例2.2的资料,试列出估计瘦肉量的最优回归方程 (答案:j=1.29135+1.80384x2+1.69439X+0.14463x4,R2=0.8516。)
9 习题 1.1 统计 12 年间 1 月份雨量(x1,mm)、3 月份上旬平均温度(x2,℃)、3 月份中旬平均温度(x3,℃)、 2 月份雨量(x4,mm)和第一代三化螟蛾高峰期(y,以 4 月 30 日为 0)的结果如下表,试用逐步回归法 预报第一代三化螟蛾高峰期的最优回归方程,若某年 x1=10,x2=8,x3=10 时,试求出第一代三化螟蛾高峰 期总体平均数μy95%的置信区间。 x1 x2 x3 x4 y 47.5 42.9 20.2 0.2 67.0 5.5 44.4 8.9 39.0 74.2 15.9 26.4 11.1 8.1 6.7 8.5 6.8 5.0 10.0 6.1 7.1 4.4 4.6 4.1 9.0 9.5 11.1 8.9 9.4 9.5 11.1 9.5 10.8 6.8 3.8 5.8 30.6 32.3 37.4 21.5 61.6 83.5 24.1 24.9 10.2 54.9 74.2 50.7 17 21 26 23 20 30 22 26 27 23 23 27 x =32.675 6.875 8.767 42.158 23.75 S=23.816 2.235 2.225 22.712 3.596 算得二级数据为:ss1=6239.1025,sp12=82.2425,sp13=22.38,sp14=-63.5925,sp1y=-522.875,ss2=54.9625, sp23=31.85,sp24=-351.0025,sp2y=-56.875,ss3=54.4467,sp34=310.4667,sp3y=3.500,ss4=5674.5692, sp4y=178.475,ssy=142.25。 简单相关系数为:r12=0.14044,r13=0.0384,r14=-0.01069,r1y=-0.55502,r23=0.58222,r24=-0.62851, r2y=-0.64322,r34=-0.55855,r3y=0.03977,r4y=0.19865。 (答案: y ˆ =27.7594-0.067587x1-1.493180x2+0.965539x3,24.79±2.306×0.6985=23.18~26.40 即 5 月 24 至 27 日。) 1.2 依据例 2.2 的资料,试列出估计瘦肉量的最优回归方程。 (答案: y ˆ =-1.29135+1.80384x2+1.69439x3+0.14463x4 , R 2=0.8516。)