第二章多元线性回归模型的有偏估计 模型的参数估计依赖于观测样本,样本是随机的(至少Y是随机的),因此估计量也是随机 的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真 E(B)=B,E(G2)=G2 这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。 但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容 许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考 虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。 第一节设计矩阵列复共线与岭回归 、设计矩阵列复共线的影响 上一章最后一节讲的是设计矩阵列向量完全线性相关,′X=0的情况。实际工作中常遇 到的是,设计矩阵的列向量存在近似线性相关(称为复共线 multicollinearity),W′Ⅺ≈0。此 时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差, 重时估计量可能变得面目全非 例如我们建立二元线性回归模型 Y=X+X2+E (2.1.1) 有关资料在下面运算过程可以看到。看一看原始资料,它近似满足Y=X+Xx,应该估计出 β=0,B1=L,β2=1。可是我们调用普通最小二乘回归程序,运算结果却是 Y=00033+0.4330X1+1.566X2+E (2.1.2) 对现有数据拟合的还挺好,两条曲线几乎成了一条曲线(图2.1.1.1),F值为303744,但是代 入X=0,X2=10,预测值却为1566,这与原模型应有的预测值10相距甚远 岭回归与岭迹图计算程序,例2.1.4 例214D数据文件中,n=8,M=2 要显示原始资料吗?0=不显示,1=显示 2.0100 9900 1.0100
1 第二章 多元线性回归模型的有偏估计 模型的参数估计依赖于观测样本,样本是随机的(至少 Y 是随机的),因此估计量也是随机 的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真 值,即 2 2 ) , ( ˆ ) ˆ E( = E = 这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。 但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容 许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考 虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。 第一节 设计矩阵列复共线与岭回归 一、设计矩阵列复共线的影响 上一章最后一节讲的是设计矩阵列向量完全线性相关,|X′X|=0 的情况。实际工作中常遇 到的是,设计矩阵的列向量存在近似线性相关(称为复共线(multicollinearity)),|X′X|≈0。此 时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严 重时估计量可能变得面目全非。 例如我们建立二元线性回归模型 = + + Y X1 X2 (2.1.1) 有关资料在下面运算过程可以看到。看一看原始资料,它近似满足 Yi=X1i+X2i, 应该估计出 1 ˆ 1, ˆ 0, ˆ 0 = 1 = 2 = 。可是我们调用普通最小二乘回归程序,运算结果却是 = + + + 1 566 2 Y 0.0033 0.4330X 1. X (2.1.2) 对现有数据拟合的还挺好,两条曲线几乎成了一条曲线 (图 2.1.1.1),F 值为 303744,但是代 入 X1=0, X2=10,预测值却为 15.66,这与原模型应有的预测值 10 相距甚远。 ------------------------------------------------------------------------------------------------------------------------- 岭回归与岭迹图计算程序, 例 2.1.4 例 214.D 数据文件中, n=8, M=2 要显示原始资料吗? 0=不显示, 1=显示 2.0100 .9900 1.0100
19900 10200 4.0100 2.0300 5.9900 2.9700 3.0100 8.0100 3.9600 4.0100 3.9900 10.010 5.0400 4.9900 119900 6.0500 5.9900 正规方程系数矩阵的行列式的值是 2.12162 请输入工作参数,0=普通回归,1=岭回归,2=计算岭迹(0) 现在作线性回归显著性检验,计算tF,R统计量 请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?(0.05) 线性回归分析计算结果 样本总数8 自变量个数2 回归方程Y=b0+bl*X1+.+b2*X2 0033+ 4330X1+ 15660X2 回归系数b0,b1,b2,.b2 0033 15660 残差平方和 00回归平方和 9392 误差方差的估计 0001标准差=0098 线性回归显着性检验显著性水平:050 回归方程整体显著性F检验,H0bO=b1=.=b2=0 F统计量:3037445000F临界值F(2,5)5.786 全相关系数R 回归系数逐一显著性t检验,HO:bi=0,i=1,2 t临界值t(5)2015 回归系数b1-b2的t值 01060382 要作回归预测吗?键入0=不预测,1=要预测(1) 现在作回归预测,请输入自变量,X1-X2 X(1)= X(2)=10 线性回归预测:Y的预测值= 156633 给定X1-X2= 10.0000
2 1.9900 1.0200 .9900 4.0100 2.0300 1.9900 5.9900 2.9700 3.0100 8.0100 3.9600 4.0100 7.9900 4.0100 3.9900 10.0100 5.0400 4.9900 11.9900 6.0500 5.9900 正规方程系数矩阵的行列式的值是 2.12162 请输入工作参数, 0=普通回归, 1=岭回归, 2=计算岭迹 (0) 现在作线性回归显著性检验, 计算 t,F,R 统计量 请输入显著性水平 a, 通常取 a=0.01, 0.05, 0.10, a=? (0.05) ----------------------------------------------------- 线 性 回 归 分 析 计 算 结 果 样本总数 8 自变量个数 2 ----------------------------------------------------- 回归方程 Y = b0+b1*X1+...+b2*X2 Y = .0033 + .4330 X1 + 1.5660 X2 回归系数 b0, b1, b2, ..., b2 .0033 .4330 1.5660 ----------------------------------------------------- 残差平方和: .00 回归平方和: 93.92 误差方差的估计 : .0001 标准差 = .0098 ----------------------------------------------------- 线 性 回 归 显 着 性 检 验 显著性水平 : .050 ----------------------------------------------------- 回归方程整体显著性 F 检验, H0:b0=b1=...=b2=0 F 统计量: 303744.5000 F 临界值 F(2, 5) 5.786 全相关系数 R : 1.0000 ----------------------------------------------------- 回归系数逐一显著性 t 检验, H0:bi=0, i=1,...,2 t 临界值 t( 5) 2.015 回归系数 b1-b 2 的 t 值: .0106 .0382 ----------------------------------------------------- 要作回归预测吗? 键入 0=不预测, 1=要预测 (1) 现在作回归预测, 请输入自变量, X1-X 2 X( 1)= 0 X( 2)= 10 ----------------------------------------------------- 线 性 回 归 预 测: Y 的预测值= 15.6633 给定 X1-X 2= .0000 10.0000 -----------------------------------------------------
要作回归预测吗?键入0=不预测,1=要预测(0) 要打印拟合数据吗?0=不打印,1=打印(1) Y的观测值 Y的拟合值 差值 2.0136 0036 1.9900 1.9953 0053 4.0100 3.9987 01l3 5.9900 6.0030 0130 8.0100 7.9977 0123 7.9900 7.9881 10.0001 99 12.0035 计算结束 下面显示拟合图像 图2 42086420 原始数据 合数据 5 6 对此我们可以作如下理论分析。B作为P的估计是否优良,应该考察它与B的接近程度, 这可以用B的均方误差( Mean Square Error))来度量 MSE(B)=E(B-B2)=EkB-B)'(B-B) (2.13) 我们来计算线性模型 Y=XB+8, E(a=0, Var(a)=o-l (2.14) 的MSE(B) 由于 B-B=(XY-XY-B=(YX)-X(B+8)-B=(XY)-X's (2.1.5)
3 要作回归预测吗? 键入 0=不预测, 1=要预测 (0) 要打印拟合数据吗? 0=不打印, 1=打印 (1) Y 的观测值 Y 的拟合值 差值 2.0100 2.0136 -.0036 1.9900 1.9953 -.0053 4.0100 3.9987 .0113 5.9900 6.0030 -.0130 8.0100 7.9977 .0123 7.9900 7.9881 .0019 10.0100 10.0001 .0099 11.9900 12.0035 -.0135 计算结束。 --------------------------------------------------------------------------------- 下面显示拟合图像。 图2.1.1.1 0 2 4 6 8 1 0 1 2 1 4 1 2 3 4 5 6 7 8 原始数据 拟合数据 对此我们可以作如下理论分析。 ˆ 作为β的估计是否优良,应该考察它与β的接近程度, 这可以用 ˆ 的均方误差 (Mean Square Error)来度量: ) ˆ ) ( ˆ || ) ( ˆ ) (|| ˆ ( 2 MSE = E − = E − − (2.1.3) 我们来计算线性模型 n Y X E Var I 2 = + , ( ) = 0, ( ) = (2.1.4) 的 MSE( ˆ )。 由于 − = X X X Y − = X X X X + − = X X X −1 −1 −1 ( ) ( ) ( ) ( ) ˆ (2.1.5)
故由公式E(y4y)=(Ey)'A(Ey)+AWar(y)得 AsE(B)=ElB-B)(B-B)]=ELa gtr(X(Xx) X)otr( x)-XX)=otr(YX) 进一步,若ε~N(0,a2,则因对于对称矩阵A有 aa&&Eier 注意到 (ai E,E1E,)={0 (2.1.8) ≠J, E(EAE)2=30 (a,am+ai+a,au) [v2+2m4] 因此 Var(s'As)=E(EA8)2-E(EAa)]2=2otrA (2.1.10 于是 Var(l B-B)=vare'x(xx)-2x'el (2.1.11) 2otrX(XX-XX(XX)X=2otr(XX) 由于X′X为正定阵,其特征根皆为正数,设为1≥2≥…≥p>0,则 (XX) (2.1.12) 代入(2.1.6)与(21.1)得 MSE(B)=E(B-Bl2) Var(IB-B 2
4 故由公式 E( y Ay) = (Ey)A(Ey) + tr[AVar( y)] 得 2 2 2 2 2 1 2 ( ( ) ) (( ) ) ( ) )] [ ( ) ] ˆ ) ( ˆ ) [( ˆ ( − − − − = = = − − = tr X X X X tr X X X X tr X X MSE E E X X X X (2.1.6) 进一步,若ε~N (0,σ2 In),则因对于对称矩阵 A 有 = = = p i j p u v A aijauv i j it v , 1 , 1 2 ( ) (2.1.7) 注意到 = = = = = = i j u i j u i u i j u E i j it 0 ,或 , , 3 ( ) 4 4 (2.1.8) 故 4 2 2 , 1 2 2 1 4 , 1 4 2 1 2 4 2 ( ) 2 2 ( ) 3 ( ) trA trA a a E A a a a a a a p i j i j p i i i p i j i j i i j j i j i j j i p i i i = + + = = + + + = = = = (2.1.9) 因此 2 2 4 2 Var(A) = E(A) −[E(A)] = 2 trA (2.1.10) 于是 4 2 2 4 2 2 2 2 [ ( ) ( ) ] 2 ( ) || ) ( ) ˆ (|| − − − − = = − = tr X X X X X X X X tr X X Var Var X X X X (2.1.11) 由于 X′X 为正定阵,其特征根皆为正数,设为λ1≥λ2≥…≥λp>0,则 = − = p i i tr X X 1 1 1 ( ) (2.1.12) 代入(2.1.6)与(2.1.11)得 || ) ˆ ) (|| ˆ ( 2 MSE = E − (2.1.13) = − = p i i Var 1 2 2 4 1 || ) 2 ˆ (|| (2.1.14)
当设计矩阵X的列向量存在复共线关系时,Ap≈0,很大,就使E(B-B2)与 amr(B-B)都很大。尽管这时按平均来说,B是B的无偏估计,但具体在每一次计算 由于均方误差太大,使得β估计值偏差很大,以致前面的数值例子变得面目全非 岭回归 统计学界由AE.Hoer在1962年提出并和RW. Kennard在197年系统发展的岭回归 ( Ridge regression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估 计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。 岭回归方法主要就是在病态的(x′X中沿主对角线人为地加进正数,从而使λp稍大一些。 我们知道模型(214)中B的最小二乘估计为 (XX)XY 则B的岭估计定义为 B(k)=(rX+kI)-XY, 00。于是就要 问k究竟取多大值为好?同时我们也要知道β(k)的统计性质究竟如何。 性质1.岭估计不再是无偏估计,即E(B(k))≠B。 因为 E(B(k= EICX X+kI) Xy=(XX+kI)XxB =[(Xx+k)(xx)-)-]B=[n+k(Xx)]B 无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场 合,我们只好牺牲无偏性,以改善估计的稳定性。 性质2.岭估计是线性函数 记S=XX,Z=(H+kS)2,则因 B(k=(S+kD" Xr=(S+kDSS Xr=(+kS)B,=ZiB (2.1.17) 可见β(k)不仅是Y的线性函数,而且是原来最小二乘估计B2的线性函数 性质3.z的特征根都在(0,1)内。 设有正交阵P与P′使
5 当设计矩阵 X 的列向量存在复共线关系时,λp≈0, p 1 很大,就使 || ) ˆ (|| 2 E − 与 || ) ˆ (|| 2 Var − 都很大。尽管这时按平均来说, ˆ是 的无偏估计,但具体在每一次计算, 由于均方误差太大,使得 ˆ 估计值偏差很大,以致前面的数值例子变得面目全非。 二、岭回归 统计学界由 A. E. Hoerl 在 1962 年提出并和 R. W. Kennard 在 1970 年系统发展的岭回归 (Ridge Regression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估 计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。 岭回归方法主要就是在病态的(X′X)中沿主对角线人为地加进正数,从而使λp 稍大一些。 我们知道模型(2.1.4)中β的最小二乘估计为 = X X X Y −1 ( ) ˆ (2.1.15) 则β的岭估计定义为 = + + − k X X kI X Y k ( ) ( p ) , 0 ˆ 1 (2.1.16) 从式子直觉看出,当 k=0 时,它就是最小二乘估计;当 k→+∞, ( ) 0 ˆ k → 。于是就要 问 k 究竟取多大值为好?同时我们也要知道 ( ) ˆ k 的统计性质究竟如何。 性质 1. 岭估计不再是无偏估计,即 E( ˆ (k)) 。 因为 1 1 1 1 1 1 1 [( ) (( ) ) ] [ ( ) ] ( )) [( ) ] ( ) ˆ ( − − − − − − − = + = + = + = + X X k I X X I k X X E k E X X k I X Y X X k I X X p p p p 无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场 合,我们只好牺牲无偏性,以改善估计的稳定性。 性质 2. 岭估计是线性函数。 记 S=X′X, Zk= (I+kS-1 ) -1, 则因 L Zk L k S k I X Y S k I SS X Y I k S ˆ ˆ ( ) ( ) ( ) ( ) ˆ 1 1 1 1 1 = + = + = + = − − − − − (2.1.17) 可见 ( ) ˆ k 不仅是 Y 的线性函数,而且是原来最小二乘估计 L ˆ 的线性函数。 性质 3. Zk的特征根都在(0,1)内。 设有正交阵 P 与 P′使
PSP= A=diag(A1,…,) (2.1.18) PZkP'=P(I+kS)"P=[P(I+kS)PT=[+kA] k 11+k △(k) 故知z的特征根分别为,都在0,1)内 1.+k 性质4.岭估计是压缩估计,即‖B(k)|A‖B‖ 这是因为由性质2、性质3,有 B(k)l=l Z B l= PA(k)PB l= A(k)PB l PB l=lBll 当然,由于乙+k2=1“P并不一定互相等,这种压缩一股不是各方向上的均匀压缩 性质5.岭估计的均方误差较小,即 E‖B(k)-B‖2≤E‖B-B2 (2.1.19) 这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。 三、岭迹分析与岭参数选择 因为岭估计 B(k=(XX+kDXY (2.120) 是k的函数,所以在二维坐标平面上若以横轴为k,纵轴为β(k),它将画出一条曲线。这条 曲线我们称之为岭迹 前已指出,当k→0时,岭迹反映了最小二乘估计B2的不稳定性。当k→+∞时,岭迹将 趋于0。在k从0到+∞的变化过程中,B(k)的变化可能比较复杂 关于岭参数选择的问题,已有许多文献讨论。讨论来讨论去,并没有一个公认最优的准则
6 ( , , ) 1 1 p p PSP diag = = = (2.1.18) 则 ( ) 1 1 ( ) [ ( ) ] [ ] 1 1 1 1 1 1 1 1 1 k k k k k PZ P P I k S P P I k S P I k p p p K + + = + + = = + = + = + − − − − − − 故知 Zk的特征根分别为 k i i + ,都在(0,1)内。 性质 4. 岭估计是压缩估计,即 || ˆ ( ) || || ˆ || k 。 这是因为由性质 2、性质 3,有 2 2 2 2 2 2 || ˆ || || ˆ || || ˆ || || ( ) ˆ || || ( ) ˆ ( ) || || ˆ || k = Zk = P k P = k P P = 当然,由于 i p k i i , =1,, + 并不一定互相相等,这种压缩一般不是各方向上的均匀压缩。 性质 5. 岭估计的均方误差较小,即 2 2 || ˆ ( ) || || ˆ E || k − E − (2.1.19) 这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。 三、岭迹分析与岭参数选择 因为岭估计 k = X X + kI X Y −1 ( ) ( ) ˆ (2.1.20) 是 k 的函数,所以在二维坐标平面上若以横轴为 k,纵轴为 ( ) ˆ k ,它将画出一条曲线。这条 曲线我们称之为岭迹。 前已指出,当 k→0 时,岭迹反映了最小二乘估计 2 ˆ 的不稳定性。当 k→+∞时,岭迹将 趋于 0。在 k 从 0 到+∞的变化过程中, ( ) ˆ k 的变化可能比较复杂。 关于岭参数选择的问题,已有许多文献讨论。讨论来讨论去,并没有一个公认最优的准则
许多办法含有未知参数,又要对其进行估计。下一章我们将仔细介绍在方差分量模型的广义岭 估计中岭参数的选择办法。这里我们只简要介绍几种较有影响的方法和原则。 1.岭迹稳定 观察岭迹曲线,原则上应该选取使β(k)稳定的最小k值,同时残差平方和也不增加太多 2.均方误差小 岭估计的均方误差MSE(B(k)=E(B(k)-B1D)2还是k的函数,可以证明它能在某处 取得最小值。计算并观察MSE(B(k)),开始它将下降,到达最小值后开始上升。取它最小处 的k作为岭参数 3. k=o/ max o 假设回归模型Y=XB+c的设计阵X已中心化,即 lX=X1+k2+…+Xxp=0 并设P为正交方阵,使 P(XX)P=A=diag(u,n,, ...,2n) (2.1.21) 记a=PB,a称为典则参数,Z=XP′,则原模型变为 Y=Za+s (2.1.22) 这个形式被称为线性回归的典则形式。此时a的最小二乘估计与岭回归估计为 a=(Zz-ZY=APXr (2.1.23) a(k)=(zZ+kD"PXY=(A+kDPXy (2.1.24) 于是G2= E(n-ZNz)5,a=NGXY=(a1,…an P P 都是可以计算的,从而选取岭参数k=G2/maxa 4.k 这是 Bayes原理推出的法则。假若G2为{a}的公共先验方差,则从 Bayes原理出发,得 到的岭估计为
7 许多办法含有未知参数,又要对其进行估计。下一章我们将仔细介绍在方差分量模型的广义岭 估计中岭参数的选择办法。这里我们只简要介绍几种较有影响的方法和原则。 1. 岭迹稳定 观察岭迹曲线,原则上应该选取使 ( ) ˆ k 稳定的最小 k 值,同时残差平方和也不增加太多。 2. 均方误差小 岭估计的均方误差 2 ||) ˆ ( ) ˆ ( )) (|| ˆ MSE( k = E k − 还是 k 的函数,可以证明它能在某处 取得最小值。计算并观察 ( )) ˆ MSE( k ,开始它将下降,到达最小值后开始上升。取它最小处 的 k 作为岭参数。 3. 2 2 ˆ / max ˆ i k = 假设回归模型 Y=Xβ+ε的设计阵 X 已中心化,即 1X = X1 + X2 ++ X p = 0 并设 P 为正交方阵,使 ( ) ( , , , ) P X X P = = diag 1 2 p (2.1.21) 记α=Pβ,α称为典则参数,Z=XP′,则原模型变为 Y = Z + (2.1.22) 这个形式被称为线性回归的典则形式。此时α的最小二乘估计与岭回归估计为 = ZZ ZY = PX Y −1 −1 ˆ ( ) (2.1.23) k = ZZ + kI PX Y = + kI PX Y − ˆ( ) ( ) ( ) 1 (2.1.24) 于是 ( ) 1 ) ˆ ) ( ˆ ( 1 ˆ 2 1 I Z Z n p Y Y Y Y n p n − − − − = − = − , ˆ ( ˆ , , ˆ ) 1 1 = = − G X Y p 都是可以计算的,从而选取岭参数 2 2 ˆ / max ˆ i k = 。 4. = = p j p j j k 1 2 2 ˆ / ˆ 这是 Bayes 原理推出的法则。假若 2 ˆ 为{αi}的公共先验方差,则从 Bayes 原理出发,得 到的岭估计为 * 2 2 / = k (2.1.25)
而k=pa2/A,2正是k的一个估计量。 P 直观考虑是,当XX=时,取k=pG2/>a2可使岭估计具有最小的均方误差。于是 以G替代σ2即得这个估计量 因为编制岭回归计算程序及自动打印岭迹的程序现在并不困难,所以在现在条件下我们 建议主要采取岭迹图标分析。 四、广义岭回归 前面我们介绍了线性回归模型的典则形式 Y=Za+e 其中a=PB称为典则参数,z=XP′称为典则变量,P为正交方阵使P(XXP′=A。此时a 的岭估计为 a(k=(A+kD"PXr (2.1.27) 这里主对角线上是统一地加上相同的k。如果灵活一些,使主对角线上可以加上不同的k, =1…p,显然有可能使均方误差进一步下降。而且,原来狭义岭估计是广义岭估计的特例。 将这个思想写成式子就是 a(k)=(A+K)"PXr (2.1.28) 回到原来参数就是 B(K)=P'a(k)=P(A+K)PYY (2.129) 这里 K=di 广义岭回归确实能使估计的均方误差进一步下降,岭参数的选择更为复杂一些。这方面的 证明与讨论我们放到下一章结合方差分量模型一起进行 算例2.1.4岭回归与岭迹图 仍然采用本节开头的资料,利用本书所附软件运行如下。从岭迹资料看,当岭参数k从0 变到0.04时,就已趋于稳定了,到k=02时,已相当稳定了。我们就取k=0.20作正式的拟合 回归分析。岭迹图也打印在后面(图2141)。看回归方程系数,一个09816,一个1.0060,相 当接近真值。实际回归计算工作中如果遇到列复共线情况,就改用本节程序运行
8 而 = = p j p j j k 1 2 2 ˆ / ˆ 正是 k *的一个估计量。 5. = = p j p j k 1 2 2 ˆ / ˆ 直观考虑是,当 X′X=I 时,取 = = p j p j k 1 2 2 ˆ / 可使岭估计具有最小的均方误差。于是 以 2 2 ˆ 替代 即得这个估计量。 因为编制岭回归计算程序及自动打印岭迹的程序现在并不困难,所以在现在条件下我们 建议主要采取岭迹图标分析。 四、广义岭回归 前面我们介绍了线性回归模型的典则形式 Y = Z + (2.1.26) 其中α=Pβ称为典则参数,Z=XP′称为典则变量,P 为正交方阵使 P(X′X)P′=Λ。此时α 的岭估计为 k = + kI PX Y −1 ˆ( ) ( ) (2.1.27) 这里主对角线上是统一地加上相同的 k。如果灵活一些,使主对角线上可以加上不同的 ki, i=1,…,p, 显然有可能使均方误差进一步下降。而且,原来狭义岭估计是广义岭估计的特例。 将这个思想写成式子就是 K = + K PX Y −1 ˆ( ) ( ) (2.1.28) 回到原来参数就是 K = P K = P + K PX Y −1 ( ) ˆ( ) ( ) ˆ (2.1.29) 这里 ( , , , ) 1 2 p K = diag k k k (2.1.30) 广义岭回归确实能使估计的均方误差进一步下降,岭参数的选择更为复杂一些。这方面的 证明与讨论我们放到下一章结合方差分量模型一起进行。 算例 2.1.4 岭回归与岭迹图 仍然采用本节开头的资料,利用本书所附软件运行如下。从岭迹资料看,当岭参数 k 从 0 变到 0.04 时,就已趋于稳定了,到 k=0.2 时,已相当稳定了。我们就取 k=0.20 作正式的拟合 回归分析。岭迹图也打印在后面(图 2.1.4.1)。看回归方程系数,一个 0.9816,一个 1.0060,相 当接近真值。实际回归计算工作中如果遇到列复共线情况,就改用本节程序运行
岭回归与岭迹图计算程序,例2.1.4 正规方程系数矩阵的行列式的值是 2.12162 请输入工作参数,0=普通回归,1=岭回归,2=计算岭迹(2) 下面计算岭迹,计算40个点,需要决定岭参数起点K1与终点K40 例数据文件的岭参数K1=0,K40=0.6(下面只打印前20个点) 序号岭参数Beta0 Betal Beta2 003 8461.149 0123456789 015 057 019 9661.026 11 9701.02 025 9731.017 9761.014 977 .0309791.010 0339811.006 14 .035 9821.005 0369831.00 039 1.001 9851.000 985 999 计算指定岭参数的岭回归,请输入岭回归合适的岭参数k,k=?(0.2) 现在作线性回归显著性检验,计算tF,R统计量 请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?(0.05) 线性回归分析计算结果 样本总数8 自变量个数 回归方程Y=b0+bl*X1+.+b2*X2 0336+ 9816X1+ 10060X2 回归系数b0,b1,b2,,.b 0336 9816 1.0060 残差平方和 01回归平方和 93.21
9 ------------------------------------------------------------------------------------------------------------------------ 岭回归与岭迹图计算程序, 例 2.1.4 正规方程系数矩阵的行列式的值是 2.12162 请输入工作参数, 0=普通回归, 1=岭回归, 2=计算岭迹 (2) 下面计算岭迹, 计算 40 个点, 需要决定岭参数起点 K1 与终点 K40 例数据文件的岭参数, K1=0, K40=0.6 (下面只打印前 20 个点) 序号 岭参数 Beta0 Beta1 Beta2 0 .00 .003 .433 1.566 1 .02 .010 .846 1.149 2 .03 .013 .911 1.084 3 .05 .015 .937 1.057 4 .06 .017 .951 1.042 5 .08 .019 .960 1.032 6 .09 .021 .966 1.026 7 .11 .023 .970 1.021 8 .12 .025 .973 1.017 9 .14 .026 .976 1.014 10 .15 .028 .977 1.012 11 .17 .030 .979 1.010 12 .18 .031 .980 1.008 13 .20 .033 .981 1.006 14 .21 .035 .982 1.005 15 .23 .036 .983 1.004 16 .24 .038 .983 1.003 17 .25 .039 .984 1.002 18 .27 .041 .984 1.001 19 .29 .042 .985 1.000 20 .30 .044 .985 .999 计算指定岭参数的岭回归, 请输入岭回归合适的岭参数 k, k=? (0.2) 现在作线性回归显著性检验, 计算 t,F,R 统计量 请输入显著性水平 a, 通常取 a=0.01, 0.05, 0.10, a=? (0.05) ----------------------------------------------------- 线 性 回 归 分 析 计 算 结 果 样本总数 8 自变量个数 2 ----------------------------------------------------- 回归方程 Y = b0+b1*X1+...+b2*X2 Y = .0336 + .9816 X1 + 1.0060 X2 回归系数 b0, b1, b2, ..., b2 .0336 .9816 1.0060 ----------------------------------------------------- 残差平方和: .01 回归平方和: 93.21
误差方差的估计 0007标准差=0264 线性回归显着性检验显著性水平:050 回归方程整体显著性F检验,H0bO=b1=.=b2=0 F统计量:419142000F临界值F(2,5)5.786 全相关系数R 10000 回归系数逐一显著性t检验,HO:bi=0,i=1,.2 t临界值t(5)2015 回归系数bl-b2的t值 02420246 要作回归预测吗?键入0=不预测,1=要预测 现在作回归预测,请输入自变量,Ⅹ1-X2 X(1)=0X(2)=10 线性回归预测:Y的预测值= 10.0932 给定X1-X2= 0000 10.0000 要作回归预测吗?键入0=不预测,1=要预测(0) 要打印拟合数据吗?0=不打印,1=打印(0) 计算结束 圖2.1.4.1 1.6 1.2 14444原始数据 0.8 拟合数据 0.4 0.2 2 上面显示的是岭迹图。采用了岭回归,稳定性大为增加,同时实际回归拟合效果仍然非 常好。拟合图像和图2.1.1.1几乎一模一样,就不再列出
10 误差方差的估计 : .0007 标准差 = .0264 ----------------------------------------------------- 线 性 回 归 显 着 性 检 验 显著性水平 : .050 ----------------------------------------------------- 回归方程整体显著性 F 检验, H0:b0=b1=...=b2=0 F 统计量: 41914.2000 F 临界值 F(2, 5) 5.786 全相关系数 R : 1.0000 ----------------------------------------------------- 回归系数逐一显著性 t 检验, H0:bi=0, i=1,...,2 t 临界值 t( 5) 2.015 回归系数 b1-b 2 的 t 值: .0242 .0246 ----------------------------------------------------- 要作回归预测吗? 键入 0=不预测, 1=要预测 现在作回归预测, 请输入自变量, X1-X 2 X( 1)= 0 X( 2)= 10 ----------------------------------------------------- 线 性 回 归 预 测: Y 的预测值= 10.0932 给定 X1-X 2= .0000 10.0000 ----------------------------------------------------- 要作回归预测吗? 键入 0=不预测, 1=要预测 (0) 要打印拟合数据吗? 0=不打印, 1=打印 (0) 计算结束。 ------------------------------------------------------------------------------------------------------------------------- 圖2.1.4.1 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 1 3 5 7 9 11 13 15 17 19 原始数据 拟合数据 上面显示的是岭迹图。采用了岭回归,稳定性大为增加,同时实际回归拟合效果仍然非 常好。拟合图像和图 2.1.1.1 几乎一模一样,就不再列出