第28卷第4期 作物学报 Vol.28.No. 2002年7月433~438页 ACTA AGRONOMICA SINICA pp.433~438July,2002 脊回归技术及其应用 莫惠栋 (扬州大学数量遗传研究室,江苏扬州225009) 摘要介绍了脊回归的统计学原理和方法,闸述了脊回归和常规回归的差别和关系。提出评价脊回归的得和失的统 计指标。较详细地讨论了脊回归在作物科学和数量遗传学领域的可能适用场合,并用一个有关小麦育种中个体选择的 实例解释了脊回归的具体应用和计算程序。 关键词脊迹:脊回归:病态矩阵,有偏估计 中图分类号:Q332:S11+4 文献标识码:A Ridge Regression Procedure and Its Application MO Hui-Dong Abstract The statistical theorem and method of ridge regression were introduced,and the difference and relationship between ridge regression and traditional regression were expounded.The statistical criteria for evaluating the gain and loss of ridge regression were presented.The applicable occasions of ridge regres sion in the field of crop science and quantitative genetics were suggested,and an example concerned with individual selection in wheat breeding was used to explain the application and calculating procedure of ridge regression. Key words Ridge trace:Ridge regression:I1l-conditioned matrix:Biased estimation 脊回归是在自变数信息矩阵的主对角线元素上 b=(XX )IX'Y (2) 人为地加入一个非负因子0,从而使回归系数的估 式(1)和(2)中的X为自变数的nX阶矩连:X'为 计稍有偏差、而估计的稳定性却可能明显提高的 X的转置(XX)为对称的mXm阶方阵: 种回归分析方法。近年来,它在工业生产、工程技 (XX)1为(XX)的逆阵:Y为依变数的nX1向 术、环境保护等方面已有较多应用-]。本文试图 量;b为待解元、即回归系数的m×1向量。这里的 将这种方法引入生物学领域,特别是作物科学和数 n为观察值组数,m为待估计的回归系数数。在生 量遗传学领域,并结合我们的工作提出一些评价标 物学研究中,往往义特称上述的X为模型矩阵或设 准和应用注意,供有关研究者参考。文中统计符 计矩阵,X'X为信息矩阵。 号,如无说明,均参照文献[4]。 如果我们在(XX)的主对角线元素上加入一个 1脊回归的统计基础 非负因子,即令: b()=(X'X+l.)-1X'Y (3) 1.1脊迹的概念 (I为m阶单位矩阵),那么b(0)和b有何不同呢? 线性回归分析的正规方程组可以写成 最先研究这一问题的是Hoerl和Kennardt.)以及 X'XbX'Y. (1) MarquardtCro],他们的基本结果是:b(0)是0的非 其最小平方解则为: 线性函数:0=0时,b(0)=b同为最小平方估计数 导帅 研究方向:生物统计学和数量遗传学 日期):2
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 第 "#卷 第 $期 作 物 学 报 %&’("#)*&($ "++"年 ,月 $--.$-#页 /01/ /234*4560/ 76*60/ 88($--.$-# 9:’;)"++" 脊回归技术及其应用++?@ 摘 要 介绍了脊回归的统计学原理和方法A阐述了脊回归和常规回归的差别和关系B提出评价脊回归的得和失的统 计指标B较详细地讨论了脊回归在作物科学和数量遗传学领域的可能适用场合)并用一个有关小麦育种中个体选择的 实例解释了脊回归的具体应用和计算程序B 关键词 脊迹A脊回归A病态矩阵A有偏估计 中图分类号CD--"A7EEF $ 文献标识码C/ GHIJKGKJLKMMHNOPLNQKIRLKSOITUMVWWXHQSUHNO 54Y:Z[\&]^ =_‘abc‘dbcebfgh‘idjd‘djklmlildjno)p‘iqrsbhtijklcojde)p‘iqrsbh"">++?)usji‘@ VvMULSQU 1wxyz{zZyzZ|{’zwx&}x~ {]!~xzw&!&"}Z!^x}x^}xyyZ&]#x}xZ]z}&!:|x!){]!zwx!Z""x}x]|x{]! }x’{zZ&]ywZ8$xz#xx]}Z!^x}x^}xyyZ&]{]!z}{!ZzZ&]{’}x^}xyyZ&]#x}xx%8&:]!x!(1wxyz{zZyzZ|{’|}Zzx}Z{"&} x&{’:{zZ]^zwx^{Z]{]!’&yy&"}Z!^x}x^}xyyZ&]#x}x8}xyx]zx!(1wx{88’Z|{$’x&||{yZ&]y&"}Z!^x}x^}xy[ yZ&]Z]zwx"Zx’!&"|}&8y|Zx]|x{]!’:{]zZz{zZ&x^x]xzZ|y#x}xy:^^xyzx!){]!{]x%{~8’x|&]|x}]x!#Zzw Z]!Z&Z!:{’yx’x|zZ&]Z]#wx{z$}xx!Z]^#{y:yx!z&x%8’{Z]zwx{88’Z|{zZ&]{]!|{’|:’{zZ]^8}&|x!:}x&"}Z!^x }x^}xyyZ&]( (K)*NLIM 3Z!^xz}{|xA3Z!^x}x^}xyyZ&]A6EE[|&]!ZzZ&]x!~{z}Z%A+Z{yx!xyzZ~{zZ&] 脊回归是在自变数信息矩阵的主对角线元素上 人为地加入一个非负因子 ,)从而使回归系数的估 计稍有偏差-而估计的稳定性却可能明显提高的一 种回归分析方法B近年来)它在工业生产-工程技 术-环境保护等方面已有较多应用.E.-/ B本文试图 将这种方法引入生物学领域)特别是作物科学和数 量遗传学领域)并结合我们的工作提出一些评价标 准和应用注意)供有关研究者参考B文中统计符 号)如无说明)均参照文献.$/B 0 脊回归的统计基础 0(0 脊迹的概念 线性回归分析的正规方程组可以写成C 12134 125) =E@ 其最小平方解则为C 34 =121@6E 125( ="@ 式=E@和="@中的 1为自变数的 i78阶矩阵A12为 1 的 转 置A=121 @为 对 称 的 87 8 阶 方 阵A =121@6E为=121 @的逆阵A5为依变数的 i7E向 量A3为待解元-即回归系数的 87E向量B这里的 i为观察值组数)8为待估计的回归系数数B在生 物学研究中)往往又特称上述的 1为模型矩阵或设 计矩阵)121为信息矩阵.>.,/ B 如果我们在=121@的主对角线元素上加入一个 非负因子 ,)即令C 3=,@4 =121F ,98@6E 125 =-@ =98 为 8阶单位矩阵@)那么 3=,@和 3有何不同呢: 最先研究这一问题的是 Y&x}’和 ;x]]{}!.#)?/以及 5{}’:{}!z .E+/ )他们的基本结果是C3=,@是 ,的非 线性函数A,4+时)3=,@43同为最小平方估计数) < 基金项目C国家自然科学基金资助项目=-?<,+-?E@ 作者简介C莫惠栋=E?-$[@)男)浙江温岭人)教授-博士生导师)研究方向C生物统计学和数量遗传学 3x|xZ&x!&]=收稿日期@C"++E[+?[E+)/||x8zx!&]=接受日期@C"++E[EE["" 万方数据
434 作 学 28卷 即式(2)和式(3)相等:而后,随若0的增大,b(0) 其c11(0)=(X'X+1)-(本例是一元回归,故只有 中各元素b,()的绝对值均趋于不断变小[由于自变 个主对角元素c,并且1=1),b(0)=(XX十 数间的相关,个别b()可能有小范围的向上波动 )-X'Y,回归方程Y(0)=y+b(0)X,离回归平方 或改变正、负号[],它们对,的偏差也将愈来愈 和Q(0)=∑[Y一Y(0)]?和回归系数的误差平方和 大如果0o∞,则b(0)→0。b(0)随的改变而变 c1()Q(0)可列于表1:其脊迹则示于图1 化的轨迹,就称为脊迹,参见图1。脊迹图表明,0 在表1中,0=0行的统计数为无偏(最小平方) 估计,其余行均为有偏估计。可以直观地看出,随 着0增大 G(0)和b(0)均不断减小,而Q(0)则不 断增大。但是c,(0)和Q(0)的积却不是单调地上升 或下降,例如0=0.1和0.2时的c1(0)Q(0)小于 0=0时的对应值,而0≥0.3时的c1(0)Q(0)大于 0=O时的对应值。所以脊回归分析的关键是要确定 c.(0)和Q(0)达到合理平衡的一个0值。该0值应 当,①是尽可能小的数②可保证,()O(A)明品地 小于c,Q。前者使回归系数的估计只产生有限偏差 04 06 08■ 后者使估计的稳定性明显提高。 Fig 1 表1不同日值的回归系数b()、回归方程Y(9)和 b(0)as o increase 离同归平方和O(8) 的加入使b()成为回归系数的有偏(偏低)估计数。 Table 1 1.2日的效应 Y(e)and residual SS Q(e)depending one 实际上,合的加入会影响到回归分析中的许多 (Q 统计数[下文在这些统计数之后均加标(),以与最 (1.0+0.0)-1-1 87540+875X11.375.437 小平方估计、即=0的统计数相区别],而不仅是 .0+02)-1-0833 70 11.307 上述的b()。其中最重要的还有以下两项: 0.3 (1.0+0.3)-1-0.769 6.73 40+6.73 15.5179 11.936 1.0+0.4)-1-0.714 40+6.25 1)随着0的增大,离回归平方和Q(0) 17.6875 12634 1.0 L.0+L0-1-0.5 [Y-Y(0)]子和离回归均方s2(0)=Q(0)/(n-m 43840+4.38X30.578115.2890 1)都将不断增大,亦即必有Q(0)>Q和2(0)>2。 这是随着0增大b(日)的偏差也愈来愈大的直接反 2脊回归程序 应。 2)随着6的增大,(X'X+0)的逆阵、即(X'X 2.1模型变换 +01)-1的主对角元素c(0)(i=1,2,…,m)将不 通常的线性回归模型为: 断减小,亦即必有c(0)<c。这也是0的直接效 Y,=B+BX+X +…+BX+e (4) 由于回归系数的误差均方后=cs2,所以在日 具有 1 XX…X. 适当时可能使c(02(0)<c和(0)<品, 1XXa…X 即回归系数的误差均方之和较0=0时为小。这意 X 味着b()的估计将比b更稳定。这就是采用脊回归 1 XnXn… 的基本出发点。下面以一简例说明以上特征。 设有资料: B= Y= X'=(-0.50,-0.25,-0.25,-0.25, 0,0.25,0.50,0.50) B.J ”7万月数据0.36.38,40.43.45.43). 该模型中回归系数B的最小平方估计为 由之可得:xx=1,XY=8 75。 当 取不同0值时
即 式!"#和式!$#相等%而后&随着 ’的增大&(!’# 中各元素 )*!’#的绝对值均趋于不断变小+由于自变 数间的相关&个别 )*!’#可能有小范围的向上波动 或改变正,负号+--. .&它们对 )*的偏差也将愈来愈 大%如果 ’/0&则 (!’#/12(!’#随 ’的改变而变 化的轨迹&就称为脊迹&参见图 -2脊迹图表明&’ 图 - 脊迹3表明 )!’#随 ’而改变的趋势 456- 75869:;85=689>=? @A)!’#=;9<B9B 的加入使 (!’#成为回归系数的有偏!偏低#估计数2 CDE F的效应 实际上&’的加入会影响到回归分析中的许多 统计数+下文在这些统计数之后均加标!’#&以与最 小平方估计,即 ’G1的统计数相区别.&而不仅是 上述的 (!’#2其中最重要的还有以下两项3 -#随 着 ’的 增 大&离 回 归 平 方 和 H!’#G I+JKJ L!’#."和离回归均方 M " !’#GH!’#N!OKPK -#都将不断增大&亦即必有 H!’#QH和 M " !’#QM " 2 这是随着 ’增大 (!’#的偏差也愈来愈大的直接反 应2 "#随着 ’的增大&!RSRT’U#的逆阵,即!RSR T’U#K-的主对角元素 V**!’#!*G-&"&W&P#将不 断 减小&亦即必有 V**!’#XV**2这也是 ’的直接效 应2 由于回归系数的误差均方 M " )*GV**M " &所以在 ’ 适当时可能使 V**!’#M " !’#XV**M "和Y P - M " )*!’#XY P - M " )*& 即回归系数的误差均方之和较 ’G1时为小2这意 味着(!’#的估计将比 (更稳定2这就是采用脊回归 的基本出发点2下面以一简例说明以上特征2 设有资料3 RSG !K 1DZ1&K 1D"Z&K 1D"Z&K 1D"Z& 1&1D"Z&1DZ1&1DZ1#& [SG !$Z&\1&$]&$^&\1&\$&\Z&\$#D 由之可得3RSRG-&RS[G^D_Z2当取不同 ’值时& 其 V--!’#G!RSRT’U#K- !本例是一元回归&故只有 一个主对角元素 V--&并且 UG-#&(!’#G!RSRT ’U#KRS[&回归方程 J L!’#G‘ aT)!’#b&离回归平方 和 H!’#GY+JKJ L!’#."和回归系数的误差平方和 V--!’#H!’#可列于表 -%其脊迹则示于图 -2 在表 -中&’G1行的统计数为无偏!最小平方# 估计&其余行均为有偏估计2可以直观地看出&随 着 ’增大&V--!’#和 )!’#均不断减小&而 H!’#则不 断增大2但是 V--!’#和 H!’#的积却不是单调地上升 或下降&例如 ’G1D-和 1D"时的 V--!’#H!’#小于 ’G1时的对应值&而 ’c1D$时的 V--!’#H!’#大于 ’G1时的对应值2所以脊回归分析的关键是要确定 V**!’#和 H!’#达到合理平衡的一个 ’值2该 ’值应 当3d是尽可能小的数%e可保证V**!’#H!’#明显地 小于 V**H2前者使回归系数的估计只产生有限偏差& 后者使估计的稳定性明显提高2 表 C 不同 F值的回归系数 (!F#,回归方程 [ L!F#和 离回归平方和 f!F# ghijkC lmknhopjk3qkrqksstumvukwwtvtkmx(!F#&kyzhxtum { L!|#hm}qkst}zhj~~f!F#}kpkm}tmrumF ’ V--!’# )!’# J L!’# H!’# V--!’#H!’# 1D1 !-D1T1D1#K-G- ^D_Z \1T^D_Zb --D\$_Z --D\$_Z 1D- !-D1T1D-#K-G1D!1!- _D!Z \1T_D!Zb -"D1__Z -1D!__Z 1D" !-D1T1D"#K-G1D^$$$ _D"! \1T_D"!b -$DZ]!- --D$1_] 1D$ !-D1T1D$#K-G1D_]!" ]D_$ \1T]D_$b -ZDZ-_! --D!$]\ 1D\ !-D1T1D\#K-G1D_-\$ ]D"Z \1T]D"Zb -_D]^_Z -"D]$\" 1DZ !-D1T1DZ#K-G1D]]]_ ZD^$ \1TZD^$b -!D!]$! -$D$1!$ -D1 !-D1T-D1#K-G1DZ \D$^ \1T\D$^b $1DZ_^- -ZD"^!1 E 脊回归程序 EDC 模型变换 通常的线性回归模型为3 J"G #1T #-b-"T #"b"" T W T #PbP"T $"& !\# 具有3 RG - b-- b"- W bP- - b-" b"" W bP" % % % % - b-O b"O W b & ’ ( PO)O*!PT-# & +G #1 #- % # & ’ ( P)!PT-#*- & [G J- J" % J & ’ ( O)O*- D 该模型中回归系数 +的最小平方估计为3 \$\ 作 物 学 报 "^卷 万方数据
4期 莫惠栋:脊回归技术及其应用 435 b=(X'XIXY 上式中的m为回归模型的参数数日(不包括3): =(b。,b1,2,…,b).(5) 为资料配合式(4)或(7)的离回归均方(结果同): 脊回归分析通常要先对X变数作中心化和标 为对于¥的最小平方估计数,即式(8)中元素。式 量化处理,以使不同自变数处于同样数量级上而便 (11)实际上是离回归均方对回归系数平方平均值的 于比较。这就是引入新变数Z,令 一个比率。它与成正比,与∑()?成反比:包含 Z,=(X-,)/V∑x 了回归系数均方和偏回归平方和两个方面的信息 般情况下0·¥0.5.尤以0.1为多。 G=1,2,…,mj=1,2,…,.(6) 式(11)表明,为了进行脊回归分析,需先配合 于是式(4)变为: 式(7)模型,得到2和。 Y)--Zv 2.3脊回归分析 +…+Z十, (7) 脊回归模型仍用式(7),只是将形换成 具有 B(0). ZZn…Zi [(0)]=0),(0),…,(0)]. (12) 其估计数则为: b2(0"=(ZZ+0"1.)-1ZY -[(),b(0),…,b(0)]. (13) 由于b2(0·)不满足最小平方条件,故离国归平方和 -V Q(0)和均方(0)应由以下式直接求得: 上述B表示回归系数B是由Z变数估计,它 们在统计上又称为标准化回归系数。B2的最小平方 Q(0)=Y-Y(0)] 估计为: =[Y-Zb2(0)]'[Y-Zb(0)], (14) b2=(ZZ)-1ZW-1. s(0)=Q(0)/(n-m-1) (15) =(Z'Z)-1ZY 2.4模型表达 -(,贤,…,by(由于1.-0).(8) 脊回归方程可直接表示为 所以在实际分析中,依变数可仍用观察值向量Y而 Y(0)=y+(0)Zv+(0*)Z 不用中心化向量(Y一),只要最后在回归方程中 +…+(0)Z (16) 心 (9) 如果用原燃跣×霜的误差均方,又使b的偏性尽 这里应注意到,同一资料的式(5)和式(8)是精 可能地小。它在脊迹图上就是b2()已较少随0的 确对应的,6,和b具有关系: 变化而变化时的一个最可能小的0值。但在多个自 变数时,选代试做脊迹图比较麻烦,影响实际应 b,-b/√x,b。-y-∑bx.(10) 用。现在比较普遍采用的是Horl等建议的计算公 2.2合适日值(记为日”)的确定 式 从理论上说,0应当是既减小了b的误差均 方,又使b的偏性尽可能地小。它在脊迹图上就是 0=m32/3(6)3 (11) ?()已较少随日的变化而变化时的一个最可能小 上式中的m为回归模型的参数数目(不包括3,):s 的9值。但在多个自变数时,选代试做脊迹图比较 为资料配合式(4)或(7)的离回归均方(结果同):b好 麻烦,影响实际应用。现在比较普遍采用的是Ho 为对于学的最小平方估计数,即式(8)中元素。式 l等建议的计算公式到, ()实际上是离回归均方对回归系数平方平均值的 万方数播=m/2(G只 一个比率。它与s2成正比,与>(b)2成反比:包 (11) 含了回归系数均方和偏回归平方和两个方面的信
!" #$%$&’( $%) " #*+,*(,*-,.,*/&%0 #1& 脊回归分析通常要先对 $变数作中心化和标 量化处理,以使不同自变数处于同样数量级上而便 于比较2这就是引入新变数 3,令 345" #645’ 7 84&9;:7- 4 #4" (,-,.,/& 于是式#?&变为@ A5’ B 8" C3 (3(5D C3 -3-5 D . D C3 /3/5D E5, #F& 具有@ G" 3(( 3-( . 3/( 3(- 3-- . 3/- H H H 3(= 3-= . 3 I J K /=L=M/ , NO " CO ( CO - H C I J K O /L/M( , #)’B 8P=&" A(’B 8 A-’B 8 H A=’B I J K L 8 =M( 0 上述 N3表示回归系数 N是由 3变数估计,它 们在统计上又称为标准化回归系数2N3的最小平方 估计为@ ! 3 "#G%G&’( G%#)’B 8P=& "#G%G&’( G%) "#* 3 (,* 3 -,.,* 3 /&% #由于 G%P="+&0 #Q& 所以在实际分析中,依变数可仍用观察值向量 )而 不用中心化向量#)’B 8P&,只要最后在回归方程中 记@ B 8" *3 +0 #R& 这里应注意到,同一资料的式#1&和式#Q&是精 确对应的,*4和 * 3 4具有关系@ *4" *3 49;:7- 4,*+" B 8’ : / ( *47 840 #(+& S0S 合适 T值#记为 T U &的确定 从理论上说,V U 应当是既减小了 *的误差均 方,又使 *的偏性尽可能地小2它在脊迹图上就是 * 3#V&已较少随 V的变化而变化时的一个最可能小 的 V值2但在多个自变数时,选代试做脊迹图比较 麻烦,影响实际应用2现在比较普遍采用的是 WXY Z[\等建议的计算公式](-^ @ VU " /_- 9: / ( #*3 4&- 0 #((& 上式中的 /为回归模型的参数数目#不包括 C+&& 如果用原燃跣M霜 的误差均方,又使 k的偏性尽 可能地小2它在脊迹图上就是 kO #l&已较少随 l的 变化而变化时的一个最可能小的 l值2但在多个自 变数时,选代试做脊迹图比较麻烦,影响实际应 用2现在比较普遍采用的是 mnopq等建议的计算公 式](-^ @ VU " /_- 9: / ( #*3 4&- 0 #((& 上式中的 i为回归模型的参数数目#不包括 r+&<f - 为资料配合式#?&或#F&的离回归均方#结果同&<kO s 为对于 rO s的最小平方估计数,即式#Q&中元素2式 #((&实际上是离回归均方对回归系数平方平均值的 一 个比率2它与 f -成正比,与:#* 3 4&-成反比<包 含了回归系数均方和偏回归平方和两个方面的信 ?期 莫惠栋@脊回归技术及其应用 ?c1 万方数据
作 物 学 报 28卷 息。一般情况下日°0.5,尤以<0.1为多 +0.6746X:+7.8302X 式(11)表明,为了进行脊回归分析,需先配合 当应用式(7)模型配合时,从表2的列(5)~(7)和 式(7)模型,得到s2和。 (4)得到正规方程组: 2.3脊回归分析 -0.135742 0.5007307 脊回归模型仍用式(7),只是将换成 -0.135742 -0.148887 8(0): 0.500730-0.148881 1 [B姜-3(0)]/3品×100% 77 13.89792037 [ ca-s2(0)3cn(0) 0.71543641 ×100% (19) 10.67116503 LF=[s2(0)-s]/s2×100%. (20) 其最小平方解为 3 脊回归分析实例 1.341489 0.083946 -0.659225 0.0839461.027923 0.111010 3.1资料 0.6592250.111010 1.346622 考察丰产3号小麦的每株穗数(X1)、每穗结实 (Z'7)-1 小穗数(X:)、百粒重(X,克)和籽粒产量(Y,克) 13.89792037 的关系,得结果于表2的列(1)~(4):根据式(6)得 0.71543641 到X,的相应转换值乙则列于表2的列(5)(7) 10.67116503 表2 主产3号小去的每德数飞 、每德结实小穗数 ,》百)和每产量y 「11.669263 Table 2 Number of spikes per plant(X).number of spikelet with grains per spike(X).weight of 100 grains(X)and grain 3.086699 yield per plant(Y)of wheat cultivar FengChan Ne3 5.287585 (2)(3) (4) 6) 7) 即有回归方程(B): (B)Y=14.4733+11.6693Z +3.0867Z,+5.2876Z. 0.6 14. -0.069007-0.4225590.08885g 0.10351 0.014571 023694 这里可注意:①上述ZZ实际上就是X变数的 相关矩阵 元素即X 有关相 6.5 实践上ZZ可直接由表2的列(1)~(3)得出]:但 16.9 0.103510 0.233136 -0.05923 ZY不是相关系数,因为Y未标准化。②上述方程 35540 (A)和(B)只是表达不同,实际关系完全一样,由式 13.7 0.103510 -0422559-0.20732 (10)即可将(B)还原为(A),例如b,=b/√∑x= 10 13. 0.103510 -0.203994- 0.20732 11.6693/√33.6=2.0131,…等。③方程(A)和(B 6 -0.5865560.233138-0.50349 的离回归均方等也都是相同的,如Q=19.0779,s 21 -0.241523 2039940.23694 =1.7344:回归系数的误差均方之和则为∑= 3.6 12.3 -00690070.0145710.088s5 均数 0 s(c1m+c2+c3)=1.7344(1.341489+1.027923 9.421.933.5414.4733 0 0 +1.346622)=6.4451. 33.620.930.456239.898 3.3脊回归计算 根据式(11),从上抹结果可计算A· .7344/173.6580=0.02996≈0.03 3.2常规回归分析 故脊回归分析的方程组为: 从表2的列(1)~(4)以常规方法配合式(4)模 1.03 -0.1357420.5007301 (0) 型得到回身有髮输)0: -0.1357421.03 -0.148887 b(0") 6 9663 013 0.500730 -0.148887 1.03 b(0)
息!一般情况下 " # $%&’(尤以)%&*为多! 式+**,表明(为了进行脊回归分析(需先配合 式+-,模型(得到 . /和 0 1 2! 3&4 脊回归分析 脊 回 归 模 型 仍 用 式 +-,(只 是 将 5 1 换 成 5 1 +" # ,6 75姜 / 89:; ; ./? *%%@& +/%, 4 脊回归分析实例 4&G 资料 考察丰产 H号小麦的每株穗数+I*,J每穗结实 小 穗数+I/,J百粒重+IH(克,和籽粒产量+K(克, 的关系(得结果于表 /的列+*,L+M,N根据式+O,得 到 I2P的相应转换值 12P则列于表 /的列+’,L+-,! 表 3 丰产 4号小麦的每株穗数+QG,J每穗结实小穗数 +Q3,J百粒重+Q4,和每株籽粒产量+R, STUVW3 XYZUW[\]^_‘aW^_W[_VTbc+QG,(def8ghijkl9mgngok p9oqrhs9dklghkl9mg+Q3,(tW‘uvc\]Gwwu[T‘b^+Q4,Tbxu[T‘b y‘WVx_W[_VTbc+R,\]tvWTczYVc‘{T[|Wbu}vTbX\4 +*, I* +/, I/ +H, IH +M, ~ +’, 1* +O, 1/ +-, 1H *% /H H&O *’&- %&*%H’*% %&/HH*HO %&%!!!’/ C /% H&O *M&’ :%&%OC%%-:%&M//’’C %&%!!!’/ *% // H&- *-&’ %&*%H’*% %&%*M’-* %&/HOCM% *H /* H&- //&’ %&O/*%’C :%&/%HCCM %&/HOCM% *% // H&O *’&’ %&*%H’*% %&%*M’-* %&%!!!’/ *% /H H&’ *O&C %&*%H’*% %&/HH*HO :%&%’C/H’ ! /H H&H !&O :%&/M*’/H %&/HH*HO :%&H’’M%C *% /M H&M *-&% %&*%H’*% %&M’*-%* :%&/%-H// *% /% H&M *H&- %&*%H’*% :%&M//’’C:%&/%-H// *% /* H&M *H&M %&*%H’*% :%&/%HCCM:%&/%-H// *% /H H&C /%&H %&*%H’*% %&/HH*HO %&’HH**M ! /* H&’ *%&/ :%&/M*’/H:%&/%HCCM:%&%’C/H’ O /H H&/ -&M :%&’!O’’O %&/HH*HO :%&’%HMC- ! /* H&- **&O :%&/M*’/H:%&/%HCCM %&/HOCM% C // H&O */&H :%&%OC%%- %&%*M’-* %&%!!!’/ 平均数 "gsd C&M /*&CH H&’M *M&M-HH % % % 平方和 ## HH&O/%&CH%&M’O/HC&!!CH * * * 4&3 常规回归分析 从表 /的列+*,L+M,以常规方法配合式+M,模 型得到回归方程+$,7M= 6 +$, K %A : MO&COOH& /&%*H*I* & %&O-MOI/& -&!H%/IH& 当 应用式+-,模型配合时(从表 /的列+’,L+-,和 +M,得到正规方程组6 * : %&*H’-M/ %&’%%-H% : %&*H’-M/ * : %&*M!!!- ’ ( ) %&’%%-H%: %&*M!!!- * * 01 * 01 / 0 ’ ( ) * 1 H +,+ - 1 A *H&!C-C/%H- %&-*’MHOM* ’ ( ) *%&O-**O’%H* & A+,R& 其最小平方解为6 01 * 01 / 0 ’ ( ) * 1 H A *&HM*M!C %&%!HCMO :%&O’C//’ %&%!HCMO *&%/-C/H %&***%*% ’ ( ) :%&O’C//’ %&***%*% *&HMOO//* - 1 A ++,+,:* *H&!C-C/%H- %&-*’MHOM* ’ ( ) *%&O-**O’%H* +,R( A **&OOC/OH H&%!OOCC ’ ( ) ’&/!-’!’* & 即有回归方程+.,6 +., K %A *M&M-HH& **&OOCH1* & H&%!O-1/& ’&/!-O1H& 这里可注意6/上述 +,+实际上就是 I变数的 相关矩阵(其中元素即 I 变数的有关相关系数7故 实 践上 +,+可直接由表 /的列+*,L+H,得出=N但 +,R不是相关系数(因为 K未标准化!0上述方程 +$,和+.,只是表达不同(实际关系完全一样(由式 +*%,即可将+.,还原为+$,(例如 0*A0 1 *>2;1/ *A **&OOCH>2HH&OA/&%*H*(3等!4方程+$,和+., 的离回归均方等也都是相同的(如 5A*C&%--C(. / A*&-HMMN回归系数的误差均方之和则为; *-H&O’!%A %&%/CCO6 %&%H& 故脊回归分析的方程组为6 *&%H :%&*H’-M/ %&’%%-H% :%&*H’-M/ *&%H :%&*M!!!- ’ ( ) %&’%%-H% :%&*M!!!- *&%H * 01 *+"# , 01 /+"# , 01 H+"# ’ ( ) ,* MHO 作 物 学 报 /!卷 万方数据
4期 莫惠栋:脊回归技术及其应用 437 (ZZ+0.03)- b(0) 表3 表2资科回归系数的脊迹 13.89792037 Table 3 Ridge trace of regression coefficients =0.71543641 for the data in Table 2 L10.67116503 2(0 =7y 其解为: 0.00 31 1.2778060.080283 -0.609595 0a 100 7g321 b2(0)= 0.080283 0.996637 0.10503 002 171 0654 78295 -0.6095950.1050 1.282 09 0.03 1.0513 78306 77」 -1 T0.05 0.04 1.931R 0.63518 7.8268 13.89792037 0.05 1.91280 0.62590 7.82129 0.71543641 0.10 1.82425 0.58262 7.77210 10.67116503 ZY 4脊回归的应用 T☐1.311196 2.949642 脊回归对最小平方法是一种挑战,它表明满足 5.287838 最小平方条件的估计数(这里是回归系数)并非在各 即表2资料有脊回归方程(C) 方面都尽善尽美:如果可以引入一个小小的偏差 (C) Y(0)=14.4733+11.3112Z (这里是0·),有可能获得更好的统计结果(这里是 +2.9496Z:+5.2878Z 回归系数的误差均方之和更小)。但是脊回归只是 或根据(18)得出自变数为原观察单位的脊回归方程 常规回归方法的一种补充而不是替代。作者认为以 (D)为. (D)Y(0)=- 45. 301+1.9514X 下4种情况可能是特别值得推荐作脊回归分析的。 +0.6447X2+7.8306X3 4.1当X变数间存在高度线性相关时 上述方程(C)和(D)的离回归平方和均为:Q ·般地说,若X的任两列间相关系数r> (0)=[y-Zb(0)]'[y-Zb(0°)]=[y-xb 0.99,则ZZ的逆阵将极度“膨胀”,造成回归估 (0)][y-Xb(0)]=19.2153,即s2(0)- 数的很大误弟。如果加入0.(ZZ+01)-1就会迅速 1.7468:而元(0)=1.7468(1.277806 “缩小”,于是估计数的稳定性和精确度都得到提 0.996637+1.282409)=6.2131 高。 3.4 脊国 常规回归分析 的比 例:设有资料 根据式(19)和(20),从上述结果可得: GF=(6.4451-6.2131)/6.4451×100% X',=(4,4,7,7,7.1,7.1) =3.6%, X'2=(16,16,49,49,50.41,50.41 LF=(1.7468-1.7344)/1.7344×100% 这里的X,和X,的相关系数r=0.9999.属启 =0.7% 度线性依赖。该资料按式(6)变换后,得到的(ZZ) 文表明本例引 g=0.03后,离回归均方仅增加 7%,而 数的 和(ZZ)-1为: (22)= 1 0.9999693737 目标。 -0.9999693731 3.5脊迹 (ZZ)-1= 16326.2640 -16325.7640 表3列出本例的3个回归系数在合取00.1 .-16325.7640 16326.2640 区间的一些脊迹值。 由之可以看出随A的增大 各6,(0)的总趋 均变小 且下降速 慢 如果加入0=0.1,则有 (ZZ+0.1)= 1.1 0.999969373 动,显示百粒重增加对提高单株产量的高度稳定 L0.9999693731.1 性。0=0.03时的b(0)与0=0(最小平方估计)的 (ZZ+0.1)- 「5.2366 -4.76041 ,接近则表明偏差较小」 .-4.7604 5.2366J 万方数据 4.2当ZZ的行列式值很小时 回归分析中,ZZ的行列式值det(ZZ)是一个
!"#"$%&%’()*+ , - !. / ) 0 +’&12324%’3 %&3+56’76+ 8 9 : +%&73++75%’; & 0"#)= !>) ? @!./ )0 +6&63’’$ ++&’++4-+ $ 4&2627-4$ 5&4131-’& 或根据!+1)得出自变数为原观察单位的脊回归方程 !A)为= !A) ? @!./ )0* 65&3’%+$ +&25+6B+ $ %&7663B4$ 3&1’%7B’& 上述方程!>)和!A)的离回归平方和均为=C !. / )0 D<* ", -!. / )E#D<* ", -!. / )E0 D<* F, !. / )E#D<* F,!. / )E0 +2&4+5’G即 H 4!. / )0 +&3671I 而 J K + H 4 LM !. / )0 +&3671!+&4331%7$ %&2277’3$+&4146%2)07&4+’+N O&P 脊回归与常规回归分析的比较 根据式!+2)和!4%)G从上述结果可得= QR0!7&665+*7&4+’+)S7&665+T+%%U 0’&7UG VR0!+&3671*+&3’66)S+&3’66T+%%U 0%&3U& 这表明本例引入 . / 0%&%’后G离回归均方仅增加 %&3UG而回归系数的误差均方却减少 ’&7UG确实 达到了估计数的偏性较小而估计稳定性明显提高的 目标N O&W 脊迹 表 ’列出本例的 ’个回归系数在 .取 %X%&+ 区间的一些脊迹值N由之可以看出G随着 .的增大G 各 LM!.)的总趋势均变小G且下降速率愈来愈慢I但 L’!.)在 .0%&%%X%&%’之间表现出微小的向上波 动G显示百粒重增加对提高单株产量的高度稳定 性N. / 0%&%’时的 LM!.)与 .0%!最小平方估计)的 LM接近则表明偏差较小N 表 O 表 Y资料回归系数的脊迹 Z[\]^O _‘ab^cd[e^fgd^bd^hh‘fief^gg‘e‘^ich gfdcj^a[c[‘iZ[\]^Y . L+!.) !克S穗) !kSlmnop) L4!.) !克S小穗) !kSlmnopqpr) L’!.) !克S克) !kSk) %&%% 4&%+’+6 %&73676 3&1’%46 %&%+ +&22+22 %&7766+ 3&1’462 %&%4 +&23+6+ %&7566’ 3&1’457 %&%’ +&25+’3 %&76672 3&1’%7+ %&%6 +&2’+16 %&7’5+1 3&1471+ %&%5 +&2+41% %&7452% 3&14+42 %&+% +&14645 %&51474 3&334+% P 脊回归的应用 脊回归对最小平方法是一种挑战G它表明满足 最小平方条件的估计数!这里是回归系数)并非在各 方面都尽善尽美I如果可以引入一个小小的偏差 !这里是 . / )G有可能获得更好的统计结果!这里是 回归系数的误差均方之和更小)N但是脊回归只是 常规回归方法的一种补充而不是替代N作者认为以 下 6种情况可能是特别值得推荐作脊回归分析的N P&s 当 B变数间存在高度线性相关时 一 般 地 说G若 F 的 任 两 列 间 相 关 系 数 tu %&22G则 "#"的逆阵将极度v膨胀wG造成回归估计 数的很大误差N如果加入 .G!"#"$.()*+就会迅速 v缩小wG于是估计数的稳定性和精确度都得到提 高N 例=设有资料 F#+0 !6G6G3G3G3&+G3&+)G F#40 !+7G+7G62G62G5%&6+G5%&6+) 这里的 B+和 B4的相关系数 t0%&2222G属高 度线性依赖N该资料按式!7)变换后G得到的!"#") 和!"#")*+为= !"#")0 + %&222272’3’ D%&222272’3’ + EG !"#")*+0 +7’47&476% * +7’45&376% D* +7’45&376% +7’47&476%E& 如果加入 .0%&+G则有= !"#"$ %&+()0 +&+ %&222272’3’ D%&222272’3’ +&+ EG !"#"$ %&+()*+0 5&4’77 * 6&37%6 D* 6&37%6 5&4’77E& P&Y 当 "#"的行列式值很小时 回归分析中G"#"的行列式值 xpr!"#")是一个 6期 莫惠栋=脊回归技术及其应用 6’3 万方数据
作 学 28卷 非常重要的数,例如计算(ZZ)1中的任何一个元 [1]Hoerl AE.Kennard RW.Ridge regression:advances.algo 素都要用到以det(Zz)为除数。当det(ZZ)0.1, 13]Belsley DA.Conditiming diagnostics.collinearity and weak 特别需要应用脊回归以提高估计数的稳定性,虽然 这种估计数的偏性也将是较大的。 [4】ChenJ(陈景良).Chen XH(陈向军).Special matrires(特 ijing:Qing-Hua Univ Press..2001,154-16 References 万方数据
非常重要的数!例如计算"#$#%&’中的任何一个元 素都要用到以 ()*"#$#%为除数+当 ()*"#$#%,-.-’ 时!#$#常被称为病态矩阵/’0!’12 !因为这种矩阵在 计算过程中极易造成约数误差"3456(477)3343%!即 使在计算机上应用双精度算术也难以避免/82 +由此 得到的统计数往往缺乏稳定性和可靠性+在数量遗 传学中!较为突出的一个例子是 9:*;)3和 ?的 @’A@8AB’AB8AC’AC8六世代平均值配合加性&显 性&上位性 D参数的遗传模型/E2 +据作者计算!该 模型的 ()*"#$#%F-.--1-!存在明显病态+所以! 如果 D个参数都存在!其估计数是相当不稳定A不 可靠的+如在 #$#中加入 G!()*"#$#HGI%的值就能 迅速变大!从而改进了估计数质量+此研究详情另 发+ J.K 当较小的回归系数有其理论上和L或实践上的 合理性时 由于总体上脊回归系数 MN"G O %的绝对值总是小 于 MN的绝对值!故在有关专业中此种变小应当有其 合理依据!例如较小的回归系数可靠度较高或可信 度更大等+前述的丰产 0号小麦例可认为属于此 类P每增加 ’穗A’个结实小穗可依次提高单株籽 粒产 量 ’.QE克A-.D1克 "方 程 R%的 目 标!要 比 8.-’克A-.DS克"方程 T%更有把握达到+ J.J 当"U # V%W的均值在离回归均方 X W的 YZ倍以下 时 这 是对式"’’%的一个解释!表明若 G O [-.’! 特别需要应用脊回归以提高估计数的稳定性!虽然 这种估计数的偏性也将是较大的+ \]^]_]‘a]b /’2 c4)3dTe!f)66:3(gh.iNjklmlkmlnnNopPqjrqpsln!qtkou mNvwxnqpj qyytNsqvNopn. zcP T{)3=|:6 }|=)6|)?@3)??! ’Q~’ /82 R3:!)3"g!}{=*;C.#yytNljmlkmlnnNopqpqt$nNn!03()(. ")%&43>P?P.o9?.qtNv$,lswpotok$!’QSD!~P’8’)’8D /’82 c4)3dTe!f)66:3(gh!C:d(%=6fB.g=(+)3)+3)??=46P ?4{)?={5d:*=46.@oxx.pNsqvNopnNp-vqvNnvNsn!’QSE!T1P ’-E)’80 /’02 C)d?d)’RT.@opjNvNopNpkjNqkponvNsn!sottNplqmNv$qpjAlqB jqvqNpmlkmlnnNop.")%&43>P<4;6h=d)’(}46?!’QQ’ /’12 5;)6<2"陈景良%!5;)6Cc"陈向晖%.-ylsNqtxqvmN0ln"特 殊矩阵%.C)=D=6+PE=6+uc5:F6==@3)??!8--’!’E1)’D8 10~ 作 物 学 报 8~卷 万方数据
脊回归技术及其应用 日万方数据文做桃# 作者单位: 刊名: 作物学报STICPKI可 英文刊名 ACTA AGRONOMICA SINICA 02,28(4) 引用次数: 文献14) 2.Draper NR.Smith B Applied regression analysis,3rd ed 1998 3.Marquardt D.Snee RD Ridge regression in practice 1975 4.Mo H Agricultural Experimentation.2nd ed 1992 5.Mather K.Jinks JL Biometrical genetics,3rd ed 1982 6.BOX GEP.Hunter WG.Hunter JS An introduction to design.data analysis and model building 1978 7.Lynch M.Walsh B Genetics and analysis of quantitative traits 1998 8.Hoerl AE Kennard RW Ridge regression:biased estimation for non-orthogonal proble 1970 9.Hoerl AE Kemmard R Ridge regression:applications to non-orthogonal proble 1970 10.inverses.ridge regression biased linear estimation and onlinea estimation 1970 11.Mullett GM Why regression coefficients have the wrong sign 1976 12.Boerl AE.Kennard RW.Baldwin KF Ridge regression:some sinulation 1975 13.Belsley DA Conditioning diagnostics.collinearity and weak data in regression 1991 14.陈景良.陈向晖特殊矩阵200 相文(0) 引证文献3) 1.莫忠棒回归分析中的病态矩阵及其政进[期刊论文]-作物学报2006(01) 2放框,徐辰武贝叶斯回归分析方法及其在QL作图中的应用[期刊论文]~扬州大学学报(农业与生命科学胞 2005(02) 3.李得孝.员海盘.周联东玉米抗倒伏性指标及其模拟研究[嘲刊论文]-西北农林科技大学学报(白然科学版) 2004(05) 本文链接:htp:/1.g.wanfangdata.com.cn/Periodical_z0wxb20020400,aspx 下载时间:2010年3月5日
脊回归技术及其应用 作者: 莫惠栋 作者单位: 扬州大学数量遗传研究室,江苏扬州,225009 刊名: 作物学报 英文刊名: ACTA AGRONOMICA SINICA 年,卷(期): 2002,28(4) 引用次数: 3次 参考文献(14条) 1.Hoerl AE.Kennard RW Ridge regression:advances,algorithms and applications 1981 2.Draper NR.Smith B Applied regression analysis, 3rd ed 1998 3.Marquardt DW.Snee RD Ridge regression in practice 1975 4.Mo HD Agricultural Experimentation, 2nd ed 1992 5.Mather K.Jinks JL Biometrical genetics, 3rd ed 1982 6.BOX GEP.Hunter WG.Hunter JS An introduction to design, data analysis and model building 1978 7.Lynch M.Walsh B Genetics and analysis of quantitative traits 1998 8.Hoerl AE.Kennard RW Ridge regression: biased estimation for non-orthogonal problem 1970 9.Hoerl AE.Kennard RW Ridge regression:applications to non-orthogonal problem 1970 10.Marquardt DW Generalized inverses, ridge regression, biased linear estimation and nonlinear estimation 1970 11.Mullett GM Why regression coefficients have the wrong sign 1976 12.Hoerl AE.Kennard RW.Baldwin KF Ridge regression: some simulation 1975 13.Belsley DA Conditioning diagnostics, collinearity and weak data in regression 1991 14.陈景良.陈向晖 特殊矩阵 2001 相似文献(0条) 引证文献(3条) 1.莫惠栋 回归分析中的病态矩阵及其改进[期刊论文]-作物学报 2006(01) 2.敖雁.徐辰武 贝叶斯回归分析方法及其在QTL作图中的应用[期刊论文]-扬州大学学报(农业与生命科学版) 2005(02) 3.李得孝.员海燕.周联东 玉米抗倒伏性指标及其模拟研究[期刊论文]-西北农林科技大学学报(自然科学版) 2004(05) 本文链接:http://d.g.wanfangdata.com.cn/Periodical_zuowxb200204001.aspx 下载时间:2010年3月5日