正在加载图片...
第1期 莫惠栋:回归分析中的病态矩阵及其改进 2.2约数误差可能左右分析结果 3.1相关系数法 约数误差(roundoff error)是指统计运算过程中 计算x矩阵的任一X列和X列(i≠)的线性 因中间数字的有效位数不足而造成背离应有意义的 相关系数r或决定系数2。X,和X列的,=±1为 结果。例如计算10x=(alb)-(cld),设a= 完全线性依赖,=0为完全独立。作者认为,如1r 10000,b=0.03,c=16666.6663,d=0.05,中间数字 >0.99应视为两列间有高度线性依赖,必导致X" 均保持8位,则(a1b)=333333.33,(c1d)= 是现病本。此方法最篇单,但不能提供若干列间 333333.33,x=0:但较精确结果却是10°x=(ad- 杂依赖的信息,即不能发现多重的共线性:而小的 bc)/bd=(500-499.999989)/0.0015=0.007333,x 1,值也不一定表示不存在共线性。 =7333!在回归分析中,当作为除数的de(XX)=0 3.2 多元决定系数法 时,极易发生类似以上的约数误差。所以Freund在 若定义:是X矩阵的X,列依其他(m-1)列 检查了大量回归资料后曾警告说,许多合理的结论 X(≠i)的(m-1)元决定系数,则当XX可逆时可 有时完全是由变化无常的约数误差造成)。 以证明: 在实践上,人们常用“双精度算法”以减少约数 R:=1-1/c (7) 误差的干扰。研究认为,双精度使计算机工作的数 式(7)的c:为X的相关矩阵R逆阵R的主对角线 字密度比通常加倍,如作为标准技术将浪费时间,而 元素。当X列独立于所有X,列时=1,并随着X 且也不是必须的谨慎:只要XX存在病态,约数误 列对所有X列线性依赖程度的增加而增大,直至完 差仍会常常发生5。所以,关键还是在于发现矩阵 全依赖时c。→ 病态和改进病态矩阵。 例2 Mather和Jinks的6世代加性-显性.上位 性遗传模型的设计矩阵x及其相关矩阵R为 3矩阵病态的诊断 1 0 0 前述d(R)是度量X'X矩阵全体共线性程度 1-1 0 1 0 0 的一个综合指标。X'X的病态源于X中的高度列 0 1 0 X= 依赖,必须具体检查X矩阵,才能发现不同列间的 10 1/2 0 0 线性依赖程度。这称为X矩阵的病态诊断,基本方 112 1/2 1414 14 法如下。 1/214 14 14 0 0 0 0 0 0 0.447214 0 0 0 1 -0.903738 0 0.932568 R= -0.903738 0 0.705431 00.447214 0 0 0 0 0.932568 -0.932568 由R可求得其行列式值dt(R)=0.004009,表明该 间的1r1都不大于0.94,不足以直接导致XX呈病 模型的信息矩阵XX是病态的。但乙的任何两列 态。由R可得其逆阵R为 0 0 0 0 0 1.25 -0.559018 0 100.22996849.055972 0 -58.865651 R= 0 0 49.055972 26.000242 0 -27.406641 0 -0.559018 0 0 1.25 0 58.865651 27.406641 0 36.562729 故根据式(7)进而得R=1-11=0,R=1-1/1.25= 0.961539,R=0.2和R%=0.972650。这表明X中 0.2,R店方额据10.229968=0.9023.R= 的第1列完全独立于其余5列,第2列变异则有 ! "! 约数误差可能左右分析结果 约数误差(!"#$%"&& ’!!"!)是指统计运算过程中 因中间数字的有效位数不足而造成背离应有意义的 结果。 例 如 计 算 ()* ! +( ", # )-( $, % ),设 " + ()))),# + ) . )/,$ + (**** . ***/,% + ) 0)1,中间数字 均保 持 2 位,则( ", # )+ ////// 0//,( $, % )+ ////// 0//,! + );但较精确结果却是 ()* ! +( "% - #$), #% +( 1)) - 344 0444424),) 0))(1 + ) 0))5///,! + 5///!在回归分析中,当作为除数的 %’(6 !7!)!) 时,极易发生类似以上的约数误差。所以 8!’#$% 在 检查了大量回归资料后曾警告说,许多合理的结论 有时完全是由变化无常的约数误差造成[2] 。 在实践上,人们常用“双精度算法”以减少约数 误差的干扰。研究认为,双精度使计算机工作的数 字密度比通常加倍,如作为标准技术将浪费时间,而 且也不是必须的谨慎;只要 !7 ! 存在病态,约数误 差仍会常常发生[1] 。所以,关键还是在于发现矩阵 病态和改进病态矩阵。 # 矩阵病态的诊断 前述 %’(6 ")是度量 !7 ! 矩阵全体共线性程度 的一个综合指标。 !7 ! 的病态源于 ! 中的高度列 依赖,必须具体检查 ! 矩阵,才能发现不同列间的 线性依赖程度。这称为 ! 矩阵的病态诊断,基本方 法如下。 # "$ 相关系数法 计算 ! 矩阵的任一 &’ 列和 &( 列( ’" ()的线性 相关系数 ) 或决定系数 ) 9。 &’ 和 &( 列的 ) + : ( 为 完全线性依赖,) + ) 为完全独立。作者认为,如 ; ) ; < ) 044 应视为两列间有高度线性依赖,必导致 !7 ! 呈现病态。此方法最简单,但不能提供若干列间复 杂依赖的信息,即不能发现多重的共线性;而小的 ; ) ; 值也不一定表示不存在共线性。 # "! 多元决定系数法 若定义 *9 ’ 是 ! 矩阵的 &’ 列依其他( + - ()列 &(( (" ’)的( + - ()元决定系数,则当 !7! 可逆时可 以证明[5] : *9 ’ + ( - (,$7’’ (5) 式(5)的 $7’’ 为 ! 的相关矩阵 " 逆阵 " - ( 的主对角线 元素。当 &’ 列独立于所有 &( 列时 $7’’ + (,并随着 &’ 列对所有 &( 列线性依赖程度的增加而增大,直至完 全依赖时 $7 ’’ # =。 例 ! >?6@’! 和 AB$CD 的 * 世代加性E 显性E 上位 性遗传模型的设计矩阵 ! [4] 及其相关矩阵 " 为 ! + ( ( ) ( ) ) ( - ( ) ( ) ) ( ) ( ) ) ( ( ) (,9 ) ) (,3 ( (,9 (,9 (,3 (,3 (,3 ( -(,9 (,9 -                  (,3 (,3 (,3  " + ( ) ) ) ) ) ) ( ) ) ) .3359(3 ) ) ) ( - ) .4)/5/2 ) ) .4/91*2 ) ) - ) .4)/5/2 ( ) - ) .5)13/( ) ) .3359(3 ) ) ( ) ) ) ) .4/91*2 -                    ) .4/91*2 ) (  由 " 可求得其行列式值 %’(6 ")+ ) 0))3))4,表明该 模型的信息矩阵 !7 ! 是病态的。但 # 的任何两列 间的 ; ) ; 都不大于 ) . 43,不足以直接导致 !7 ! 呈病 态。由 " 可得其逆阵 " - (为 " + ( ) ) ) ) ) ) ( .91 ) ) - ) .114)(2 ) ) ) ()) .9944*2 34 .)11459 ) - 12 .2*1*1( ) ) 34 .)11459 9* .)))939 ) - 95 .3)**3( ) - ) .114)(2 ) ) ( .91 ) ) ) - 12 .2*1*1( -                    95 .3)**3( ) /* .1*9594 故根据式(5)进而得 *9 ( + ( - (,( + ),*9 9 + ( - (,(091 + ) 09,*9 / + ( - (,()) . 9944*2 + ) 044))9/,*9 3 + ) 04*(1/4,*9 1 + ) 09 和 *9 * + ) 0459*1)。这表明 ! 中 的第 ( 列 完 全 独 立 于 其 余 1 列,第 9 列 变 异 则 有 第 ( 期 莫惠栋:回归分析中的病态矩阵及其改进 / 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有