第三讲通径分析 PATH ANALYSIS 基本知识 适宜资料:多个自变量x与一个依变量y呈线性相关关系 分析目的:分析多个自变量x与一个依变量y的相关关系,并把各自变量x与y的总关系(影响), 即相关系数r分解为x对y的直接作用(通经系数Py)及间接作用,并利用通经系数比较各x1对作用程 度的相对大小。 三、分析思路:把各自变量x对y的综合作用(简单相关系数r)剖分为直接作用及间接作用,利用 相关系数阵计算通经系数。 四、分析方法:共六大步骤见后 在生物界中,数量性状间的关系往往是彼此相关的。从统计学上讲,研究多个相关变量间的关系,可 根据相关变量间是因果关系或平行关系,采用不同的统计分析方法。若变量间互为因果而呈平行关系时, 多采用相关分析。若变量间因果分明,多采用多元线性回归分析。如第一讲中因果分明,产蛋率为果,各 环境参数为因。然而,相关变量内的这两种分析方法都存在一定的局限性。如简单相关系数固然可以用来 度量两变量间的相关密切程度。但其中也包含有其他相关变量对它们的影响。因此,多少包含有虚伪的成 分了。尤其在分析原因对结果作用方面。相关系数无法表明。就此而言,多元回归分析中的偏回归系数, 在一定程度上可指出各原因对结果的直接作用,但因带有不同单位,故不能直接比较各原因对结果的作用 大小,即使单位相同,若各原因(自变量)的变异度(标准差)不同,也是无法比较的。何况偏回归系数 也不能解释与其他相关原因共同对结果的作用。为此,1921年S· Wright发表了一篇“相关与相关原因” 的论文,文中对相关系数进行剖分,找出了用来表明各原因对结果所起直接作用大小的统计量,即通径系 数。之后,该方法不断得到应用和完善,成为具有直观、精确等特点的一种重要分析方法。 第一节通径分析的基本原理 通径分析的基本原理与性质 为叙述方便,先讨论两个原因(自变量)x1,x2及结果(依变量)y三个相关变量,后再推广至 般。假设x1,x2与y间存在线性关系,则x1,x2与y的回归方程为 y=bo +b,x,+b =bo+baxI+b2X?+e (2-2) (2-2)式中bo为常数项,b,b分别为y对x,x2的偏回归系数,e为与各变量相互独立的误差 项(或剩余项)。x1,x2间存在相关,则(2-2)式的关系可用图1示之
9 第三讲 通径分析 PATH ANALYSIS 基本知识 一、适宜资料:多个自变量 xi 与一个依变量 y 呈线性相关关系。 二、分析目的:分析多个自变量 xi 与一个依变量 y 的相关关系,并把各自变量 xi 与 y 的总关系(影响), 即相关系数 rij 分解为 xi 对 y 的直接作用(通经系数 Piy)及间接作用,并利用通经系数比较各 xi 对作用程 度的相对大小。 三、分析思路:把各自变量 xi 对 y 的综合作用(简单相关系数 rij)剖分为直接作用及间接作用,利用 相关系数阵计算通经系数。 四、分析方法:共六大步骤见后。 在生物界中,数量性状间的关系往往是彼此相关的。从统计学上讲,研究多个相关变量间的关系,可 根据相关变量间是因果关系或平行关系,采用不同的统计分析方法。若变量间互为因果而呈平行关系时, 多采用相关分析。若变量间因果分明,多采用多元线性回归分析。如第一讲中因果分明,产蛋率为果,各 环境参数为因。然而,相关变量内的这两种分析方法都存在一定的局限性。如简单相关系数固然可以用来 度量两变量间的相关密切程度。但其中也包含有其他相关变量对它们的影响。因此,多少包含有虚伪的成 分了。尤其在分析原因对结果作用方面。相关系数无法表明。就此而言,多元回归分析中的偏回归系数, 在一定程度上可指出各原因对结果的直接作用,但因带有不同单位,故不能直接比较各原因对结果的作用 大小,即使单位相同,若各原因(自变量)的变异度(标准差)不同,也是无法比较的。何况偏回归系数 也不能解释与其他相关原因共同对结果的作用。为此,1921 年 S·Wright 发表了一篇“相关与相关原因” 的论文,文中对相关系数进行剖分,找出了用来表明各原因对结果所起直接作用大小的统计量,即通径系 数。之后,该方法不断得到应用和完善,成为具有直观、精确等特点的一种重要分析方法。 第一节 通径分析的基本原理 一、通径分析的基本原理与性质 为叙述方便,先讨论两个原因(自变量)x1 ,x2 及结果(依变量)y 三个相关变量,后再推广至一 般。假设 x1 ,x2 与 y 间存在线性关系,则 x1 ,x2 与 y 的回归方程为: 0 1 1 2 2 y ˆ = b + b x + b x (2—1) 或 y=b0+b1x1+b2x2+e (2—2) (2—2)式中 b0 为常数项,b1 ,b2 分别为 y 对 x1 ,x2 的偏回归系数,e 为与各变量相互独立的误差 项(或剩余项)。x1 ,x2 间存在相关,则(2—2)式的关系可用图 1 示之
图1通径图 图1中,单箭头表示自变量与依变量间存在的因果关系,方向由原因到结果,称为通径。双箭头表示 自变量间存在的平行关系,称为相关线, 若不考虑误差项e,(2-2)式可改写成为: bo+bixI+b2x2 (2-3) 其中: bo=y-be5-b2x2 y=bo +b,x,+b2x2 将(2-3)式减(2-4)式可得 y-y=b1(x1-x1)+b2(x2-x2) 将(2-5)式两边平方后求和,并遍除以n-1,可得 ∑(y-y)2_12(x1-元) ∑(x,-x b2 +2b1b2 ∑(x1-x1)(x2-x2) S2=bs4 +b2S4+2b,b, COV12 (2-6)式两边同除以S2得: COL (2-7) (2-7)式中b1Sx/Sy,b2SxSy为标准偏回归系数,也叫通径系数,分别记作P1,Py2,用来 表示x,x2对y影响的相对重要性。由于是不带单位的相关系数,故可直接用于比较对结果影响的大小。 [注:偏回归系数b本身并不能反映自变量的相对重要性,其原因有(1)是b带有具体单位,单位不同 无法比较:(2)是即使单位相同,若x的变异度不同也不能比较。但若对b进行标准化,即在分子和分母 分别除以y和x的标准差,就可以消除单位和变异度不同的影响,获得一个表示x对y影响相对重要性的 统计数一一通径系数Py:Py=b /(n b 其统计意义是:若x增加一个标准差单位 y将增加(P)0)或减少(P〈0)P个标准差单位。]通径系数的平方称为决定系数,表示各原因 对结果相对的决定程度,即: 因为-9可/(5: 所以(2—7)式可改写成 dy. 1+dy 2+2 Py. 1 Py.2 [12=1 (2-8) 其中2PyPy2r12可以看成相关原因x1,x共同对结果y的相对决定程度,称为相关原因x1,x2共
10 图 1 通径图 图 1 中,单箭头表示自变量与依变量间存在的因果关系,方向由原因到结果,称为通径。双箭头表示 自变量间存在的平行关系,称为相关线, 若不考虑误差项 e,(2—2)式可改写成为: y= b0+b1x1+b2x2 (2—3) 其中: 0 1 1 2 2 0 1 1 2 2 y b b x b x b y b x b x = + + = − − (2—4) 将(2—3)式减(2—4)式可得: ( ) ( ) 1 1 1 2 2 2 y − y = b x − x + b x − x (2—5) 将(2—5)式两边平方后求和,并遍除以 n-1,可得: 1 ( )( ) 2 1 ( ) 1 ( ) 1 ( ) 1 1 2 2 1 2 2 2 2 2 2 2 2 1 1 1 2 − − − + − − + − − = − − n x x x x b b n x x b n x x b n y y 即 1 2 12 2 2 2 2 2 1 2 2 1 2 Sy = b Sx + b Sx + b b COV (2—6) (2—6)式两边同除以 2 y S 得: 2 1 1 2 1 2 1 2 12 1 2 2 2 2 1 = + + y x x x y x y x y x S S COV S S b S S b S S b S S b (2—7) (2—7)式中 b1 Sx1/Sy,b2 Sx2/Sy 为标准偏回归系数,也叫通径系数,分别记作 Py.1 ,Py.2 ,用来 表示 x1,x2 对 y 影响的相对重要性。由于是不带单位的相关系数,故可直接用于比较对结果影响的大小。 注:偏回归系数 bi 本身并不能反映自变量的相对重要性,其原因有(1)是 bi 带有具体单位,单位不同 无法比较;(2)是即使单位相同,若 xi 的变异度不同也不能比较。但若对 bi 进行标准化,即在分子和分母 分别除以 y 和 xi 的标准差,就可以消除单位和变异度不同的影响,获得一个表示 xi 对 y 影响相对重要性的 统计数——通径系数 Py.i:Py.i=bi ( ) ( ) y x i x y ss ss b ss n ss n i i = − − 1 1 1 1 ,其统计意义是:若 xi 增加一个标准差单位, y 将增加(Py.i 0)或减少(Py.i 0)Py.i 个标准差单位。 通径系数的平方称为决定系数,表示各原因 对结果相对的决定程度,即: 2 1 1 2 .1 .1 = = y y y S Sx d P b , 2 2 2 2 2 2 = = y y y S Sx d P b 因为 1 2 1 2 1 2 12 12 12 12 1 ( 1)( 1) x x x x x x S S COV n n SS SS n SP r SP SS SS = − − − = = 所以(2—7)式可改写成 dy.1+dy.2+2 Py.1 Py.2 r12=1 (2—8) 其中 2 Py.1 Py.2 r12 可以看成相关原因 x1 ,x2 共同对结果 y 的相对决定程度,称为相关原因 x1 ,x2 共
同对结果y的决定系数,记为d1,所以(2-8)式又可写成 由(2—9)式可推广到一般,即,如果相关变量x1,x.…,xm,y间存在线性关系,复回归方程为: 且x1,x,…,xm两两相关,即r12≠0,r3≠0,…,rm1,m≠0,不考虑e时,则x1,x2…,xm对结 果y的决定系数之和加上两两相关原因共同对结果y的决定系数等于1,即 dy1+dy2+…+dym+dy2+dy13+…+dlym1m=1 (2-10) 简写为 ∑d, 其中 d i =p, dy. j =2Pyi Py ri (i, j=l,2,", m, isi 若考虑误差项e,则Σd+Σdy≠1,而把1-∑dy-∑d叫作误差对结果y的决定系数,记为dy 如果ds的绝对值较大,说明可能还有一些对结果影响较大的原因未被考虑进去。显然,误差项到y的通 径系数: P 对于(2-1)式,为求b,b2可得下列两个方程 SS,bi+SPI2b2=SP (2-11) SP21b1+SS2b2=SP2y (2-12) 先对以上两式的各项除以n-1后,(2-11)式再除以SxSy,(2-12)式除以Sx2Sy可得 S. Co S,S SS-s, Ss cova\S1 SS SS Py. 1 +r12Py.2=Tly (2-13) [21 Py. 1+ Py.2=T2y (2-14) (2-13)式中,Py为x1对y的直接作用;r12Py2为x1通过x2对y的间接作用,即x1与y的相关系 数ry可剖分为x对y的直接作用和x通过x2对y的间接作用。类似的(2-14)式也是将x2与y的相关 系数r2y剖分为x2对y的直接作用Py和x2通过x1对y间接作用r2Py1。 推广到一般,即一个依变量y与m个自变量的情形,则有: Pr 1+n2P2+1i3.3+.+im Py.m =riy P2+F23 r2,P,+H2、P,+P,+…+PP rm P +rm2P2 +rm3P33+.+Pm=rm 、通径分析的基本步骤 综上所述,通径分析可按以下步骤进行
11 同对结果 y 的决定系数,记为 dy.12 ,所以(2—8)式又可写成: dy.1+dy.2+dy.12=1 (2—9) 由(2—9)式可推广到一般,即,如果相关变量 x1 ,x2…,xm,y 间存在线性关系,复回归方程为: y= b0+b1x1+b2x2+…+bmxm 且 x1 ,x2,…,xm两两相关,即 r12≠0,r13≠0,…,rm-1, m≠0,不考虑 e 时,则 x1 ,x2…,xm对结 果 y 的决定系数之和加上两两相关原因共同对结果 y 的决定系数等于 1,即 : dy.1+dy.2+…+dy.m+dy.12+dy.13+…+dy.m-1 m=1 (2—10) 简写为: . . 1 1 + = = y ij m i j y i m i d d 其中 2 dy.i = Py.i , dy.ij=2Py.i Py.j rij (i,j=1,2,…,m,i<j ) 若考虑误差项 e,则 ∑dy.i+∑dy.ij≠1,而把 1-∑dy.i-∑dy.ij 叫作误差对结果 y 的决定系数,记为 dy.e。 如果 dy.e 的绝对值较大,说明可能还有一些对结果影响较大的原因未被考虑进去。显然,误差项到 y 的通 径系数: Py.e = d y.e 对于(2—1)式,为求 b1,b2 可得下列两个方程: SS1b1+SP12b2=SP1y (2—11) SP21b1+SS2b2=SP2y (2—12) 先对以上两式的各项除以 n-1 后,(2-11)式再除以 Sx1Sy,(2-12)式除以 Sx2Sy 可得: + = + = x y y x x y x y x x x x y y y x x x x x y x S S COV S S S S b S S b S S COV S S COV S S b S S COV S S S S b 2 2 1 2 2 1 2 1 2 1 1 2 1 1 2 1 2 21 1 2 12 1 即: Py.1 +r12Py.2=r1y (2—13) r21Py.1+ Py.2=r2y (2—14) (2-13)式中,Py.1 为 x1 对 y 的直接作用;r12Py.2 为 x1 通过 x2 对 y 的间接作用,即 x1 与 y 的相关系 数 r1y 可剖分为 x1 对 y 的直接作用和 x1 通过 x2 对 y 的间接作用。类似的(2—14)式也是将 x2 与 y 的相关 系数 r2y 剖分为 x2 对 y 的直接作用 Py.2 和 x2 通过 x1 对 y 间接作用 r21Py.1 。 推广到一般,即一个依变量 y 与 m 个自变量的情形,则有: + + + + = + + + + = + + + + = + + + + = m y m y m y y m my y y y m y m y y y y m y m y y y y m y m y r P r P r P P r r P r P P r P r r P P r P r P r P r P r P r P r 1 .1 2 .2 3 .3 . 31 .1 32 .2 .3 3 . 3 21 .1 .2 23 .3 2 . 2 .1 12 .2 13 .3 1 . 1 (2—15) 二、通径分析的基本步骤 综上所述,通径分析可按以下步骤进行:
1、计算各变量间的相关系数 2、对(2-15)方程组,按(1-16)式进行通径系数的计算 3、作出通径图,标上各通径系数及相关系数 4、由方程组(2-15)计算各原因(自变量)对结果(依变量)的直接作用和间接作用,并进行分析 5、计算决定系数,进行决定程度分析,计算Pye并标在通径图上 6、对各通径系数进行显著性检验,剔除不显著的自变量,为建立最优回归方程提供依据,并算出总贡 献率R2(相关指数)。 第二节实例分析 全模型法通径分析(计算全部自变量的通经系数,再进行显著性检验,去掉不显著的自变量) 例1采用第一讲的例1资料为例,为方便起见,自变量顺序为干球温度(ⅹ1)、湿球温度(x)、露点 温度(x3)、相对温度(x),依变量为周平均产量率(y,共5个相关变量,着重分析各原因与结果间(y) 的详细关系。 计算各变量间的相关系数(见2—1表) 表2-1变量间的相关系数r 0.9944 0.9312 0.2287 0.7910 0.9642 0.3275 0.7325 0.5557 0.5615 -0.2648 2、计算通径系数 由(2-15)式可得以下正规方程组 Pn1+0.9944P2+0.9312P3+0.2287P4=0.7910 09944P1+P2+0.9642P3+0.3275P,4=0.7325 0.9312P1+0.9642P2+P3+0.55574=0.5615 02287P+0.3275P2+0.55573,3+P4=02648 解上述方程组,可得各通径系数,求解方法仍可采用(1-16)式的求解求逆紧凑法进行,即对下例增 广矩阵(相关阵R)进行4次消去变换,可得解 0.9944093120.22870.7910 0.99441 0.96420.32750.732 R0)=0.93120.96421 0.55570.5615 0.22870.32750.55571 -0.2648 0.79100.73250.5615-0.26481 对x1的消去变换L=0,K=1
12 1、计算各变量间的相关系数。 2、对(2—15)方程组,按(1—16)式进行通径系数的计算。 3、作出通径图,标上各通径系数及相关系数。 4、由方程组(2—15)计算各原因(自变量)对结果(依变量)的直接作用和间接作用,并进行分析。 5、计算决定系数,进行决定程度分析,计算 Py.e 并标在通径图上。 6、对各通径系数进行显著性检验,剔除不显著的自变量,为建立最优回归方程提供依据,并算出总贡 献率 R 2(相关指数)。 第二节 实例分析 一、全模型法通径分析(计算全部自变量的通经系数,再进行显著性检验,去掉不显著的自变量) 例 1 采用第一讲的例 1 资料为例,为方便起见,自变量顺序为干球温度(x1)、湿球温度(x2)、露点 温度(x3)、相对温度(x4),依变量为周平均产量率(y),共 5 个相关变量,着重分析各原因与结果间(y) 的详细关系。 1、计算各变量间的相关系数 (见 2—1 表) 表 2—1 变量间的相关系数 rij x2 x3 x4 y x1 0.9944 0.9312 0.2287 0.7910 x2 0.9642 0.3275 0.7325 x3 0.5557 0.5615 x4 -0.2648 2、计算通径系数 由(2—15)式可得以下正规方程组 + + + = + + + = + + + = + + + = 0.2287 0.3275 0.5557 0.2648 0.9312 0.9642 0.5557 0.5615 0.9944 0.9642 0.3275 0.7325 0.9944 0.9312 0.2287 0.7910 .1 .2 .3 .4 .1 .2 .3 .4 .1 .2 .3 .4 .1 .2 .3 .4 y y y y y y y y y y y y y y y y P P P P P P P P P P P P P P P P 解上述方程组,可得各通径系数,求解方法仍可采用(1—16)式的求解求逆紧凑法进行,即对下例增 广矩阵(相关阵 R (0))进行 4 次消去变换,可得解。 − − = 0.7910 0.7325 0.5615 0.2648 1 0.2287 0.3275 0.5557 1 0.2648 0.9312 0.9642 1 0.5557 0.5615 0.9944 1 0.9642 0.3275 0.7325 1 0.9944 0.9312 0.2287 0.7910 (0) R 对 x1 的消去变换 L=0,K=1
0.9944 0.931202287 0.7910 0.99440.01116900382150.100081-0.054070 0.931200382150.1328670.3427350.175079 0.22870.1000810.3427350.947696 0.445702 0.7910-0.054070-0.17079-04457020.374319 对x2的消去变换L=1,K=2 8953353 89032143-2471164-86817265.604968 89032143895335334215248960605-4.841078 R()=2.471164 3.421524000211300003050009923 8.681726 8.9606050.0003050.050910.038798 -5.60496848410780009923003877990.1125619 对x3的消去变换L=2,K=3 297957196-4090.5215116950497 8.32502617.209967 4090.521556299070916192730718466727-20.90913 R)=116950497-161973071473260770.143454696167 8.325026 8466727 0.1443450.0508660.037366 -1720996720.90913-46961670.0373660.0659618 对x4的消去变换L=3,K=4 4342.094 5476.235381145.880627163.6658323.325504 5476.235385631480991595.24661-1664516-27.128761 R(4)=1145880627159524661473670382728377545901316 163.66583 1664516 2.83775196594980.7345968 23.324504 7.128761 4.59013160.73459680.0385129 解得: P1=23.3255,Py2=-27.1288,P3=4.5902,P4=0.7346 3、作出通径图 By2=-27.1288 4、计算x对y的直接作用及间接作用。间接作用依下式计算 ,i≠j)(2-16) 如x1通过x2对y的间接作用为
13 − − − − − − − − − − = 0.7910 0.054070 0.17079 0.445702 0.374319 0.2287 0.100081 0.342735 0.947696 0.445702 0.9312 0.038215 0.132867 0.342735 0.175079 0.9944 0.011169 0.038215 0.100081 0.054070 1 0.9944 0.9312 0.2287 0.7910 (1) R 对 x2 的消去变换 L=1,K=2 − − − − − − − − = 5.604968 4.841078 0.009923 0.0387799 0.1125619 8.681726 8.960605 0.000305 0.05091 0.038798 2.471164 3.421524 0.002113 0.000305 0.009923 89.032143 89.53353 3.421524 8.960605 4.841078 89.53353 89.032143 2.471164 8.681726 5.604968 (2) R 对 x3 的消去变换 L=2,K=3 − − − − − − − − − − = 17.209967 20.90913 4.696167 0.037366 0.0659618 8.325026 8.466727 0.144345 0.050866 0.037366 1169.50497 1619.73071 473.260777 0.144345 4.696167 4090.5215 5629.90709 1619.273071 8.466727 20.90913 2979.57196 4090.5215 1169.50497 8.325026 17.209967 (3) R 对 x4 的消去变换 L=3,K=4 − − − − − − − − − − = 23.324504 27.128761 4.5901316 0.7345968 0.0385129 163.66583 166.4516 2.83775 19.659498 0.7345968 1145.880627 1595.24661 473.6703827 2.83775 4.5901316 5476.23538 5631.48099 1595.24661 166.4516 27.128761 4342.0943 5476.23538 1145.880627 163.66583 23.325504 (4) R 解得: Py.1=23.3255, Py.2= -27.1288, Py.3=4.5902 ,Py.4=0.7346 3、作出通径图 x1 Py.1=23.3255 Py.2= -27.1288 x2 y Py.3=4.5902 Py.4=0.7346 x3 x4 e 4、计算 xi 对 y 的直接作用及间接作用。间接作用依下式计算: Pi→j→y=rijPyj (i,j=1,2,…m,i≠j) (2-16) 如 x1 通过 x2 对 y 的间接作用为:
P1-2-y=1Py2=0.9944×(-27.1288)=-269768 又如x2通过x1对y的间接作用为: P2-1-y=rPy1=0.9944×23.3255=23.1949 余类推,可得结果如表2-2 表2-2各原因对结果的直接作用和间接作用 XI ri X 23.3255 26976842743 0.1680 0.7910 23.1949-27.12884.4258 0.2406 0.7325 X3 21.7207 26.157645901 0.4082 0.5615 5.345 8.8846 2.5507 0.7346 0.2648 表2-2中,对角线上的4个数为各原因对结果的直接作用,其余皆为各原因的间接作用。 从表2-2中可以看出,舍内温度x对产蛋率y的直接作用为23325,但x1通过舒适度x2对产蛋率 的影响也较大,达到-26.9768,因此在r1y值中因受x2的影响大,且为负号。故实际上是估低了温度对产蛋 率的影响程度。相反地,在x2对y的作用上,x2通过x对y的间接作用亦达到23.1949,且为正符号,所 以在r2y中,有相当大的一部分是通过x的影响。因此ⅹ2与y的影响,显然是被夸大了。在露点温度x3 和相对湿度x对y的作用上,主要的是通过x1和x2来实现了,本身直接作用并不大。 5、计算决定系数及Pye d=P21=23325541079 d2=P2=(-27.1288)=7359718 d,3=P3=4.59012=210690 dy4=14=0.7346=0.5396 d12=2PyPy2r12=2×23.3255×(-271288×0.9944=-12584984 d:13=2PyPy31=2×23.3255×4.5901×0.9312=1994004 d14=2PyPy4r4=2×233255×0.7346×0.2287=7.8375 dy23=2PyPy3r23=2×(-27.1288)×4.5901×0.9642=-240.319 d24=2Py2Py4r24=2×(-27.1288)×0.7346×0.3275=-13.0534 d34=2Py3Py4r34=2×4.5901×0.7346×0.5557=3.7475 d,=1-(d,+∑d,)=00389,或dy2=m=00385 0.0389=0.1972 依决定系数绝对值的大小可知 dy12>dy2>dy1>…>dy4 因此,从四个环境因素对产蛋率的影响来看,主要是舒适度x2和温度x1的作用较大。但从d12=-12585 来看,x1与x2共同对产蛋率的影响最大,且为负。由于x1与x的相关系数为0.9944,所以在选择其中 个因素进行改善时,应兼顾另一个环境因素,不宜同时增大或减少其数值为妥。而从d=00389来看,影 响产蛋率的因素已基本被全部考虑了。 6、通径分析的显著性检验 通径分析的显著性检验与多元线性回归分析中的显著性检验是等价的。在通径分析中: 14
14 P1→2→y=r12Py2 =0.9944×(-27.1288)=-26.9768 又如 x2 通过 x1 对 y 的间接作用为: P2→1→y=r12Py1 =0.9944×23.3255=23.1949 余类推,可得结果如表 2-2 表 2-2 各原因对结果的直接作用和间接作用 x1 x2 x3 x4 riy x1 23.3255 -26.9768 4.2743 0.1680 0.7910 x2 23.1949 -27.1288 4.4258 0.2406 0.7325 x3 21.7207 -26.1576 4.5901 0.4082 0.5615 x4 5.3345 -8.8846 2.5507 0.7346 -0.2648 表 2-2 中,对角线上的 4 个数为各原因对结果的直接作用,其余皆为各原因的间接作用。 从表 2-2 中可以看出,舍内温度 x1 对产蛋率 y 的直接作用为 23.3255,但 x1 通过舒适度 x2 对产蛋率 的影响也较大,达到-26.9768,因此在 r1y 值中因受 x2 的影响大,且为负号。故实际上是估低了温度对产蛋 率的影响程度。相反地,在 x2 对 y 的作用上,x2 通过 x1 对 y 的间接作用亦达到 23.1949,且为正符号,所 以在 r2y 中,有相当大的一部分是通过 x1 的影响。因此 x2 与 y 的影响,显然是被夸大了。在露点温度 x3 和相对湿度 x4 对 y 的作用上,主要的是通过 x1 和 x2 来实现了,本身直接作用并不大。 5、计算决定系数及 Py.e 2 d y.1 = Py.1 =23.32552=544.0789 2 d y.2 = Py.2 =(-27.1288)2=735.9718 2 d y.3 = Py.3 =4.59012=21.0690 2 dy.4 = Py.4 =0.73462=0.5396 dy.12=2Py.1Py.2r12=2×23.3255×(-27.1288)×0.9944=-1258.4984 dy.13=2Py.1Py.3r13=2×23.3255×4.5901×0.9312=199.4004 dy.14=2Py.1Py.4r14=2×23.3255×0.7346×0.2287=7.8375 dy.23=2Py.2Py3r23=2×(-27.1288)×4.5901×0.9642=-240.1319 dy.24=2Py.2Py.4r24=2×(-27.1288)×0.7346×0.3275=-13.0534 dy.34=2Py.3Py.4r34=2×4.5901×0.7346×0.5557=3.7475 1 ( . . ) 0.0389 4 1 . = − + = y ij i j d y e d y i d ,或 0.0385 (4) dy.e = rYY = Py.e = d y.e = 0.0389 = 0.1972 依决定系数绝对值的大小可知: dy.12>dy.2 >dy.1>…>dy.4 因此,从四个环境因素对产蛋率的影响来看,主要是舒适度 x2 和温度 x1 的作用较大。但从dy.12=-1258.5 来看,x1 与 x2 共同对产蛋率的影响最大,且为负。由于 x1 与 x2 的相关系数为 0.9944,所以在选择其中一 个因素进行改善时,应兼顾另一个环境因素,不宜同时增大或减少其数值为妥。而从 dy.e=0.0389 来看,影 响产蛋率的因素已基本被全部考虑了。 6、通径分析的显著性检验 通径分析的显著性检验与多元线性回归分析中的显著性检验是等价的。在通径分析中:
(1)回归方程的显著性检验 SS、=SSr=1 df=n-1=12-1=1l SS=2P,n=233255×0791+(-271289×0.7325+45901×05615+07346×(-02648)=0.9614 或SSu=1 0.0385=09615 dfu=m=4 SSQ=1-SSu=1-0.9614=0.0386 或SSQ=r4)=0.0385 n-1=12 F=S/=09615/443587 SSo/dJ0.0386/7 Foo(,-=7.85,F>Fo1,p<0.01,表明回归方程极显著。 类似地相关指数: =0961 Ro1(=0.904,表明x1,x2,x3,x对y的总贡献率达09615,即产蛋率中9615%是由该4个环境因素 所决定的 2)通径系数的显著性检验检验公式如(2-17)式 FsPa/s (df1=1,df2=n-m-1) 其中r)为相关阵变换至最后一次(m次)时,对角线上的元素,亦即逆阵R=(r1hxm中对角线上的 元素。本例为R4中对角线上的元素 P 23.3255/4342.0943 F= 22.7824 SSo/dfo 0.0385/7 F2 P2/42)(271289261481 =23.7616 SSo/dfo 0.0385/7 6:P3/rm)49012473670480873 0.0385/7 P2/r4m)073462 F =499) SSo/do 0.0385/7 检验结果表明:P3、P32达到1%极显著水准,P3达5%显著水准。P34在显著水准O.1上显著。若 要求Py必须达5%显著水准,则应对x进行剔除。剔除方法可对R4)中的x再作一次消去变换成R⑤)。但 本例中R(恰是变换成R5的结果。从R3)中可得到:Py1=17.21,Py2=20.9091,Py3=46962。通常为了避 免对不显著自变量剔除的麻烦,可采用逐步通径分析法,该方法与逐步回归分析法相似,可见例2 、逐步通径分析(每步选显著的自变量,剔除不显著的自变量) 例2为研究水稻穗部性状对产量的影响,测得35个杂交组合各10株的平均穗长(x1)、粒长(x2)、 粒宽(x3)、一次枝梗数(x4)、着粒密度(xs)5个穗部性状及单株谷重(y)。试作逐步通径分析 (一)、计算各变量间的相关系数(见2-3表) 表2-3变量间的相关系数 x1.00.37150.21070.5561037600.5950
15 (1)回归方程的显著性检验 SSy=SST=1 df=n-1=12-1=11 SSU= y i iy m i P r. =1 =23.3255×0.791+(-27.1288)×0.7325+4.5901×0.5615+0.7346×(-0.2648)=0.9614 或 SSU=1- (4) yy r =1-0.0385=0.9615 dfU= m=4 SSQ=1-SSU=1-0.9614=0.0386 或 SSQ= (4) yy r =0.0385 dfQ=n-m-1=12-4-1=7 ** 43.587 0.0386 7 0.9615 4 = = = Q Q U U SS df SS df F F0.01(4,7)=7.85, F>F0.01, p<0.01,表明回归方程极显著。 类似地相关指数: ** (4) 2 0.9615 1 1 = − = = yy y u r SS SS R R0.01(7)=0.904,表明 x1,x2,x3,x4 对 y 的总贡献率达 0.9615,即产蛋率中 96.15%是由该 4 个环境因素 所决定的。 (2)通径系数的显著性检验 检验公式如(2-17)式 Q Q m y i ii i SS df P r F 2 ( ) . = (df1=1,df2=n-m-1) 其中 rij(m)为相关阵变换至最后一次(m 次)时,对角线上的元素,亦即逆阵 R -1=(rij)n×m中对角线上的 元素。本例为 R (4)中对角线上的元素。 ** ( ) 2 11 2 .1 1 22.7824 0.0385 7 23.3255 4342.0943 = = = Q Q m y S S df P r F ** ( ) 2 22 2 .2 2 23.7616 0.0385 7 ( 27.1288) 5631.481 = − = = Q Q m y S S d f P r F * ( ) 2 33 2 .3 3 8.0873 0.0385 7 4.901 473.6704 = = = Q Q m y S S df P r F (*) ( ) 2 44 2 .4 4 4.99 0.0385 7 0.7346 19.6595 = = = Q Q m y S S df P r F 检验结果表明:Py.1 、Py.2 达到 1%极显著水准,Py.3 达 5%显著水准。Py.4 在显著水准 0.1 上显著。若 要求 Py.i 必须达 5%显著水准,则应对 x4 进行剔除。剔除方法可对 R (4)中的 x4 再作一次消去变换成 R (5)。但 本例中 R (3)恰是变换成 R (5)的结果。从 R (3) 中可得到:Py.1=17.21,Py.2=-20.9091,Py.3=4.6962。通常为了避 免对不显著自变量剔除的麻烦,可采用逐步通径分析法,该方法与逐步回归分析法相似,可见例 2。 二、逐步通径分析(每步选显著的自变量,剔除不显著的自变量) 例 2 为研究水稻穗部性状对产量的影响,测得 35 个杂交组合各 10 株的平均穗长(x!)、粒长(x2)、 粒宽(x3)、一次枝梗数(x4)、着粒密度(x5)5 个穗部性状及单株谷重(y)。试作逐步通径分析。 (一)、计算各变量间的相关系数 (见 2—3 表) 表 2—3 变量间的相关系数 rij x1 x2 x3 x4 x5 y x1 1.0 0.3715 0.2107 0.5561 0.3760 0.5950
x03751002347-024-020610194 021070.23471.00.11270.27050.0320 x40.5561-.0.21440.11271.00.75670.3971 x50.3760-0.20660.27050.75671.00.3708 0.5950-0.19640.03200.39710.3708 1.0 由(2-15)式可得以下正规方程组 Px+0.3715P,2+0.2107P3+05561P,4+0.3760=0.5950 0.3715P+P,+0.2347P3-0.2144P4-0.2066P6=-0.1964 02101+02347P2+P23+0.1127P4+02705P=00320 0.561P1-0.2144P2+0.1127P3+P4+0.7567Ps=0.3971 0.5950P1-0.2066P2+0.2705P3+0.7567P4+Ps=0.3708 (二)、确定显著的F检验水准 本例n=35,自变量m=5,剩余自由度(n-m-1)分别为29、30、31、32、33。其F值相差不大,故可 选一个共用检验的F值,作为引入和剔除自变量的标准。本例可选F00s01,32=3.15作为共用检验的F值。 (三)、选取自变量 由表2—3得相关阵R0 10.37150.21070.55610.37600.5950 0.3715 0.2347-0.2144-0.2066-0.1964 0.5561-0.21440.1127 0.75670.397 0.3760-0.20660.27050.7567 0.3708 0.5950-0.19640.03200.39710.3708 引入第一个自变量 (1)对5个自变量计算偏回归平方和,依(1-14)式,各自变量的偏回归平方和u为 x4=10)]2/m=0595091=03540 n2=g2/2=(-01964)21=00086 n=rgP2/39=0201=00 =[r2/039711=0157 n3=r9P/39=037081=-01375 u最大的值是对方差贡献最大的自变量。该自变量应优先选入。本例中以x为最大,故先选入x (2)对x1选入后是否显著进行F检验 其检验公式为 F=u[(1-∑u)/(n-1-1)](i=1,2,…,m) (或F=[(r0-u)/(n-1-1)J。本次选入K为1,L为0 F1=u/(1-40)/(35-1-1)0.3540(1-03540)33=1808 F1>3.15,故差异显著,可选入 (3)剔除或选入一个自变量x后,相关系数阵R(r)依(1-16)式把R变换为R
16 x2 0.3715 1.0 0.2347 -0.2144 -0.2066 -0.1964 x3 0.2107 0.2347 1.0 0.1127 0.2705 0.0320 x4 0.5561 -0.2144 0.1127 1.0 0.7567 0.3971 x5 0.3760 -0.2066 0.2705 0.7567 1.0 0.3708 y 0.5950 -0.1964 0.0320 0.3971 0.3708 1.0 由(2—15)式可得以下正规方程组 − + + + = − + + + = + + + + = + + − − = − + + + + = 0.5950 0.2066 0.2705 0.7567 0.3708 0.5561 0.2144 0.1127 0.7567 0.3971 0.2107 0.2347 0.1127 0.2705 0.0320 0.3715 0.2347 0.2144 0.2066 0.1964 0.3715 0.2107 0.5561 0.3760 0.5950 .1 .2 .3 .4 .5 .1 .2 .3 .4 .5 .1 .2 .3 .4 .5 .1 .2 .3 .4 .5 .1 .2 .3 .4 .5 y y y y y y y y y y y y y y y y y y y y y y y y y P P P P P P P P P P P P P P P P P P P P P P P P P (二)、确定显著的 F 检验水准 本例 n=35,自变量 m=5,剩余自由度(n-m-1)分别为 29、30、31、32、33。其 F 值相差不大,故可 选一个共用检验的 F 值,作为引入和剔除自变量的标准。本例可选 F0.05(1,32)=3.15 作为共用检验的 F 值。 (三)、选取自变量 由表 2—3 得相关阵 R (0): − − − − − − = 0.5950 0.1964 0.0320 0.3971 0.3708 1 0.3760 0.2066 0.2705 0.7567 1 0.3708 0.5561 0.2144 0.1127 1 0.7567 0.3971 0.2107 0.2347 1 0.1127 0.2705 0.0320 0.3715 1 0.2347 0.2144 0.2066 0.1964 1 0.3715 0.2107 0.5561 0.3760 0.5950 (0) R 1 、引入第一个自变量 (1)对 5 个自变量计算偏回归平方和,依(1—14)式,各自变量的偏回归平方和 ui 为: (1) 1 u = (0) 11 (0) 2 1 [r ] r y =0.59502 /1=0.3540 (1) u2 = (0) 22 (0) 2 2 [r ] r y =(-0.1964)2 /1=0.0.0386 (1) 3 u = (0) 33 (0) 2 3 [r ] r y =0.03202 /1=0.0010 (1) 4 u = (0) 44 (0) 2 4 [r ] r y =0.39712 /1=0.1577 (1) 5 u = (0) 55 (0) 2 5 [r ] r y =0.37082 /1=0.1375 ui 最大的值是对方差贡献最大的自变量。该自变量应优先选入。本例 (1) 1 u 中以 x1 为最大,故先选入 x1。 (2)对 x1 选入后是否显著进行 F 检验 其检验公式为: Fi=ui/[(1-∑ui)/(n-1-1)] (i=1,2,…,m) (或 Fi=[( (1) yy r -ui)/(n-1-1)]。本次选入 K 为 1,L 为 0。 F1=u1/[(1- (1) 1 u )/(35-1-1)]=0.3540/[(1-0.3540)/33]=18.08 F1>3.15,故差异显著,可选入。 (3)剔除或选入一个自变量 xk 后,相关系数阵 R (L)=〔 (l) ij r 〕依(1—16)式把 R (0)变换为 R (1)
由于引选x1,故按上式K+1,L=0时。 0.371 0.210 0.5561 0.37600.59 0.37150.8619880.156425-0.420991-0.346284-0.417443 0.21070.1564250.95606-0.0044700.191277-0.093367 0.5561-0.420991 00447006907530.5476060.0662 0.3760-0.3462840.1912770.5476060.8586240.147080 0.5950-0417443-0.0933670.0662210.1470800.645975 2、选入第二个自变量L=1 )计算各自变量偏回归平方和,按(1-14)式算得: 42=2/=0595071=03540(已选) l2=]2/2=(041749086198802022 n32-3/3=-00935709556001 l32)=[r]3/=0.14708010.858624=0.02519 由于方程中仅含一个自变量x1。而它是前一步刚选入的,不可能立即被剔除,故无须作检验而直接引 入贡献最大的u2),即x2。 (2)对选进x进行F检验,按(1-15)式算得: F2=2)/(1-u)-a2)(n-2-1)=0.2022/(1-0.3540-0.202)/32]=1458 =a2)(r-n2)(n-2-1=0201(064975-0202)/32=1458 F2>3.15,差异显著,可选进x。 (3)选进x2后,按(1-16)式进行消去变换,使R()变换成R2)。 0.4309800.1432840.7375390.1492420.774910 0.4309801.1601090.181470-0.488395-0.401727-0.484279 (2) -0.143284-0.181470.927220-00719270.254117-0.017614 0.73753904883951-0.07192704851430.378483-0.137656 0.1492420.4017270.2541170.3784830719512-0.020618 0.7749100.484279-0.017614-0.137656-0.0206180.443816 (4)对选进的x1,x2进行显著性检验 先算出各偏回归平方和及剩余平方和: r/2-07491057(已选) =2]12=(0484279160109=0202159(已选 n3-[r32/r32=(017614)3092722000 n23=2y/42=(01376560485143=0091 =r92/g=(-00618079512=00
17 由于引选 x1,故按上式 K+1,L=0 时。 − − − − − − − − − − − − − − − = 0.5950 0.417443 0.093367 0.066221 0.147080 0.645975 0.3760 0.346284 0.191277 0.547606 0.858624 0.147080 0.5561 0.420991 0.004470 0.690753 0.547606 0.066221 0.2107 0.156425 0.955606 0.004470 0.191277 0.093367 0.3715 0.861988 0.156425 0.420991 0.346284 0.417443 1 0.3715 0.2107 0.5561 0.3760 0.5950 (1) R 2、选入第二个自变量 L=1 (1)计算各自变量偏回归平方和,按(1—14)式算得: (2) 1 u = (1) 11 (1) 2 1 [r ] r y =0.59502 /1=0.3540(已选) (2) 2 u = (1) 22 (1) 2 2 [r ] r y =(-0.417443)2 /0.861988=0.2022 (2) 3 u = (1) 33 (1) 2 3 [r ] r y =(-0.093367)2 /0.955606=0.0091 (2) u4 = (1) 44 (1) 2 4 [r ] r y =0.066212 /0.690753=0.0064 (2) 5 u = (1) 55 (1) 2 5 [r ] r y =0.1470802 /0.858624=0.02519 由于方程中仅含一个自变量 x1。而它是前一步刚选入的,不可能立即被剔除,故无须作检验而直接引 入贡献最大的 u2 (2),即 x2。 (2)对选进 x2 进行 F 检验,按(1—15)式算得: ( ) /[( )/( 2 1)] 0.2020 /[(0.64975 0.2022)/ 32] 14.58 /[(1 )/( 2 1)] 0.2022 /[(1 0.3540 0.2022)/ 32] 14.58 (2) 2 2 (1) 2 (2) 2 (1) 1 (2) 2 2 = − − − = − = = − − − − = − − = u r u n F u u u n yy F2>3.15,差异显著,可选进 x2。 (3)选进 x2 后,按(1—16)式进行消去变换,使 R (1)变换成 R (2)。 − − − − − − − − − − − − − − − − − − = 0.774910 0.484279 0.017614 0.137656 0.020618 0.443816 0.149242 0.401727 0.254117 0.378483 0.719512 0.020618 0.737539 0.4883951 0.071927 0.485143 0.378483 0.137656 0.143284 0.18147 0.927220 0.071927 0.254117 0.017614 0.430980 1.160109 0.181470 0.488395 0.401727 0.484279 1.160109 0.430980 0.143284 0.737539 0.149242 0.774910 (2) R (4)对选进的 x1,x2 进行显著性检验 先算出各偏回归平方和及剩余平方和: (3) 1 u = (2) 11 (2) 2 1 [r ] r y =0.774912 /1.160109=0.5176 (已选) (3) 2 u = (2) 22 (2) 2 2 [r ] r y =(-0.484279)2 /1.160109=0.202159 (已选) (3) 3 u = (2) 33 (2) 2 3 [r ] r y =(-0.017614)2 /0.92722=0.0003 (3) u4 = (2) 44 (2) 2 4 [r ] r y =(-0.137656)2 /0.485143=0.0391 (3) 5 u = (1) 55 (1) 2 5 [r ] r y =(-0.020618)2 /0.719512=0.0006
剩余平方和Q2)=r1)=0448 F=n2)Q2)(n-2-1)=0.2022/04148132)=1458 13>n2)>n2),∴F1>F2>3.15,差异均显著,x1、x2不被剔除。 3、选入第三个自变量L=2,除x1,x2外,数u4(3最大,故选入x4 (1)对选入的x是否显著进行F检验 F=l43)Q2)-4)/n-3-1)]=0.0391(0.44380039131=2995 F40.05)。其他分析步骤可参考 例1
18 剩余平方和 0.4438 (2) (2) Q = ryy = /[ /( 2 1)] 0.2022 /(0.4438 / 32) 14.58 (3) (2) F = u2 Q n − − = = ∵ (3) 2 (3) 1 u u > (3) 2 u ,∴F1>F2>3.15,差异均显著,x1、x2 不被剔除。 3、选入第三个自变量 L=2,除 x1 ,x2 外,数 u4 (3)最大,故选入 x4。 (1)对选入的 x4 是否显著进行 F 检验 /[( )/( 3 1)] (3) 4 (3) (2) F4 = u4 Q − u n − − =0.0391/[(0.4438-0.0391)/31]=2.995 F40.05)。其他分析步骤可参考 例 1