第四讲典型相关分析 CANONICAL COORELATION ANALYSIS 基本知识 适宜资料:两组变量间呈线性相关关系 二、分析目的:把研究两组变量间的复杂相关性简化为研究两个综合典型变量间的相关,并由各对 典型变量的线性组合中系数的绝对值的大小,分析各变量(因素)在这个典型变量中的地位(作用)。从而 把大量繁杂的简单相关研究简化为简单综合的典型相关研究,有利于发现问题的关键和本质 、分析思路:在两组变量中,分别找出由它们的线性组合构成的综合变量一一典型变量,并使它们 的典型相关最大,利用拉格朗日乘数原理,求出典型相关系数及特征向量a1和B,并构造出各对典型 变量和v;,最后利用各典型变量中的特征向量的分量a1和B1分析该因素对典型变量的影响的作用(相 对重要性)。 四、分析方法:见后。 对两个变量间的相关性研究,可以通过相关分析,了解其相关程度及性质。而在研究两组变量间的相 关关系时,譬如,在硏究一组环境因素与畜禽诸生产性能间的相关性时,通常不采用一对一的直接硏究, 而是把各环境因素当作一个整体,把各生产性能也作为一个整体来研究。这时研究两组变量之间的相关就 变为研究两个新的变量之间的相关研究。当然,这两个新的变量分别由各自整体中变量的线性组合所构成 因而不会丢失原来的信息。而且,这两个线性组合具有这样的性质,即由它们所构成的两个新变量之间具 有最大的相关。类似地,还可找出由两组变量构成的第二对线性组合,该组合与第一对线性组合不相关, 但该对组合间有最大的相关。如此类推,直到两组变量间的相关被分解完毕。这种逐步得到的线性组合称 为典型变量,它们之间的相关系数称为典型相关系数,这种分析方法就称为典型相关分析。可见,典型相 关分析是研究两组变量间相关关系的一种统计方法。由于它避免了孤立地对两个变量间的研究,因此,分 析结果较为全面,且各组中变量个数不受限制,应用十分广泛。 第一节典型相关系数与典型变量 在实际工作中,我们通常接触到的多为样本资料,对其所在总体的参数常是未知的,所以,对于总体 的典型相关系数及典型变量,只能通过样本数据对其估计。以下着重介绍样本典型相关系数及典型变量的 计算方法 典型相关系数 设有两组变量X1{x1,x,…,x}和X2{xp+1,xp+2,…,xp+}的n次观察值取自多元正态总体Np (μ,∑),样本数据阵为:
19 第四讲 典型相关分析 CANONICAL COORELATION ANALYSIS 基本知识 一、适宜资料:两组变量间呈线性相关关系。 二、分析目的:把研究两组变量间的复杂相关性简化为研究两个综合典型变量间的相关,并由各对 典型变量的线性组合中系数的绝对值的大小,分析各变量(因素)在这个典型变量中的地位(作用)。从而 把大量繁杂的简单相关研究简化为简单综合的典型相关研究,有利于发现问题的关键和本质。 三、分析思路:在两组变量中,分别找出由它们的线性组合构成的综合变量——典型变量,并使它们 的典型相关最大,利用拉格朗日乘数原理,求出典型相关系数 i 及特征向量 i 和 i ,并构造出各对典型 变量 i 和 i ,最后利用各典型变量中的特征向量的分量 i 和 i 分析该因素对典型变量的影响的作用(相 对重要性)。 四、分析方法:见后。 对两个变量间的相关性研究,可以通过相关分析,了解其相关程度及性质。而在研究两组变量间的相 关关系时,譬如,在研究一组环境因素与畜禽诸生产性能间的相关性时,通常不采用一对一的直接研究, 而是把各环境因素当作一个整体,把各生产性能也作为一个整体来研究。这时研究两组变量之间的相关就 变为研究两个新的变量之间的相关研究。当然,这两个新的变量分别由各自整体中变量的线性组合所构成, 因而不会丢失原来的信息。而且,这两个线性组合具有这样的性质,即由它们所构成的两个新变量之间具 有最大的相关。类似地,还可找出由两组变量构成的第二对线性组合,该组合与第一对线性组合不相关, 但该对组合间有最大的相关。如此类推,直到两组变量间的相关被分解完毕。这种逐步得到的线性组合称 为典型变量,它们之间的相关系数称为典型相关系数,这种分析方法就称为典型相关分析。可见,典型相 关分析是研究两组变量间相关关系的一种统计方法。由于它避免了孤立地对两个变量间的研究,因此,分 析结果较为全面,且各组中变量个数不受限制,应用十分广泛。 第一节 典型相关系数与典型变量 在实际工作中,我们通常接触到的多为样本资料,对其所在总体的参数常是未知的,所以,对于总体 的典型相关系数及典型变量,只能通过样本数据对其估计。以下着重介绍样本典型相关系数及典型变量的 计算方法。 一、典型相关系数 设有两组变量 X1{x1,x2,…,xp}和 X2{xp+1,xp+2,…,xp+q}的 n 次观察值取自多元正态总体 Np+q (μ,∑),样本数据阵为:
x Mip x X=[X1, X2F-I X2p x2 p+l x2 p+2 n p+ 由Ⅹ计算得协方差阵为 其中∑1,∑2分别为第一组和第二组变量的协方差阵,∑1=∑?1为第一组与第二组变量之间的协方 差阵。若对X1,X2进行标准化,即: xh=(xk-x)/S, (i=1,2,…,p,k=1,2,…,n) x=01b-x,)/S (j=1,2, q,k=1,2 由协方差阵进一步转化为相关阵R: R1R12 在研究两组随机变量X1,X2的相关时,主要是考虑这两组变量线性组合间的相关。故令: U=ax,+a2x2 P C V=B1 p+l+B2xp++.+Bgpg=Ar2 和v分别为X1,X2的任意一个线性组合一一典型变量(由各组变量的线性组合构成的综合变量) 典型变量间的相关系数称为典型相关系数,记为(利用典型相关系数来代表两组变量间相关性的分析方 法称为典型相关分析)。根据拉格朗日乘数6=a'>2B-(ana)-A2(Σ2B),利用特征方 程R12R2R21-2R1|=0求出特征根λ(典型相关系数),再把代入下列方程: (R12R2R21-22R1a=0 (3-12) 或(R21R1R12-x2R2)=0 (3-13) 即可求出构成各典型向量的线性组合的系数——特征向量a1和B 以下在教学中可以省去。 上式分别为X1,X2的任意一个线性组合,其中,a;(F1,2,…,p),β(j=1,2,q)为任意实 数 (3-1)式中的α,β若确定,则U,Ⅴ便确定。确定α,β的原则是使U,V之间的相关系数ρ达到 最大,即p=E(m)/EUE2为最大。 假设a,β是这样的向量:能使得U,V都具有单位方差(方差为1)即 EU=EaX1Xa=a∑1a=1 (3-2) E=EBX2X2B=B∑2B 此时有EC=Eax1=aEx1=0 EV=EBX2=BEX2=0 于是问题转化为在方差为1的限制条件下,求使E(U,V)达到最大的a,β。根据求条件极值原理 6=a22B-41(a2xa)-2(B22B)
20 X=[X1,X2]= + + + + + + + + + n n np n p n p n p q p p p p q p p p p q x x x x x x x x x x x x x x x x x x 1 2 1 2 21 22 2 2 1 2 2 2 11 12 1 1 1 1 2 1 由 X 计算得协方差阵为: = 21 22 11 12 其中∑11,∑22 分别为第一组和第二组变量的协方差阵,∑12=∑21 为第一组与第二组变量之间的协方 差阵。若对 X1 ,X2 进行标准化,即: ki ki i Si x = (x − x ) (i=1,2,…,p,k=1,2,…,n) kj kj j S j x = (x − x ) (j=1,2,…,q,k=1,2,…,n) 由协方差阵进一步转化为相关阵 R: = 21 22 11 12 R R R R R 在研究两组随机变量 X1,X2 的相关时,主要是考虑这两组变量线性组合间的相关。故令: = + + + = = + + + = 1 +1 2 +2 + 2 1 1 2 2 1 V x x x X U x x x X p p q p q p p (3—1) 和 分别为 X1,X2 的任意一个线性组合——典型变量(由各组变量的线性组合构成的综合变量), 典型变量间的相关系数称为典型相关系数,记为 i (利用典型相关系数来代表两组变量间相关性的分析方 法称为典型相关分析)。根据拉格朗日乘数 ( ) ( ) 2 2 22 1 2 1 11 1 =12 − − ,利用特征方 程 11 0 2 21 1 12 22 − = − R R R R 求出特征根 i (典型相关系数),再把 i 代入下列方程: ( 11) 0 2 21 1 12 22 − = − R R R R (3—12) 或 ( 22 ) 0 2 12 1 21 11 − = − R R R R (3—13) 即可求出构成各典型向量的线性组合的系数——特征向量 i 和 i 。 以下在教学中可以省去。 上式分别为 X1,X2 的任意一个线性组合,其中,αi(i=1,2,…,p),βj(j=1,2,…q)为任意实 数。 (3—1)式中的α,β若确定,则 U,V 便确定。确定α,β的原则是使 U,V 之间的相关系数ρ达到 最大,即 2 2 = E(UV) EU EV 为最大。 假设α,β是这样的向量:能使得 U,V 都具有单位方差(方差为 1)即 = = = = = = 1 1 2 2 22 2 1 1 11 2 EV E X X EU E X X (3—2) 此时有 0 0 2 2 1 1 = = = = = = EV E X EX EU E X EX 于是问题转化为在方差为 1 的限制条件下,求使 E(U,V)达到最大的α,β。根据求条件极值原理。 令 ( ) ( ) 2 2 22 1 2 1 11 1 =12 − −
式中λ1,A2都是拉格朗日乘数。求θ对a,β的一价偏导数。并令其为零,则有 ∑12B-A121 上、下式分别左乘以a′、β′得 a∑12B=1a'1a=A B"Σ21a=A2B∑2B=2 而(a'∑1B)=B∑21a 故λ1′=A2,并且λ1是一实数,转置为A1。所以λ1=2=X 这表明,λ恰好等于线性组合U与V之间的相关系数。于是可将(3-3)式改写为 ∑12B-λ∑11a=0 对(3-4)左乘∑∑然后将(3-5)代入得 ∑1∑12B-2∑2B (3-6) 对(3-6)左乘∑得 ∑∑21∑∑12B-x2B=0 ∑1∑12-2)B=0 (3-7) 同理对(3-5)式左乘∑2∑2,然后将(34)式代入得 22∑1a=0 对(3-8)左乘∑得 ∑1∑12∑2∑21a-2a=0 即(1∑12∑2∑21-2)a=0 (3-9) 欲使(3-9)和(3-7)式中的a,β有非零解,其充分必要条件是 ∑Σ12∑2 (3-10) 21H22-2=0 (3-11) (3-10)和(3-11)式是2个特征方程。(3-10)的左边是关于2的p次多项式,从而有p个根, 设这p个根为22≥22≥…≥2>0,所以应取最大的特征根λ=A,将λ代入(39)式便可求出对 应的特征向量a1 (3-11)的左边是关于入2的q次多项式,有q个根。由于∑∑12Σ2∑1与∑2221∑1∑12的非 零特征根相同。故可以用相同符号表示≥2…≥2>0,并称1≥2≥…≥k>0为典型相关 系数,将λ=λ1代入(3—7)式可求出对应的特征向量β1。 这样求得U1=a1X1,V=BX2,就是要找的第一对典型变量,它们在所有的线性组合U,V中具 有最大的相关。A1就是U1,V1的典型相关系数 同理,由λ2及(3-7),(3-9)式得与U,V1相独立的第二对典型变量U2=a2X2,H2=B2X2 直至全部典型变量。 若对X1,X2进行标准化,即 (xx-A)/S (i=1,2,…,p,k=1,2,…,n)
21 式中λ1,λ2 都是拉格朗日乘数。求θ对α,β的一价偏导数。并令其为零,则有: = − = = − = 0 0 21 2 22 12 1 11 (3—3) 上、下式分别左乘以α′、β′得 : 21 2 22 2 12 1 11 1 = = = = 而 21 ' 12 ( ) = 故λ1′=λ2,并且λ1 是一实数,转置为λ1。所以λ1=λ2=λ 这表明,λ恰好等于线性组合 U 与 V 之间的相关系数。于是可将(3—3)式改写为 ∑12β-λ∑11α=0 (3—4) ∑21α-λ∑22β=0 (3—5) 对(3—4)左乘 1 21 11 − 然后将(3—5)代入得 22 0 2 12 1 21 11 − = − (3—6) 对(3—6)左乘 1 22 − 得 0 2 12 1 21 11 1 22 − = − − 即 ( ) 0 2 12 1 21 11 1 22 − = − − (3—7) 同理对(3—5)式左乘 1 21 21 − ,然后将(3—4)式代入得 11 0 2 21 1 12 22 − = − (3—8) 对(3—8)左乘 1 11 − 得 0 2 21 1 12 22 1 11 − = − − 即 ( ) 0 2 21 1 12 22 1 11 − = − − (3—9) 欲使(3—9)和(3—7)式中的α,β有非零解,其充分必要条件是 0 2 21 1 12 22 1 11 − = − − (3—10) 0 2 12 1 21 11 1 22 − = − − (3—11) (3—10)和(3—11)式是 2 个特征方程。(3—10)的左边是关于λ2 的 p 次多项式,从而有 p 个根, 设这 p 个根为 0 2 2 2 2 1 P ,所以应取最大的特征根λ=λ1,将λ1 代入(3—9)式便可求出对 应的特征向量α1。 (3—11)的左边是关于λ2 的 q 次多项式,有 q 个根。由于 21 1 12 22 1 11 − − 与 12 1 21 11 1 22 − − 的非 零特征根相同。故可以用相同符号表示 0 2 2 2 2 1 K ,并称 1 2 K 0 为典型相关 系数,将λ=λ1 代入(3—7)式可求出对应的特征向量β1。 这样求得 1 1 1 1 1 2 U =X , V = X ,就是要找的第一对典型变量,它们在所有的线性组合 U,V 中具 有最大的相关。λ1 就是 U1,V1 的典型相关系数。 同理,由λ2 及(3—7),(3—9)式得与 U1,V1 相独立的第二对典型变量 2 2 2 2 2 2 U =X , V = X , 直至全部典型变量。 若对 X1 ,X2 进行标准化,即: ki ki i Si x = (x − x ) (i=1,2,…,p,k=1,2,…,n)
x=(xk-x)/S(=1,2,…,q,k=1,2,…,n) 此时的协方差阵∑即为相关阵R R Ru R, 其中R1为第一组各变量x1{x1,x2,…,x}间的相关系数阵,R2为第二组各变量x2{xp+1,xp2,…, xpq}间的相关系数阵,R12=R21为X1与Ⅹ2各变量间的相关系数阵。为方便起见,设p≤q,则解得特征 方程: (R2R2R21-2R31)a=0 (3-12) 或(R21R1R12-2R2)B=0 (3-13) 的非零特征根22≥62…22>0(k≤p)的算术平方根,即为样本典型相关系数 、典型变量 把求得2代入(3-12),(3-13)式,可求得与典型相关系数相对应的特征向量a;,及B。当求出 a后,B亦可通过下式求得 R2B,=1R1 (3-14) 或R2B=R2 于是第i对典型变量(线性组合): U=a'XI V,=B, X2 以上在教学中可以省去。 第二节典型相关系数的显著性检验 典型相关系数的显著性检验,可采用 Bartlett关于大样本的x2检验。因为两组变量X1,X2间若不相 关,则相关阵R12中皆为零元素,故典型相关系数亦为零,于是可作如下检验: 、检验步骤一般地检验第r个典型相关系数λr的显著性时 1、做假设H0:Ar=0 HA:Xr≠0 2、求统计量 A,=(1-2)(-21)…(1-)=I(1-42 (3-21) Q=-[n-r-2(p+q+DIn A (3-22) Q服从df=(pr+1)(qr+1)的x2分布。 3、统计推断 在df=(pr+1)(qr+1),查z2临界值与Q作比较 若Q<z2,p=1-a,接受H:Ar=0典型相关系数r在a水平上不显著: 若Q≥xa,p≤a,否定Ho:r=0,接受HA:≠0,即典型相关系数r在a水平上显著 以下在教学中可以省去 1、做假设H HA:X1≠0
22 kj kj j S j x = (x − x ) (j=1,2,…,q,k=1,2,…,n) 此时的协方差阵∑即为相关阵 R。 21 22 ( )( ) 11 12 p q p q R R R R R + + = 其中 R11 为第一组各变量 X1{x1,x2,…,xp}间的相关系数阵,R22 为第二组各变量 X2{xp+1,xp+2,…, xp+q}间的相关系数阵,R12=R21ˊ为 X1 与 X2 各变量间的相关系数阵。为方便起见,设 p≤q,则解得特征 方程: ( 11) 0 2 21 1 12 22 − = − R R R R (3—12) 或 ( 22 ) 0 2 12 1 21 11 − = − R R R R (3—13) 的非零特征根 0 2 2 2 2 1 K (k≤p)的算术平方根λi,即为样本典型相关系数 二、典型变量 把求得 2 i 代入(3—12),(3—13)式,可求得与典型相关系数相对应的特征向量αi,及βj。当求出 αi 后,βj 亦可通过下式求得: R12 j = iR11 i (3—14) 或 R j R i i 21 1 22 = (3—15) 于是第 i 对典型变量(线性组合): = = 2 1 V X U X j j i i (3—16) 以上在教学中可以省去。 第二节 典型相关系数的显著性检验 典型相关系数的显著性检验,可采用 Bartlett 关于大样本的χ2 检验。因为两组变量 X1,X2 间若不相 关,则相关阵 R12 中皆为零元素,故典型相关系数亦为零,于是可作如下检验: 一、检验步骤 一般地检验第 r 个典型相关系数λr 的显著性时, 1、做假设 H0:λr=0 HA :λr≠0 2、求统计量 (1 )(1 ) (1 ) (1 ) 2 2 2 1 2 i k i r r = − r − r − k = − = + (3—21) r p q r Q = −[n − r − 1 2 ( + +1)]ln (3—22) Qr服从 df=(p-r+1)(q-r+1)的χ2 分布。 3、统计推断 在 df=(p-r+1)(q-r+1),查 2 临界值与 Qr作比较。 若 Qr< 2 ,p=1- ,接受 H0:λr=0 典型相关系数λr 在 水平上不显著; 若 Qr≥ 2 ,p ,否定 H0:λr=0,接受 HA :λr≠0,即典型相关系数λr 在 水平上显著。 以下在教学中可以省去。 1、做假设 H0:λ1=0 HA :λ1≠0
2、求统计量先将求得R1R2R2R21的k个特征根按大小顺序排列:2≥222…≥,求: A2=(1-2)1-12)…(1-)=I(-2) (3-17) 对于大样本的情况其统计量为 Q1=-n-1-(P+q+1)lnA1 (3-18) Q1近似地服从自由度df=p×q的x2分布 3、统计推断 在d→p×q时,查x2临界值与Q1作比较。若Q1x205,p>05,接受H;若Q1≥x05,p∞0.05, 表明至少有第一个典型相关系数是显著的;若Q1001,H;若Q1≥x201,p<001,表明第 一对个典型变量U1与V1相关极显著。 除去λ1后,继续检验余下的k-1个典型相关系数的显著性,即 A2=(1-2)1-2)…(1-2)=(1-x2) (3-19) Q2=-n-2-(p+q+1)hA2 此时Q2近似服从df2=(p1)×(q1)的x2分布。在d=(P-1)×(q1)时,查x2值与Q2比较, 若Q2<x20s,则表明第二个典型相关系数不显著若;若Q2≥x205,认为第二对典型变量相关显著。依次 类推,一般地检验第r典型相关系数的显著性时,则计算 A,=(1-)1-21)…(1-42)=I(1-4) (3-21) 2=-[n-r-(p+q+D)]n A (3-22) Q服从df=(pr+1)(qr+1)的x2分布 二、检验结果作专业上的解释和推断(见例1.2)。 以上在教学中可以省去 第三节典型相关分析的应用实例 p=2,q=2的实例分析 例1为研究株形性状(X1)与产量性状(X2)间的相关关系,随机抽测20个两系杂交组合稻的剑叶 面积(x1,cm2),株高(x2,cm)以及结实率(x3,%)和千粒重(x4,g)。试作典型相关分析 典型相关分析的步骤如下: (一)计算相关阵 由原始数据算得两组变量之间的相关系数矩阵分别为 10.9734 r3 10.5969 0.9734 /14 0.6560-0.7811 0.6560-0.7715 -0.7715-0.8392 R21=R12 0.7811-0.8392
23 2、求统计量 先将求得 21 1 12 22 1 R11 R R R − − 的 k 个特征根,按大小顺序排列: 2 2 2 2 1 K ,求: (1 )(1 ) (1 ) (1 ) 2 1 2 2 2 2 1 i k i i = − − − k = − = (3—17) 对于大样本的情况其统计量为: 2 1 1 1 Q = −[n −1− ( p + q +1)]ln (3—18) Q1 近似地服从自由度 df=p×q 的χ2 分布。 3、统计推断 在 df1=p×q 时,查 2 临界值与 Q1 作比较。若 Q 10.05,接受 H0;若 Q 1≥ 2 0.05 ,p0.01,H0;若 Q 1≥ 2 0.01 ,p<0.01,表明第 一对个典型变量 U1 与 V1 相关极显著。 除去λ1 后,继续检验余下的 k-1 个典型相关系数的显著性,即 (1 )(1 ) (1 ) (1 ) 2 2 2 2 3 2 2 2 i k i = − − − k = − = (3—19) 2 2 1 2 Q = −[n − 2 − ( p + q +1)]ln (3—20) 此时 Q2 近似服从 df2=(p-1)×(q-1)的χ2 分布。在 df2=(p-1)×(q-1)时,查 2 值与 Q 2 比较, 若 Q2﹤ 2 0.05 ,则表明第二个典型相关系数不显著若;若 Q2≥ 2 0.05 ,认为第二对典型变量相关显著。依次 类推,一般地检验第 r 典型相关系数的显著性时,则计算 (1 )(1 ) (1 ) (1 ) 2 2 2 1 2 i k i r r = − r − r − k = − = + (3—21) r p q r Q = −[n − r − 1 2 ( + +1)]ln (3—22) Qr服从 df=(p-r+1)(q-r+1)的χ2 分布。 二、检验结果作专业上的解释和推断(见例 1.2)。 以上在教学中可以省去。 第三节 典型相关分析的应用实例 一、p=2,q=2 的实例分析 例 1 为研究株形性状(X1)与产量性状(X 2)间的相关关系,随机抽测 20 个两系杂交组合稻的剑叶 面积(x1,cm2),株高(x2,cm)以及结实率(x3,%)和千粒重(x4,g)。试作典型相关分析。 典型相关分析的步骤如下: (一)计算相关阵 由原始数据算得两组变量之间的相关系数矩阵分别为: − − − − = = − − − − = = = = = = 0.7811 0.8392 0.6560 0.7715 0.7715 0.8392 0.6560 0.7811 0.5969 1 1 0.5969 1 1 0.9734 1 1 0.9734 1 1 2 1 1 2 2 3 2 4 1 3 1 4 1 2 4 3 3 4 2 2 2 1 1 2 1 1 R R r r r r R r r R r r R
0.9734-0.6560-0.7811 R1R12)09734 0.7715-0.8392 0.6560-0.7715 0.5969 0.7811-083920.5969 其中,R1.为株形性状间相关系数矩阵,R2为产量性状间相关系数矩阵,R21=Rn2′为X1与X2两组各 变量间的相关系数阵,在这里p=q=2,n=20。 (二)解特征根和特征向量 由特征方程(3-12)或(3-13)式,或用下列特征方程求得特征根,222和对应的特征向量(a1, (R:R21-2=0 (R2R21RR2-21)B=0 (3-22) R 1550273 -0.92731.5535 06560-078111.5535-0.9273Y-0.6560-0.771 0.7715-0.8392人-092731535人-0.7811-0.8392 0.6660440.735249 0.7352490.817977 求(3-12)式的非零特征根,有 凡R2R2R21-R 0666044-x20.735249-0.97342 0735249-0973420.817977-2 =0(3-23) 0052492x4-0.0526382+00004218 b± 由公式 可求得:2=0.91496 2=008782 于是两个典型相关系数λ1=0.9565,A2=0.2963 把第一个特征根2=091496代入(312)式,或(3-23)式可求得特征向量a1 a/-0248916-0.15373a11=0 -0.155373-0.096983人a12 当a11=1时,a12=0.2489160.155373=16021或a12=0.155373/0.096983=16021 同理,把第二个特征根22=008782代入(312)式,可求得a2 即0/05782240649765a2 06497650730157人a2 当a21=1时,a12=0.578224-0.649765=0.8899,或a22=0.649765/-0.730157=0.8899
24 − − − − − − − − = = 0.7811 0.8392 0.5969 1 0.6560 0.7715 1 0.5969 0.9734 1 0.7715 0.8392 1 0.9734 0.6560 0.7811 2 1 2 2 1 1 1 2 R R R R R 其中,R11 为株形性状间相关系数矩阵,R22 为产量性状间相关系数矩阵,R21=R12′为 X1 与 X2 两组各 变量间的相关系数阵,在这里 p=q=2,n=20。 (二)解特征根和特征向量 由特征方程(3-12)或(3-13)式,或用下列特征方程求得特征根, 2 2 2 1 和对应的特征向量(α1 , β1 ),(α2 ,β2 ), − = − = − − − − ( ) 0 ( ) 0 2 12 1 21 11 1 22 2 21 1 12 22 1 11 q p R R R R I R R R R I (3—22) = − − − − − − − − − − = − − = − − 0.735249 0.817977 0.666044 0.735249 0.7811 0.8392 0.6560 0.7715 0.9273 1.5535 1.5535 0.9273 0.7715 0.8392 0.6560 0.7811 0.9273 1.5535 1.5535 0.9273 2 1 1 1 2 2 2 1 2 2 R R R R 求(3-12)式的非零特征根,有: 0.052492 0.052638 0.0004218 0 (3 23) 0.735249 0.9734 0.817977 0.666044 0.735249 0.9734 4 2 2 2 2 2 1 1 2 2 1 1 1 2 2 2 = − + = − − − − − − = − R R R R 由公式: a b b ac x 2 4 2 − − = 可求得: 0.91496 2 1 = , 0.08782 2 2 = 于是两个典型相关系数λ1=0.9565,λ2=0.2963 把第一个特征根 0.91496 2 1 = 代入(3-12)式,或(3-23)式 可求得特征向量α1i。 即 0 0.155373 0.096983 0.248916 0.155373 12 11 = − − − − 当α11=1 时,α12=-0.248916/0.155373=-1.6021 或α12=-0.155373/0.096983=-1.6021 同理,把第二个特征根 0.08782 2 2 = 代入(3-12)式 ,可求得α2i: 即 0 0.649765 0.730157 0.578224 0.649765 22 21 = 当α21=1 时,α12=0.578224/-0.649765=-0.8899, 或α22=0.649765/-0.730157=-0.8899
即得:a=(-1.6021:a2=0899 由(3-13)可求得β1和β2两个特征向量,亦可按(3-14)式求出。即 R1 Bi=Aria 当X=095652a=(-1601 0.9734 0.5351 λR1a1=09565 0.97341 1.6021 0.6014 R2B1即 0.6560B1-0.7811B12=-0.5351 0.7715B1-0.8392B12=-06014 解得:B B12=03514 当λ2=0.2963,a2= 0.8899 10.9734 0.0396 入R2=0203(0941-089=047)=;即 06560B21-0.7811B22=0.0396 0.71521-0.8392B2=0.0247 解得:B21=0.2679,B2=-0.2757 B=/0373 0.2679 0.3514 B2 )列出典型变量 第一个典型相关系数与第一对典型变量为 A1=0.9565 1X1=x1-1602lx V=BX2=0.3973x3+03514x4 第二个典型相关系数与第二对典型变量为 12=0.2963 2X1=x1-08899x2 12=B2X2=0.2679x3-0.2757x4 (四)对典型相关系数进行显著性检验 依(3-17)式得 A1=∏(-2) =(1-0.914961-0.08782) 0.07757
25 即得: − = 1.6021 1 1 ; − = 0.8899 1 2 由(3-13)可求得β1 和β2 两个特征向量,亦可按(3-14)式求出。即: R12βj=λiR11αi 当λ1=0.9565, − = 1.6021 1 1 时, 1 1 1 1 1 2 1 0.6014 0.5351 1.6021 1 0.9734 1 1 0.9734 R 0.9565 = R − − = − = 即: − − = − − − = − 0.7715 0.8392 0.6014 0.6560 0.7811 0.5351 11 12 11 12 解得: 11 = 0.3973 , 12 = 0.3514 当λ2=0.2963, − = 0.8899 1 2 时, 2 1 1 2 1 2 2 0.0247 0.0396 0.8899 1 0.9734 1 1 0.9734 R 0.2963 = R = − = 即: − − = − − = 0.7715 0.8392 0.0247 0.6560 0.7811 0.0396 21 22 21 22 解得: 21 = 0.2679 , 22 = −0.2757 即: − = = 0.2757 0.2679 ; 0.3514 0.3973 1 2 (三)列出典型变量 第一个典型相关系数与第一对典型变量为 1 1 2 3 4 1 1 1 1 2 1 0.3973 0.3514 1.6021 0.9565 V X x x U X x x = = + = = − = 第二个典型相关系数与第二对典型变量为 2 2 2 3 4 2 2 1 1 2 2 0.2679 0.2757 0.8899 0.2963 V X x x U X x x = = − = = − = (四)对典型相关系数进行显著性检验 依(3-17)式 得: 0.07757 (1 0.91496)(1 0.08782) (1 ) 2 2 1 1 = = − − = − = i i
Q1=-{n-1-(P+q+1)hA (20-1-2.5(-2.55657) 42.183 13.28,P<0.01,差异极显著,即第一对典型变量间的相关极明显 第二个典型相关系数的显著性检验为: A2=I(-2)=(1-029632)=0.9122 Q2=-n-1-(P+q+1)hA2=-(20-2-25(-00919)=14245 Q2∠xao5(×1)=384 即第二对典型变量间的相关不明显,其价值不大 (五)结果分析 从上述检验结果表明,λ1=0.9565作为株形(X1)与产量(X2)两组性状间的相关系数,表明剑叶面 积(x1)和株高(x2)与结实率(x3)和千粒重(x4)间关系极为密切。从第一对典型变量来看,负荷较大 的有株高x2(-1.6021),由于x3和x4的负荷相差不大,说明两组性状间的关系主要是x2与x3和x4变量间 的相关关系。当株高过高时,对结实率(x3)和千粒重(x4)均起到明显的负面影响。但增大剑叶面积, 对提高结实率和千粒重均有正面的效果。因此,在两系杂交稻中选择具有矮杆且有较大剑叶面积的组合, 改善产量性状间的关系,从而提高杂交稻的产量。 、p=5,q=3的实例分析 例2资料采自1994年4-9月份某密闭式蛋鸡舍,在14336只笼位上均匀选取12个位点,逐日测定温 度(x1)、湿度(Ⅺ)、露点温度(x)相对湿度(x)及蛋鸡舒适度(xs),每个位点同时考查64只罗曼褐 壳系商品代蛋鸡在16周内,每周产蛋率(x6),平均蛋重(x)及周总产蛋量(x8)。现把x1-xs归其为环境 因素一组Ⅺ,把x6-X8归其为产蛋性能一组Ⅺ2,试分析产蛋高峰内,环境因素与产蛋性能间的相关关系。 (一)、计算相关阵 在本例中n=16,p=5,q=3,计算得相关系数矩阵为: R Ru r R21R2 091230.7714-0.380909809-0.47500.7004-0.0412 0.91231 0.9638-0026909732-0.15220.62000.1732 0.77140.96381 0.28650.87790.07420.50040.2953 -0.3809-0.02690.28651 0.20150.8089-0.25330.5246 0.98090.97320.8779-020151 0.34030.66660.0430 0.4750-0.15220.07420.8089-0.34031 -0.22460.7808 0.70040.62000.5004-0.25330.6666-0.2246 0.4115 -0.04120.17320.29530.52460.04300.7808041151 其中,R1.为环境因素间相关系数矩阵,R22为产蛋性能间相关系数矩阵,R21=R1′为X1与X2两组各 变量间的相关系数阵 二)、解特征根和特征向量
26 42.183 (20 1 2.5)( 2.55657) [ 1 2 ( 1)]ln 1 1 1 = = − − − − Q = − n − − p + q + Q1 20.01(22) =13.28,P<0.01,差异极显著,即第一对典型变量间的相关极明显。 第二个典型相关系数的显著性检验为: (1 ) (1 0.2963 ) 0.9122 2 2 2 2 2 = − = − = = i i [ 1 ( 1)]ln 2 (20 2 2.5)( 0.0919) 1.4245 2 1 Q2 = − n − − p + q + = − − − − = (1 1) 3.84 2 Q2 0.05 = 即第二对典型变量间的相关不明显,其价值不大。 (五)结果分析 从上述检验结果表明,λ1=0.9565 作为株形(X1)与产量(X2)两组性状间的相关系数,表明剑叶面 积(x1)和株高(x2)与结实率(x3)和千粒重(x4)间关系极为密切。从第一对典型变量来看,负荷较大 的有株高 x2(-1.6021),由于 x3 和 x4 的负荷相差不大,说明两组性状间的关系主要是 x2 与 x3 和 x4 变量间 的相关关系。当株高过高时,对结实率(x3)和千粒重(x4)均起到明显的负面影响。但增大剑叶面积, 对提高结实率和千粒重均有正面的效果。因此,在两系杂交稻中选择具有矮杆且有较大剑叶面积的组合, 可改善产量性状间的关系,从而提高杂交稻的产量。 二、p=5,q=3 的实例分析 例 2 资料采自 1994 年 4-9 月份某密闭式蛋鸡舍,在 14336 只笼位上均匀选取 12 个位点,逐日测定温 度(x1)、湿度(x2)、露点温度(x3)相对湿度(x4)及蛋鸡舒适度(x5),每个位点同时考查 64 只罗曼褐 壳系商品代蛋鸡在 16 周内,每周产蛋率(x6),平均蛋重(x7)及周总产蛋量(x8)。现把 x1-x5 归其为环境 因素一组 X1,把 x6-x8 归其为产蛋性能一组 X2,试分析产蛋高峰内,环境因素与产蛋性能间的相关关系。 (一)、计算相关阵 在本例中 n=16 ,p=5 ,q=3,计算得相关系数矩阵为: − − − − − − − − − − − − − − − − − − = = 0.0412 0.1732 0.2953 0.5246 0.0430 0.7808 0.4115 1 0.7004 0.6200 0.5004 0.2533 0.6666 0.2246 1 0.4115 0.4750 0.1522 0.0742 0.8089 0.3403 1 0.2246 0.7808 0.9809 0.9732 0.8779 0.2015 1 0.3403 0.6666 0.0430 0.3809 0.0269 0.2865 1 0.2015 0.8089 0.2533 0.5246 0.7714 0.9638 1 0.2865 0.8779 0.0742 0.5004 0.2953 0.9123 1 0.9638 0.0269 0.9732 0.1522 0.6200 0.1732 1 0.9123 0.7714 0.3809 0.9809 0.4750 0.7004 0.0412 2 1 2 2 1 1 1 2 R R R R R 其中,R11 为环境因素间相关系数矩阵,R22 为产蛋性能间相关系数矩阵,R21=R12′为 X1 与 X2 两组各 变量间的相关系数阵。 (二)、解特征根和特征向量
根据下式中任一特征方程,可求得特征根2≥22≥2,及特征向量a,β。 (Ri2R2R1-2'R)a=0 J(RR,2 R2 p)=o (R2RR2-R2)B=0(R2R21R1R2-2l,)B=0 0.1882-1.3828-2.1608-30112-0.7912 -0.9746-0.9992-0.90200.0642-1.0000 RR2R2R2=023600.3576042220464201992 0.1382-0.1522-0.1440-0.0151-0.1465 1.13402.54203.06112.29032.1405 故特征方程为 0.1882-22-1.3828 -2.1608 -3.0112 0.7912 0.9746 0.999-2-0.900 0.0642 -1.0000 RR2RR1--020037 422-x204642 1992=0 0.1382 -0.1522 0.1440 0.0151-22-0.1465 1.1340 3.06l1 2.2903 21405-2 解上述特征方程可得2=0.879,2=0.724,32=0.342,2=0,12=0,所以典型相关系数分别为 λ1=0.9380,λ2=0.8500,λ=0.5849,A40,As=0,而所对应的特征向量为表1 表1-1环境因素与产蛋量性能间的典型相关系数及特征向量 典型相关系数 特征向量性状ⅹ 0.9380· 0.8500 05849 3.3217 8.3130 15.7449 5.l101 194523 10.7642 1.6002 0.0000 5.2119 0.2088 27.3355 2.4769 4.3273 0.7230 3.4478 1.8764 4.4730 3.5568 (三)列出典型变量 由表1-1可知: 第一个典型相关系数与第一对典型变量为 1=0.9380 U1=a1X1=-3.3217x1-5.l101x2+29029x3+52119x5 V=BX2=24769x6+0.7230x1-18764x8 第二个典型相关系数与第二对典型变量为 A,=0.8500 U2=a2X1=-83130x1+194523x2-116653x3+02088x5 V2=B2X2=4.3273x6+34478x7-44730x8 第三个典型相关系数与第三对典型变量为
27 根据下式中任一特征方程,可求得特征根 2 1 ≥ 2 2 ≥ 2 3 ,及特征向量α,β。 − = − = − − ( ) 0 ( ) 0 22 2 12 1 21 11 11 2 21 1 12 22 R R R R R R R R − = − = − − − − ( ) 0 ( ) 0 2 12 1 21 11 1 22 2 21 1 12 22 1 11 q p R R R R I R R R R I 21 1 12 22 1 R11 R R R − − = − − − − − − − − − − − − − 1.1340 2.5420 3.0611 2.2903 2.1405 0.1382 0.1522 0.1440 0.0151 0.1465 0.2360 0.3576 0.4222 0.4642 0.1992 0.9746 0.9992 0.9020 0.0642 1.0000 0.1882 1.3828 2.1608 3.0112 0.7912 故特征方程为: 5 2 21 1 12 22 1 11 R R R R − I − − = 2 2 2 2 2 1.1340 2.5420 3.0611 2.2903 2.1405 0.1382 0.1522 0.1440 0.0151 0.1465 0.2360 0.3576 0.4222 0.4642 0.1992 0.9746 0.9992 0.9020 0.0642 1.0000 0.1882 1.3828 2.1608 3.0112 0.7912 − − − − − − − − − − − − − − − − − − =0 解上述特征方程可得 2 1 =0.8799, 2 2 =0.7224, 2 3 =0.3422, 2 4 =0, 2 5 =0,所以典型相关系数分别为 λ1=0.9380,λ2 =0.8500,λ3=0.5849,λ4=0,λ5=0,而所对应的特征向量为表 1-1。 表 1-1 环境因素与产蛋量性能间的典型相关系数及特征向量 特征向量 性状 X 典 型 相 关 系 数 0.9380** 0.8500* 05849 αi x1 x2 x3 x4 x5 -3.3217 -5.1101 2.9029 0.0000 5.2119 -8.3130 19.4523 -11.6653 0.0000 0.2088 15.7449 10.7642 1.6002 0.0000 -27.3355 βj x6 x7 x8 2.4769 0.7230 -1.8764 4.3273 3.4478 -4.4730 -2.6054 -1.5693 3.5568 (三)列出典型变量 由表 1-1 可知: 第一个典型相关系数与第一对典型变量为 1 1 2 6 7 8 1 1 1 1 2 3 5 1 2.4769 0.7230 1.8764 3.3217 5.1101 2.9029 5.2119 0.9380 V X x x x U X x x x x = = + − = = − − + + = 第二个典型相关系数与第二对典型变量为 2 2 2 6 7 8 2 2 1 1 2 3 5 2 4.3273 3.4478 4.4730 8.3130 19.4523 11.6653 0.2088 0.8500 V X x x x U X x x x x = = + − = = − + − + = 第三个典型相关系数与第三对典型变量为
A3=0.5849 U3=a3X1=157449x1+10.7642x2+16002x3-273355x 13=B3X2=-2.6054x6-1.5693x+35568x (四)对典型相关系数进行显著性检验 由(3-20),(3-21)式对λ1、λ2、λ3.进行显著性检验: A1=(-42)=(1-0.8799)(10724)(1-0.3422)=002193 Q1=-[16-1-0.5(5+3+1)jn0.02193=(-10.5-3.8199)=40.109 Q1>x0s830.58,P0+42=1551,p05,表明第二个典型相关系数2=08500达到显著水准,所以,第二对典型 变量也是有意义的。 A3=(1-0.3422)=0.6578 Q3=-(16-3-4.5)Ln0.6578=-8.5(-0.4189)3.560 Q:x00x=781,p>005,表明第三个典型相关系数=05849未达到显著水准,第三对典型变量意 义不大,弃之也不会损失多少其相关信息。因为第一,二对典型变量所占的总相关信息达: (22+2)(2+2+23)=(0.8799+0.7224)/(0879+07224+0.3422)=8258,故只对第一、二对典型 变量进行讨论。 (五)结果分析 因λ1,λ2均达显著水平,说明5个环境参数与3个蛋鸡产蛋性能之间存在着明显的相关关系。就典 型变量的意义来说,两组性状间的相关主要是由那些负荷较大的变量所决定的。所以,相对湿度(x)意 义不大。从第一对典型变量上看,负荷较大的有湿度(x)、舒适度(x)、温度(Ⅺ)与产蛋率(x6)和周 产蛋量(xg),说明两组性状间的相关主要为它们之间的相关。但从正负向看,当环境温度接近适温上限 (25℃)以及湿度过大时,对产蛋率已产生明显的负向作用,而在适温条件下,增大舒适度则对周产蛋量 亦有不利的影响,但对产蛋率的提高有利。因此,在4-6月份当蛋鸡进入产蛋高峰期时应特别注意舍内温 度、湿度与舒适度的协调作用,以提高蛋鸡的产蛋能力。从第二对典型变量上看,环境参数中负荷较大的 有湿度(x2)、露点温度(x),3个蛋鸡产蛋性能负荷则相差不大。因此,适当的湿度对产蛋率和蛋重的提 高是有益的,但湿度过大对周产蛋量有不利的影响 习题 3.1考察35个水稻杂交组合的株型性状:剑叶开张角ⅹ1、剑叶面积ⅹ2、第一节间粗ⅹ3、收获指数 x4。产量性状:有效穗数y1、总粒数y2、结实率y、千粒重y4等8个性状。算得相关系数阵如下表,试对 株型与产量两组性状作相关分析。 1.0000-0.14330.1803-0.1377-0.09620.14730.1406-0.1052
28 3 3 2 6 7 8 3 3 1 1 2 3 5 3 2.6054 1.5693 3.5568 15.7449 10.7642 1.6002 27.3355 0.5849 V X x x x U X x x x x = = − − + = = + + − = (四)对典型相关系数进行显著性检验 由(3—20),(3—21)式对λ1、、λ2、λ3、进行显著性检验: (1 ) 2 3 1 1 i i = − = =(1-0.8799)(1-0.7224)(1-0.3422)=0.02193 Q1=-[16-1-0.5(5+3+1)]ln0.02193=(-10.5)(-3.8199)=40.109 Q1> 2 0.01(53) =30.58,P 2 0.05(42) =15.51,p0.05,表明第三个典型相关系数λ3=0.5849 未达到显著水准,第三对典型变量意 义不大,弃之也不会损失多少其相关信息。因为第一,二对典型变量所占的总相关信息达: ( )/( ) 2 3 2 2 2 1 2 2 2 1 + + + =(0.8799+0.7224)/(0.8799+0.7224+0.3422)=82.58%,故只对第一、二对典型 变量进行讨论。/ (五)结果分析 因λ1,λ2 均达显著水平,说明 5 个环境参数与 3 个蛋鸡产蛋性能之间存在着明显的相关关系。就典 型变量的意义来说,两组性状间的相关主要是由那些负荷较大的变量所决定的。所以,相对湿度(x4)意 义不大。从第一对典型变量上看,负荷较大的有湿度(x2)、舒适度(x5)、温度(x1)与产蛋率(x6)和周 产蛋量(x8),说明两组性状间的相关主要为它们之间的相关。但从正负向看,当环境温度接近适温上限 (25℃)以及湿度过大时,对产蛋率已产生明显的负向作用,而在适温条件下,增大舒适度则对周产蛋量 亦有不利的影响,但对产蛋率的提高有利。因此,在 4—6 月份当蛋鸡进入产蛋高峰期时应特别注意舍内温 度、湿度与舒适度的协调作用,以提高蛋鸡的产蛋能力。从第二对典型变量上看,环境参数中负荷较大的 有湿度(x2)、露点温度(x3),3 个蛋鸡产蛋性能负荷则相差不大。因此,适当的湿度对产蛋率和蛋重的提 高是有益的,但湿度过大对周产蛋量有不利的影响。 习题 3.1 考察 35 个水稻杂交组合的株型性状:剑叶开张角 x1、剑叶面积 x2、第一节间粗 x3、收获指数 x4。产量性状:有效穗数 y1、总粒数 y2、结实率 y3、千粒重 y4 等 8 个性状。算得相关系数阵如下表,试对 株型与产量两组性状作相关分析。 rij x1 x2 x3 x4 y1 y2 y3 y4 x1 1.0000 -0.1433 0.1803 -0.1377 -0.0962 0.1473 0.1406 -0.1052