协方差分析 一个协变量的协方差分析 例:为研究三种饲料(Al(g=1),A2(g=2),A3(g=3)对猪催肥效果,用 每种饲料喂养8头猪,实验用猪的初始体重(x)未控制。喂养一段时 间后,观察小猪的增重y)。所得资料如表2-1,试分析三种饲料对 猪催肥效果是否相同。 资料结构:(文件名 covariance dta) 53122 91 111 16 95 22222 2982 94 89 91 233 27 102 105 110 对于不考虑初始体重影响而评价三种饲料的统计分析为单因素方差 分析One- way ANOVA),由于小猪的增重与初始体重有关,因此在分
协方差分析 一个协变量的协方差分析 例:为研究三种饲料(A1(g=1),A2(g=2),A3(g=3))对猪催肥效果,用 每种饲料喂养 8 头猪,实验用猪的初始体重(x)未控制。喂养一段时 间后,观察小猪的增重(y)。所得资料如表 2-1,试分析三种饲料对 猪催肥效果是否相同。 资料结构:(文件名 covariance1.dta) x y g 15 85 1 13 83 1 11 65 1 12 76 1 12 80 1 16 91 1 14 84 1 17 90 1 17 97 2 16 90 2 18 100 2 18 95 2 21 103 2 22 106 2 19 99 2 18 94 2 22 89 3 24 91 3 20 83 3 23 95 3 25 100 3 27 102 3 30 105 3 32 110 3 对于不考虑初始体重影响而评价三种饲料的统计分析为单因素方差 分析(One-way ANOVA),由于小猪的增重与初始体重有关,因此在分
析三种饲料对增重的关系时,应该考虑校正初始体重对增重的影响。 并假定初始体重与增重呈线性统计关系以及要求初始体重与饲料不 构成交互作用。称校正变量(初始体重)为协变量,分组变量为因子变 量。因此可用协方差分析上述统计问题,相应的角模型如下 Al(g=D) A2(g=2) A3(g=3) 不校正初始体重 +a1 +a2 校正初始体重 u +a,+yx u +a, +yx u tyr 用 STATA命令为: anovayg x g*x, class(g) Nu umber of obs 24 R-squared =0. Root mse 3. 15855 Adj R-squared= 0. Source Partial ss df MS Prob>f Model|2376.38195475.27638 4764 0.0000 g|24.4661579 12.233079 x|830.4154071830.415407 83.240.0000 g*x48.0381359224.019068 2.41 0.1184 Residua1|179.576433189.97646848 Totl|25595832311.128623 由g*x项的P值=0.1184005,说明初始体重与饲料不构成交互作用 anova yg x, class(g) Number of obs 24 R-squared = 0. 9109 Root mse 3. 37353 Adj R-squared=0. 8976 Source Partial Ss df MS F Prob>F Model|2328343763776.11458868.200.0000 g|7072187652353609382 31.07 0.0000 1010.76043 11010.76043 88.810.0000 Residual227.6145682011.3807284 Total|255958332311.128623
析三种饲料对增重的关系时,应该考虑校正初始体重对增重的影响。 并假定初始体重与增重呈线性统计关系以及要求初始体重与饲料不 构成交互作用。称校正变量(初始体重)为协变量,分组变量为因子变 量。因此可用协方差分析上述统计问题,相应的角模型如下: A1(g=1) A2(g=2) A3(g=3) 不校正初始体重 .. 1 + .. 2 + .. 校正初始体重 .. 1 + + x .. 2 + + x .. + x 用 STATA 命令为: anova y g x g*x,class(g) Number of obs = 24 R-squared = 0.9297 Root MSE = 3.15855 Adj R-squared = 0.9102 Source | Partial SS df MS F Prob > F Model | 2376.3819 5 475.27638 47.64 0.0000 | g | 24.4661579 2 12.233079 1.23 0.3168 x | 830.415407 1 830.415407 83.24 0.0000 g*x | 48.0381359 2 24.019068 2.41 0.1184 | Residual | 179.576433 18 9.97646848 Total | 2555.95833 23 111.128623 由g*x 项的P 值=0.1184>0.05,说明初始体重与饲料不构成交互作用。 anova y g x,class(g) Number of obs = 24 R-squared = 0.9109 Root MSE = 3.37353 Adj R-squared = 0.8976 Source | Partial SS df MS F Prob > F Model | 2328.34376 3 776.114588 68.20 0.0000 g | 707.218765 2 353.609382 31.07 0.0000 x | 1010.76043 1 1010.76043 88.81 0.0000 Residual | 227.614568 20 11.3807284 Total | 2555.95833 23 111.128623
regress Source I df MS Number of obs 24 Model|2328343763776.114588 Prob>F =0.0000 Residual227.6145682011.3807284 R-squared Adj R-squared 0 8976 Totl|255.958332311128623 Root mse 3.3735 y Coef. Std. err t P>t [95% Conf. Interval cons 35.935186.5754715.470.00022.2189949.6513 112.793243.4089893.750.0015.68221419.90427 217.335592.4091517.200.00012.3101922.36099 3 (dropped) 2.401569.25483329.420.0001.8699962.93314 =35.93518,a1=1279324,a2=1733559,y=2401569 Al VS A3: (u +a+yx)-(u +yx)=a,, Ho: al=o vS H1: a1+0 对应的P值为0001F=0.0424 对应的P值为004244005,因此认为两组总体均数不同,由于点估
regress S ource | S S d f M S N umber o f o bs = 2 4 - - -----------+------------------------------ F ( 3 , 2 0) = 6 8.20 M o del | 2 328.34376 3 7 76.114588 P r ob > F = 0 .0000 R esidual | 2 2 7.614568 2 0 1 1.3807284 R -squared = 0 .9109 - - -----------+------------------------------ A dj R-squared = 0.8976 T o tal | 2 555.95833 2 3 1 11.128623 R o ot M SE = 3 .3735 y C oef. S td. E rr. t P > |t| [ 9 5% C onf. I nterval] _ c ons 3 5 .93518 6 .575471 5 .47 0 .000 2 2.21899 4 9 .65137 g 1 1 2 .79324 3 .408989 3 . 75 0 .001 5 .682214 1 9 .90427 2 1 7 .33559 2 .409151 7 . 20 0 .000 1 2.31019 2 2 .36099 3 ( dropped) x 2 .401569 . 2548332 9 . 42 0 .000 1 .869996 2 . 933142 .. = 35.93518,1=12.79324,2 =17.33559, = 2.401569 A1 vs A3: .. 1 .. 1 ( ) ( ) + + − + = x x ,H0:1=0 vs H1:10 对应的 P 值为 0.001 F = 0.0424 对应的 P 值为 0.0424<0.05,因此认为两组总体均数不同,由于点估
计为:a1=12.79324<a2=173359,P值小于005,因此可认为A2的均 数大于A1的均数,差别有统计意义。 结论 1)A2饲料喂养的小猪增重最高,A1饲料喂养的小猪增重也高于A3 饲料喂养的小猪的增重,差别均有统计意义,P值均小于0.05 2)小猪的增重与初始的呈正相关,P<005 两种干预的效果评价中校正混杂因素 有2种干预治疗高血压,现仅以收缩压为例,讨论评价疗效的方法。 分组治疗前治疗后 roup 131.4 140.2 133.5 3 138.8 132.7 139.5 140.8 133.9 124.5 7 139.8 133.4 8 128.7 122.9 10 144.7 137 134 127.3 136.8 130.5 16 144 136.1 133.1 126.2 138.9 131.2 19 134.2 127.1 147.7 139.3 134.4 127 130.8 123.5 24 141.5 134.5
计为: 1=12.79324 < 2 =17.33559,P 值小于 0.05,因此可认为 A2 的均 数大于 A1 的均数,差别有统计意义。 结论: 1)A2 饲料喂养的小猪增重最高,A1 饲料喂养的小猪增重也高于 A3 饲料喂养的小猪的增重,差别均有统计意义,P 值均小于 0.05。 2)小猪的增重与初始的呈正相关,P<0.05。 两种干预的效果评价中校正混杂因素 有 2 种干预治疗高血压,现仅以收缩压为例,讨论评价疗效的方法。 分组 治疗前 治疗后 group x1 x2 1 1 131.4 125.2 2 1 140.2 133.5 3 1 138.8 132.7 4 1 139.5 132.4 5 1 140.8 133.9 6 1 130.5 124.5 7 1 139.8 133.4 8 1 128.7 122.9 9 1 138.8 131.8 10 1 144.7 137 11 1 134 127.3 12 1 127.7 121.5 13 1 136.8 130.5 14 1 145.6 140.1 15 1 138.3 131.2 16 2 144 136.1 17 2 133.1 126.2 18 2 138.9 131.2 19 2 134.2 127.1 20 2 147.7 139.3 21 2 134.4 127 22 2 130.8 123.5 23 2 136.6 129.7 24 2 141.5 134.5
136.9 137.4 136.8 128.8 2 145.5 128.5 121.4 140.7 132.6 计算治疗前后的改变量:gend=x1-x2 二、计算两组的平均改变量: tab group,su(d) group Mean Std. Dev req 1|6.5133347.58415673 15 7.44653966211 15 Total6.9800006.72843602 第2组比第1组多下降0.933318mmHg(即:两组疗效的差异为 0.9333318) 校正治疗前的影响,则用协方差模型 anova d group xl, class(group) Nu of obs Root mse = 525257 Adj R-squared= 0. 4801 Source Partial ss df MS F Prob>F Model|7.9387872823.96939864 14.390.0001 group|5.7457868115.7457868120.830.0001 x1|1.4054753111.40547531 5.090.0323 Residua17.4491645727.275894984 Tota115.387951829.530619029 说明:疗效与基线情况有关,并且两组干预的疗效有差异。 regress ource df MS Number of obs F(2,27)=14.39 Model|7.9387872823.96989364 Prob>f
25 2 144.8 136.9 26 2 137.4 129.9 27 2 136.8 128.8 28 2 145.5 139 29 2 128.5 121.4 30 2 140.7 132.6 一、计算治疗前后的改变量:gen d=x1-x2 二、计算两组的平均改变量:tab group, su(d) | Summary of d group | Mean Std. Dev. Freq. ------------+------------------------------------ 1 | 6.5133347 .58415673 15 2 | 7.4466665 .53966211 15 ------------+------------------------------------ Total | 6.9800006 .72843602 30 第 2 组比第 1 组多下降 0.9333318mmHg(即:两组疗效的差异为 0.9333318) 校正治疗前的影响,则用协方差模型 anova d group x1,class(group) Number of obs = 30 R-squared = 0.5159 Root MSE = .525257 Adj R-squared = 0.4801 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | 7.93878728 2 3.96939364 14.39 0.0001 | group | 5.74578681 1 5.74578681 20.83 0.0001 x1 | 1.40547531 1 1.40547531 5.09 0.0323 | Residual | 7.44916457 27 .275894984 -----------+---------------------------------------------------- Total | 15.3879518 29 .530619029 说明:疗效与基线情况有关,并且两组干预的疗效有差异。 . regress Source | SS df MS Number of obs = 30 -------------+------------------------------ F( 2, 27) = 14.39 Model | 7.93878728 2 3.96939364 Prob > F = 0.0001
Residua1|7.4491645727.275894984 0.5159 Adj r ed=0.4801 Total|15.387951829.530619029 Root mse 52526 Coef. Std. Err t P>t| [95% Conf Interval] 1.8765832.4715920.760.454-3.1947056.947871 group 8815209.1931656-4.560.000-1.277864-.4851778 xI 0402676.01784092.260.0320036612 校正了基线以后,两组疗效的差异为0.8815209,并且有统计学意义。 注:未校正前的两组疗效的差异为0933338) 一个协变量、二个因子的协方差分析 例2一2某园艺家研究鲜花的种类(因子A:花种LP(a=1)和花种 WB(a=2)和湿度(因子B:湿度低(b=-1)和湿度高(b=2)对出售鲜花量 (y)的影响。因为试验田的大小不等,故把试验田的大小(x)作为协变 量,每个试验田重复6次,资料如书ρ28)所述,试分析出售鲜花量与 这2个因子的关系。 数据结构: 10 2 12
Residual | 7.44916457 27 .275894984 R -squared = 0.5159 -------------+------------------------------ Adj R-squared = 0.4801 Total | 15.3879518 29 .530619029 Root MSE = .52526 ----------------------------------------------------------------------------- d Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------------------------------------------------------------------------- _cons 1.876583 2.471592 0.76 0.454 -3.194705 6.947871 group 1 -.8815209 .1931656 -4.56 0.000 -1.277864 -.4851778 2 (dropped) x1 .0402676 .0178409 2.26 0.032 .0036612 .076874 ----------------------------------------------------------------------------- 校正了基线以后,两组疗效的差异为 0.8815209,并且有统计学意义。 (注:未校正前的两组疗效的差异为 0.9333318) 一个协变量、二个因子的协方差分析 例 2-2 某园艺家研究鲜花的种类(因子 A:花种 LP(a=1)和花种 WB(a=2))和湿度(因子 B:湿度低(b=1)和湿度高(b=2))对出售鲜花量 (y)的影响。因为试验田的大小不等,故把试验田的大小(x)作为协变 量,每个试验田重复 6 次,资料如书(p28)所述,试分析出售鲜花量与 这 2 个因子的关系。 数据结构: y x a b 98 15 1 1 60 4 1 1 77 7 1 1 80 9 1 1 95 14 1 1 64 5 1 1 71 10 1 2 80 12 1 2 86 14 1 2 82 13 1 2
55056886 234587 11 222222222222 222222 709 由于试验田大小(x)同样可以影响出售鲜花量(y),所以可用协方差分 析 花种 湿度低(b=1)湿度高(b=2) 无x LP(a=l) u +a+B+(aB) u +a (ANOVa) WB(a=2) u+B 含x LP(a=1) H+a+B+(ab)+yx u +a+yx (Co-ANOVA) WB(a=2) u+B+yx u +yx anova y a b a*b x a*b*x, class(a b) Number of obs 24 R-squared =0. 9786 Root mse 2.60706 Adj R-squared =0. 9693 ource Partial s df Prob >F Model4977.25219 7711.036027 104.61 0.0000 a38.8083118 138.8083118 5.71 0.0295 b44.0347332 44.0347332 6.480.0216 a:*b 027656949 1.027656949 0.9499 3703.3091 13703.3091 544.87 0.0000 a*b*x10.73374833.5777916 0.53 0.6704
46 2 1 2 55 3 1 2 55 4 2 1 60 5 2 1 75 8 2 1 65 7 2 1 87 13 2 1 78 11 2 1 76 11 2 2 68 10 2 2 43 2 2 2 47 3 2 2 62 7 2 2 70 9 2 2 由于试验田大小(x)同样可以影响出售鲜花量(y),所以可用协方差分 析: 花种 湿度低(b=1) 湿度高(b=2) 无 x (ANOVA) LP(a=1) .. + + + ( ) .. + WB(a=2) .. + .. 含 x (Co-ANOVA) LP(a=1) .. + + + + ( ) x .. + + x WB(a=2) .. + + x .. + x anova y a b a*b x a*b*x,class(a b) Number of obs = 24 R-squared = 0.9786 Root MSE = 2.60706 Adj R-squared = 0.9693 Source | Partial SS df MS F Prob > F Model | 4977.25219 7 711.036027 104.61 0.0000 | a | 38.8083118 1 38.8083118 5.71 0.0295 b | 44.0347332 1 44.0347332 6.48 0.0216 a*b | .027656949 1 .027656949 0.00 0.9499 x | 3703.3091 1 3703.3091 544.87 0.0000 a*b*x | 10.7333748 3 3.5777916 0.53 0.6704 |
Residual108.747808166.796738 Total 5086.0023221.130435 由于协变量ⅹ与因子a和b的交互项a*b*x的检验的P值 0.6704>0.05,所以可以认为因子a和b与协变量x无交互作用。 Number of obs 24 R-squared =0. 9765 Root mse 2. 50768 Adj R-squared=0.9716 ource Partial ss df MS Prob> f Model|4966.5188241241.6297197.450.0000 a96.6018263196.601826315.360.0009 b323.8494731323.849473 51.50 0.0000 x|3994.51882139951882635.210.0000 a*b|16.0422442116.04224.2 0.1267 Residual 119. 481183 92图 8848331 Total 5086.00 130435 anova a bx, class (a b) Number of obs 24 R-squared =0.9734 Root mse 2. 60311 Adjr-squared= 0. 9694 Source Partial ss df Ms F Prob>F Mode1|4950.4765731650.15886243.520.0000 a97.5515084 97.551508414 b324.433906 324.433906 47.88 0.0000 3978.4765713978.47657587.130.0000 Residua1135.523427206.77617135 Total I 5086.0023221.130435 regress Coef. Std. Err. t P>t [95% Conf. Interval cons 3733802134187527.830.00034.5389240.13712 4.1044181.081753.790.0011.8479286.360908 2(dropped)
Residual | 108.747808 16 6.796738 Total | 5086.00 23 221.130435 由于协变量 x 与因子 a 和 b 的交互项 a*b*x 的检验的 P 值= 0.6704>0.05,所以可以认为因子 a 和 b 与协变量 x 无交互作用。 Number of obs = 24 R-squared = 0.9765 Root MSE = 2.50768 Adj R-squared = 0.9716 Source | Partial SS df MS F Prob > F Model | 4966.51882 4 1241.6297 197.45 0.0000 | a | 96.6018263 1 96.6018263 15.36 0.0009 b | 323.849473 1 323.849473 51.50 0.0000 x | 3994.51882 1 3994.51882 635.21 0.0000 a*b | 16.0422442 1 16.0422442 2.55 0.1267 | Residual | 119.481183 19 6.28848331 Total | 5086.00 23 221.130435 anova y a b x ,class(a b) Number of obs = 24 R-squared = 0.9734 Root MSE = 2.60311 Adj R-squared = 0.9694 Source | Partial SS df MS F Prob > F Model | 4950.47657 3 1650.15886 243.52 0.0000 | a | 97.5515084 1 97.5515084 14.40 0.0011 b | 324.433906 1 324.433906 47.88 0.0000 x | 3978.47657 1 3978.47657 587.13 0.0000 | Residual | 135.523427 20 6.77617135 Total | 5086.00 23 221.130435 regress y Coef. Std. Err. t P>|t| [95% Conf. Interval] _cons 37.33802 1.341875 27.83 0.000 34.53892 40.13712 a 1 4.104418 1.08175 3.79 0.001 1.847928 6.360908 2 (dropped) b
7.3681391.0648466.920.0005.1469099.58937 2(dropped) 3.263722.134693624.230.0002.9827563.544687 a=4.104418,B=7.368139,(aB)=0,y=3.263722 说明:在冋样的试验田数的情况下,花种LP的鲜花销售量高于花种 WB的鲜花销售量,差别有统计意义。P=0.001~0.05 在同样的试验田数的情况下,低湿度的鲜花销售量高于高湿度的鲜花 销售量,差别有统计意义。P=0.001F=0.0428 相比之下,湿度因子影响销售量高于花种的影响销售量
1 7.368139 1.064846 6.92 0.000 5.146909 9.58937 2 (dropped) x 3.263722 .1346936 24.23 0.000 2.982756 3.544687 = 4.104418, = 7.368139 ,( ) 0 = , = 3.263722 说明:在同样的试验田数的情况下,花种 LP 的鲜花销售量高于花种 WB 的鲜花销售量,差别有统计意义。P=0.001 F = 0.0428 相比之下,湿度因子影响销售量高于花种的影响销售量