Stata软件基本操作和数据分析入门 第五讲多组平均水平的比较 赵耐青 、复习和补充两组比较的统计检验 1.配对设计资料(又称为 Dependent Samples a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验 (test差值变量=0) b)大样本的情况下,可以用配对t检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验( (signrank 差值变量=0) 2.成组设计( Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组t检验(test效应指标变 量by(分组变量) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验( Ranksum test) 000 92 94 74 0000000000000000 101 83 102 106
Stata 软件基本操作和数据分析入门 第五讲 多组平均水平的比较 赵耐青 一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对 t 检验 (ttest 差值变量=0) b)大样本的情况下,可以用配对 t 检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组 t 检验(ttest 效应指标变 量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组 t 检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksum test) group x 0 79 0 93 0 91 0 92 0 94 0 77 0 93 0 74 0 91 0 101 0 83 0 73 0 88 0 102 0 90 0 100 0 81 0 91 0 83 0 106 0 84 0 78
87 101 101 106 110 103 94 109 98 104 多组比较 1.完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析, One Way aNOVA)进 行分析 b)方差不齐或小样本情况下资料偏态,则用 Kruskal wallis检验(H检验) 例51为研究胃癌与胃粘膜细胞中DNA含量(AU)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA含量(AU) 浅表型胃炎19.8112.7312.2912.5312.959.531268.9122714261068 肠化生 214.6117.5415.11713.3915.3213.7418.2413.8112.63145316.17 早期胃癌323.2620.820.623.517.8521.9122.1322.0419531841214820.24
0 87 0 95 0 101 1 101 1 100 1 114 1 86 1 106 1 107 1 107 1 94 1 89 1 104 1 98 1 110 1 89 1 103 1 89 1 121 1 94 1 95 1 92 1 109 1 98 1 98 1 120 1 104 1 110 二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOVA)进 行分析。 b)方差不齐或小样本情况下资料偏态,则用 Kruskal Wallis 检验(H 检验) 例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA 含量(A.U) 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 2 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17 早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24
晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用One way- ANOVA进行分析,反之用 Kruskal wallis检验 STATA数据输入格式 9.81 12.73 12.29 8 12.27 111222 14.26 10.68 14.61 17.54 17 13.74 18.24 13.81 22223 12.63 14.53 16.17 23.26 20 20.6 23.5 333333333444 21.91 22.04 19.53 18.41 21.48
晚期胃癌 4 23.73 19.46 22.39 19.53 25.9 20.43 20.71 20.05 23.41 21.34 21.38 25.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA 含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用 One way-ANOVA 进行分析,反之用 Kruskal Wallis 检验。 STATA 数据输入格式 g x 1 9.81 1 12.73 1 12.29 1 12.53 1 12.95 1 9.53 1 12.6 1 8.9 1 12.27 1 14.26 1 10.68 2 14.61 2 17.54 2 15.1 2 17 2 13.39 2 15.32 2 13.74 2 18.24 2 13.81 2 12.63 2 14.53 2 16.17 3 23.26 3 20.8 3 20.6 3 23.5 3 17.85 3 21.91 3 22.13 3 22.04 3 19.53 3 18.41 3 21.48 3 20.24 4 23.73 4 19.46 4 22.39
19.53 444444444 21.38 7 分组正态性检验, Skewness/Kurtosis tests for normalit Variable Pr( Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.491 0.485 1.07 0.5861 sktest x if g==2 Skewness/Kurtosis tests for Normality Variable Pr(Skewness) Pr (Kurtosis) adj chi2(2) ob>chi2 0.541 0.6201 sktest x if g==3 Skewness/Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) ob>chi2 0.527 0.750 0.7704 sktest x if g==4 Skewness/Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) ob>chi2 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA命令: oneway效应指标变量分组变量tb 其中t表示计算每一组均数和标准差,b表示采用 Bonferroni统计方法进行两
4 19.53 4 25.9 4 20.43 4 20.71 4 20.05 4 23.41 4 21.34 4 21.38 4 25.7 分组正态性检验,α=0.05 . sktest x if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.491 0.485 1.07 0.5861 . sktest x if g==2 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.482 0.541 0.96 0.6201 . sktest x if g==3 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.527 0.750 0.52 0.7704 . sktest x if g==4 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.260 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA 命令:oneway 效应指标变量 分组变量,t b 其中 t 表示计算每一组均数和标准差,b 表示采用 Bonferroni 统计方法进行两
两比较 本例命令为 oneway x group, t b oneway x g, t b Summary of X Mean Std. Dev 11.6863641.6884388 215.1733331.749173 22.00252.2429087 12 Total 17.5831914.6080789 alysis ariance Source ob>F Between groups 824.942549 274 77.8 0.0000 Withir 151.839445 133.531 Total 976.781994 4621.2343912 Bartlett's test for equal variances: chi2 (3)= 1.1354 Prob>chi2 =0. 769 方差齐性的检验为:卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的。 l:u=uzu=u四组总体均数相同 H1:μ,2,3,山a不全相同 =0.05,相应的统计量F=7.87以及相应的自由度为3和43,P值<0.0001,因此4组均数 的差别有统计学意义 (Bonferroni Row Mean- Col Mean 3.48697(第2组样本均数一第1组样本均数) 0.000(46:H=2检验的P值) 9.29285.80583(第3组样本均数一第2组样本均数) 0.0000.000(Hb:=2检验的P值) 4 10.31616.829171.02333(第4组样本均数-第3组样本均数) 0.000 000 1.00(H6:μ=μ检验的P值)\ 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的P值 根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常 人的AU平均水平,并且差别有统计学意义。 第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。说明胃
两比较。 本例命令为 oneway x group,t b . oneway x g,t b | Summary of x g | Mean Std. Dev. Freq. ------------+------------------------------------ 1 | 11.686364 1.6884388 11 2 | 15.173333 1.749173 12 3 | 20.979167 1.7668279 12 4 | 22.0025 2.2429087 12 ------------+------------------------------------ Total | 17.583191 4.6080789 47 Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------ Between groups 824.942549 3 274.98085 77.87 0.0000 Within groups 151.839445 43 3.53114987 ------------------------------------------------------------------------ Total 976.781994 46 21.2343912 Bartlett's test for equal variances: chi2(3) = 1.1354 Prob>chi2 = 0.769 方差齐性的检验为:卡方=1.1354,自由度=3,P 值=0.769,因此可以认为方差是齐性的。 H0:μ1=μ2=μ3=μ4 四组总体均数相同 H1:μ1,μ2,μ3,μ4不全相同 α=0.05,相应的统计量 F=77.87 以及相应的自由度为 3 和 43,P 值<0.0001,因此 4 组均数 的差别有统计学意义。 Comparison of x by g (Bonferroni) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------- 2 | 3.48697(第 2 组样本均数-第 1 组样本均数) | 0.000(H0:μ1=μ2检验的 P 值) | 3 | 9.2928 5.80583(第 3 组样本均数-第 2 组样本均数) | 0.000 0.000(H0:μ3=μ2检验的 P 值) | 4 | 10.3161 6.82917 1.02333(第 4 组样本均数-第 3 组样本均数) | 0.000 0.000 1.000(H0:μ3=μ4检验的 P 值)\ 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的 P 值。 根据上述结果可以知道,第 2 组、第 3 组和第 4 组的 AU 均数均大于第 1 组的 AU 均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的 DNA 的 AU 含量平均水平均高于正常 人的 AU 平均水平,并且差别有统计学意义。 第 3 组和第 4 组的 AU 均数也大于第 2 组的 AU 平均水平,并且差别有统计学意义。说明胃
癌患者的DNA的AU含量平均水平均高于肠化生患者的AU平均水平,并且差别有统计学 意义。 第3组和第4组两组均数的差别没有统计学意义,说明没有足够的证据可以DNA的AU含 量与癌症的早期与晚期有关系。 假如本例的资料不满足方差分析的要求,则用 Kruskal wallis检验,数据结构同上。命令为: wallis效应指标变量,by(分组变量) 本例的命令为 wallis x, by(g) H:4组的AU总体分布相同 H1:4组的AU总体分布不全相同 结果如下 Test: Equality of populations (Kruskal-Wallis test) Obs RankSum g1234 1222 205.00 439.50 chi-squared 37 814 with 3 d.f. probability 0.0001 chi-squared with ties 37.816with3d.f. probability 0.0001 说明:4组AU的总体分布不全相同,然后秩和检验,但α应取小一些(多重比较时,会增大 第一类错误的概率),根据Sdk检验的建议:a'=1-(-a),其中k为要比较的次数,a 为多组比较总的检验水平(一般为0.05),a为两两比较时的检验水平。 如本例:4组两两比较共比C2=6次,因此a'=1-(095)=00085, 对于比较第1组和第2组的AU分布差别的操作命令为 先计算中位数 组别变量排序 by g: centile x; centile(50)计算各组中位数 Binom. Int Variable Obs Percentile entile [95% Conf. Interval] 9.729564 12.7932 g Binom. Interp. Variable Obs Percentile Centile [95% Conf. Interval] 14.855 13.7474516.91172 g Binom. Interp Variable Obs Percentile Centile [95% Conf. Intervall
癌患者的 DNA 的 AU 含量平均水平均高于肠化生患者的 AU 平均水平,并且差别有统计学 意义。 第 3 组和第 4 组两组均数的差别没有统计学意义,说明没有足够的证据可以 DNA 的 AU 含 量与癌症的早期与晚期有关系。 假如本例的资料不满足方差分析的要求,则用 Kruskal Wallis 检验,数据结构同上。命令为: kwallis 效应指标变量, by(分组变量) 本例的命令为 kwallis x,by(g) H0:4 组的 AU 总体分布相同 H1:4 组的 AU 总体分布不全相同 α=0.05 结果如下: Test: Equality of populations (Kruskal-Wallis test) g _Obs _RankSum 1 11 72.00 2 12 205.00 3 12 411.50 4 12 439.50 chi-squared = 37.814 with 3 d.f. probability = 0.0001 chi-squared with ties = 37.816 with 3 d.f. probability = 0.0001 说明:4 组 AU 的总体分布不全相同,然后秩和检验,但α应取小一些(多重比较时,会增大 第一类错误的概率)。根据 Sidak 检验的建议: 1 1 (1 ) α α k ′ =− − ,其中 k 为要比较的次数,α 为多组比较总的检验水平(一般为 0.05),α’ 为两两比较时的检验水平。 如本例:4 组两两比较共比 次,因此 2 4 C = 6 1 6 a′ =− = 1 (0.95) 0.0085 , 对于比较第 1 组和第 2 组的 AU 分布差别的操作命令为: 先计算中位数 sort g 组别变量排序 by g:centile x,centile(50) 计算各组中位数 -> g = 1 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- x | 11 50 12.29 9.729564 12.7932 -> g = 2 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- x | 12 50 14.855 13.74745 16.91172 -> g = 3 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval]
--+-— 21.14 19.6055222.12043 Binom. Interp Variable Obs Percentile Centile [95% Conf. Intervall 21.36 20.0904223.69596 得到这4组中位数分别为:M1=1229,M2=14855,M3=21.4和M4=21.36 ranksum x if g=1==2, by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test g expected 132 2 204 144 combined 276 276 unadjusted variance 264.0 djustment for tie 0.00 djusted variance 264.00 Ho:x(g==1)=x(g==2) 3.693 Prob>|z|=0.0002 P值M1),并且差别有统计学 意义 第1组与第3组比较 ranksum x if g==1 g3, by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test bs rank sum expected 210 combined 23 276 276 264.0 ad justment for ties 0.00 adjusted variance 264.0
-------------+------------------------------------------------------------- x | 12 50 21.14 19.60552 22.12043 -> g = 4 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- x | 12 50 21.36 20.09042 23.69596 得到这 4 组中位数分别为:M1=12.29,M2=14.855,M3=21.14 和 M4=21.36 ranksum x if g==1 | g==2,by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test g | obs rank sum expected -------------+--------------------------------- 1 | 11 72 132 2 | 12 204 144 -------------+--------------------------------- combined | 23 276 276 unadjusted variance 264.00 adjustment for ties 0.00 ---------- adjusted variance 264.00 Ho: x(g==1) = x(g==2) z = -3.693 Prob > |z| = 0.0002 P 值M1),并且差别有统计学 意义。 第 1 组与第 3 组比较 ranksum x if g==1 | g==3,by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test g | obs rank sum expected -------------+--------------------------------- 1 | 11 66 132 3 | 12 210 144 -------------+--------------------------------- combined | 23 276 276 unadjusted variance 264.00 adjustment for ties 0.00 ---------- adjusted variance 264.00 Ho: x(g==1) = x(g==3)
Z=-4.062 Prob>|z|=0.000 P值M1),并且差别有统计学 意义,其他比较类似进行。 要注意的问题: 在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要求各组资料服从一 个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把 各组的资料合在一起作正态性检验。总的讲,方差分析对正态性具有稳健性,即:偏态 分布对方差分析的结果影响不会太大,故正态性检验的α取0.05也就可以了。 ◆样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:样本均数近 似服从正态分布)。并且由于大多数情况下,样本资料只是近似服从正态分布而不是完 全服从正态分布。由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服 从正态分布的资料往往会拒绝正态性检验的Ho:资料服从正态分布。因为正态性检验 不能检验资料是否近似服从正态分布,而是检验是否服从正态分布。故在大样本情况下 考察资料的近似正态性,应用频数图进行考察 ◆方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差 分析减少影响的。但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种 稳健性。即:只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。这 时随着样本量增大,影响会进一步降低。相反,如果各组样本量相差太大时,方差齐性 对方差分析结果的影响很大。这时随着样本量增大,影响会进一步加大 2.随机区组设计(处理组之间可能不独立) a)残差(定义为:en=X+X-X-X,也就是随机区组方差分析中的误差项) 的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因 素方差分析,Two- way ANOVA)。 b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方 差分析也可以直接用非参数随机区组的秩和检验 Fredman test) 例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖 水中氯化物的含量有无差别? 表2某湖水中不同季节的氯化物含量测定值(mg/L) location no春 秋 冬 21.2818.3317.2714.91 22.7819.8116.5514.85 2345678 0.9018.9316.3616.30 19.9021.2317.8615.73 21.4919.0915.1117.05 17.9216.5714.34 21.6719.3917.1916.31 22.0619.6516.5814.33 显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差 分析方法对4个季节的氯化物含量进行统计分析。可以把同一地点的4个季节氯化物含量视为 一个区组,因此可以用随机区组的方差分析进行统计分析
z = -4.062 Prob > |z| = 0.0000 P 值M1),并且差别有统计学 意义,其他比较类似进行。 要注意的问题: 在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要求各组资料服从一 个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把 各组的资料合在一起作正态性检验。总的讲,方差分析对正态性具有稳健性,即:偏态 分布对方差分析的结果影响不会太大,故正态性检验的α取 0.05 也就可以了。 样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:样本均数近 似服从正态分布)。并且由于大多数情况下,样本资料只是近似服从正态分布而不是完 全服从正态分布。由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服 从正态分布的资料往往会拒绝正态性检验的 H0:资料服从正态分布。因为正态性检验 不能检验资料是否近似服从正态分布,而是检验是否服从正态分布。故在大样本情况下, 考察资料的近似正态性,应用频数图进行考察。 方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差 分析减少影响的。但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种 稳健性。即:只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。这 时随着样本量增大,影响会进一步降低。相反,如果各组样本量相差太大时,方差齐性 对方差分析结果的影响很大。这时随着样本量增大,影响会进一步加大。 2. 随机区组设计(处理组之间可能不独立) a)残差(定义为:ij ij i j . . e X XX X = +− − ,也就是随机区组方差分析中的误差项) 的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因 素方差分析,Two-way ANOVA)。 b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方 差分析也可以直接用非参数随机区组的秩和检验 Fredman test)。 例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖 水中氯化物的含量有无差别? 表2 某湖水中不同季节的氯化物含量测定值(mg/L) location no 春 夏 秋 冬 1 21.28 18.33 17.27 14.91 2 22.78 19.81 16.55 14.85 3 20.90 18.93 16.36 16.30 4 19.90 21.23 17.86 15.73 5 21.49 19.09 15.11 17.05 6 22.38 17.92 16.57 14.34 7 21.67 19.39 17.19 16.31 8 22.06 19.65 16.58 14.33 显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差 分析方法对4个季节的氯化物含量进行统计分析。可以把同一地点的4个季节氯化物含量视为 一个区组,因此可以用随机区组的方差分析进行统计分析
设第8个地点在冬季的氯化物总体均数为,同样在冬季,第i个地点的氯化物总体均数 与第8个地点在冬季的氯化物总体均数相差β1,i=1,2,3,4,5,6,7。因此在冬季的这8 地点在冬季的氯化物总体均数可以表示为 地点编号 冬季氯化物均数o+B1+B20+B3o+B4u+Bsuo+B6o+B7po 假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差a1,因此春节和冬季 的氯化物总体均数可以表示为 地点编号 6 冬季氯化物均数μo+β1μo+p2μo+B3u+B4μuo+B5uo+uo+po 春季氯化物均数po+ax+B1ot+ax1+B2+axr+B3o+a1+B40+ax1+B5o+an+B6po+a1+B7o 如果a1=0说明在同一地点,冬季和春季的氯化物总体均数相同:a1>0说明春季的氯化物含 量平均高于冬季氯化物含量,反之α<0,说明春季氯化物含量均数低于冬季氯化物含量。 同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差a2 和a3,则四个季节的氯化物总体均数可以表示为 地点编号 冬季氯化物均数uo+B1o+B21o+B3o+B41uo+Bs+B6o+B7 春季氯化物均数po+a1+B1o+a1+B20+a1+B3脚0+a1+B4o+ax1+B5o+ax1+B6o+ax1+B7o 夏季氯化物均数p+a2+B110+ax2+B2po+ax2+B3p+a2+B4Ho+a2+Bs50+a2+B60+a2+B70 春季氯化物均数0+a3+B1o+ax3+B2o+ax3+B3p+ax3+B4o+ax3+Bs+a3+B6o+a+B7o 根据上述总体均数表示,可以知道:在四个季节中的氯化物总体均数(同一地点)无变化就是 H:a1=a2=0x3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因 为在同一季节中不同地点的总体均数可能不同)。 H1:a1,a2,α3不全为0 Stata数据输入格式 22.77649 222222223 1234567812345678 19.9043 21.4929 22.38085 21.67344 22.06133 18.33405 19.80538 18.92919 21.22814 19.09215 17.9237 19.38569 19.64971 17.27141
设第8个地点在冬季的氯化物总体均数为μ0,同样在冬季,第i个地点的氯化物总体均数 与第8个地点在冬季的氯化物总体均数相差βi,i=1,2,3,4,5,6,7。因此在冬季的这8 个地点在冬季的氯化物总体均数可以表示为 地点编号 1 2 3 4 5 6 7 8 冬季氯化物均数 μ0+β1 μ0+β2 μ0+β3 μ0+β4 μ0+β5 μ0+β6 μ0+β7 μ0 假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差α1,因此春节和冬季 的氯化物总体均数可以表示为 地点编号 1 2 3 4 5 6 7 8 冬季氯化物均数 μ0+β1 μ0+β2 μ0+β3 μ0+β4 μ0+β5 μ0+β6 μ0+β7 μ0 春季氯化物均数 μ0+α1+β1 μ0+α1+β2 μ0+α1+β3 μ0+α1+β4 μ0+α1+β5 μ0+α1+β6 μ0+α1+β7 μ0 如果α1=0说明在同一地点,冬季和春季的氯化物总体均数相同;α1>0说明春季的氯化物含 量平均高于冬季氯化物含量,反之α<0,说明春季氯化物含量均数低于冬季氯化物含量。 同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差α2 和α3,则四个季节的氯化物总体均数可以表示为 地点编号 1 2 3 4 5 6 7 8 冬季氯化物均数 μ0+β1 μ0+β2 μ0+β3 μ0+β4 μ0+β5 μ0+β6 μ0+β7 μ0 春季氯化物均数 μ0+α1+β1 μ0+α1+β2 μ0+α1+β3 μ0+α1+β4 μ0+α1+β5 μ0+α1+β6 μ0+α1+β7 μ0 夏季氯化物均数 μ0+α2+β1 μ0+α2+β2 μ0+α2+β3 μ0+α2+β4 μ0+α2+β5 μ0+α2+β6 μ0+α2+β7 μ0 春季氯化物均数 μ0+α3+β1 μ0+α3+β2 μ0+α3+β3 μ0+α3+β4 μ0+α3+β5 μ0+α3+β6 μ0+α3+β7 μ0 根据上述总体均数表示,可以知道:在四个季节中的氯化物总体均数(同一地点)无变化就是 H0:α1=α2=α3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因 为在同一季节中不同地点的总体均数可能不同)。 H1:α1,α2,α3不全为0 Stata 数据输入格式 t id x 1 1 21.27589 1 2 22.77649 1 3 20.89943 1 4 19.9043 1 5 21.4929 1 6 22.38085 1 7 21.67344 1 8 22.06133 2 1 18.33405 2 2 19.80538 2 3 18.92919 2 4 21.22814 2 5 19.09215 2 6 17.9237 2 7 19.38569 2 8 19.64971 3 1 17.27141
16.54567 16.36019 333333344 2345678 117.85548 15.11296 17.18734 14.90559 16.29782 5|17.05169 6 其中jd表示观察地点编号,t=1,2,3,4对应表示春节、夏季、秋季和冬季。 Stata操作命令 anova t id x tid Number of obs quare Root mse 1.01769 Adj R-squared 0 8410 SourceI Partial SS F Prob >F Model180.2143261018.0214326 17 177.344737 359.1149122 id|2.869589167.409941308 Residual21.749618211.0356961 Tota1|201.963944316.51496593 处理效应H0:a1=02=3=0的检验对应的统计量F=处理==5708 Ms 1.036 相应的P值<0000(计算机输出值是0.0000,所以拒绝无效假设,可以认为4 个季节的氯化物总体均数不全相同 不同季节中的两两比较用LSD方法检验如下: 在输入 anova x t id命令后,再输入 regress命令便得到下列结果
3 2 16.54567 3 3 16.36019 3 4 17.85548 3 5 15.11296 3 6 16.56507 3 7 17.18734 3 8 16.58279 4 1 14.90559 4 2 14.85127 4 3 16.29782 4 4 15.7286 4 5 17.05169 4 6 14.34088 4 7 16.31367 4 8 14.33015 其中 id 表示观察地点编号,t=1,2,3,4 对应表示春节、夏季、秋季和冬季。 Stata 操作命令: anova x t id . anova x t id Number of obs = 32 R-squared = 0.8923 Root MSE = 1.01769 Adj R-squared = 0.8410 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | 180.214326 10 18.0214326 17.40 0.0000 | t | 177.344737 3 59.1149122 57.08 0.0000 id | 2.86958916 7 .409941308 0.40 0.8942 | Residual | 21.749618 21 1.0356961 -----------+---------------------------------------------------- Total | 201.963944 31 6.51496593 处理效应 H0:α1=α2=α3=0 的检验对应的统计量 18.021 57.08 1.036 MS F MS === 处理 误差 相应的 P 值<0.0001(计算机输出值是 0.0000),所以拒绝无效假设,可以认为 4 个季节的氯化物总体均数不全相同。 不同季节中的两两比较用 LSD 方法检验如下: 在输入 anova x t id 命令后,再输入 regress 命令便得到下列结果