Stata软件基本操作和数据分析入门 第五讲多组平均水平的比较 赵耐青 、复习和补充两组比较的统计检验 1.配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验 test差值变量=0) b)大样本的情况下,可以用配对t检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验( (signrank 差值变量=0) 2成组设计 Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组t检验tt效应指标变 量.by(分组变量) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验( Ranksum test) group 79 000000 929794 000 101 00000000000 102 0089 106 84 78
Stata 软件基本操作和数据分析入门 第五讲 多组平均水平的比较 赵耐青 一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对 t 检验 (ttest 差值变量=0) b)大样本的情况下,可以用配对 t 检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组 t 检验(ttest 效应指标变 量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组 t 检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksum test) group x 0 79 0 93 0 91 0 92 0 94 0 77 0 93 0 74 0 91 0 101 0 83 0 73 0 88 0 102 0 90 0 100 0 81 0 91 0 83 0 106 0 84 0 78
000 101 101 100 106 107 107 94 89 11111 110 103 92452 109 11111 120 104 110 、多组比较 1.完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求,则采用 完全随机设计的方差分析方法(即:单因素方差分析, One Way anoVa进 行分析。 b)方差不齐或小样本情况下资料偏态,则用 Kruskal wallis检验(H检验 例5.1为研究胃癌与胃粘膜细胞中DNA含量(AU)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA含量(AU) 浅表型胃炎19.8112.7312.2912.5312.959.531268912.27142610.68 肠化生 214.6117.5415.11713.3915.3213.7418.2413.81126314.5316.17 早期胃癌323.2620.820.623.517.8521.912.132.0419.53184121.4820.24
0 87 0 95 0 101 1 101 1 100 1 114 1 86 1 106 1 107 1 107 1 94 1 89 1 104 1 98 1 110 1 89 1 103 1 89 1 121 1 94 1 95 1 92 1 109 1 98 1 98 1 120 1 104 1 110 二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOVA)进 行分析。 b)方差不齐或小样本情况下资料偏态,则用 Kruskal Wallis 检验(H 检验) 例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA 含量(A.U) 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 2 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17 早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24
晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用One ay- ANOVA进行分析,反之用 Kruskal wallis检验 STATA数据输入格式 9.81 12.73 1111 12.29 12.95 8.9 12.27 14.26 10.68 14.61 12222222 17.54 13.39 15.32 13.74 18.24 222223 13.81 12.63 14.53 16.17 23.26 33333 20.6 17.8 21.91 22.04 333333444 19.53 18.41 21.48 20.24 23.73 19.46
晚期胃癌 4 23.73 19.46 22.39 19.53 25.9 20.43 20.71 20.05 23.41 21.34 21.38 25.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA 含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用 One way-ANOVA 进行分析,反之用 Kruskal Wallis 检验。 STATA 数据输入格式 g x 1 9.81 1 12.73 1 12.29 1 12.53 1 12.95 1 9.53 1 12.6 1 8.9 1 12.27 1 14.26 1 10.68 2 14.61 2 17.54 2 15.1 2 17 2 13.39 2 15.32 2 13.74 2 18.24 2 13.81 2 12.63 2 14.53 2 16.17 3 23.26 3 20.8 3 20.6 3 23.5 3 17.85 3 21.91 3 22.13 3 22.04 3 19.53 3 18.41 3 21.48 3 20.24 4 23.73 4 19.46 4 22.39
19.53 4444444 25.9 20.43 20.05 21.34 21.38 25.7 分组正态性检验,a=0.05 sktest x if g==1 Skewness/Kurtosis tests for normality Joint Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.491 0.485 1.07 0.5861 sktest x if g==2 Skewness /Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.482 0.541 0.96 0.6201 sktest x if g==3 Skewness/Kurtosis tests for Normality Joint Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.527 0.750 0.52 0.7704 sktest x if Skewness/ Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2)Prob>ch 0.260 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA命令: oneway效应指标变量分组变量tb 其中t表示计算每一组均数和标准差b表示采用 Bonferroni统计方法进行两
4 19.53 4 25.9 4 20.43 4 20.71 4 20.05 4 23.41 4 21.34 4 21.38 4 25.7 分组正态性检验,=0.05 . sktest x if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.491 0.485 1.07 0.5861 . sktest x if g==2 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.482 0.541 0.96 0.6201 . sktest x if g==3 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.527 0.750 0.52 0.7704 . sktest x if g==4 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.260 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA 命令:oneway 效应指标变量 分组变量,t b 其中 t 表示计算每一组均数和标准差,b 表示采用 Bonferroni 统计方法进行两
两比较。 本例命令为 oneway x group;tb oneway x g, t b Summary of Std. d 11.6863641.6884388 15.1733331.749173 3|20.9791671.7668279 22.00252.2429087 12 Total 17.5831914.6080789 Analysis of variance Source Prob >F 824.942549 3274 77.8 0.0000 Within groups 151.839445433.531 Total 976.7819944621.2343912 Bartlett's test for equal variances: chi2(3 1.1354Prob>chi2=0.769 方差齐性的检验为:卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的 H:μ=u==山四组总体均数相同 u,山u不全相同 a=0.05,相应的统计量F=77.87以及相应的自由度为3和43,P值<0.0001,因此4组均数 的差别有统计学意义 omparison of x by g (Bonferroni) 2|3.48697(第2组样本均数一第1组样本均数 0.000(H6:=2检验的P值) 9.29285.80583(第3组样本均数一第2组样本均数) 0.000 0.000(H:1u3=2检验的P值) 4|10.31616.829171.02333(第4组样本均数-第3组样本均数) 0.000 0.000 1.000(H:H=u检验的P值) 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的P值。 根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常 人的AU平均水平,并且差别有统计学意义。 第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。说明胃
两比较。 本例命令为 oneway x group,t b . oneway x g,t b | Summary of x g | Mean Std. Dev. Freq. ------------+------------------------------------ 1 | 11.686364 1.6884388 11 2 | 15.173333 1.749173 12 3 | 20.979167 1.7668279 12 4 | 22.0025 2.2429087 12 ------------+------------------------------------ Total | 17.583191 4.6080789 47 Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------ Between groups 824.942549 3 274.98085 77.87 0.0000 Within groups 151.839445 43 3.53114987 ------------------------------------------------------------------------ Total 976.781994 46 21.2343912 Bartlett's test for equal variances: chi2(3) = 1.1354 Prob>chi2 = 0.769 方差齐性的检验为:卡方=1.1354,自由度=3,P 值=0.769,因此可以认为方差是齐性的。 H0:1=2=3=4 四组总体均数相同 H1:1,2,3,4 不全相同 =0.05,相应的统计量 F=77.87 以及相应的自由度为 3 和 43,P 值<0.0001,因此 4 组均数 的差别有统计学意义。 Comparison of x by g (Bonferroni) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------- 2 | 3.48697(第 2 组样本均数-第 1 组样本均数) | 0.000(H0:1=2 检验的 P 值) | 3 | 9.2928 5.80583(第 3 组样本均数-第 2 组样本均数) | 0.000 0.000(H0:3=2 检验的 P 值) | 4 | 10.3161 6.82917 1.02333(第 4 组样本均数-第 3 组样本均数) | 0.000 0.000 1.000(H0:3=4 检验的 P 值)\ 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的 P 值。 根据上述结果可以知道,第 2 组、第 3 组和第 4 组的 AU 均数均大于第 1 组的 AU 均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的 DNA 的 AU 含量平均水平均高于正常 人的 AU 平均水平,并且差别有统计学意义。 第 3 组和第 4 组的 AU 均数也大于第 2 组的 AU 平均水平,并且差别有统计学意义。说明胃
癌患者的DNA的AU含量平均水平均高于肠化生患者的AU平均水平,并且差别有统计学 意义。 第3组和第4组两组均数的差别没有统计学意义,说明没有足够的证据可以DNA的AU含 量与癌症的早期与晚期有关系 假如本例的资料不满足方差分析的要求,则用 Kruskal wallis检验,数据结构同上。命令为: wallis效应指标变量,by(分组变量) 本例的命令为 wallis x.by(g) Ho:4组的AU总体分布相同 H1:4组的AU总体分布不全相同 结果如下 Test: Equality of populations(Kruskal-Wallis test) Obs RankSum g123 72.00 205.00 439.50 ed 37.814 with 3 d f probability = 0.0001 chi-squared with ties 37.816 with 3 d f probability 0.0001 说明:4组AU的总体分布不全相同,然后秩和检验,但α应取小一些(多重比较时,会增大 第一类错误的概率)。根据 Sidak检验的建议:a'=1-(1-a)3,其中k为要比较的次数,a 为多组比较总的检验水平(一般为0.05),a为两两比较时的检验水平。 如本例:4组两两比较共比C2=6次,因此d=1-(0.95)=00085, 对于比较第1组和第2组的AU分布差别的操作命令为 先计算中位数 组别变量排序 by g: centile x, centile(50)计算各组中位数 Binom. Interp. Variable Obs Percentile Centile [95% Conf. Interval] + 12.29 9.729564 12.7932 g Binom. Interp Variable Obs Percentile Centile [95%Conf. Interval] 14.855 13.7474516.91172 g Binom. Interp. Variable Obs Percentile Centile [95% Conf. Interval]
癌患者的 DNA 的 AU 含量平均水平均高于肠化生患者的 AU 平均水平,并且差别有统计学 意义。 第 3 组和第 4 组两组均数的差别没有统计学意义,说明没有足够的证据可以 DNA 的 AU 含 量与癌症的早期与晚期有关系。 假如本例的资料不满足方差分析的要求,则用 Kruskal Wallis 检验,数据结构同上。命令为: kwallis 效应指标变量, by(分组变量) 本例的命令为 kwallis x,by(g) H0:4 组的 AU 总体分布相同 H1:4 组的 AU 总体分布不全相同 =0.05 结果如下: Test: Equality of populations (Kruskal-Wallis test) g _Obs _RankSum 1 11 72.00 2 12 205.00 3 12 411.50 4 12 439.50 chi-squared = 37.814 with 3 d.f. probability = 0.0001 chi-squared with ties = 37.816 with 3 d.f. probability = 0.0001 说明:4 组 AU 的总体分布不全相同,然后秩和检验,但应取小一些(多重比较时,会增大 第一类错误的概率)。根据 Sidak 检验的建议: 1 1 (1 ) k = − − ,其中 k 为要比较的次数, 为多组比较总的检验水平(一般为 0.05), ’为两两比较时的检验水平。 如本例:4 组两两比较共比 2 C4 = 6 次,因此 1 6 a = − = 1 (0.95) 0.0085 , 对于比较第 1 组和第 2 组的 AU 分布差别的操作命令为: 先计算中位数 sort g 组别变量排序 by g:centile x,centile(50) 计算各组中位数 -> g = 1 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- x | 11 50 12.29 9.729564 12.7932 -> g = 2 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- x | 12 50 14.855 13.74745 16.91172 -> g = 3 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval]
19.6055222.12043 g=4 Binom. Interp Variable Obs Percentile Centile [95% Conf. Intervall 20.0904223.69596 得到这4组中位数分别为:M1=1229,M2=14855,M3=21.14和M=21.36 aksum x ifg==1 g==2, by(g) Two-sample Wilcoxon rank-sum ( Mann-Whitney)test obs rank sum expected 132 combined 276 276 unadjusted variance ad jus tment for ties d justed variance 264.00 Ho:x(g=1)=x(g==2) Z=-3.693 Prob>|z|=0.0002 P值M1),并且差别有统计学 意义 第1组与第3组比较 ranksum x if g=1 g==3, by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney)test obs rank sum expec 132 3 210 +-----— combined 276 unadjusted variance 264.00 ad justment for ties 0.00 adjusted variance 64.00 Ho:x(g==1)=x(g==3)
-------------+------------------------------------------------------------- x | 12 50 21.14 19.60552 22.12043 -> g = 4 -- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- x | 12 50 21.36 20.09042 23.69596 得到这 4 组中位数分别为:M1=12.29,M2=14.855,M3=21.14 和 M4=21.36 ranksum x if g==1 | g==2,by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test g | obs rank sum expected -------------+--------------------------------- 1 | 11 72 132 2 | 12 204 144 -------------+--------------------------------- combined | 23 276 276 unadjusted variance 264.00 adjustment for ties 0.00 ---------- adjusted variance 264.00 Ho: x(g==1) = x(g==2) z = -3.693 Prob > |z| = 0.0002 P 值M1),并且差别有统计学 意义。 第 1 组与第 3 组比较 ranksum x if g==1 | g==3,by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test g | obs rank sum expected -------------+--------------------------------- 1 | 11 66 132 3 | 12 210 144 -------------+--------------------------------- combined | 23 276 276 unadjusted variance 264.00 adjustment for ties 0.00 ---------- adjusted variance 264.00 Ho: x(g==1) = x(g==3)
4.062 Prob>|z|=0.0000 P值M1),并且差别有统计学 意义,其他比较类似进行 要注意的问题 ◆在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要求各组资料服从 个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把 各组的资料合在一起作正态性检验。总的讲,方差分析对正态性具有稳健性,即:偏态 分布对方差分析的结果影响不会太大,故正态性检验的α取0.05也就可以了 ◆样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:样本均数近 似服从正态分布)。并且由于大多数情况下,样本资料只是近似服从正态分布而不是完 全服从正态分布。由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服 从正态分布的资料往往会拒绝正态性检验的H:资料服从正态分布。因为正态性检验 不能检验资料是否近似服从正态分布,而是检验是否服从正态分布。故在大样本情况下, 考察资料的近似正态性,应用频数图进行考察 ◆方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差 分析减少影响的。但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种 稳健性。即:只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。这 时随着样本量增大,影响会进一步降低。相反,如果各组样本量相差太大时,方差齐性 对方差分析结果的影响很大。这时随着样本量增大,影响会进一步加大。 2随机区组设计(处理组之间可能不独立) a)残差(定义为:=X+X-X-X,也就是随机区组方差分析中的误差项) 的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因 素方差分析,Two- way ANOVA) b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方 差分析也可以直接用非参数随机区组的秩和检验 Fredman test) 例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖 水中氯化物的含量有无差别? 表2某湖水中不同季节的氯化物含量测定值(mg/L) n no 秋 冬 2818.3317.2714.91 22.7819.8116.5514.85 12345678 20.9018.9316.3616.30 21.4919.0915.1117.05 22.3817.9216.5714.34 21.6719.3917.1916.31 22.0619.6516.5814.33 显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差 分析方法对4个季节的氯化物含量进行统计分析。可以把同一地点的4个季节氯化物含量视为 一个区组,因此可以用随机区组的方差分析进行统计分析。 设第8个地点在冬季的氯化物总体均数为,同样在冬季,第i个地点的氯化物总体均数
z = -4.062 Prob > |z| = 0.0000 P 值M1),并且差别有统计学 意义,其他比较类似进行。 要注意的问题: ◆ 在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要求各组资料服从一 个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把 各组的资料合在一起作正态性检验。总的讲,方差分析对正态性具有稳健性,即:偏态 分布对方差分析的结果影响不会太大,故正态性检验的取 0.05 也就可以了。 ◆ 样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:样本均数近 似服从正态分布)。并且由于大多数情况下,样本资料只是近似服从正态分布而不是完 全服从正态分布。由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服 从正态分布的资料往往会拒绝正态性检验的 H0:资料服从正态分布。因为正态性检验 不能检验资料是否近似服从正态分布,而是检验是否服从正态分布。故在大样本情况下, 考察资料的近似正态性,应用频数图进行考察。 ◆ 方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差 分析减少影响的。但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种 稳健性。即:只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。这 时随着样本量增大,影响会进一步降低。相反,如果各组样本量相差太大时,方差齐性 对方差分析结果的影响很大。这时随着样本量增大,影响会进一步加大。 2. 随机区组设计(处理组之间可能不独立) a)残差(定义为: ij ij i j . . e X X X X = + − − ,也就是随机区组方差分析中的误差项) 的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因 素方差分析,Two-way ANOVA)。 b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方 差分析也可以直接用非参数随机区组的秩和检验 Fredman test)。 例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖 水中氯化物的含量有无差别? 表2 某湖水中不同季节的氯化物含量测定值(mg/L) location no 春 夏 秋 冬 1 21.28 18.33 17.27 14.91 2 22.78 19.81 16.55 14.85 3 20.90 18.93 16.36 16.30 4 19.90 21.23 17.86 15.73 5 21.49 19.09 15.11 17.05 6 22.38 17.92 16.57 14.34 7 21.67 19.39 17.19 16.31 8 22.06 19.65 16.58 14.33 显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差 分析方法对4个季节的氯化物含量进行统计分析。可以把同一地点的4个季节氯化物含量视为 一个区组,因此可以用随机区组的方差分析进行统计分析。 设第8个地点在冬季的氯化物总体均数为0,同样在冬季,第i个地点的氯化物总体均数
与第8个地点在冬季的氯化物总体均数相差β1,i=1,2,3,4,5,6,7。因此在冬季的这8 个地点在冬季的氯化物总体均数可以表示为 地点编号 冬季氯化物均数10+B11o+B21o+B31o+B4o+Bso+B6o+B 假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差a1,因此春节和冬季 的氯化物总体均数可以表示为 地点编号 冬季氯化物均数po+B110+β2o+B3po+B 春季氯化物均数uo+a1+B11o+a1+B20+ax1+B3o+a1+B;uo+a1+Bspo+ax1+B6uo+a1+B1o 如果a1=0说明在同一地点,冬季和春季的氯化物总体均数相同:a1>0说明春季的氯化物含 量平均高于冬季氯化物含量,反之α<0,说明春季氯化物含量均数低于冬季氯化物含量。 同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差2 和a3,则四个季节的氯化物总体均数可以表示为 地点编号 冬季氯化物均数 3o+B410+B5po+B6 春季氯化物均数0+a1+B1po+ax1+B2o+ax1+B3po+ax1+B4uo+a1+阝5o+a1+B6o+a1+B7po 夏季氯化物均数o+a2+B11o+a2+B2uo+a2+B3uo+a2+B4uo+ax2+Bspo+a2+Buo+a2+B7 春季氯化物均数o+ax3+B1o+a3+B2o+ax+B3po+a3+β4o+a3+Bs5o+ax3+Buo+ax3+B7o 根据上述总体均数表示,可以知道:在四个季节中的氯化物总体均数(同一地点)无变化就是 H:a1=2=(x3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因 为在同一季节中不同地点的总体均数可能不同) H1:a1,a2,c3不全为0 Stata数据输入格式 22.77649 234 521.4929 21.67344 67812345678 22.06133 19.80538 18.92919 21.22814 19.09215 17.9237 19.38569 17.27141
与第8个地点在冬季的氯化物总体均数相差i,i=1,2,3,4,5,6,7。因此在冬季的这8 个地点在冬季的氯化物总体均数可以表示为 地点编号 1 2 3 4 5 6 7 8 冬季氯化物均数 0+1 0+2 0+3 0+4 0+5 0+6 0+7 0 假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差1,因此春节和冬季 的氯化物总体均数可以表示为 地点编号 1 2 3 4 5 6 7 8 冬季氯化物均数 0+1 0+2 0+3 0+4 0+5 0+6 0+7 0 春季氯化物均数 0+1+1 0+1+2 0+1+3 0+1+4 0+1+5 0+1+6 0+1+7 0 如果1=0说明在同一地点,冬季和春季的氯化物总体均数相同;1>0说明春季的氯化物含 量平均高于冬季氯化物含量,反之<0,说明春季氯化物含量均数低于冬季氯化物含量。 同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差2 和3,则四个季节的氯化物总体均数可以表示为 地点编号 1 2 3 4 5 6 7 8 冬季氯化物均数 0+1 0+2 0+3 0+4 0+5 0+6 0+7 0 春季氯化物均数 0+1+1 0+1+2 0+1+3 0+1+4 0+1+5 0+1+6 0+1+7 0 夏季氯化物均数 0+2+1 0+2+2 0+2+3 0+2+4 0+2+5 0+2+6 0+2+7 0 春季氯化物均数 0+3+1 0+3+2 0+3+3 0+3+4 0+3+5 0+3+6 0+3+7 0 根据上述总体均数表示,可以知道:在四个季节中的氯化物总体均数(同一地点)无变化就是 H0:1=2=3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因 为在同一季节中不同地点的总体均数可能不同)。 H1:1,2,3不全为0 Stata 数据输入格式 t id x 1 1 21.27589 1 2 22.77649 1 3 20.89943 1 4 19.9043 1 5 21.4929 1 6 22.38085 1 7 21.67344 1 8 22.06133 2 1 18.33405 2 2 19.80538 2 3 18.92919 2 4 21.22814 2 5 19.09215 2 6 17.9237 2 7 19.38569 2 8 19.64971 3 1 17.27141
16.54567 3333333 2345678 16.36019 17.85548 16.56507 17.18734 16.58279 14.90559 14.85127 16.29782 444444 345678 15.7286 17.05169 14.34088 16.31367 14.33015 其中id表示观察地点编号,t=1,2,3,4对应表示春节、夏季、秋季和冬季 Stata操作命令 Number of obs 32 R-squared 0.8923 d=0.8410 Source Partial Ss df MS Prob> F Mode180.2143261018.021432617.40 t|177.34737359.1149122 id|2.869589167.409941308 Residua1|21.749618211.0356961 Total201.963944316.51496593 处理效应Ho:a1=α2=∞3=0的检验对应的统计量F MS处理18.021 =57.08 1036 相应的P值<00001(计算机输出值是00000,所以拒绝无效假设,可以认为4 个季节的氯化物总体均数不全相同 不同季节中的两两比较用LSD方法检验如下 在输入 anova x t id命令后,再输入 regress命令便得到下列结果
3 2 16.54567 3 3 16.36019 3 4 17.85548 3 5 15.11296 3 6 16.56507 3 7 17.18734 3 8 16.58279 4 1 14.90559 4 2 14.85127 4 3 16.29782 4 4 15.7286 4 5 17.05169 4 6 14.34088 4 7 16.31367 4 8 14.33015 其中 id 表示观察地点编号,t=1,2,3,4 对应表示春节、夏季、秋季和冬季。 Stata 操作命令: anova x t id . anova x t id Number of obs = 32 R-squared = 0.8923 Root MSE = 1.01769 Adj R-squared = 0.8410 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | 180.214326 10 18.0214326 17.40 0.0000 | t | 177.344737 3 59.1149122 57.08 0.0000 id | 2.86958916 7 .409941308 0.40 0.8942 | Residual | 21.749618 21 1.0356961 -----------+---------------------------------------------------- Total | 201.963944 31 6.51496593 处理效应 H0:1=2=3=0 的检验对应的统计量 18.021 57.08 1.036 MS F MS = = = 处理 误差 相应的 P 值<0.0001(计算机输出值是 0.0000),所以拒绝无效假设,可以认为 4 个季节的氯化物总体均数不全相同。 不同季节中的两两比较用 LSD 方法检验如下: 在输入 anova x t id 命令后,再输入 regress 命令便得到下列结果