Stata软件基本操作和数据分析入门 第四讲两组计量资料平均水平的统计检验 、配对设计的平均水平检验 统计方法选择原则: 如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验 小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检 验( matched- pairs signed- ranks test)。 例110例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下: 表10例男性矽肺患者血红蛋白值(g/dL) 病例号12345678910 治疗前11.315.015.013.512.810.011.012.013.012.3 治疗后14.013.814.013.513.512.014.711.413.812.0 问:治疗前后的血红蛋白的平均水平有没有改变 这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解 释可能会有问题) Stata数据输入结构 11.3 13.8 13.5 12.8 13.5 14.7 1.4 12.3 操作如下
Stata 软件基本操作和数据分析入门 第四讲 两组计量资料平均水平的统计检验 一、配对设计的平均水平检验 统计方法选择原则: 如果配对的差值服从近似正态分布(小样本)或大样本,则用配对 t 检验 小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检 验(matched-pairs signed-ranks test)。 例 1 10 例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下: 表 10 例男性矽肺患者血红蛋白值(g/dL) 病例号 1 2 3 4 5 6 7 8 9 10 治疗前 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 治疗后 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 问:治疗前后的血红蛋白的平均水平有没有改变 这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解 释可能会有问题) Stata 数据输入结构 X1 X2 11.3 14 15 13.8 15 14 13.5 13.5 12.8 13.5 10 12 11 14.7 12 11.4 13 13.8 12.3 12 操作如下:
gen d=x1-x2 产生配对差值的变量d sktest d 正态性检验 正态性检验结果如下: sktest d Skewness/Kurtosis tests for Normality Jo1 Variable Pr(Skew Pr(Kurtosis) adj chi2 (2) Prob>chi2 0.279 0.774 0.4885 正态性检验的无效假设为:资料正态分布 相应的备选假设为:资料非正态分布 =0.05,由于正态性检验的P值=040189,故可以认为资料近 似服从正态分布。 ttest d=0 配对t检验:Hoμa=0vsH1;=0 结果如下 One-sample t test Variable Mean Std. Err. Std. Dev. [95%Conf. Interval] d 10 679999952042721.6457 2884972881 Degrees of freedom: 9 mean Ha: mean =0 t=-1.3066 t=-1.3066 t=-1.3066 P|t|=0.2237 P>t=0.8881 P值=0.2237>,故认为治疗前后的血红蛋白的平均数差异没有统计 学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
gen d=x1-x2 产生配对差值的变量 d sktest d 正态性检验 正态性检验结果如下: . sktest d Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- d | 0.279 0.774 1.43 0.4885 正态性检验的无效假设为:资料正态分布 相应的备选假设为:资料非正态分布 α=0.05,由于正态性检验的 P 值=0.40189>>α,故可以认为资料近 似服从正态分布。 ttest d=0 配对 t 检验: H0:μd=0 vs H1:μd≠0, α=0.05 结果如下: One-sample t test ------------------------------------------------------------------------------ Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- d | 10 -.6799999 .5204272 1.645735 -1.857288 .4972881 ------------------------------------------------------------------------------ Degrees of freedom: 9 Ho: mean(d) = 0 Ha: mean 0 t = -1.3066 t = -1.3066 t = -1.3066 P |t| = 0.2237 P > t = 0.8881 P 值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计 学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
均数不同。 如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如 下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差 为1.65,则输入命令如下 ttest样本量样本均数样本标准差0 本例为: ttest10-0.661.650 得到下列结果如下: ttest10.661.650 One-sample ttest Mean Std. Err. Std. Dev. [95%Conf. Interval] 217758 1.65-52033891.840339 Degrees of freedom: 9 Ho: mean(x)=0 Ha: mean|t|=0.2377 P>t=0.1188 结果解释与结论同上述相同。 如果对于小样本的情况下,差值不满足正态分布,则用 Match-Sign- -rank test,操作如下: signrank差值变量名=0 假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本 例满足正态分布)则 Ho:差值的中位数=0 (其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗 前的血红蛋白小于治疗后的血红蛋白的概率)
均数不同。 如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如 下(如,已知样本量为 10,差值的样本均数为-0.66,差值的标准差 为 1.65,则输入命令如下: ttesti 样本量 样本均数 样本标准差 0 本例为: ttesti 10 -0.66 1.65 0 得到下列结果如下: . ttesti 10 .66 1.65 0 One-sample t test ------------------------------------------------------------------------------ | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 10 .66 .5217758 1.65 -.5203389 1.840339 ------------------------------------------------------------------------------ Degrees of freedom: 9 Ho: mean(x) = 0 Ha: mean 0 t = 1.2649 t = 1.2649 t = 1.2649 P |t| = 0.2377 P > t = 0.1188 结果解释与结论同上述相同。 如果对于小样本的情况下,差值 不满足正态分布,则用 Match-Sign-rank test,操作如下: signrank 差值变量名=0 假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本 例满足正态分布)则 H0:差值的中位数=0 (其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗 前的血红蛋白小于治疗后的血红蛋白的概率)
H1:差值的中位数≠0 =0.05 本例为 signrank d=0 Wilcoxon signed-rank test sign sum ranks expected negative zero 4510 all unadjusted variance 0.00 ad justment for zeros -0.25 ad justed variance Z=-0.919 Prob>|z|=0.3583 P值=0.3583>>α,故没有足够的证据说明两个总体不同。 平行对照设计的两组资料平均水平统计检验 统计方法选择原则: 如果两组资料的方差齐性和相互独立的,并且每组资料服从正态 分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可 以用成组 Wilcoxon秩和检验。 例2为研究噪声对纺织女工子代智能是否有影响,一研究人员在 某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织 女工及同一单位、条件与接触组相近但不接触噪声的女职工,其 子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中
H1:差值的中位数≠0 α=0.05 本例为 signrank d=0 Wilcoxon signed-rank test sign | obs sum ranks expected -------------+--------------------------------- positive | 4 18 27 negative | 5 36 27 zero | 1 1 1 -------------+--------------------------------- all | 10 55 55 unadjusted variance 96.25 adjustment for ties 0.00 adjustment for zeros -0.25 ---------- adjusted variance 96.00 Ho: d = 0 z = -0.919 Prob > |z| = 0.3583 P 值=0.3583>>α,故没有足够的证据说明两个总体不同。 二、平行对照设计的两组资料平均水平统计检验 统计方法选择原则: 如果两组资料的方差齐性和相互独立的,并且每组资料服从正态 分布(大样本资料可以忽略正态性问题),则用成组 t 检验,否则可 以用成组 Wilcoxon 秩和检验。 例 2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在 某纺织厂随机抽取接触噪声 95dB(A)、接触工龄 5 年以上的纺织 女工及同一单位、条件与接触组相近但不接触噪声的女职工,其 子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中
国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子 代智能有无影响?(接触组 group=0,不接触组 group=1) 资料及其结果如下 X 79 0000000000000 999 7949 101 73 102 000 81 106 000 789111 111111 114 106 107 107 94 104
国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子 代智能有无影响?(接触组 group=0,不接触组 group=1) 资料及其结果如下: group x 0 79 0 93 0 91 0 92 0 94 0 77 0 93 0 74 0 91 0 101 0 83 0 73 0 88 0 102 0 90 0 100 0 81 0 91 0 83 0 106 0 84 0 78 0 87 0 95 0 101 1 101 1 100 1 114 1 86 1 106 1 107 1 107 1 94 1 89 1 104
110 92 104 110 方差齐性检验 2 两组方差齐性的检验命令(仅适合两组方差齐性检验) sdtest x, by(group) Variance ratio test Group Me Std. Err. Std. Dev. [95% Conf. Intervall 0 89.081.8229289.1146485.3176692.84234 101.521.9009829.50491197.59657105.4434 combined 95.31.5774561.154392.1299898.47002 F(24, 24)observed F ob =0.920 F(24, 24) lower tail =FL F ob 0.920 F(24, 24)upper tail FU =1/F obs= 1.087 Ha: sd(0)sd(1) PFU=0.8389P>Fobs=0.5805 P值=0.8389α,因此可以认为两组方差齐性的
1 98 1 110 1 89 1 103 1 89 1 121 1 94 1 95 1 92 1 109 1 98 1 98 1 120 1 104 1 110 方差齐性检验 H0:σ1=σ2 vs H1:σ1≠σ2 α=0.1 两组方差齐性的检验命令(仅适合两组方差齐性检验) sdtest x,by(group) Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 25 89.08 1.822928 9.11464 85.31766 92.84234 1 | 25 101.52 1.900982 9.504911 97.59657 105.4434 ---------+-------------------------------------------------------------------- combined | 50 95.3 1.577456 11.1543 92.12998 98.47002 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1) F(24,24) observed = F_obs = 0.920 F(24,24) lower tail = F_L = F_obs = 0.920 F(24,24) upper tail = F_U = 1/F_obs = 1.087 Ha: sd(0) sd(1) P F_U = 0.8389 P > F_obs = 0.5805 P 值=0.8389>>α,因此可以认为两组方差齐性的
正态性检验:H:资料服从正态分布ⅴsH:资料偏态分布 每一组资料正态性检验 ktest x if group==0 Skewness/Kurtosis tests for Normality Jo1 Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.927 0.326 1.0 0.5926 sktest x if group==l s/Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.474 0.675 0.73 0.6948 P值均大于α,因此可以认为两组资料都服从正态分布 H:p1=μ2vsH1:μu1≠2 =0.05 ttest x, by(group) Two-sample t test with equal variances oup Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] 89.081.8229289.1146485.3176692.84234 25101.521.9009829.50491197.59657105.4434 combined 1.57745611.154392.1299898.47002 diff I -12.442.633781 17.73557-7.144429 Degrees of freedom: 48 Ho: mean (0)- mean (1)=diff =0 Ha: diff0 4.7232 t=-4.7232 P|t=0.0000 =1.0000
正态性检验:H0:资料服从正态分布 vs H1:资料偏态分布 α=0.05 每一组资料正态性检验 sktest x if group==0 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.927 0.326 1.05 0.5926 . sktest x if group==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.474 0.675 0.73 0.6948 P 值均大于α,因此可以认为两组资料都服从正态分布 H0:μ1=μ2 vs H1:μ1≠μ2 α=0.05 ttest x,by(group) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 25 89.08 1.822928 9.11464 85.31766 92.84234 1 | 25 101.52 1.900982 9.504911 97.59657 105.4434 ---------+-------------------------------------------------------------------- combined | 50 95.3 1.577456 11.1543 92.12998 98.47002 ---------+-------------------------------------------------------------------- diff | -12.44 2.633781 -17.73557 -7.144429 ------------------------------------------------------------------------------ Degrees of freedom: 48 Ho: mean(0) - mean(1) = diff = 0 Ha: diff 0 t = -4.7232 t = -4.7232 t = -4.7232 P |t| = 0.0000 P > t = 1.0000
P值(0 t=-4.7231 t=-4.7231 t=-4.7231 Ptl 0.0000 1.0000 结果解释同上。 方差不齐的情况,(小样本时,资料正态分布)还可以用t检验 命令:tt观察变量名,by(分组变量名) unequal 立即命令为tesi样本量1均数1标准差1样本量2均数2标准差2, unequal 假定本例的资料方差不齐(实际为方差不齐的),则要用t检验如下 ttest x, by(group)unequal
P 值( 0 t = -4.7231 t = -4.7231 t = -4.7231 P |t| = 0.0000 P > t = 1.0000 结果解释同上。 方差不齐的情况,(小样本时,资料正态分布)还可以用 t’检验 命令:ttest 观察变量名,by(分组变量名) unequal 立即命令为 ttesti 样本量 1 均数 1 标准差 1 样本量 2 均数 2 标准差 2,unequal 假定本例的资料方差不齐(实际为方差不齐的),则要用 t’检验如下 ttest x,by(group) unequal
Two-sample t test with unequal variances Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] 0 89.081.822928 1146485.3176692.84234 101.521.9009829.50491197.59657105.4434 combined 95.31.57745611.154392.1299898.47002 diff -12.442.633781 17.73581-7.144189 Satterthwaites degrees of freedom: 47 9159 Ho: mean(0)- mean (1)= diff 0 Ha: diff0 t=-4.7232 t=-4.7232 t=-4.7232 P|t|=0.000 p>t 1.0000 结果解释同上。 t’检验有许多方法,这里介绍的 Satterthwaite方法,主要根据两 个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差 比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t 自由度为47.9159)。由于t检验要求的两组总体方差相同(称为方差 齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方 差齐性的情况下,样本方差表现为两个样本方差之比≈1。(注意:两 个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为 0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个 样本标准差仅差0.09,但是两个样本方差之比为100。故用方差齐性 检验的结果如下 方差齐性的立即命令为 sdtesti样本量1.标准差1样本量2.标准差2
Two-sample t test with unequal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 25 89.08 1.822928 9.11464 85.31766 92.84234 1 | 25 101.52 1.900982 9.504911 97.59657 105.4434 ---------+-------------------------------------------------------------------- combined | 50 95.3 1.577456 11.1543 92.12998 98.47002 ---------+-------------------------------------------------------------------- diff | -12.44 2.633781 -17.73581 -7.144189 ------------------------------------------------------------------------------ Satterthwaite's degrees of freedom: 47.9159 Ho: mean(0) - mean(1) = diff = 0 Ha: diff 0 t = -4.7232 t = -4.7232 t = -4.7232 P |t| = 0.0000 P > t = 1.0000 结果解释同上。 t’检验有许多方法,这里介绍的 Satterthwaite 方法,主要根据两 个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差 比较接近,故自由度几乎没有减少(t 检验的自由度为 48,而本例 t’ 自由度为 47.9159)。由于 t 检验要求的两组总体方差相同(称为方差 齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方 差齐性的情况下,样本方差表现为两个样本方差之比≈1。(注意:两 个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为 0.1,样本量为 100,第 2 个样本标准差为 0.01,样本量为 100,两个 样本标准差仅差 0.09,但是两个样本方差之比为 100。故用方差齐性 检验的结果如下: 方差齐性的立即命令为 sdtesti 样本量 1 . 标准差 1 样本量 2 . 标准差 2
sdtesti100.0.1100.0.01 Variance ratio test Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] 100 01 001 combined I Ho: sd(x)= sd(y) F(99, 99)observed =F obs 100.000 F(99, 99)lower tail FL =1/F obs =0.010 F(99, 99)upper tail =Fu =F obs =100.000 Ha: sd(x)sd(y) PFU=0.0000P>Fobs=0.0000 P值<0.0001,因此认为两组的方差不齐。故方差齐性是考察两个样 本方差之比是否接近1。 如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例 介绍成组秩和检验),则用秩和检验( Wilcoxon ranksum test) H:两组资料所在总体相同 H1:两组资料所在总体不同 a=0.05 命令: ranksum观察变量名,by(分组变量)
sdtesti 100 . 0.1 100 . 0.01 Variance ratio test ----------------------------------------------------------------------------- | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------------------- x | 100 . .01 .1 . . y | 100 . .001 .01 . . ---------+------------------------------------------------------------------- combined | 200 . . . . . ----------------------------------------------------------------------------- Ho: sd(x) = sd(y) F(99,99) observed = F_obs = 100.000 F(99,99) lower tail = F_L = 1/F_obs = 0.010 F(99,99) upper tail = F_U = F_obs = 100.000 Ha: sd(x) sd(y) P F_U = 0.0000 P > F_obs = 0.0000 P 值<0.0001,因此认为两组的方差不齐。故方差齐性是考察两个样 本方差之比是否接近 1。 如果本例的资料不满足 t 检验要求(注:实际是满足的,只是想用本例 介绍成组秩和检验),则用秩和检验(Wilcoxon Ranksum test)。 H0:两组资料所在总体相同 H1:两组资料所在总体不同 α=0.05 命令:ranksum 观察变量名,by(分组变量)