第五章参数估计和假设检验的 Stata实现 本章用到的 Stata命令有 可信区间计算 立即命令为 正态分布:ci样本量样本均数样本标准差 率:ci样本量阳性数 Poisson分布均数:ci观察单位数观察值,p 原始数据的命令 正态分布:ci变量 分布 量.b 假设检验 均数的检验 立即命令为 ttest样本量样本均数样本标准差μ(待检验的总体均数) 原始数据的命令: test变量名=/o 例5-1随机抽取某地25名正常成年男子,测得其血红蛋白含量如下: 146139153138137125142134133122137128140 13713912813115813815l 17118 该样本的均数为137.32g/L,标准差为10.63gL,求该地正常成年男子血红 蛋白含量总体均数的95%可信区间 数据格式为 39 3153 138 5137 6 42 134 33 12|128 1314 14137
第五章 参数估计和假设检验的 Stata 实现 本章用到的 Stata 命令有 可信区间计算 立即命令为 正态分布: cii 样本量 样本均数 样本标准差 率: cii 样本量 阳性数 Poisson 分布均数: cii 观察单位数 观察值,p 原始数据的命令 正态分布:ci 变量 二项分布:ci 变量,b 假设检验 均数的检验 : 立即命令为: ttesti 样本量 样本均数 样本标准差 0 (待检验的总体均数) 原始数据的命令: ttest 变量名 = 0 例 5-1 随机抽取某地 25 名正常成年男子,测得其血红蛋白含量如下: 146 139 153 138 137 125 142 134 133 122 137 128 140 137 139 128 131 158 138 151 147 144 151 117 118 该样本的均数为 137.32g/L,标准差为 10.63g/L,求该地正常成年男子血红 蛋白含量总体均数的 95%可信区间。 数据格式为 x 1 146 2 139 3 153 4 138 5 137 6 125 7 142 8 134 9 133 10 122 11 137 12 128 13 140 14 137
15139 16|128 18158 19|[138 20151 21147 22144 23151 24117 25118 计算95%可信区间的 Stata命令为 ax计算95%可信区间 结果为 Variable I Obs Mean Std. Err [95% Conf. Interval] 137.322.126594 132.9309141.7091 该地正常成年男子血红蛋白含量总体均数的95%可信区间为(1329 141.71) 例5-2某市2005年120名7岁男童的身高X=12362(cm),标准差 s=475(cm),计算该市7岁男童总体均数90%的可信区间 在 Stata中有即时命令可以直接计算仅给出均数和标准差时的可信区间。 ci120123624.75, level(90) 结果为 Variable I O bs Mean Std. Err [90% Conf. Interval] 123.62 4336137 122.9012124.3388 该市7岁男童总体均数90%的可信区间(122.90~12434) 例5一3为研究铅暴露对儿童智商(Q的影响,某研究调查了78名铅暴露 (其血铅水平≥40ug/100m)的6岁儿童,测得其平均IQ为8802,标准差为1221 同时选择了78名铅非暴露的6岁儿童作为对照,测得其平均IQ为9289,标准
15 139 16 128 17 131 18 158 19 138 20 151 21 147 22 144 23 151 24 117 25 118 计算 95%可信区间的 Stata 命令为: ci x 计算 95%可信区间 结果为 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- x | 25 137.32 2.126594 132.9309 141.7091 该地正常成年男子血红蛋白含量总体均数的 95%可信区间为(132.93~ 141.71) 例 5-2 某市 2005 年 120 名 7 岁男童的身高 X =123.62(cm),标准差 s=4.75(cm),计算该市 7 岁男童总体均数 90%的可信区间。 在 Stata 中有即时命令可以直接计算仅给出均数和标准差时的可信区间。 cii 120 123.62 4.75,level(90) 结果为: Variable | Obs Mean Std. Err. [90% Conf. Interval] -------------+--------------------------------------------------------------- | 120 123.62 .4336137 122.9012 124.3388 该市 7 岁男童总体均数 90%的可信区间(122.90~124.34)。 例 5-3 为研究铅暴露对儿童智商(IQ)的影响,某研究调查了 78 名铅暴露 (其血铅水平≥40g/100ml)的 6 岁儿童,测得其平均 IQ 为 88.02,标准差为 12.21; 同时选择了 78 名铅非暴露的 6 岁儿童作为对照,测得其平均 IQ 为 92.89,标准
差为1334。试估计铅暴露的儿童智商IQ的平均水平与铅非暴露儿童相差多少, 并估计两个人群IQ的总体均数之差的95%可信区间 本题也可以应用 Stata的即时命令: ttest78928813.347888.02122 结果 Two-sample t test with equal variances Mean Std. Err. Std. Dev. [95% Conf. Intervall 78 92.881.510458 13.3489.8722995.88771 88.021.38251 12.2185.2670790.77293 combined 156 90.451.03900812.9772188.3975692.50244 diff 4.862.047637 81491798.905082 差值为486,差值的可信区间为0.81~890。 例5-4为研究肿瘤标志物癌胚抗原(CEA)对肺癌的灵敏度,随机抽取140 例确诊为肺癌患者,用CEA进行检测,结果呈阳性反应者共62人,试估计肺癌 人群中CEA的阳性率。 Stata即时命令为 cil14062 结果为 Binomial exact Variable I Obs Mean Std. Err [95% Conf. Interval 140 4428571.0419808 3590149 5291687 肺癌人群中CEA的阳性率为4428%,可信区间为3590%~5282%。 例5-5某医生用A药物治疗幽门螺旋杆菌感染者10人,其中9人转阴 试估计该药物治疗幽门螺旋杆菌感染者人群的转阴率 Stata即时命令为 ci109
差为 13.34。试估计铅暴露的儿童智商 IQ 的平均水平与铅非暴露儿童相差多少, 并估计两个人群 IQ 的总体均数之差的 95%可信区间。 本题也可以应用 Stata 的即时命令: ttesti 78 92.88 13.34 78 88.02 12.21 结果: Two-sample t test with equal variances ------------------------------------------------------------------------------ | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 78 92.88 1.510458 13.34 89.87229 95.88771 y | 78 88.02 1.38251 12.21 85.26707 90.77293 ---------+-------------------------------------------------------------------- combined | 156 90.45 1.039008 12.97721 88.39756 92.50244 ---------+-------------------------------------------------------------------- diff | 4.86 2.047637 .8149179 8.905082 ------------------------------------------------------------------------------ 差值为 4.86,差值的可信区间为 0.81~8.90。 例 5-4 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的灵敏度,随机抽取 140 例确诊为肺癌患者,用 CEA 进行检测,结果呈阳性反应者共 62 人,试估计肺癌 人群中 CEA 的阳性率。 Stata 即时命令为 cii 140 62 结果为 -- Binomial Exact -- Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- | 140 .4428571 .0419808 .3590149 .5291687 肺癌人群中 CEA 的阳性率为 44.28%,可信区间为 35.90%~52.82%。 例 5-5 某医生用 A 药物治疗幽门螺旋杆菌感染者 10 人,其中 9 人转阴, 试估计该药物治疗幽门螺旋杆菌感染者人群的转阴率。 Stata 即时命令为 cii 10 9
结果为 Variable I Obs Mean Std. err [95% Conf. Interval] 9.0948683 5549839.9974714 例5-6某市区某年12个月发生恶性交通事故的次数分别为: 5,4,6,12,7,8,10,7,6,11,3,5 假设每个月恶性交通事故的次数服从 Poisson分布,试估计该市平均每个月 恶性交通事故的次数的95%可信区间。 将1个月视为一个单位时间,因 Poisson分布具有可加性,我们先计算12 个单位时间内平均脉冲数估计值及其95%可信区间。 X=5+4+6+12+7+8+10+7+6+11+3+5=84 由于在12个单位时间内总的发生次数为84,所以可以用 cii 1284, poisson 得到结果: Poisson Exact Variable Exposure Mean Std. Err [95% Conf. Interval] 7 7637626 5.5834778.666438 例5一7续例3-4。从某纯净水生产厂家生产的矿泉水中随机取1升水样, 检出3个大肠菌群。试估计该家生产的矿泉水中每升水中大肠杆菌数的95%可 信区间。 Stata的命令为 cii 13, poisson 结果为: Poisson exact Variable Exposure Mean Std. err [95% Conf. Interval] 1.732051 61867218.767273 例5-8大规模调查表明正常成年女子的双耳在4kHz频率时的纯音气传导
结果为 -- Binomial Exact -- Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- | 10 .9 .0948683 .5549839 .9974714 例 5-6 某市区某年 12 个月发生恶性交通事故的次数分别为: 5, 4, 6, 12, 7, 8, 10, 7, 6, 11, 3, 5 假设每个月恶性交通事故的次数服从 Poisson 分布,试估计该市平均每个月 恶性交通事故的次数的 95%可信区间。 将 1 个月视为一个单位时间,因 Poisson 分布具有可加性,我们先计算 12 个单位时间内平均脉冲数估计值及其 95%可信区间。 X=5+4+6+12+7+8+10+7+6+11+3+5=84 由于在 12 个单位时间内总的发生次数为 84,所以可以用 cii 12 84,poisson 得到结果: -- Poisson Exact -- Variable | Exposure Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- | 12 7 .7637626 5.583477 8.666438 例 5-7 续例 3-4。从某纯净水生产厂家生产的矿泉水中随机取 1 升水样, 检出 3 个大肠菌群。试估计该家生产的矿泉水中每升水中大肠杆菌数的 95%可 信区间。 Stata 的命令为: cii 1 3,poisson 结果为: -- Poisson Exact -- Variable | Exposure Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- | 1 3 1.732051 .6186721 8.767273 例5-8 大规模调查表明正常成年女子的双耳在4kHz频率时的纯音气传导
听阈值平均为15dB。为研究纺机噪声对纺织女工的听力是否有影响,随机调查 了20名工龄在2年以上的纺织女工,测得其听阈值(dB)如下: 10111213141416171818 18181920202322232426 研究者的问题是:纺织女工的听阈值是否与正常成年女子不同? Stata数据格式为: 10 12 14 614 11111 678888 012345678 19 20 220 23 24 H0:p=p0, H1:H1 H0:=15(dB), H1:≠15(dB) Stata命令为 ttest=15 结果为:
听阈值平均为 15dB。为研究纺机噪声对纺织女工的听力是否有影响,随机调查 了 20 名工龄在 2 年以上的纺织女工,测得其听阈值(dB)如下: 10 11 12 13 14 14 16 17 18 18 18 18 19 20 20 23 22 23 24 26 研究者的问题是:纺织女工的听阈值是否与正常成年女子不同? Stata 数据格式为: x 1 10 2 11 3 12 4 13 5 14 6 14 7 16 8 17 9 18 10 18 11 18 12 18 13 19 14 20 15 20 16 23 17 22 18 23 19 24 20 26 H0:=0, H1:≠0。 即 H0:=15(dB), H1:≠15(dB)。 Stata 命令为: ttest x=15 结果为:
One-sample t test Variable Mean Std. Err. Std. Dev. [95% Conf. Interval] 17.81.0068194.502631 15.692 19.9073 mean an (x) t 2.7810 o. mean degrees of freedom Ha: mean 15 Ha: mean ! 1 a: mean >15 Pr(T|t|)=0.0119 Pr(T>t)=0.0060 统计量=27810,P1(T>t)=00119,所以可以拒绝H,可以认为纺织女 工与正常成年女子的平均听阈值的差异有统计学意义
One-sample t test ------------------------------------------------------------------------------ Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 20 17.8 1.006819 4.502631 15.6927 19.9073 ------------------------------------------------------------------------------ mean = mean(x) t = 2.7810 Ho: mean = 15 degrees of freedom = 19 Ha: mean 15 Pr(T |t|) = 0.0119 Pr(T > t) = 0.0060 统计量 t=2.7810,Pr(|T| > |t|) = 0.0119,所以可以拒绝 H0,可以认为纺织女 工与正常成年女子的平均听阈值的差异有统计学意义