区间估计和假设检验 赵耐青 复旦大学卫生统计教研室
区间估计和假设检验 赵耐青 复旦大学卫生统计教研室
内容 区间估计 假设检验 3可信区间与假设检验的关系 4 STATA命令
2 内容 2 假设检验 3 可信区间与假设检验的关系 4 STATA命令 1 区间估计
统计推断 点值估计 参数估计 区间估计 统计推断 假设检验:均数间的比较 比例、率的比较
3 统计推断 点值估计 参数估计 区间估计 统计推断 假设检验:均数间的比较 比例、率的比较 ……
点估计和区间估计 参数估计可以分为点估计和区间估计 令点估计就是估计某个参数为某个数值(如样 本均数,样本率等) 令由于随机抽样存在抽样误差,由于点估计 无法评价抽样误差的大小,而区间估计可 以在95%可信度的尺度上估计参数的范围, 范围越小,说明参数估计的抽样误差就越
4 点估计和区间估计 ❖参数估计可以分为点估计和区间估计 ❖点估计就是估计某个参数为某个数值(如样 本均数,样本率等) ❖由于随机抽样存在抽样误差,由于点估计 无法评价抽样误差的大小,而区间估计可 以在95%可信度的尺度上估计参数的范围, 范围越小,说明参数估计的抽样误差就越 小
总体均数的区间估计 假定资料X1X2…2X近似服从正态分布N(m2a2) 今对于随机抽样而言,计算统计量 1、又少华(n-1分布因此P(tkn)=095 S/ 令基于随机抽样而言和|tk0512成立的概率为095前提下 下-4n2<m=x如空 总体均数的区间估计R502S <<+0g2 今这个区间称为总体均数的95%可信区间
5 总体均数的区间估计 ❖ 假定资料 近似服从正态分布 。 ❖ 对于随机抽样而言,计算统计量 ❖ 因此 ❖ 基于随机抽样而言和 成立的概率为0.95前提下 ❖ 总体均数的区间估计 ❖ 这个区间称为总体均数的95%可信区间 1 2 , , , X X X n 2 N( , ) ( 1) / X t t n S n − = − 分布 Pr(| | ) 0.95 0.05/ 2 Pr(| | ) 0.95 t t = 0.05/ 2 t t = 0.05/ 2 | | t t 0.05/ 2 | | t t 总体均数的区间估计 1 2 , , , X X X n 2 X X X 1 2 , , , n N( , ) ( 1) / X t t n S n − = − 分布 2 X X X 1 2 , , , n N( , ) Pr(| | ) 0.95 0.05/ 2 ( 1) t t = / X t t n S n − = − 分布 2 X X X 1 2 , , , n N( , ) 0.05/ 2 | | t t Pr(| | ) 0.95 0.05/ 2 ( 1) t t = / X t t n S n − = − 分布 2 X X X 1 2 , , , n N( , ) 0.05/ 2 | | t t Pr(| | ) 0.95 0.05/ 2 ( 1) t t = / X t t n S n − = − 分布 2 X X X 1 2 , , , n N( , ) 0.05/ 2 0.05/ 2 t S t S X X n n − + 0.05/ 2 | | t t Pr(| | ) 0.95 0.05/ 2 ( 1) t t = / X t t n S n − = − 分布 2 X X X 1 2 , , , n N( , ) 0.05/ 2 0.05/ 2 t S t S X X n n − + 0.05/ 2 0.05/ 2 t S t S X X n n − + 0.05/ 2 | | t t 0.05/ 2 0.05/ 2 t S t S X X n n − + Pr(| | ) 0.95 0.05/ 2 t t = 0.05/ 2 | | t t 0.05/ 2 0.05/ 2 t S t S X X n n − + ( 1) / X t t n S n − = − 分布 Pr(| | ) 0.95 0.05/ 2 t t = 0.05/ 2 | | t t 0.05/ 2 0.05/ 2 t S t S X X n n − + 1 2 , , , X X X n ( 1) / X t t n S n − = − 分布 Pr(| | ) 0.95 0.05/ 2 t t = 0.05/ 2 | | t t 0.05/ 2 0.05/ 2 t S t S X X n n − + 2 X X X 1 2 , , , n N( , ) ( 1) / X t t n S n − = − 分布 Pr(| | ) 0.95 0.05/ 2 t t = 0.05/ 2 | | t t 0.05/2 0.05/2 0.05/2 0.05/2 / X t S t S t t X S n n n − − − − 0.05/ 2 0.05/ 2 t S t S X X n n − +
总体均数的95%可信区间举例 今例如:在某地区7岁男孩的人群中随机抽样,抽 取200人,测量其身高,得到样本均数为 121cm,样本标准差为54cm,估计该地区7 岁男孩人群的平均身高在什么范围内 0.05/2 1.972×5.3 =121± 200 =121±0.753=(120.247,121.753)cm
6 总体均数的95%可信区间举例 ❖例如:在某地区7岁男孩的人群中随机抽样,抽 取200人,测量其身高,得到样本均数为 121cm,样本标准差为5.4cm,估计该地区7 岁男孩人群的平均身高在什么范围内。 0.05/ 2 1.972 5.3 121 200 121 0.753 (120.247,121.753) t S X n cm = = =
(1-0)×100%可信区间及其意义 今更一般而言,可以计算(1-0)×1000 可信区间,称(1-0)为可信度。 C/2n-1 今可信度的意义:在同一正态总体中随机抽 100个样本,每个样本可以计算一个959 可信区间,平均有95个可信区间包含该总 体的总体均数
7 (1-)100%可信区间及其意义 ❖更一般而言,可以计算(1-) 100% 可信区间,称(1-)为可信度。 ❖可信度的意义:在同一正态总体中随机抽 100个样本,每个样本可以计算一个95% 可信区间,平均有95个可信区间包含该总 体的总体均数。 / 2, 1 n t S X n −
(1-0)×100%可信区间及其意义 今可信度1-0越大,计算可信区间包含总体均数的 正确率就越高,但可信区间的宽度就越大,也就 是估计总体均数的精度就越差 般而言,95%可信区间是兼顾了正确性和估 计精度,对于特殊情况,可以计算90%可信区 间或99%可信区间。 对于随机抽样前而言,随机抽取一个样本量为n 的样本,计算95%可信区间,则该区间将包含 总体均数的概率为95%,不包含其总体均数的 概率为005,这是一个小概率事件,对于一次随 机抽样而言,一般是不会发生的,所以95%可 信区间一般被认为就是总体均数的范围
8 (1-)100%可信区间及其意义 ❖可信度1-越大,计算可信区间包含总体均数的 正确率就越高,但可信区间的宽度就越大,也就 是估计总体均数的精度就越差。 ❖一般而言,95%可信区间是兼顾了正确性和估 计精度,对于特殊情况,可以计算90%可信区 间或99%可信区间。 ❖对于随机抽样前而言,随机抽取一个样本量为n 的样本,计算95%可信区间,则该区间将包含 总体均数的概率为95%,不包含其总体均数的 概率为0.05,这是一个小概率事件,对于一次随 机抽样而言,一般是不会发生的,所以95%可 信区间一般被认为就是总体均数的范围
假设检验( hypothesis testing) 样本均数与总体均数不等或两样本均数不等,有 两种可能: 由抽样误差所致 两者来自不同的总体 假设检验是用来判断样本与样本,样本与总体的差异 是由抽样误差引起还是本质差别造成的统计推断方法
9 假设检验(hypothesis testing) ❖样本均数与总体均数不等或两样本均数不等,有 两种可能: ➢ 由抽样误差所致 ➢ 两者来自不同的总体 假设检验是用来判断样本与样本,样本与总体的差异 是由抽样误差引起还是本质差别造成的统计推断方法
假设检验问题 随机抽样/样本 总体 X H μ=μo 即:抽样误差? 不是抽样误差? 总体 10
10 总体 μ 随机抽样 不是抽样误差? 即:0? X 样本 总体 μ0 =0? 即:抽样误差? 假设检验问题 总体 X 总体 μ0 X 不是抽样误差? 即:0? 总体 μ0 总体 X =0? 即:抽样误差? 不是抽样误差? 即:0? 总体 μ0 总体 X