石河子大学：《医学统计学》课程教学课件（马斌荣，第6版）第06章抽样误差与假设检验.pdf_大学文库

3个抽样实验结果图示 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数频数  5;  0.2212 X n S  30;  0.0920 X n S  10;  0.1580 X n S 10 1000份样本抽样计算结果总体均数总体标准差s 均数的均数均数的标准差 n=5 5.00 0.50 4.99 0.2212 0.2236 n=10 5.00 0.50 5.00 0.1580 0.1581 n=30 5.00 0.50 5.00 0.0920 0.0913 S n  n 11 • 抽样误差的大小可以用样本均数的标准差来描述 • 通常将统计量的标准差称标准误（Standard Error) 又称样本均数的标准差 n X    / • 抽样误差在抽样研究中不可避免 • 均数的抽样误差（sampling error) ：由于样本的随机性所造成的导致来自同一总体的样本均数之间及样本均数与总体均数间的差异。 X  X  12 • 实际研究中σ未知，以样本标准差S作为σ的估计值计算标准误：例4.1 在某地随机抽查成年男子140人，测得红细胞数均数为4.77×102 /L，标准差0.38 ×102 /L ，试计算其抽样误差的大小： S S n X  / S  S / n  0.38/ 140  0.032 X P29 13 二、样本均数的抽样分布特点  各样本均数未必等于总体均数  样本均数之间存在差异  样本均数的分布很有规律，围绕着总体均数左右基本对称，也服从正态分布  样本均数的变异较原变量的变异大大缩小 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数频数 14 中心极限定理: 当样本含量很大的情况下，无论原始测量变量服从什么分布，X 的抽样分布均近似正态。抽样分布抽样分布示意图 s 15 标准误的用途  衡量抽样误差的大小，标准误越小，样本均数与总体均数越接近，样本均数的可信度越高  结合标准正态分布与t分布曲线下面积分布规律，估计总体均数的可信区间  用于假设检验  标准差与标准误的区别和联系？ 16  从正态总体N( μ,σ2)中随机抽取样本含量为n 的样本，获得的样本均数的分布服从正态分布 N(μ， ) 。 同样可以对呈正态分布的进行u变换 2  x t 分布 x x x u    17 t分布     X u X 随机变量X N(μ,σ2) 标准正态分布 N（0，1 u变换 2）均数 N(μ,σ2/n) 标准正态分布 N（0，1 2） n X u     ,   1     v n SX S n X t X   Student t分布自由度：n-1 18

t分布曲线 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 -4 -3 -2 -1 0 1 2 3 4 t f(t) 自由度为1的t分布自由度为9的t分布标准正态分布 t 分布有如下性质： ①单峰分布，曲线在t＝0 处最高，并以t＝0为中心左右对称 ②与正态分布相比，曲线最高处较矮，两尾部翘得高（见绿线） ③ 随自由度增大，曲线逐渐接近正态分布；分布的极限为标准正态分布。 19 t分布曲线下面积（附表2）双侧t0.05/2，9＝2.262 ＝单侧t0.025，9 单侧t0.05，9＝1.833 双侧t0.01/2，9＝3.250 ＝单侧t0.005，9 单侧t0.01，9＝2.821 双侧t0.05/2，∞＝1.96 ＝单侧t0.025，∞ 单侧t0.05，∞ ＝1.64 20 单侧：tα， v 双侧：tα/2，v 四总体均数的估计总体均数的点估计（point estimation）与区间估计（interval estimation）参数的估计点估计:由样本统计量直接估计总体参数区间估计:在一定置信度（Confidence level）下，估计未知总体均数的可能范围 a    b 、 、  X、 S、 p 21 在估计总体均数的可信区间时：  估计错误的概率：α  估计正确的概率：1-α，也称为可信度，常用 95％或99％  可信区间：根据一定概率估计得到的区间 95%（CI）； 99%（CI） 22 可信区间的两个要素  1.准确度（accuracy）：反映在可信度的大小，即可行区间包含总体均数的概率大小  2.精密度（precision）：反映在区间的长度，区间宽度越小，精密度越高 23 总体均数的可信区间的估计 1、σ已知，正态曲线下有95％的u值在±1.96间，  总体均数95％可信区间为：  同理，99％可信区间为： x x x x x xu     1.96 1.96 1.96 1.96 1.96 1.96              x  x x 96 x  1.96 ,  1. x  x x 58 x  2.58 ,  2. 24 v   v  5 v  1 f t( ) 标准正态分布 σ 未知可用其估计值S 代替，但已不再服从标准正态分布，而是服从 t 分布。 (X  )/(S / n) 不同自由度的 t 分布图 25 2、σ未知按t分布原理，有95％的t值在± 之间总体均数μ的95％可信区间为：总体均数μ的99％可信区间为： 0.05/ 2 t 0.05/2 0.05/2 0.05/2 0.05/2 0.05/2 0.05/2 , x x x t t t x t t S x t S x t S            移项：       x Sx x  t  S x  t  0.05/ 2 0.05/ 2 , x Sx x  t  S x  t  0.01/ 2 0.01/ 2 , 26 例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 g/L，标准差为0.57 g/L，试计算该种病人血浆纤维蛋白原含量总体均数的 95%可信区间。下限：上限： . 3.32 2.064 0.57/ 25 3.09 (g/L) / 2( )     X X－t   S . 3.32 2.064 0.57 / 25 3.56 (g/L)  / 2( )     X X t   S 27

例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。本例属于大样本，可采用正态近似的方法计算可信区间。因为，则95%可信区间为：   4.77，  0.38，n  140 . 4.77 1.96 0.38/ 140 4.71( 10 /L) 12 / 2      X X－u S . 4.77 1.96 0.38/ 140 4.83( 10 / L) 12  / 2      X X u S 下限：上限： 28 可信区间的涵义总体均数95％可信区间：该区间包含总体均数的概率为95％。从总体中作随机抽样，作100次抽样，每个样本可算得一个可信区间，得100个可信区间，平均有95个可信区间包括μ(估计正确)，只有5个可信区间不包括μ(估计错误)。 95％可信区间 99％可信区间公式区间范围窄宽估计错误的概率大（0.05）小（0.01） X X X  t0.01/ 2,S , X  t0.01/ 2,S X X X  t 0.05 / 2, S , X  t 0.05 / 2, S 29 μ * * * * * * 三、模拟实验模拟抽样成年男子红细胞数。设定: μ=4.75，σ=0.39，n=140 产生100个随机样本，分别计算其95%的可信区间，结果用图示的方法表示。从图可以看出：绝大多数可信区间包含总体参数μ=4.75，只有6个可信区间没有包含总体参数（用星号标记）。 30 第三节假设检验的意义和步骤第三节假设检验的意义和步骤 (Hypothesis Test) 统计推断的另一个重要内容，目的是通过样本数据比较总体参数之间有无差别。一、假设检验的基本思想小概率反证法 32 例4.4 使用黑加仑油软胶囊治疗高脂血症，30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为 1.38±0.76 (g/L)，问治疗后血清甘油三酯是否有所改善？差值不为零的原因是什么？假设检验的目的——就是判断差别是由哪种原因造成的。 ① 抽样误差造成的； ② 本质差异造成的。 33 ① 抽样误差造成的：治疗后 d= 1.38 μd = 0 治疗前 34 ② 本质差异造成的：差值=1.38 μ前>μ后治疗前治疗后 35 ① 抽样误差造成的：H0 治疗后 d= 1.38,μd = 0 治疗前 ② 本质差异造成的：H1 μ前>μ后,差值=1.38 治疗前治疗后 H0:来自同一总体，治疗前后没有差别； H1: 来自不同总体，治疗前后有差别； α=0.05 n S d S d S d t d d d d       0 =1.38/0.139=9.95 t (0.05，29) = 2.045 36

46 若 P≤α ：按所取检验水准α，拒绝H0，接受H1，下“差别有统计学意义”的结论。其统计学依据是在假设H0成立的条件下，通过计算得到拒绝实际成立的H0犯错误的概率P≤α；因为是小概率事件，因此拒绝H0认为H1 正确。 I型错误和II型错误假设检验是利用小概率反证法思想，从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立，然后在假定H0成立的条件下计算检验统计量，最后根据P值判断结果，此推断结论具有概率性，因而无论拒绝还是不拒绝H0，都可能犯错误。检验水准与两类错误 47 I 型错误：“实际无差别，但下了有差别的结论”，假阳性错误。犯这种错误的概率是 （其值等于检验水准） II型错误：“实际有差别，但下了不拒绝H0的结论”，假阴性错误。犯这种错误的概率是 （其值未知）。但 n 一定时，  增大， 则减少。 48 假设检验的结果客观实际拒绝 H0 “接受”H0 H0 成立 I 型错误() 推断正确(1) H0 不成立即 H1 成立推断正确(1) II 型错误( ) 可能发生的两类错误 49 两类错误 I型错误：拒绝实际正确的H0， I型错误的概率记为α。（1－a）即可信度:重复抽样时，样本区间包含总体参数（μ）的百分数。α为拒绝H0时可能发生错误的概率. II型错误 : 不拒绝实际不正确的H0， II型错误的概率记为 β。（1－β）即把握度（检验效能）:两总体确有差别，被检出有差别的能力. 为不拒绝H0时可能发生错误的概率. 50 减少I型错误的主要方法：假设检验时设定 值减少II型错误的主要方法：提高检验效能。提高检验效能的最有效方法：增加样本量。如何选择合适的样本量：实验设计。 51 双侧u检验的检验水准α 单侧u检验的检验水准α 单侧检验与双侧检验 52 1.要有严密的研究设计，尤其是因果结论。 2.不同的资料应选用不同检验方法。 3.正确理解“显著性”一词的含义(用“差异有 /无统计学意义”替代)。 4.结论不能绝对化,提倡使用精确P值。 5.注意统计学意义与临床意义的区别假设检验的统计意义与实际意义 53 可信区间与假设检验各自不同的作用，要结合使用。可信区间可回答假设检验的问题；可信区间若包含了H0，按水准，不拒绝H0；若不包含H0，按水准，拒绝H0，接受H1。 54

石河子大学：《医学统计学》课程教学课件（马斌荣，第6版）第06章 抽样误差与假设检验

石河子大学：《医学统计学》课程教学课件（马斌荣，第6版）第06章抽样误差与假设检验