第一街量支经的指 小结 银除医录4 大华精品源复丙若+载华黄爆小(3、) 乙:*是a5九 一节时量史升恒成的调棉 品益 两惠有限城强之间的客蒙班度比酸 Q=157-062=0 wX-时-Er.② 章经灯6.不子a 了医麻有一小中用能计者民
1 第三章 离散程度的统计描述 (Measures of Dispersion) 预防医学系 1 2 课程设置 课时: 理论课: 22学时 实习课: 10学时 联系方式:预防医学系卫生统计学教研室 Tel.: 2057153 Baidu贴吧:yfyxx (讨论、答疑、作业) http://tieba.baidu.com/f?kw=yfyxx# 大学精品课程网站→教学资源→(ppt、wmv) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 2 教学内容 第一节 衡量变异程度的指标 第二节 正态分布及应用 第三节 医学参考值范围 小结 3 4 例3.1 对甲乙两名高血压患者连续观察5天,测得 的收缩压(mmHg)结果如下: 患者 第1天 第2天 第3天 第4天 第5天 均数 甲患者 162 145 178 142 186 162.6 乙患者 164 160 163 159 166 162.4X 4 可以看出:两患者收缩压的均数十分接近,但甲 患者的血压波动较大,而乙患者相对稳定。通 常,描述一组观察值,除需要表示其平均水平 外,还要说明它的离散或变异的情况。 5 两患者收缩压之间的离散程度比较 甲患者 乙患者 6 第一节 衡量变异程度的指标 一、间距指标 (一)极差(Range) 也称作全距,即观察值中最大值和最小值之差,用符 号R 表示。如前例甲乙两患者收缩压的极差分别为 该法简单明了、容易使用,如用于说明传染病、食 物中毒等的最短、最长潜伏期等;缺点是结果不稳定。 R甲 186 142 44 (mmHg) R 乙 166 159 7 (mmHg) 6 7 (二)四分位数间距 (Quartile) 如由上一章例2.4 算出,50岁~60岁正常女性血清 甘油三脂含量的百分位数P75和P25的位置分别为 0.632 mmol/L和1.357 mmol/L,则 四分位数间距主要用于衡量明显偏态分布资料的 变异程度。 Q P75 P25 Q 1.357 0.632 0.725(mmol/L) 0.30 0.632(mmol/L) 169 630 0.25 27 25 0.40 P 0.30 1.357(mmol/L) 81 630 0.75 457 75 1.30 P 7 8 二、平均差距指标 (一)平均偏差(Mean Difference) 如对于例3.1: 甲患者: 乙患者: 特点:直观 , 易理解;但由于用了绝对值,不便于数 学处理,实际中很少使用。 n X X 平均偏差 15.52(mmHg) 5 162 162.6 145 162.6 186 162.6 平均偏差 2.32(mmHg) 5 164 162.4 160 162.4 166 162.4 平均偏差 8 9 (二)离均差平方和(Sum of Square,SS) 为了克服平均偏差的缺点,可以不通过取绝对 值,而是通过取平方来避免正负抵消,即使用离 均差平方和,其计算公式为 SS 通常作为一个中间统计量使用。 nX SS X X X 2 2 2 ( ) ( ) 9
这接厚闲 :于华林会桥n通无,话 s- ◆ 第二节正态分布及应用 事二节三志命神天店用 一事二等五高命率头点用 第二节医志◆布及底周 A人
10 (三)方差 (Variance) 方差是将离均差平方和再取平均,即 注意:对于样本资料,分母用的是n-1,称为 自由度(degree of freedom,df )。 方差的特点:便于数学上的处理,但由于有平 方,度量衡发生变化,不便于实际应用。 1 ( ) 2 2 nX X S 10 N X 2 2 ( ) 11 (四)标准差 (Standard Deviation) 将方差取平方根,还原成与原始观察值单位相同 的变异量度即为标准差: 例如对于例3.1经计算有 甲患者: 乙患者: 1 ( ) 1 ( ) 2 2 2 n X X n nX X S X 813 133713 2 X n 5 19.49(mmHg) 5 1 133713 813 / 5 2 S S 2.88(mmHg) 11 12 (五)变异系数(Coefficient of Variation ) 主要用于对均数相差较大或单位不同的几组观察值的 变异程度进行比较。 例3.3 测得某地成年人舒张压均数为77.5mmHg,标准 差为10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。 100% X S CV 100% 13.8% 77.5 10.7 CV舒张压 100% 13.9% 122.9 17.1 CV收缩压 12 13 红细胞数 划记 频 数 频 率(%) 累积频率(%) 3.80~ 2 1.4 1.4 4.00~ 正 6 4.3 5.7 4.20~ 正正 11 7.9 13.6 4.40~ 正正正正正 25 17.9 31.5 4.60~ 正正正正正正 32 22.9 54.4 4.80~ 正正正正正 27 19.3 73.7 5.00~ 正正正 17 12.1 85.8 5.20~ 正正 13 9.3 95.1 5.40~ 正 4 2.9 98.0 5.60~ 2 1.4 99.4 5.80~ 6.00 1 0.7 100.0 合计 140 - 100.0 表2-1 某地140名正常男子红细胞数的频数表 第二节 正态分布及应用 14 第二节 正态分布及应用 15 以红细胞数为横坐标,以频数为纵坐标绘制直方图, 由直条的高度反映频率的大小。当n=140, i=0.2cm时, 绘制 的直方图如下图。 15 16 当n=1000, i=0.1时, 绘制直方图如下图。 第二节 正态分布及应用 16 17 当n→∞, i→0cm时, 直条顶端将逐渐接近于一条光滑的曲线。 第二节 正态分布及应用 17 18 0 0.2 0.4 0.6 0.8 1 1.2 3.8 4.2 4.6 5.0 5.4 5.8 f (X ) X 0 0.2 0.4 0.6 0.8 1 1.2 3.8 4.2 4.6 5 5.4 5.8 f (X ) X 0 0.2 0.4 0.6 0.8 1 1.2 3.6 4 4.4 4.8 5.2 5.6 6 f (X ) X 第二节 正态分布及应用 图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图 一、正态分布(Normal Distribution) 18
是意会车(normaldisbin电 运高◆车始赞起和两标◆中儿非 款 技客肆特财 特色最上中,区场健和泽中今,直花 正喜你神高高下尚香称特有一火通地来 正毒分布的局个水最 玉态会克台青个小发 。麦我里水么,南龙由气通损热上齿快更。 可我形教水业,清走南底婚形状。 M M 三
19 正态分布(normal distribution)也叫 高斯分布(Gaussian distribution),是最 常见、最重要的一种连续型分布 19 20 一、正态分布曲线 (一)基本概念 2 2 ( ) 2 1 ( ) , 2 x f x e x 如果随机变量x的分布服从下述函数,则称x 服从正态分布,记作x~N(μ,σ2) 其中 为与 对应的正态曲线纵轴高度 是以2.72818为底的自然对数指 和 为总体均数和总体的标准差 20 f x( ) x =3.14159 e 21 正态分布的特征和面积分布规律 正态曲线在x轴上方,以均值μ为中心,左右 对称 在x=μ处,f(x)取最大值 f (μ)=1/σ√2π 正态分布有两个参数,即位置参数μ和形态 参数σ(西格玛) 正态分布曲线下的面积分布有一定的规律 21 22 μ=0 μ=-1 σ=2 σ=0.5σ=1 μ= 1 形态参数 位置参数 22 23 正态分布的两个参数 μ是位置参数,决定曲线在横轴上的位置。 σ是形状参数,决定曲线的形状。 用N(μ,σ2)表示均数为μ,标准差为σ的 正态分布。 23 24 正态分布的两个参数 μ=0 μ=1 μ=2 σ =1 24 25 μ=-2 μ=-1 μ=0 σ =1 25 正态分布的两个参数 26 σ =2 σ =1.5σ=1 μ= 0 26 正态分布的两个参数 27 -4 -3 -2 -1 01 1 22 3 43 5 6 7 1 2 3 -5 -4 -3 -2 -1 0 1 2 3 4 5 1 2 3 1 2 3 -5 -4 -3 -2 -1 0 1 2 3 4 5 2.58 1.96 1.96 2.58 99.0% 95.0% 68.3% 主要特征: 1.以 为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 图3-2 正态分布曲线下的面积 图3-3 三种不同均值的正态分布 图3-4 三种不同标准差的正态分布 27
士196汤95.00% (三】梅准正春◆中 木中时 1,08 Example: 年赛于在每能最互无如是点牛布,又-17深:1 中2.051-0.030m2%
28 正态曲线下面积规律 F x e dx x x ( 2 ) ( ) 2 2 2 1 ( ) X轴与正态曲线所夹面积恒等于1或100% 区间μ±σ的面积为68.27% 区间μ±1.96σ的面积为95.00% 区间μ±2.58σ的面积为99.00% 28 29 μ-σ μ μ+σ 68.27% 15.865% 15.865% 29 30 95% 2.5% 2.5% μ-1.96σ μ μ+1.96σ 30 31 μ-2.58σ μ+2.58σ 99% μ 0.5% 0.5% 31 32 (0,1 ) 2 N ( 1,0.8 ) 2 N (1,1.2 ) 2 N 32 33 (二)标准正态分布 标准正态分布 (standard normal distribution)的两 个参数为:μ=0,σ=1 记为 N(0,1) u e u x N u u N u , 2 1 ( ) (0,1); ( , ) 2 2 2 标准正态分布 其中 经标准正态变量 变换:一般正态分布 被转化为 一般正态分布为一个分布族 N(μ,σ2) 标准正态分布只有一个 N(0,1) 33 34 x f(x) Φ(x) u 34 35 二、标准正态分布(Standard Normal Distribution) 对任何参数的正态分布,都可以通过一个简单的变 量变换 化成 和 的标准正态分布。 通常,可以利用标准正态分布表求出与原始变量X 有 关的概率值。 0 1 X u 图3-5 标准正态分布及曲线下面积 参见书中计算实例…… 35 36 Example: 2.05 0.38 4 4.78 S X u 已知: 成年男子红细胞数呈近似正态分布, =4.78×1012 /L, S=0.38 ×1012 /L 。 问:红细胞数在4× 1012 /L以下所占的比例是多少? Φ(-2.05)=0.0202≈2% 问:红细胞数在4.0-5.5×1012 / L之间所占的比例是多少? 36 x
工本克取平葡就国适北装制品要值 T.T-25m T. 10
37 一、基本概念 通常指正常人的解剖、生理、生化、免疫及组织代 谢产物的含量等各种数据的波动范围。主要目的: 用于临床疾病诊断。最常用的是95%参考值范围。 第三节 医学参考值范围 (Reference Value Range) 确定95%参考值范围示意图 37 38 二、医学参考值范围的制定方法 (一)选择一定数量的参照样本 选择参照样本必须要考虑可能影响所要制定参考 值范围指标的各种疾病及干扰因素,将这些人排除 在外。 例如在制定血清谷-丙转氨酶活性正常值时,选取 正常人的条件为肝、肾、心、脑、肌肉等无器质性 疾患,近期无特殊用药史等。同时可能需要考虑性 别、年龄、民族、地理位置等因素。样本含量一般 要较大,如n>120。 38 39 (二)对选定的参照样本进行准确的测定 为保证原始数据可靠,要严格控制检测误差,包括 分析仪器的灵敏度、试剂的纯度、操作技术及标准 的掌握等; 同时必须对测量条件做出统一的规定和说明,如临 床化验参考值范围的制定,应对收集样本时的环境 和生理条件(温度、季节、体育活动强度、饮食、 妊娠等),收集、转运和储藏样品的方法及时间有 明确的规定。 39 40 (三)决定取单侧范围还是双侧范围值 有些指标如白细胞数过高或过低均属异常(a) ,故 其参考值范围需要分别确定下限和上限,称作双侧。 有些指标如24小时尿糖含量仅在过高(b)、肺活量仅 在过低时为异常(c),只需确定其上限或下限,称作 单侧参考值范围。 (a)白细胞数参考值范围 (b)24小时尿糖参考值范围 (c)肺活量参考值范围 40 41 (四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的 选择,它与诊断阈值有确定的关系。百分范围的不 同将导致不同的假阳性率和假阴性率。 图3-6 正常人和病人数据分布重叠 41 42 (五)估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布法。 百分范围(%) 单 侧 双 侧 下限 上限 下限 上限 95 P5 P95 P2.5 P97.5 99 P1 P99 P0.5 P99.5 百分范围(%) 单 侧 双 侧 下限 上限 下限 上限 95 99 表3-2 参考值范围所对应的百分位数 表3-3 参考值范围所对应的正态分布区间 X 1.65S X 1.65S X 2.33S X 2.33S X 1.96S X 1.96S X 2.58S X 2.58S 42 43 例3.4 若已算得某地正常成年男子红细胞数的均数为 4.78×1012/L,标准差为0.38×1012/L,试估计该地成年男子 红细胞数的95%参考值范围。 例3.5 见第二章表2-4资料。为该地区50岁~60岁女性高 血脂诊断与治疗提供参考依据,试估计血清甘油三脂含 量的95%单侧参考值范围。 0.30 2.098 (mmol/L) 28 (630 0.95 580 ) 95 1.90 P 1.96 4.78 1.96 0.38 4.04( 10 / ) 12 X S L 1.96 4.78 1.96 0.38 5.52( 10 / ) 12 X S L 下限: 上限: 即95%单侧参考值范围为小于2.098mmol/L。 43 44 小 结 1.描述一组观察值,除需要表示其平均水平外,还 要说明它的离散或变异的情况。 2.衡量变异程度大小的指标有多种: 极差、四分位 数间距、方差、标准差和变异系数。其中应用最多 的是标准差和变异系数。 3.标准差与均数结合能够完整地描述一个正态分布。 对任何参数的正态分布,都可以通过一个简单的变 量变换化成标准正态分布。利用正态分布可以很容 易地确定其数值出现在任意指定范围内的概率。 44 45 4.医学参考值范围指“正常参照人群”的解剖、生理、生 化、免疫及组织代谢产物的含量等各种数据的波动范围。主 要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实际中 最好结合正常人和病人的数据分布特点,权衡假阳性和假阴 性的比例,选择一个适当的百分范围,最常用的百分界限是 95%。 6.参考值范围估计的方法有多种,其中最基本的有百分位 数法和正态分布法。正态法的优点是结果较稳定,但对资料 要求严格;百分位数法适合于任何分布类型的资料,但要求 大样本。 45