只只 击转高品点号件中衣样对的性 大华精品源复用若+教华贵爆一(、】 招块◆服之一来R55 .风 觉 化行 三。潮成◆中面
第二章 集中趋势的统计描述 (Measures of Central Tendency) 预防医学系 1 2 课程设置 课时: 理论课: 22学时 实习课: 10学时 联系方式:预防医学系卫生统计学教研室 Tel.: 2057153 Baidu贴吧:yfyxx (讨论、答疑、作业) http://tieba.baidu.com/f?kw=yfyxx# 大学精品课程网站→教学资源→(ppt、wmv) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 2 第一节 频数分布 (Frequency Distribution) 由实验或临床观察等各种方式得到的原始数 据,如果是计量资料并且观察的例数较多, 为了能够显示数据的分布规律,可以对数据 进行分组,然后制作频数表或绘制直方图。 3 例2-1 某地用随机抽样方法检查了140名成年男子的 红细胞数,检测结果如表所示: 如何有效地组织、整理和表达数据的信息? 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.88 5.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 …… 5.02 4.76 4 一、频数表 (Frequency Table) 频数表:同时列出观察指标的可能取值区间及其 在各区间内出现的频数。 1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限: 应符合专业习惯 4.对各组段计数:划记或由软件完成 5 (1)确定全距 全距R=xmax-xmin,本例R=5.95- 3.82=2.13 (2)确定组距:相邻两组之间的距离,取决于资料 的性质和组段数。常以全距的十分之一估计。组段 数通常取8-15组。将全距除以组数可得到组据的近 似值:组距=全距/组数。,若分10组,则参考组距 为i= R /10=2.13/10≈0.21。 (3)确定组段的上下限:各组段的终点称组段的上 限,起点称组段的下限。整个资料范围的每一个数 据必须能归属于某一组。实际组限在每组中只包含 下限而不包含上限。 (4)列表整理:写出各组段的频数:用划记法将所 有数据归纳到各组段,得到各组段的频数。 6 红细胞数 划记 频 数 频 率(%) 累积频率(%) 3.80~ 2 1.4 1.41 4.00~ 正 6 4.3 5.71 4.20~ 正正 11 7.9 13.57 4.40~ 正正正正正 25 17.9 31.43 4.60~ 正正正正正正 32 22.9 54.29 4.80~ 正正正正正 27 19.3 73.57 5.00~ 正正正 17 12.1 85.71 5.20~ 正正 13 9.3 95.00 5.40~ 正 4 2.9 97.86 5.60~ 2 1.4 99.29 5.80~ 6.00 1 0.7 100.00 表2-2 某地140名正常男子红细胞数的频数表 7 三、频数表的用途 1.作为陈述资料的形式 2.便于观察数据的分布类型 3.描述计量资料分布的集中趋势和离散趋势 4.便于发现资料中含有的异常值(极大极小值) 5.可用各组段的频率作为概率的估计值 8 三、频数分布图 计量资料-直方图 以垂直条段代表频数分布的一种图形 纵轴为各组的频数,横轴为各组的组限 从中可以看出数据的分布特点: 9
上运每地4有成小中场6博点 ”款4 对稀◆率与偏志念率 第二首计贵春精的有用统计有将 性之经格件米 10k年唐hrU (一)算求地款黄举将成tmen) 计养方腾 年来地成用灭表标,落保的良酒以桌 )真热情么或: +牛5码
图2-1 140名正常男子红细胞计数的直方图 直方图(Histogram) 直观、形象地表示频数分布的形态和特征。 10 高峰位于中央,左右两侧的频数大体对称 ①集中趋势(central tendency):变量值集中位置。 数据多集中在“4.6~”附近。 ——平均水平指标 ②离散趋势(tendency of dispersion):变量值围 绕集中位置的分布情况。离“中心”位置越 远,频数越小;且围绕“中心”左右对称。 ——变异水平指标 11 频数分布的类型 正态分布 对称分布 其它对称分布 血清学滴度资料 频数分布 正偏态 (对数正态分布) 其它 偏态分布 负偏态 12 对称分布与偏态分布 1.对称分布 2.偏态分布 右偏态( skewed to the right),也称正偏态 (positive skewed),数值集中位置在较小的一侧; 左偏态( skewed to the left),也称负偏态 (negative skewed),数值集中位置在较大的一侧; 13 对称分布:中间高、 两边低、左右对称 正偏态分布: 集中在数值小 的一侧 负偏态分布: 集中在数值大 的一侧 14 第二节 计量资料的常用统计指标 一、描述集中趋势的特征数 统计上使用平均数(average)这一指标体系来 描述一组变量值的集中位置或平均水平。 常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 15 (一)算术均数 简称均数(mean) 样本均数用 表示,总体均数用 表示 适用条件:用于反映一组呈对称分布或近似 对称分布数据的集中位置或平均水平。 16 计算方法 (1)直接法 公式 : n x n x x x x n i 1 2 17 某地140名成年男子的红细胞数(×1012/L) 4.77 140 4.76 5.26 5.61 5.02 4.76 x 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.88 5.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 …… 5.02 4.76 18
计养方 5终讲46,6,8品,品.0 地号 新中K.本R5限值:下R5要值 “ 4而】 下2有寿表(omr mer 几阿的款的道用春件与未例 X。=离一无, 23888232华情州西 。-g25 0香点表新制我体线所场个南水个情海17 t)中(median) 。-1 号发生无4。 w-a 黄表:长板烟周了中两期1一2小象南 G-4168622-139
计算方法 3 2 3 1 3 4 2 6 3 8 1 10 x 举例:试计算4,4,4,6,6,8,8,8,10 的均数? 19 (2)加权法(利用频数表): 公式 : 1 1 2 2 3 3 1 2 3 k k k f X f X f X f X fX X f f f f f X 本组段下限值+下组段下限值 其中 2 K:频数表的组段数 f:频数 x:组中值 20 红细胞数 划记 频 数 组中值 f X 3.80~ 2 3.9 7.8 4.00~ 正 6 4.1 24.6 4.20~ 正正 11 4.3 47.3 4.40~ 正正正正正 25 4.5 112.5 4.60~ 正正正正正正 32 4.7 150.4 4.80~ 正正正正正 27 4.9 132.3 5.00~ 正正正 17 5.1 86.7 5.20~ 正正 13 5.3 68.9 5.40~ 正 4 5.5 22 5.60~ 2 5.7 11.4 5.80~ 6.00 1 5.9 5.9 合计 140 - 表2-1 某地140名正常男子红细胞数的频数表 4.7843 140 669.8 140 2 3.9 6 4.10 1 5.9 x 21 (二)几何均数(geometric mean) ) lg lg ( lg (lg lg lg ) 1 lg 1 1 2 1 2 n x X n x x x x n X X x x x i G i G n n G n ,为正值 表示以 为底的反对数 表示以 为底的对数; 0 lg 10 lg 10 1 X 几何均数:变量 对数值的算术均 数的反对数。 22 几何均数的适用条件与实例 适用条件: 1、非对称分布,差距较大 2、呈倍数关系的等比资料或对数正 态分布(正偏态)资料;如抗体 滴度、血清凝集效价资料 23 例2-2 测得10人血清滴度的倒数分别为 2,2,4,4,8,8,8,8,32,32,求平均滴度。 2 2 4 4 8 8 8 8 32 32 7 10 X G 10份血凝抑制抗体效价的平均水平约为 1:7 7 10 lg2 lg2 lg4 lg4 lg8 lg8 lg8 lg8 lg32 lg32 lg 1 G 例2-3 (频数表资料) 应用:主要用于血清学和微生物学中。 24 频数表资料的几何均数 i n n i i i G f f X f X f X f f X X lg lg lg lg lg lg 1 1 1 1 2 2 IgG滴度倒数 例数,f lgX f·lgX 20 40 80 160 320 640 1280 合计 16 57 76 75 54 25 23 326 1.3010 1.6021 1.9031 2.2041 2.5051 2.8062 3.1072 - 20.96 91.32 144.64 168.08 135.28 70.15 71.47 698.62 G=lg-1(698.62/326)=139 25 (三)中位数(median) 中位数是将一批数据从小至大排列后位次居 中的变量值,符号为M,反映一批观察值在 位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合 于①大样本偏态分布的资料; ②资料有不确 定数值;③资料分布不明等。 26 中位数计算公式 先将观察值按从小到大顺序排列, 再按以下公式计算: 为偶数 为奇数 x x n x n M n n n / 2 1 / 2 2 ( 1)/ 2 特点:仅仅利用了中间的1~2个数据 27
T分住k(percentile】. L:P所在组段下值 分布? 00,5-地40-9 描述指标? 了会推最的盛思 4
中位数 (Median,M ) 将一组观察值从小到大按顺序排列,居中心位置的 数值即为中位数。 1.原始资料 若测得5个人的VLDL中的apo_B的含量(mg/dl)为 0.84、2.85、5.46、8.58、9.60,则 M=5.46(mg/dl) (n为奇数) 若测量结果:0.84、2.85、8.58、9.6,则 M=(2.85+8.58)/2=5.72(mg/dl) (n为偶数) 28 百分位数 : 一组数据从小到大 排列,分成100等分,各 等分含1%的观察值,分割界限上的数值就 是百分位数,记为Px。全部观察值的x%小 于Px ,而其余(100-x)%大于 Px 。 百分位数(percentile) 29 频数表资料的百分位数 所在组之前各组段的累计频数 所在组段的频数 组距 所在组段下限值 % L x x x x x x x L x f P f P i L P i f n x f P L : : : : - 30 例题 表2-4 某地630名正常女性血清甘油三脂含量(mg/dl) 甘油三脂 频数 累积频数 累积频率(%) 0.10~ 27 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 M 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 630 - - 31 0 30 60 90 120 150 180 1 频 数 甘油三脂(mg/dL) 0.1 0.4 0.7 1.0 1.3 1.6 1.9 2.2 2.5 2.8 3.1 630×0.5 196 M L、iM、fM分别为M所在组段的下限、组距和频数, fL为M所 在组段之前各组段的累积频数。 0.30 0.914 167 630 0.5 196 0.70 M M M L i fn f M L 0 .5 32 表2-4 某地630名正常女性血清甘油三脂含量(mg/dl) 甘油三脂 频数 0.10~ 27 0.40~ 169 0.70~ 167 1.00~ 94 1.30~ 81 1.60~ 42 1.90~ 28 2.20~ 14 2.50~ 4 2.80~ 3 3.10~ 1 合计 630 33 分布? 描述指标? 表2-4 某地630名正常女性血清甘油三脂含量(mg/dl) 甘油三脂 频数 累积频数 累积频率(%) 0.10~ 27 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 630 - - 34 试计算:P25, P75, P90 百分位数(Percentile) L: 组段的下限; iM: 组距; fx : 频数; fL: Px所在组段之前的累积频数。 例2.5 计算例2.4的百分位数P25 、 P75 、 P90。 x x L x i f n x f P L % 0.30 0.632(mmol/L) 169 630 0.25 27 25 0.40 P 0.30 1.357(mmol/L) 81 630 0.75 457 75 1.30 P 0.30 1.807(mmol/L) 42 630 0.90 538 1.60 90 P 35 百分位数的应用 1.中位数是百分位数的特例。其特点是不易受异 常值的影响,适用于描述明显偏态分布、或两端 无确定数值数据的平均水平。 2.描述数据序列在某百分位置的水平。多个百分 位数结合使用如P25和P75可以描述数据的离散程 度,用P2.5和P97.5计算医学95%的参考值范围等。 36
小 结 1. 运用频数表、直方图和统计指标这些技巧能够有 效地组织、整理和表达计量资料的信息。 2.平均数是描述一组观察值集中位置或平均水平的 统计指标,常用的有算术均数、几何均数和中位数。 其中算术均数的应用最为广泛,几何均数则多用于 血清学和微生物学中,中位数主要用于偏度较大的 数据分布资料。 3.百分位数可用来描述资料的观察值序列在某百分 位置的水平,中位数是其中的一个特例。 37