石闪子大学 明正学多能 第二章集中趋势的统计描述 (Measures of Central Tendency) 预防医学条 芮东升
第二章 集中趋势的统计描述 (Measures of Central Measures of Central Measures of Central Measures of Central Tendency Tendency Tendency Tendency) 预防医学系 芮东升 1
第一节频数分布 (Frequency Distribution) 由实脸或临床观察等各种云式得到的原始数 据,如果是计量资料并且观察的例数较多, 为了能够显示数据的分布规律,可以对数据 进行分组,然后制作频数表或绘制直方图
第一节 频数分布 (Frequency Distribution) Frequency Distribution) Frequency Distribution) Frequency Distribution) 由实验或临床观察等各种方式得到的原始数 由实验或临床观察等各种方式得到的原始数 由实验或临床观察等各种方式得到的原始数 由实验或临床观察等各种方式得到的原始数 据,如果是计量资料并且观察的例数较多, 据,如果是计量资料并且观察的例数较多, 据,如果是计量资料并且观察的例数较多, 据,如果是计量资料并且观察的例数较多, 为了能够显示数据的 为了能够显示数据的 为了能够显示数据的 为了能够显示数据的分布规律,可以对数据 进行分组,然后制作频数表或绘制直方图。 进行分组,然后制作频数表或绘制直方图。 进行分组,然后制作频数表或绘制直方图。 进行分组,然后制作频数表或绘制直方图。 3
倒2.1某地用随机抽样方法检查了140名成年男子的 红细胞数,检测结果如表所示: 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.88 5.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 ●●0●●0 5.02 4.76 如何有效地组织、整理和表达数据的信息?
例2.1 某地用随机抽样方法检查了 某地用随机抽样方法检查了 某地用随机抽样方法检查了 某地用随机抽样方法检查了140名成年男子的 红细胞数,检测结果如表所示: 红细胞数,检测结果如表所示: 红细胞数,检测结果如表所示: 红细胞数,检测结果如表所示: 如何有效地组织、整理和表达数据的信息? 如何有效地组织、整理和表达数据的信息? 如何有效地组织、整理和表达数据的信息? 如何有效地组织、整理和表达数据的信息? 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.88 5.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 …… 5.02 4.76 4
一、频数表(Frequency Table) 频数表:同时列出现察指标的可能取值区间及其 在各区间内出现的频数。 1.确定组数k:通常选择在8心15之问 2.确定组距:参考组距为R/k,R为全距 3.确定组限:应符合专业习惯 4.对各组段计数:划记或由软件完成
一、频数表 (Frequency Table) 频数表:同时列出观察指标的可能取值区间及其 频数表:同时列出观察指标的可能取值区间及其 频数表:同时列出观察指标的可能取值区间及其 频数表:同时列出观察指标的可能取值区间及其 在各区间内出现的频数。 在各区间内出现的频数。 在各区间内出现的频数。 在各区间内出现的频数。 1. 1. 1. 1.确定组数k:通常选择在8~15之间 2. 2. 2. 2.确定组距: 参考组距为R/k , R为全距 3. 3. 3. 3.确定组限: 应符合专业习惯 应符合专业习惯 应符合专业习惯 应符合专业习惯 4. 4. 4. 4.对各组段计数:划记或由软件完成 对各组段计数:划记或由软件完成 对各组段计数:划记或由软件完成 对各组段计数:划记或由软件完成 5
(1)确定全距全距R=Xmax-×min,本例R=5.95- 3.82=2.13 (2)确定组距:相邻两组之间的距离,取决于资料 的性质和组段数。常以全距的十分之一估计。组段 数通常取8-15组。将全距除以组数可得到组据的近 似值:组距=全距/组数。,若分10组,则参考组距 为i=R/10=2.13/10≈0.21。 (3)确定组段的上下限:各组段的终点称组段的上 限,起点称组段的下限。整个资料范圆的每一个数 据必须能归属于某一组。实际组限在每组中只包会 下限而不包含上限。 (4)列表整理:写出各组段的频数:用划记法将所 有数据归纳到各组段,得到各组段的频数
(1)确定全距 全距R=xmax-xmin,本例R=5.95- 3.82=2.13 (2)确定组距:相邻两组之间的距离,取决于资料 :相邻两组之间的距离,取决于资料 :相邻两组之间的距离,取决于资料 :相邻两组之间的距离,取决于资料 的性质和组段数。常以全距的十分之一估计。组段 的性质和组段数。常以全距的十分之一估计。组段 的性质和组段数。常以全距的十分之一估计。组段 的性质和组段数。常以全距的十分之一估计。组段 数通常取8-15组。将全距除以组数可得到组据的近 组。将全距除以组数可得到组据的近 组。将全距除以组数可得到组据的近 组。将全距除以组数可得到组据的近 似值:组距=全距/组数。,若分10组,则参考组距 组,则参考组距 组,则参考组距 组,则参考组距 为i= R /10=2.13/10 = R /10=2.13/10 = R /10=2.13/10 = R /10=2.13/10≈0.21。 (3)确定组段的上下限 确定组段的上下限 确定组段的上下限 确定组段的上下限:各组段的终点称组段的上 :各组段的终点称组段的上 :各组段的终点称组段的上 :各组段的终点称组段的上 限,起点称组段的下限。整个资料范围的每一个数 限,起点称组段的下限。整个资料范围的每一个数 限,起点称组段的下限。整个资料范围的每一个数 限,起点称组段的下限。整个资料范围的每一个数 据必须能归属于某一组。实际组限在每组中只包含 据必须能归属于某一组。实际组限在每组中只包含 据必须能归属于某一组。实际组限在每组中只包含 据必须能归属于某一组。实际组限在每组中只包含 下限而不包含上限。 下限而不包含上限。 下限而不包含上限。 下限而不包含上限。 (4)列表整理:写出各组段的频数:用划记法将所 写出各组段的频数:用划记法将所 写出各组段的频数:用划记法将所 写出各组段的频数:用划记法将所 有数据归纳到各组段,得到各组段的频数。 有数据归纳到各组段,得到各组段的频数。 有数据归纳到各组段,得到各组段的频数。 有数据归纳到各组段,得到各组段的频数。 6
表2-1某地140名正常男子红细胞数的频数表 红细胞数 划记 频数 频率(%) 累积频率(%) 3.80 T 2 1.4 1.4 4.00≈ 正一 6 4.3 5.7 4.20 正正一 11 7.9 13.6 4.40~ 正正正正正 25 17.9 31.5 4.60~ 正正正正正正T 32 22.9 54.4 4.80≈ 正正正正正T 27 19.3 73.7 5.00~ 正正正T 17 12.1 85.8 5.20 正正T 13 9.3 95.1 5.40 正 4 2.9 98.0 5.60 T 2 1.4 99.4 5.80≈6.00 1 0.7 100.0 合计 140 100.0 7
红细胞数 划记 频 数 频 率(%) 累积频率(%) 3.80~ 2 1.4 1.4 1.4 1.4 1.4 4.00~ 正 6 4.3 5.7 5.7 5.7 5.7 4.20~ 正正 11 7.9 13.6 4.40~ 正正正正正 25 17.9 31.5 4.60~ 正正正正正正 32 22.9 54.4 4.80~ 正正正正正 27 19.3 73.7 5.00~ 正正正 17 12.1 85.8 5.20~ 正正 13 9.3 95.1 5.40~ 正 4 2.9 98.0 5.60~ 2 1.4 99.4 5.80~ 6.00 1 0.7 0.7 0.7 0.7 100.0 合计 140 - 100.0 表2-1 某地140名正常男子红细胞数的频数表 名正常男子红细胞数的频数表 名正常男子红细胞数的频数表 名正常男子红细胞数的频数表 7
三、频数表的用途 1.作为陈述资料的形式 2.便于观察数据的分布类型 3.描述计量资料分布的集中趋势和离散趋势 4.便于发现资料中含有的异常值(极大极小值) 5.可用各组段的频率作为概率的估计值 8
三、频数表的用途 三、频数表的用途 三、频数表的用途 三、频数表的用途 1.作为陈述资料的形式 作为陈述资料的形式 作为陈述资料的形式 作为陈述资料的形式 2.便于观察数据的分布类型 便于观察数据的分布类型 便于观察数据的分布类型 便于观察数据的分布类型 3.描述计量资料分布的集中趋势和离散趋势 描述计量资料分布的集中趋势和离散趋势 描述计量资料分布的集中趋势和离散趋势 描述计量资料分布的集中趋势和离散趋势 4.便于发现资料中含有的异常值(极大极小值) 便于发现资料中含有的异常值(极大极小值) 便于发现资料中含有的异常值(极大极小值) 便于发现资料中含有的异常值(极大极小值) 5.可用各组段的频率作为概率的估计值 可用各组段的频率作为概率的估计值 可用各组段的频率作为概率的估计值 可用各组段的频率作为概率的估计值 8
三、频数分布图 >计量资料一直方图 >以垂直条段代表频数分布的一种图形 >纵轴为各组的频数,横轴为各组的组限 >从中可以看出数据的分布特点: 25 15 10 3.8 4.0 4.2 4.44.64.85.05.25.45.65.86.0 红细胞数(×1012/L) 9
三、频数分布图 三、频数分布图 三、频数分布图 三、频数分布图 � 计量资料-直方图 � 以垂直条段代表频数分布的一种图形 � 纵轴为各组的频数,横轴为各组的组限 � 从中可以看出数据的分布特点: 9
直方图(Histogram) 直观、形象地表示频数分布的形态和特征。 35 25 20 15 10 3.84.04.24.44.64.85.05.25.45.65.86.0 红细胞数(×1012/L) 图2-1140名正常男子红蜘胞计数的直方图 10
图2-1 140 2-1 140 2-1 140 2-1 140名正常男子红细胞计数的直方图 名正常男子红细胞计数的直方图 名正常男子红细胞计数的直方图 名正常男子红细胞计数的直方图 直方图(Histogram Histogram Histogram Histogram) 直观、形象地表示频数分布的形态和特征 直观、形象地表示频数分布的形态和特征 直观、形象地表示频数分布的形态和特征 直观、形象地表示频数分布的形态和特征。 10
>高峰位于中央,左右两侧的频数火体对称 ■①集中趋势(central tendency):变量值集中位置。 数据多集中在“4.6心”附近。 —平均水平指标 ■②离散趋势(tendency of dispersion):支量值圆 绕集中位置的分布情况。离“中心”位置越 远,频数越小;且围绕“中心”左右对称。 —变异水平指标 11
� 高峰位于中央,左右两侧的频数大体对称 高峰位于中央,左右两侧的频数大体对称 高峰位于中央,左右两侧的频数大体对称 高峰位于中央,左右两侧的频数大体对称 � ①集中趋势(central tendency): (central tendency): (central tendency): (central tendency):变量值集中位置。 变量值集中位置。 变量值集中位置。 变量值集中位置。 数据多集中在“4.6~ ”附近。 ——平均水平指标 � ②离散趋势(tendency of dispersion): (tendency of dispersion): (tendency of dispersion): (tendency of dispersion):变量值围 绕集中位置的分布情况。离 绕集中位置的分布情况。离 绕集中位置的分布情况。离 绕集中位置的分布情况。离“中心”位置越 远,频数越小;且围绕 远,频数越小;且围绕 远,频数越小;且围绕 远,频数越小;且围绕“中心”左右对称。 ——变异水平指标 11