2.22用样本的数字特征 估计总体的数字特征
遝前练习 1、一个社会调查机构就某地居民的月收入调查了10000 人,并根据所得数据画了样本的频率分布直方图(如下 图).为了分析居民的收入与年龄、学历、职业等方面 的关系要从这10000人中再用分层抽样方法抽出200人作 进一步调查则在[1500,3000(元)月收入段应抽出 140人 频率/组距 0.0005 0.00041- 0.0003 0.0002 0.0001 月收入(元) 1000150020002500300035004000
0.0001 0.0002 0.0003 0.0004 0.0005 1000 1500 2000 2500 3000 3500 4000 月收入(元) 频率/组距 1、一个社会调查机构就某地居民的月收入调查了10000 人,并根据所得数据画了样本的频率分布直方图(如下 图).为了分析居民的收入与年龄、学历、职业等方面 的关系要从这10 000人中再用分层抽样方法抽出200人作 进一步调查,则在[1500,3000](元)月收入段应抽出 _____ 140 人. 课前练习
遝前练习 2、一个容量为40的样本数据分组后组数与频数如下: [25,25.3),6;[25.3,25.6),4;[25.6,25.9),10; 25.9,26.2),8;[26.2,26.5),8;[26.5,268),4; 则样本在[25,259)上的频率为(C) 3 B C 20 10 2
2、一个容量为40的样本数据分组后组数与频数如下: [25,25.3),6;[25.3,25.6),4;[25.6,25.9),10; [25.9,26.2),8;[26.2,26.5),8;[26.5,26.8),4; 则样本在[25,25.9)上的频率为( ) 3 1 1 1 20 10 2 4 A B C D 、 、 、 、 C 课前练习
一、基础知识讲解 (一)基本概念 众数、中位数、平均数都是描述一组数据的集中 趋势的特征数,只是描述的角度不同,其中以平均数 的应用最为广泛 (1)众数:在一组数据中,出现次数最多的数据叫做这 组数据的众数 (2)中位数:将一组数据按大小依次排列,把处在最中 间位置的一个数据(或最中间两个数据的平均数)叫 做这组数据的中位数 (3)平均数:一组数据的算术平均数,即 (x+x 2…+x
⑵中位数:将一组数据按大小依次排列,把处在最中 间位置的一个数据(或最中间两个数据的平均数)叫 做这组数据的中位数. ⑴众数:在一组数据中,出现次数最多的数据叫做这 组数据的众数. 众数、中位数、平均数都是描述一组数据的集中 趋势的特征数,只是描述的角度不同,其中以平均数 的应用最为广泛. ⑶平均数:一组数据的算术平均数,即 1 2 1 ( ) x x x xn n = + ++ 一、基础知识讲解 (一)基本概念
(二)众数、中位数、平均数与频率分布直方图的关糸 1、众数在样本数据的频率分布直方图中,就是最 高矩形的中点的横坐标。 频率 例如,在上一节调查的100位居民的 月均用水量的问题中,从这些样本数 组距 据的频率分布直方图可以看出,月均 用水量的众数是225t 如图所示: 0.5 0.3 0.2 O0.11.522.33544.月平均用水量
(二)众数、中位数、平均数与频率分布直方图的关系 1、众数在样本数据的频率分布直方图中,就是最 高矩形的中点的横坐标。 频率 组距 0.1 0.2 0.3 0.4 0.5 O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t) 例如,在上一节调查的100位居民的 月均用水量的问题中,从这些样本数 据的频率分布直方图可以看出,月均 用水量的众数是2.25t. 如图所示:
2、在样本中,有50%的个体小于或等于中位数,也有 50%的个体大于或等于中位数,因此,在频率分布直方 图中,中位数左边和右边的直方图的面积应该相等,由 此可以估计中位数的值。 频率 组距 下图中虚线代表居民月均用水量的中位 数的估计值,此数据值为2.02t 0.5 0.3 0.2 O0.511.522.33544.月平均用水量
2、在样本中,有50%的个体小于或等于中位数,也有 50%的个体大于或等于中位数,因此,在频率分布直方 图中,中位数左边和右边的直方图的面积应该相等,由 此可以估计中位数的值。 频率 组距 0.1 0.2 0.3 0.4 0.5 O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t) 下图中虚线代表居民月均用水量的中位 数的估计值,此数据值为2.02t
说明 202这个中位数的估计值,与样本的中位数值20 不一样,这是因为样本数据的频率分布直方图,只是 直观地表明分布的形状,但是从直方图本身得不出原 始的数据内容,所以由频率分布直方图得到的中位数 估计值往往与样本的实际中位数值不一致
说明: 2.02这个中位数的估计值,与样本的中位数值2.0 不一样,这是因为样本数据的频率分布直方图,只是 直观地表明分布的形状,但是从直方图本身得不出原 始的数据内容,所以由频率分布直方图得到的中位数 估计值往往与样本的实际中位数值不一致
3、可以从频率分布直方图中估计平均数。平均数是 频率分布直方图的“重心”等于频率分布直方图中每 个小矩形的面积乘以小矩形底边中点的横坐标之和。 频率 组距 0.5 0.3 0.2 O0.11.522.33544.月平均用水量
3、可以从频率分布直方图中估计平均数。平均数是 频率分布直方图的“重心”等于频率分布直方图中每 个小矩形的面积乘以小矩形底边中点的横坐标之和。 频率 组距 0.1 0.2 0.3 0.4 0.5 O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
(三)三种数字特征的优缺点 (1)众数体现了样本数据的最大集中点,但它对其它数 据信息的忽视使得无法客观地反映总体特征。如上例 中众数是225t,它告诉我们,月均用水量为225的居 民数比月均用水量为其它数值的居民数多,但它并没 有告诉我们多多少。 (2)中位数是样本数据所占频率的等分线,它不受少数 几个极端值的影响,这在某些情况下是优点,但它对 极端值的不敏感有时也会成为缺点。如上例中假设有 某一用户月均用水量为10,那么它所占频率为001,几 乎不影响中位数,但显然这一极端值是不能忽视的
(三)三种数字特征的优缺点 ⑴众数体现了样本数据的最大集中点,但它对其它数 据信息的忽视使得无法客观地反映总体特征。如上例 中众数是2.25t,它告诉我们,月均用水量为2.25t的居 民数比月均用水量为其它数值的居民数多,但它并没 有告诉我们多多少。 ⑵中位数是样本数据所占频率的等分线,它不受少数 几个极端值的影响,这在某些情况下是优点,但它对 极端值的不敏感有时也会成为缺点。如上例中假设有 某一用户月均用水量为10t,那么它所占频率为0.01,几 乎不影响中位数,但显然这一极端值是不能忽视的
3)由于平均数与每一个样本的数据有关,所以任何 个样本数据的改变都会引起平均数的改变,这是众数、 中位数都不具有的性质。也正因如此,与众数、中位 数比较起来,平均数可以反映出更多的关于样本数据 全体的信息,但平均数受数据中的极端值的影响较大, 使平均数在估计时可靠性降低
⑶由于平均数与每一个样本的数据有关,所以任何一 个样本数据的改变都会引起平均数的改变,这是众数、 中位数都不具有的性质。也正因如此 ,与众数、中位 数比较起来,平均数可以反映出更多的关于样本数据 全体的信息,但平均数受数据中的极端值的影响较大, 使平均数在估计时可靠性降低