经济数学基础 第8章数据处理 第二单元直方图 一、学习目标 了解用直方图的方法处理数据 内容讲解 当数据很多的时候,如何来处理数据?这包括两个方面的问题:从一个角度来 说,若数据很多,计算数据的平均数和方差是很麻烦的,或者说不必要计算精确的 特征数:第二个问方面,我们不满足计算数据的特征数,我们还要知道数据的全貌 这就是频数分布标和频数直方图要解决的问题。先看一个例子 如果数据很多,如何了解它的分布?先讲一个例子 例某食品厂用自动打包机包装食盐,为了解机器的生产状况,现抽取120袋食盐 测试重量,具体数值如下: 9981001985997 9879991005 10059939991000 1006990|998 1007998101998899710031022987 10111007100299984989|998986 996100710031002100699610041001 99410141006997100399510051011 100199910011009996992993|998 10119941015990983|9951002992 匚91000oon799_9100 1003101010181001101110009981000 9959941000|991100999710051005 10139951014|10081000992989999 100310131004997|10019791000994 1002997997986101210049961007 230—
经济数学基础 第 8 章 数据处理 ——230—— 第二单元 直方图 一、学习目标 了解用直方图的方法处理数据. 二、内容讲解 当数据很多的时候,如何来处理数据?这包括两个方面的问题:从一个角度来 说,若数据很多,计算数据的平均数和方差是很麻烦的,或者说不必要计算精确的 特征数;第二个问方面,我们不满足计算数据的特征数,我们还要知道数据的全貌. 这就是频数分布标和频数直方图要解决的问题。先看一个例子. 如果数据很多,如何了解它的分布?先讲一个例子. 例某食品厂用自动打包机包装食盐,为了解机器的生产状况,现抽取 120 袋食盐 测试重量,具体数值如下: 998 1001 985 997 1008 987 999 1005 1005 993 999 1000 981 1006 990 998 1007 998 1019 988 997 1003 1022 987 1011 1007 1002 999 984 989 998 986 996 1007 1003 1002 1006 996 1004 1001 994 1014 1006 997 1003 995 1005 1011 1001 999 1001 1009 996 992 993 998 1011 994 1015 990 983 995 1002 992 997 1009 1001 1017 996 991 993 1005 1003 1010 1018 1001 1011 1000 998 1000 995 994 1000 991 1009 997 1005 1005 1013 995 1014 1008 1000 992 989 999 1003 1013 1004 997 1001 979 1000 994 1002 997 997 986 1012 1004 996 1007
经济数学基础 第8章数据处理 996978|1011100699899010031007 第1步:确定全部数据所在的范围. 第2步:分组,确定组距和组限。每组数据的组上限与组下限之差称为组距, 即组距=组上限-组下限 第3步:唱票,数出落在每组中的数据个数,这个数据个数称为组频数 第4步:计算每组的组中值和组频率 各组的组频数与总频数之比n,称为该组的组频率 组下限+组上限 组上限与组下限的均值称为组中值,即组中值= 这样,就得到数据的频数分布表 频数分布表 限组中值x组频数v组频率f 975~980977.5 980~985982.5 238 0.017 0.025 0.067 990~995992.5 0.125 995~1000997.5 0.250 1000~10051002.5 0.217 1005~10101007.5 20 0.167 1010~10151012.59 0.075 1015-10201017.5 6 0.050 1020~10251022.5 0.008 合计 120 第5步建立坐标系,画出直方图。用数据作横轴,用频数作纵轴. 通过上面的例子,归纳列频数分布表、画频数直方图的步骤: -23
经济数学基础 第 8 章 数据处理 ——231—— 996 978 1011 1006 998 990 1003 1007 第 1 步:确定全部数据所在的范围. 第 2 步:分组,确定组距和组限。每组数据的组上限与组下限之差称为组距, 即组距=组上限 - 组下限. 第 3 步:唱票,数出落在每组中的数据个数,这个数据个数称为组频数. 第 4 步:计算每组的组中值和组频率 各组的组频数与总频数之比 n i ,称为该组的组频率 组上限与组下限的均值称为组中值,即组中值= 组下限 组上限 2 + 这样,就得到数据的频数分布表: 频数分布表 组 限 组中值 xi 组频数 vi 组频率 fi 975~ 980 977.5 2 0.017 980~ 985 982.5 3 0.025 985~ 990 987.5 8 0.067 990~ 995 992.5 15 0.125 995~1000 997.5 30 0.250 1000~1005 1002.5 26 0.217 1005~1010 1007.5 20 0.167 1010~1015 1012.5 9 0.075 1015~1020 1017.5 6 0.050 1020~1025 1022.5 1 0.008 合计 120 1 第 5 步建立坐标系,画出直方图。用数据作横轴,用频数作纵轴. 通过上面的例子,归纳列频数分布表、画频数直方图的步骤:
经济数学基础 第8章数据处理 ①找出数据中的最小值和最大值,确定数据所在的区间(a,b ②把(a,b)分组 ③计算组频数 ④计算组中值和组频率; ⑤建立坐标系,画出频数直方图 大家可以看到,频数直方图既可以直观、简便地反映数据的全貌,又可以计算我 们所需要的数据的特征数,大家可以想一想,我们也可以用频率来反映数据的全貌, 这就是频率直方图.频率直方图是用数据作横轴、频率/组距作纵轴画出的直方图 我们再看原来的例子:计算频率/组距的值填入表中 组限组中值x组频数v组频率n组频率/组距 100~105 102.5 0.13 0.026 105~110 107.5 0.27 0.054 110~115 112.5 0.47 0.094 115~120 117.5 0.13 0.026 合计 以组距为底,以频率/组距为高画小矩形,从而画出频率直方图. 频率直方图 以数据为横轴 以频率/组距为纵轴 频率直方图中的小矩形的面积就等于有百分之多少的数据落在该区间内,整个 直方图的面积总和应等于1 三、例题讲解 例题有15个数据 232
经济数学基础 第 8 章 数据处理 ——232—— ①找出数据中的最小值和最大值,确定数据所在的区间 (a,b); ②把(a,b)分组; ③计算组频数; ④计算组中值和组频率; ⑤建立坐标系,画出频数直方图. 大家可以看到,频数直方图既可以直观、简便地反映数据的全貌,又可以计算我 们所需要的数据的特征数,大家可以想一想,我们也可以用频率来反映数据的全貌, 这就是频率直方图.频率直方图是用数据作横轴、频率/组距作纵轴画出的直方图. 我们再看原来的例子:计算频率/组距的值填入表中: 组 限 组中值 xi 组频数 vi 组频率 f i 组频率/组距 100~105 102.5 2 0.13 0.026 105~110 107.5 4 0.27 0.054 110~115 112.5 7 0.47 0.094 115~120 117.5 2 0.13 0.026 合计 15 1 以组距为底,以频率/组距为高画小矩形,从而画出频率直方图. 频率直方图 ·以数据为横轴 ·以频率/组距为纵轴 频率直方图中的小矩形的面积就等于有百分之多少的数据落在该区间内,整个 直方图的面积总和应等于 1. 三、例题讲解 例题 有 15 个数据
经济数学基础 第8章数据处理 101 114 106 118 108 l11 110 104 113 114 (1)列出频数分布表,并画出频数直方图 (2)计算均值和方差. 解:这组数据中的最小值是101,最大值是118,确定区间为(100,120 分4组,组距=5,列表 限组中值x组频数vi组频率fi 100~105102.5 0.13 105~110107.5 4 0.27 110~115112.5 0.47 115~12011.5 0.13 合计 15 画出直方图 计算特征数 利用频数分布表可以得到近似计算均值、方差的简便方法: x≈1025×0.13+1075×027+112.5×047+117.5×0.13=110.5 s2=(102.5-110.5)2×0.13+(107.5-110.5)2×0.27+(112.5 110.5)2×0.47+(117.5-110.5)2×0.13=19 四、课堂练习 233
经济数学基础 第 8 章 数据处理 ——233—— 101 114 106 118 108 117 111 114 110 104 114 108 107 113 114 (1)列出频数分布表,并画出频数直方图; (2)计算均值和方差. 解:这组数据中的最小值是 101,最大值是 118,确定区间为(100,120), 分 4 组,组距=5,列表: 组 限 组中值 xi 组频数 vi 组频率 fi 100~105 102.5 2 0.13 105~110 107.5 4 0.27 110~115 112.5 7 0.47 115~120 117.5 2 0.13 合计 15 1 画出直方图. 计算特征数 利用频数分布表可以得到近似计算均值、方差的简便方法: x 102.50.13+107.50.27 +112.50.47 +117.50.13 =110.5 = 2 s (102.5-110.5)2×0.13+(107.5-110.5)2×0.27+(112.5- 110.5)2×0.47+(117.5-110.5)2×0.13=19 四、课堂练习
经济数学基础 第8章数据处理 下表是某城市30年(1967年~1996年〕的年降水量的资料(mm).将表中的 数据分成5组,取a=770.0,b=1510.0.列出这些数据的频数分布表,画出频数直 方图和频率直方图,并计算均值和方差 「984.81390.31062.2287.314701017.9 12l7.71197.11143.01018.81243.7909.3 1030.31124.4811 820.91184.1107.5 991.4901.7176.5113.5|1272.91200.3 1508.777813.0923002410881 作频数分布表时,首先要确定数据所在的范围其次分组确定组距和组限然后数出组频数 最后计算每组的组中值和组频率,将它们分别填入表内,就得到频数分布表 画频数直方图和频率直方图时,要注意小矩形的底都是组距,高分别是组频数和组频率/ 组距(而不是组频率)a,b的确定要保证所有的数据都落在[ab]内,且分组后最小值应落在第 1组内,最大值应落在最后一组内.找出数据中的最大值和最小值,最大值是15087,最小 值是772.3,a取略小于7123的770,b取略大于15087的15100这样所有数据都落在[ab 内了B),C)都不能使所有的数据落在其中,D)的范围太大了,分组后,第1组可能会没有 值,因此只有A)合适 五、课后作业 调查某企业100名职工的月收入(单位:元),具体数据见下表。试就这100个 数据 (1)列出频数分布表; (2)作出频数直方图 (3)作出频率直方图 (4)近似计算均值、方差和标准差 4 21 7971 751|86510329671019935998910 8968101072987654736815823
经济数学基础 第 8 章 数据处理 ——234—— 下表是某城市 30 年(1967 年~1996 年〕的年降水量的 资料(mm).将表中的 数据分成 5 组,取 a=770.0,b=1510.0.列出这些数据的频数分布表,画出频数直 方图和频率直方图,并计算均值和方差. 984.8 1390.3 1062.2 1287.3 1477.0 1017.9 1217.7 1197.1 1143.0 1018.8 1243.7 909.3 1030.3 1124.4 811.4 820.9 1184.1 1107.5 991.4 901.7 1176.5 1113.5 1272.9 1200.3 1508.7 772.3 813.0 1392.3 1006.2 1108.8 作频数分布表时,首先要确定数据所在的范围;其次分组,确定组距和组限;然后数出组频数; 最后计算每组的组中值和组频率,将它们分别填入表内,就得到频数分布表. 画频数直方图和频率直方图时,要注意小矩形的底都是组距,高分别是组频数和组频率/ 组距(而不是组频率). a,b 的确定要保证所有的数据都落在[a,b]内,且分组后最小值应落在第 1 组内,最大值应落在最后一组内. 找出数据中的最大值和最小值,最大值是 1508.7,最小 值是 772.3,a 取略小于 772.3 的 770,b 取略大于 1508.7 的 1510.0.这样所有数据都落在[a,b] 内了.B),C)都不能使所有的数据落在其中,D) 的范围太大了,分组后,第 1 组可能会没有 值,因此只有 A)合适 五、课后作业 调查某企业 100 名职工的月收入(单位:元),具体数据见下表。试就这 100 个 数据 (1)列出频数分布表; (2)作出频数直方图; (3)作出频率直方图; (4)近似计算均值、方差和标准差. 852 637 751 865 1032 967 1019 935 998 910 862 794 896 810 1072 987 654 736 815 823
经济数学基础 第8章数据处理 8958431180809794661 810 7721073|9991020600630 905790 5428821100936800880 830890 9807509705208429358001050840820 9749018597906751001576570750570 930470870890840950920900910630 8907808908671021930740690|890930 83074784095169070830878880940 分10组,a=450,b=1200,列频数分布表如下 限组中值 组频率f 40~525 487.5 525~600 562.5 0.05 600~675 637.5 2578 0.07 675~750 712.5 0.08 50~825 787.5 16 0.16 825~900 862.5 28 0.28 900~975 937.5 975~1050 1012.5 0.09 1050~1125 1087.5 1125~1200 1162.5 9410 0.01 合计 235
经济数学基础 第 8 章 数据处理 ——235—— 895 843 1180 809 794 661 937 864 870 810 772 1073 999 1020 600 630 740 601 905 790 542 882 1100 936 800 880 575 932 830 890 980 750 970 520 842 935 800 1050 840 820 974 901 859 790 675 1000 576 570 750 570 930 470 870 890 840 950 920 900 910 630 890 780 890 867 1021 930 740 690 890 930 830 747 840 951 690 770 830 878 880 940 分 10 组,a=450,b=1200, 列频数分布表如下 组 限 组中值 xi 组频数 vi 组频率 fi 450~525 487.5 2 0.02 525~600 562.5 5 0.05 600~675 637.5 7 0.07 675~750 712.5 8 0.08 750~825 787.5 16 0.16 825~900 862.5 28 0.28 900~975 937.5 20 0.2 975~1050 1012.5 9 0.09 1050~1125 1087.5 4 0.04 1125~1200 1162.5 1 0.01 合计 100 1