第3章统计数据分布特征的描述 学习目标 1、孰练掌据反映续计数据分布华中鹊热的各种平均指标的汤义及其计算方法 2 熟练掌握反映统计数据分布离中趋势的各种变异指标的涵义及其计算方法 、熟练掌握反映统计数据分布对称与偏斜程度的偏度和峰度指标的涵义及其计算方法。 基本概念 位置平均数分位数数值平均数算术平均数几何平均数权数四分位差方差标准差 系数) 3.1统计变量集中趋势的测定 统计学是关于收集、分析、表述和解释统计数据的方法论科学,她对统计数据的收集、分析、表述 和解释虽然要从每一个数据着手,但其着眼点即研究目的却是在于统计数据整体或者说研究现象的总体 特征。在一个统计总体中,每一个个体即统计单位都有自己的特征和属性,具体地就表现出不同的标志 值,我们不能用其中的某一个或某几个的标志值来代表全部据的特征,而必须使用所有数据的代表值 来表述总体特征,这就必须测定变量的集中趋势。 3.1.1测定集中趋势的主要指标及其作用 集中趋势的描述是统计数据描述的重要内容。所谓集中是指数据向中心靠拢的意思,所以,集中趋 势也称为中心 位置。 统计数据的集中趋势(或中心位置)是指数据向其中心值靠拢或集中的程度。测定 集中趋势就是寻找数据水平的代表值或中心值。 测定集中趋势的指标有两类:位置平均数和数值平均数。 所谓位置平均数是根据变量值位置来确定的代表值,即在总体中将变量值按顺序排列得到的数列中 某个特殊位置的值就称为位置平均数。常用的位置平均数有众数、中位数和分位数等,前两种常用。位 置平均数可以用于对品质数据(由定类尺度和定序尺度所测量的数据即定类数据和顺序数据)和数量数 据(由定距尺度和定比尺度所测量的数据)的测度 所谓数值平均数就是均值 ,它是对总体中的所有数据计算平均值,用以反映所有数据的 般水平 根据计算方法不同,数值平均数可以分为算术平均数、调和平均数、几何平均数和幂平均数。这类平均 数的特点是,统计总体中任何一项数据的变动都会在一定程度上影响到数值平均数的计算结果。数值平 均数只能用于对数量数据的测度。 定集中静势是为了表示社会经济现象总体名单位某一标志在一定时间、地占条件下所达到的一般 水平。亦即将总体各单位标 值的 数量差异抽象化, 反映 总体在具体条件下各单位标志值达到的 一般力 平。集中趋势的指标经常被作为评价事物和决策的数量标准或参考。具体地说,测定集中趋势的作用如 下: 1.反映总体各单位变量分布的集中趋势和一般水平 实践中,客观现象总体各单位的某一变量值或从小到大、成按照某一特征形成一定的分布,通常标 志值很极端的单位数比较少,越靠近中心值单位数就越多,也就是说 围绕在中心值周围的标志值个数 在总体单位数中占有最大比重,显示总体各单位向中心值集中。所以集中趋势的测定指标是反映总休各
1 第 3 章 统计数据分布特征的描述 学习目标 1、熟练掌握反映统计数据分布集中趋势的各种平均指标的涵义及其计算方法; 2、熟练掌握反映统计数据分布离中趋势的各种变异指标的涵义及其计算方法; 3、熟练掌握反映统计数据分布对称与偏斜程度的偏度和峰度指标的涵义及其计算方法。 基本概念 位置平均数 分位数 数值平均数 算术平均数 几何平均数 权数 四分位差 方差 标准差 (系数) 3.1 统计变量集中趋势的测定 统计学是关于收集、分析、表述和解释统计数据的方法论科学,她对统计数据的收集、分析、表述 和解释虽然要从每一个数据着手,但其着眼点即研究目的却是在于统计数据整体或者说研究现象的总体 特征。在一个统计总体中,每一个个体即统计单位都有自己的特征和属性,具体地就表现出不同的标志 值,我们不能用其中的某一个或某几个的标志值来代表全部数据的特征,而必须使用所有数据的代表值 来表述总体特征,这就必须测定变量的集中趋势。 3.1.1 测定集中趋势的主要指标及其作用 集中趋势的描述是统计数据描述的重要内容。所谓集中是指数据向中心靠拢的意思,所以,集中趋 势也称为中心位置。统计数据的集中趋势(或中心位置)是指数据向其中心值靠拢或集中的程度。测定 集中趋势就是寻找数据水平的代表值或中心值。 测定集中趋势的指标有两类:位置平均数和数值平均数。 所谓位置平均数是根据变量值位置来确定的代表值,即在总体中将变量值按顺序排列得到的数列中 某个特殊位置的值就称为位置平均数。常用的位置平均数有众数、中位数和分位数等,前两种常用。位 置平均数可以用于对品质数据(由定类尺度和定序尺度所测量的数据即定类数据和顺序数据)和数量数 据(由定距尺度和定比尺度所测量的数据)的测度。 所谓数值平均数就是均值,它是对总体中的所有数据计算平均值,用以反映所有数据的一般水平。 根据计算方法不同,数值平均数可以分为算术平均数、调和平均数、几何平均数和幂平均数。这类平均 数的特点是,统计总体中任何一项数据的变动都会在一定程度上影响到数值平均数的计算结果。数值平 均数只能用于对数量数据的测度。 测定集中趋势是为了表示社会经济现象总体各单位某一标志在一定时间、地点条件下所达到的一般 水平。亦即将总体各单位标志值的数量差异抽象化,反映总体在具体条件下各单位标志值达到的一般水 平。集中趋势的指标经常被作为评价事物和决策的数量标准或参考。具体地说,测定集中趋势的作用如 下: 1.反映总体各单位变量分布的集中趋势和一般水平 实践中,客观现象总体各单位的某一变量值或从小到大、或按照某一特征形成一定的分布,通常标 志值很极端的单位数比较少,越靠近中心值单位数就越多,也就是说,围绕在中心值周围的标志值个数 在总体单位数中占有最大比重,显示总体各单位向中心值集中。所以集中趋势的测定指标是反映总体各
单位变量分布的一般水平的代表性指标。如要了解某个行业的劳动生产率水平,既不能用该行业最高的 劳动生产幸来表示,也不能用最低的劳动生产率来表示,而应该用行业的一般劳动生产率即平均劳动生 产率来反映整个行业劳动生产率的整体水平 2比较同类现 在不同单位的发展水平 比不同单位同类现象的发展水平, 般不能用总量指标来对比,因为总量指标会受到规模大小差 异的影响,不能简单加以比较。例如评价两个同行业企业的职工工资水平,即不能用每一个职工的工资 一一比较,也不能用工资总额指标来对比,因为工资总额会因企业职工人数的差异而不同,如果用平均 工资进行比较,就可以比较客观地说明间顺。因此,集中趋势在说明生产水平、消费水平、经济效益或 工作质量等方面、以及投资项目评估、生产消耗定额的制定、产品成本核算等许多场合都被广泛应用。 3,比较同类现象在不同时期的发展变化趋势或规律 社会经济现象的变化受多种因素的影响,个别单位或标志总量的变化,除了受现象规模的影响外 还易受偶然因素的影响。测定集中趋势,既可以避免受现象规模的影响,又能够消除偶然因素的作用, 比较确切地反映意体现象变化的基本趋势。例如研究居民收入水平的变动情况,个别居民的收入有特联 生,不足以反映 一般水平的变化,而居民总收入的变动又受居民人数变化的影响。如果采用各年居民的 平均收入水平进行比较 则可以反映出居民收入水平的变动趋势。 4.分析现象之间的依存关系 相互联系的客观现象的依存关系,不能取现象的某个具体值,而必须采纳其代表值。例如,将工业 企业按照规模的大小进行分组,再计算各不同规摸工业企业的劳动生产率、利润率等指标,就可以反映 出企业却的不同与劳动生产率利润率之间的关系 下面根据集中趋势各种测定指标所适用的数据等级,从初级到高级,即从位置代表值到数值代表值 分别予以介绍。我们特别需要注意的是,低层次数据的测定值适用于高层次数据的测量,但是高层次的 测定值并不适用于低层次数据的测定。 3.1.2位置平均数 位置平均数是根据数据排列位置所确定的代表值,其与数值平均数的基本区别在于不需要依据每 个数据值来计算。常用的位置代表值有众数和中位数,以及中位数之外的其它分位数。 1.众数(Mode) 众数是总体中出现次数最多的那个数据值,在须数分布中,众数指频数或颊率最大的标志值,用 M0表示。从数据的分布层面看,分布数列中最常出现的标志值说明该标志值最具有代表性,因此可以 反映数列的 一般才 在分配曲线图上,众数就是曲线的最高峰所对应的标志值 但是,众数具有不确定性。如果数据的分布没有明显的集中趋势或最高峰点,众数就不存在:如果 有多个高峰点,就有多众数。见图31众数示意图。 于个 (a)单众数 (b)双众 (c)五种无众数的情形 图3-1众数示意图 众数是英国统计学家皮尔生(Karl Pearson,1857~l936)首先提出来的,它对数据等级的要求是所
2 单位变量分布的一般水平的代表性指标。如要了解某个行业的劳动生产率水平,既不能用该行业最高的 劳动生产率来表示,也不能用最低的劳动生产率来表示,而应该用行业的一般劳动生产率即平均劳动生 产率来反映整个行业劳动生产率的整体水平。 2.比较同类现象在不同单位的发展水平 比较不同单位同类现象的发展水平,一般不能用总量指标来对比,因为总量指标会受到规模大小差 异的影响,不能简单加以比较。例如评价两个同行业企业的职工工资水平,即不能用每一个职工的工资 一一比较,也不能用工资总额指标来对比,因为工资总额会因企业职工人数的差异而不同,如果用平均 工资进行比较,就可以比较客观地说明问题。因此,集中趋势在说明生产水平、消费水平、经济效益或 工作质量等方面、以及投资项目评估、生产消耗定额的制定、产品成本核算等许多场合都被广泛应用。 3.比较同类现象在不同时期的发展变化趋势或规律 社会经济现象的变化受多种因素的影响,个别单位或标志总量的变化,除了受现象规模的影响外, 还易受偶然因素的影响。测定集中趋势,既可以避免受现象规模的影响,又能够消除偶然因素的作用, 比较确切地反映总体现象变化的基本趋势。例如研究居民收入水平的变动情况,个别居民的收入有特殊 性,不足以反映一般水平的变化,而居民总收入的变动又受居民人数变化的影响。如果采用各年居民的 平均收入水平进行比较,则可以反映出居民收入水平的变动趋势。 4.分析现象之间的依存关系 相互联系的客观现象的依存关系,不能取现象的某个具体值,而必须采纳其代表值。例如,将工业 企业按照规模的大小进行分组,再计算各不同规模工业企业的劳动生产率、利润率等指标,就可以反映 出企业规模的不同与劳动生产率或利润率之间的关系。 下面根据集中趋势各种测定指标所适用的数据等级, 从初级到高级, 即从位置代表值到数值代表值, 分别予以介绍。我们特别需要注意的是,低层次数据的测定值适用于高层次数据的测量,但是高层次的 测定值并不适用于低层次数据的测定。 3.1.2 位置平均数 位置平均数是根据数据排列位置所确定的代表值,其与数值平均数的基本区别在于不需要依据每一 个数据值来计算。常用的位置代表值有众数和中位数,以及中位数之外的其它分位数。 1.众数(Mode) 众数是总体中出现次数最多的那个数据值,在频数分布中,众数指频数或频率最大的标志值,用 Mo 表示。从数据的分布层面看,分布数列中最常出现的标志值说明该标志值最具有代表性,因此可以 反映数列的一般水平。 在分配曲线图上,众数就是曲线的最高峰所对应的标志值。 但是,众数具有不确定性。如果数据的分布没有明显的集中趋势或最高峰点,众数就不存在;如果 有多个高峰点,就有多众数。见图 3-1 众数示意图。 Mo Mo Mo 无众数 (a)单众数 (b)双众数 (c)五种无众数的情形 图 3-1 众数示意图 众数是英国统计学家皮尔生(Karl Pearson,1857~1936)首先提出来的,它对数据等级的要求是所
有集中趋势的代表值中最低的,从定类尺度开始的四种计量尺度测定的数据都适用。由于众数的特性, 实践中有时就利用它来表明现象的一般水平,有时利用它来作为某些决策的参考依据。如服装厂在制订 各种型号服装的生产计划时,计划产量最多的型号就是市场上销售量最大的型号。再如,在选举中,获 得最多票数者当选其实就是众数的应用。 众数一般用于总体数据。由于未 整理的数据不知道哪个标志值出现次数最多 就无法确定众数 因此,为了确定众数,必须先将资料进行分组,编制分配数列。又由于数量变量的分组有单项式分组和 组距式分组,而组距式分组又有等距分组和不等距分组之分,因此,各种不同的数据条件确定众数的方 法又有所不同。 (1)品质数列和单项式数量数列确定众数 由品质数列和单项式数量分配数列确定众数,方法比较简单。即出现次数最多的标志值就是众数 [例3-1】2000年福建省城镇居民家庭居住条件构成如表3-1。 表3-1 城镇居民家庭居住条件构成 (%) 项 2000年 按房屋产权分 100.0 租赁私房 12.6 1.9 自有房 71.7 其他 13.8 资料来源:《福建统计年鉴一2002》. 按房屋产权分组数据就是一个品质数列,有71.7%的城镇居民的住房是自有房,因为71.7%是该品质 数列中的最高频率,因此,其众数就是“自有房”,=自有房。 [例3-2】某学院某学年教师开课门数如表3-2: 表3-2教师开课门数(单位:门) 开课门数x 2 3 4 合计 教师数f 15 3028 12 85 在上表的单项式数量数列中,教师开课门数最集中的是2门课,所以2就是众数,M2。 (②)由组距数量数列确定众数 由组距数列确定众数,首先应当确定众数组,然后通过比例插值法计算众数。在等距分组条件下, 众数组就是次数最多的那一组:在不等距分组的条件下,众数组则是频数密度或频率密度最高的那一组 众数值是依据众数组的次数与众数组相邻的两组次数的关系用比例插值计算的。 图3-2表达了比例插值法的思路
3 有集中趋势的代表值中最低的,从定类尺度开始的四种计量尺度测定的数据都适用。由于众数的特性, 实践中有时就利用它来表明现象的一般水平,有时利用它来作为某些决策的参考依据。如服装厂在制订 各种型号服装的生产计划时,计划产量最多的型号就是市场上销售量最大的型号。再如,在选举中,获 得最多票数者当选其实就是众数的应用。 众数一般用于总体数据。由于未经整理的数据不知道哪个标志值出现次数最多,就无法确定众数。 因此,为了确定众数,必须先将资料进行分组,编制分配数列。又由于数量变量的分组有单项式分组和 组距式分组,而组距式分组又有等距分组和不等距分组之分,因此,各种不同的数据条件确定众数的方 法又有所不同。 (1)品质数列和单项式数量数列确定众数 由品质数列和单项式数量分配数列确定众数,方法比较简单。即出现次数最多的标志值就是众数。 [例 3-1] 2000 年福建省城镇居民家庭居住条件构成如表 3-1。 表 3-1 城镇居民家庭居住条件构成 (%) 资料来源:《福建统计年鉴—2002》。 按房屋产权分组数据就是一个品质数列, 有 71.7%的城镇居民的住房是自有房, 因为 71.7%是该品质 数列中的最高频率,因此,其众数就是“自有房” ,MO=自有房。 [例 3-2] 某学院某学年教师开课门数如表 3-2: 表 3-2 教师开课门数 (单位:门) 开课门数 x 1 2 3 4 合计 教师数 f 15 30 28 12 85 在上表的单项式数量数列中,教师开课门数最集中的是 2 门课,所以 2 就是众数,MO=2。 (2)由组距数量数列确定众数 由组距数列确定众数,首先应当确定众数组,然后通过比例插值法计算众数。在等距分组条件下, 众数组就是次数最多的那一组; 在不等距分组的条件下, 众数组则是频数密度或频率密度最高的那一组。 众数值是依据众数组的次数与众数组相邻的两组次数的关系用比例插值计算的。 图 3-2 表达了比例插值法的思路。 项 目 2000 年 按房屋产权分 100.0 公 房 12.6 租赁私房 1.9 自 有 房 71.7 其 他 13.8
LM0 Mo UMo 图32众数与相邻两组的关系 根据图3-2可以得到两个公式 上限公式: Mou (fw.a)dv. JM。-JM。-1 (3-1) 下限公式: 。=Uu.-fa+-fn*dw (3-2) 公式中,M6代表众数:LM,代表众数组的下限:UM,代表众数组的上限:了代表众数组的次数 ∫,一代表众数组前一组的次数:∫4,代表众数组后一组的次数:d代表众数组的组距。 [例3-3]某地区农民收入情况如表3-3,计算其人均纯收入的众数。 表3-3农民家庭年人均纯收入情况表 按年人均纯收入分组(元) 农民家庭数(户) 1000-1200 240 12001400 480 14001600 1050 1600~1800 600 1800-2000 270 2000-2200 210 2200~2400 120 2400-2600 30 3000 fy -fu- M。=L+-+-*4u 480+1050-600×200=1551.8元) 1050-480 =1400- 1050
4 fMo fMofMo+1 fMofMo1 L MO MO UMO 图 3-2 众数与相邻两组的关系 根据图 3-2 可以得到两个公式: 上限公式: o o o o o o o M M M M M M M O M d f f f f f f M L ¥ - + - - = + - + - ( ) ( ) 1 1 1 0 (3-1) 下限公式: o o o o o o o o M M M M M M M O M d f f f f f f M U ¥ - + - - = - - + + ( ) ( ) 1 1 1 (3-2) 公式中,MO 代表众数; M o L 代表众数组的下限; M o U 代表众数组的上限; M o f 代表众数组的次数; -1 M o f 代表众数组前一组的次数; +1 M o f 代表众数组后一组的次数; M o d 代表众数组的组距。 [例 3-3] 某地区农民收入情况如表 3-3,计算其人均纯收入的众数。 表 3-3 农民家庭年人均纯收入情况表 按年人均纯收入分组(元) 农民家庭数(户) 1 000~1 200 240 1 200~1 400 480 1 400~1 600 1 050 1 600~1 800 600 1 800~2 000 270 2 000~2 200 210 2 200~2 400 120 2 400~2 600 30 合 计 3 000 0 1 1 1 ( ) ( ) 1050 480 1400 200 1551.8 1050 480 1050 600 o o o o o o o M M O M M M M M M f f M L d f f f f - - + - = + ¥ - + - = - + ¥ = - + - (元)
或: fy.-fu 。=-+-x4 1600- 1050 050-480)+0050-600×200=1518元) 在不等距分组的条件下,众数必须根据频数密度或频率密度来计算。 众数是按照数据的位置计算的,它的长处是易于理解,不受极端数值的影响。当数据分布存在明显 的集中趋势,且有显著的极端值时,适合使用众数。但是其灵敏度、计算功能和稳定性差,具有不唯 性,所以当数据分布 中趋势不明显或存在两个以上分布中心时,便不适合使用众数(前者无众数 后者为双众数或多众数,也等于没有众数)。 2.中位数(Median) 中位数和众数一样,也是一种位置代表值,但是,它不能用于定类数据,只能在顺序及以上的数据 中使用,所以又称为次序统计量,用Me表示。 中位数是将总体中的数据按顺序排列后,处于数列中点位置上的那个数据值或变量值,或者说中位 数是累计频率数列中 累 为0.50 的变 从中位数概念可见:在总体中,小于中位数的数据个数占一半,大于中位数的数据个数也占一半 即中位数是将数据按大小顺序排列后,位于二等分点上的那个数据值。用中位数来代表总体中所有标志 值的一般水平,可以避免极端值的影响,在有的情况下更具有代表性。例如,人口的平均年龄会受到个 别特别长寿人口年龄的影响,使计算结果偏大,而年龄中位数则可以较好地体现人口年龄结构的特征: 国际上就使用人口的年龄中位数(30岁)作为人口老龄化的一个判断标准。 中位数的确定方法,根据所掌握的数据不同而有所不同 (1)由顺序数据和未分组的数量数据确定中位数。这种情况下,确定中位数的方法是:先将总体 中的全部数据顺序排列,然后确定中位数的位置,处于中位数位置的标志值就是中位数。 顺序数据中位数的位置: 中位数位置=号 (3-3) 未分组的数量数据中位数的位置: 中位数位置=”+1 (3-4) 式中,n为数据个数。 当数据个数刀为奇数时,中位数是处于中间位置上的数据值 当数据个数n为偶数时,中位数是处于中间位置上的两个数据值的算术平均数。 M,=x时 (3.5) M,=+) (3-6) [例3-4)某高校一次对食堂伙食满意度的调查数据如表3-4所示。 表3-4 调查数据次数分布 回答类别 学生人数(人) 学生数累计(向上累计) 非常不满意 240 240 不满意 1080 1320 930 2250 一意 450 2700
5 或: 1 1 1 ( ) ( ) 1600 1050 600 200 1551.8 (1050 480) (1050 600) o o o o o o o o M M O M M M M M M f f M U d f f f f + - + - = - ¥ - + - = - - ¥ = - + - (元) 在不等距分组的条件下,众数必须根据频数密度或频率密度来计算。 众数是按照数据的位置计算的,它的长处是易于理解,不受极端数值的影响。当数据分布存在明显 的集中趋势,且有显著的极端值时,适合使用众数。但是其灵敏度、计算功能和稳定性差,具有不唯一 性,所以当数据分布的集中趋势不明显或存在两个以上分布中心时,便不适合使用众数(前者无众数, 后者为双众数或多众数,也等于没有众数)。 2.中位数(Median) 中位数和众数一样,也是一种位置代表值,但是,它不能用于定类数据,只能在顺序及以上的数据 中使用,所以又称为次序统计量,用 Me 表示。 中位数是将总体中的数据按顺序排列后,处于数列中点位置上的那个数据值或变量值,或者说中位 数是累计频率数列中,累计频率为 0.50 所对应的变量值。 从中位数概念可见:在总体中,小于中位数的数据个数占一半,大于中位数的数据个数也占一半, 即中位数是将数据按大小顺序排列后,位于二等分点上的那个数据值。用中位数来代表总体中所有标志 值的一般水平,可以避免极端值的影响,在有的情况下更具有代表性。例如,人口的平均年龄会受到个 别特别长寿人口年龄的影响,使计算结果偏大,而年龄中位数则可以较好地体现人口年龄结构的特征, 国际上就使用人口的年龄中位数(30 岁)作为人口老龄化的一个判断标准。 中位数的确定方法,根据所掌握的数据不同而有所不同: (1)由顺序数据和未分组的数量数据确定中位数。这种情况下,确定中位数的方法是:先将总体 中的全部数据顺序排列,然后确定中位数的位置,处于中位数位置的标志值就是中位数。 顺序数据中位数的位置: 中位数位置= 2 n (3-3) 未分组的数量数据中位数的位置: 中位数位置= 2 n +1 (3-4) 式中,n 为数据个数。 当数据个数 n 为奇数时,中位数是处于中间位置上的数据值。 当数据个数 n 为偶数时,中位数是处于中间位置上的两个数据值的算术平均数。 1 2 Me n x = + (35) 1 2 2 1 ( ) 2 Me n n x x + = + (3-6) [例 3-4] 某高校一次对食堂伙食满意度的调查数据如表 3-4 所示。 表 3-4 调查数据次数分布 回答类别 学生人数(人) 学生数累计(向上累计) 非常不满意 240 240 不满意 1 080 1 320 一 般 930 2 250 满 意 450 2 700
非常满意 300 3000 合计 3000 中位数位置=3000/2=1500 从学生数累计看,中位数在第三组,所以,Me=一般。 [例3-5]有8名工人,每人日产零件数按从低到高的顺序排列如下:17、19、20、22、23、23、 24、25(件人)。则 M.-+5)=22+23)=25 中位数为22.5件人,这个数字反映了工人总体日产零件数的一般水平。 (2)由单项式分组数量数据确定中位数。单项式数量数据分组已经将数据顺序化,这时数据个数 即总体单位数刀=Σ人确定中位数位置的方法要通过累计次数计算。 [例36]由表3-5数据计算中位数。 表3-5 教师开课门数累计频数表 开课门数x 教师数f 向上累计数(人) 向下累计数(人) 1 15 85 2 30 45 70 3 28 73 40 4 12 12 合计 85 中位数的位置是85/2=42.5,因此,Me=2。 (3)由组距式分组的数量数据确定中位数。组距式分组的数量数据也已经将数据顺序化,确定中 位数的方法与单项式分组数据一样,先通过累计次数确定中位数所在的组,再确定中位数,只是,这时 的中位组的变量值是非唯一的 一段区间,在假定中位数组内的各数据均匀分布的前提下,利用下 面的公式: 算中位数的近似值 下限公式: ∑f M。=Lw,+ -SM (3-7) fs, 上限公式: ∑f -S M。=Uy,- -xdM. (3-8) JM, 式中:M,表示中位数:L,表示中位数所在组的下限:U表示中位数所在组的上限:S,表 示向上累计至中位数所在组前一组的次数:S,1表示向下累计至中位数所在组后一组的次数:厂,表 6
6 非常满意 300 3 000 合 计 3 000 — 中位数位置 = 3 000/2 = 1 500 从学生数累计看,中位数在第三组,所以,Me = 一般。 [例 3-5] 有 8 名工人,每人日产零件数按从低到高的顺序排列如下:17、19、20、22、23、23、 24、25(件/人) 。则 1 2 2 1 1 ( ) (22 23) 22.5 2 2 Me n n x x + = + = + = 中位数为 22.5 件/人,这个数字反映了工人总体日产零件数的一般水平。 (2)由单项式分组数量数据确定中位数。单项式数量数据分组已经将数据顺序化,这时数据个数 即总体单位数 n=∑f,确定中位数位置的方法要通过累计次数计算。 [例 3-6]由表 3-5 数据计算中位数。 表 3-5 教师开课门数累计频数表 开课门数 x 教师数 f 向上累计数(人) 向下累计数(人) 1 15 15 85 2 30 45 70 3 28 73 40 4 12 85 12 合 计 85 — — 中位数的位置是 85/2 =42.5,因此,Me=2。 (3)由组距式分组的数量数据确定中位数。组距式分组的数量数据也已经将数据顺序化,确定中 位数的方法与单项式分组数据一样,先通过累计次数确定中位数所在的组,再确定中位数,只是,这时 的中位数组的变量值是非唯一的——一段区间,在假定中位数组内的各数据均匀分布的前提下,利用下 面的公式计算中位数的近似值: 下限公式: e e e e M M M e M d f S f M L ¥ - = + - Â 1 2 (3-7) 上限公式: e e e e M M M e M d f S f M U ¥ - = - + Â 1 2 (3-8) 式中: M e 表示中位数; M e L 表示中位数所在组的下限; M e U 表示中位数所在组的上限; -1 M e S 表 示向上累计至中位数所在组前一组的次数; +1 M e S 表示向下累计至中位数所在组后一组的次数; M e f 表
示中位数所在组的次数:d,表示中位数所在组的组距。 [例3-7刀根据表3-6数据,计算农民家庭年人均纯收入中位数。 表3-6农民家庭年人均纯收入累计次数表 年人均纯收入(元) 农民家庭数(户) 向上累计户数 向下累计户数 1000-1200 240 240 3000 12001400 480 720 2760 1400~1600 105 170 2280 1600-1800 600 2370 1230 1800~2000 270 2640 630 2000-2200 2850 360 2200-2400 120 2970 150 2400~2600 30 3000 30 合计 3000 3000-720 -×dk=1400+ 1050 ×200=1548.57(元) -5d-60-2 00-1230 M,=U,-2 050 ×200=1548.57(元) 计算表明,这3000户农民家庭年人均纯收入的中位数是1548.57元,也就是说,人均纯收入在1 548.57元以上的农民家庭有1500户,在1547.57元以下的也有1500户。 中位数容易理解,不受极极端值影响,特别适宜于开口组数据资料和一些不能用数字测定的事物, 这是其优点,但是,我们有必须注意到它的灵敏度和计算功能较差,特别是当总体中的数据有间断数的 话,其作为代表值的功用就会削弱 3.其它分位数 所谓分位数就是把数据进行等分后位于等分点上的数据值,中位数就是一个二分位数。除了中位数 外,常用的分位数还有四分位数、八分位数和百分位数等。 (1)四分位数(Quartile) 四分位数又称为四分位点,它利用三个等分点将数据四等分:第一个等分点称为下四分位数,第二 个等分点就是中位数,第三个等分点称为上四分位数。 四分位数的计算方法与中位数相 先确定其位置,再确定其数值 a.顺序数据中四分位数位置的确定。 Q位置=(l,23》 (39) 式中,Q,是第i个四分位数,n是数据个数即总体单位数。 [例3-8]利用例3-4的数据确定四分位数。 g,位置=”=300=750 ,=不满意 42 Q位置=2-2×300-1500 Q,=一般 4
7 示中位数所在组的次数; M e d 表示中位数所在组的组距。 [例 3-7] 根据表 3-6 数据,计算农民家庭年人均纯收入中位数。 表 3-6 农民家庭年人均纯收入累计次数表 年人均纯收入(元) 农民家庭数(户) 向上累计户数 向下累计户数 1 000~1 200 240 240 3 000 1 200~1 400 480 720 2 760 1 400~1 600 1 050 1 770 2 280 1 600~1 800 600 2 370 1 230 1 800~2 000 270 2 640 630 2 000~2 200 210 2 850 360 2 200~2 400 120 2 970 150 2 400~2 600 30 3 000 30 合 计 3 000 — — 1 3000 2 1050 720 2 1400 200 1548.57 e e e e M e M M M f S M L d f - Â - = + ¥ = - + ¥ = ( 元 ) 1 3000 2 1050 1230 2 1600 200 1548.57 e e e e M e M M M f S M U d f + Â - = - ¥ = - - ¥ = ( 元 ) 计算表明,这 3 000 户农民家庭年人均纯收入的中位数是 1 548.57 元,也就是说,人均纯收入在 1 548.57 元以上的农民家庭有 1 500 户,在 1 547.57 元以下的也有 1 500 户。 中位数容易理解,不受极极端值影响,特别适宜于开口组数据资料和一些不能用数字测定的事物, 这是其优点,但是,我们有必须注意到它的灵敏度和计算功能较差,特别是当总体中的数据有间断数的 话,其作为代表值的功用就会削弱。 3.其它分位数 所谓分位数就是把数据进行等分后位于等分点上的数据值,中位数就是一个二分位数。除了中位数 外,常用的分位数还有四分位数、八分位数和百分位数等。 (1)四分位数(Quartile) 四分位数又称为四分位点,它利用三个等分点将数据四等分:第一个等分点称为下四分位数,第二 个等分点就是中位数,第三个等分点称为上四分位数。 四分位数的计算方法与中位数相似,先确定其位置,再确定其数值。 a.顺序数据中四分位数位置的确定。 4 i i n Q × 位置 = (i=1,2,3)。 (39) 式中,Qi 是第 i 个四分位数,n 是数据个数即总体单位数。 [例 3-8]利用例 3-4 的数据确定四分位数。 1 3000 750 4 2 n Q 位置 = = = Q1 = 不满意 2 2 2 3000 1500 4 4 n Q ¥ 位置 = = = Q2 = 一般
Q,位置-”-30-250Q=满意 b.未分组和单项式分组的数量数据中四分位数位置的确定: Q位置=+(1.2,3. (3-10) 第一个四分位数的位置:Q位置=”+ (3-11 A 第二个四分位数的位置:Q,位置=20-” (312) 第三个四分位数的位置:Q,位置=3仙+) (3-13) 4 [例3-9]计算例35中数据的四分位数。 0位置-”中-}-258=5+025-5-194020-19=1925 g位限”-号45g=兰223.2 Q位置=+=6750,=+075-)=23+0,7523-23)=23 4 从本例可以发现,当四分位数的位置不在某个数值上时,应当根据四分位数的位置,按照比例分 四分位数两边的数据 在单项式分组的数量数据中确定四分位数位置的方法与未分组数据的方法一样,只是要根据累计频 数或累计频率来确定。 c组距式分组数量数据中四分位数位置的确定: - g,=6+ (3-14) 式中,L®表示第i个分位数所在组的下限:Σ∫数据个数,即整体单位数:S。-表示向上累计至 第i个分位数所在组前一组的次数:。表示第i个分位数所在组的次数:d。表示第i个分位数所在组 的组距。 [例3-10]利用表3-6的数据确定四分位数。 EL-Sa 3000-720 g=%+ d=1400+ 1050 20=1405.71 1050×200=1548.57 3×3000-1770 =e+4 6%=1600+ 600 ×200=1760 (2)百分位数(Percentile) 百分位数是数据顺序排列后,将数据100等分,位于1(i=1,2,.,99)个等分点位置的数据值。 8
8 3 3 3 3000 2250 4 4 n Q ¥ 位置 = = = Q3 = 满意 b.未分组和单项式分组的数量数据中四分位数位置的确定: ( 1) 2 i i n Q + 位置 = (i=1,2,3)。 (310) 第一个四分位数的位置: 1 1 4 n Q + 位置 = (311) 第二个四分位数的位置: 2 2( 1) 1 4 2 n n Q + + 位置 = = (312) 第三个四分位数的位置: 3 3( 1) 4 n Q + 位置 = (313) [例 3-9] 计算例 35 中数据的四分位数。 1 1 9 2.25 4 4 n Q + 位置 = = = 1 2 3 2 Q = x + 0.25(x - x ) = 19 + 0.25(20 -19) = 19.25 2 1 9 4.5 2 2 n Q + 位置 = = = 4 5 2 22 23 22.5 2 2 x x Q + + = = = 3 3( 1) 6.75 4 n Q + 位置 = = 3 6 7 6 Q = x + 0.75(x - x ) = 23 + 0.75(23 - 23) = 23 从本例可以发现,当四分位数的位置不在某个数值上时,应当根据四分位数的位置,按照比例分摊 四分位数两边的数据差值。 在单项式分组的数量数据中确定四分位数位置的方法与未分组数据的方法一样,只是要根据累计频 数或累计频率来确定。 c.组距式分组数量数据中四分位数位置的确定: 1 4 i i i i Q i Q Q Q i f S Q L d f - × Â - = + × (314) 式中, Q i L 表示第 i 个分位数所在组的下限;Â f 数据个数,即整体单位数; 1 Q i S - 表示向上累计至 第 i 个分位数所在组前一组的次数; Q i f 表示第 i 个分位数所在组的次数; Q i d 表示第 i 个分位数所在组 的组距。 [例 3-10] 利用表 3-6 的数据确定四分位数。 1 1 1 1 1 1 3000 720 4 4 1400 200 1405.71 1050 Q Q Q Q f S Q L d f - Â - - = + × = + ¥ = 2 2 2 2 1 2 3000 720 4 2 1400 200 1548.57 1050 Q Q Q Q f S Q L d f - Â - - = + × = + ¥ = 3 3 3 3 1 3 3 3000 1770 4 4 1600 200 1760 600 Q Q Q Q f S Q L d f - Â ¥ - - = + × = + ¥ = (2)百分位数(Percentile) 百分位数是数据顺序排列后,将数据 100 等分,位于 i(i=1,2,.,99)个等分点位置的数据值
可见,第25百分位数就是第一个四分位数:第50百分位数即第二个四分位数,也就是中位数:第75 百分位数则是第三个四分位数。 百分位数的计算思路与四分位数一样。 需要说明的是,分位数是用于衡量数据的位置的测定指标,但它所衡量的不一定是中心位置。百分 位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于没有大量重复的数据,第1百分 位数将它分为两个部分。大约i%的数据项的值比第i百分位数小:而大约(100-i)%的数据项的值 比第i百分位数大。 对第i百分位数,严格的定义如下:第1百分位数是这样一个值,它使得至少有i%的数据项小于 或等于这个值,且至少有(100一1)%的数据项大于或等于这个值。 3.1.3数值平均数 数值平均数又称为均值,是用于测定数量数据的集中趋势的指标,算术平均数是最常用的数值平均 数,由算术平均数又引申出了调和平均数和几何平均数。 1.筐术平均数(均值)(arithmetic mean(mean) 算术平均数又称均值, 是统 十数据高低相互抵消后的结果,表现了数据的集中趋势和代表性水平 从统计思想看,均值削弱了数据中偶然性,揭示了蕴含在偶然性当中的必 然性,是统计数据集中趋势的一个最重要特征值。而且本身具有良好的数学性质。 (1)基本形式 算术平均数= 总体标志总量 (3-15) 体单位总新 算术平均数的计算条件:算术平均数是同质总体的标志总量和单位总数的比率关系 ,它要求基本公 式的分子(总体标志总量)与分母(总体单位总量)必须是同一总体,并且分子与分母在数量上存在若 直接的、 ·一的对应关系,即其分子(总体标志总量)数值要随者分母(总体单位总量)数值的变动而 变动。如100个职工所组成总体,其工资总额130000元,则平均工资就是130000/100-1300元:现在假 设其中的职工甲离开了该总体,甲的工资是1500元,则新总体的相关情况改变为:单位数99人,标志 总量128500,平均 资12 1297.98元 算术平均数的这一计算要求也是其与强度相对数的主要区别之一 算术平均数与强度相对数有相似之处:两者都是两个绝对数(总量指标)对比,并且有的强度相对 数还带有平均的含义:两者的都有计量单位,而且,计量单位也都是双重单位。但是两者有明显区别。 主要表现: 指标含义不同。强度相对数说明的是某一现象在另一现象中发展的强度、密度或普遍程度:而算 术平均数说明的是现象发展的一般水平。 b计算方法不同。强度相对数与算术平均数虽然都是两个有联系的总量指标之比,但是,强度相对 数分子与分母的联系,只表现为一种相互关系,其分子与分母在数量上不存在若直接的一一对应关系, 而算术平均数是在一个同质总体内标志总量与它自身的单位总量的比例关系,分子与分母的联系是一种 内在的联系,即其分子与分母在数量上存在者直接的 一对应关系 人均消费支出是消费总支出与人口数之比,消费支出与人口数有直接的 对应关系,故人均 消费支出是算术平均数:而人均国内生产总值是国内生产总值与人口数的比率,二者间不存在直接的 一对应关系。所以,人均国内生产总值是一个强度相对数。 实际工作中,由于数据的不同,算术平均数有简单算术平均数和加权算术平均数两种计算形式。 (2)简单算术平均数(simple arithmetic mean) 简单算术平均数主要用于未分组数据,用总体各单位标志值简单加总得到的标志总量除以单位总量 而得。计算公式如下:
9 可见,第 25 百分位数就是第一个四分位数;第 50 百分位数即第二个四分位数,也就是中位数;第 75 百分位数则是第三个四分位数。 百分位数的计算思路与四分位数一样。 需要说明的是,分位数是用于衡量数据的位置的测定指标,但它所衡量的不一定是中心位置。百分 位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于没有大量重复的数据,第 i 百分 位数将它分为两个部分。大约 i%的数据项的值比第 i 百分位数小;而大约(100-i)%的数据项的值 比第 i 百分位数大。 对第 i 百分位数,严格的定义如下:第 i 百分位数是这样一个值,它使得至少有 i%的数据项小于 或等于这个值,且至少有(100-i)%的数据项大于或等于这个值。 3.1.3 数值平均数 数值平均数又称为均值,是用于测定数量数据的集中趋势的指标,算术平均数是最常用的数值平均 数,由算术平均数又引申出了调和平均数和几何平均数。 1.算术平均数(均值) (arithmetic mean (mean) 算术平均数又称均值,是统计数据高低相互抵消后的结果,表现了数据的集中趋势和代表性水平。 从统计思想看,均值削弱了数据中偶然性,揭示了蕴含在偶然性当中的必 然性,是统计数据集中趋势的一个最重要特征值。而且本身具有良好的数学性质。 (1)基本形式 = 总体标志总量 算术平均数 总体单位总数 (315) 算术平均数的计算条件:算术平均数是同质总体的标志总量和单位总数的比率关系,它要求基本公 式的分子(总体标志总量)与分母(总体单位总量)必须是同一总体,并且分子与分母在数量上存在着 直接的、一一的对应关系,即其分子(总体标志总量)数值要随着分母(总体单位总量)数值的变动而 变动。如 100 个职工所组成总体,其工资总额 130000 元,则平均工资就是 130000/100=1300 元;现在假 设其中的职工甲离开了该总体,甲的工资是 1500 元,则新总体的相关情况改变为:单位数 99 人,标志 总量 128500,平均工资 128500/99=1297.98 元。 算术平均数的这一计算要求也是其与强度相对数的主要区别之一。 算术平均数与强度相对数有相似之处:两者都是两个绝对数(总量指标)对比,并且有的强度相对 数还带有平均的含义;两者的都有计量单位,而且,计量单位也都是双重单位。但是两者有明显区别。 主要表现: a.指标含义不同。强度相对数说明的是某一现象在另一现象中发展的强度、密度或普遍程度;而算 术平均数说明的是现象发展的一般水平。 b.计算方法不同。强度相对数与算术平均数虽然都是两个有联系的总量指标之比,但是,强度相对 数分子与分母的联系,只表现为一种相互关系,其分子与分母在数量上不存在着直接的一一对应关系, 而算术平均数是在一个同质总体内标志总量与它自身的单位总量的比例关系,分子与分母的联系是一种 内在的联系,即其分子与分母在数量上存在着直接的一一对应关系。 如,人均消费支出是消费总支出与人口数之比,消费支出与人口数有直接的一一对应关系,故人均 消费支出是算术平均数;而人均国内生产总值是国内生产总值与人口数的比率,二者间不存在直接的一 一对应关系。所以,人均国内生产总值是一个强度相对数。 实际工作中,由于数据的不同,算术平均数有简单算术平均数和加权算术平均数两种计算形式。 (2)简单算术平均数(simple arithmetic mean) 简单算术平均数主要用于未分组数据,用总体各单位标志值简单加总得到的标志总量除以单位总量 而得。计算公式如下:
不=++.+五=白 (316) 式中,下代表算术平均数,x,表各单位标志值,n代表总体单位数。 [例3-11]例3-5的中,日产零件数分别为17、19、20、22、23、23、24、25(件/人)8名工人 的日产零件的平均数为: ._7+19+20+2+23+23+24+25-21625件1人 8 (3)加权算术平均数(weighted arithmetic mean) 加权算术平均数主要用于数据已经分组,并编制出次数分布的条件下。这时必须先将各组标志值乘 以相应的次数,得到各组的标志总量,然后再相加得到总体标志总量。加权算术平均数的计算公式为: (3-17) [例3-12】利用表3-2的数据计算算术平均数。 表3-7 教师平均开课门数计算表 开课门数 教师数 标志值 £(%) xf 三 1 15 15 17.65 0.1765 30 0 35.29 0.7058 3 28 84 32.94 0.9882 48 14.12 0.5648 合计 85 207 100.00 2.4353 0-245n 285 或按照频率计算:=5=2435X门) 说明该院教师该学年平均开课门数为2.45门。 如果是组距式分组,在假定各组内的变量值均匀分布的条件下,用各组的组中值代表各组的平均值 以各组组中值乘以各组次数作为各组的标志总最,再计算总平均数。 筒3利用表3与数据计第草术平均发
10 n x n x x x x n i i n Â= = + + + = 1 2 L 1 (316) 式中, x 代表算术平均数,xi 表各单位标志值,n 代表总体单位数。 [例 3-11] 例 3-5 的中,日产零件数分别为 17、19、20、22、23、23、24、25(件/人)8 名工人 的日产零件的平均数为: 1 17 19 20 22 23 23 24 25 21.625( / 8 n i i x x n = Â + + + + + + + = = = 件 人) (3)加权算术平均数(weighted arithmetic mean) 加权算术平均数主要用于数据已经分组,并编制出次数分布的条件下。这时必须先将各组标志值乘 以相应的次数,得到各组的标志总量,然后再相加得到总体标志总量。加权算术平均数的计算公式为: 1 1 2 2 1 1 1 2 1 1 n i i n n n i i n i n i n i i i i x f x f x f x f f x x f f f f f = = + = = Â × + + + = = = Â + + Â Â L L (317) [例 3-12] 利用表 3-2 的数据计算算术平均数。 表 3-7 教师平均开课门数计算表 开课门数 i x 教师数 i f 标志值 i i x × f 1 i n i i f f = Â (%) 1 i i n i i f x f = × Â 1 15 15 17.65 0.1765 2 30 60 35.29 0.7058 3 28 84 32.94 0.9882 4 12 48 14.12 0.5648 合计 85 207 100.00 2.4353 1 1 207 2.4353 85 n i i i n i i x f x f = = Â × = = = Â (门) 或按照频率计算: 1 1 2.4353 n i i n i i i f x x f = = = Â = Â (门) 说明该院教师该学年平均开课门数为 2.45 门。 如果是组距式分组, 在假定各组内的变量值均匀分布的条件下, 用各组的组中值代表各组的平均值, 以各组组中值乘以各组次数作为各组的标志总量,再计算总平均数。 [例 313] 利用表 33 数据计算算术平均数