第四章 集中趋势测量法 主要内容包括:算术平均数,中位数,众数,几何平均数和调和平均数 1、统计分析首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。 2、平均指标就是表明同质总体在一定条件下某一数量标志所达到的一般水平。 3、平均指标把总体各单位之间的差异加以抽象概括,其中个别标志值的偶然性 被相互抵消,从而反映出总体分布的集中趋势 我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民 主决策的表决机制。 (2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那 么就用小康家庭来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的平均水平 关于集中趋势的一个故事: 吉斯莫先生有一个小工厂,生产超级小玩意儿。管理人员由吉斯莫先生、 他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得 很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。 吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每 周得75美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。 萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每 周100元。平均工资怎么可能是一周300元呢? 吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。 吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六 个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是 每周6900元,付给23个人,对吧? 萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。 吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你
第四章 集中趋势测量法 主要内容包括:算术平均数,中位数,众数,几何平均数和调和平均数。 1、统计分析首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。 2、平均指标就是表明同质总体在一定条件下某一数量标志所达到的一般水平。 3、平均指标把总体各单位之间的差异加以抽象概括,其中个别标志值的偶然性 被相互抵消,从而反映出总体分布的集中趋势。 我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民 主决策的表决机制。 (2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那 么就用小康家庭来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的平均水平。 关于集中趋势的一个故事: 吉斯莫先生有一个小工厂,生产超级小玩意儿。管理人员由吉斯莫先生、 他的弟弟、六个亲戚组成。工作人员由 5 个领工和 10 个工人组成。工厂经营得 很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。 吉斯莫:我们这里报酬不错。平均薪金是每周 300 美元。你在学徒期间每 周得 75 美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。 萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每 周 100 元。平均工资怎么可能是一周 300 元呢? 吉斯莫:啊,萨姆,不要激动。平均工资是 300 元。我要向你证明这一点。 吉斯莫:这是我每周付出的酬金。我得 2400 元,我弟弟得 1000 元,我的六 个亲戚每人得 250 元,五个领工每人得 200 元,10 个工人每人 100 元。总共是 每周 6900 元,付给 23 个人,对吧? 萨姆:对,对,对!你是对的,平均工资是每周 300 元。可你还是蒙骗了我。 吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你
工资的中位数是200元,可这不是平均工资,而是中等工资 萨姆:每周100元又是怎么回事呢? 吉斯莫:那称为众数,是大多数人挣的工资 吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我………我辞职! 第一节算术平均数(MEAN 用总体标志总量除以总体单位数即得算术平均数( Arithematic mean)。 算术平均数是反映集中趋势最常用、最基本的平均指标,也被称为均值。它 只适用于定距以上的变量。 例:某小区350户家庭共有居民1190人。在这个例子中,家庭总数350户 是总体单位数,居民总数1190人是该总体的标志总量。根据算术平均数的定义 户均人口 (人) 350 1.对于未分组资料 注意:对求和符号,此时流动脚标的变动范围是1,2,3,…,N N是总体单位数 [例]求74、85、69、9、87、74、69这些数字的算术平均数。 解 74+85+69+91+87+74+69 78.4 2.对于分组资料 x-2A=>P
工资的中位数是 200 元,可这不是平均工资,而是中等工资。 萨姆:每周 100 元又是怎么回事呢? 吉斯莫:那称为众数,是大多数人挣的工资。 吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我……我辞职! 第一节 算术平均数(MEAN) 用总体标志总量除以总体单位数即得算术平均数(Arithematic mean)。 算术平均数是反映集中趋势最常用、最基本的平均指标,也被称为均值。它 只适用于定距以上的变量。 例:某小区 350 户家庭共有居民 1190 人。在这个例子中,家庭总数 350 户 是总体单位数,居民总数 1190 人是该总体的标志总量。根据算术平均数的定义 户均人口= = 3.4(人) 1. 对于未分组资料 注意:对求和符号,此时流动脚标的变动范围是 1, 2, 3, … ,N , N 是总体单位数。 [例] 求 74、85、69、9l、87、74、69 这些数字的算术平均数。 [解] = =78.4 2. 对于分组资料 350 1190 N X X = N X X = 7 74 +85 + 69 + 91+87 + 74 + 69 = = PX f fX X
注意:对求和符号,此时流动脚标的变动范围是1,2,3…,n,n是组 数,而不是总体单位数 很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频 数)的影响。由于对于总体的影响要由频数(f)大小所决定,所以f也被称为权 数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中 作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对 数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加 权式。 3.算术平均数的性质 (1)各变量值与算术平均数的离差之和等于0。 (2)各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和。 (3)算术平均数受抽样变动影响较小 (4)受极端值影响较大。 (5)分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计 算 第二节中位数( Median) 把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量 值,即为中位数,用Md表示。Md可用于定序、定距、定比资料。 1.对未分组资料 (1)先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+l2 位上的变量值为中位数 (2)如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第N2 位和第(N+1)2位上的两个变量值的平均作为中位数 例:求54,65,78,66,43这些数字的中位数。 例:求54,65,78,66,43,38这些数字的中位数。 2.对于分组资料 (1)单项数列
注意:对求和符号,此时流动脚标的变动范围是 1,2,3 … ,n, n 是组 数,而不是总体单位数。 很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频 数)的影响。由于对于总体的影响要由频数( f )大小所决定,所以 f 也被称为权 数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中 作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对 数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加 权式。 3. 算术平均数的性质 (1)各变量值与算术平均数的离差之和等于 0。 (2)各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和。 (3)算术平均数受抽样变动影响较小。 (4)受极端值影响较大。 (5)分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计 算。 第二节 中位数(Median) 把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量 值,即为中位数,用 Md 表示。 Md 可用于定序、定距、定比资料。 1. 对未分组资料 (1)先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数; (2)如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第 N/2 位和第(N+1)/2 位上的两个变量值的平均作为中位数。 例:求 54,65,78,66,43 这些数字的中位数。 例:求 54,65,78,66,43,38 这些数字的中位数。 2. 对于分组资料 (1)单项数列
根据N2在累计频数分布中找到中位数所在组,该组变量值就是Md。 (2)组距数列 当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N/2在累 计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用 以下任何一种方法求出中位数(注意:此处用的是向上累计) 按中位数所在组的下限: M,=L+ N/2-Fm-In 按中位数所在组的上限: F-N/2 M=U-m h 3.中位数的性质 (1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值 总和 (2)中位数不受极端值的影响。 (3)分组资料有不确定组距时,仍可求得中位数。 (4)中位数受抽样变动的影响较算术平均数略大。 4.四分位数 中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位 数,我们还可求出四分位数、十分位数、百分位数。 将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四 分位数。若以Q1、Q2、Q3分别代表第一、第二、第三四分位数。Q2即中 位数,Q1、Q3的算法分别是: O,=.+N/4-F1 1
根据 N/2 在累计频数分布中找到中位数所在组,该组变量值就是 Md 。 (2)组距数列 当根据组距数列求中位数时,要采用所谓的比例插值法:先根据 N/2 在累 计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用 以下任何一种方法求出中位数(注意:此处用的是向上累计)。 按中位数所在组的下限: 按中位数所在组的上限: 3. 中位数的性质 (1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值 总和。 (2)中位数不受极端值的影响。 (3)分组资料有不确定组距时,仍可求得中位数。 (4)中位数受抽样变动的影响较算术平均数略大。 4. 四分位数 中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位 数,我们还可求出四分位数、十分位数、百分位数。 将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四 分位数。若以 Q1、Q2、Q3 分别代表第一、第二、第三四分位数。Q2 即中 位数,Q1、Q3 的算法分别是: h f N F M L m m d − = + −1 / 2 h f F N M U m m d − = − / 2 1 1 1 1 1 / 4 h f N F Q l − = +
3N/4-F2 第三节 众数(Mode) 众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值 用Mo表示 众数只与次数有关,可以用于定类、定序、定距、定比资料 1.对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量 值相比较)胐现的次数(或频数)呈现“峰”值,这些变量值就是众数 2.对于分组资料 单项式:观察频数分布(或频率分布) 组距式 Lo为众数组下限 △1为众数组频数与前一组频数之差; △2为众数组频数与后一组频数之差 o为众数组组距。 3.众数的性质 (1)众数仅受上下相邻两组频数大小的影响,不受极端值影响,对 开口组仍可计算众数; (2)受抽样变动影响大; (3)众数不唯一确定 (4)众数标示为其峰值所对应的变量值,能很容易区分出单峰、多 峰。因而具有明显偏态集中趋势的频数分布,用众数最合适
第三节 众数(Mode) 众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值, 用 Mo 表示。 众数只与次数有关,可以用于定类、定序、定距、定比资料。 1. 对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量 值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。 2. 对于分组资料 单项式:观察频数分布 (或频率分布 ) 组距式: Lo 为众数组下限; Δ1为众数组频数与前一组频数之差; Δ2为众数组频数与后一组频数之差; ho 为众数组组距。 3. 众数的性质 (1)众数仅受上下相邻两组频数大小的影响,不受极端值影响,对 开口组仍可计算众数; (2)受抽样变动影响大; (3)众数不唯一确定。 (4)众数标示为其峰值所对应的变量值,能很容易区分出单峰、多 峰。因而具有明显偏态集中趋势的频数分布,用众数最合适。 3 3 3 3 3 3 / 4 h f N F Q l − = + Mo Lo ho + = + 1 2 1
第四节几何平均数、调和平均数(了解 1.几何平均数 Mg(geometric mean) N个变量值连乘积的N次方根。(不能有变量值为0)。适用于:(1)计 算某种比率的平均数:(2)计算大致具有几何级数关系的一组数字的平均数, 如经济指标的平均发展速度 (1)简单几何平均数 VIIX 对数式 (2)加权几何平均数 √TIx 对数式 Ig M ∑f1g anti(lg M 应该指出,用以计算几何平均数的各项数值必须大于0,否则就不能计 算几何平均数或计算结果无实际意义
第四节 几何平均数、调和平均数(了解) 1. 几何平均数 Mg (geometric mean ) N 个变量值连乘积的 N 次方根。(不能有变量值为 0)。适用于:(1) 计 算某种比率的平均数;(2) 计算大致具有几何级数关系的一组数字的平均数, 如经济指标的平均发展速度。 (1)简单几何平均数 对数式: (2) 加权几何平均数 对数式: 应该指出,用以计算几何平均数的各项数值必须大于 0,否则就不能计 算几何平均数或计算结果无实际意义。 N M g = X = X N M g lg 1 lg = f f M g X = f X N M g lg 1 lg lg ) M g = anti( M g
2.调和平均数Mh( harmonic mean) N个变量值倒数算术平均数的倒数,也称倒数平均数。适用于:掌 握的情况是总体标志总量而缺少总体单位数的资料时。 M 简单调和平均数 加权调和平均数=、入 3.各种平均数的关系 (1)当总体呈正态分布时: X=M=M (2)当总体呈偏态分布时:中位数总在均数和众数之间 正偏x一M,>O负偏x一M。<O (注:MD和Mo合称位置平均数) (3)皮尔逊发现,在钟形分布的偏态不大显著时,X、MD 、Mo 三者大致构成一个比较固定的关系 X=3Ma-M。 4x她和M合称数值平均数.X≥M≥M
2. 调和平均数 Mh ( harmonic mean) N 个变量值倒数算术平均数的倒数,也称倒数平均数。适用于:掌 握的情况是总体标志总量而缺少总体单位数的资料时。 简单调和平均数: 加权调和平均数 3. 各种平均数的关系 (1) 当总体呈正态分布时: (2)当总体呈偏态分布时:中位数总在均数和众数之间 正偏: 负偏: (注:MD 和 M0 合称位置平均数) (3) 皮尔逊发现,在钟形分布的偏态不大显著时,X 、MD 、M0 三者大致构成一个比较固定的关系: (4) X 、Mg 和 Mh 合称数值平均数。 = X N Mh 1 = X f M N h X = Md = Mo X − Mo 0 X − Mo 0 X M g Mh 2X = 3Md − Mo