第五章离中趋势测量法 主要内容:(1)变异指标;(2)全距和四分位差;(3)平均差、标准差 和标准分;(4)绝对离势和相对离势;(5)偏度(及峰度) 所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均 数的代表性高;离势大,平均数代表性低。 例如有A、B、C、D四组学生各5人的成绩如下 A组:60 B组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80 数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。 变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相 对应,从另一个侧面反映了总体的特征。 变异指标如按数量关系来分有以下两类 凡用绝对数来表达的变异指标,统称绝对离势 主要有极差、平均差、四分位差、标准差等。 凡用相对数来表达的变异指标,统称相对离势; 主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。 第一节 全距与四分位差 全距〔 Range 全距(R):最大值和最小值之差。也叫极差。全距越大,表示变动越大 R=Xmax Xmi [例]求74,84,69,91,87,74,69这些数字的全距 [解]把数字按顺序重新排列:69,69,74, 74,84,87,91,显然有 R=Xmax -Xmin=91 -69=22
第五章 离中趋势测量法 主要内容:(1)变异指标; (2)全距和四分位差; (3)平均差、标准差 和标准分; (4)绝对离势和相对离势;(5)偏度(及峰度) 所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均 数的代表性高;离势大,平均数代表性低。 例如有 A、B、C、D 四组学生各 5 人的成绩如下: A 组:60 ,60,60,60,60 B 组:58,59,60,61,62 C 组:40,50,60,70,80 D 组:80,80,80,80,80 数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。 变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相 对应,从另一个侧面反映了总体的特征。 变异指标如按数量关系来分有以下两类: 凡用绝对数来表达的变异指标,统称绝对离势; 主要有极差、平均差、四分位差、标准差等。 凡用相对数来表达的变异指标,统称相对离势; 主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。 第一节 全距与四分位差 1.全距(Range) 全距(R):最大值和最小值之差。也叫 极差。全距越大,表示变动越大。 R =Xmax - Xmin [例] 求 74,84,69,91,87,74,69 这些数字的全距。 [解] 把数字按顺序重新排列:69,69,74, 74,84,87,91,显然有 R =Xmax - Xmin=91 - 69=22
对分组资料,不能确知最大值和最小值,求全距: (1)用组值最大组的组中值减去最小组的组中值 (2)用组值最大组的上限减去最小组的下限 (3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最 小组的组中值 优点:计算简单、直观。 缺点:(1)受极端值影响大 (2)没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重; (3)受抽样变动影响大,大样本全距比小样本全距大。 2.四分位差( Quartile deviation) 第三四分位数和第一四分位数的半距 避免全距受极端值影响大的缺点。 求下列两组成绩的四分位差 99100 9085838481 第二节平均差( Mean absolute deviation) 要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情 况,一个很自然的想法就是计算各变量值与算术平均数的离差。平均差是离差绝 对值的算术平均数。( mean deviation) 1对于未分组资料 2对于分组资料
对分组资料,不能确知最大值和最小值,求全距: (1)用组值最大组的组中值减去最小组的组中值 (2)用组值最大组的上限减去最小组的下限 (3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最 小组的组中值 优点:计算简单、直观。 缺点:(1)受极端值影响大; (2) 没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重; (3)受抽样变动影响大,大样本全距比小样本全距大。 2. 四分位差(Quartile deviation) 第三四分位数和第一四分位数的半距。 避免全距受极端值影响大的缺点。 求下列两组成绩的四分位差: A: 78 80 82 85 89 87 90 86 79 88 84 81 B: 55 68 78 88 99 100 98 90 85 83 84 81 第二节 平均差(Mean absolute deviation) 要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情 况,一个很自然的想法就是计算各变量值与算术平均数的离差。平均差是离差绝 对值的算术平均数。(mean deviation) 1.对于未分组资料 A · D= 2.对于分组资料 A · D= 2 Q D = Q3 −Q1 N X − X − f f X X
3.平均差的性质:在受抽样变动、极端值影响,处理不确定组距方面均同于 算术平均数:不适于代数运算,其理论意义不易阐述。 第三节标准差( standard deviation 各变量值对其算术平均数的离差平方的算术平均数的平方根,均方差,又称 用S表示。 即克服平均差带有绝对值的缺点,又保留其综合平均的优点。 1.对于未分组资科 [例1]试分别以算术平均数为基准,求85,69,69,74,87,91,74这 些数字的平均差 求72、81、86、69、57这些数字的标准差。 ∑X365 =73.0 506 10.06 27151 365 1O.O6 对于分组资料 S=2/X-x)∑m2-m 标准差的性质
3.平均差的性质:在受抽样变动、极端值影响,处理不确定组距方面均同于 算术平均数;不适于代数运算,其理论意义不易阐述。 第三节 标准差(standard deviation) 各变量值对其算术平均数的离差平方的算术平均数的平方根,均方差,又称 用 S 表示。 即克服平均差带有绝对值的缺点,又保留其综合平均的优点。 1. 对于未分组资科 [例 1] 试分别以算术平均数为基准,求 85,69,69,74,87,91,74 这 些数字的平均差。 求 72、81、86、69、57 这些数字的标准差。 2. 对于分组资料 3. 标准差的性质 N X X S − = 2 ( ) 2 2 ( ) N X N = X − 73.0 5 365 = = = N X X 10.06 5 ( ) 506 2 = = − = N X X S 10.06 5 365 5 27151 ( ) 2 2 2 = = − = − N X N X S N f X X S − = 2 ( ) 2 2 ( ) N fX N = fX −
标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度, (1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的 标准差要小。“最小二乘方”性质一一各变量值对算术平均数的离差的平方 和,必定小于他们对任何其他数偏差的平方和 (2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小 但在受极端值影响以及处理不确定组距方面,缺点同算术平均数。 值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价 值的概念。所谓方差,即标准差的平方,它直接写成S。2,S2也常被称为变 异数。 4.标准分( standard score) 以离差和标准差的比值来测定变量国与区的相对位置。使原来不能 直接比较的离差标准化,可以相互比较,加、减、平均 (1)Z是和X一一对应的变量值 (2)Z分数没有单位,是一个不受原资料单位影响的相对数,所以可以用 于不同单位资料的比较 (3)Z分数实际表达了变量值距总体均值有几个标准差。 Z分数也有标准正态变量之称。按Z值大小编制出的正态分布表,其用途十 分广泛 Z分数的性质: (1)Z分数之和等于0 (2)Z分数的算术平均数等于0 (3)Z分数的标准差等于1,方差也等于1 第四节相对离势 上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝 对离势。但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不 相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。所以,我
标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度。 (1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的 标准差要小。“最小二乘方”性质——各变量值对算术平均数的离差的平方 和,必定小于他们对任何其他数偏差的平方和。 (2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。 但在受极端值影响以及处理不确定组距方面,缺点同算术平均数。 值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价 值的概念。所谓方差,即标准差的平方,它直接写成 S。2, ,S 2 也常被称为变 异数。 4. 标准分(standard score) 以离差和标准差的比值来测定变量 与 的相对位置。使原来不能 直接比较的离差标准化,可以相互比较,加、减、平均。 (1)Z 是和 X 一一对应的变量值; (2)Z 分数没有单位,是一个不受原资料单位影响的相对数,所以可以用 于不同单位资料的比较; (3)Z 分数实际表达了变量值距总体均值有几个标准差。 Z 分数也有标准正态变量之称。按 Z 值大小编制出的正态分布表,其用途十 分广泛。 Z 分数的性质: (1)Z 分数之和等于 0 (2)Z 分数的算术平均数等于 0 (3)Z 分数的标准差等于 1,方差也等于 1 第四节 相对离势 上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝 对离势。但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不 相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。所以,我 X X S X X Z − =
们还得了解和学习相对离势。 1.变异系数 绝对离势统计量与其算术平均数的比率,用V表示。变异系数是最具有代表 性的相对离势。 全距系数是众数据的全距与其算术平均数之比,其计算公式是 R 平均差系数是众数据的平均差与其算术平均数之比,其计算公式是 A-D 标准差系数是众数据的标准差与其算术平均数之比,其计算公式是 2异众比率 所谓异众比率,是指非众数的频数与总体单位数的比值,用V·R 来表示 N ·R N 其中 为众数的频数;N是总体单位数 异众比率能表明众数所不能代表的那一部分变量值在总体中的比重 例1:某项调查发现,现今三口之家的家庭最多(32%),求异众比率 某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居住的 样式和面积,你认为如何呢 例2:设为测体重,得到成人组和婴儿组各100人的两个抽样总体。成 人组平均体重为65千克,全距为10千克:婴儿组平均体重为4千克,全距 为2.5千克。能否认为成人组体重的离势比婴儿组体重的离势大? 例3:对一个群体测量身高和体重,平均身高为170.2厘米,身高标准 差为5.30厘米;平均体重为70千克,体重标准差为4.77千克。比较身高
们还得了解和学习相对离势。 1. 变异系数 绝对离势统计量与其算术平均数的比率,用 V 表示。变异系数是最具有代表 性的相对离势。 全距系数是众数据的全距与其算术平均数之比,其计算公式是: 平均差系数是众数据的平均差与其算术平均数之比,其计算公式是: 标准差系数是众数据的标准差与其算术平均数之比,其计算公式是: 2.异众比率 所谓异众比率,是指非众数的频数与总体单位数的比值,用 V· R 来表示 其中: 为众数的频数; N 是总体单位数 异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。 例 1:某项调查发现,现今三口之家的家庭最多(32%),求异众比率。 某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居住的 样式和面积,你认为如何呢? 例 2:设为测体重,得到成人组和婴儿组各 100 人的两个抽样总体。成 人组平均体重为 65 千克,全距为 10 千克;婴儿组平均体重为 4 千克,全距 为 2.5 千克。能否认为成人组体重的离势比婴儿组体重的离势大? 例 3:对一个群体测量身高和体重,平均身高为 170.2 厘米,身高标准 差为 5.30 厘米;平均体重为 70 千克,体重标准差为 4.77 千克。比较身高 X R VR = X A D VA D = X S VS = N N f V R Mo − = Mo f
和体重的离散程度 3.偏态系数 我们在前面讨论统计图时已经对频数分布的正态偏态有所认识。我们又看 到了算术平均数与中位数、众数之间存在的关系:当总体呈对称分布时区、M、 M三者完全相等;当总体呈不对称的偏态分布时,它们之间存在着数量(位置) 的差异。因此,偏态可由x与M的差来表示,即 偏态=X-M 为了使不同数列的偏态值可比,同样可计算偏态的相对数,即偏态系数,用 a来表示 X-M 3(X-M) 偏态系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0 与±3之间。偏态系数为0表示对称分布,偏态系数为+3或-3则表示极右或极 左偏态
和体重的离散程度。 3. 偏态系数 我们在前面讨论统计图时已经对频数分布的正态偏态有所认识。我们又看 到了算术平均数与中位数、众数之间存在的关系:当总体呈对称分布时, 、MD、 MO 三者完全相等;当总体呈不对称的偏态分布时,它们之间存在着数量(位置) 的差异。因此,偏态可由 与 MD的差来表示,即 为了使不同数列的偏态值可比,同样可计算偏态的相对数,即偏态系数,用 α来表示 偏态系数是以标准差为单位的算术平均数与众数的离差,其取值一般在 0 与±3 之间。偏态系数为 0 表示对称分布,偏态系数为+3 或-3 则表示极右或极 左偏态。 X 偏态 = X − Mo X S X M S X Mo d 3( − ) = − =