案例二:精心挑选的平均数 千万问清哪一个平均数 我相信你不是一个势利小人,而我也并不做房地产生意。但请让我们作这样 的假定,并且假设,此刻你正在一条我熟知的街上看房子。对你的情况进行了初 步判断后,我巧舌如簧、费尽心思地让你相信附近居民的平均年收入大约有 10000英镑。也许这坚定了你要在此居住的信心,不管怎样,买卖最终成交了 那美妙的数字也被牢记在你的脑海。而且,既然你已经买下了房子一你有那么 点势利,当与朋友聊天时,你就会不经意地流露出你居住的地点:我住在一个相 当棒的高收入小区。 年左右过后,我们又见面了。作为某纳税者委员会的成员,我正在四处奔 走,为降低税率、降低财产估价,或降低公共交通费用而呼吁。我的理由很简单 我们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有2000英镑。 也许你会加入到我们委员会的工作中来一你不仅势利,而且还挺吝啬。但是,当 听到那可怜的2000英镑时,你也禁不住大吃一惊。到底是我现在撒谎了呢?还 是一年前撒了谎? 其实这两次你都无法怪罪于我,利用统计撒谎的妙处被展现得淋漓尽致。无 论是10000英镑,还是2000英镑,它们都是正规的平均数,计算方法也完全正 确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是 相同的,但显然其中有一个数据令人误解,足以与弥天大谎相媲美 我的花招就是两次分别使用了不同的平均数,"平均数“这个词宽泛的涵义帮 了大忙。当一个家伙希望用数据影响公众观点,或者向其他人推销广告版面,平 均数便是一个经常被使用的伎俩,虽然偶尔是出于无心,但更多的时候是明知故 犯。所以,当你被告知某个数是平均数时,除非能说出它的具体种类一均值,中 位数,还是众数,否则你对它的具体涵义仍知之甚少。 在希望数值较大时,我使用的10000英镑是均值,也就是附近居民收入的算 术平均数。你只要将所有家庭的收入加起来并除以家庭总户数便可得到这种算术 平均数。数值相对较小的是中位数,它告诉我们一半家庭的年收入超过2000英
1 案例二:精心挑选的平均数 一、千万问清哪一个平均数 我相信你不是一个势利小人,而我也并不做房地产生意。但请让我们作这样 的假定,并且假设,此刻你正在一条我熟知的街上看房子。对你的情况进行了初 步判断后,我巧舌如簧、费尽心思地让你相信附近居民的平均年收入大约有 10000 英镑。也许这坚定了你要在此居住的信心,不管怎样,买卖最终成交了, 那美妙的数字也被牢记在你的脑海。而且,既然你已经买下了房子--你有那么一 点势利,当与朋友聊天时,你就会不经意地流露出你居住的地点:我住在一个相 当棒的高收入小区。 一年左右过后,我们又见面了。作为某纳税者委员会的成员,我正在四处奔 走,为降低税率、降低财产估价,或降低公共交通费用而呼吁。我的理由很简单, 我们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有 2000 英镑。 也许你会加入到我们委员会的工作中来--你不仅势利,而且还挺吝啬。但是,当 听到那可怜的 2000 英镑时,你也禁不住大吃一惊。到底是我现在撒谎了呢?还 是一年前撒了谎? 其实这两次你都无法怪罪于我,利用统计撒谎的妙处被展现得淋漓尽致。无 论是 10000 英镑,还是 2000 英镑,它们都是正规的平均数,计算方法也完全正 确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是 相同的,但显然其中有一个数据令人误解,足以与弥天大谎相媲美。 我的花招就是两次分别使用了不同的平均数,"平均数"这个词宽泛的涵义帮 了大忙。当一个家伙希望用数据影响公众观点,或者向其他人推销广告版面,平 均数便是一个经常被使用的伎俩,虽然偶尔是出于无心,但更多的时候是明知故 犯。所以,当你被告知某个数是平均数时,除非能说出它的具体种类--均值,中 位数,还是众数,否则你对它的具体涵义仍知之甚少。 在希望数值较大时,我使用的 10000 英镑是均值,也就是附近居民收入的算 术平均数。你只要将所有家庭的收入加起来并除以家庭总户数便可得到这种算术 平均数。数值相对较小的是中位数,它告诉我们一半家庭的年收入超过 2000 英
镑,另一半家庭的年收入不及2000英镑。我还可以利用众数一所有家庭收入序 列中出现次数最多的那个收入。例如,附近的居民中年收入为3000英镑的家庭 数是最多的,那么收入的众数就是一年3000英镑 在这个例子中,不合适的"平均数"实际上是毫无意义的,只要碰到关于收入 的数据,这种情况就经常出现。还有一个因素会让我们困惑不已一某种条件下, 各种类型平均数的数值十分接近,如果出于一般的目的,根本没有必要区分它们 比方说,当你看到某个原始部落男性的平均身高为5英尺时,你对这些人的 外形条件就能有很好的了解,根本不需要进一步询问这个平均数是均值、中位数 或者众数,因为此时各种平均数的数值大致相等。(当然,如果你正在为非洲人 赶制一批制服,那么就需要比平均数更多的信息,你要用到全距和标准差,这些 我们将在下一章进行介绍。) 在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有 我们常说的正态分布的形态特点,在你用曲线绘制正态分布时,将看到一根钟形 的曲线,均值、中位数和众数都落在相同的点上。 在描述人类身高时,用哪种平均数无关紧要,但在描述他们的钱袋时,却并 不是那么回事儿了。如果把某个城市所有家庭的年收入都列出来,你会发现,这 些数从很小的值变动到很大的数,也许有20000英镑左右,甚至还能看到少数巨 额收入。年收入低于5000英镑所占的比例超过了95%,在收入曲线上朝左边拖 出了一条长长的尾巴。这种分布不再像钟形一样对称,而是有偏的,它的形状类 似于孩子玩的滑梯,梯子一侧是陡斜地升到顶部,而滑道一侧则缓慢向下倾斜。 均值与中位数相差甚远,这样一来,比较去年的″平均数"(均值)与今年的"平 均数”(中位数),这种比较的有效性就不言而喻了 平均数的代表性 在我卖给你房子所在的居民区里,两个平均数的差距如此之大,因为收入是 显著偏斜的。你的邻居中大多数都是小农、在附近村庄上班的工薪阶层或是靠养 老金为生的退休老人,但有3户邻居是百万富翁,他们仅仅是来此度周末。就是 这3户邻居的收入提高了总收入,相应地抬高了算术平均数。这样一来,均值达 到了绝大多数家庭遥不可及的水平,几乎每个人都低于平均数。虽然这听起来像 是笑话或者文学修辞,但的确是不争的事实
2 镑,另一半家庭的年收入不及 2000 英镑。我还可以利用众数--所有家庭收入序 列中出现次数最多的那个收入。例如,附近的居民中年收入为 3000 英镑的家庭 数是最多的,那么收入的众数就是一年 3000 英镑。 在这个例子中,不合适的"平均数"实际上是毫无意义的,只要碰到关于收入 的数据,这种情况就经常出现。还有一个因素会让我们困惑不已--某种条件下, 各种类型平均数的数值十分接近,如果出于一般的目的,根本没有必要区分它们。 比方说,当你看到某个原始部落男性的平均身高为 5 英尺时,你对这些人的 外形条件就能有很好的了解,根本不需要进一步询问这个平均数是均值、中位数 或者众数,因为此时各种平均数的数值大致相等。(当然,如果你正在为非洲人 赶制一批制服,那么就需要比平均数更多的信息,你要用到全距和标准差,这些 我们将在下一章进行介绍。) 在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有 我们常说的正态分布的形态特点,在你用曲线绘制正态分布时,将看到一根钟形 的曲线,均值、中位数和众数都落在相同的点上。 在描述人类身高时,用哪种平均数无关紧要,但在描述他们的钱袋时,却并 不是那么回事儿了。如果把某个城市所有家庭的年收入都列出来,你会发现,这 些数从很小的值变动到很大的数,也许有 20000 英镑左右,甚至还能看到少数巨 额收入。年收入低于 5000 英镑所占的比例超过了 95%,在收入曲线上朝左边拖 出了一条长长的尾巴。这种分布不再像钟形一样对称,而是有偏的,它的形状类 似于孩子玩的滑梯,梯子一侧是陡斜地升到顶部,而滑道一侧则缓慢向下倾斜。 均值与中位数相差甚远,这样一来,比较去年的"平均数"(均值)与今年的"平 均数"(中位数),这种比较的有效性就不言而喻了。 二、平均数的代表性 在我卖给你房子所在的居民区里,两个平均数的差距如此之大,因为收入是 显著偏斜的。你的邻居中大多数都是小农、在附近村庄上班的工薪阶层或是靠养 老金为生的退休老人,但有 3 户邻居是百万富翁,他们仅仅是来此度周末。就是 这 3 户邻居的收入提高了总收入,相应地抬高了算术平均数。这样一来,均值达 到了绝大多数家庭遥不可及的水平,几乎每个人都低于平均数。虽然这听起来像 是笑话或者文学修辞,但的确是不争的事实
当你听到公司执行总裁或企业所有者宣称,在他的企业中员工的平均收入是 多少时,你应该好好思考一下其中的原因。如果这个数是中位数,你可以获得 些显而易见的信息:一半员工赚得比它多,一半比它少。但如果是均值(请相信 我,没有确切指出它的种类时,多半是均值),它仅仅是所有者25000英镑的高 收入与全体工人低水平收入的平均数,根本没有什么意义。平均年收入为3800 英镑″既隐瞒了1400英镑的低收入,又隐瞒了所有者以巨额薪金形式抽取的髙额 利润 这类似于双人拉锯一-现实情况越糟,看上去却越好。在一些公司的声明中也 会采用这种方法。让我们试着举个简单的例子来说明。假设你是某个小型制造企 业的3个合伙人之一。这是丰收的一年,到了年底,你给企业的90个职工共发 了99000英镑,他们的工作是生产、运输椅子,或者你所经营的任何东西。你和 其他合伙人每人各获得5500英镑的工资;最后还余下21000英镑,作为利润可 供你们3个合伙人平分。你将如何说明这种情况呢?为了便于理解,你打算采用 平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,对于他们来 说用均值还是中位数没有区别。说明如下: 职工的平均工资…1100英镑 所有者的平均工资及利润……12500英镑 看上去太不公平了,不是吗?让我们来试试另一种形式:从利润中拿出15000 英镑以奖金的形式平分给3位合伙人。这一次将包括了所有者和职工的工资进行 平均,不要忘记还是采用均值,结果变成: 所有人员的平均工资或薪金……1403英镑 所有者平均利润…2000英镑 哈,看上去好多了吧。虽然还能进一步改善,但这已经有了长足的进步,总 额中只有低于6%的部分形成了利润。如果乐意,你还可以继续如法炮制。但不 管怎样,现在的结果已经足以作为公布的内容张贴在公告栏中,或者作为与职工 谈判的依据。 因为简化,这个例子是十分粗糙的。但和以会计的名义所做的手脚相比,它 简直就是小儿科。从薪水微薄的打字员到领取80万美元奖金的总裁,在这样一 个等级森严的复杂公司中,所有事情都可用类似的方法进行掩盖
3 当你听到公司执行总裁或企业所有者宣称,在他的企业中员工的平均收入是 多少时,你应该好好思考一下其中的原因。如果这个数是中位数,你可以获得一 些显而易见的信息:一半员工赚得比它多,一半比它少。但如果是均值(请相信 我,没有确切指出它的种类时,多半是均值),它仅仅是所有者 25000 英镑的高 收入与全体工人低水平收入的平均数,根本没有什么意义。"平均年收入为 3800 英镑"既隐瞒了 1400 英镑的低收入,又隐瞒了所有者以巨额薪金形式抽取的高额 利润。 这类似于双人拉锯--现实情况越糟,看上去却越好。在一些公司的声明中也 会采用这种方法。让我们试着举个简单的例子来说明。假设你是某个小型制造企 业的 3 个合伙人之一。这是丰收的一年,到了年底,你给企业的 90 个职工共发 了 99000 英镑,他们的工作是生产、运输椅子,或者你所经营的任何东西。你和 其他合伙人每人各获得 5500 英镑的工资;最后还余下 21000 英镑,作为利润可 供你们 3 个合伙人平分。你将如何说明这种情况呢?为了便于理解,你打算采用 平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,对于他们来 说用均值还是中位数没有区别。说明如下: 职工的平均工资…… 1100 英镑 所有者的平均工资及利润…… 12500 英镑 看上去太不公平了,不是吗?让我们来试试另一种形式:从利润中拿出15000 英镑以奖金的形式平分给 3 位合伙人。这一次将包括了所有者和职工的工资进行 平均,不要忘记还是采用均值,结果变成: 所有人员的平均工资或薪金…… 1403 英镑 所有者平均利润…… 2000 英镑 哈,看上去好多了吧。虽然还能进一步改善,但这已经有了长足的进步,总 额中只有低于 6%的部分形成了利润。如果乐意,你还可以继续如法炮制。但不 管怎样,现在的结果已经足以作为公布的内容张贴在公告栏中,或者作为与职工 谈判的依据。 因为简化,这个例子是十分粗糙的。但和以会计的名义所做的手脚相比,它 简直就是小儿科。从薪水微薄的打字员到领取 80 万美元奖金的总裁,在这样一 个等级森严的复杂公司中,所有事情都可用类似的方法进行掩盖
因此,当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人? 美国钢铁公司( the United States Steel Corporation)曾经指出:10年间, 该公司职工的平均周收入攀升了107%。确实如此,但是当你注意到早期的数据 包括了兼职员工时,奇妙的增长率会大打折扣。也就是说,如果你某年只工作了 半年,而第二年全年都在工作,你的收入毫无疑问会翻番,但这并不意味着工资 率发生了变动。 你也许曾在报纸上看到过,某年美国的家庭平均收入是6940美元。别太在 意这个数字,除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚 至这是谁说的,他是如何获得该信息的以及这个数的准确性你都要知道。) 上述数据来自于普查局( the bureau of the census)。如果手头有普查局 的整篇报告,你将不费吹灰之力地弄清楚所需要的其他信息。首先,这是个中位 数:其次,"家庭是指两个或更多具有亲属关系的人住在一起所形成的”家庭"。 如果再回过头读一下表中的数据,你还将发现这个数据建立在抽样基础之上,该 调查以19/20的概率保证真实的数值会落在估计值加减71美元的范围之内 类似的概率和误差范围构成了一个很好的估计。普查工作者掌握了足够的统 计知识和足够的财力,如果没有特殊的企图,他们能够将抽样研究结果控制在较 好的精度范围之内。但并不是所有的数据都出自这种严谨的环境,也不是所有的 数据会附上关于数据精确度的任何说明。在下一章,我们还将展开详细的分析。 同样,对《时代》杂志“编者的话”栏目中的某些项目,你会表示怀疑。该 杂志这样描述他们的新订户:“他们年龄的中位数是34岁,家庭平均年收入为 7270美元。”早期关于“旧时代”读者的调查发现,“年龄的中位数是41岁 平均年收入为9535美元…”一目了然的是,为什么两次谈到年龄时都指出采 用了中位数,而关于收入却不明确平均数的类型。也许收入使用的是数值较大的 均值,以达到利用高收入读者群吸引广告商的目的。 对开头所提到的1924级耶鲁学生的平均收入,你同样可以提这样一个问题 这里用的是哪种平均数
4 因此,当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人? 美国钢铁公司(the United States Steel Corporation)曾经指出:10 年间, 该公司职工的平均周收入攀升了 107%。确实如此,但是当你注意到早期的数据 包括了兼职员工时,奇妙的增长率会大打折扣。也就是说,如果你某年只工作了 半年,而第二年全年都在工作,你的收入毫无疑问会翻番,但这并不意味着工资 率发生了变动。 你也许曾在报纸上看到过,某年美国的家庭平均收入是 6940 美元。别太在 意这个数字,除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚 至这是谁说的,他是如何获得该信息的以及这个数的准确性你都要知道。) 上述数据来自于普查局(the Bureau of the Census)。如果手头有普查局 的整篇报告,你将不费吹灰之力地弄清楚所需要的其他信息。首先,这是个中位 数;其次,"家庭"是指两个或更多具有亲属关系的人住在一起所形成的"家庭"。 如果再回过头读一下表中的数据,你还将发现这个数据建立在抽样基础之上,该 调查以 19/20 的概率保证真实的数值会落在估计值加减 71 美元的范围之内。 类似的概率和误差范围构成了一个很好的估计。普查工作者掌握了足够的统 计知识和足够的财力,如果没有特殊的企图,他们能够将抽样研究结果控制在较 好的精度范围之内。但并不是所有的数据都出自这种严谨的环境,也不是所有的 数据会附上关于数据精确度的任何说明。在下一章,我们还将展开详细的分析。 同样,对《时代》杂志“编者的话”栏目中的某些项目,你会表示怀疑。该 杂志这样描述他们的新订户:“他们年龄的中位数是 34 岁,家庭平均年收入为 7270 美元。”早期关于“旧时代”读者的调查发现,“年龄的中位数是 41 岁…… 平均年收入为 9535 美元……”一目了然的是,为什么两次谈到年龄时都指出采 用了中位数,而关于收入却不明确平均数的类型。也许收入使用的是数值较大的 均值,以达到利用高收入读者群吸引广告商的目的。 对开头所提到的 1924 级耶鲁学生的平均收入,你同样可以提这样一个问题: 这里用的是哪种平均数?