案例五:毫无意义的工作 样本精确性问题 乔赛亚·斯坦普爵士( Sir Josiah Stamp)曾经描述过这样一个场景:伦道 夫爵士( Lord Randolph)正在检查一份税收报告,私人秘书站在他的身后,当 看到与去年同期相比海关税收增加了34%时,伦道夫感到很满意。 秘书马上纠正他,指出增长率只不过才.34%。 “这有什么区别?”伦道夫爵士问道 当听到一个数值是另一个的100倍时,伦道夫说:“我以前经常可以看到位 于数字前的小数点,但是直到现在我才真正知道它们的作用。” 在比较考试成绩时,不单单是小数点,甚至其他一些讨厌的细微差异也会突 然冒出来给大家造成困扰。为了举例说明,只要你不介意,我们将赋予你两个孩 子,顺便给他们起了很时髦的名字。如同许多受教育的孩子一样,彼德( Peter) 和琳达( Linda)接受了智力测试。现在任何形式的智力测试都有点原始伏都教 (伏都教:又译巫毒教,源于非洲西部,是糅合祖先崇拜、万物有灵论、通灵术 的原始宗教。)盲目崇拜的味道,因此你费了不少口舌来打听测试的结果,这个 信息是保密的,一般只有心理学家和教育者才知道,或许这样是对的。但不管怎 样,你还是通过某种方式探听到:琳达的智商(IQ)是101,彼德只有98。当然 你很清楚:智商的平均数是100,即100意味着"正常"。 哈!达是比较聪明的孩子,而且她的智商高于平均水平,彼德则低于平均水 平。对此我们先不进行评论。 任何类似的结论纯粹都是胡说。 为了澄清事实,我们首先必须指出:无论智力测验测试的是什么,它与我们 通常意义上的智商都不会是一码事。它忽略了类似领导才能、创造性想象力等十 分重要的素质;它没有考虑到社交判断力以及音乐、艺术或者其他方面的才能; 它无法测试出诸如勤劳、情感平衡等重要的人格品质。最主要的是,多数情况下 学校进行的智力测试都是简单、低层次的类型,它们极大程度上依赖于阅读能力、 测验者反应快慢等因素,不擅长阅读的人根本没有拿高分的希望
1 案例五:毫无意义的工作 一、样本精确性问题 乔赛亚·斯坦普爵士(Sir Josiah Stamp)曾经描述过这样一个场景:伦道 夫爵士(Lord Randolph)正在检查一份税收报告,私人秘书站在他的身后,当 看到与去年同期相比海关税收增加了 34%时,伦道夫感到很满意。 秘书马上纠正他,指出增长率只不过才.34%。 “这有什么区别?”伦道夫爵士问道。 当听到一个数值是另一个的 100 倍时,伦道夫说:“我以前经常可以看到位 于数字前的小数点,但是直到现在我才真正知道它们的作用。” 在比较考试成绩时,不单单是小数点,甚至其他一些讨厌的细微差异也会突 然冒出来给大家造成困扰。为了举例说明,只要你不介意,我们将赋予你两个孩 子,顺便给他们起了很时髦的名字。如同许多受教育的孩子一样,彼德(Peter) 和琳达(Linda)接受了智力测试。现在任何形式的智力测试都有点原始伏都教 (伏都教:又译巫毒教,源于非洲西部,是糅合祖先崇拜、万物有灵论、通灵术 的原始宗教。)盲目崇拜的味道,因此你费了不少口舌来打听测试的结果,这个 信息是保密的,一般只有心理学家和教育者才知道,或许这样是对的。但不管怎 样,你还是通过某种方式探听到:琳达的智商(IQ)是 101,彼德只有 98。当然 你很清楚:智商的平均数是 100,即 100 意味着"正常"。 哈!达是比较聪明的孩子,而且她的智商高于平均水平,彼德则低于平均水 平。对此我们先不进行评论。 任何类似的结论纯粹都是胡说。 为了澄清事实,我们首先必须指出:无论智力测验测试的是什么,它与我们 通常意义上的智商都不会是一码事。它忽略了类似领导才能、创造性想象力等十 分重要的素质;它没有考虑到社交判断力以及音乐、艺术或者其他方面的才能; 它无法测试出诸如勤劳、情感平衡等重要的人格品质。最主要的是,多数情况下 学校进行的智力测试都是简单、低层次的类型,它们极大程度上依赖于阅读能力、 测验者反应快慢等因素,不擅长阅读的人根本没有拿高分的希望
假设我们已经意识到了上述问题并达成共识:智力测验的智商仅仅是一种测 量工具,它测量了人们处理事先准备好的抽象问题的能力,对这些能力我们很难 给出确切的定义,哪怕彼德和琳达所做的是公认最好的智力测验-修订的斯坦福 比内测验(一种独立进行的并且不需要特别阅读能力的测验) 智力测试只是智力水平的一个抽样。与其他抽样结果一样,代表智力水平的 智商值也具有统计误差,这个误差将用来衡量该数值的准确度或可信度。 智力测验类似于估计某块地玉米质量时所做的工作,你在地里四处走动,随 意地到处摘取一些玉米穗,当剥开并研究了大约100颗玉米穗时,你就能对整块 地的质量大致有数。当已知两块地的质量不同,这些信息已经足够对它们的质量 进行比较了。但如果两块地的质量接近,你就得摘取更多的玉米穗,并始终采用 某种精确的质量标准来给它们划分等级 我们可以定量地衡量你的样本以多大的精度代表总体,那就是:可能误差和 标准误差。 假设你要完成一项丈量任务,即通过步测栅栏来了解几块地的大小。你要做 的第一件事自然是检査丈量体系的准确性,通过多次步量后量出自认为的100 码,你发现平均而言有3码的误差。这意味着,有一半的试验是你离开真实100 码的距离在3码之内,而另一半试验是你与真实100码的距离在3码之上。 这样一来,在测量100码时,你的可能误差是3码,或者说3%。从此之后, 每次被你步量测出的100码应该被记录成100±3码。 (大多数统计工作者更倾向于使用另一个类似的误差度量工具:标准误差 全部实验中将有2/3的试验落在加减1个标准误差的范围内,而不是刚好1/2 的比例,人们还认为标准误差的数学处理更方便。出于分析目的的考虑,在这里 我们还是坚持使用可能误差,并将其运用到斯坦福比内测试中。) 假设智力测验的可能误差为3%,与我们假定的步量任务具有相同的可能误 差。这与智力测验的好坏无关,而只是反映了测验与它所要测试的内容具有怎样 的一致性。这样彼德的智商更全面的表达是98±3,琳达的智商则是101±3 这说明彼德的智商以相等的机会落在95~101中任何一点上,并且大于或者 小于98的可能性完全一样。同样,琳达的智商落在98~104范围内的可能性也 不过50%。从中你会很快发现:有1/4的可能性彼德的智商将超过101,这与琳
2 假设我们已经意识到了上述问题并达成共识:智力测验的智商仅仅是一种测 量工具,它测量了人们处理事先准备好的抽象问题的能力,对这些能力我们很难 给出确切的定义,哪怕彼德和琳达所做的是公认最好的智力测验--修订的斯坦福 -比内测验(一种独立进行的并且不需要特别阅读能力的测验)。 智力测试只是智力水平的一个抽样。与其他抽样结果一样,代表智力水平的 智商值也具有统计误差,这个误差将用来衡量该数值的准确度或可信度。 智力测验类似于估计某块地玉米质量时所做的工作,你在地里四处走动,随 意地到处摘取一些玉米穗,当剥开并研究了大约 100 颗玉米穗时,你就能对整块 地的质量大致有数。当已知两块地的质量不同,这些信息已经足够对它们的质量 进行比较了。但如果两块地的质量接近,你就得摘取更多的玉米穗,并始终采用 某种精确的质量标准来给它们划分等级。 我们可以定量地衡量你的样本以多大的精度代表总体,那就是:可能误差和 标准误差。 假设你要完成一项丈量任务,即通过步测栅栏来了解几块地的大小。你要做 的第一件事自然是检查丈量体系的准确性,通过多次步量后量出自认为的 100 码,你发现平均而言有 3 码的误差。这意味着,有一半的试验是你离开真实 100 码的距离在 3 码之内,而另一半试验是你与真实 100 码的距离在 3 码之上。 这样一来,在测量 100 码时,你的可能误差是 3 码,或者说 3%。从此之后, 每次被你步量测出的 100 码应该被记录成 100±3 码。 (大多数统计工作者更倾向于使用另一个类似的误差度量工具:标准误差。 全部实验中将有 2/3 的试验落在加减 1 个标准误差的范围内,而不是刚好 1/2 的比例,人们还认为标准误差的数学处理更方便。出于分析目的的考虑,在这里 我们还是坚持使用可能误差,并将其运用到斯坦福-比内测试中。) 假设智力测验的可能误差为 3%,与我们假定的步量任务具有相同的可能误 差。这与智力测验的好坏无关,而只是反映了测验与它所要测试的内容具有怎样 的一致性。这样彼德的智商更全面的表达是 98±3,琳达的智商则是 101±3。 这说明彼德的智商以相等的机会落在 95~101 中任何一点上,并且大于或者 小于 98 的可能性完全一样。同样,琳达的智商落在 98~104 范围内的可能性也 不过 50%。从中你会很快发现:有 1/4 的可能性彼德的智商将超过 101,这与琳
达的智商低于98的可能性相同。这样看来,彼德的智商并不低于而是高于琳达 的智商,它们之间还有3分的差距 我们的结论是:对待智力测验以及许多其他类似的抽样结果应注意它的范 围。正常的智商不应该只是100这样一个数值,而应是诸如90~110的一个范围。 将处于这个范围的孩子与低于或高于此范围的孩子进行比较时会得出一些有用 的结论。但比较相差不大的两个数据则毫无意义。你必须在脑中牢记这个加减符 号,即使(特别是当)它没有明确给出 二、抽样误差 在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。那些把 读者调査奉若神明的杂志编辑,是因为他们不了解调査。对于一篇有40%男性读 者喜爱的文章与另一篇只有35%男性读者喜爱的文章,他们会刊载更多类似于前 者的作品。 对于杂志而言,40%与35%读者人数的差异是很重要的,但抽样调查形成的差 别却并不一定是真实的。出于成本的考虑,读者人数调查的实际样本,特别是已 经扣除了那些从来不读该杂志的人后,也许只有几百人。对于一本女性杂志,样 本中的男性读者会很少。当这些人又根据他们的回答:“全部读了”、“读了大 部分”、“读了一部分”以及“没看”这篇文章而被划分成四组后,35%男性读 者的结论也许仅仅建立在几个人基础之上。隐藏在这个看似显著的数据背后的误 差可能会很大,依靠它抉择的编辑并没能抓住一根救命的稻草 为了一个数学上可论证,但是却小得没有意义的差别,人们有时会费尽力气 这种行为藐视了一句古训:只有当差别有意义时才能称之为差别。我们可以看 个相关的案例:老黄金(0 Id gold)香烟公司利用一个毫无价值的结论制造了大 量喧闹并大赚了一笔。 故事起源于《读者文摘》( Readersυ i gest)某编辑的一个偶然想法。该编 辑自己抽烟,而且他并不认为各种品牌的香烟完全相同。他的杂志开始行动起来, 聘请了一些实验室人员对不同品牌香烟的烟雾展开了分析。杂志刊登了最终结 果,列出每种品牌香烟的烟雾中尼古丁以及其他有害物质的含量。在详尽的数据
3 达的智商低于 98 的可能性相同。这样看来,彼德的智商并不低于而是高于琳达 的智商,它们之间还有 3 分的差距。 我们的结论是:对待智力测验以及许多其他类似的抽样结果应注意它的范 围。正常的智商不应该只是 100 这样一个数值,而应是诸如 90~110 的一个范围。 将处于这个范围的孩子与低于或高于此范围的孩子进行比较时会得出一些有用 的结论。但比较相差不大的两个数据则毫无意义。你必须在脑中牢记这个加减符 号,即使(特别是当)它没有明确给出。 二、抽样误差 在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。那些把 读者调查奉若神明的杂志编辑,是因为他们不了解调查。对于一篇有 40%男性读 者喜爱的文章与另一篇只有 35%男性读者喜爱的文章,他们会刊载更多类似于前 者的作品。 对于杂志而言,40%与 35%读者人数的差异是很重要的,但抽样调查形成的差 别却并不一定是真实的。出于成本的考虑,读者人数调查的实际样本,特别是已 经扣除了那些从来不读该杂志的人后,也许只有几百人。对于一本女性杂志,样 本中的男性读者会很少。当这些人又根据他们的回答:“全部读了”、“读了大 部分”、“读了一部分”以及“没看”这篇文章而被划分成四组后,35%男性读 者的结论也许仅仅建立在几个人基础之上。隐藏在这个看似显著的数据背后的误 差可能会很大,依靠它抉择的编辑并没能抓住一根救命的稻草。 为了一个数学上可论证,但是却小得没有意义的差别,人们有时会费尽力气。 这种行为藐视了一句古训:只有当差别有意义时才能称之为差别。我们可以看一 个相关的案例:老黄金(Old Gold)香烟公司利用一个毫无价值的结论制造了大 量喧闹并大赚了一笔。 故事起源于《读者文摘》(Readers Digest)某编辑的一个偶然想法。该编 辑自己抽烟,而且他并不认为各种品牌的香烟完全相同。他的杂志开始行动起来, 聘请了一些实验室人员对不同品牌香烟的烟雾展开了分析。杂志刊登了最终结 果,列出每种品牌香烟的烟雾中尼古丁以及其他有害物质的含量。在详尽的数据
支持下,该杂志声明:所有品牌的香烟是一样的,无论你吸的是什么牌子的香烟 不会有任何差异。 也许你会认为,对于香烟生产厂商和那些为香烟杜撰崭新广告词的家伙而 言,这是一个有力的打击,它还将引爆关于平缓喉痛和对胸部有益的广告索赔案 但某些人却有了其他发现,在一长串具有相同有害物质的品牌名单上,总有一个 排在最后,这就是“老黄金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的 字体刊登在报纸上。广告的标题和副本仅仅提到,由一家国家级杂志主持的实验 证明“老黄金”牌香烟在不良物质,以及尼古丁含量方面“排名最后”,任何关 于各个品牌的差异并不显著的文字甚至是暗示都被省略了 最后,“老黄金”公司被通知“中止并停止”使用这个具有误导性的广告 但这并不要紧,他们早已获得了足够的好处
4 支持下,该杂志声明:所有品牌的香烟是一样的,无论你吸的是什么牌子的香烟, 不会有任何差异。 也许你会认为,对于香烟生产厂商和那些为香烟杜撰崭新广告词的家伙而 言,这是一个有力的打击,它还将引爆关于平缓喉痛和对胸部有益的广告索赔案。 但某些人却有了其他发现,在一长串具有相同有害物质的品牌名单上,总有一个 排在最后,这就是“老黄金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的 字体刊登在报纸上。广告的标题和副本仅仅提到,由一家国家级杂志主持的实验 证明“老黄金”牌香烟在不良物质,以及尼古丁含量方面“排名最后”,任何关 于各个品牌的差异并不显著的文字甚至是暗示都被省略了。 最后,“老黄金”公司被通知“中止并停止”使用这个具有误导性的广告。 但这并不要紧,他们早已获得了足够的好处