案例二十:没有披露的数据 、案例 某位统计专家曾经建议,在被告知某个调查的结果时,你需要做的就是反问 一句:“为了得出这个结论,你调查了多少名被访者?” 正如以前曾指出的那样,采用严重有偏的样本几乎能够产生任何人需要的任 何结果。只要样本容量足够小,或者你尝试足够多的次数,正确的随机样本也可 以达到上述效果。 用户反映使用多克斯( Doakes)牌牙膏将使蛀牙减少23%”,大字标题历 历在目。你希望减少23%的痛苦,于是接着往下读。你发现这些结论出自一家信 誉良好的"独立″实验室,并且还经过了注册会计师的证实。有了这些,你还想知 道什么呢? 然而,如果你不是特别容易轻信他人,或者不是一个盲目乐观的人,经验将 告诉你:一种牙膏很难比其他牙膏好。那么多克斯公司是怎样制造了上述结论? 如果是说谎,但用大字标题报道这些谎言,他们又如何能够逃避责任呢?事实是, 他们根本无需说谎,下面便是简单而有效的方法。 这里的主要把戏是不充分的样本一统计角度的不充分。但对于多克斯公司来 说已经足够了。只有当你读小字体的文字时才会发现:被测试的用户仅由12人 组成。单凭这点,你便不得不佩服多克斯公司,它留给你一个可能知道全部情况 的机会。有的广告商索性将类似的文字都略去,留给读者一即便他是一个老练的 统计专家—一个猜想:这里面到底玩了什么把戏?从这个角度来说,多克斯公司 由12个人组成的样本还不算太坏。几年前,一种叫做可尼斯博士(Dr. Cornish) 的牙粉上市了,并宣传"在治疗龋齿方面获得了极大成功”,因为该牙粉中含有尿 素,而经过实验室的证明,尿素对于治疗龋齿是有益的。然而,由于实验室的工 作只是刚刚起步,仅仅建立在6个案例之上,毫无疑问这个结论是缺乏意义的。 下面,让我们再回头看看,多克斯公司是怎样轻易地获得一个不存在漏洞并 经得起检验的标题。让规模不大的一组人连续记录6个月的蛀牙数,接着使用多 克斯牙膏。之后一定会发生以下的其中一种结果:蛀牙明显增多,蛀牙明显减少, 或者蛀牙数量无显著变化。如果是第一或者第三种结果,多克斯公司编档保存好
1 案例二十:没有披露的数据 一、案例 某位统计专家曾经建议,在被告知某个调查的结果时,你需要做的就是反问 一句:“为了得出这个结论,你调查了多少名被访者?” 正如以前曾指出的那样,采用严重有偏的样本几乎能够产生任何人需要的任 何结果。只要样本容量足够小,或者你尝试足够多的次数,正确的随机样本也可 以达到上述效果。 “用户反映使用多克斯(Doakes)牌牙膏将使蛀牙减少 23%”,大字标题历 历在目。你希望减少 23%的痛苦,于是接着往下读。你发现这些结论出自一家信 誉良好的"独立"实验室,并且还经过了注册会计师的证实。有了这些,你还想知 道什么呢? 然而,如果你不是特别容易轻信他人,或者不是一个盲目乐观的人,经验将 告诉你:一种牙膏很难比其他牙膏好。那么多克斯公司是怎样制造了上述结论? 如果是说谎,但用大字标题报道这些谎言,他们又如何能够逃避责任呢?事实是, 他们根本无需说谎,下面便是简单而有效的方法。 这里的主要把戏是不充分的样本--统计角度的不充分。但对于多克斯公司来 说已经足够了。只有当你读小字体的文字时才会发现:被测试的用户仅由 12 人 组成。单凭这点,你便不得不佩服多克斯公司,它留给你一个可能知道全部情况 的机会。有的广告商索性将类似的文字都略去,留给读者--即便他是一个老练的 统计专家--一个猜想:这里面到底玩了什么把戏?从这个角度来说,多克斯公司 由 12 个人组成的样本还不算太坏。几年前,一种叫做可尼斯博士(Dr. Cornish) 的牙粉上市了,并宣传"在治疗龋齿方面获得了极大成功",因为该牙粉中含有尿 素,而经过实验室的证明,尿素对于治疗龋齿是有益的。然而,由于实验室的工 作只是刚刚起步,仅仅建立在 6 个案例之上,毫无疑问这个结论是缺乏意义的。 下面,让我们再回头看看,多克斯公司是怎样轻易地获得一个不存在漏洞并 经得起检验的标题。让规模不大的一组人连续记录 6 个月的蛀牙数,接着使用多 克斯牙膏。之后一定会发生以下的其中一种结果:蛀牙明显增多,蛀牙明显减少, 或者蛀牙数量无显著变化。如果是第一或者第三种结果,多克斯公司编档保存好
当然最好是藏在别人找不到的地方,然后重新实验。由于机遇的作用,迟早有 组被测试者将证明有很好的效果,并且这个结果足以好到作为标题直至引发一场 广告战。事实上,不管实验者使用的是多克斯牙膏,还是发酵粉,或者还是继续 使用原来的品牌,上述结果都会发生 任何由于机遇产生的差异,在大样本的使用中都是微不足道的,不足以作为 广告标题。例如,蛀牙减少%将不会对销量有多大的提升作用。这更显示了使 用小样本的优势。 给定一个足够小的样本,怎样才能完全依靠机遇形成毫无指导性的结论呢? 这个事儿你自己也可以试试,而且几乎不费劲。让我们开始抛一枚便士,有多少 次是头像朝上的呢?当然是一半的次数,这谁都知道 好,让我们检验一下……我刚刚抛了10次,有8次头像朝上,实践证明头 像朝上的概率为80%。那么,关于牙膏的数据也一样。现在,你自己试一下,也 许你会得到50对50的结果,但更有可能是别的结果。你我的结论以相同的可能 性偏离50对50的比例。不过,如果你有足够的耐心,抛上1000次,你基本上 (虽然不一定)能得到一个接近半数的结果,它才代表了真实的概率。只有在进 行了足够多次的实验后,平均数定律才是一种有用的描述,并可用来预测。 那么,多少才算够呢?这又是个棘手的问题。它取决于其他的因素,即你采 用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样 本的规模与看上去的并不一致 这里有一个典型的案例:几年前,有个小儿麻痹症疫苗实验。一个社区中有 450名儿童接种了疫苗,而680名儿童作为对照组没有接种疫苗。看上去,这是 个极大规模的医学实验。不久,该区域感染了流行病,在接种疫苗的儿童中,所 有人都没有患上小儿麻痹症。对照组的儿童也没有发生。这是怎么了?其实在设 计实验时,实验人员忽略了或者没能真正了解到该病的低发生率。一般情况下, 这种规模的小组预计只会产生2名患者。因此,实验从一开始便注定是毫无意义 的。也许将规模扩大到15至20倍才能产生足以具有说服力的结果 许多伟大的医学发现一即使昙花一现一也都是同样地急急上马,“要快”医 生这些话归功于威廉·奥斯勒( William osler)爵士和爱德华·利文斯顿·特 鲁多( Edward Livingston Trudeau)。你可以随便选择一个,既然他们都是医
2 当然最好是藏在别人找不到的地方,然后重新实验。由于机遇的作用,迟早有一 组被测试者将证明有很好的效果,并且这个结果足以好到作为标题直至引发一场 广告战。事实上,不管实验者使用的是多克斯牙膏,还是发酵粉,或者还是继续 使用原来的品牌,上述结果都会发生。 任何由于机遇产生的差异,在大样本的使用中都是微不足道的,不足以作为 广告标题。例如,蛀牙减少 2%将不会对销量有多大的提升作用。这更显示了使 用小样本的优势。 给定一个足够小的样本,怎样才能完全依靠机遇形成毫无指导性的结论呢? 这个事儿你自己也可以试试,而且几乎不费劲。让我们开始抛一枚便士,有多少 次是头像朝上的呢?当然是一半的次数,这谁都知道。 好,让我们检验一下……我刚刚抛了 10 次,有 8 次头像朝上,实践证明头 像朝上的概率为 80%。那么,关于牙膏的数据也一样。现在,你自己试一下,也 许你会得到 50 对 50 的结果,但更有可能是别的结果。你我的结论以相同的可能 性偏离 50 对 50 的比例。不过,如果你有足够的耐心,抛上 1000 次,你基本上 (虽然不一定)能得到一个接近半数的结果,它才代表了真实的概率。只有在进 行了足够多次的实验后,平均数定律才是一种有用的描述,并可用来预测。 那么,多少才算够呢?这又是个棘手的问题。它取决于其他的因素,即你采 用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样 本的规模与看上去的并不一致。 这里有一个典型的案例:几年前,有个小儿麻痹症疫苗实验。一个社区中有 450 名儿童接种了疫苗,而 680 名儿童作为对照组没有接种疫苗。看上去,这是 个极大规模的医学实验。不久,该区域感染了流行病,在接种疫苗的儿童中,所 有人都没有患上小儿麻痹症。对照组的儿童也没有发生。这是怎么了?其实在设 计实验时,实验人员忽略了或者没能真正了解到该病的低发生率。一般情况下, 这种规模的小组预计只会产生 2 名患者。因此,实验从一开始便注定是毫无意义 的。也许将规模扩大到 15 至 20 倍才能产生足以具有说服力的结果。 许多伟大的医学发现--即使昙花一现--也都是同样地急急上马,“要快”医 生这些话归功于威廉·奥斯勒(William Osler)爵士和爱德华·利文斯顿·特 鲁多(Edward Livingston Trudeau)。你可以随便选择一个,既然他们都是医
生,而且对这个题目都很内行。也许他们都说过这句话,顶多一两个词不同。说, “在还来得及之前,尝试用新的治疗方法。” 我们不能总是只怪罪于医务职业者,有时公众压力和草率的舆论宣传,也会 促使没有经过证实的治疗方法匆匆上马,特别是当需求很大而统计背景又很模糊 时。这也是以前流行的感冒疫苗几年后卷土重来,从而导致近年来抗组织胺药越 来越多的原因。由于疾病的不确定性和缺乏逻辑的严密性,造成了许多不成功“治 疗方法”的流行。其实,只要有足够的时间,感冒会自行痊愈。 检验数据的方法 那么,你如何避免被不科学的结论所愚弄呢?是否每个人都必须成为自己的 统计专家,并亲自研究原始数据?情况并非那么糟。在这里,我们介绍一个易于 理解的显著性检验方法。简单地说,它是一种反映检验数据以多大的可能性代表 实际结论、而不是代表由于机遇产生的其他结论的方法。这便是那些没有透露的 数据一-假设你是个外行读者,你就不会明白其中的奥秘,但如果你掌握了这个方 法,你将理解其中的企图。如果某条信息的来源提供了显著性程度,你将对它有 更深的了解。显著性程度通常简单地用概率来表示,就像普查局以19/20的概率 保证他们的结果是正确的。大多数情况下,5%的显著性水平已经足够,但是如果 有更高的要求,就需要1%的显著性水平,这意味着以99%的概率保证该结果是真 实的,任何类似的事情"在实践上几乎是确定"的。还有另一类没有透露的数据, 它的遗漏也同样具有破坏性。这类数据表明了事物的变动范围以及与给定平均数 的偏离水平。通常情况下,单凭一个平均数来描述事物过于简单,起不到作用, 不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。对实际 情况一无所知经常比获得错误的信息要好,也比知之甚少要安全。举个例子来说 为了满足统计出来的平均家庭,即3.6人的家庭,建造了过多的房子。3.6人的 家庭意味着家中有3或4个人,需要两个卧室的房子。虽然是″平均″规模,但是 实际上,这种规模的家庭只是所有家庭的少数。“我们为普通家庭建造平均规格 的房屋。”制造商这么说的同时,却忽略了占很大比例的、有更多人或更少人 的家庭。导致的后果是某些地区重复建造两个卧室的房子,而低估了更大或更小 规模家庭的需求。这是个由具有误导性的、信息不完全的统计数据而造成巨大浪 费的实例。对此,一家大型的公共健康团体指出:“当越过算术平均数,去分析
3 生,而且对这个题目都很内行。也许他们都说过这句话,顶多一两个词不同。说, “在还来得及之前,尝试用新的治疗方法。” 我们不能总是只怪罪于医务职业者,有时公众压力和草率的舆论宣传,也会 促使没有经过证实的治疗方法匆匆上马,特别是当需求很大而统计背景又很模糊 时。这也是以前流行的感冒疫苗几年后卷土重来,从而导致近年来抗组织胺药越 来越多的原因。由于疾病的不确定性和缺乏逻辑的严密性,造成了许多不成功“治 疗方法”的流行。其实,只要有足够的时间,感冒会自行痊愈。 二、检验数据的方法 那么,你如何避免被不科学的结论所愚弄呢?是否每个人都必须成为自己的 统计专家,并亲自研究原始数据?情况并非那么糟。在这里,我们介绍一个易于 理解的显著性检验方法。简单地说,它是一种反映检验数据以多大的可能性代表 实际结论、而不是代表由于机遇产生的其他结论的方法。这便是那些没有透露的 数据--假设你是个外行读者,你就不会明白其中的奥秘,但如果你掌握了这个方 法,你将理解其中的企图。如果某条信息的来源提供了显著性程度,你将对它有 更深的了解。显著性程度通常简单地用概率来表示,就像普查局以 19/20 的概率 保证他们的结果是正确的。大多数情况下,5%的显著性水平已经足够,但是如果 有更高的要求,就需要 1%的显著性水平,这意味着以 99%的概率保证该结果是真 实的,任何类似的事情"在实践上几乎是确定"的。还有另一类没有透露的数据, 它的遗漏也同样具有破坏性。这类数据表明了事物的变动范围以及与给定平均数 的偏离水平。通常情况下,单凭一个平均数来描述事物过于简单,起不到作用, 不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。对实际 情况一无所知经常比获得错误的信息要好,也比知之甚少要安全。举个例子来说, 为了满足统计出来的平均家庭,即 3.6 人的家庭,建造了过多的房子。3.6 人的 家庭意味着家中有 3 或 4 个人,需要两个卧室的房子。虽然是"平均"规模,但是 实际上,这种规模的家庭只是所有家庭的少数。“我们为普通家庭建造平均规格 的房屋。” 制造商这么说的同时,却忽略了占很大比例的、有更多人或更少人 的家庭。导致的后果是某些地区重复建造两个卧室的房子,而低估了更大或更小 规模家庭的需求。这是个由具有误导性的、信息不完全的统计数据而造成巨大浪 费的实例。对此,一家大型的公共健康团体指出:“当越过算术平均数,去分析
实际的家庭人口范围时,我们发现3人或4人的家庭仅占全部家庭的45%,而35% 是1人或者2人,剩下的20%则多于4人。” 在如此精确而且具有权威性的3.6人面前,常识黯然失色。它莫名其妙地战 胜了人们通过观察便可发现的事实:许多家庭规模比之小,还有相当一部分比之 大 几乎以相同的方式,《格塞尔常模》( Gesells norms)中遗漏的数据给许 多父母带来了痛苦。让我们做这样的假设,就如同许多父母在阅读《星期天》 ( Sunday)报纸所做的一样,当一对父母读到"孩子"将在某月份学会坐直的内 容时,他们会立刻联想到自己的孩子。如果恰恰孩子在指定的月份还不能坐直, 他们一定会认为孩子智力迟钝、发育不正常,或者得出其他同样令人哀怨的结论。 既然一半的孩子在那时都还坐不直,那将会有很多家长为此苦恼。当然,从数学 的角度来说,这些不愉快将与另一半聪明孩子家长的喜悦相互平衡。但是,当不 开心的家长做出种种努力使孩子与标准一致时,将产生很大的伤害。 所有这些并不是为了责备阿诺德·格塞尔( Arnold gesell)博士或者他的 方法。错误出在向下传递信息的筛选过程。信息从研究者经过耸人听闻或所知不 多的作者,最后传递给读者,读者根本无法察觉这个过程中遗漏的信息。如果能 给常态或者平均数加上反映范围的指标,许多误会将消除。当发现自己的宝贝属 于正常范畴时,父母则不必为微小且无意义的差异而担心。几乎没有人能在所有 方面都恰好符合标准,就如同抛100次硬币,几乎不可能正好出现50个正面和 50个反面 将″正常的″与″期望的″混为一谈,导致事情变得更糟。格塞尔博士仅仅描述 了一些通过观察得到的事实,是那些阅读书和文章的父母错下结论:晚一天或晚 一个月学会走路的孩子是低能儿 由于将正常误解为好的、对的、应该如此的等价物,许多人对阿尔弗雷德·金 西博士的那篇著名报告作出了愚蠢的批评,虽然也许他们几乎没有认真读过这篇 报告。金西博土被指责有教唆年轻人的嫌疑,因为他向他们灌输某些观念,特别 是他将各种普遍存在却未经认可的性行为称为正常。实际上,金西博士只是指出 他发现这种行为很普遍,因此称之为正常,但是他并没有为这些行为贴上许可的 标记,这些行为是否符合规矩并不属于他的研究范围。只是他恰巧涉及了一个使
4 实际的家庭人口范围时,我们发现 3 人或 4 人的家庭仅占全部家庭的 45%,而 35% 是 1 人或者 2 人,剩下的 20%则多于 4 人。” 在如此精确而且具有权威性的 3.6 人面前,常识黯然失色。它莫名其妙地战 胜了人们通过观察便可发现的事实:许多家庭规模比之小,还有相当一部分比之 大。 几乎以相同的方式,《格塞尔常模》(Gesells norms)中遗漏的数据给许 多父母带来了痛苦。让我们做这样的假设,就如同许多父母在阅读《星期天》 (Sunday)报纸所做的一样,当一对父母读到 "孩子"将在某月份学会坐直的内 容时,他们会立刻联想到自己的孩子。如果恰恰孩子在指定的月份还不能坐直, 他们一定会认为孩子智力迟钝、发育不正常,或者得出其他同样令人哀怨的结论。 既然一半的孩子在那时都还坐不直,那将会有很多家长为此苦恼。当然,从数学 的角度来说,这些不愉快将与另一半聪明孩子家长的喜悦相互平衡。但是,当不 开心的家长做出种种努力使孩子与标准一致时,将产生很大的伤害。 所有这些并不是为了责备阿诺德·格塞尔(Arnold Gesell)博士或者他的 方法。错误出在向下传递信息的筛选过程。信息从研究者经过耸人听闻或所知不 多的作者,最后传递给读者,读者根本无法察觉这个过程中遗漏的信息。如果能 给常态或者平均数加上反映范围的指标,许多误会将消除。当发现自己的宝贝属 于正常范畴时,父母则不必为微小且无意义的差异而担心。几乎没有人能在所有 方面都恰好符合标准,就如同抛 100 次硬币,几乎不可能正好出现 50 个正面和 50 个反面。 将"正常的"与"期望的"混为一谈,导致事情变得更糟。格塞尔博士仅仅描述 了一些通过观察得到的事实,是那些阅读书和文章的父母错下结论:晚一天或晚 一个月学会走路的孩子是低能儿。 由于将正常误解为好的、对的、应该如此的等价物,许多人对阿尔弗雷德·金 西博士的那篇著名报告作出了愚蠢的批评,虽然也许他们几乎没有认真读过这篇 报告。金西博士被指责有教唆年轻人的嫌疑,因为他向他们灌输某些观念,特别 是他将各种普遍存在却未经认可的性行为称为正常。实际上,金西博士只是指出 他发现这种行为很普遍,因此称之为正常,但是他并没有为这些行为贴上许可的 标记,这些行为是否符合规矩并不属于他的研究范围。只是他恰巧涉及了一个使
许多人头疼的话题,涉及这样一个高度敏感的话题却不迅速表明你是支持或是反 对的态度,看来是十分危险的。 这些没有透露的数据,其欺骗性在于:人们经常忽略了它们是否存在。这当 然也是它取得成功的奥秘。报界批评家一-其作风与现在的批评家一样老练一一直 哀叹新闻工作者缺乏严谨的跑新闻的工作作风,并严厉地指责”椅子记者”一那些 缺乏批判意识、仅靠重写政府报道混日子的人。从新闻杂志《两星期》 Fortnight) 的”新的工业进步"栏目中挑选一条新闻:"来自西屋( Westinghouse)的消息: 一种能提高钢材硬度两倍的新冷轧槽已经发明。"从中可一窥报界的无所作为 听上去真是有了长足的进步,可是直到你要认真研究这到底意味着什么时,才会 发现:它实际上像水银球一样令人难以捉摸。是否这种新的冷轧槽使所有种类的 钢材硬度达到未处理前的三倍?又或者它能产生一种硬度是以前所有钢材三倍 的新钢材?它是如何做到的?看上去,记者仅仅只是写了一行文字,却并没有弄 清这些文字的真正含义,同时期待着读者抱着能学到某些东西的快乐幻觉下,毫 无批判精神地读这些文字。这容易使人联想起对采用讲课方式进行教学指导的古 老定义:这是一个将教师书中的内容在没有经过双方大脑的情况下,转化成学生 笔记的过程。 几分钟之前,当我查阅《时代》杂志关于金西博士的内容时,突然想到了另 则类似的报道,这些报道只要多看一眼,就会像危房一样坍塌。这是1948年 些电力公司联合推出的广告:"今天,超过3/4的美国农场接上了电……"听上 去真不错,这些公司真是尽职尽责。当然,如果你是挑剔的人,你还可以这样解 释:"将近1/4的美国农场还没接上电。"但真正的把戏却并不在此,而在于使用 ″接上"这个词。用了这个词,电力公司可以把事情描述成他们所希望的任何效果 很明显,"接上″并不意味着所有这些农场已接通了电,否则,广告上一定会如实 报道。据我所知,他们的"接上"只能说明电线从那些农场经过,或铺设在离开农 场几十或者上百英里的范围之内。 让我引用一篇文章的标题-《现在就来预测孩子将来长多高》( You Can tell Now HOW TALL YOUR CHILD WILL GROW),这篇文章刊登在一个大众化的杂志上。 文章中的两张表格特别抢眼,一张适用于男孩,另一张适用于女孩,这两张表给
5 许多人头疼的话题,涉及这样一个高度敏感的话题却不迅速表明你是支持或是反 对的态度,看来是十分危险的。 这些没有透露的数据,其欺骗性在于:人们经常忽略了它们是否存在。这当 然也是它取得成功的奥秘。报界批评家--其作风与现在的批评家一样老练--一直 哀叹新闻工作者缺乏严谨的跑新闻的工作作风,并严厉地指责"椅子记者"--那些 缺乏批判意识、仅靠重写政府报道混日子的人。从新闻杂志《两星期》(Fortnight) 的"新的工业进步"栏目中挑选一条新闻:"来自西屋(Westinghouse)的消息: 一种能提高钢材硬度两倍的新冷轧槽已经发明。"从中可一窥报界的无所作为。 听上去真是有了长足的进步,可是直到你要认真研究这到底意味着什么时,才会 发现:它实际上像水银球一样令人难以捉摸。是否这种新的冷轧槽使所有种类的 钢材硬度达到未处理前的三倍?又或者它能产生一种硬度是以前所有钢材三倍 的新钢材?它是如何做到的?看上去,记者仅仅只是写了一行文字,却并没有弄 清这些文字的真正含义,同时期待着读者抱着能学到某些东西的快乐幻觉下,毫 无批判精神地读这些文字。这容易使人联想起对采用讲课方式进行教学指导的古 老定义:这是一个将教师书中的内容在没有经过双方大脑的情况下,转化成学生 笔记的过程。 几分钟之前,当我查阅《时代》杂志关于金西博士的内容时,突然想到了另 一则类似的报道,这些报道只要多看一眼,就会像危房一样坍塌。这是 1948 年 一些电力公司联合推出的广告:"今天,超过 3/4 的美国农场接上了电……"听上 去真不错,这些公司真是尽职尽责。当然,如果你是挑剔的人,你还可以这样解 释:"将近 1/4 的美国农场还没接上电。"但真正的把戏却并不在此,而在于使用 "接上"这个词。用了这个词,电力公司可以把事情描述成他们所希望的任何效果。 很明显,"接上"并不意味着所有这些农场已接通了电,否则,广告上一定会如实 报道。据我所知,他们的"接上"只能说明电线从那些农场经过,或铺设在离开农 场几十或者上百英里的范围之内。 让我引用一篇文章的标题--《现在就来预测孩子将来长多高》(You Can Tell Now HOW TALL YOUR CHILD WILL GROW),这篇文章刊登在一个大众化的杂志上。 文章中的两张表格特别抢眼,一张适用于男孩,另一张适用于女孩,这两张表给
出了每个年龄阶段孩子的身高与最终身高的比例。“预测孩子长大后的身高”标 题如是写道,“只需要利用现有的身高,再查表中的比例即可。” 可笑的是,只要你继续往下看,便会发现文章本身就指出了这些表格的致命 缺点。所有孩子的生长方式并不是完全一致的。有的一开始长得很慢,却突然长 高:有的暂时很高,然后速度趋缓;还有的人在整个过程中相对平稳地成长。这 两张表,正如你所疑惑的,是基于进行了大量测量之后所取的平均数。对于随机 抽取的100名年轻人,利用这两张表格预测他们未来的总身高或者平均身高,毫 无疑问是足够准确的。但是,家长感兴趣的只是一个孩子的具体高度,对于个体, 这两张表是没有价值的。如果真的想预测孩子未来的身高,父母及祖父、祖母的 身高或许更有用,尽管这种方法和上述表格一样并不科学,也不精确,但结果的 准确性至少相当 我很高兴地指出,在14岁到高中接受军训时,我站在最小班级的后排,利 用当时记录的身高做一个预测,我的最终净身高为5英尺8英寸,但是,现在我 已经有5英尺11英寸了。在人类身高中,3英寸的差距足以说明这是个差劲的 估计 在我面前有两盒葡萄坚果薄饼的包装纸。它们来自于不同的生产批次,这 点从产品鉴定上就可以看出。其中一个引用了双枪皮特( Two Gun pete)的形象 而另一个写道:“如果你想像霍皮(Hopy)一样……你就得像霍皮一样吃 它们都提供了说明图(“科学家证明是真实的!”)来证实这些薄饼“在2分钟 之内开始提供能量!”一张图被大量感叹句所包围,其纵轴标有数据:而另一张 图却遗漏了这些数据。既然没有关于这些数据的任何说明,有没有这些图都一样。 两张图都有一条急剧攀升的红色曲线,曲线代表着“能量释放”,但是其中一条 曲线开始于吃葡萄坚果薄饼一分钟后,而另一条却开始于两分钟后。一条曲线的 攀升速度看上去是另一条的两倍,这暗示着连制图者都不清楚这两张图能说明什 么问题。 当然,类似愚蠢的数据只会出现在青少年或者早晨疲倦不堪的父母眼前。没 有人会用这种统计废话来挑衅一个著名商人的智商……难道有人会这么做?让
6 出了每个年龄阶段孩子的身高与最终身高的比例。“预测孩子长大后的身高”标 题如是写道,“只需要利用现有的身高,再查表中的比例即可。” 可笑的是,只要你继续往下看,便会发现文章本身就指出了这些表格的致命 缺点。所有孩子的生长方式并不是完全一致的。有的一开始长得很慢,却突然长 高;有的暂时很高,然后速度趋缓;还有的人在整个过程中相对平稳地成长。这 两张表,正如你所疑惑的,是基于进行了大量测量之后所取的平均数。对于随机 抽取的 100 名年轻人,利用这两张表格预测他们未来的总身高或者平均身高,毫 无疑问是足够准确的。但是,家长感兴趣的只是一个孩子的具体高度,对于个体, 这两张表是没有价值的。如果真的想预测孩子未来的身高,父母及祖父、祖母的 身高或许更有用,尽管这种方法和上述表格一样并不科学,也不精确,但结果的 准确性至少相当。 我很高兴地指出,在 14 岁到高中接受军训时,我站在最小班级的后排,利 用当时记录的身高做一个预测,我的最终净身高为 5 英尺 8 英寸,但是,现在我 已经有 5 英尺 11 英寸了。在人类身高中,3 英寸的差距足以说明这是个差劲的 估计。 在我面前有两盒葡萄坚果薄饼的包装纸。它们来自于不同的生产批次,这一 点从产品鉴定上就可以看出。其中一个引用了双枪皮特(Two Gun Pete)的形象, 而另一个写道:“如果你想像霍皮(Hoppy)一样……你就得像霍皮一样吃。” 它们都提供了说明图(“科学家证明是真实的!”)来证实这些薄饼“在 2 分钟 之内开始提供能量!”一张图被大量感叹句所包围,其纵轴标有数据;而另一张 图却遗漏了这些数据。既然没有关于这些数据的任何说明,有没有这些图都一样。 两张图都有一条急剧攀升的红色曲线,曲线代表着“能量释放”,但是其中一条 曲线开始于吃葡萄坚果薄饼一分钟后,而另一条却开始于两分钟后。一条曲线的 攀升速度看上去是另一条的两倍,这暗示着连制图者都不清楚这两张图能说明什 么问题。 当然,类似愚蠢的数据只会出现在青少年或者早晨疲倦不堪的父母眼前。没 有人会用这种统计废话来挑衅一个著名商人的智商……难道有人会这么做?让
我给你看一个广告代理机构用于宣传自己的广告(我希望它不会让人感到疑惑不 解),它刊登在《财富》( Fortune)杂志的专栏中。图中曲线意欲向人们显示 这家广告公司年复一年惊人的发展趋势。但图中没有一个数字,这样一来,它既 可以代表一个骇人的发展速度,每年翻番或增长几百万美金,又可以意味着在年 十亿总收入的基础上,增加一美元或两美元相对稳定的蛇状爬行。但仅从图上看, 其发展速度让人印象深刻。 当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀 疑。否则,你会和一个仅仅根据平均气温选择野营地点的人一样盲目。也许你会 认为,61华氏度是个不错的年平均气温,而在加利福尼亚州,如果仅根据平均 气温,却忽略气温的波动范围,你可能会在内陆沙漠或者远离南海岸线的圣·尼 古拉斯群岛两者中进行选择,那么,你不是被烤焦就是被冻僵。因为圣·尼古拉 斯群岛气温的波动范围是47~87华氏度,而沙漠气温的波动范围是15~104华 氏度。根据以往60年的记录,俄克拉荷马城具有十分相似的平均温度:60.2华 氏度。但是,正如你从下图所看到的,这个舒适凉爽的数字遮盖了130华氏度的 气温波动范围
7 我给你看一个广告代理机构用于宣传自己的广告(我希望它不会让人感到疑惑不 解),它刊登在《财富》(Fortune)杂志的专栏中。图中曲线意欲向人们显示 这家广告公司年复一年惊人的发展趋势。但图中没有一个数字,这样一来,它既 可以代表一个骇人的发展速度,每年翻番或增长几百万美金,又可以意味着在年 十亿总收入的基础上,增加一美元或两美元相对稳定的蛇状爬行。但仅从图上看, 其发展速度让人印象深刻。 当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀 疑。否则,你会和一个仅仅根据平均气温选择野营地点的人一样盲目。也许你会 认为,61 华氏度是个不错的年平均气温,而在加利福尼亚州,如果仅根据平均 气温,却忽略气温的波动范围,你可能会在内陆沙漠或者远离南海岸线的圣·尼 古拉斯群岛两者中进行选择,那么,你不是被烤焦就是被冻僵。因为圣·尼古拉 斯群岛气温的波动范围是 47~87 华氏度,而沙漠气温的波动范围是 15~104 华 氏度。根据以往 60 年的记录,俄克拉荷马城具有十分相似的平均温度:60.2 华 氏度。但是,正如你从下图所看到的,这个舒适凉爽的数字遮盖了 130 华氏度的 气温波动范围