统计,让数据说话的科学与艺术 我们在生活中为了证明某个结论,寻求问题的解答,做 出决策,常常需要摆事实讲道理。什么是事实?事实就是信 息和资讯。在近代社会中它们广泛地存在,并以各种形式发 布。由于计算机技术的发展,人类社会生活定量化程度的提 高,大部份的信息以各种形式的数据出现,它们被保存在你 的电脑,电子邮箱,纲络,文件之中。什么叫讲道理?讲道 理就是让这些数据说话,回答我们心中的问题。统计学就是 门教我们学会如何用数据来说清事实,讲出道理的学问 高三学生准备高考志愿填报时,我们要依据平时的考试成绩 和过去的录取情况,判定被北大,清华,复旦录取的可能性, 这时,你遇到了统计。明天上海股市是否会大跌?统计学将 给出一个合理的回答。我们要组织一次社团活动,应该运用 统计的方法作调查,然后取得共识。手机的过度使用是否会 影响健康?肯徳基的油炸鸡块还受中学女生喜爱吗?这些 问题都可利用统计学的方法解答。另一方面,在新闻媒体, 网络,各种公告中,大量的统计数据,图表,看上去非常权 威和令人信服的结论到处都是,应该相信它们吗?可以说, 统计无处不在。它是人类社会文明进步的标志之一,也是数 学教育的不可或缺的一环 统计工作从数据开始,让我们将它作为这次统计之旅的 起点
统计,让数据说话的科学与艺术 我们在生活中为了证明某个结论,寻求问题的解答,做 出决策,常常需要摆事实讲道理。什么是事实?事实就是信 息和资讯。在近代社会中它们广泛地存在,并以各种形式发 布。由于计算机技术的发展,人类社会生活定量化程度的提 高,大部份的信息以各种形式的数据出现,它们被保存在你 的电脑,电子邮箱,纲络,文件之中。什么叫讲道理?讲道 理就是让这些数据说话,回答我们心中的问题。统计学就是 一门教我们学会如何用数据来说清事实,讲出道理的学问。 高三学生准备高考志愿填报时,我们要依据平时的考试成绩 和过去的录取情况,判定被北大,清华,复旦录取的可能性, 这时,你遇到了统计。明天上海股市是否会大跌?统计学将 给出一个合理的回答。我们要组织一次社团活动,应该运用 统计的方法作调查,然后取得共识。手机的过度使用是否会 影响健康?肯德基的油炸鸡块还受中学女生喜爱吗?这些 问题都可利用统计学的方法解答。另一方面,在新闻媒体, 网络,各种公告中,大量的统计数据,图表,看上去非常权 威和令人信服的结论到处都是,应该相信它们吗?可以说, 统计无处不在。它是人类社会文明进步的标志之一,也是数 学教育的不可或缺的一环。 统计工作从数据开始,让我们将它作为这次统计之旅的 起点。 1
数据的基本形式一“表” 计算机的广泛应用,使得数据的保存,传输,查询成了 很方便的事情。日常的各类业务活动都在电脑系统中留下大 量记录,即数据。学生的考试成绩被完整地保存在学校的教 学系统中。当你到银行的取款时,交易记录一一地保存在银 行的交易数据库中。我们可在网络上进行民意调查,所有的 结果也被保存在服务器中。数据的来源千差万别,它们可能 是财务报表,或者是超市购物的收银条,甚至是刘德华演唱 会的门票销售记录,但是当我们要对它们分析之前,都要将 它们表达为表。表是数据存在的基本形式。我们首先建立关 于它的概念。表的基本形式如下, Ⅹ 1 m 1,1 X1,2 X1,3 Xn.1 n,2 n3 n 4 例如, hone Exercise Bookcost Sex ale 60 400 Male 10240150Male 150 400 Female 25120500Male 240250Mal 450 320 Female 300 Male 150 360343Male
·数据的基本形式—“表” 计算机的广泛应用,使得数据的保存,传输,查询成了 很方便的事情。日常的各类业务活动都在电脑系统中留下大 量记录,即数据。学生的考试成绩被完整地保存在学校的教 学系统中。当你到银行的取款时,交易记录一一地保存在银 行的交易数据库中。我们可在网络上进行民意调查,所有的 结果也被保存在服务器中。数据的来源千差万别,它们可能 是财务报表,或者是超市购物的收银条,甚至是刘德华演唱 会的门票销售记录,但是当我们要对它们分析之前,都要将 它们表达为表。表是数据存在的基本形式。我们首先建立关 于它的概念。表的基本形式如下, Xଵ Xଶ Xଷ Xସ ڮ ڮ X୫ xଵ,ଵ xଵ,ଶ xଵ,ଷ xଵ,ସ ڮ ڮ xଵ,୫ ڮ ڮ ڮ ڮ ڮ ڮ ڮ x୬,ଵ x୬,ଶ x୬,ଷ x୬,ସ ڮ ڮ x୬,୫ 例如, Phone Exercise BookCost Sex 90 0 404 Mal 60 400 Male 240 150 Male 180 150 400 Female 25 120 500 Male 30 240 250 Male 420 450 320 Female 120 30 300 Male 150 360 343 Male e 60 10 2
这张表中m=4,n=227,是向社会学系的227位同学进行调查后 得到的数据。表中的变量是, Phone:平均每周打电话的时间,单位是分 Exercise:平均每周花在体育运动上的时间,单位是分 Bookcos t:本学期在教材上的支出,单位是美金 Sex:性别,男=Male,女= Fema le 注该数据来自美国 Pennsylvania大学。 男孩比女孩更喜欢运动吗?打电话与买书是否有关系?诸 如此类的问题都可利用这个数据集作出回答 分析表应抓住二个角度。从它的第二行开始每一行代表 我们观察的对象,在统计中称为个体。上面表中的个体是被 调查的学生。每一列代表一个变量,变量即是关于个体的某 个特征。上面表中的变量是 Phone, Exercise, Book Cos t,Sex, 对每个个体可通过观察,记录,询问等获得它们的数据.每一 列从第二行开始记录了该变量在各个个体上的观察值。在上 表中变量 Phone与Sex有何不同呢?前者的数据均是有大小 的数字,这类变量称为数值变量。后者的数据是用文字,符 号组成的,这类变量称为定性变量 数据分析的基本任务可分为二大类,一是有关变量的 其次是有关对象的。 上面的表包含了一个数据的集合,简称为数据集。 数据集举例
这张表中 m=4,n=227,是向社会学系的 227位同学进行调查后 得到的数据。表中的变量是, Phone :平均每周打电话的时间,单位是分。 Exercise:平均每周花在体育运动上的时间,单位是分。 BookCost:本学期在教材上的支出,单位是美金。 Sex:性别,男=Male,女=Female。 注 该数据来自美国 Pennsylvania 大学。 男孩比女孩更喜欢运动吗?打电话与买书是否有关系?诸 如此类的问题都可利用这个数据集作出回答。 分析表应抓住二个角度。从它的第二行开始每一行代表 我们观察的对象,在统计中称为个体。上面表中的个体是被 调查的学生。每一列代表一个变量,变量即是关于个体的某 个特征。上面表中的变量是 Phone,Exercise,BookCost,Sex, 对每个个体可通过观察,记录,询问等获得它们的数据.每一 列从第二行开始记录了该变量在各个个体上的观察值。在上 表中变量 Phone 与 Sex 有何不同呢?前者的数据均是有大小 的数字,这类变量称为数值变量。后者的数据是用文字,符 号组成的,这类变量称为定性变量。 数据分析的基本任务可分为二大类,一是有关变量的, 其次是有关对象的。 上面的表包含了一个数据的集合,简称为数据集。 • 数据集举例 3
数据分析从熟悉数据集开始,我们下面给出一些数据集的 实例 实例1谁喜欢开快车? 在美国某所大学中曾进行一次调查以确定是男生还是女 生更喜欢开快车?下面是对87位男生和102位女生的调查 结果,其中的数字是他们开车的平均时速,单位是英里/小 时。同学们将结果记录在纸上,它们是 男生:110109901401051501201101109011595 14514011010585951001151249510012514085120 11510512510285120110120115941258085140 1209213012511090110110959511010580100 1001301051051209010010510012010010080100 120105601251201001159511010180112120110 1151255590 女生:807583801001009075958590859090 1208510012075858070851108575105957570 9070828510090759011080801101109575130 95110110809010590110751009011085908080 8550801008080809510090100958080508890 908570903085858785908575901028010095 1108095908090 面对这一长串的数字我们能得出男生与女生在开车速
数 ൣ 学中曾进行一次调查以确定是男生还是女 中的数字是他们开车的平均时速,单位是英里/小 男生:110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124 95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130 125 110 90 110 110 95 95 110 105 80 100 100 130 105 105 120 90 100 105 100 120 100 100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90 。 女生:80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85 75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 80 90 105 90 110 75 100 90 110 85 90 80 80 85 50 80 100 80 80 80 95 100 90 100 95 80 80 50 88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 95 110 80 95 90 80 90 。 面对这一长串的数字我们能得出男生与女生在开车速 据分析从熟悉数据集开始,我们下面给出一些数据集的 实例。 实例 1൧ 谁喜欢开快车? 在美国某所大 生更喜欢开快车?下面是对 87 位男生和 102 位女生的调查 结果,其 时。同学们将结果记录在纸上,它们是 4
度的差异吗?为什么说男生更倾向于开快车?它们之间的 差别有多少?为了让数据回答这些问题我们首先要将它们 变成一张表,它的变量是 sex:性别,m=男生,f=女生。 mph:车速,单位=英里/小时 对象是被调查的学生,共计189位 要让数据说话是要借助于工具的,我们采用 Excel作为 基本工具,因此,要做的第一件事就是将我们的表变成一张 Excel表。它是 sex mph 110 mmmmmmm 150 我们面对一大难似乎杂乱无章的数据时,会感到不知所 措。这时应做的第一件事情可能是要设法对这堆数据的主要 特征进行分析,设法将它们用图形表达出来,从而获得对数 据的初步,然而却是正确的感觉。这种方法在统计学上称为 描述性分析。今后将说明如何利用直方图和分位数来合理地 回答究竟是男生还是女生喜欢开快车! [实例2]提问方式的影响 王老师要确定春游的目的地,她在班会上提出,请大家 在S和Q中选择一个,来决定今年春游去何地。当时有92位
度的差异吗?为什么说男生更倾向于开快车?它们之间的 差别有多少?为了让数据回答这些问题我们首先要将它们 变成一张表,它的变量是 sex:性别,m=男生 ,f=女生。 mph:车速,单位=英里/小时。 对象是被调查的学生,共计 189 位。 要让数据说话是要借助于工具的,我们采用 Excel 作为 基本 是将我们的表变成一张 Exce 工具,因此,要做的第一件事就 l 表。它是 sex mph m 110 m 109 m 90 m 105 m m 140 m 150 120 m 110 m 110 我们面对一大难似乎杂乱无章的数据时,会感到不知所 措。这时应做的第一件事情可能是要设法对这堆数据的主要 特征进行分析,设法将它们用图形表达出来,从而获得对数 据的初步,然而却是正确的感 。这种方法在统计学上称为 觉 描述性分析。今后将说明如何利用直方图和分位数来合理地 回答究竟是男生还是女生喜欢开快车! ൣ实例 2൧ 提问方式的影响。 王老师要确定春游的目的地,她在班会上提出,请大家 在 S 和 Q 中选择一个,来决定今年春游去何地。当时有 92 位 5
同学参加投票,其结果如下,选择S地的有61个,选Q地的 有31位。看来应该选S。但有的同学提出了疑问,王老师的 老家在S,她的提问是不是有导向性?为什么不请大家在Q 与S中选择一个呢?王老师进行了第二次投票,要求大家在Q 与S中选择一个,这次有98位同学参加。综合二次结果得到 下面的表, 先取S 选取Q 在S和Q中选61(60 31(34%) 92 在Q和S中选45(46%) 53(54%) 总计 106(56% 84(44%) 190 从这张表出发,我们能得出提问方式对结果确有影响的 结论吗?上面形式表在统计学中称为列联表,它表达了二个 分类变量Ⅹ与Y的关系,在这里,X=提问方式,Y=选择结果 我们的问题可归结为,如何利用列联表对X与Y的独立性进 行捡验的问题。这个方法有非常广泛的应用,例如判定吸烟 与肺癌的关系 实例3性别与职称的关系 我们将美国普度大学1621位教授依性别和职称分类后 得到一个数据集,它们组成一张表
同学参加投票,其结果如下,选择 S 地的有 61 个,选 Q 地的 位。看来应该选 王老师的 老家在 S,她的提问是不是有导向性?为什么不请大家在 Q 与 S中选择一个呢?王老师进行了第二次投票,要求大家在 Q 与 S 中选择一个,这次有 98 位同学参加。综合二次结果得到 下面的表, 选取 S 选取 Q 总计 有 31 S。但有的同学提出了疑问, 在 S 和 Q 中选 61(66%) 31(34%) 92 在 Q 和 S 中选 45(46%) 53(54%) 98 总计 106(56%) 84(44%) 190 从这张表出发,我们能得出提问方式对结果确有影响的 结论吗?上面形式表在统计学中称为列联表,它表达了二个 分类变量 X 与 Y 的关系,在这里,X=提问方式,Y=选择结果。 我们的问题可归结为,如何利用列联表对 X 与 Y 的独立性进 行捡验的问题。这个方法有非常广泛的应用,例如判定吸烟 与肺癌的关系。 ൣ实例 3൧ 性别与职称的关系。 我们将美国普度大学 1621 位教授依性别和职称分类后 得到一个数据集,它们组成一张表 6
女性 男性 总数 助教 126 213 339 副教授 149 411 560 正教授 60 662 722 总数 335 1286 1621 这里涉及二个定性变量Ⅹ与Y,X=性别,Y=职称。上面 的表格中的数字只是事实的汇总,从这堆数字中你能说出女 性在教授群中的地位吗?表可进一步进行加工,以帮助我们 看到数据背后的信息 [实例4]吸烟会造成离婚吗 为了研究吸烟与离婚的关系,社会工作者对1669个已 婚的人进行调查,得到涉及二个定性变量X与Y的数据表, X=吸烟状态,Y=婚史。该表如下 曾离婚 未曾离婚 总数 吸烟 238 247 485 不吸烟 374 810 1184 总数 612 1957 1669 在表的每一格给出了有固定属性的对象个数,例如在第 行第二列的238表示了吸烟并曾离婚的被调查的人数。我 们将从这张表出发,计算出一些百分数,它们将展示吸烟带 给婚姻的风险
女性 男性 总数 助教 126 213 339 副教授 149 411 560 正教授 60 662 722 总数 335 1286 1621 这里涉及二个定性变量 X 与 Y,X=性别,Y=职称。上面 的表格中的数字只是事实的汇总,从这堆数字中你能说出女 性在教授群中的地位吗?表可进一步进行加工,以帮助我们 看到数据背后的信息。 ൣ实例 4൧ 吸烟会造成离婚吗? 为了研究吸烟与离婚的关系,社会工作者对 1669 个已 婚的人进行调查,得到涉及二个定性变量 X 与 Y 的数据表, X=吸烟状态,Y=婚史。该表如下 曾离婚 未曾离婚 总数 吸烟 238 247 485 不吸烟 374 810 1184 总数 612 1957 1669 在表的每一格给出了有固定属性的对象个数,例如在第 行第二列的 2 吸烟并 被调 数。我 这张表出 计算出一些百分数,它们将展示吸烟带 风险。 二 38 表示了 曾离婚的 查的人 们将从 发, 给婚姻的 7
[实例5]身高与手大的关系 日常生活中充满了各种有趣的数据,它们揭示出的各种 关系能给我们提供帮助。下面的数据集来自于对课堂上的 167名同学,每个人写出它的性别,身高,右手掌的宽度。 我们记, Sex:性别,男生=male,女生= female Height:身高,单位=英寸 Hands pan:右手掌的宽度,从大姆指尖到小姆指尖的距 离,单位=cm。 将数据集以 Excel表的形式保存,以便在它的帮助下进 行深入的分析。这张表是 Sex Height Handspan enable 68 21.5 Male 73 22.5 male 64 18.0 59 20.0 Male 75 Female 6521.0 设想你在百货公司想为你的朋友买一付手套,但不知道 他的手有多大,当然他是一位身高一米八十的师哥。从上面 的表中找出的公式将可解决你的难题,因为我们能用他的身 高大致地估算出他的手掌大小! [实例6]设计高速公路的标识时,请注意老年驾驶员! 现在老年人驾车日益增加,这成为高速公路标识设计时 必需重视的因素之一。为此,收集了30个驾驶员的数据
ൣ实例 5൧ 身高与手大的关系。 常生活中充满了各种有趣的数据,它们揭示出的各种 关系 生=male,女生=female。 Height: 身高,单位=英寸。 Handspan: 右手掌的宽度,从大姆指尖到小姆指尖的距 离,单位=cm。 将数据集以 Excel 表的形式保存,以便在它的帮助下进 行深入的分析。这张表是 日 能给我们提供帮助。下面的数据集来自于对课堂上的 167 名同学,每个人写出它的性别,身高,右手掌的宽度。 我们记, Sex:性别,男 Sex He ight HandSpan Female 68 21.5 Male Male 73 22.5 Female Male 68 23.5 Female Male 73 23.0 Male 75 2 Female 65 2 71 23.5 64 18.0 59 20.0 4.5 1.0 位身高一米八十的师哥。从上面 的表中找出的公式将可解决你的难题,因为我们能用他的身 高大致地估算出他的手掌大小! ൣ实例 6൧ 设计高速公路的标识时,请注意老年驾驶员! 现在老年人驾车日益增加,这成为高速公路标识设计时 必需重视的因素之一。为此,收集了 30 个驾驶员的数据, 设想你在百货公司想为你的朋友买一付手套,但不知道 他的手有多大,当然他是一 8
记下他们的年龄和最大的可视距离。下表中的二个数量型的 变量是,年龄=Age,距离= Distance。 A Distance 20 22 560 510 25 490 460 从常理来考虑,当年龄增大时,可视最大距离会减小 这种变化的规律能找到吗?我们以后要学的线性回归就是 一种常用的分析二个定量变量之间关系的方法 [实例7多元数据分析 我们在日常的工作和研究中通常碰到的数据集都涉及 很多个变量。分析一些变量与另一些变量之间的关系,将研 究的对象按其在一组变量上的表现来进行分类,寻找新的更 有效的变量等组成统计学中非常重要的一个领域,多元统计 分析。现给出一个多元数据集的例子,它来自对173位同学 的调查。表中涉及的变量是 Sex:性别,Male, Female。 Tv:每周平均花在看电视上的小时数。 Computer:每周平均上网小时数 Sleep:平均晚上的睡眠小时数 Seat:在教室里经常坐的位置,前排= Front,中间。 = Middle,后排=Back
记下他们的年龄和最大的可视距离。下表中的二个数量型的 变量是,年龄=Age,距离=Distance。 Age Distance 18 510 20 580 22 560 23 510 23 480 25 27 560 490 28 510 29 460 从常理来考虑,当年龄增大时,可视最大距离会减小。 这种变化的规律能找到吗?我们以后要学的线性回归就是 一种常用的分析二个定量变量之间关系的方法。 ൣ实例 7൧ 多元数据分析 我们在日常的工作和研究中通常碰到的数据集都涉及 很多个变量。分析一些变量与另一些变量之间的关系,将研 究的对象按其在一组变量上的表现来进行分类,寻找新的更 有效的变量等组成统计学中非常重要的一个领域,多元统计 分析。现给出一个多元数据集的例子,它来自对 173 位同学 的调查。表中涉及的变量是 Sex:性别,Male,Female。 TV 均花在看电视上 :每周平 的小时数。 Computer:每周平均上网小时数。 Sleep:平均晚上的睡眠小时数。 Seat: 在教室里经常坐的位置,前排=Front,中间。 =Middle,后排=Back。 9
Alcohol:每周饮用含酒精饮料的数量 Height:身高,英寸 Monheight:母亲的身高,英寸 Dadheight:父亲的身高,英寸。 Exercise:每周运动的小时数 GPA:大学生的学业成积积分 Class:班级分类, Liberal art=文科班, Non liberal Arts=非文科班。 下面给出这个数据集 Sex TV computer Sleep Seat alcohol Height Female 13 10 3.5 Back 66.0 Female 5 4.0 Back Male 79.0 Back 2000 64.0 72.0 156.bAck 68.0 Male 8 20 6.mIddle 68.0 Femal 5.0 Front 5 64 9.0 Middle 068.5 8. 5 Front 69.0 Female 7.0 Middle 4.5 66.0 这类数据集广泛地存在你们学校的电脑之中,只要使用 合适的统计方法和统计软件,大家就可得到很多有意思的结 论 上面以表的形式给出的数据集均是原始数据,它们是我 们研究的出发点,但是这些没有处理和整合的数据看上去十 分杂乱无章,令人不得要领。如何对数据形成概括性的正确 理解,在此基础上作进一步的分析呢?变量的分布是一个合 适的切入点 数值变量的分布及其呈现
Alcohol:每周饮用含酒精饮料的数量。 Height:身高,英寸。 Monheight:母亲的身高,英寸。 l Dadheight:父亲的身高,英寸。 Exercise:每周运动的小时数。 GPA:大学生的学业成积积分。 Class:班级分类,Liberal Art=文科班,Non Libera Arts=非文科班。 下面给出这个数据集。 Sex T V compute r Female 13 10 Sleep Seat alcohol Height 3.5 Back 12 66.0 Female 2 5 4.0 Back 0 64.0 0 72.0 Male 15 15 6.0 Back 0 68.0 0 68.0 Female 2.5 10 5.0 Front 5 64.0 e 0 68.5 Female 4 28 8.5 Front 1.5 69.0 Female 8 10 7.0 Middle 4.5 66.0 Male 20 7 9.0 Back Male 8 20 6.0 Middle Male 2 14 9.0 Middl 这类数据集广泛地存在你们学校的电脑之中,只要使用 合适的统计方法和统计软件,大家就可得到很多有意思的结 论。 上面以表的形式给出的数据集均是原始数据,它们是我 们研究的出发点,但是这些没有处理和整合的数据看上去十 分杂乱无章,令人不得要领。如何对数据形成概括性的正确 理解,在此基础上作进一步的分析呢?变量的分布是一个合 适的切入点。 • 数值变量的分布及其呈现 10