上海交通大学 数学系 LOGO 第16章 数据从何而来 肖柳青主讲
LOGO 第16章 数据从何而来 上海交通大学 数学系 肖柳青 主讲
目 录 16.1数据从何而来?如何善用资讯? 16.2样本告诉我们什么? 16.3好样本与坏样本 16.4怎样可取得坏样本? 16.5有偏抽样法 16.6简单随机样本 16.7谈谈实验
目 录 16.1数据从何而来?如何善用资讯? 16.2 样本告诉我们什么? 16.3 好样本与坏样本 16.4怎样可取得坏样本? 16.5有偏抽样法 16.6 简单随机样本 16.7谈谈实验
这砦数据是打哪来的呢?为什么我们应该相信? 或者我们也许并不该相信。我们如何善用资讯? 你可能读了几个月报纸、看了几个月电视新闻,都没有遇到过任 何数学公式,难怪你会觉得数学好像和实际生活无关。不过 也许无论何时何地,没有任何一天,你会完全没有接触到数 据和统计研究。 你听说上个月的失业率是4.5%;报纸上报道说,年龄介于18-29 岁之间的人,有达59%声称他们经常网购, 而65岁以上的人只 有21%这么说;还有一篇更长些的报道中说,低收入儿童若有 良好的日间照顾,读大学的概率比较大,也有比较好的工作。 也许是像一位统计学家曾说过的:“你只要肯看,就可以观 察到许多事。 但是你怎么办也不可能看出,年轻人的网购率有59%; 者良好的日间照顾,会使儿童在15年之后进入大学就读 好数据是人们智慧及努力的产物。坏数据的来源,则是 懒惰,不了解甚至存心误导。 每当有人丢个数字给你,你第一个该问的问题就是:“这数 字是打哪儿来的?这里我们来讲讲“样本“这一概念
这些数据是打哪来的呢?为什么我们应该相信? 或者我们也许并不该相信。我们如何善用资讯? 你可能读了几个月报纸、看了几个月电视新闻,都没有遇到过任 何数学公式,难怪你会觉得数学好像和实际生活无关。不过 也许无论何时何地,没有任何一天,你会完全没有接触到数 据和统计研究。 你听说上个月的失业率是4.5%;报纸上报道说,年龄介于18-29 岁之间的人,有达59%声称他们经常网购,而65岁以上的人只 有21%这么说;还有一篇更长些的报道中说,低收入儿童若有 良好的日间照顾,读大学的概率比较大,也有比较好的工作。 也许是像一位统计学家曾说过的:“你只要肯看,就可以观 察到许多事。” 但是你怎么办也不可能看出,年轻人的网购率有59%;或 者良好的日间照顾,会使儿童在15年之后进入大学就读。 好数据是人们智慧及努力的产物。坏数据的来源,则是 懒惰,不了解甚至存心误导。 每当有人丢个数字给你,你第一个该问的问题就是:“这数 字是打哪儿来的?”这里我们来讲讲“样本”这一概念
16.2样本告诉我们什么? 16.2.1 你是“彩民玩彩票吗? 你知道福利彩券在国内很受欢迎,不过到底有 多么受欢迎呢?某晚报记者的报告中说:福 利可能累积出高额奖金,而且奖券在你附近的 店里就买得到,一张又只花2元人民币。对许 多中国人来说,买张彩券己变成例行公事,尽 管中奖概率微乎其微。最近一项以赌博为主题 的社会调查指出,过去12个月当中,有57% 的中国人曾经购买过福利彩券,这使得彩票成 了当今赌博大众的最爱
16.2 样本告诉我们什么? 16.2.1 你是“彩民”玩彩票吗? 你知道福利彩券在国内很受欢迎,不过到底有 多么受欢迎呢?某晚报记者的报告中说:“福 利可能累积出高额奖金,而且奖券在你附近的 店里就买得到,一张又只花2元人民币。对许 多中国人来说,买张彩券已变成例行公事,尽 管中奖概率微乎其微。最近一项以赌博为主题 的社会调查指出,过去12个月当中,有57% 的中国人曾经购买过福利彩券,这使得彩票成 了当今赌博大众的最爱
16.3好样本与坏样本 冬我们先来讲亡个案例,我校评选“最受欢迎优秀教 师校长奖,要求对全校师生做民意调查,现在有 一个环节采用的是网上投票”,要求全校师生以 网上投票的形式回应,来表达他们是否赞成让某 位教师成为优秀 0 冬这类网上投票”回应通常采用自动化处理:赞成 就打某个号码,不赞成则打另外一个。网投组织 机构通常对“网上投票”的人不收费。 样本的取得过程合乎规范吗?邀请大家打电话 (一打再打,打了又打),可不是个合适的抽样 设计
16.3 好样本与坏样本 我们先来讲一个案例,我校评选“最受欢迎优秀教 师校长奖”,要求对全校师生做民意调查,现在有 一个环节采用的是“网上投票”,要求全校师生以 网上投票的形式回应,来表达他们是否赞成让某 位教师成为优秀。 这类“网上投票”回应通常采用自动化处理:赞成 就打某个号码,不赞成则打另外一个。网投组织 机构通常对“网上投票”的人不收费。 样本的取得过程合乎规范吗?邀请大家打电话 (一打再打,打了又打),可不是个合适的抽样 设计
16.4怎样可取得坏样本? 上面的网投组织机构应该已经受到教训,明白取到 坏样本比取得好样本来得更容易 该机构的名义调查数据是来以自发性回应,他们是 要大家自己发投票进来,而不是主动抽取样本。结 果就是有偏的(biased),样本里面赞成某某教师 的比例,因此被加重了许多。自发性回应样本吸引 到的,是对讨论中的议题有强烈感受的人。这些人 ,例如该教师所在院系的打过招呼的关系师生”, 可能并不能很公平地代表一般大众师生的意见
16.4 怎样可取得坏样本? 上面的网投组织机构应该已经受到教训,明白取到 坏样本比取得好样本来得更容易。 该机构的名义调查数据是来以自发性回应,他们是 要大家自己发投票进来,而不是主动抽取样本。结 果就是有偏的(biased),样本里面赞成某某教师 的比例,因此被加重了许多。自发性回应样本吸引 到的,是对讨论中的议题有强烈感受的人。这些人 ,例如该教师所在院系的“打过招呼的关系师生” , 可能并不能很公平地代表一般大众师生的意见
要取得坏样本,不是只有上面的这种方法 比方说,我每个星期卖几箱橘子给你的公司, 你从每箱当中抽几个橘子检查,已评定橘子的 品质。最容易的做法是从摆在每箱最上面的橘 子中抽取,但这些橘子可能无法代表整箱的情 况,因为摆在底下的橘子较容易在运送过程中 损伤。假如我不够老实,也许会把烂橘子摆在 底下,上面摆些好橘子让你检查。如果你从上 面抽取,所得结果会是“有偏的”:样本橘子的品 质总是优于他们所代表的整个总体
要取得坏样本,不是只有上面的这种方法 比方说,我每个星期卖几箱橘子给你的公司, 你从每箱当中抽几个橘子检查,已评定橘子的 品质。最容易的做法是从摆在每箱最上面的橘 子中抽取,但这些橘子可能无法代表整箱的情 况,因为摆在底下的橘子较容易在运送过程中 损伤。假如我不够老实,也许会把烂橘子摆在 底下,上面摆些好橘子让你检查。如果你从上 面抽取,所得结果会是“有偏的”:样本橘子的品 质总是优于他们所代表的整个总体
16.5有偏抽样法 冬如果抽取样本问题的统计设计使得结果总是往 某个方向偏,我们就称这个设计是有偏的。 冬从总体抽样时,如果选最容易取得的,叫做方 便抽样。自发性回应样本则是经由对某一诉求 的回应而自然形成的。写信回应或电话回应意 见调查都是自发性回应样本的例子。方便样本 及自发性回应样本常常是有偏的
16.5 有偏抽样法 如果抽取样本问题的统计设计使得结果总是往 某个方向偏,我们就称这个设计是有偏的。 从总体抽样时,如果选最容易取得的,叫做方 便抽样。自发性回应样本则是经由对某一诉求 的回应而自然形成的。写信回应或电话回应意 见调查都是自发性回应样本的例子。方便样本 及自发性回应样本常常是有偏的
例1:购物中心访谈 只捏箱子里上层的橘子是方便抽样的 而在购物中心进行访谈是另一个例子 冬制造业者和广告代理商常常利用在购物中心的访 谈,来搜集消费者的消费习惯及广告的效用等信 息。在购物中心里取得样本既快速又省钱,但在 购物中心里访谈到的人并不能充分代表整个中国 人口。比如说,这些人比较有钱,而且有很多青 少年或退休人士。此外,访问者倾向于从顾客群 中选择外表整洁、看起来不具威胁的人。购物中 心的样本是有偏的,因为:某些群体的比重太重 (较有钱的人、青少年及退休人士),而有些群 体的比重又太轻。这样一个方便样本的意见,可 能和全国大众的意见有很大的出入
例1:购物中心访谈 只捏箱子里上层的橘子是方便抽样的一个例子, 而在购物中心进行访谈是另一个例子。 制造业者和广告代理商常常利用在购物中心的访 谈,来搜集消费者的消费习惯及广告的效用等信 息。在购物中心里取得样本既快速又省钱,但在 购物中心里访谈到的人并不能充分代表整个中国 人口。比如说,这些人比较有钱,而且有很多青 少年或退休人士。此外,访问者倾向于从顾客群 中选择外表整洁、看起来不具威胁的人。购物中 心的样本是有偏的,因为:某些群体的比重太重 (较有钱的人、青少年及退休人士),而有些群 体的比重又太轻。这样一个方便样本的意见,可 能和全国大众的意见有很大的出入
例2:电话回应意见调查 某报专栏作家有二次问她的读者:“如果可以重来 次,你还要孩子吗?"接到接近1万份答复,其 中将近70%说:“不要! 冬难怪说70%的父母都后悔有了孩子吗? 当然不是。这是个自发性回应样本。 冬通常对某个议题有强烈感觉的人,尤其是负面感 觉的,比较会不嫌麻烦地去回应。 冬意见调查结果是有高度偏差的:她的样本中,宁 愿不要孩子的父母百分比,远大于全体父母中宁 愿不要孩子的百分比
例2:电话回应意见调查 某报专栏作家有一次问她的读者:“如果可以重来 一次,你还要孩子吗?”接到接近1万份答复,其 中将近70%说:“不要!” 难怪说70%的父母都后悔有了孩子吗? 当然不是。这是个自发性回应样本。 通常对某个议题有强烈感觉的人,尤其是负面感 觉的,比较会不嫌麻烦地去回应。 意见调查结果是有高度偏差的:她的样本中,宁 愿不要孩子的父母百分比,远大于全体父母中宁 愿不要孩子的百分比