第一节统计学漫谈 思考: 统计学是干什么的? 它与我们的工作与生活有什么联系? 华中科技大学社会学系
华中科技大学社会学系 第一节 统计学漫谈 ▪ 思考: ▪ 统计学是干什么的? ▪ 它与我们的工作与生活有什么联系?
为什么学习统计? 台湾辅仁大学的谢邦昌教授指出:“When you analyze any topic, you are involved in statistics” 一位资深的海外统计学家说:“统计就和 此 米、油 酱、醋、茶一样,存在 的时候并不是很突出,一旦不见了,人生 就是黑白的了。” 华中科技大学社会学系
华中科技大学社会学系 一、为什么学习统计? ▪ 台湾辅仁大学的谢邦昌教授指出:“When you analyze any topic, you are involved in statistics” ▪ 一位资深的海外统计学家说:“统计就和 柴、米、油、盐、酱、醋、茶一样,存在 的时候并不是很突出,一旦不见了,人生 就是黑白的了
不列颠百科全书中指出:“统计学是收 集、分析、表述和解释数据的艺术与科 学 ■最近美国对统计学所下的定义是: Statistics is the science for learning from data” 华中科技大学社会学系
华中科技大学社会学系 ▪ 不列颠百科全书中指出:“统计学是收 ▪ 集、分析、表述和解释数据的艺术与科 学。” ▪ 最近美国对统计学所下的定义是: “Statistics is the science for learning from data
生动的统计学 《红楼梦》作者考证 众所周知,《红楼梦》一书共120回,自从胡 适作《红楼梦考证》以来,一般都认为前80 回为曹雪芹所写,后40回为高鹗所续。 然而长期以来这种看法一直都饱受争议。 能否从统计上做出论证? 华中科技大学社会学系
华中科技大学社会学系 生动的统计学 ▪ 《红楼梦》作者考证 ▪ 众所周知,《红楼梦》一书共120回,自从胡 适作《红楼梦考证》以来,一般都认为前80 回为曹雪芹所写,后40 回为高鹗所续。 ▪ 然而长期以来这种看法一直都饱受争议。 ▪ 能否从统计上做出论证?
从1985年开始,复旦大学的李贤平教授带领 他的学生作了这项很有意义的工作 研究思路:一般认为,每个人使用某些词的 习惯是特有的。 ■他们创造性的想法是将120回看成是120个样 本,然后确定与情节无关的虚词出现的次数 作为变量,巧妙运用数理统计分析方法,看 看哪些回目出自同一人的手笔。 之所以要抛开情节,是因为在一般情况下, 同一情节大家描述的都差不多,但由于个人 写作特点和习惯的不同,所用的虚词是不会 样的。 华中科技大学社会学系
华中科技大学社会学系 ▪ 从1985 年开始,复旦大学的李贤平教授带领 他的学生作了这项很有意义的工作 ▪ 研究思路:一般认为,每个人使用某些词的 习惯是特有的。 ▪ 他们创造性的想法是将120 回看成是120个样 本,然后确定与情节无关的虚词出现的次数 作为变量,巧妙运用数理统计分析方法,看 看哪些回目出自同一人的手笔。 ▪ 之所以要抛开情节,是因为在一般情况下, 同一情节大家描述的都差不多,但由于个人 写作特点和习惯的不同,所用的虚词是不会 一样的
李教授用每个回目中47个虚词(之,其,或, 亦;…:呀,吗,咧,罢.;可,便,就 出现的次数(频率),作为《红楼梦》各个回 目的数字标志。 利用多元分析中的聚类分析法进行聚类,果 然将120回分成两类,即前80回为一类,后 40回为一类,很形象地证实了不是出自同 人的手笔。 华中科技大学社会学系
华中科技大学社会学系 ▪ 李教授用每个回目中47 个虚词(之,其,或, 亦;..:呀,吗,咧,罢..;可,便,就..等) 出现的次数(频率),作为《红楼梦》各个回 目的数字标志。 ▪ 利用多元分析中的聚类分析法进行聚类,果 然将120回分成两类,即前80 回为一类,后 40 回为一类,很形象地证实了不是出自同一 人的手笔