回H厄G 数理统计方法在化学中的应用 李振华 复旦大学化学系表面化学实验室
数理统计在化学中的应用 数理统计方法在化学中的应用 李振华 复旦大学化学系表面化学实验室
Center for Theoretical Chemical Physics Laboratory of Molecular Catalysis &Innovative Material 绪论:什么是统计学 统计学的历史一般认为开始于十七世纪中叶,最初 的统计学出现在德国和英国,被称为古典统计学 统计学的发展史上曾形成过记述学派、政治算木学 旅、数理学旅这三个主要学旅。十九世纪中叶,数 理学派的代表人物比利时科学家凯特勃(L.A.J! Quetelet),将撬率论正式引进到统计学中之后,也 就开始了数理统计学的发展时期。 统计方法是一种用于收集、表示、分花和解鞋通过 观察和实验而得到的基本数据的方法,是人类认识 自然和社会的重要手段。 李振华制 数理统计在化学中的应用 3
李 振 华 制 造 绪论:什么是统计学 ◼ 统计学的历史一般认为开始于十七世纪中叶,最初 的统计学出现在德国和英国,被称为古典统计学。 统计学的发展史上曾形成过记述学派、政治算术学 派、数理学派这三个主要学派。十九世纪中叶,数 理学派的代表人物比利时科学家凯特勒(L.A.J. Quetelet)将概率论正式引进到统计学中之后,也 就开始了数理统计学的发展时期。 ◼ 统计方法是一种用于收集、表示、分析和解释通过 观察和实验而得到的基本数据的方法,是人类认识 自然和社会的重要手段。 数理统计在化学中的应用 3
Center for Theoretical Chemical Physics Laboratory of Molecular Catalysis Innovative Material 统计学是“对令人困惑费解的问题做出 数字设想的艺术。 -美国David Freedman ■统计学是一门处理数据中变异性的科学 和艺术。 John M.Last《A Dictionary of Epidemiology》 科学5艺木的不同在于不同的人处理相同的问题可能得到不同的猪果 振华 数理统计在化学中的应用 造
李 振 华 制 数理统计在化学中的应用 造 ◼ 统计学是“对令人困惑费解的问题做出 数字设想的艺术。” ---美国 David Freedman ◼ 统计学是一门处理数据中变异性的科学 和艺术。 --- John M.Last《A Dictionary of Epidemiology》 科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果
Center for Theoretical Chemical Physics xr下Io1 ecular C知talysis&IImmovads 统计学有什么用 应用非常广泛 自然科学:物理,化学,生物. 社会科学:历史,文学 国家治理:选举、国家统计局 社会生活:争论,股票,赌博 韩寒代笔之争 《上海股票市场收盖率分布模型统计研究》 《统计定价模型与股票投资决策》>2007年 第15期,作者:高祥宝,闫惠敏 李 华制
李 振 华 制 造 应用非常广泛: • 自然科学:物理,化学,生物… • 社会科学:历史,文学 • 国家治理:选举、国家统计局… • 社会生活:争论,股票,赌博… 韩寒代笔之争 《上海股票市场收益率分布模型统计研究》 《统计定价模型与股票投资决策》>2007年 第15期 ,作者: 高祥宝, 闫惠敏 统计学有什么用
Center for Theoretical Chemical Physics Laboratory of Molecular Catalysis Innovative Material 红楼梦前80回与后40回作者之争 早在1980年,在美国威斯康星大学名开的“首届 国际《红楼梦》研付会”上,该核华裔学者陈炳藻 教授首次报告了他在这方面的研究工作(见[4], [5]),此后远出版了专著(见[6])。陈教授将 《 红楼梦》120回分为三组,每组40回,并将《儿 女英雄传》作为对照狙进行比较研究。他从每组中 任取8万字,桃出名祠、动祠、形容祠、副祠、虚 祠这5种祠,然后运用统计学方法算出各组之间用 祠的相关程度,结果发现:《红楼梦》前80回 与后40回所用祠汇的相关程度远远超过《红楼梦 》与《儿女英雄传》所用祠汇的相关程度,并由此 推断:前80回与后40回均为曹雪芹一人所作。 振华制
李 振 华 制 造 红楼梦前80回与后40回作者之争 ◼ 早在 1980 年,在美国威斯康星大学召开的“首届 国际《红楼梦》研讨会”上,该校华裔学者陈炳藻 教授首次报告了他在这方面的研究工作(见 [4] , [5] ),此后还出版了专著(见 [6] )。陈教授将《 红楼梦》 120 回分为三组,每组 40 回,并将《儿 女英雄传》作为对照组进行比较研究。他从每组中 任取 8 万字,挑出名词、动词、形容词、副词、虚 词这 5 种词,然后运用统计学方法算出各组之间用 词的相关程度,结果发现: 《红楼梦》前 80 回 与后 40 回所用词汇的相关程度远远超过《红楼梦 》与《儿女英雄传》所用词汇的相关程度,并由此 推断:前 80 回与后 40 回均为曹雪芹一人所作
Center for Theoretical Chemical Physics Laboratory of Molecular Catalysis Innovative Material 红楼梦前80回与后40回作者之争 但是,我国华东师范大学陈大康教授得出了迥异的结论 (1987,[7])。他也把《红接梦》120回分成三组,每组40 回,并统计了其中所含词、字、句等88个项目。他发现, 这些祠在前两组出现的规律相同,而与后40回却不一致, 关于用字特点和句式规律,前两组也是惊人的吻合,而后 40回则迥异。由此推断:后40回非曹雪芹所作(但含有少 量戏稿) 本文以数据分析为基础,以统计学中“两个独立二项总体 的等价性检骏验”为基本方法,很清楚明确地证明:《红楼 梦》前80回与后40回在饮食与花卉的描写上确实存在非 常显著的差异;在树木的描写上也存在明星差异。不过 这种差异还不能说明《红楼梦》前80回与后40回出自不 同的作者。 振华制
李 振 华 制 造 红楼梦前80回与后40回作者之争 ◼ 但是,我国华东师范大学陈大康教授得出了迥异的结论 (1987 , [7]) 。他也把《红楼梦》 120 回分成三组,每组 40 回,并统计了其中所含词、字、句等 88 个项目。他发现, 这些词在前两组出现的规律相同,而与后 40 回却不一致; 关于用字特点和句式规律,前两组也是惊人的吻合,而后 40 回则迥异。由此推断:后 40 回非曹雪芹所作(但含有少 量残稿) ◼ 本文以数据分析为基础,以统计学中“两个独立二项总体 的等价性检验”为基本方法,很清楚明确地证明:《红楼 梦》前 80 回与后 40 回在饮食与花卉的描写上确实存在非 常显著的差异;在树木的描写上也存在明显差异。不过, 这种差异还不能说明《红楼梦》前 80 回与后 40 回出自不 同的作者
Center for Theoretical Chemical Physics Laboratory of Molecular Catalysis &Inmovative Material 美国大选 http://bbs.ifeng.com/article/46461978.html 美国大这对统计学的挑战: 统计学是经济学理论的一个分支,统计学立用在社会 学的选举上,数字结果决定了社会的状态。抽样调查 在全样本统计的面前的误差,应该不是统计学理论的 问题,而是抽样调查的样本选取,调查人员的样本确 定决定的。人们从社会学角度,从政治学角度去用统 计学方式,用有色眼晴去看问题,那就会出现视为大 跌眼镜的现象。 李振华制 数理统计在化学中的应用 8
李 振 华 制 造 美国大选 ◼ http://bbs.ifeng.com/article/46461978.html 美国大选对统计学的挑战: 统计学是经济学理论的一个分支,统计学应用在社会 学的选举上,数字结果决定了社会的状态。抽样调查 在全样本统计的面前的误差,应该不是统计学理论的 问题,而是抽样调查的样本选取,调查人员的样本确 定决定的。人们从社会学角度,从政治学角度去用统 计学方式,用有色眼睛去看问题,那就会出现视为大 跌眼镜的现象。 数理统计在化学中的应用 8
Center for Theoretical Chemical Physics Laboratory of molecular Catalysis innovative material 机器学习 Machine Learning Statistical Learning in R Data Mining 振华 数理统计在化学中的应用 9 造
李 振 华 制 造 机器学习 ◼ Machine Learning ◼ Statistical Learning in R ◼ Data Mining 数理统计在化学中的应用 9
Center for Theoretical Chemical Physics Laboratory of Molecular Catalysis &Inmovative Material 化学系为什么要讲数理统计 化学的基础是测量 应该说化学这一学科基本上还是一门实验学科,因 此化学工作者掌握数理统计的原理及其应用的必要 性和实际意义也就显得尤为重要。 在美国芝加哥大学社会科学研究馆的正面,刻有这 样一段铭文:“假若你不能测量,你的知识就是负 乏和不能令人满意的。” 振华制 数理统计在化学中的应用
李 振 华 制 数理统计在化学中的应用 造 化学的基础是测量 ◼ 应该说化学这一学科基本上还是一门实验学科,因 此化学工作者掌握数理统计的原理及其应用的必要 性和实际意义也就显得尤为重要。 ◼ 在美国芝加哥大学社会科学研究馆的正面,刻有这 样一段铭文:“假若你不能测量,你的知识就是贫 乏和不能令人满意的。” 化学系为什么要讲数理统计
Center for Theoretical Chemical Physics Laboratory of Molecular Catslysis Innovative Material 不能片面强调测量的精确性 测量具有随机可变性、不确定性、模糊性。统计学 可解决前两种问题 ■片面地追求所谓精确性,其结果只能是将认识 过程中的某一部分加以近似化、简单化,最终 常会走向形而上学,乃至神秘主义。 ■ 假如你只懂得测量,那么你对世界的认识将是可怜 的。 振华制 数理统计在化学中的应用
李 振 华 制 数理统计在化学中的应用 造 不能片面强调测量的精确性 ◼ 测量具有随机可变性、不确定性、模糊性。统计学 可解决前两种问题. ◼ 片面地追求所谓精确性,其结果只能是将认识 过程中的某一部分加以近似化、简单化,最终 常会走向形而上学,乃至神秘主义。 ◼ 假如你只懂得测量,那么你对世界的认识将是可怜 的