数理统计学 主讲:陈荣斯教授、博士
数 理 统 计 学 主 讲: 陈荣斯 教授 、 博士
数理统计的基础知识
数 理 统 计 的 基 础 知 识
从历史的典籍中人们不难发现许多关于钱粮、户口、地震、 水灾等等的记载,说明人们 明 很早就开始了统计的工作 但是当时的统计,只是对有 关事实的简单记录和整理, 而没有在一定理论的指导下, 作出超越这些数据范围之外 的推断 到了十九世纪末二十世纪初,随着近代数学和概率论的发展, 才真正诞生了数理统计学这门学科 数理统计不同于一般的资料统计,它更侧重于应用随机现象 本身的规律性进行资料的收集、整理和分析数理统计的特点是 应用面广,分支多.社会的发展正在不断地向数理统计提出新的 问题
但是当时的统计, 只是对有 关事实的简单记录和整理, 从历史的典籍中人们不难发现许多关于钱粮、户口、地震、 水灾等等的记载, 说明人们 很早就开始了统计的工作. 到了十九世纪末二十世纪初,随着近代数学和概率论的发展, 才真正诞生了数理统计学这门学科. 而没有在一定理论的指导下, 作出超越这些数据范围之外 的推断. 数理统计的特点是 应用面广, 分支多. 社会的发展正在不断地向数理统计提出新的 问题.数理统计不同于一般的资料统计, 它更侧重于应用随机现象 本身的规律性进行资料的收集、整理和分析
数理统计与概率论是两个有密切联系的学科,它们都以随 机现象的统计规律为研究对象 但在研究问题的方法上有很大区别: 概率论—一已知随机变量服从某分布,寻求分布的性质、 数字特征、及其应用; 数理统计一一通过对实验数据的统计分析,寻找所服从的分 布和数字特征,从而推断整体的规律性 数理统计的核心问题一一由样本推断总体
它们都以随 机现象的统计规律为研究对象. 数理统计与概率论是两个有密切联系的学科, 但在研究问题的方法上有很大区别: 概率论 —— 已知随机变量服从某分布, 寻求分布的性质、 数字特征、及其应用; 数理统计 —— 通过对实验数据的统计分析, 寻找所服从的分 布和数字特征, 从而推断整体的规律性. 数理统计的核心问题——由样本推断总体
由于大量随机现象必然呈现出它的规律性.因而从理论上 讲,只要对随机现象进行足够多次观察,被研究的随机现象的 规律性一定能清楚地呈现出来.但客观上只允许我们对随机现 象进行次数不多的观察试验,也就是说,我们获得的只是局部 观察资料. 数理统计就是在概率论的基础上研究怎样以有效的 方式收集、整理和分析可获的有限的,带有随机性的数 据资料,对所考察问题的统计性规律尽可能地作出精确 而可靠的推断或预测,为采取 定的决策和行动提供依据和建议
也就是说, 我们获得的只是局部 观察资料. 因而从理论上 讲,只要对随机现象进行足够多次观察, 但客观上只允许我们对随机现 象进行次数不多的观察试验, 被研究的随机现象的 规律性一定能清楚地呈现出来. 数理统计就是在概率论的基础上研究怎样以有效的 方式收集、整理和分析可获的有限的, 带有随机性的数 据资料, 由于大量随机现象必然呈现出它的规律性. 对所考察问题的统计性规律尽可能地作出精确 而可靠的推断或预测,为采取一 定的决策和行动提供依据和建议
计算机的诞生与发展为数据处理提供了强有力的技术支持, 数理统计与计算机的结合是必然的发展趋势.国内外著名的统 计软件包:SAS,SPSS,STAT等,都可以让你快速、简便地 进行数据处理和分析 由于学时有限,这部分内容的重点在于介绍数理统计的 些重要概念和典型的统计方法,它们是实际中最常用的知识 学习统计无须把过多时间化在计算上,应更有效地把时间 用在基本概念、方法原理的正确理解上
计算机的诞生与发展为数据处理提供了强有力的技术支持, 国内外著名的统 计软件包: SAS,SPSS,STAT 等,都可以让你快速、简便地 进行数据处理和分析. 由于学时有限,这部分内容的重点在于介绍数理统计的一 些重要概念和典型的统计方法,它们是实际中最常用的知识. 学习统计无须把过多时间化在计算上, 应更有效地把时间 用在基本概念、方法原理的正确理解上. 数理统计与计算机的结合是必然的发展趋势
§1总体和样本 、总体、个体和样本 1.总体一个统计问题总有它明确的研究对象 研究对象的全体称为总体(母体),总体中每个对象称为个体. 总体研究某批灯泡的质量 总体 该批灯泡寿命的全体就是总体 每公里的耗油量 灯泡的寿命 考察国产轿车的质量 所有国产轿车每公里耗油量的全体就是总体 不过在统计研究中,人们关心总体仅仅是关心 其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布 情况.这时,每个个体具有的数量指标的全体就是总体 称总体中所含个体的数目为总体容量,总体容量有限的称为有 限总体,总体容量无限的称为无限总体
总体容量有限的称为有 限总体, 总体 1.总体 一个统计问题总有它明确的研究对象. 研究对象的全体称为总体(母体),总体中每个对象称为个体. 一、总体、个体和样本 总体 研究某批灯泡的质量 考察国产 轿车的质量 §1 总体和样本 不过在统计研究中,人们关心总体仅仅是关心 其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布 情况. 该批灯泡寿命的全体就是总体 灯泡的寿命 每公里的耗油量 所有国产轿车每公里耗油量的全体就是总体 这时,每个个体具有的数量指标的全体就是总体. 称总体中所含个体的数目为总体容量, 总体容量无限的称为无限总体
从另一方面看: 统计的任务,是根据从总体中抽取的样本,去推断总体的性质 由于我们关心的是总体中的个体的某项指标(如人的身高、体重 灯泡的寿命,汽车的耗油量…), 所谓总体的性质,无非就是这 些指标值集体的性质 概率分布是刻划这种集体性质最适当的工具.因此在理论上可 以把总体与概率分布等同起来 如研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此 总体就可用描述其寿命的随机变量X或用其分布函数F(x)表示 再如,若研究某地区中学生的营养状况时,关心的数量指标是身 高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二 维随机变量(X,Y或其联合分布函数F(x,y)来表示 总体概念的要旨:总体就是一个概率分布
那么, 此 总体就可用描述其寿命的随机变量X 或用其分布函数F(x)表示. 因此在理论上可 以把总体与概率分布等同起来. 概率分布是刻划这种集体性质最适当的工具. 统计的任务,是根据从总体中抽取的样本, 去推断总体的性质. 由于我们关心的是总体中的个体的某项指标(如人的身高、体重, 灯泡的寿命,汽车的耗油量…), 从另一方面看: 如研究某批灯泡的寿命时, 关心的数量指标就是寿命, 所谓总体的性质,无非就是这 些指标值集体的性质. 我们用X和Y分别表示身高和体重,那么此总体就可用二 维随机变量(X,Y)或其联合分布函数 F(x, y)来表示. 总体概念的要旨: 总体就是一个概率分布 再如, 若研究某地区中学生的营养状况时, 关心的数量指标是身 高和体重
2.样本 为推断总体分布及各种特征,按一定规则从总体中抽取若干个 体进行观察试验以获得有关总体的信息.这一抽取过程称为抽样, 所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容 量. 进行耗油量试验样本容量为5 抽到哪5辆是随机的! 样本是随机变量 容量为n的样本可以看作一n维随机变量(X1,X2,…,Xn) 但是,一旦取定一组样本,得到的是n个具体的数x1,x2,…,xn, 称为样本(X,X2,…,X)的一组观测值,简称样本值
样本中所包含的个体数目称为样本容 量.但是,一旦取定一组样本,得到的是 n 个具体的数 x1, x2, …, xn , 按一定规则从总体中抽取若干个 体进行观察试验以获得有关总体的信息. 为推断总体分布及各种特征, 从国产轿车中抽5辆 进行耗油量试验 样本容量为5 2. 样本 样本是随机变量 抽到哪 5 辆是随机的! 容量为n 的样本可以看作一 n 维随机变量(X1, X2, …, Xn). 所抽取的部分个体称为样本. 这一抽取过程称为抽样, 称为样本(X1, X2, …, Xn)的一组观测值,简称样本值
抽样的目的是为了对总体进行统计推断,为了使抽取的样本能 很好地反映总体的信息,必须考虑抽样方法 最常用的一种抽样方法叫作简单随机抽样,它要求抽取的样本 X1,X2,…,Xn满足下面两点: 1独立性:X1,X2,…,Xn是相互独立的随机变量; 2代表性:XGi=1,2,…,n)与所考察的总体X同分布 由简单随机抽样得到的样本称为简单随机样本,它可以用与总体 同分布的n个相互独立的随机变量X1,X2,…,Yn表示 简单随机样本是应用中最常见的情形,今后,说到“X1,…,Xn 是取自某总体的样本”时,若不特别说明,就指简单随机样本 若总体X的分布函数为F(x),则其简单随机样本的联合分布函数为 F(x,x2,…,xn)=F(x1)F(x)…F(x)=1F(x) 若总体X的概率密度为f(x),则其简单随机样本的联合概率密度为 f(x1,…,xn)=f(x1)
它要求抽取的样本 X1, X2, …, Xn 满足下面两点: 它可以用与总体 同分布的 n 个相互独立的随机变量 X1, X2, …, Xn 表示. 2.代表性: Xi (i =1,2,…,n) 与所考察的总体 X 同分布. 为了使抽取的样本能 很好地反映总体的信息,必须考虑抽样方法. 最常用的一种抽样方法叫作简单随机抽样, 1.独立性: X1, X2, …, Xn 是相互独立的随机变量; 抽样的目的是为了对总体进行统计推断, 由简单随机抽样得到的样本称为简单随机样本, 今后, 说到 “X1, …, Xn 是取自某总体的样本”时, 若不特别说明, 就指简单随机样本. 则其简单随机样本的联合分布函数为 F( x1, x2, …, xn )= F(x1)F(x2)…F(xn) 简单随机样本是应用中最常见的情形, 若总体X的分布函数为F(x), ( ). 1 n i F xi 若总体X的概率密度为f(x), 则其简单随机样本的联合概率密度为 ( , , ) ( ). 1 1 n i x xn f xi f