第六章数理统计的基本概念 绪言 数理统计包括两大内容: 、试验的设计和研究---研究更合理、更有效、更精确地获 取观察资料的方法。 二、统计推断-研究如何利用一定的资料对所关心的问题 作出尽可能精确、可靠的结论
第六章 数理统计的基本概念 绪言 数理统计包括两大内容: 一、试验的设计和研究-----研究更合理、更有效、更精确地获 取观察资料的方法。 二、统计推断------研究如何利用一定的资料对所关心的问题 作出尽可能精确、可靠的结论
例为了解南京市民2002年收入情况,现抽样调查10000人的 收入。 问题: 1.怎样从10000人的收入情况去估计全体南京市民的平均收入? 怎样估计所有南京市民的收入与平均收入的偏离程度? 2.若市政府提出了全体南京市民平均收入应达到的标准,从抽 查得到的10000人收入数据,如何判断全体南京市民的平均收入 与收入标准有无差异?差异是否显著? 3.抽查得到的10000人的收入有多有少,若这10000人来自不同的 行业,那么,收入的差异是由于行业不同引起的,还是仅由随机 因素造成的? 4.假设收入与年龄有关,从抽查得到的10000收入和年龄的 对应数据,如何表述全体南京市民的收入与年龄之间的关系?
例 为了解南京市民2002年收入情况,现抽样调查10000人的 收入。 问题: 1. 怎样从10000人的收入情况去估计全体南京市民的平均收入? 怎样估计所有南京市民的收入与平均收入的偏离程度? 2. 若市政府提出了全体南京市民平均收入应达到的标准,从抽 查得到的10000人收入数据,如何判断全体南京市民的平均收入 与收入标准有无差异?差异是否显著? 3. 抽查得到的10000人的收入有多有少,若这10000人来自不同的 行业,那么,收入的差异是由于行业不同引起的,还是仅由随机 因素造成的? 4. 假设收入与年龄有关,从抽查得到的10000人收入和年龄的 对应数据,如何表述全体南京市民的收入与年龄之间的关系?
可题1实质:从10000人的收入出发,估计全体南京市民收入 分布的某些数字特征(此处是期望和方差) 在数理统计中,解决这类问题的方法称为参数估计 可题2实质:根据抽查得到的数据,去检验总体收入的某个 数字特征(此处是期望)与给定值的差异。 --在数理统计中,解决这类问题的方法称为假设检验。 问题3实质:分析数据误差的原因(此处是行业)。当有多个因 素起作用时,还要分析哪些因素起主要作用。 在数理统计中,解决这类问题的方法称为方差分析。 问题4实质:根据观察数据研究变量间(此处是收入与年龄间) 的关系。 --在数理统计中,解决这类问题的方法称为回归分析
问题1实质:从10000人的收入出发,估计全体南京市民收入 分布的某些数字特征(此处是期望和方差)。 -----在数理统计中,解决这类问题的方法称为参数估计。 问题2实质:根据抽查得到的数据,去检验总体收入的某个 数字特征(此处是期望)与给定值的差异。 -----在数理统计中,解决这类问题的方法称为假设检验。 问题3实质:分析数据误差的原因(此处是行业)。当有多个因 素起作用时,还要分析哪些因素起主要作用。 -----在数理统计中,解决这类问题的方法称为方差分析。 问题4实质:根据观察数据研究变量间(此处是收入与年龄间) 的关系。 -----在数理统计中,解决这类问题的方法称为回归分析
第一节随机样本 总体 在数理统计中,将所研究的对象的某项指标值的全体称为 总体(或母体),而将构成总体的每个单位称为一个个体。 当总体中包含的个体总数是有限的,就称总体为有限总体, 否则称总体为无限总体。 设待研究的指标为Ⅹ,由于X的取值是对随机抽取的个体观 察得到的,因而可将X视为随机变量,并设其分布函数为F(x) 定义6.1一个随机变量X(或其分布函数F(x)叫做一个总体,Ⅹ 的每个可能值叫做一个个体。 二、样本 从总体X中,随机地抽取n个个体进行观察,可得到n个观 察值,将其依抽取的顺序记为(x,x2
第一节 随机样本 一、总体 在数理统计中,将所研究的对象的某项指标值的全体称为 总体(或母体),而将构成总体的每个单位称为一个个体。 当总体中包含的个体总数是有限的,就称总体为有限总体, 否则称总体为无限总体。 设待研究的指标为X,由于X的取值是对随机抽取的个体观 察得到的,因而可将X视为随机变量,并设其分布函数为F(x)。 定义6.1 一个随机变量X(或其分布函数F(x))叫做一个总体,X 的每个可能值叫做一个个体。 二、样本 从总体X中,随机地抽取n个个体进行观察,可得到n个观 察值,将其依抽取的顺序记为 (x1 ,x2 ,,xn )
若将总体在进行第i次抽样时对应的随机变量记为X,, 则x;就是X的观察值。 我们提出以下要求 1.X,与X同分布; 一抽样方式为重复抽样 2.A1,X2,…,Xn相互独立。 实际应用中,一般当有限总体中包含个体数目N>10n时,即 使采用不重复抽样,也认为要求满足。 定义62若X;,i=1,2,…n相互独立,且均与总体X有相同分 布,则称随机向量(X1,X2,…,Xn)为总体X的一个容量为n的 简单随机样本(简称样本),称n为样本容量。 设X的观察值为x,称(x,x2,…,xn)为X的一个样本 观察值(样本点),称Ω={(x1,x2,…,xn)}为样本空间。 说明:1.Ω是样本观察值全体所成集合,是n维空间上的点集, 它不是总体X的样本空间
若将总体在进行第 i 次抽样时对应的随机变量记为 , 则 就是 的观察值。 Xi i x Xi 我们提出以下要求: 1. 与X同分布; 2. 相互独立。 Xi X1 ,X2 ,,Xn 抽样方式为重复抽样 实际应用中,一般当有限总体中包含个体数目 N>10n 时,即 使采用不重复抽样,也认为要求满足。 定义6.2 若 相互独立,且均与总体X有相同分 布,则称随机向量( )为总体X的一个容量为n 的 简单随机样本(简称样本),称 n 为样本容量。 设 的观察值为 ,称( )为X的一个样本 观察值(样本点),称={( )}为样本空间。 Xi ,i =1,2,n X1,X2,,Xn Xi i x n x,x ,,x 1 2 n x,x ,,x 1 2 说明:1. 是样本观察值全体所成集合,是 n 维空间上的点集, 它不是总体X的样本空间
2.在一次抽样之前,我们只知道样本(X1,X2,…,Xn)n维 随机变量),而在抽样之后,则得到一个具体的n维实向量 (x1,x2,…,xn),它是Ω中的一个点,故称其为样本点。 注意:对任何总体X,其容量为n的样本是唯一的,而每次抽 样得到的样本观察值一般说来是不同的。 设X的分布函数为F(x),由定义62,X的容量为n的样本 (X1,X2,…,Xn)的第i个分量X,的分布函数为 F(x),i=1,2,…,n. 因X1,X2,…,Xn相互独立,故(X1,Ⅹ2,…,Xn)分布函数 为F“(x,x2xn)=F(x
2. 在一次抽样之前,我们只知道样本( )(n 维 随机变量),而在抽样之后,则得到一个具体的 n 维实向量 ( ),它是中的一个点,故称其为样本点。 X1 ,X2 ,,Xn n x,x ,,x 1 2 注意:对任何总体X,其容量为 n 的样本是唯一的,而每次抽 样得到的样本观察值一般说来是不同的。 设X的分布函数为 F(x),由定义6.2,X的容量为n 的样本 (X1,X2,,Xn ) 的第i 个分量 Xi 的分布函数为 F(x ) i 1 2 n. i , = ,,, 因 相互独立,故 分布函数 为 ( ) X1 ,X2 ,,Xn X1 ,X2 ,,Xn ( ) ( ). 1 1 2 = = n i n i F x,x ,,x F x
若X是离散型随机变量,其分布律为P(X=x1),i=1,2, 则(X1,x2,…,Xn)的分布律为 P(X=X, X2=x2,,X,=x=P(X,=x;) 若Ⅹ是连续型随机变量,其密度函数为f(x),则 (X1,X2,…,Xn)的密度函数为 f(x,x2…,x)=∏f(x) 三、样本分布函数 问题:用样本观察值推断总体,其结论可靠吗? 解决问题的途径:根据抽样得到的样本观察值构造一个函数 样本分布函数,再证明当n很大时,样本分布函数近似于总体 的分布函数
若X是离散型随机变量,其分布律为 P(X= ),i=1,2,…. 则 的分布律为 i x ( ) X1,X2,,Xn ( ) ( ). 1 1 1 2 2 i n i n n i P X = x X = x X = x =P X = x = , ,, 若X 是连续型随机变量,其密度函数为 f(x),则 (X1 ,X2 ,,Xn ) 的密度函数为 ( ) ( ). 1 1 2 = = n i n i f x,x ,,x f x 三、样本分布函数 问题:用样本观察值推断总体,其结论可靠吗? 解决问题的途径:根据抽样得到的样本观察值构造一个函数---- 样本分布函数,再证明当n很大时,样本分布函数近似于总体 的分布函数
定义63设总体X的一组样本观察值为(x,x2…,xn),将 这组值依大小顺序重排成x1≤x2≤…≤xn。构造函数 0 当x≤x k F(x X<x k+1 k=1,2,…n-1 x≥ 称Fn(x)为样本分布函数(或称经验分布函数)。 说明:1.在定义63中,k/n是不大于x的样本观察值出现的频 率。 2.对总体进行两次抽样,会得到两组不同的样本观察值, 因而就会产生两个不同的样本分布函数。 3.样本分布函数是一个阶梯函数:设 X<X k-1 k k+1 X k+l-1 <X k+l
定义6.3 设总体X的一组样本观察值为 ,将 这组值依大小顺序重排成 。构造函数 ( ) 1 2 n x,x ,,x n x x x 1 2 = − = + 1 . 1 2 1 0 ( ) 1 1 n n k k x x x x x k n n k x x F x , 当 , 当 , ,, , , 当 , 称 Fn (x) 为样本分布函数(或称经验分布函数)。 说明:1. 在定义6.3中,k/n 是不大于x的样本观察值出现的频 率。 2. 对总体进行两次抽样,会得到两组不同的样本观察值, 因而就会产生两个不同的样本分布函数。 3. 样本分布函数是一个阶梯函数:设 xk −1 xk = xk +1 == xk +l−1 xk +l
k-1 则当 k-1 ≤x<Xk 有F(x)= 当xk≤x<Ak+1有Fn(x)= k+1-1 即:Fn(x)在x=Xk处有l/n的跃度。 4.容易证明:F(x)确是某随机变量ξ,的分布函数,且有 n B(n)=∑x=x,D(5n)=∑(x-x) 5.当n越大,Fn(x)的图形与总体分布函数F(x)的图形越近 6.由贝努利大数定律或W格列汶科定理(1953)可从理论上证 明:当n很大时,有F(x)≈F(x)
则当 ,有 k− k x x x 1 , n k F x n 1 ( ) − = 当 , 有 + k k l x x x , n k l F x n 1 ( ) + − = 即: Fn (x) 在 处有 的跃度。 = k x x l / n 5. 当n 越大, 的图形与总体分布函数 F(x) 的图形越近 似。 F (x) n 6. 由贝努利大数定律或 W. 格列汶科定理(1953) 可从理论上证 明:当n 很大时,有 F (x) F(x). n 4. 容易证明: Fn (x) 确是某随机变量 n 的分布函数,且有 ( ) . 1 ˆ ( ) 1 ( ) 1 2 1 = = = = = − n i n i n i n i x x n x x D n E ,
第二节抽样分布 、统计量 定义64 设(X,X2,…,Xn)是总体ⅹ的一个样本8(y,y2,…,y) 是不含任何未知参数的连续函数,则称g(X1,X2…,Xn) 个统计量。 若8(X1,X2…,Xn)是一个统计量,(x,x2,…,x)是 组样本观察值,则称g(x,x…x)是g(X,X2,…Xn)的 个观察值。 、样本数字特征 定义6.5 设(X1, Xn)是总体X的一个样本,称以下统计量为样本 数字特征:
第二节 抽样分布 一、统计量 定义6.4 设 是总体X 的一个样本, 是不含任何未知参数的连续函数,则称 是 一个统计量。 ( ) X1,X2,,Xn ( ) 1 2 n g y,y ,,y ( ) g X1 ,X2 ,,Xn 若 是一个统计量, 是一 组样本观察值,则称 是 的 一个观察值。 ( ) g X1 ,X2 ,,Xn ( ) g X1 ,X2 ,,Xn ( ) 1 2 n g x,x ,,x ( ) 1 2 n x,x ,,x 二、样本数字特征 定义6.5 设 是总体X 的一个样本,称以下统计量为样本 数字特征: ( ) X1,X2,,Xn