《概率论与数理统计》课程教学资源（电子教案）第六章样本及抽样分布.doc_大学文库

元素称为个体例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标ⅹ是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X可能取值的全体组成的集合等同起来定义1:把研究对象的全体(通常为数量指标X可能取值的全体组成的集合)称为总体总体中的每个元素称为个体。我们对总体的研究,就是对相应的随机变量X的分布的研究,所谓总体的分布也就是数量指标X的分布,因此,X的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体X。根据总体中所包括个体的总数,将总体分为:有限总体和无限总体例1:考察一块试验田中小麦穗的重量: X=所有小麦穗重量的全体(无限总体);个体—一每个麦穗重x 对应的分布: F(x)=PEx=重量x的麦穗数=1 e2d~N(u,a2)0<x<+0 总麦穗数例2:考察一位射手的射击情况 X=此射手反复地无限次射下去所有射击结果全体每次射击结果都是一个个体(对应于靶上的一点) 射中个体数量化x= 0未中 1在总体中的比例p为命中率 0在总体中的比例1-p为非命中率总体X由无数个0,1构成,其分布为两点分布B(1,p)P{X=1}=p,P{X=0}=1-p 2样本与样本空间为了对总体的分布进行各种研究,就必需对总体进行抽样观察

2 元素称为个体。例如：在研究某批灯泡的平均寿命时，该批灯泡的全体就组成了总体，而其中每个灯泡就是个体；在研究我校男大学生的身高和体重的分布情况时，该校的全体男大学生组成了总体，而每个男大学生就是个体。但对于具体问题，由于我们关心的不是每个个体的种种具体特性，而仅仅是它的某一项或几项数量指标 X (可以是向量)和该数量指标 X 在总体的分布情况。在上述例子中 X 是表示灯泡的寿命或男大学生的身高和体重。在试验中，抽取了若干个个体就观察到了 X 的这样或那样的数值，因而这个数量指标 X 是一个随机变量（或向量），而 X 的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标，因此我们以后就把总体和数量指标 X 可能取值的全体组成的集合等同起来。定义 1：把研究对象的全体（通常为数量指标 X 可能取值的全体组成的集合）称为总体；总体中的每个元素称为个体。我们对总体的研究，就是对相应的随机变量 X 的分布的研究，所谓总体的分布也就是数量指标 X 的分布，因此， X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量，笼统称为总体 X 。根据总体中所包括个体的总数，将总体分为：有限总体和无限总体。例 1：考察一块试验田中小麦穗的重量： X =所有小麦穗重量的全体（无限总体）；个体——每个麦穗重 x 对应的分布：     +  =  =   = −  − − e dt N x 重量 x F x P x x t ~ ( , ) 0 2 1 ( ) { } 2 2 ( ) 2 2 总麦穗数的麦穗数例 2：考察一位射手的射击情况： X =此射手反复地无限次射下去所有射击结果全体；每次射击结果都是一个个体（对应于靶上的一点）个体数量化    = 未中射中 0 1 x 1 在总体中的比例 p 为命中率 0 在总体中的比例 1− p 为非命中率总体 X 由无数个 0，1 构成，其分布为两点分布 B(1, p) P{X = 1} = p, P{X = 0} = 1− p 2.样本与样本空间为了对总体的分布进行各种研究，就必需对总体进行抽样观察

3 抽样——从总体中按照一定的规则抽出一部分个体的行动。一般地，我们都是从总体中抽取一部分个体进行观察，然后根据观察所得数据来推断总体的性质。按照一定规则从总体 X 中抽取的一组个体 ( , , , ) X1 X2  Xn 称为总体的一个样本，显然，样本为一随机向量。为了能更多更好的得到总体的信息，需要进行多次重复、独立的抽样观察（一般进行 n 次），若对抽样要求①代表性：每个个体被抽到的机会一样，保证了 X X Xn , , , 1 2  的分布相同，与总体一样。②独立性： X X Xn , , , 1 2  相互独立。那么，符合“代表性”和“独立性”要求的样本 ( , , , ) X1 X2  Xn 称为简单随机样本。易知，对有限总体而言，有放回的随机样本为简单随机样本，无放回的抽样不能保证 X X Xn , , , 1 2  的独立性；但对无限总体而言，无放回随机抽样也得到简单随机样本，我们本书则主要研究简单随机样本。对每一次观察都得到一组数据（ n x , x , , x 1 2  ），由于抽样是随机的，所以观察值（ n x , x , , x 1 2  ）也是随机的。为此，给出如下定义：定义 2:设总体 X 的分布函数为 F(x) ，若 X X Xn , , , 1 2  是具有同一分布函数 F(x) 的相互独立的随机变量，则称（ X X Xn , , , 1 2  ）为从总体 X 中得到的容量为 n 的简单随机样本，简称样本。把它们的观察值（ n x , x , , x 1 2  ）称为样本值。定义 3:把样本( X X Xn , , , 1 2  )的所有可能取值构成的集合称为样本空间,显然一个样本值 ( n x , x , , x 1 2  )是样本空间的一个点。二、样本的分布：设总体 X 的分布函数为 F(x) ，（ X X Xn , , , 1 2  ）是 X 的一个样本，则其联合分布函数为： F ( x ,x , ,x ) n * 1 2  == n i 1 ( )i F x 。例 3：设总体 ~ (1, ) , ( , , ) X B p X1 X2 Xn 为其一个简单随机样本，则样本空间 {( x ,x , ,x ) x , ; i , , ,n}  = 1 2  n i = 01 =12  ，因为 1 { } (1 ) x x P X x p p − = =  − ， x = 0,1 所以样本的联合分布列为： 1 1 2 2 1 1 2 2 { , , , } { } { } { } P X x X x X x P X x P X x P X x = = = = = = = n n n n p p p p p p xi i n x x x x x x n n (1 ) . (1 ) (1 ) 0,1 1,2, , 1 1 1 = 1 − − 1 2 − − 2  − − = =  §6.2 分布函数与概率密度函数的近似解

4 在概率论中，我们介绍了几种常用的分布函数以及它们的性质，当时我们总假定它们都是先给定的，而在实际中，所遇到的用于描述随机现象的随机变量，事先并不知道其分布函数，甚至连其分布类型也一无所知，那么，怎么样才能确定它的分布函数 F(x) 呢？一般地，利用样本及样本值，建立一定的概率模型，用由此获得的概率统计信息来对总体 X 的 F(x) 进行估计和推断，这就是：一、经验分布函数 1.定义：设（ X X Xn , , , 1 2  ）是来自总体 X 的样本，用 S x( ) 表示：  x R， 1 2 , , , X X X n 中不大于 x 的随机变量的个数，定义经验分布函数为 1 ( ) ( ) F x S x x R n n =  。设( n x , x , , x 1 2  )是样本的一个观察值，令这 n 个数值由小到大的顺序排列后为： * 1 x ≤ * 2 x ≤ * 3 x ≤……≤ * n x ，对  x ∈R 由定义很容易得到经验分布函数的观察值： * ( ) F x n =      1 0 n k * n * k * k * x x x x x x x     +1 1 k = 1,2,  , n −1 通常也称 * ( ) F x n 是总体 X 的经验分布函数,在不至于混淆的情况下统一用 F (x) n 来表示总体 X 的经验分布函数。显然， F (x) n 是单调非降右连续的跳跃函数（阶梯函数），在点 * k x = x 处有间断，在每个间断点的跃度为 n 1 ，（ k =1，2，3，…， n ）且 0  Fn (x) 1， lim F (x) n x→− =0， lim F (x) n x→+ =1，它满足分布函数的三个性质，所以必是一个分布函数。一般地，随着 n 的增大， F (x) n 越来越接近 X 的分布函数 F(x) ，关于这一点，格列汶科（Glivenko）在 1953 年给了理论上的论证，即： 2.定理 1(Glivenko-Th)：若总体 X 的分布函数为 F(x) ，经验分布函数为 F (x) n ，则对 x R ，有： P F x F x lim( sup | ( ) ( ) |) 0 1 n→ − + x n    − = =  [ . ( ) ( ) a e F x F x n ⎯⎯⎯→ 一致 ] 定理表明， F (x) n 以概率 1 一致收敛于 F(x) ，即：可以用 F (x) n 来近似 F(x) ，这也是利用样本来估计和判断总体的基本理论和依据。例 4：某厂从一批荧光灯中抽出 10 个，测其寿命的数据（单位千时）如下： 95.5， 18.1， 13.1， 26.5， 31.7， 33.8， 8.7， 15.0， 48.8， 48.3

8 §6.4 抽样分布 0、引言有了总体和样本的概念，能否直接利用样本来对总体进行推断呢？一般来说是不能的，需要根据研究对象的不同，构造出样本的各种不同函数，然后利用这些函数对总体的性质进行统计推断，为此，我们首先介绍数理统计的另一重要概念——统计量。一、统计量（随机变量）定义 1：设 1 2 ( , , , ) X X X n 是来自总体 X 的一个样本， 1 2 ( , , , ) n g X X X 是样本的函数，若 g 中不含任何未知参数，则称 g ( X X Xn , , , 1 2  )是一个统计量。设 1 2 ( , , , ) n x x x 是对应于样本 1 2 ( , , , ) X X X n 的样本值，则称 1 2 ( , , , ) n g x x x 是 1 2 ( , , , ) n g X X X 的观察值。事实上§6.3 中的样本矩都是统计量；再如 ( , ) X1 X2 是来自总体 ~ (1, ) 2 X N  的一个样本，则 1, min( , ) X1 + X2 − X1 X2 都是统计量，而 X1 就不是统计量。由§6.1 知：（ X X Xn , , , 1 2  ）是随机变量，而统计量是样本（ X X Xn , , , 1 2  ）的函数，所以统计量也是随机变量。而统计量是我们对总体的分布函数或数字特征进行统计推断的最重要的基本概念，所以寻求统计量的分布成为数理统计的基本问题之一。我们把统计量的分布称为抽样分布。然而要求出一个统计量的精确分布是十分困难的。而在实际问题中，大多总体都服从正态分布：而对于正态分布，我们可以求出一些重要统计量的精确分布，这就是：二、几种常用的抽样分布：（正态分布中的几种统计量的分布）把 2  分布， t 分布， F 分布，统称为“统计三大分布”。 1、正态分布由正态分布的性质，可得如下结论： 1）定理：设 X X Xn , , , 1 2  相互独立, ~ ( , ) 2 Xi N i i ，i = 1,2,  , n ， 是关于 Xi 的任一确定的线性函数( = = n i i Xi a 1  )，则  也服从正态分布，且  ~   = =   n i n i N ai i ai i 1 1 2 2 ( , ) 。 2）结论：若（ X X Xn , , , 1 2  ）是来自总体 2 X N~ ( , )   的一个样本， X 为样本均值，则 ① X ~ ( , ) 2 n N   ，由上述结论可知： X 的期望与 X 的期望相同，而 X 的方差却比 X 的

《概率论与数理统计》课程教学资源（电子教案）第六章 样本及抽样分布

《概率论与数理统计》课程教学资源（电子教案）第六章样本及抽样分布