第十五讲大数定律和中心极限定理 重点:契比雪夫不等式,贝努里大数定律和契比雪夫大数定律,德莫弗-拉普拉斯中心极限定理。 难点:大数定律和中心极限定理 、大数定律 我们知道,概率论与数理统计是研究随机现象统计规律性的数学分支。但是,只有对大量随机 现象进行观测时,随机现象的统计规律性才会呈现出来。为了考察“大量”的随机现象,就导致了 极限定理的研究。概率论中极限定理的内容是很广泛的,其中最主要的是大数定律和中心极限定理 在引入大数定理之前我们先证明一个重要的定理 切比雪夫不等式 对于任何具有有限方差的随机变量X都有 E(rees D(r) 其中E是任一正数。 证设F(x)是X的分布函数,则显然有 PX-E(X28 dF(x) [x-E(X)2 dF(x) E(X≥ [x-e()] dF()=o(p 切比雪夫不等式也可以表示成 Pi X-E()kE)>1-D() 由于切比雪夫不等式只利用随机变量的数学期望E(X)及方差D(X)就可对X的概率分布进行估 计,因此它在理论研究及实际应用中有价值。从切比雪夫不等式还可以看出,当方差越小时,事件 {X-E(ω≥ε}发生的概率也越小,从而可知,方差确实是一个描述随机变量与其期望值离散程度 的一个量
第十五讲 大数定律和中心极限定理 重点: 契比雪夫不等式,贝努里大数定律和契比雪夫大数定律,德莫弗--拉普拉斯中心极限定理。 难点:大数定律和中心极限定理 一、大数定律 我们知道,概率论与数理统计是研究随机现象统计规律性的数学分支。但是,只有对大量随机 现象进行观测时,随机现象的统计规律性才会呈现出来。为了考察“大量”的随机现象,就导致了 极限定理的研究。概率论中极限定理的内容是很广泛的,其中最主要的是大数定律和中心极限定理. 在引入大数定理之前,我们先证明一个重要的定理. 1.切比雪夫不等式 对于任何具有有限方差的随机变量 X 都有 2 ( ) {| ( ) | } D X P X − E X 其中 是任一正数。 证 设 F(x) 是 X 的分布函数,则显然有 2 2 2 | ( )| 2 2 | ( )| ( ) [ ( )] ( ) 1 ( ) [ ( )] {| ( ) | ( ) D X x E X dF x dF x x E X P X E X dF x x E X x E X − = − − = + − − − 切比雪夫不等式也可以表示成 2 ( ) {| ( ) | } 1 D X P X − E X − 由于切比雪夫不等式只利用随机变量的数学期望 E(X)及方差 D(X)就可对 X 的概率分布进行估 计,因此它在理论研究及实际应用中有价值。从切比雪夫不等式还可以看出,当方差越小时,事件 {|X- E(X)|≥ε}发生的概率也越小,从而可知,方差确实是一个描述随机变量与其期望值离散程度 的一个量
2.贝努里大定律 设n是n重贝奴里试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对 任意ε>0,都有 lim Pg Hn-pke= 贝努里大数定律证明了在大量重复实验时,随机事件的频率在它的概率的附近摆动,若事件A 的概率很小,则正如贝努里定律所指出的,事件A的频率也很小,或者说事件A很少发生 设Y,H2…,Yn…是一个互相独立的随机变量序列,a是一个常数,若对于任意正数E,有 Im PiY,-aka=l 则称序列Y1,F2…,Hn…依概率收敛于a 因此,由贝努里大数定律可得:设n是n次独立试验中事件A出现的次数,而p是事件A在 每次试验中出现的概率则频率依概率收敛于概率p。 人们在事件中还发现,除了频率具有稳定性之外,大量观察值的平均值也具有稳定性。这就是 切比雪夫大数定律。 3.切比雪夫大数定律 设随机变量Ⅺ石,…H…相互独立,每一随机变量都有数学期望E(X1)E(X2)…E(X),…和有限 的方差D(X1)D(Y2)…,D(Xn,…,并且它们有公共上界c即D(x1)≤c,D(2)≤c…,D(M)≤c,…,则 对任意的E>0,皆有 lnP∑x4-1E(x,)ke}=1 证因X杓2,…n…相互独立,所以 D(∑x) D(X;) 又因E(∑x)=1∑E(x) 由切比雪夫不等式可得
2. 贝努里大定律 设μn 是 n 重贝奴里试验中事件 A 出现的次数,而 p 是事件 A 在每次试验中出现的概率,则对 任意ε>0,都有 lim {| − | } =1 → p n P n n 贝努里大数定律证明了在大量重复实验时,随机事件的频率在它的概率的附近摆动,若事件 A 的概率很小,则正如贝努里定律所指出的,事件 A 的频率也很小,或者说事件 A 很少发生。 设 Y1,Y2,…,Yn…是一个互相独立的随机变量序列,a 是一个常数,若对于任意正数,有 lim {| − | } = 1 → P Y a n n 则称序列 Y1,Y2,…,Yn…依概率收敛于 a。 因此,由贝努里大数定律可得:设μn 是 n 次独立试验中事件 A 出现的次数,而 p 是事件 A 在 每次试验中出现的概率,则频率 n n 依概率收敛于概率 p 。 人们在事件中还发现,除了频率具有稳定性之外,大量观察值的平均值也具有稳定性。这就是 切比雪夫大数定律。 3.切比雪夫大数定律 设随机变量 X1,X2,…,Xn…相互独立,每一随机变量都有数学期望 E(X1),E(X2),…,E(Xn),…和有限 的方差 D(X1),D(X2),…,D(Xn),…,并且它们有公共上界 c,即 D(X1)≤c,D(X2)≤c,…,D(Xn)≤c,…,则 对任意的 ,皆有 = = → − = n k k n k k n E X n X n P 1 1 ( ) | } 1 1 1 lim {| 证 因 X1,X2,…,Xn…相互独立,所以 = = = = n i i n i i n c nc n D X n X n D 1 2 2 1 1 ( ) 1 ) 1 ( = = = n i i n i i E X n X n E 1 1 ( ) 1 ) 1 又因 ( 由切比雪夫不等式可得
Px-2(x)k时)y 所以 1≥P X-∑E(X4)k6}2 C na2 于是mP∑X-∑E(X4)ke}=1 由切比雪夫大数定律得到独立同分布大数定律 设独立随机变量Ⅺ,万,…M服从同一分布,并且有数学期望a及方差a2,则X1,X2…M的算术 平均值X,=∑X在n→∞时,依概率收敛于数学期望a,即对任意正数s,有 n lim Pll-2X-aka)= 上述结论,是我们关于算术平均值的法则有了理论上的依据。如我们要测量某一物理量a,在 不便条件下重复进行n次,得m个测量值XX2,…V,显然它们可以看成是n个相互独立的随机变 量,具有相同的分布,并且有数学期望a。由大数定理可知,当n充分大时,n次测量值得平均值 可作为a得近似值: ax+2+ 则由此所因发的误差是很小的。 二、中心极限定理 由前几章的讨论可知,正态分布在随机变量的一切可能分布中占有特殊的地位。在客观世界 中我们遇到的许多随机变量都是服从或近似服从正态分布的。为什么大量的随机变量都服从正态分 布呢?李雅普诺夫证明了在某些一般的充分条件下,当随机变量的个数无限增加时,独立随机变量 的和的分布是趋于正态分布的。在概率论中把研究大量独立随机变量和的分布以正态分布为极限的 这一类定理统称为中心极限定理。 独立同分布的中心极限定理
1 , ) 1 ( ( ) | } 1 1 1 {| 2 2 1 1 1 n c X n D E X n X n P n i n i i i n k k − − − = = = 所以 ( ) | } 1 , 1 1 1 {| 2 1 1 n c E X n X n P n k k n k k − − = = = = → − = n k k n k k n E X n X n P 1 1 ( ) | } 1 1 1 于是 lim {| 由切比雪夫大数定律得到 独立同分布大数定律 设独立随机变量 X1,X2,…,Xn 服从同一分布,并且有数学期望 a 及方差 2 ,则 X1,X2,…,Xn 的算术 平均值 = = n i n Xi n X 1 1 在 n → 时,依概率收敛于数学期望 a ,即对任意正数,有 | } 1 1 lim {| 1 − = = → X a n P n k i n . 上述结论,是我们关于算术平均值的法则有了理论上的依据。如我们要测量某一物理量 a ,在 不便条件下重复进行 n 次,得 m 个测量值 X1,X2,…,Xn,显然它们可以看成是 n 个相互独立的随机变 量,具有相同的分布,并且有数学期望 a 。由大数定理可知,当 n 充分大时, n 次测量值得平均值 可作为 a 得近似值: n X X X a + + + n .... 1 2 则由此所因发的误差是很小的。 二、中心极限定理 由前几章的讨论可知,正态分布在随机变量的一切可能分布中占有特殊的地位。在客观世界 中我们遇到的许多随机变量都是服从或近似服从正态分布的。为什么大量的随机变量都服从正态分 布呢?李雅普诺夫证明了在某些一般的充分条件下,当随机变量的个数无限增加时,独立随机变量 的和的分布是趋于正态分布的。在概率论中把研究大量独立随机变量和的分布以正态分布为极限的 这一类定理统称为中心极限定理。 1.独立同分布的中心极限定理
设随机变量石互;……相互独立,服从同一分布,具有有限的数学期望和方差 E(X,)=A,D(X1)=a2≠0(=1,2,),则随机变量 的分布函数Fmx)对任意的x∈(-∞,+∞),都有 X mF(x)=mP如 这个定理告诉我们,当n很大时,近似地服从标准正态分布MO,1)随机变量∑X近似地 服从正态分布N(mn2)。由于期望m=ECx,),方差(m)=D∑x),故实际上就是 ∑x的标准化的随机变量。 中心极限定理可以解释如下:假设被研究的随机变量可以表示为大量独立的随变量的和,其中 每一个随机变量对于总和的作用都很微小,则可以认为这个随机变量实际上是服从正态分布的。在 实际工作中,只要n足够大,便可把独立同分布的随机变量之和近似当作正态变量 2.德莫弗拉普拉斯中心极限定理 设随机变量mn(=12,…)服从参数为n,p(0<p<1)的二项分布,则对于任一区间(ab),恒有 mPa<=m≤b= 证由于服从二项分布的随机变量刀n可视为n个相互独立的、服从同一的参数p的(0-1)分 布的随机变量X,1…之和,即n=∑X,其中E(X)=PD(X)=m,k=12…,nq=1-P 由独立同分布中心极限定理可得
设 随 机 变量 X1,X2,…,Xn… 相 互独 立 , 服 从同 一 分布 , 具有 有限 的 数学 期 望和 方 差 : ( ) , ( ) 0( 1,2,...), 2 E Xi = D Xi = i = 则随机变量 n X n Y n k k n = − = 1 的分布函数 Fn(x)对任意的 x (−,+), 都有 − − = → = − = x t n k k n n n x e dt n X n l im F x P 1 2 2 2 1 ( ) lim 这个定理告诉我们,当 n 很大时, Yn 近似地服从标准正态分布 N(0,1) 随机变量 = n k X k 1 近似地 服从正态分布 ( , ) 2 N n n 。由于期望 ( ) 1 = = n k n E X k ,方差 ( ) ( ) 1 2 = = n k n D X k ,故 Yn 实际上就是 = n k X k 1 的标准化的随机变量。 中心极限定理可以解释如下:假设被研究的随机变量可以表示为大量独立的随变量的和,其中 每一个随机变量对于总和的作用都很微小,则可以认为这个随机变量实际上是服从正态分布的。在 实际工作中,只要 n 足够大,便可把独立同分布的随机变量之和近似当作正态变量。 2.德莫弗-拉普拉斯中心极限定理 设随机变量 (n =1,2, ) n 服从参数为 n, p(0 p 1) 的二项分布,则对于任一区间 (a,b) ,恒有 − → = − − b a t n n b e dt np p np P a 2 2 2 1 (1 ) lim 证 由于服从二项分布的随机变量 n 可视为 n 个相互独立的、服从同一的参数 p 的(0-1)分 布的随机变量 X1,X2,…,Xn 之和,即 = = n i n Xi 1 ,其中 E(Xk ) = p,D(Xk ) = pq,k =1,2,...,n,q =1− p 。 由独立同分布中心极限定理可得
Xr-np lim P -"n-np m dt P 2丌 于是对于任意区间(ab)有 lim plarnn-np <b p(1-p) 此定理表明,正态分布是二项分布的极限分布。当n充分大时,服从二项分布的随机变量n的 概率计算可以转化为正态随机变量的概率计算: (K-np) PIn =k≈ ipg a<n≤b2=P{=m<-m≤b=m npq npq 例1现有一大批种子,其中良种占1/6,今从其中任意选6000粒,试问在这些种子中,良种所 占的比例与1/6之差小于1%的概率是多少? 解选一粒良种看成是一次随机试验,因此选6000粒种子看作是6000重贝努里试验。若令X 表示6000粒种子中的良种数,则x服从n=6000p=1/6的二项分布,故由中心极限定理可得 6000× X 6001×√6000 <0.01}=P 60006 6000×- 66 V66 (2078)-c(-2078)=2(2078)-1=0.9624 本例是中心极限定理的应用之 例2设某集成电路出厂时一级品率为0.7,装配一台仪器需要100只一级品集成电路,问购置多少 只才能以99.%%的概率保证装该仪器是够用(不能因一级品不够而影响工作)。 解设购置n只,并用随机变量X表示n只中非一级品的只数:现要求购置的n之集成电路中 一级数不少于100只,亦即非一级品数X≤n-100的概率P{X≤n-100}≥99%%由有题意知,非 级品率为0.3,则
− = → = − = − − b a t n k k n n n x e dt npq X np x P np p np P 1 2 2 2 1 lim (1 ) lim 于是对于任意区间 (a,b) 有 − = − − b a t n n b e dt np p np P a 2 2 2 1 (1 ) lim 此定理表明,正态分布是二项分布的极限分布。当 n 充分大时,服从二项分布的随机变量 n 的 概率计算可以转化为正态随机变量的概率计算: ( ) − − − − − − = = − − npq a np npq b np npq b np npq np npq a np P a b P e npq P k n n npq K np n ; 2 1 2 2 例 1 现有一大批种子,其中良种占 1/6,今从其中任意选 6000 粒,试问在这些种子中,良种所 占的比例与 1/6 之差小于 1%的概率是多少? 解 选一粒良种看成是一次随机试验,因此选 6000 粒种子看作是 6000 重贝努里试验。若令 X 表示 6000 粒种子中的良种数,则 X 服从 n = 6000, p = 1/ 6 的二项分布,故由中心极限定理可得 (2.078) ( 2.078) 2 (2.078) 1 0.9624 6 5 6 1 0.01 6000 6 5 6 1 6000 6 1 6000 0.01 6 1 6000 − − = − = − = − X P X P 本例是中心极限定理的应用之一。 例 2 设某集成电路出厂时一级品率为 0.7,装配一台仪器需要 100 只一级品集成电路,问购置多少 只才能以 99.9%的概率保证装该仪器是够用(不能因一级品不够而影响工作)。 解 设购置 n 只,并用随机变量 X 表示 n 只中非一级品的只数;现要求购置的 n 之集成电路中 一级数不少于 100 只,亦即非一级品数 X n −100 的概率 PX n −100 99.9% 。由有题意知,非 一级品率为 0.3,则
PX≤n-100=∑C030 ≈叫-100-03n 0.7n-100 0.999 n·0.3×0.7 2In 查表得07n-100 3090,即049n214189n+1000=0,解之得n=168,即至少要购置168只 0.21n
0.999 0.21 0.7 100 0.3 0.7 100 0.3 100 0.3 0.7 100 0 − = • − − − = − = − n n n n n P X n n k k n k k Cn 查表得 3.090 0.21 0.7 100 = − n n ,即 0.49 141.89 1000 0 2 n n + = ,解之得 n =168 ,即至少要购置 168 只