第四节大数定理与中心极限定理 概率论与数理统计是硏究随机现象统计规律性的学科.而随机现象的规律性在相同的 条件下进行大量重复试验时会呈现某种稳定性。例如,大量的抛掷硬币的随机试验中,正面 出现频率;在大量文字资料中,字母使用频率;工厂大量生产某种产品过程中,产品的废品 率等.一般地,要从随机现象中去寻求事件内在的必然规律,就要研究大量随机现象的问题 在生产实践中,人们还认识到大量试验数据、测量数据的算术平均值也具有稳定性.这 种稳定性就是我们将要讨论的大数定律的客观背景在这一节中,我们将介绍有关随机变量 序列的最基本的两类极限定理--大数定理和中心极限定理 分布图示 ★大数定理的引入 ★切比雪夫不等式 ★例1 例2 ★大数定理 ★推论 大数定理 ★中心极限定理的引入 ★林德伯格一勒维定理 ★棣莫佛一拉普拉斯定理 ★例 ★例5 ★例6 ★例7 ★例8 ★高尔顿钉板试验 中心极限定理 ★内容小结 ★课堂练习 ★习题44 返回 内容要点 、切比雪夫不等式 定理2设随机变量X有期望E(X)=和方差D(X)=a2,则对于任给E>0,有 E 上述不等式称切比雪夫不等式 注:()由切比雪夫不等式可以看出若σ2越小,则事件 dx-E(X)kE 的概率越大,即,随机变量X集中在期望附近的可能性越大。由此可见方差刻划了随机变量 取值的离散程度 (i)当方差已知时,切比雪夫不等式给出了X与它的期望的偏差不小于E的概率的估计 式如取E=30,则有 P{X-E(X)30}≤ 0.l11 故对任给的分布只要期望和方差a2存在,则随机变量X取值偏离E(X)超过3的概率小
第四节 大数定理与中心极限定理 概率论与数理统计是研究随机现象统计规律性的学科. 而随机现象的规律性在相同的 条件下进行大量重复试验时会呈现某种稳定性. 例如, 大量的抛掷硬币的随机试验中, 正面 出现频率; 在大量文字资料中, 字母使用频率; 工厂大量生产某种产品过程中, 产品的废品 率等. 一般地, 要从随机现象中去寻求事件内在的必然规律, 就要研究大量随机现象的问题. 在生产实践中, 人们还认识到大量试验数据、测量数据的算术平均值也具有稳定性. 这 种稳定性就是我们将要讨论的大数定律的客观背景. 在这一节中,我们将介绍有关随机变量 序列的最基本的两类极限定理----大数定理和中心极限定理. 分布图示 ★大数定理的引入 ★切比雪夫不等式 ★例 1 ★例 2 ★大数定理 ★推论 大数定理 ★中心极限定理的引入 ★林德伯格—勒维定理 ★棣莫佛—拉普拉斯定理 ★例 3 ★例 4 ★例 5 ★例 6 ★例 7 ★例 8 ★高尔顿钉板试验 中心极限定理 ★内容小结 ★课堂练习 ★习题 4-4 ★返回 内容要点 一、切比雪夫不等式 定理 2 设随机变量 X 有期望 E(X) = 和方差 2 D(X) = ,则对于任给 0 , 有 2 2 {| | } P X − . 上述不等式称切比雪夫不等式. 注:(i) 由切比雪夫不等式可以看出,若 2 越小, 则事件 {| X − E(X)| } 的概率越大, 即, 随机变量 X 集中在期望附近的可能性越大. 由此可见方差刻划了随机变量 取值的离散程度. (ii) 当方差已知时,切比雪夫不等式给出了 X 与它的期望的偏差不小于 的概率的估计 式.如取 = 3, 则有 0.111. 9 {| ( )| 3 } 2 2 − P X E X 故对任给的分布,只要期望和方差 2 存在, 则随机变量 X 取值偏离 E(X) 超过 3 的概率小
于0.111 大数定理 1.切比雪夫大数定律 定理3(切比雪夫大数定律)设x,X2,…,Xn,…是两两不相关的随机变量序列它们数学 期望和方差均存在,且方差有共同的上界,即D(X)≤K,i=1,2,…,则对任意E>0,有 imP∑x-∑E(x,)0,有 mP-p<s}=1或mP凹-p≥s}=0 n n 注:()伯努利大数定律是定理1的推论的一种特例,它表明:当重复试验次数n充分大 时,事件A发生的频率丛依概率收敛于事件A发生的概率p.定理以严格的数学形式表达 了频率的稳定性.在实际应用中,当试验次数很大时,便可以用事件发生的频率来近似代替 事件的概率 (i)如果事件A的概率很小,则由伯努利大数定律知事件A发生的频率也是很小的,或 者说事件A很少发生.即“概率很小的随机事件在个别试验中几乎不会发生”,这一原理称 为小概率原理,它的实际应用很广泛.但应注意到,小概率事件与不可能事件是有区别的.在 多次试验中,小概率事件也可能发生 三、中心极限定理 在实际问题中,许多随机现象是由大量相互独立的随机因素综合影响所形成,其中每一 个因素在总的影响中所起的作用是微小的.这类随机变量一般都服从或近似服从正态分布 以一门大炮的射程为例,影响大炮的射程的随机因素包括:大炮炮身结构的制造导致的误差 炮弹及炮弹内炸药在质量上的误差,瞄准时的误差,受风速、风向的干扰而造成的误差等 其中每一种误差造成的影响在总的影响中所起的作用是微小的,并且可以看成是相互独立 的,人们关心的是这众多误差因素对大炮射程所造成的总影响.因此需要讨论大量独立随机 变量和的问题 中心极限定理回答了大量独立随机变量和的近似分布问题,其结论表明:当一个量受许 多随机因素(主导因素除外)的共同影响而随机取值,则它的分布就近似服从正态分布
于 0.111. 二、大数定理 1.切比雪夫大数定律 定理 3 (切比雪夫大数定律)设 X1 , X2 , , Xn , 是两两不相关的随机变量序列,它们数学 期望和方差均存在, 且方差有共同的上界, 即 D(X ) K,i =1,2, , i 则对任意 0 , 有 ( ) 1 1 1 lim 1 1 = − = = → n i i n i i n E X n X n P 注: 定理表明: 当 n 很大时,随机变量序列 { } Xn 的算术平均值 = n i Xi n 1 1 依概率收敛于其数 学期望 = n i E Xi n 1 ( ) 1 . 2.伯努利大数定理 定理4 (伯努利大数定律)设 A n 是 n 重伯努利试验中事件 A 发生的次数, p 是事件 A 在每 次试验中发生的概率, 则对任意的 0 , 有 lim =1 − → p n n P A n 或 lim = 0 − → p n n P A n . 注:(i) 伯努利大数定律是定理 1 的推论的一种特例, 它表明: 当重复试验次数 n 充分大 时, 事件 A 发生的频率 n nA 依概率收敛于事件 A 发生的概率 p .定理以严格的数学形式表达 了频率的稳定性. 在实际应用中, 当试验次数很大时,便可以用事件发生的频率来近似代替 事件的概率. (ii) 如果事件 A 的概率很小,则由伯努利大数定律知事件 A 发生的频率也是很小的,或 者说事件 A 很少发生. 即“概率很小的随机事件在个别试验中几乎不会发生”,这一原理称 为小概率原理,它的实际应用很广泛. 但应注意到,小概率事件与不可能事件是有区别的. 在 多次试验中,小概率事件也可能发生. 三、中心极限定理 在实际问题中, 许多随机现象是由大量相互独立的随机因素综合影响所形成, 其中每一 个因素在总的影响中所起的作用是微小的. 这类随机变量一般都服从或近似服从正态分布. 以一门大炮的射程为例, 影响大炮的射程的随机因素包括: 大炮炮身结构的制造导致的误差, 炮弹及炮弹内炸药在质量上的误差, 瞄准时的误差, 受风速、风向的干扰而造成的误差等. 其中每一种误差造成的影响在总的影响中所起的作用是微小的, 并且可以看成是相互独立 的, 人们关心的是这众多误差因素对大炮射程所造成的总影响. 因此需要讨论大量独立随机 变量和的问题. 中心极限定理回答了大量独立随机变量和的近似分布问题, 其结论表明: 当一个量受许 多随机因素(主导因素除外) 的共同影响而随机取值, 则它的分布就近似服从正态分布
1.林德伯格勒维定理 定理6(林德伯格勒维)设x1,X2,…Xn…是独立同分布的随机变量序列,且 E(X1)=H,D(X1)=a2,i=l ∑x lim p 注:定理6表明:当n充分大时,n个具有期望和方差的独立同分布的随机变量之和近 似服从正态分布.虽然在一般情况下,我们很难求出X1+X2+…+Xn的分布的确切形式 但当n很大时,可求出其近似分布.由定理结论有 SX;-nμ近y(O4)→ ∑X,-H a/~A0=XM(ma2nx=∑x 故定理又可表述为:均值为μ,方差的σ32>0的独立同分布的随机变量 X1,X2…Xn…的算术平均值X,当n充分大时近似地服从均值为,方差为a2/n的正态 分布.这一结果是数理统计中大样本统计推断的理论基础 2.棣莫佛一拉普拉斯定理 在第二章中,作为二项分布的正态近似,我们曾经介绍了棣莫佛一拉普拉斯定理,这里 再次给出,并利用上述中心极限定理证明之 定理7〔檬莫佛拉普拉斯定理)设随机变量服从参数n,p(0<p<1)的二项分布,则 对任意x,有 n 注:易见,棣莫佛—拉普拉斯定理就是林德伯格—勒维定理的一个特殊情况. 例题选讲 切比雪夫不等式 例1已知正常男性成人血液中,每一毫升白细胞数平均是7300,均方差是700.利用切 比雪夫不等式估计每毫升白细胞数在5200~9400之间的概率 解设每毫升白细胞数为X,依题意,=7300,a2=7002, 所求概率为 P{5200≤X≤9400)=P{5200-7300≤X-7300≤9400-7300} =P{-2100≤X-≤2100}=P{X-≤2100} 由切比雪夫不等式 P|X-Mk2100}≥1-a2/(21002=1-(700/21002=1-1/9=8/9
1.林德伯格—勒维定理 定理 6 (林德伯格—勒维) 设 X1 , X2 , , Xn , 是独立同分布的随机变量序列, 且 E(Xi ) = ,D(Xi ) = 2 ,i =1,2, ,n, 则 − = − → = − x t n i i n x e dt n X n P 1 / 2 2 2 1 lim 注: 定理 6 表明: 当 n 充分大时, n 个具有期望和方差的独立同分布的随机变量之和近 似服从正态分布. 虽然在一般情况下, 我们很难求出 X1 + X2 ++ Xn 的分布的确切形式, 但当 n 很大时, 可求出其近似分布. 由定理结论有 . 1 ~ (0,1) ~ ( , / ), / 1 ~ (0,1) 1 1 1 2 = = = = − − n i i n i i n i i X n N X N n X n X n N n X n 近似 近似 故 定 理 又 可 表 述 为 : 均 值 为 , 方 差 的 0 2 的 独 立 同 分 布 的 随 机 变 量 X1 , X2 , , Xn , 的算术平均值 X , 当 n 充分大时近似地服从均值为 ,方差为 / n 2 的正态 分布. 这一结果是数理统计中大样本统计推断的理论基础. 2. 棣莫佛—拉普拉斯定理 在第二章中,作为二项分布的正态近似,我们曾经介绍了棣莫佛—拉普拉斯定理,这里 再次给出,并利用上述中心极限定理证明之. 定理 7(棣莫佛—拉普拉斯定理)设随机变量 Yn 服从参数 n, p (0 p 1) 的二项分布, 则 对任意 x , 有 ( ) 2 1 (1 ) lim 2 2 x e dt x np p Y np P x t n n = = − − − − → 注: 易见,棣莫佛—拉普拉斯定理就是林德伯格—勒维定理的一个特殊情况. 例题选讲 切比雪夫不等式 例 1 已知正常男性成人血液中, 每一毫升白细胞数平均是 7300, 均方差是 700. 利用切 比雪夫不等式估计每毫升白细胞数在 5200~9400 之间的概率. 解 设每毫升白细胞数为 X, 依题意, = 7300, 700 , 2 2 = 所求概率为 P{5200 X 9400} = P{5200 − 7300 X − 7300 9400 − 7300} = P{−2100 X − 2100} = P{| X − | 2100}. 由切比雪夫不等式 2 2 P{| X − | 2100}1− /(2100) 2 =1− (700/ 2100) =1−1/9 = 8/9
即每毫升白细胞数在5200~9400之间的概率不小于8/9 例2(E01)在每次试验中,事件A发生的概率为0.75,利用切比雪夫不等式求独立试 验次数n最小取何值时,事件A出现的频率在0740.76之间的概率至少为0.90? 解设X为次试验中,事件A出现的次数,则 X~b(n,0.75),=075n,a2=0.75×025n=0.1875n 所求为满足P(07410200}=P 10200-n X-100010200-1000 100 100 100>27}=1-m/x-0092 X-10000 例4(E03)计算机在进行数学计算时,遵从四舍五入原则.为简单计,现在对小数点后 面第一位进行舍入运算,则误差X可以认为服从[0.50.5]上的均匀分布.若在一项计算中 进行了100次数字计算,求平均误差落在区间3/203/20上的概率 解n=100,用X1表示第i次运算中产生的误差.X1X2,…X10相互独立,都服从 [-0.5.0.5]上的均匀分布,且E(X1)=0,va(X)=1/12,i=1,2,…,100,从而
即每毫升白细胞数在 5200 ~ 9400 之间的概率不小于 8/9. 例 2 (E01) 在每次试验中, 事件 A 发生的概率为 0.75, 利用切比雪夫不等式求: 独立试 验次数 n 最小取何值时, 事件 A 出现的频率在 0.74~0.76 之间的概率至少为 0.90? 解 设 X 为次试验中, 事件 A 出现的次数, 则 X ~ b(n, 0.75), = 0.75n, 0.75 0.25 0.1875 , 2 = n = n 所求为满足 P{0.74 X / n 0.76} 0.90 的最小的 n. P{0.74 X / n 0.76} 可改写为 P{0.74n X 0.76n} = P{−0.01n X − 0.75n 0.01n} = P{| X − | 0.01n} 在切比雪夫不等式中取 = 0.01n, 则 P{0.74 X / n 0.76} = P{| X − | 0.01n} 2 2 1− /(0.01n) 2 =1− 0.1875n / 0.0001n =1−1875 / n 依题意, 取 n 使 1−1875/ n 0.9, 解得 n 1875/(1− 0.9) =18750, 即 n 取 18750 时, 可以使得在 n 次独立重复试验中, 事件 A 出现的频率在 0.74 ~ 0.76 之间的 概率至少为 0.90. 棣莫佛—拉普拉斯定理 例 3 (E02) 一盒同型号螺丝钉共有100个, 已知该型号的螺丝钉的重量是一个随机变量, 期望值是 100g, 标准差是 10g, 求一盒螺丝钉的重量超过 10.2kg 的概率. 解 设为第 i 个螺丝钉的重量, i =1,2, ,100, 且它们之间独立同分布, 于是一盒螺丝钉的重量为 , 100 1 = = i X Xi 且由 = ( ) =100, E Xi = ( ) =10, D Xi n =100, 知 ( ) =100 ( ) =10000, E X E Xi D(X ) =100, 由中心极限定理有 − − = = n n n X n P X P n i i 10200 { 10200} 1 − − = 100 10200 10000 100 X 10000 p − = − − = 2 100 10000 2 1 100 10000 X P X P 例 4 (E03) 计算机在进行数学计算时, 遵从四舍五入原则. 为简单计, 现在对小数点后 面第一位进行舍入运算, 则误差 X 可以认为服从 [−0.5,0.5] 上的均匀分布. 若在一项计算中 进行了 100 次数字计算, 求平均误差落在区间 [− 3 / 20, 3 / 20] 上的概率. 解 n =100, 用 Xi 表示第 i 次运算中产生的误差. 1 2 100 X , X , , X 相互独立, 都服从 [−0.5,0.5] 上的均匀分布, 且 ( ) = 0, E Xi var( ) =1/12, Xi i =1,2, ,100, 从而
X:-100×0 √3 x1~N(0,1) 故平均误差X= 10七落在/√2 2020上的概率为 X 20502x520 =P-3≤∑Xs3}≈3)-(-3)=0.993 例5(E04)某车间有200台车床,在生产期间由于需要检修、调换刀具、变换位置及调 换工作等常需停车.设开工率为06,并设每台车床的工作是独立的且在开工时需电力1千 瓦.问应供应多少瓦电力就能以99.9%的概率保证该车间不会因供电不足而影响生产? 解对每台车床的观察作为一次试验,每次试验观察台车床在某时刻是否工作,工作的 概率为0.6,共进行200次试验.用X表示在某时刻工作着的车床数,依题意,有 X~b(200,0.6) 现在的问题是:求满足P{X≤N}≥0.999的最小的N 由定理3 近似服从N(0,1),这里m=120,np(1-p)=48, N-120 于是PX≤N}≈Φ 由aN-19)2099查正态分布函数表得31)=099故N-19231 从中解得N≥141.5,即所求N=142.也就是说,应供应142千瓦电力就能以999%的概率 保证该车间不会因供电不足而影响生产 例6(E05)某市保险公司开办一年人身保险业务,被保险人每年需交付保险费160元 若一年内发生重大人身事故,其本人或家属可获2万元赔金.已知该市人员一年内发生重大 人身事故的概率为0.005,现有5000人参加此项保险,问保险公司一年内从此项业务所得到 的总收益在20万到40万元之间的概率是多少? 1,若第个被保险人发生重大事故 解记x=10若第个被保险人未发生重大事故(-12-50 于是x均服从参数为p=0005的两点分布,且p{X1=1}=0005m=25 ∑x,是500个被保险人中一年内发生重大人身事故的人数,保险公司一年内从此 项业务所得到的总收益为0016×5000-2 Y万元 于是
~ (0,1). 5 3 100/12 100 0 100 1 100 1 100 X N X Y i i i i 近似 = = = − = 故平均误差 = = 100 1 100 1 i X Xi 落在 − 20 3 , 20 3 上的概率为 = − − = 20 3 100 1 20 3 20 3 20 3 100 i 1 P X P Xi = − = 3 5 3 3 100 i 1 P Xi (3) − (−3) = 0.9973. 例 5(E04) 某车间有 200 台车床, 在生产期间由于需要检修、调换刀具、变换位置及调 换工作等常需停车. 设开工率为 0.6,并设每台车床的工作是独立的, 且在开工时需电力 1 千 瓦. 问应供应多少瓦电力就能以 99.9%的概率保证该车间不会因供电不足而影响生产? 解 对每台车床的观察作为一次试验, 每次试验观察台车床在某时刻是否工作, 工作的 概率为 0.6, 共进行 200 次试验. 用 X 表示在某时刻工作着的车床数, 依题意, 有 X ~ b(200, 0.6), 现在的问题是: 求满足 P{X N} 0.999 的最小的 N. 由定理 3, np(1 p) X np − − 近似服从 N(0,1), 这里 np =120, np(1− p) = 48, 于是 . 48 120 { } − N P X N 由 0.999, 48 120 − N 查正态分布函数表得 (3.1) = 0.999, 故 3.1, 48 120 N − 从中解得 N 141.5, 即所求 N =142. 也就是说, 应供应 142 千瓦电力就能以 99.9%的概率 保证该车间不会因供电不足而影响生产. 例 6(E05) 某市保险公司开办一年人身保险业务, 被保险人每年需交付保险费 160 元, 若一年内发生重大人身事故, 其本人或家属可获 2 万元赔金. 已知该市人员一年内发生重大 人身事故的概率为 0.005, 现有 5000 人参加此项保险, 问保险公司一年内从此项业务所得到 的总收益在 20 万到 40 万元之间的概率是多少? 解 记 = 若第 个被保险人未发生重大事故 若第 个被保险人发生重大事故 i i Xi 0, 1, (i =1,2, ,5000) 于是 Xi 均服从参数为 p = 0.005 的两点分布, 且 { =1} = 0.005, p Xi np = 25. = 5000 i 1 Xi 是 5000 个被保险人中一年内发生重大人身事故的人数, 保险公司一年内从此 项业务所得到的总收益为 = − 5000 1 0.016 5000 2 i Xi 万元. 于是
P20≤0016×5000-2x1≤40}=P20≤XX1≤30 20-2 30-2 P 35>x-23 ≈d()-d(-1)=0.6826 25×0.995 0.995 25×0.995 例7对于一个学校而言,来参加家长会的家长人数是一个随机变量,设一个学生无家 长,1名家长2名家长来参加会议的概率分别为005,08,0.15.若学校共有400名学生设各 学生参加会议的家长数相互独立,且服从同一分布,求参加会议的家长数X超过450的概 率 解以x4(k=1.2,…,400)记第k个学生来参加会议的家长数,则x的分布律为 P00508015 易知E(x)=1D(x)=019k=12…40.0而x=x,由定理3随机变量 xk-400×1.1 X-400×1.1 近银 N(0,1),故 400√0.19 400√0.19 P{X>450}=P X-400×1.1450-400×11 400√0.19 400√0.19 =1-p-400×11 ≤1.147 40030.19 ≈1-o(1.147)=0.1357 例8设有1000人独立行动,每个人能够按时进入掩蔽体的概率为09.以95%概率估计, 在一次行动中,至少有多少人能够进入掩蔽体 解用X表示第i人能够按时进入掩蔽体,令Sn=X1+X2+…+100 设至少有m人能进入掩蔽体,则要求 Pm≤Sn}≥0.95,{m≤Sn}= m-1000×0.9Sn-900 1000×0.9×0.1 由中心极限定理,有 Sn-900近似 N(0,1),所以 m-900 P{m≤Sn}=P 1-pS-900m
− = 20 0.016 5000 2 40 5000 i 1 P Xi = = 20 30 5000 i 1 P Xi − − − = = 25 0.995 30 25 25 0.995 25 25 0.995 20 25 5000 i 1 Xi P (1) −(−1) = 0.6826 . 例 7 对于一个学校而言, 来参加家长会的家长人数是一个随机变量, 设一个学生无家 长, 1 名家长, 2 名家长来参加会议的概率分别为 0.05, 0.8, 0.15. 若学校共有 400 名学生,设各 学生参加会议的家长数相互独立, 且服从同一分布, 求参加会议的家长数 X 超过 450 的概 率. 解 以 X (k =1,2, ,400) k 记第 k 个学生来参加会议的家长数, 则 Xk 的分布律为 0.05 0.8 0.15 0 1 2 k k p X 易知 ( ) =1.1, E Xk ( ) = 0.19, D Xk k =1,2, ,400, 而 , 400 1 = = k X Xk 由定理 3, 随机变量 ~ (0,1), 400 0.19 400 1.1 400 0.19 400 1.1 400 1 N X X k k − 近似 = − = 故 − − = 400 0.19 450 400 1.1 400 0.19 400 1.1 { 450} X P X P − = − 1.147 400 0.19 400 1.1 1 X P 1− (1.147) = 0.1357. 例 8 设有1000人独立行动, 每个人能够按时进入掩蔽体的概率为0.9. 以95%概率估计, 在一次行动中, 至少有多少人能够进入掩蔽体. 解 用 Xi 表示第 i 人能够按时进入掩蔽体, 令 . Sn = X1 + X2 ++ X1000 设至少有 m 人能进入掩蔽体, 则要求 { } 0.95, P m Sn − − = 90 900 1000 0.9 0.1 1000 0.9 { } n n m S m S 由中心极限定理, 有 ~ (0,1), 90 900 N Sn − 近似 所以 − − = 90 900 90 900 { } n n m S P m S P − − = − 90 900 90 900 1 S m P n
查正态分布数值表,得 √90=-165,故m=900-1565=88435≈884人 课堂练习 某地有甲、乙两个电影院竞争当地每天的1000名观众,观众选择电影院是独立的和随 机的,问:每个电影院至少应设有多少个座位,才能保证观众因缺少座位而离去的概率小于
查正态分布数值表, 得 1.65, 90 900 = − m − 故 m = 900 −15.65 = 884.35 884 人. 课堂练习 某地有甲、乙两个电影院竞争当地每天的 1000 名观众, 观众选择电影院是独立的和随 机的, 问: 每个电影院至少应设有多少个座位, 才能保证观众因缺少座位而离去的概率小于 1%?