《生物统计》 绪言 在人们的实践活动中,常常会遇到类似下面的一些问题,如:一种新的疫苗,如何判 断它是否有效?吸烟会不会使得肺癌的机会增加?如何抽检几百或几千人来估计某种病的 流行程度?某批产品中合格品究竟有多少?该不该报废?如何消耗最少的资源和人力来得 到我们所需要的某种信息?某种实验方法,或饲料配方,有没有明显改进?……等等。 这一类问题的共同特点,就是人们只能得到他所关心的事情的不完全信息,或者是单 个实验的结果有某种不确定性。例如为了知道产品合格与否或它的使用寿命,我们常常需要 对它作破坏性检验,此时我们显然不能把所有的产品都检验一下,而只能满足于对少数几个 样品的抽检。这样获得的信息显然是不完全的:再比如要检验疫苗的有效性,但一般来说, 接种过疫苗的动物不一定全不发病,而未接种的也不会全发病。那么发病与不发病的差别究 竟到多大时我们才能认为接种是有效的呢?同时,即使我们采用完全一样的实验条件再次进 行实验,发病与不发病的动物数量也会有所变化,这说明类似实验的结果具有某种内在的不 确定性。要想在这种情况下正确判定疫苗的有效性,就涉及了我们如何评价一些并不确定的 实验结果的问题。 要从这样一些问题中得出科学的,可靠的结论,就必须依靠统计学。有人干脆给统计 学下了这样的定义:“统计学就是从不完全的信息里取得准确知识的一系列技巧”,这个定义 还是有一定道理的 另外,当必须根据有限的,不完全的信息作出决策时(例如决定一批产品是出厂还是 报废,某种新药是否有效等等),统计学可以提供一种方法,使我们不仅能做出合理的决策 而且知道所冒风险的大小,并帮助我们把可能的损失减至最小 其次,如何花费最小代价取得所关心的信息,也是统计学的一大课题(实验设计)。 不注意这一点可能使辛辛苦苦的工作成为一种浪费。 生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实 验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实 验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作 为一个实验科学工作者,离开了统计学就寸步难行。希望大家通过这门课程的学习,能够掌 握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实 践中遇到的问题。 第一章概率论基础 §1.1随机现象与统计规律性 概率论是研究随机现象的数量规律的数学分枝 所谓随机现象,就是在基本条件不变的情况下,各次实验或观察会得到不同的结果的现 象,而且这一结果是不能准确预料的。 例:血球计数,昆虫密度调查,某一时刻车间中开动的车床数,优秀选手射击弹着分布,抽 样时某一样品合格与否等等。 必然现象(或不可能事件)则是指在一定条件下必然会发生(或不发生)的事件,也可 称为决定性事件。 例:早晨太阳从东方升起,水向低处流,万有引力,标准大气压,纯水100℃沸腾等等
《生物统计》 绪言 在人们的实践活动中,常常会遇到类似下面的一些问题,如:一种新的疫苗,如何判 断它是否有效?吸烟会不会使得肺癌的机会增加?如何抽检几百或几千人来估计某种病的 流行程度?某批产品中合格品究竟有多少?该不该报废?如何消耗最少的资源和人力来得 到我们所需要的某种信息?某种实验方法,或饲料配方,有没有明显改进?……等等。 这一类问题的共同特点,就是人们只能得到他所关心的事情的不完全信息,或者是单 个实验的结果有某种不确定性。例如为了知道产品合格与否或它的使用寿命,我们常常需要 对它作破坏性检验,此时我们显然不能把所有的产品都检验一下,而只能满足于对少数几个 样品的抽检。这样获得的信息显然是不完全的;再比如要检验疫苗的有效性,但一般来说, 接种过疫苗的动物不一定全不发病,而未接种的也不会全发病。那么发病与不发病的差别究 竟到多大时我们才能认为接种是有效的呢?同时,即使我们采用完全一样的实验条件再次进 行实验,发病与不发病的动物数量也会有所变化,这说明类似实验的结果具有某种内在的不 确定性。要想在这种情况下正确判定疫苗的有效性,就涉及了我们如何评价一些并不确定的 实验结果的问题。 要从这样一些问题中得出科学的,可靠的结论,就必须依靠统计学。有人干脆给统计 学下了这样的定义:“统计学就是从不完全的信息里取得准确知识的一系列技巧”,这个定义 还是有一定道理的。 另外,当必须根据有限的,不完全的信息作出决策时(例如决定一批产品是出厂还是 报废,某种新药是否有效等等),统计学可以提供一种方法,使我们不仅能做出合理的决策, 而且知道所冒风险的大小,并帮助我们把可能的损失减至最小。 其次,如何花费最小代价取得所关心的信息,也是统计学的一大课题(实验设计)。 不注意这一点可能使辛辛苦苦的工作成为一种浪费。 生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实 验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实 验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作 为一个实验科学工作者,离开了统计学就寸步难行。希望大家通过这门课程的学习,能够掌 握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实 践中遇到的问题。 第一章 概率论基础 §1.1 随机现象与统计规律性 一、概率论是研究随机现象的数量规律的数学分枝 所谓随机现象,就是在基本条件不变的情况下,各次实验或观察会得到不同的结果的现 象,而且这一结果是不能准确预料的。 例:血球计数,昆虫密度调查,某一时刻车间中开动的车床数,优秀选手射击弹着分布,抽 样时某一样品合格与否等等。 必然现象(或不可能事件)则是指在一定条件下必然会发生(或不发生)的事件,也可 称为决定性事件。 例:早晨太阳从东方升起,水向低处流,万有引力,标准大气压,纯水 100℃沸腾等等
大部分科学实验的结果都属于随机事件,分析它们就需要概率的知识,如 例1.1试验两种不同饲料配方对鸡增重的影响。饲养五周后,增重如下: 配方1(x):1.49kg,1.36kg,1.50kg,1.65kg,1.27kg,1.45kg,1.38kg,1.52kg,1.40kg 配方2(y):1.25kg,1.50kg,1.33kg,1.45kg,1.27kg,1.32kg,1.60kg,1.41kg,1.30kg 1.52k x=1436kg,j=1.392kg 在例1中,x=1436kg,j=1.392kg,我们是否可以说配方1比配方2好呢?也许 有同学会说:“x>j,当然就说明配方1好啦。”实际问题却不是这样简单。由于鸡的个体 差异等都会影响实验的结果,因此上述实验中包含着一些无法排除的随机误差。在这种情况 下,我们怎么能判断x与j之间的差异是随机误差造成的,还是配方1真的优于配方2?或 者换句话说,x与j的差异大到何种程度,我们就可以较有把握地说配方1真的优于配方2? 要科学地回答这一类的问题,靠我们以前学过的数学知识是解决不了的,必须依靠统计学的 知识。由于吃同一种饲料的一组鸡的生活条件基本上是一致的,它们之间的差异应该是随机 误差大小的一种估计,因此我们可以把上述两组鸡之间的差异与组内的差异作一下比较,如 果组间差异明显大于组内的差异,则认为配方1比配方2好;否则就只能认为这两种配方差 不多。根据这样的统计学理论,我们只能认为这两个配方间没有明显差异,原因是它们组内 差异比较大,说明随机因素的影响很大,平均数间的差异可能是随机因素引起的。 例1.2如果数据变成 配方1(x):1.40kg,142kg,1.50kg1.39kg,1.46kg,1.45kg1.5lkg,1.44kg,14lkg 1.38kg 配方2(y):1.38kg,1.41kg,1.3kg1.0kg136kg,13kg142kg,1.38kg1.37kg, 1.4lkg x=14365kg,y=1.391kg 此时两组数据的平均值变化不大,直观上结果应与上题相同,但统计结论却完全变了, 变为应该认为配方1明显优于配方2。这是因为组内差距变小了,x与y之间的差别不能仅 用随机因素的影响来解释。 从上述例子可看出,没有概率论的知识就不能对实验结果作出科学的,有说服力的结论。 频率稳定性 随机事件的结果一般是不可预料的,那又如何研究呢?个别随机事件(结果)在一次实 验或观察中可以出现或不出现,但在大量实验中,它出现的次数与总实验次数之比常常是非 常稳定的。这种现象称为频率稳定性,正是随机事件内在规律性的反映 例1.3掷币实验: 实验者掷币次数正面次数频率 蒲丰 4040 2048 05069 0.5016 皮尔逊|24000 12012 0.5005 从上述实验结果可知,随着投掷次数的增加,正面出现的次数越来越接近一个常数:0.5 这一实验的结果很好地反映了多次重复的随机实验中的频率稳定性。 直观上,我们用一个数P(A)来表示随机事件A发生可能性的大小,P(A)就称为A的 概率。一般来说,当实验次数N越来越大,直至趋于无穷时,频率也会逐渐趋近于概率。 §1.2样本空间与事件
大部分科学实验的结果都属于随机事件,分析它们就需要概率的知识,如: 例1.1 试验两种不同饲料配方对鸡增重的影响。饲养五周后,增重如下: 配方 1(x):1.49kg, 1.36kg, 1.50kg, 1.65kg, 1.27kg,1.45kg, 1.38kg, 1.52kg, 1.40kg; 配方 2(y):1.25kg, 1.50kg, 1.33kg, 1.45kg, 1.27kg, 1.32kg, 1.60kg, 1.41kg, 1.30kg, 1.52kg。 x = 1.436kg, y = 1.392kg 在例 1 中, x = 1.436kg, y = 1.392kg ,我们是否可以说配方 1 比配方 2 好呢?也许 有同学会说:“ x y ,当然就说明配方 1 好啦。”实际问题却不是这样简单。由于鸡的个体 差异等都会影响实验的结果,因此上述实验中包含着一些无法排除的随机误差。在这种情况 下,我们怎么能判断 x 与 y 之间的差异是随机误差造成的,还是配方 1 真的优于配方 2?或 者换句话说, x 与 y 的差异大到何种程度,我们就可以较有把握地说配方1真的优于配方2? 要科学地回答这一类的问题,靠我们以前学过的数学知识是解决不了的,必须依靠统计学的 知识。由于吃同一种饲料的一组鸡的生活条件基本上是一致的,它们之间的差异应该是随机 误差大小的一种估计,因此我们可以把上述两组鸡之间的差异与组内的差异作一下比较,如 果组间差异明显大于组内的差异,则认为配方 1 比配方 2 好;否则就只能认为这两种配方差 不多。根据这样的统计学理论,我们只能认为这两个配方间没有明显差异,原因是它们组内 差异比较大,说明随机因素的影响很大,平均数间的差异可能是随机因素引起的。 例 1.2 如果数据变成 配方 1(x):1.40kg, 1.42kg, 1.50kg, 1.39kg, 1.46kg,1.45kg, 1.51kg, 1.44kg, 1.41kg, 1.38kg; 配方 2 (y):1.38kg, 1.41kg, 1.35kg, 1.50kg, 1.36kg, 1.33kg, 1.42kg, 1.38kg, 1.37kg, 1.41kg x = 1.4365kg, y = 1.391kg 此时两组数据的平均值变化不大,直观上结果应与上题相同,但统计结论却完全变了, 变为应该认为配方 1 明显优于配方 2。这是因为组内差距变小了,x 与 y 之间的差别不能仅 用随机因素的影响来解释。 从上述例子可看出,没有概率论的知识就不能对实验结果作出科学的,有说服力的结论。 二、频率稳定性 随机事件的结果一般是不可预料的,那又如何研究呢?个别随机事件(结果)在一次实 验或观察中可以出现或不出现,但在大量实验中,它出现的次数与总实验次数之比常常是非 常稳定的。这种现象称为频率稳定性,正是随机事件内在规律性的反映。 例 1.3 掷币实验: 实验者 掷币次数 正面次数 频率 蒲丰 4040 2048 0.5069 皮尔逊 12000 6019 0.5016 皮尔逊 24000 12012 0.5005 从上述实验结果可知,随着投掷次数的增加,正面出现的次数越来越接近一个常数:0.5。 这一实验的结果很好地反映了多次重复的随机实验中的频率稳定性。 直观上,我们用一个数 P(A) 来表示随机事件 A 发生可能性的大小,P(A) 就称为 A 的 概率。一般来说,当实验次数 N 越来越大,直至趋于无穷时,频率也会逐渐趋近于概率。 §1.2 样本空间与事件
我们假定试验或观察可在相同的条件下重复进行。这是因为一次随机实验的结果不可预 料,我们主要依靠频率稳定性来研究随机现象的内在规律,因此不可重复的实验对统计学来 说是没有多少意义的。 、样本空间的概念 定义:在一组固定的条件下所进行的试验或观察,其可能出现的结果称为样本点,一般用a 表示。全体样本点的所构成的集合称为样本空间,一般用Q表示。 例1.4投一个硬币:={正},{反}:9={正,反} 投二个硬币:={正正},{正反},{反正},板反反}:9={正正,正反,反正,反反} 样本点和样本空间是严格依赖于我们的实验设计的,不同的实验设计可能有不同的样本 点和样本空间。每一个最基本、最简单的结果称为一个样本点,所有可能的样本点构成样本 空间,而部分样本点的集合则构成了事件。 定义:样本点的集合称为事件 显然有:必然事件:9;不可能事件:Φ。 注意:上述定义不严格,如果Ω中有不可列个样本点,则不能把Ω的一切子集都看成事件, 否则无法在其上定义概率。关于这些问题的详细讨论超出了本课程的范围 二、事件间的关系:设A、B均为事件,则它们可能有以下关系 包含:若A发生,则B必然发生,此时称A包含于B,或B包含A。记为:AcB,或B→A 例:{正正}c{两币相同} 相等:若A→B,且BA,则称A与B相等,记为A=B 例:{反反}={正面不出现} 对立:由所有不包含在A中的样本点所组成的事件称为A的逆事件,或A的对立事件,记为 A。(也可称为“非A”) 例:{两币相同}={正反,反正}={两币不同} 显然A逆的逆等于A,即A=A。 、事件的运算 已知事件A,B,我们可以通过它们构成一些新的事件: 交:同时属于A及B的样本点的集合。记为:A∩B或AB,此时A与B同时发生 若A∩B=Φ,则称A与B互不相容。样本点一定是互不相容的 并:至少属于A或B中一个的全体样本点的集合,记为AUB 此时可能A,B都发生,也可能只发生一个 若A∩B=Φ,则可把并称为和,且记为A+B 注意:在集合论的运算中,和只是并的特例,要明确它们的不同,原因是:在集合论中,同 个元素只能计算一次,所以一个集合中不能有两个相同的元素。 差:包含在A中且不包含在B中的样本点的集合。记为A-B。 注意:这是三种运算中唯一不满足交换律的运算 显然:A-B=AB,AUA=9,A∩A=Φ,A=9-A venn图:用图解的方法表示集合间的关系。如: *一个无穷 中由之则为 为不可列集。详细讨 论可参见有关测度论的书籍
我们假定试验或观察可在相同的条件下重复进行。这是因为一次随机实验的结果不可预 料,我们主要依靠频率稳定性来研究随机现象的内在规律,因此不可重复的实验对统计学来 说是没有多少意义的。 一、样本空间的概念 定义:在一组固定的条件下所进行的试验或观察, 其可能出现的结果称为样本点,一般用ω 表示。全体样本点的所构成的集合称为样本空间,一般用Ω表示。 例 1.4 投一个硬币:ω={正},{反};Ω={正,反} 投二个硬币:ω={正正},{正反},{反正},{反反}; Ω={正正,正反,反正,反反} 样本点和样本空间是严格依赖于我们的实验设计的,不同的实验设计可能有不同的样本 点和样本空间。每一个最基本、最简单的结果称为一个样本点,所有可能的样本点构成样本 空间,而部分样本点的集合则构成了事件。 定义:样本点的集合称为事件。 显然有:必然事件:Ω;不可能事件:Φ。 注意:上述定义不严格,如果Ω中有不可列个样本点,则不能把Ω的一切子集都看成事件, 否则无法在其上定义概率。关于这些问题的详细讨论超出了本课程的范围。 二、事件间的关系:设 A、B 均为事件,则它们可能有以下关系: 包含:若 A 发生,则 B 必然发生,此时称 A 包含于 B,或 B 包含 A。记为:A B,或 B A。 例:{正正} {两币相同} 相等:若 A B,且 B A,则称 A 与 B 相等,记为 A=B。 例:{反反}={正面不出现} 对立:由所有不包含在 A 中的样本点所组成的事件称为 A 的逆事件,或 A 的对立事件,记为 A 。(也可称为“非 A”) 例:{ 两币相同 }={正反,反正}={两币不同} 显然 A 逆的逆等于 A, 即 A =A。 三、事件的运算 已知事件 A,B,我们可以通过它们构成一些新的事件: 交:同时属于 A 及 B 的样本点的集合。记为:A B 或 AB,此时 A 与 B 同时发生。 若 A B=Ф,则称 A 与 B 互不相容。样本点一定是互不相容的。 并:至少属于 A 或 B 中一个的全体样本点的集合,记为 A B。 此时可能 A,B 都发生,也可能只发生一个。 若 A B=Ф,则可把并称为和,且记为 A+B。 注意:在集合论的运算中,和只是并的特例,要明确它们的不同,原因是:在集合论中,同 一个元素只能计算一次,所以一个集合中不能有两个相同的元素。 差:包含在 A 中且不包含在 B 中的样本点的集合。记为 A-B。 注意:这是三种运算中唯一不满足交换律的运算。 显然: A− B = AB , A A = , A A = , A = − A Venn 图:用图解的方法表示集合间的关系。如: 一个无穷集合,若它的元素可与自然数集建立一一对应,则称其为可列集,否则称为不可列集。详细讨 论可参见有关测度论的书籍
B A B 相离 相交 包含 图1.两集合A、B的三种关系 显然两事件A与B的关系只有上述三种,这种图解的方法对我们搞清事件间的关系是 很有好处的 运算顺序:1.逆,2.交,3.并或差。 运算规律: (1)交换律:AUB=BUA,A∩B=B∩A (2)结合律:(AUB)UC=AU(BUC),(AB)C=A(BC) (3)分配律:(AUB)∩C=(A∩C)U(B∩C),(A∩B)UC=(AUC)∩(BUC) (4)德莫根( De morgan)定理: AUB=A∩B,A∩B=AUB 对于n个事件,甚至对可列个事件,上述定理仍成立,可写为: A A=∩An 注意:上述集合论运算规律与算数运算的规律很相似。若把并比作算术加法,把交比作算术 乘法,则交换律与结合律是相同的。但分配律有差异:集合论运算中除有交对并的分配律 外,还有并对交的分配律,而后者在算术运算中是不成立的。这种差异同样来自于集合运 算的规定:在集合中,同一元素只能计算一次而不能够重复计算。 例1.5A,B,C是三个事件,请用运算式表示下列事件: (1)A发生,B与C不发生:ABC,或A一B一C,或A-(BUC) (2)A与B都发生而C不发生:ABC,或AB一C,或AB-AB (3)至少发生一个: AUBUC (4)恰好发生一个:ABC+ABC+ABC (5)恰好发生二个:ABC+ABC+ABC §13概率 古典概型 从17世纪中叶,人们就开始研究随机现象,当时这种兴趣或需要主要是由赌博引起的,因 此人们首先注意的是这样一类随机事件:它们只有有限个可能的结果,即只有有限个样本点, 同时这些样本点出现的可能性相等。这样的概率空间称为古典概型。由于样本点是等可能的, 很自然地,人们就把事件A的概率定义为A所包含的样本点数与样本点总数的比值,即 P(4)=m。4包含的样本点数A的有利场合数 样本点总数 样本点总数 显然这样的定义同时也给出了概率的计算方法,这种方法今天还有着广泛的用途,尤其是在 产品的抽样检查方面。这样建立起来的概率有如下的性质 (1)对任意事件A,P(A)≥0(非负性) (2)P(9)=1(规范性)
A B A B A B 相离 相交 包含 图 1. 两集合 A、B 的三种关系。 显然两事件 A 与 B 的关系只有上述三种,这种图解的方法对我们搞清事件间的关系是 很有好处的。 运算顺序:1. 逆,2. 交,3. 并或差。 运算规律: (1)交换律:AUB=BUA,A∩B=B∩A (2)结合律:(AUB)UC=AU(BUC),(AB)C=A(BC) (3)分配律:(AUB)∩C=(A∩C)U(B∩C),(A∩B)UC=(AUC)∩(BUC) (4)德莫根(De Morgan)定理: AUB = A B, A B = AUB 对于 n 个事件,甚至对可列个事件,上述定理仍成立,可写为: i i Ai = Ai, i i Ai = Ai 注意:上述集合论运算规律与算数运算的规律很相似。若把并比作算术加法,把交比作算术 乘法,则交换律与结合律是相同的。但分配律有差异:集合论运算中除有交对并的分配律 外,还有并对交的分配律,而后者在算术运算中是不成立的。这种差异同样来自于集合运 算的规定:在集合中,同一元素只能计算一次而不能够重复计算。 例 1.5 A,B,C 是三个事件,请用运算式表示下列事件: (1)A 发生,B 与 C 不发生: ABC ,或 A―B―C,或A-(BUC) (2)A 与 B 都发生而 C 不发生: ABC ,或 AB―C,或 AB―ABC (3)至少发生一个:AUBUC (4)恰好发生一个: ABC + ABC + ABC (5)恰好发生二个: ABC + ABC + ABC §1.3 概率 一、古典概型 从 17 世纪中叶,人们就开始研究随机现象,当时这种兴趣或需要主要是由赌博引起的,因 此人们首先注意的是这样一类随机事件:它们只有有限个可能的结果,即只有有限个样本点, 同时这些样本点出现的可能性相等。这样的概率空间称为古典概型。由于样本点是等可能的, 很自然地,人们就把事件 A 的概率定义为 A 所包含的样本点数与样本点总数的比值,即 样本点总数 的有利场合数 样本点总数 A包含的样本点数 A n m P(A) = = = 显然这样的定义同时也给出了概率的计算方法,这种方法今天还有着广泛的用途,尤其是在 产品的抽样检查方面。这样建立起来的概率有如下的性质: (1)对任意事件 A,P(A)≥0 (非负性) (2)P(Ω)=1 (规范性)
(3)若A1,A2,…,An两两互不相容,则: P(A1+A2+…+An)=P(A1)+P(A)+…+P(An)(可加性) 注意:上述可加性称为有限可加性。它主要适用于样本空间只包含有限个样本点的情况。如 果样本空间含有无穷多个样本点,则上述可加性也应推广为可列可加性(或称完全可加性 即:若A1,A2,…An,…互不相容,则 例1.6五个身高不同的人,随机站成一排,问恰好是按身高顺序排列的可能性有多大? 解:五个人随机排列,则排法共有5!种。有利场合则为从高到矮,或从矮到高,共两种 因此所求概率为 P=3=120 例1.7100块集成电路中混有5块次品。任取20块检测,问至多发现一块次品的概率为多 大 解:样本空间:C130 有利场合:20块样品中没有次品:C3 20块样品中有一块次品:C·C5 例1.810个同样的球,编号为1-10,从中任取三个,求恰有一个球编号小于5,一个球等 于5,另一个大于5的概率 解:样本空间:C 10×9×8 =120 2×3 有利场合:C4C1·C5=4×5=20 ∴P=20/120=1/6 例19设有n个球,每个可以的等概率落入N个格子之一中,(N>n),求: (1)指定的n个格中各有一球的概率 (2)任意n个格中各有一球的概率。 解:由于每个球落入各个格中的可能都相等,这是古典概型。每个球有N种可能的位置, 因此n个球在N个格中共有N种落法。即样本空间共有N个样本点 第一问的有利场合为n个球的全排列,即n!,因此P1=n!/N 第二问中选定n个格,共有CN种选法,因此有利场合为CN·n,即 P Nn=MN"·(N-n)
(3)若 A1,A2,…,An 两两互不相容,则: ( ) ( ) ( ) ( ) P A1 + A2 ++ An = P A1 + P A2 ++ P An (可加性) 注意:上述可加性称为有限可加性。它主要适用于样本空间只包含有限个样本点的情况。如 果样本空间含有无穷多个样本点,则上述可加性也应推广为可列可加性(或称完全可加性), 即:若 A1,A2,… An,…互不相容,则 = = = 1 1 ( ) i i i P Ai P A 例 1.6 五个身高不同的人,随机站成一排,问恰好是按身高顺序排列的可能性有多大? 解:五个人随机排列,则排法共有 5!种。有利场合则为从高到矮,或从矮到高,共两种。 因此所求概率为: 60 1 120 2 5! P = 2 = = 例 1.7 100 块集成电路中混有 5 块次品。任取 20 块检测,问至多发现一块次品的概率为多 大? 解:样本空间: 20 C100 有利场合:20 块样品中没有次品: 20 C95 20 块样品中有一块次品: 1 5 19 C95 C ∴ ( ) 20 100 1 5 19 95 20 95 C C C C P + = 例 1.8 10 个同样的球,编号为 1—10,从中任取三个,求恰有一个球编号小于 5,一个球等 于 5,另一个大于 5 的概率。 解:样本空间: 120 2 3 3 10 9 8 10 = C = 有利场合: 4 5 20 1 5 1 1 1 C4 C C = = ∴ P = 20/120=1/6 例 1.9 设有 n 个球,每个可以 N 1 的等概率落入 N 个格子之一中,(N>n),求: (1)指定的 n 个格中各有一球的概率; (2)任意 n 个格中各有一球的概率。 解:由于每个球落入各个格中的可能都相等,这是古典概型。每个球有 N 种可能的位置, 因此 n 个球在 N 个格中共有 Nn 种落法。即样本空间共有 Nn 个样本点。 第一问的有利场合为 n 个球的全排列,即 n!,因此 P1 = n!/ Nn 第二问中选定 n 个格,共有 n CN 种选法,因此有利场合为 C n! n N ,即 !/( ( )!) ! 2 N N N n N C n P n n n N = − =
这一问题是统计物理中的典型问题之一。 例1.10求某班的40位同学中至少有两位同学生日相同的概率 解:利用例1.9第二问的答案,可很容易地得出本题的答案:令N=365,n=40,则有: P=1-365!/(36540·(365-40)!) 1-0.109=0.891 从直观上看,每年有365天,班上只有40位同学,似乎有两位同学生日相同的概率并 不大。但严格的计算显示这一概率接近0.9,因此我们不能太相信自己的直觉。 例1.11:袋中有a只白球,b只黑球,不放回抽样,求第K次恰好抽到一只黑球的概率 (1≤K≤a+b)。 解法1:把所有的球编号,若把摸出的球排成一直线,可能的排法为(a+b)!。有利场合: 第K个位置必须放黑球,共有b种方法:剩下的(a+b-1)个位置有(a+b-1)!个放 法,∴共为:b·(a+b-1)! 即P=a+b-1)=b (a+b)! a+b 解法2:黑球之间和白球之间不加区别,仍把它们都摸出来排成一条线。黑球有Cb种放法。 黑球放好后,白球只有一种放法,样本点有Cbb个。有利场合:C如b1,这是因为第 K个位置必须放黑球,剩下a+b-1个位置,放b-1个黑球 b b a+ b 解法3:取K个球排成一行,排法有:C·K! 有利场合:Cb·Cb1(K-1),因此有: Cb…·C4b-1·(K-1) (a+b-1) (k-1)! (K-1)(a+b-K) (a+b) K K!(a+b-K)! 注意这里设想问题的顺序。在本题中是先取一个黑球,再随便取剩下的球。如果先取剩 下的球,最后取黑球则不行,因为这时剩下什么球是不确定的 从本题中可看出如下几点 (1)概率P与K无关,这正说明抽签对所有参加者都是公平的,与先后次序无关 (2)同一问题可选用不同的模型来解决。这里主要是样本空间的选取不同,只要方法正确 结果是相同的,但要注意计算总样本点和有利场合时一定要用同一个模型,否则必然出错。 二、几何概型
这一问题是统计物理中的典型问题之一。 例 1.10 求某班的 40 位同学中至少有两位同学生日相同的概率。 解:利用例 1.9 第二问的答案,可很容易地得出本题的答案:令 N=365,n=40,则有: P=1-365!/(36540·(365-40)!) 1-0.109 = 0.891 从直观上看,每年有 365 天,班上只有 40 位同学,似乎有两位同学生日相同的概率并 不大。但严格的计算显示这一概率接近 0.9,因此我们不能太相信自己的直觉。 例 1.11:袋中有 a 只白球,b 只黑球,不放回抽样,求第 K 次恰好抽到一只黑球的概率 (1≤K≤a+b)。 解法 1:把所有的球编号,若把摸出的球排成一直线,可能的排法为(a+b)!。有利场合: 第 K 个位置必须放黑球,共有 b 种方法;剩下的(a+b-1)个位置有(a+b-1)!个放 法,∴共为:b·(a+b-1)! 即 a b b a b b a b P + = + + − = ( )! ( 1)! 解法 2:黑球之间和白球之间不加区别,仍把它们都摸出来排成一条线。黑球有 b Ca+b 种放法。 黑球放好后,白球只有一种放法,∴样本点有 b Ca+b 个。有利场合: 1 1 − + − b Ca b ,这是因为第 K 个位置必须放黑球,剩下 a+b-1 个位置,放 b-1 个黑球。 ∴ a b b C C P b a b b a b + = = + − + − 1 1 解法 3:取 K 个球排成一行,排法有: C K! K a b + 有利场合: ( 1)! 1 1 1 − − C C + − K K b a b ,因此有: a b b K K a b K a b K K a b K a b b C K C C K P K a b K b a b + = + − + − − + − + − = − = + − + − ! !( )! ( )! ( 1)! ( 1)!( )! ( 1) ! ( 1)! 1 1 1 注意这里设想问题的顺序。在本题中是先取一个黑球,再随便取剩下的球。如果先取剩 下的球,最后取黑球则不行,因为这时剩下什么球是不确定的。 从本题中可看出如下几点: (1)概率 P 与 K 无关,这正说明抽签对所有参加者都是公平的,与先后次序无关。 (2)同一问题可选用不同的模型来解决。这里主要是样本空间的选取不同,只要方法正确, 结果是相同的,但要注意计算总样本点和有利场合时一定要用同一个模型,否则必然出错。 二、几何概型
古典概型概念虽然比较简单直观,但它成功地解决了一类问题的计算方法,这些问题在 今天的现实生活中也还常常能碰到。古典概型计算的基础是某种事先确定的,公认的等可能 性,而它最大的限制就是只能有有限个样本点。因此,历史上有不少人企图通过把类似的方 法推广到有无限多结果,但又能定义某种等可能性的场合,这样就产生了几何概型。称它为 几何概型,是因为此时样本点数常常是不可列的,因此无法用样本点数目之比来定义概率, 而是根据问题维数的不同,改用长度、面积、或体积之比来定义概率,采用几何方法来进行 计算。这种方法在今天也还有一定使用价值。 例1.12两人约定于7点到8点在某地会面,求一人等半小时以上的概率 解:如图:x代表甲到的时间,y为乙到的时间,则对 角线上的点代表两人同时到达。而图中左上与右下两个 三角形部分的点代表有一人需等待半小时以上,它们的 面积和为总面积的一,故P 在本题中,以两个座标轴分别代表甲乙二人到达的时 间,这样每一个可能发生的事件(甲乙二人分别在某 时刻到达)就变成了二维平面上的一个点。由于在指定 时间段内到达的可能性相同,我们就可以用代表有利场 合的面积与整个指定区间面积之比来代表所求的概率。类似方法常可用于解决各种相遇问 例1.13蒲丰( Buffon)投针问题 平面上画有一些平行线,线间距离均为a。向此平面随意投掷一枚长为L(L<a)的针, 试求此针与任一平行线相交的概率 解:以x表示针的中点到最近的一条平行线的距离,q表示针与平行线的交角,则针与平行 线的位置关系可表示如图1.1(a) L/2 sino 图1.1(a) 图1.1(b) 由题意,有:0≤x≤,0≤≤丌,因此样本空间可取为图1.1(b)中的长方形Ω2。若 要针与平行线相交,则应有:x≤Sn,因此有利场合为图1.1(b)中的曲线下部分。 其面积为: L (一cosx+cos)=L 因此所求的概率为:P= ar/2)/ar 由于上述概率与π有关,曾有人利用它来计算π的数值。即多次投针后,用针与线相交的 频率nN作为概率P的估计值,代入上式解得值:LN。下表为有关的历史资料
古典概型概念虽然比较简单直观,但它成功地解决了一类问题的计算方法,这些问题在 今天的现实生活中也还常常能碰到。古典概型计算的基础是某种事先确定的,公认的等可能 性,而它最大的限制就是只能有有限个样本点。因此,历史上有不少人企图通过把类似的方 法推广到有无限多结果,但又能定义某种等可能性的场合,这样就产生了几何概型。称它为 几何概型,是因为此时样本点数常常是不可列的,因此无法用样本点数目之比来定义概率, 而是根据问题维数的不同,改用长度、面积、或体积之比来定义概率,采用几何方法来进行 计算。这种方法在今天也还有一定使用价值。 例 1.12 两人约定于 7 点到 8 点在某地会面,求一人等半小时以上的概率。 解: 如图:x 代表甲到的时间,y 为乙到的时间,则对 角线上的点代表两人同时到达。而图中左上与右下两个 三角形部分的点代表有一人需等待半小时以上,它们的 面积和为总面积的 4 1 ,故 4 1 P = 在本题中,以两个座标轴分别代表甲乙二人到达的时 间,这样每一个可能发生的事件(甲乙二人分别在某一 时刻到达)就变成了二维平面上的一个点。由于在指定 时间段内到达的可能性相同,我们就可以用代表有利场 合的面积与整个指定区间面积之比来代表所求的概率。类似方法常可用于解决各种相遇问 题。 例 1.13 蒲丰(Buffon)投针问题 平面上画有一些平行线,线间距离均为 a。向此平面随意投掷一枚长为 L(L<a)的针, 试求此针与任一平行线相交的概率。 解:以 x 表示针的中点到最近的一条平行线的距离,表示针与平行线的交角,则针与平行 线的位置关系可表示如图 1.1(a): x 图 1.1 (a) 图 1.1(b) 由题意,有: 2 0 a x , 0 ,因此样本空间可取为图 1.1(b)中的长方形。若 要针与平行线相交,则应有: sin 2 L x ,因此有利场合为图 1.1(b)中的曲线下部分。 其面积为: = − + = 0 ( cos cos 0) 2 sin 2 L L d L 因此所求的概率为: ( ) a L a P L 2 / 2 = = 由于上述概率与有关,曾有人利用它来计算的数值。即多次投针后,用针与线相交的 频率 n/N 作为概率 P 的估计值,代入上式解得值: an 2LN = 。下表为有关的历史资料: y 8 7.5 x 7 7.5 8 X a/2 Ω L/2 sin 0 π
表1投针试验的历史资料① 实验者 年代针长(以线距a为1)投掷次数相交次数π佔计值 Wolf 2532 Smith 18550.6 3204 12185 3.1554 De Morgan, C. 1860 382.5 3.137 18840.75 1030 3.1595 Lazzerini 1901 3.1415929 192510.5419 3.1795 这里采用的方法称为蒙特卡洛( Monte-Carlo)方法,它的基本思路是首先建立一个与我 们感兴趣的量(如例1.13中的π)有关的概率模型,然后进行随机试验,并通过试验结果计 算所关心的量的值。由于许多随机试验可用计算机模拟的方法迅速大量地重复,这种蒙特卡 洛方法目前使用也日渐广泛 例1.14贝特朗( Bertrand)奇论 在半径为1的圆内随机取一弦,问其长超过该圆内接等边三角形边长√3的概率是多 解法(1):弦交圆周于2点A,B。不失一般性,固定一点A,以它为顶点作等边△ABC, 显然B必须落在B'C'弧上才满足条件,∴P=(见图12(a) B 图1.2(a) 图1.2(b) 图1.2(c) 解法(2):弦长只与它与圆心的距离有关,与方向无关,由于等边三角形的边距圆心距离为 1/2,显然弦与圆心距离必须小于12。∴P=12(见图1.2(b)) 解法(3):弦被其中点唯一确定,当且仅当中点落在半径为12的同心圆内时,弦长大于√3, 此小圆面积为大圆的1/4,故P=14。(见图12(c)) 同一问题出现了多种不同答案,其原因在于采用了不同的等可能假设:端点在圆周上均 匀分布,中点在直径上均匀分布,中点在圆内均匀分布。这可以看作是三种随机试验。对各 自的实验来说,答案都是对的。 这个例子说明,采用等可能性来定义概率会产生问题,即有时不存在一种明显的、公认 的等可能性。因此后来定义概率这一基本概念时就只给出它所应有的基本性质(即非负性 规范性与可加性),而不对等可能性作具体规定,这样就把各种情况都包括了 §1.4概率的运算 、概率加法 在上一节中讨论概率性质时已经谈到对互不相容事件A和B,有 P(A+B)=P(A)+P(B) ①转引自复旦大学编《概率论》第一册:《概率论基础》,P39
表 1 投针试验的历史资料① 实验者 年代 针长(以线距 a 为 1) 投掷次数 相交次数 估计值 Wolf Smith De Morgan, C. Fox Lazzerini Reina 1850 1855 1860 1884 1901 1925 0.8 0.6 1.0 0.75 0.83 0.5419 5000 3204 600 1030 3408 2520 2532 1218.5 382.5 489 1808 859 3.1596 3.1554 3.137 3.1595 3.1415929 3.1795 这里采用的方法称为蒙特卡洛(Monte-Carlo)方法,它的基本思路是首先建立一个与我 们感兴趣的量(如例 1.13 中的)有关的概率模型,然后进行随机试验,并通过试验结果计 算所关心的量的值。由于许多随机试验可用计算机模拟的方法迅速大量地重复,这种蒙特卡 洛方法目前使用也日渐广泛。 例 1.14 贝特朗(Bertrand)奇论。 在半径为 1 的圆内随机取一弦,问其长超过该圆内接等边三角形边长 3 的概率是多 少? 解法(1):弦交圆周于 2 点 A,B。不失一般性,固定一点 A,以它为顶点作等边ABC, 显然 B 必须落在 BC 弧上才满足条件, 3 1 P = (见图 1.2(a)) A A’ A’ A o o A B B’ C’ B’ C’ B’ C’ B B 图 1.2(a) 图 1.2(b) 图 1.2(c) 解法(2):弦长只与它与圆心的距离有关,与方向无关,由于等边三角形的边距圆心距离为 1/2,显然弦与圆心距离必须小于 1/2。 ∴P=1/2 (见图 1.2(b)) 解法(3):弦被其中点唯一确定,当且仅当中点落在半径为 1/2 的同心圆内时,弦长大于 3 , 此小圆面积为大圆的 1/4,故 P=1/4。(见图 1.2(c)) 同一问题出现了多种不同答案,其原因在于采用了不同的等可能假设:端点在圆周上均 匀分布,中点在直径上均匀分布,中点在圆内均匀分布。这可以看作是三种随机试验。对各 自的实验来说,答案都是对的。 这个例子说明,采用等可能性来定义概率会产生问题,即有时不存在一种明显的、公认 的等可能性。因此后来定义概率这一基本概念时就只给出它所应有的基本性质(即非负性, 规范性与可加性),而不对等可能性作具体规定,这样就把各种情况都包括了。 §1.4 概率的运算 一、概率加法 在上一节中讨论概率性质时已经谈到对互不相容事件 A 和 B,有: P(A+B)= P(A)+ P(B) ① 转引自复旦大学编《概率论》第一册:《概率论基础》,P39
对于任意二事件A和B,该如何计算P(AUB)呢? 定理:对任意事件A、B,P(AUB)=P(A)+P(B)一P(AB) 证:A=A(B+B)=AB+AB P(A)=P(AB)+ P(AB) P(AB)=P(A)-P(AB) 又AUB=B+AB P(AU∪B)=P(B)+P( P(B)+P(A-P(AB) 推论:对任意事件A1,A2,…,An,有 P(A A4)=∑P(A)-∑PAA)+∑P(AA4) (-1)P(A142…An) 例1.15袋中有红(A),黑(B),白(C)三个球,有放回地摸两次,求没有摸到红球或没 有摸到黑球的概率 2 4 解:没有红球的概率:P(A) 339 显然P(B)=P(A)=,P(A·B)=P(C)= P(AUB) 999 另外,由性质PA+B)=P(A+P(B),可以很容易地推出P(A)=1-P(A),这个式子在计 算概率时很有用,有时P(A)很难求,而P(A)则很好求,此时利用上式就可简单地求出P(A)。 例1.16:袋中装有N-1个黑球和一个白球,每次随机摸出一球,并换回一只黑球,这样继 续下去,问第k次摸到黑球的概率为多少? 解:设A为第k次摸到黑球这一事件,则A为第k次摸到白球,则由题意,A为前k-1次 都摸黑球,而第k次摸白球。 P(A N N) N P(A)=1-P(A)=1-1 本题若直接计算P(A),则复杂多了 例1.17试求桥牌中一副牌少于4点的概率 解:Ω:C52,共有16张大牌。 有利场合:A(一张大牌):一个K或Q或J,3C4CB
对于任意二事件 A 和 B,该如何计算 P(AUB)呢? 定理:对任意事件 A、B,P(AUB)= P(A)+P(B)-P(AB) 证: A = A(B + B) = AB + AB ( ) ( ) ( ) ( ) ( ) ( ) P AB P A P AB P A P AB P AB = − = + 又 A B = B + AB ( ) ( ) ( ) ( ) ( ) ( ) P B P A P AB P A B P B P AB = + − = + 推论:对任意事件 A1,A2,…,An,有: ( 1) ( ) ( ) ( ) ( ) ( ) 1 2 1 1 1 1 1 n n n i i j n i j k n i i j i j k n i i P A A A P A P A P A A P A A A − = = + + − = − + 例1. 15 袋中有红(A),黑(B),白(C)三个球,有放回地摸两次,求没有摸到红球或没 有摸到黑球的概率。 解:没有红球的概率: 9 4 3 2 3 2 P(A) = = 显然 9 1 3 1 3 1 , ( ) ( ) 9 4 P(B) = P(A) = P A B = P C = = , 9 7 9 1 9 4 9 4 P(A B) = + − = 另外,由性质 P(A+B)=P(A)+P(B),可以很容易地推出 P(A) =1− P(A) ,这个式子在计 算概率时很有用,有时 P(A)很难求,而 P(A) 则很好求,此时利用上式就可简单地求出 P(A)。 例1. 16:袋中装有 N-1 个黑球和一个白球,每次随机摸出一球,并换回一只黑球,这样继 续下去,问第 k 次摸到黑球的概率为多少? 解:设 A 为第 k 次摸到黑球这一事件,则 A 为第 k 次摸到白球,则由题意, A 为前 k-1 次 都摸黑球,而第 k 次摸白球。 N N P A P A N N N N N P A k k k 1 1 ( ) 1 ( ) 1 1 1 1 1 1 1 ( ) 1 1 1 = − = − − = − − = − − − 本题若直接计算 P(A),则复杂多了。 例 1.17 试求桥牌中一副牌少于 4 点的概率。 解: 13 52 :C ,共有 16 张大牌。 有利场合:A(一张大牌):一个 K 或 Q 或 J, 12 36 1 3C4C
B(2张大牌):一个Q,一个J:C4·C4·CB 二个J:C2C C(3张大牌):三个J,C3·C3 D(无大牌):C ∵A,B,C,D不相容。 P=c3+3C 4 C3%+(C4. C4+C2).C36+C$.C36/C52 二、条件概率与乘法公式 例1.18假定男女孩出生率相同,设A为二个孩子家庭有一男孩一女孩这一事件,求P(A)。 解:显然Ω=((男男),(男女),(女男),(女女)} P(A) 这里要特别注意的是不能认为样本空间只有如下三个样本点:{(两男),(两女),( 男一女)}。上述三个样本点不是等可能的。这是因为对(两男)与(两女)来说,没有顺 序问题,交换顺序后仍是两男或两女:但对一男一女来说就不同了,它实际上是由兄妹与姐 弟两个样本点组成。因此只有采用{(兄弟),(兄妹),(姐弟),(姐妹)}四个样本点才能构 成古典概型的样本空间,只有这样才能保证等可能性,而等可能性正是古典概型计算公式的 基础。类似的情况在古典概型的计算中是经常碰到的,在通常情况下,考虑了顺序的样本点 能较好地保证等可能性,这一点请务必加以注意 例1.19若已知该家庭至少有一女孩,则有一男一女的概率为多大? 解:设B为至少有一女孩,当B发生时,样本点只剩三个:(男女),(女男),(女女) P(4B)= 2 我们把P(4B)称为条件概率,即:已知事件B发生的条件下,事件A发生的概率。从 上面的例子看,已知B发生相当于样本空间缩小了,如果仍在原空间中来看,则可见 P(AB)=mAB=mAB/n_ P(AB) mgmg/n P(B) 其中mAB,mB分别代表AB,B的有利场合,n为总样本点数。 上式在各种情况下都是成立的,我们用它作为条件概率的定义 定义:若A,B为两个事件,且P(B)>0,则记 P(AB) P(AB) P(B) 称P(AB)为事件B发生的条件下事件A发生的概率。 乘法定理:P(AB)=P(A),P(BA)=P(B)P(4B) 当然这一公式成立的条件是P(A>0,PB>0,否则P(BA)或P4B)不存在。 推广:P(A141…1)=P(4),P(A4)PA1442)…PCA1A142…Am) 例1.20甲袋中有a只白球,b只黑球,乙袋中有α只白球,β只黑球,现从甲袋中任取2
B(2 张大牌):一个 Q,一个 J: 11 36 1 4 1 C4 C C 二个 J: 11 36 2 C4 C C(3 张大牌):三个 J, 10 36 3 C4 C D(无大牌): 13 C36 ∵A,B,C,D 不相容。 ∴ 1 3 5 2 1 0 3 6 3 4 1 1 3 6 2 4 1 4 1 4 1 2 3 6 1 4 1 3 3 6 P = C + 3C C + (C C + C )C + C C /C 二、条件概率与乘法公式 例 1.18 假定男女孩出生率相同,设 A 为二个孩子家庭有一男孩一女孩这一事件,求 P(A)。 解:显然Ω={(男男),(男女),(女男),(女女)} ∴ 2 1 4 2 P(A) = = 。 这里要特别注意的是不能认为样本空间只有如下三个样本点:{(两男),(两女),(一 男一女)}。上述三个样本点不是等可能的。这是因为对(两男)与(两女)来说,没有顺 序问题,交换顺序后仍是两男或两女;但对一男一女来说就不同了,它实际上是由兄妹与姐 弟两个样本点组成。因此只有采用{(兄弟),(兄妹),(姐弟),(姐妹)}四个样本点才能构 成古典概型的样本空间,只有这样才能保证等可能性,而等可能性正是古典概型计算公式的 基础。类似的情况在古典概型的计算中是经常碰到的,在通常情况下,考虑了顺序的样本点 能较好地保证等可能性,这一点请务必加以注意。 例 1.19 若已知该家庭至少有一女孩,则有一男一女的概率为多大? 解:设 B 为至少有一女孩,当 B 发生时,样本点只剩三个:(男女),(女男),(女女)。 ∴ 3 2 P(A B) = 我们把 P(AB) 称为条件概率,即:已知事件 B 发生的条件下,事件 A 发生的概率。从 上面的例子看,已知 B 发生相当于样本空间缩小了,如果仍在原空间中来看,则可见 ( ) ( ) / / ( ) P B P AB m n m n m m P AB B AB B AB = = = 其中 mAB,mB分别代表 AB,B 的有利场合,n 为总样本点数。 上式在各种情况下都是成立的,我们用它作为条件概率的定义。 定义:若 A,B 为两个事件,且 P(B)>0,则记 ( ) ( ) ( ) P B P AB P A B = 称 P(AB) 为事件 B 发生的条件下事件 A 发生的概率。 乘法定理: P(AB) = P(A) P(B A) = P(B) P(AB) 当然这一公式成立的条件是 P(A)>0, P(B)>0, 否则 P(B A) 或 P(AB) 不存在。 推广: ( ) ( ) ( ) ( ) ( ) 1 2 1 2 1 3 1 2 1 2 −1 = P A A An P A P A A P A A A P An A A An 例 1.20 甲袋中有 a 只白球,b 只黑球,乙袋中有α只白球,β只黑球,现从甲袋中任取 2