第四章常用概率分布 为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方 法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学 研究中常用的几种随机变量的概率分布—正态分布、二项分布、波松分布以及样本平均数 的抽样分布和t分布 第一节事件与概率 、事件 (一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各 种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条 件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。例如, 在标准大气压下,水加热到100℃必然沸腾:步行条件下必然不可能到达月球等。这类现象 称为必然现象( inevitable phenomena)或确定性现象( definite phenomena)。另一类是 事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。例 如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋 可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6只雏”,事前不可 能断言其孵化结果。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象 ( random phenomena)或不确定性现象( indefinite phenomena) 人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下 特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果 对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大 量重复试验时,其试验结果却呈现出某种固有的特定的规律性一一频率的稳定性,通常称之 为随机现象的统计规律性。例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确 定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。 概率论与数理统计就是研究和揭示随机现象统计规律的一门科学 (二)随机试验与随机事件 1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的 观察或试验统称为试验(tria)。而一个试验如果满足下述三个特性,则称其为一个随机试 验( random trial),简称试验: (1)试验可以在相同条件下多次重复进行 (2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果; (3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这 次试验会出现哪一个结果 如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况:又如观察两头临产妊娠母牛所
32 第四章 常用概率分布 为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方 法, 本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学 研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数 的抽样分布和 t 分布。 第一节 事件与概率 一、事 件 (一)必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各 种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条 件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。例如, 在标准大气压下,水加热到 100℃必然沸腾;步行条件下必然不可能到达月球等。这类现象 称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。另一类是 事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。例 如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化 6 枚种蛋, 可能“孵化出 0 只雏”,也可能“孵化出 1 只雏”,…,也可能“孵化出 6 只雏”,事前不可 能断言其孵化结果。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象 (random phenomena)或不确定性现象(indefinite phenomena)。 人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下 特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果; 对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大 量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之 为随机现象的统计规律性。例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确 定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近 1:1 的性别比例规律。 概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。 (二)随机试验与随机事件 1、随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的 观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则称其为一个随机试 验(random trial),简称试验: (1)试验可以在相同条件下多次重复进行; (2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果; (3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这 次试验会出现哪一个结果。 如在一定孵化条件下,孵化 6 枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所
产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。 2、随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生, 称为随机事件( random event),简称事件( event),通常用A、B、C等来表示 (1)基本事件我们把不能再分的事件称为基本事件( elementary event),也称为样 本点( sample point)。例如,在编号为1、2、3、…、10的十头猪中随机抽取1头,有10 种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、、“取得一个编号是10”, 这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事 件称为复合事件( compound event)。如“取得一个编号是2的倍数”是一个复合事件,它 由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。 (2)必然事件我们把在一定条件下必然会发生的事件称为必然事件( certain event 用Ω表示。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经 114天左右产仔,就是一个必然事件。 (3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件( impossible event),用Φ表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事 件。 必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见 我们把它们看作为两个特殊的随机事件。 二、概率 (一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的, 还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导 实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所 固有的,且不随人的主观意志而改变,人们称之为概率( probability)。事件A的概率记为 P(A)。下面我们先介绍概率的统计定义 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m称为随 机事件A的频率( frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳 定地接近某一数值p,那么就把p称为随机事件A的概率。这样定义的概率称为统计概率 ( statistics probability),或者称后验概率( posterior probability) 例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次 抛掷硬币的试验。在表4-1中列出了他们的试验记录 表4—1抛掷一枚硬币发生正面朝上的试验记录 实验者 投掷次数发生正面朝上的次数频率(m/n) 蒲丰 4040 2048 0.5069 k.皮尔逊 6019 0.5016 k.皮尔逊 24000 12012 0.5005 从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接 近0.5,我们就把0.5作为这个事件的概率 在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随 机事件A的频率作为该随机事件概率的近似值
33 产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。 2、随机事件 随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生, 称为随机事件(random event),简称事件(event),通常用 A、B、C 等来表示。 (1)基本事件 我们把不能再分的事件称为基本事件(elementary event),也称为样 本点(sample point)。例如,在编号为 1、2、3、…、10 的十头猪中随机抽取 1 头,有 10 种不同的可能结果:“取得一个编号是 1”、“取得一个编号是 2”、…、“取得一个编号是 10”, 这 10 个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事 件称为复合事件(compound event)。如“取得一个编号是 2 的倍数”是一个复合事件,它 由“取得一个编号是 2”、“是 4”、“是 6、“是 8”、“是 10”5 个基本事件组合而成。 (2)必然事件 我们把在一定条件下必然会发生的事件称为必然事件(certain event), 用Ω表示。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经 114 天左右产仔,就是一个必然事件。 (3)不可能事件 我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用ф表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事 件。 必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见, 我们把它们看作为两个特殊的随机事件。 二 、 概 率 (一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机事件是不够的, 还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导 实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所 固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件 A 的概率记为 P(A)。下面我们先介绍概率的统计定义。 在相同条件下进行 n 次重复试验,如果随机事件 A 发生的次数为 m,那么 m/n 称为随 机事件 A 的频率(frequency);当试验重复数 n 逐渐增大时,随机事件 A 的频率越来越稳 定地接近某一数值 p,那么就把 p 称为随机事件 A 的概率。这样定义的概率称为统计概率 (statistics probability),或者称后验概率(posterior probability)。 例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次 抛掷硬币的试验。在表 4—1 中列出了他们的试验记录。 表 4—1 抛掷一枚硬币发生正面朝上的试验记录 实验者 投掷次数 发生正面朝上的次数 频率(m/n) 蒲 丰 4040 2048 0.5069 k.皮尔逊 12000 6019 0.5016 k.皮尔逊 24000 12012 0.5005 从表 4-1 可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接 近 0.5,我们就把 0.5 作为这个事件的概率。 在一般情况下,随机事件的概率 p 是不可能准确得到的。通常以试验次数 n 充分大时随 机事件 A 的频率作为该随机事件概率的近似值
即 P(4)=p≈m(n充分大) (二)概率的古典定义上面介绍了概率的统计定义。但对于某些随机事件,用不 着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。 有很多随机试验具有以下特征: 1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个; 2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的 3、试验的所有可能结果两两互不相容。 具有上述特征的随机试验,称为古典概型( classical model)。对于古典概型,概率的 定义如下 设样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则 事件A的概率为m/,即 P(A)=m/n 这样定义的概率称为古典概率( classical probability)或先验概率( prior probability) 【例4.1】在编号为1、2、3、…、10的十头猪中随机抽取1头,求下列随机事件的 概率。 (1)A=“抽得一个编号≤4”; (2)B=“抽得一个编号是2的倍数 因为该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基 本事件有4个,既抽得编号为1,2,3,4中的任何一个,事件A便发生,即m4=4,所 P(4)=mn=4/10=0.4 同理,事件B所包含的基本事件数mB=5,即抽得编号为2,4,6,8,10中的任何 个,事件B便发生,故P(B)=mp/=5/10=0.5 【例4.2】在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛, 试求 (1)其中恰有m头有流产史奶牛的概率是多少? 2)若N=30,M=8,n=10,m=2,其概率是多少? 我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛,其中恰有m头有 流产史这一事件记为A,因为从N头奶牛中任意抽出n头奶牛的基本事件总数为CM,事件 A所包含的基本事件数为Cm·CNm,因此所求事件A的概率为 P( 将N=30,M=8,n=10,m=2代入上式,得 C P(A) 0.0695 即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出10头奶牛其中有2头曾有流 产史的概率为695% (三)概率的性质根据概率的定义,概率有如下基本性质: 1、对于任何事件A,有0≤P(A)≤1; 2、必然事件的概率为1,即P(9)
34 即 P(A)=p≈m/n (n 充分大) (4-1) (二)概率的古典定义 上面介绍了概率的统计定义。但对于某些随机事件,用不 着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。 有很多随机试验具有以下特征: 1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个; 2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的; 3、试验的所有可能结果两两互不相容。 具有上述特征的随机试验,称为古典概型(classical model)。对于古典概型,概率的 定义如下: 设样本空间由 n 个等可能的基本事件所构成,其中事件 A 包含有 m 个基本事件,则 事件 A 的概率为 m/n,即 P(A)=m/n (4-2) 这样定义的概率称为古典概率(classical probability)或先验概率(prior probability)。 【例 4.1】在编号为 1、2、3、…、10 的十头猪中随机抽取 1 头,求下列随机事件的 概率。 (1)A=“抽得一个编号≤4”; (2)B=“抽得一个编号是 2 的倍数”。 因为该试验样本空间由 10 个等可能的基本事件构成,即 n=10,而事件 A 所包含的基 本事件有 4 个,既抽得编号为 1,2,3,4 中的任何一个,事件 A 便发生,即 mA=4,所 以 P(A)=mA/n=4/10=0.4 同理,事件 B 所包含的基本事件数 mB=5,即抽得编号为 2,4,6,8,10 中的任何 一个,事件 B 便发生,故 P(B)=mB/n=5/10=0.5。 【例 4.2】 在 N 头奶牛中,有 M 头曾有流产史,从这群奶牛中任意抽出 n 头奶牛, 试求: (1)其中恰有 m 头有流产史奶牛的概率是多少? (2)若 N=30,M =8,n =10,m =2,其概率是多少? 我们把从有 M 头奶牛曾有流产史的 N 头奶牛中任意抽出 n 头奶牛,其中恰有 m 头有 流产史这一事件记为 A,因为从 N 头奶牛中任意抽出 n 头奶牛的基本事件总数为 n CN ,事件 A 所包含的基本事件数为 n m N M m CM C − − ,因此所求事件 A 的概率为 P(A) = n N n m N M m M C C C − − . 将 N=30,M =8,n =10,m =2 代入上式,得 P(A) = 10 30 10 2 30 8 2 8 . C C C − − = 0.0695 即在 30 头奶牛中有 8 头曾有流产史,从这群奶牛随机抽出 10 头奶牛其中有 2 头曾有流 产史的概率为 6.95%。 (三)概率的性质 根据概率的定义,概率有如下基本性质: 1、对于任何事件 A,有 0≤P(A)≤1; 2、必然事件的概率为 1,即 P(Ω)=1;
3、不可能事件的概率为0,即P(d)=0。 三、小概率事件实际不可能性原理 随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很 小,例如小于0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件, 但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能 发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率 事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行 假设检验(显著性检验)的基本依据。在下一章介绍显著性检验的基本原理时,将详细叙述 小概率事件实际不可能性原理的具体应用 第二节概率分布 事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必 须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布 ( probability distribution)。为了深入研究随机试验,我们先引入随机变量( random variable 的概念。 、随机变量 作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作 为变量x的取值范围,则试验结果可用变量x来表示 【例4.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈 1头 治愈”、“2头治愈”、“ “100头治愈”。若用x表示治愈头数,则x的取值为0、 【例4.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若 用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。 【例4.5】测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围 (a,b),如0.5-1.5kg,x值可以是这个范围内的任何实数 如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些 不同的值,则称x为离散型随机变量( discrete random variable):如果表示试验结果的变 量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概 率是确定的,则称x为连续型随机变量( continuous random variable 引入随机变量的概念后,对随机试验的概率分布的研究就转为对随机变量概率分布的 研究了。 离散型随机变量的概率分布
35 3、不可能事件的概率为 0,即 P(ф)=0。 三、小概率事件实际不可能性原理 随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很 小,例如小于 0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件, 但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能 发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率 事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行 假设检验(显著性检验)的基本依据。在下一章介绍显著性检验的基本原理时,将详细叙述 小概率事件实际不可能性原理的具体应用。 第二节 概率分布 事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必 须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布 (probability distribution)。为了深入研究随机试验,我们先引入随机变量(random variable) 的概念。 一、随机变量 作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作 为变量x的取值范围,则试验结果可用变量x来表示。 【例4.3】 对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、 “1头 治愈”、“2头治愈”、“…”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、 2、…、100。 【例4.4】 孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。 若 用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。 【例4.5】 测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围 (a,b),如0.5―1.5kg,x值可以是这个范围内的任何实数。 如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些 不同的值,则称x为离散型随机变量 (discrete random variable);如果表示试验结果的变 量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概 率是确定的,则称x为连续型随机变量(continuous random variable)。 引入随机变量的概念后,对随机试验的概率分布的研究就转为对随机变量概率分布的 研究了。 二、离散型随机变量的概率分布
要了解离散型随机变量x的统计规律,就必须知道它的一切可能值x及取每种可能值的 概率p 如果我们将离散型随机变量x的一切可能取值x(i=1,2,…),及其对应的概率P,记作 P(x=xi)=p i=1,2,… 则称(4-3)式为离散型随机变量x的概率分布或分布。常用分布列( distribution series) 来表示离散型随机变量: 显然离散型随机变量的概率分布具有p≥0和Σp=1这两个基本性质 、连续型随机变量的概率分布 连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能 取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。下 面通过频率分布密度曲线予以说明 由表2—7作126头基础母羊体重资料的频率分布直方图,见图4-1,图中纵座标取频 率与组距的比值。可以设想,如果样本取得越来越大(n→+∞),组分得越来越细(→0 某一范围内的频率将趋近于一个稳定值——一概率。这时,频率分布直方图各个直方上端中 点的联线——频率分布折线将逐渐趋向于一条曲线,换句话说,当n→+∞、→0时,频率 分布折线的极限是一条稳定的函数曲线。对于样本是取自连续型随机变量的情况,这条 函数曲线将是光滑的。这条曲线排除了抽样和测量的误差,完全反映了基础母羊体重的 变动规律。这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数。若记体重 概率分布密度函数为x),则x取值于区间[ab)的概率为图中阴影部分的面积,即 P(a≤x<b=f(x)dx (4一4)式为连续型随机变量x在区间[a,b)上取值概率的表达式。可见,连续型随机变量的 概率由概率分布密度函数确定。 0.10 图4-1表2-7资料的分布曲线 此外,连续型随机变量概率分布还具有以下性质 1、分布密度函数总是大于或等于0,即(x≥0
36 要了解离散型随机变量x的统计规律,就必须知道它的一切可能值xi及取每种可能值的 概率pi。 如果我们将离散型随机变量x的一切可能取值xi (i=1,2,…),及其对应的概率pi,记作 P(x=xi)=pi i=1,2,… (4—3) 则称(4—3)式为离散型随机变量x的概率分布或分布。常用分布列(distribution series) 来表示离散型随机变量: x1 x2 … xn …. p1 p2 … pn … 显然离散型随机变量的概率分布具有pi≥0和Σpi=1这两个基本性质。 三、连续型随机变量的概率分布 连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能 取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。 下 面通过频率分布密度曲线予以说明。 由表2—7作126头基础母羊体重资料的频率分布直方图,见图4—1,图中纵座标取频 率与组距的比值。可以设想,如果样本取得越来越大(n→+∞),组分得越来越细(i→0), 某一范围内的频率将趋近于一个稳定值──概率。这时,频率分布直方图各个直方上端中 点的联线──频率分布折线将逐渐趋向于一条曲线,换句话说,当n→+∞、i→0时,频率 分布折线的极限是一条稳定的函数曲线。 对于样本是取自连续型随机变量的情况,这条 函数曲线将是光滑的。 这条曲线排除了抽样和测量的误差,完全反映了基础母羊体重的 变动规律。 这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数。若记体重 概率分布密度函数为f(x),则x取值于区间[a,b)的概率为图中阴影部分的面积,即 P(a≤x<b)= b a f (x)dx (4-4) (4—4)式为连续型随机变量x在区间[a,b)上取值概率的表达式。可见,连续型随机变量的 概率由概率分布密度函数确定。 此外,连续型随机变量概率分布还具有以下性质: 1、分布密度函数总是大于或等于0,即f(x)≥0; 图4-1 表2-7资料的分布曲线
2、当随机变量x取某一特定值时,其概率等于0;即 P(x=c)= f(x)dx=o (c为任意实数) 因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个 值的概率。 3、在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。所以 P-∞<x<+∞)=f(x)dx=l (4-5)式表示分布密度曲线下、横轴上的全部面积为1。 第三节正态分布 正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从 或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含 量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布 在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还 是实际应用中,均占有重要的地位。 、正态分布的定义及其特征 (一)正态分布的定义若连续型随机变量x的概率分布密度函数为 f(x) 其中μ为平均数,02为方差,则称随机变量x服从正态分布( normal distribution),记为x~ N(μ,2)。相应的概率分布函数为 dx (4-17) 分布密度曲线如图42所示。 f(x) 图4—2正态分布密度曲线
37 2、当随机变量x取某一特定值时,其概率等于0;即 = = = c c P(x c) f (x)dx 0 (c为任意实数) 因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个 值的概率。 3、在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。所以 ( ) ( ) 1 + − P − x + = f x dx = (4-5) (4—5)式表示分布密度曲线下、横轴上的全部面积为1。 第三节 正态分布 正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从 或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含 量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布 在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还 是实际应用中,均占有重要的地位。 一、正态分布的定义及其特征 (一) 正态分布的定义 若连续型随机变量x的概率分布密度函数为 2 2 2 ( ) 2 1 ( ) − − = x f x e (4-16) 其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normal distribution),记为x~ N(μ,σ2 )。相应的概率分布函数为 − − − = x x F x e dx 2 2 2 ( ) 2 1 ( ) (4-17) 分布密度曲线如图4—2所示。 图 4—2 正态分布密度曲线
(二)正态分布的特征由(-6)式和图4-2可以看出正态分布具有以下几个重要 特征: 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=u; 2、f(x)在x=u处达到极大,极大值f() G√2丌 3、f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞; 4、曲线在x=μ土σ处各有一个拐点,即曲线在(-∞,μ-0)和(μ+0,+∞)区间上是 下凸的,在[μ-0,μ+0]区间内是上凸的 5、正态分布有两个参数,即平均数μ和标准差σ。μ是位置参数,如图4-3所示。当 恒定时,μ愈大,则曲线沿x轴愈向右移动;反之,μ愈小,曲线沿x轴愈向左移动。0 是变异度参数,如图4—4所示。当μ恒定时,0愈大,表示x的取值愈分散,曲线愈“胖”; 愈小,x的取值愈集中在μ附近,曲线愈“瘦 6、分布密度曲线与横轴所夹的面积为1,即 P(-∞<x<+∞) dx=1 o√2 0=2 图4-30相同而μ不同的三个正态分布图4-4u相同而0不同的三个正态分 、标准正态分布 由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或0)的一簇分布,正 态曲线之位置及形态随μ和2的不同而不同。这就给研究具体的正态总体带来困难,需 将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,o2=1的正态分布为标准 正态分布( standard normal distribution)。标准正态分布的概率密度函数及分布函数分别 记作中叫和中叫,由(4-6)及(4-7)式得: (t) (4-8) 中(u) ∫"s2"da 随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4-5所
38 (二) 正态分布的特征 由(4—6)式和图4—2可以看出正态分布具有以下几个重要 特征: 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ; 2、f(x)在x=μ处达到极大,极大值 2 1 f ( ) = ; 3、f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞; 4、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞) 区间上是 下凸的,在[μ-σ,μ+σ]区间内是上凸的; 5、正态分布有两个参数,即平均数μ和标准差σ。μ是位置参数,如图4—3所示。 当 σ恒定时,μ愈大,则曲线沿x轴愈向右移动;反之,μ愈小,曲线沿x轴愈向左移动。σ 是变异度参数,如图4—4所示。当μ恒定时,σ愈大,表示x的取值愈分散, 曲线愈“胖”; σ愈小,x的取值愈集中在μ附近,曲线愈“瘦”。 6、分布密度曲线与横轴所夹的面积为1,即: 1 2 1 ( ) 2 2 2 ( ) − + = = − + − − P x e dx x 二、标准正态分布 由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2 (或σ)的一簇分布, 正 态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难, 需 将一般的N(μ,σ2 )转换为μ=0,σ2 =1的正态分布。我们称μ=0,σ2 =1的正态分布为标准 正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别 记作ψ(u)和Φ(u),由 (4-6)及(4-7) 式得: 2 2 2 1 ( ) u u e − = (4-8) u e du u u − − = 2 2 1 2 1 ( ) (4-9) 随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4—5所示。 图 4—3 σ相同而μ不同的三个正态分布 图4—4 μ相同而σ不同的三个正态分 布
图4-5标准正态分布密度曲线 对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换 将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差 (standard normal deviate) 按(4-9)式计算,对不同的u值编成函数表,称为正态分布表,见附表1,从中可查到a 在意一个区间内取值的概率。这就给解决不同μ、σ2的正态分布概率计算问题带来很大 方便 三、正态分布的概率计算 关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态 分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方 面,人们已经根据标准正态分布的分布函数编制成正态分布表(附表1)以供直接查用 )标准正态分布的概率计算设u服从标准正态分布,则u在[u,2]内取值的概 率为: P(u d u d 而Φ(au)与Φ(u2)可由附表1查得。 附表1只对于-4.99≤u<4.99给出了Φ(u)的数值。表中,u值列在第一列和第一行, 第一列列出u的整数部分及小数点后第一位,第一行为u的小数点后第二位数值。例如 F=1.75,1.7放在第一列,0.05放在第一行。在附表1中,1.7所在行与0.05所在列相交处 的数值为0.95994,即Φ(1.75)=0.95994。有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反 过来查值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对 应列的第一行数值0.07,即相应的u值为F-0.57,亦即Φ(-0.57)=0.284。如果要求更精 确的u值,可用线性插值法计算 表中用了象.02336,.937674这种写法,分别是0.0002326和0.9997674的缩写,0表示 连续3个0,9表示连续3个9。 由(4-1)式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地 计算有关概率
39 对于任何一个服从正态分布N(μ,σ2 )的随机变量x,都可以通过标准化变换: u=(x-μ)/σ (4-10) 将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差 (standard normal deviate)。 按(4-9)式计算,对不同的u值编成函数表,称为正态分布表,见附表1,从中可查到u 在意一个区间内取值的概率。这就给解决不同μ、σ 2的正态分布概率计算问题带来很大 方便。 三、正态分布的概率计算 关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态 分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方 面,人们已经根据标准正态分布的分布函数编制成正态分布表(附表1)以供直接查用。 (一) 标准正态分布的概率计算 设u服从标准正态分布,则u在[u1,u2]内取值的概 率为: P u u u e du e du e du u u u u u u u − − − − − = = − 1 2 2 2 2 1 2 2 1 2 1 2 1 1 2 2 1 2 1 2 1 ( ) =Φ(u2)-Φ(u1) (4-11) 而Φ(u1)与Φ(u2)可由附表1查得。 附表1只对于-4.99≤u<4.99给出了Φ(u)的数值。 表中,u值列在第一列和第一行, 第一列列出u的整数部分及小数点后第一位, 第一行为u的小数点后第二位数值 。例如, u=1.75,1.7放在第一列,0.05放在第一行。在附表1中,1.7所在行与0.05 所在列相交处 的数值为0.95994,即Φ(1.75)=0.95994。有时会遇到给定Φ(u)值,例如Φ(u)=0.284, 反 过来查u值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对 应列的第一行数值0.07,即相应的u值为u=-0.57,亦即Φ(-0.57)=0.284。如果要求更精 确的u值,可用线性插值法计算。 表中用了象.03 2336,.93 7674这种写法,分别是0.0002326和0.9997674的缩写,0 3表示 连续3个0,9 3表示连续3个9。 由(4-11) 式及正态分布的对称性可推出下列关系式,再借助附表1, 便能很方便地 计算有关概率: 图4—5 标准正态分布密度曲线
P(0≤u<u)=中(u)-0.5 P(|u|≥u)=2Φ(u) 4-12) P(u≤l<l2 【例4.6】已知~N(0,1),试求:(1)P(u<-1.64)=?(2)P(u≥2.58)=?(3) (|u|≥2.56)=?(4)P(0.34≤u<1.53)=? 利用(4-12)式,查附表1得: (1)P(u<-1.64)=0.05050 2)P(u≥2.58)=Φ(-2.58)=0.024940 (3)P(|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468 (4)P(0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389 关于标准正态分布,以下几种概率应当熟记: P(-1≤u<1)=0.6826 P(-2 9545 P(-3≤u<3)=0.997 P(-2.58≤u<2.58)=0.99 95.45% 10123 图46标准正态分布的三个常用概率 u变量在上述区间以外取值的概率分别为: P(|a|≥1)=2中(-1)=1-P(-1≤u<1)=1-0.6826=0.3174 P(|a|≥2)=2中(-2)=1-P(-2≤u<2)=1-0.9545=0.0455 P(|u|≥3)=1-0.9973=0.0027 P(|u|≥1.96)=1-0.95=0.05 P(|a|≥2.58)=1-0.99=0.01 )一般正态分布的概率计算正态分布密度曲线和横轴围成的一个区域,其 面积为1,这实际上表明了“随机变量x取值在-∞与+∞之间”是一个必然事件,其概率为 1。若随机变量x服从正态分布N(μ,o2),则x的取值落在任意区间[x,x2)的概率,记作 P(x≤x<x2),等于图4-7中阴影部分曲边梯形面积。即:
40 P(0≤u<u1)=Φ(u1)-0.5 P(u≥u1) =Φ(-u1) P(|u|≥u1)=2Φ(-u1) (4-12) P(|u|<u1)=1-2Φ(-u1) P(u1≤u<u2)=Φ(u2)-Φ(u1) 【例4.6】 已知u~N(0,1),试求:(1) P(u<-1.64)=? (2) P (u≥2.58)=? (3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =? 利用(4-12)式,查附表1得: (1) P(u<-1.64)=0.05050 (2) P (u≥2.58)=Φ(-2.58)=0.024940 (3) P (|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468 (4) P (0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389 关于标准正态分布,以下几种概率应当熟记: P(-1≤u<1)=0.6826 P(-2≤u<2)=0.9545 P(-3≤u<3)=0.9973 P(-1.96≤u<1.96)=0.95 P (-2.58≤u<2.58)=0.99 u变量在上述区间以外取值的概率分别为: P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1)=1-0.6826=0.3174 P(|u|≥2)=2Φ(-2)=1- P(-2≤u<2)=1-0.9545=0.0455 P(|u|≥3)=1-0.9973=0.0027 P(|u|≥1.96)=1-0.95=0.05 P(|u|≥2.58)=1-0.99=0.01 (二) 一般正态分布的概率计算 正态分布密度曲线和横轴围成的一个区域,其 面积为1,这实际上表明了“随机变量x取值在-∞与+∞之间”是一个必然事件,其概率为 1。若随机变量 x服从正态分布N(μ,σ2 ),则x的取值落在任意区间[x1,x2)的概率,记作 P(x1≤x<x2),等于图4-7中阴影部分曲边梯形面积。即: 图4—6 标准正态分布的三个常用概率
(x1≤x<x,)=1 (x-m)2 4-13) f(x) 0 图4-7正态分布的概率 对(4-13)式作变换lF(xu)/,得d=odu,故有 2 其中 这表明服从正态分布N(μ,o2)的随机变量x在[x,x2)内取值的概率,等于服从标准 正态分布的随机变量u在[(x-μ)/σ,(x2-μ)/σ)内取值的概率。因此,计算一般正态 分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率 表的方法求得概率了 【例4.7】设x服从μ=30.26,02=5.102的正态分布,试求P(21.64≤x<32.98) 令=x=3026,则n服从标准正态分布,故 5.10 P(21.64≤x<32.98)=P( 21.64-30.26x-30.2632.98-30.26 5.10 5.10 5 =P(-1.69≤u<0.53)=中(0.53)-Φ(-1.69) =0.7019-0.04551=0.6564 关于一般正态分布,以下几个概率(即随机变量x落在μ加减不同倍数σ区间的概率) 是经常用到的。 P(μ-0≤x<μ+0)=0.6826 P(u-20≤x<u+20)=0.9545 P(u-30≤x<u+30)=0.9973 P(μ-1.960≤x<u+1.960)=0.95 P(u-2.580≤x<u+2.580)=0.99 上述关于正态分布的结论,可用一实例来印证。从图2-7可以看出,126头基础母羊体 重资料的次数分布接近正态分布,现根据其平均数x=52.26(kg),标准差S=5.10(kg),算 出平均数加减不同倍数标准差区间内所包括的次数与频率,列于表4-2
41 P x x x e dx x x x − − = 2 1 2 2 2 ( ) 1 2 2 1 ( ) (4-13) 对 (4-13)式作变换u=(x-μ)/σ,得dx=σdu,故有 P x u x e d u e d u x x x u x x − − − − − = = ( )/ ( )/ 2 1 2 ( ) 1 2 2 1 2 2 1 2 2 2 1 2 1 ( ) e du u u u − = 2 1 2 2 1 2 1 = ( ) ( ) u2 − u1 其中, − = − = 2 2 1 1 , x u x u 这表明服从正态分布N(μ,σ 2 )的随机变量x在[x1,x2)内取值的概率,等于服从标准 正态分布的随机变量u在[(x1-μ)/σ, (x2-μ)/σ)内取值的概率。因此,计算一般正态 分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率 表的方法求得概率了。 【例4.7】 设x服从μ=30.26,σ2 =5.102的正态分布,试求P(21.64≤x<32.98)。 令 5.10 − 30.26 = x u , 则u服从标准正态分布,故 ) 5.10 32.98 30.26 5.10 30.26 5.10 21.64 30.26 (21.64 32.98) ( − − − = x P x P =P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69) =0.7019-0.04551=0.6564 关于一般正态分布,以下几个概率(即随机变量x落在μ加减不同倍数σ区间的概率) 是经常用到的。 P(μ-σ≤x<μ+σ)=0.6826 P(μ-2σ≤x<μ+2σ) =0.9545 P (μ-3σ≤x<μ+3σ) =0.9973 P (μ-1.96σ≤x<μ+1.96σ) =0.95 P (μ-2.58σ≤x<μ+2.58σ)=0.99 上述关于正态分布的结论,可用一实例来印证。从图2-7可以看出,126头基础母羊体 重资料的次数分布接近正态分布,现根据其平均数 x =52.26(kg),标准差S=5.10(kg),算 出平均数加减不同倍数标准差区间内所包括的次数与频率,列于表4—2。 图4—7 正态分布的概率