第二章随机变量及其数字特征 §21随机变量和分布函数 随机变量: 直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性 别,并计算其中雄性动物的数量Ⅹ,显然X可能取值为0,1,…,10:;但究竟取值为几,只能在 实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量 的特点就是当实验条件一定时,实验结果仍不确定。 上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有 大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围…象这 样的随机变量称为连续型随机变量。 分布函数: 随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这 种规律性就表现在各个值出现的频率上。象上面的例子,如果我们把大量的初生动物分为10只 组进行观察,那末在一般情况下X取值为0或10的机会是非常少的,而取4,5,6的机会会相 当多。因此如果我们知道了离散随机变量取每个值的概率,那么我们对这个随机变量可以说知 道得很清楚了,我们可以把这样的关系列成一张表 X:01 P: Po P P10 这样的表称为概率分布表,P称为概率函数,并记为: P(X=x)=p(x) 显然概率函数应满足:对任意可能结果ⅹ,有 p(≥0.且∑p(x)= 这里的求和是对一切可能的结果进行的 对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能 性都为0,比如说人的体重,实际上不可能找到一个人体重为精确的100Kg而一点不差,这一方 面是我们的测重手段不能无限精密,另一方面如果真的无限精密,重100Kg的人就找不到了 当然在实践中不会这样要求,我们关心的通常是某一范围内的人,如100±5Kg,100±0.5Kg 100±0.05Kg…等等,如果我们的研究越细致,我们所考虑的区间一般就越小。这样,采用类似 微分的概念,我们就有: f(r)=lm p(rs x<x+ Ax) △x 称f(x)为随机变量X的密度函数,显然应有f(x)≥0,且可积: f(xdx=1 而 P(asx<b)= f(x)dx 为X落在[a,b)中的概率。 定义:设X为一随机变量,称函数 F(x)=P(X<x)(-∞<x<+∞) 为X的分布函数。 这个定义适用于离散型随机变量,也适用于连续型随机变量。连续型分布函数也可表示为 密度函数的积分:
第二章 随机变量及其数字特征 §2.1 随机变量和分布函数 一、 随机变量: 直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性 别,并计算其中雄性动物的数量X,显然X可能取值为0,1,…,10;但究竟取值为几,只能在 实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量 的特点就是当实验条件一定时,实验结果仍不确定。 上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有 一大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围…象这 样的随机变量称为连续型随机变量。 二、 分布函数: 随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这 种规律性就表现在各个值出现的频率上。象上面的例子,如果我们把大量的初生动物分为10只 一组进行观察,那末在一般情况下X取值为0或10的机会是非常少的,而取4,5,6的机会会相 当多。因此如果我们知道了离散随机变量取每个值的概率,那么我们对这个随机变量可以说知 道得很清楚了,我们可以把这样的关系列成一张表: X: 0 1 …… 10 P: P0 P1 …… P10 这样的表称为概率分布表,P称为概率函数,并记为: P(X=x)=p(x) 显然概率函数应满足:对任意可能结果x,有 p(x)≥0, 且 = x p(x) 1 这里的求和是对一切可能的结果进行的。 对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能 性都为0,比如说人的体重,实际上不可能找到一个人体重为精确的100Kg而一点不差,这一方 面是我们的测重手段不能无限精密,另一方面如果真的无限精密,重100Kg的人就找不到了。 当然在实践中不会这样要求,我们关心的通常是某一范围内的人,如100±5Kg,100±0.5Kg、 100±0.05Kg…等等,如果我们的研究越细致,我们所考虑的区间一般就越小。这样,采用类似 微分的概念,我们就有: x p x X x x f x x + = → ( ) ( ) lim 0 称f(x)为随机变量X的密度函数,显然应有f(x)≥0,且可积: − f (x)dx =1 而 P(a≤X<b)= b a f (x)dx 为X落在[a, b)中的概率。 定义:设X为一随机变量,称函数 F(x) = P(X<x) (-∞<x<+∞) 为X的分布函数。 这个定义适用于离散型随机变量,也适用于连续型随机变量。连续型分布函数也可表示为 密度函数的积分:
F(x)=P(Xa,有: F(b)=F(a) 2)Im F(x)=0, lm F(x)=l 3)左连续性:F(x0)=F(x 总结:我们研究随机变量的方法,大致有这样几种: 分布列或分布表,它用于离散型随机变量,变量的一切可能取值就是样本空间的样本点,而 分布列则给出了每个样本点对应的概率 2.密度函数,它与分布列相对应,用于连续型随机变量。它采用类似微分的概念,有了它通过 积分就可以得到变量落入任何区间的概率。其性质为: P(X=x)=0 f(x)ax=l (分布列也有类似性质,只是求和代替了积分) 3.为了统一起见,我们又引入了分布函数: F(x)=P(X<x) 它可用于任何随机变量。随机变量X落入任意区间[a,b)的概率为: P(a≤<b)=F(b)-F1 离散型:F(x)=∑p(x) 续型:F(x)=[f(y)d 性质:1°不减, 2°lmF(x)=0,lmF(x)=1 3°左连续。 §22离散型随机变量 上一节我们已经说过,对离散型随机变量X来说,我们感兴趣的不仅有它取哪些值x,而且 也要知道它取这些值的概率大小,即我们要知道 P i=1,2,3 p(x,=1,2,3,…}称为随机变量X的概率分布,通常用下面的形式表示离散型随机变量X的 概率分布 x P(x1)p(x2) 它称为X的分布列或分布表。 而分布函数为:
− = = x F(x) P(X x) f (y)dy 显然有: ( ) ( ) ( ) ( ) ( ) ( ) F b F a f x dx f x dx P a X b f x dx b a b a = − = − = − − (1) 对于分布函数来说,它有如下的基本性质: 1) F(x)是不减函数,即:对任意b>a,有: F(b)≥F(a) 2) lim ( ) = 0, lim ( ) = 1 →− →+ F x F x x x 3) 左连续性:F(x-0)=F(x) 总结:我们研究随机变量的方法,大致有这样几种: 1. 分布列或分布表,它用于离散型随机变量,变量的一切可能取值就是样本空间的样本点,而 分布列则给出了每个样本点对应的概率。 2. 密度函数,它与分布列相对应,用于连续型随机变量。它采用类似微分的概念,有了它通过 积分就可以得到变量落入任何区间的概率。其性质为: P(X=x)=0, − f (x)dx =1. (分布列也有类似性质,只是求和代替了积分) 3. 为了统一起见,我们又引入了分布函数: F(x)=P(X<x) (-∞<x<+∞) 它可用于任何随机变量。随机变量X落入任意区间[a, b)的概率为: P(a≤X<b)= F(b)-F(a) 离散型: = x x i i F(x) p(x ) 连续型: − = x F(x) f (y)dy 性质:1 不减, 2 lim ( ) = 0, lim ( ) = 1 →− →+ F x F x x x 3°左连续。 §2.2 离散型随机变量 上一节我们已经说过,对离散型随机变量X来说,我们感兴趣的不仅有它取哪些值xi,而且 也要知道它取这些值的概率大小,即我们要知道: P(X=xi) = p(xi), i=1,2,3,…… { p(xi), i=1,2,3,……}称为随机变量X的概率分布,通常用下面的形式表示离散型随机变量X的 概率分布: ( ) ( ) ( ) 1 2 1 2 n n p x p x p x x x x 它称为X的分布列或分布表。 而分布函数为:
F(=P(Xn,它可以用二项分布来近似 几何分布:连续进行独立实验,若以X记首次成功时的实验次数,则它是个随机变量,取值 为1,2,……其概率分布称为几何分布: ck p)=P(=k)=gk-lp k=1, 2, 3... 作为一种等待分布,几何分布有许多实际用途。它有一种十分有趣的性质,我们称为无记忆 性。也就是说,如果已知前m次实验都未成功,第m+1次实验成功的可能性并不因此而发生 变化。换句话说,你继续等待第一次成功出现的次数X仍服从原来的几何分布,因此就象是 把以前的经历都忘掉了一样。这一性质可简单证明如下 令B为前m次未成功,A为再等k次,则 P(AB) =q p q 仍服从原来的分布g(k,p) 更有意思的是,可以从数学上严格证明:若X是取正整数数值的随机变量,且在已知X>k 的条件下,X=k+1的概率与k无关,则X服从几何分布。证明如下 证明:以p记上述条件概率,令q=P(Xk)及p=P(X=k)。 则pk+1=qk-qk+1 而所求的条件概率 P 9=1-p,由于qo=1 即:pk=(1-p·p,这正是几何分布。 5.负二项分布(巴斯卡分布):它实际是几何分布的一种推广。它的模型是这样的:连续独立 实验,以X记第k次成功时总的实验次数,则X服从负二项分布,它的分布为: f(; k, p)=P(X=x)=C p(1-p) x=k,k+1, (注意X取值范围与二项分布的不同) 显然若令k=1,则为几何分布
F(x)=P(X>n,它可以用二项分布来近似。 4.几何分布:连续进行独立实验,若以X记首次成功时的实验次数,则它是个随机变量,取值 为1,2,……其概率分布称为几何分布: g(k, p)=P(X=k)=qk-1 p k=1, 2, 3…… 作为一种等待分布,几何分布有许多实际用途。它有一种十分有趣的性质,我们称为无记忆 性。也就是说,如果已知前m次实验都未成功,第m+1次实验成功的可能性并不因此而发生 变化。换句话说,你继续等待第一次成功出现的次数X仍服从原来的几何分布,因此就象是 把以前的经历都忘掉了一样。这一性质可简单证明如下: 令B为前m次未成功,A为再等k次,则 q p q q q p P A B k m m k 1 1 ( ) ) − − = = 仍服从原来的分布g (k, p)。 更有意思的是,可以从数学上严格证明:若X是取正整数数值的随机变量,且在已知X>k 的条件下,X=k+1的概率与k无关,则X服从几何分布。证明如下: 证明:以p记上述条件概率,令qk=P (X>k) 及 pk=P (X=k)。 则 pk+1=qk-qk+1 而所求的条件概率 k k q p p +1 = k k k k p q q p q q 1 , 1, (1 ) 0 1 = − = = − + 由于 即: pk = (1-p)k-1·p,这正是几何分布。 5. 负二项分布(巴斯卡分布):它实际是几何分布的一种推广。它的模型是这样的:连续独立 实验,以X记第k次成功时总的实验次数,则X服从负二项分布,它的分布为: k k x k f x k p P X x Cx p p − − ( ; , ) = ( = ) = − (1− ) 1 1 x = k, k +1, (注意X取值范围与二项分布的不同) 显然若令k=1,则为几何分布
我们把它称为负二项分布,是因为可以把它看作 展开式中的各项系数 它在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作 为聚集性的指标,k越小,该生物的群集性越明显 6.泊松( Poisson)分布:在二项分布中,当事件出现概率特别小,(p→0),而实验次数又非常 多(n→∞),使n→λ(常数)时,二项分布就趋近于泊松分布,为 P(x)= x=0,1,2,… xl 历史上,泊松分布是作为二项分布的近似引入的,但是目前它的意义已远远超出了这一点 成为概率论中最重要的几个分布之一。许多随机现象服从泊松分布,如电话交换台接到的呼 叫数:汽车站的乘客人数:射线落到某区域中的粒子数:细胞计数中某区域里的细胞数 等等。可以证明,若随机现象具有以下的三个性质,则它服从泊松分布(以电话呼叫为例) (1)平稳性:在(tn,to+△t)中来到的呼叫平均数只与时间间隔Δt的长短有关,而与起点to 无关。它说明现象的统计规律不随时间变化 (2)独立增量性(无后效性):在(t,t+△t)中来到k个呼叫的可能与to以前的事件独立,即 不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的 (3)普通性:在充分小的时间间隔内,最多来一个呼叫。即:令Pk(△t)为长度为△t的时间 间隔中来k个呼叫的概率,则: ∑P2(△) 它表明在同一瞬间来两个或更多的呼叫是不可能的。显然具有这样特性的现象是相当普遍 的。这一点从一个侧面说明了泊松分布的重要性。 如果改用细胞计数为例,则上述三条性质可描述如下: (1)平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位 于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的 (2)独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它 们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不 会互相排斥 (3)普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我 们对细胞无法准确计数。 生物学中能够符合上述条件的事例是相当多的,如水中细菌数:从远处飘来的花粉 孢子数;荒地上某种植物初生幼苗数等等。关键是这些细菌,花粉,种子等互相间既不能 有吸引力,也不能有排斥力,这样它们的分布就会服从泊松分布。反之,若细菌呈团块状 出现,或植物长大后由于自疏现象而互相间保持一定距离,则它们的分布就不会是泊松分 布了 §23连续型随机变量 连续型随机变量X可取某个区间[c,d或( )中的一切值,且存在可积函数f(x),使 F(x)= f()dy fx)称为的(分布)密度函数,F(x)称为x的分布函数。显然 P(asX<b)=F(b)-F(a)=f()dx
我们把它称为负二项分布,是因为可以把它看作 k x p q p − − ) 1 ( 展开式中的各项系数。 它在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作 为聚集性的指标,k 越小,该生物的群集性越明显。 6. 泊松(Poisson)分布:在二项分布中,当事件出现概率特别小,(p→0),而实验次数又非常 多(n→∞),使np→λ(常数)时,二项分布就趋近于泊松分布,为: − = e x P x x ! ( ) x=0,1,2,…… 历史上,泊松分布是作为二项分布的近似引入的,但是目前它的意义已远远超出了这一点, 成为概率论中最重要的几个分布之一。许多随机现象服从泊松分布,如电话交换台接到的呼 叫数;汽车站的乘客人数;射线落到某区域中的粒子数;细胞计数中某区域里的细胞数…… 等等。可以证明,若随机现象具有以下的三个性质,则它服从泊松分布(以电话呼叫为例): (1) 平稳性: 在(t0, t0+Δt)中来到的呼叫平均数只与时间间隔Δt的长短有关,而与起点t0 无关。它说明现象的统计规律不随时间变化。 (2) 独立增量性(无后效性):在(t0,t0+Δt)中来到k个呼叫的可能与t0以前的事件独立,即 不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的。 (3) 普通性:在充分小的时间间隔内,最多来一个呼叫。即:令Pk(Δt)为长度为Δt的时间 间隔中来k个呼叫的概率,则: 0 ( ) lim 2 0 = = → t P t k k t 它表明在同一瞬间来两个或更多的呼叫是不可能的。显然具有这样特性的现象是相当普遍 的。这一点从一个侧面说明了泊松分布的重要性。 如果改用细胞计数为例,则上述三条性质可描述如下: (1)平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位 于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的。 (2)独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它 们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不 会互相排斥。 (3)普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我 们对细胞无法准确计数。 生物学中能够符合上述条件的事例是相当多的,如水中细菌数;从远处飘来的花粉、 孢子数;荒地上某种植物初生幼苗数等等。关键是这些细菌,花粉,种子等互相间既不能 有吸引力,也不能有排斥力,这样它们的分布就会服从泊松分布。反之,若细菌呈团块状 出现,或植物长大后由于自疏现象而互相间保持一定距离,则它们的分布就不会是泊松分 布了。 §2.3 连续型随机变量 连续型随机变量X可取某个区间[c, d]或(-∞,∞)中的一切值,且存在可积函数f (x),使 − = x F(x) f (y)dy f(x) 称为X的(分布)密度函数,F(x) 称为X的分布函数。显然 = − = b a P(a X b) F(b) F(a) f (x)dx
这样,有了f(x),就可以计算X落入任何一个区间的概率,而 0≤P(X=C)≤lmf(x)dk=0 P(=C)=0 即连续型随机变量取任意个别值的概率都是0。这与离散型随机变量是完全不同的,而且这还说 明,一个事件的概率为0,并不一定是不可能事件。同样,一个事件概率为1,也不一定是必然 事件。 例如,人的身高可认为服从连续分布,由前述说明,身高取某具体数值如18m的概率为0, 这意味着人虽然很多,但不可能找到一个人身高精确地等于1.8m。另一方面,从人群中随意找 个人,他的身高总有一个具体值,设为1.7m。身高取1.7m的概率当然也为0,但现在却有一个 人身高为17m,说明概率为0的事件不一定是不可能事件。同时,由于身高为1.7m的概率为0, 因此身高不等于1.7m的概率为1。但由于前述至少有一人身高为1.7m,这样身高不等于17m的人 中将不包括这个人,也就不可能是全空间,即不是必然事件了 下面我们就来介绍一些连续型随机变量的例子 1.均匀分布:若a,b为有限数,则由下列密度函数定义的分布称为a,b]上的均匀分布 b 相应的分布函数为: F(以)=ax0,为常数 0 分布函数为: kx≥0 xs)=2x>s+ 1) P(X>s) 即:已知寿命大于s年,则再活t年的概率与s无关。因此也称指数分布是“永远年轻”的。 可以证明,指数分布是唯一具有上述性质的连续型分布 3.正态分布:它的密度函数为 2-0<X<+0
这样,有了f (x),就可以计算X落入任何一个区间的概率,而 + → = = c k k c 0 P(X C) lim f (x)dx 0 0 ∴ P(X=C) = 0 即连续型随机变量取任意个别值的概率都是0。这与离散型随机变量是完全不同的,而且这还说 明,一个事件的概率为0,并不一定是不可能事件。同样,一个事件概率为1,也不一定是必然 事件。 例如,人的身高可认为服从连续分布,由前述说明,身高取某具体数值如1.8m的概率为0, 这意味着人虽然很多,但不可能找到一个人身高精确地等于1.8m。另一方面,从人群中随意找 一个人,他的身高总有一个具体值,设为1.7m。身高取1.7m的概率当然也为0,但现在却有一个 人身高为1.7m,说明概率为0的事件不一定是不可能事件。同时,由于身高为1.7m的概率为0, 因此身高不等于1.7m的概率为1。但由于前述至少有一人身高为1.7m,这样身高不等于1.7m的人 中将不包括这个人,也就不可能是全空间,即不是必然事件了。 下面我们就来介绍一些连续型随机变量的例子: 1. 均匀分布:若a, b为有限数,则由下列密度函数定义的分布称为[a, b]上的均匀分布: = − x a x b a x b f x b a 0 或 1 ( ) 相应的分布函数为: − − = x b a x b b a x a x a F x 1 0 ( ) 例:数字4舍5入后的误差分布,农药剂量在田间的分布,人工种植的果树的分布等。 2. 指数分布:指数分布的密度函数为: = − 0 0 0 ( ) x e x f x x 其中λ>0,为常数 分布函数为: − = − 0 0 1 0 ( ) x e x F x x 指数分布经常用来作为各种“寿命”的分布,例如动物寿命,元件寿命,电话通话时间…… 等等,与几何分布类似,它也具有无记忆性: t s s t e e e P X s P X s t P X s t X s − − − + = = + + = ( ) ( ) ( ) ( ) 即:已知寿命大于s 年,则再活t 年的概率与s 无关。因此也称指数分布是“永远年轻”的。 可以证明,指数分布是唯一具有上述性质的连续型分布。 3. 正态分布:它的密度函数为: = − + − − f x e x x , 2 1 ( ) 2 2 2 ( )
其中σ>0,μ与σ均为常数。其分布函数为 G-H) F(x) dy-∞∞时,若q,p均不趋于0,此时的二项分布以 N(np,npq)为其极限(注意若p或q趋于0,则二项分布以泊松分布为极限)。正态分布是概 率论中最重要的分布。一方面,这是一种最常见的分布,例如测量的误差,炮弹的落点,人 的身高,体重,同样处理的实验数据,……等等,都近似服从正态分布。一般说来,若影响 某一数量指标的随机因素很多,而每个因素的影响又都不太大,则这个指标就服从正态分布 这一点我们还要在后边的定理中讲到。另一方面,正态分布在理论研究中也非常重要,后边 的许多统计方法都是建立在随机变量服从正态分布的基础上的,所以对正态分布的特性一定 要非常熟悉。 1.5 4-3-2-101234 图21正态分布密度函数曲线 图21为正态分布密度函数曲线。从图中可见,f(x)在x==0处达到最大值,整个图形关 于直线ⅹ=μ对称,σ越大则曲线越平,σ越小,曲线越尖。 在实际应用中,我们更常使用的是标准正态分布曲线。它的密度函数曲线和分布函数曲线 见图22 2-1-012 123
其中σ>0,μ与σ均为常数。其分布函数为: = − + − − − F x e dy x x y , 2 1 ( ) 2 2 2 ( ) 正态分布通常记为N(μ,σ2)。若μ=0,σ=1,则称为标准正态分布,记为N(0,1)。 它的密度函数和分布函数分别用(x)和Ф(x)表示: − − − = − + = − + x y x x e dy x x e x , 2 1 ( ) , 2 1 ( ) 2 2 2 1 2 1 正态分布也可以作为二项分布的极限。当n→ 时,若q, p均不趋于0,此时的二项分布以 N(np, npq)为其极限(注意若p或q趋于0,则二项分布以泊松分布为极限)。正态分布是概 率论中最重要的分布。一方面,这是一种最常见的分布,例如测量的误差,炮弹的落点,人 的身高,体重,同样处理的实验数据,……等等,都近似服从正态分布。一般说来,若影响 某一数量指标的随机因素很多,而每个因素的影响又都不太大,则这个指标就服从正态分布。 这一点我们还要在后边的定理中讲到。另一方面,正态分布在理论研究中也非常重要,后边 的许多统计方法都是建立在随机变量服从正态分布的基础上的,所以对正态分布的特性一定 要非常熟悉。 图2.1 正态分布密度函数曲线 图2.1为正态分布密度函数曲线。从图中可见,f(x) 在 x=μ=0 处达到最大值,整个图形关 于直线x=μ对称,σ越大则曲线越平,σ越小,曲线越尖。 在实际应用中,我们更常使用的是标准正态分布曲线。它的密度函数曲线和分布函数曲线 见图2.2。 (a) (b) 0 0.9 -4 -3 -2 -1 0 1 2 3 4 σ=0.5 σ=1.0 σ=1.5 0 0.1 0.2 0.3 0.4 0.5 - 3 - 2 - 1 - 0 1 2 3 0 0.2 0.4 0.6 0.8 1 -3 -2 -1 -0 1 2 3
图22标准正态分布密度函数曲线(a)和分布函数曲线(b) 从图22中可看出标准正态分布密度函数q(x)的曲线有以下特征 1°x=0时,(x)达到最大值。 2°x取值离原点越远,o(x)值越小 3°关于y轴对称,即o(x)=o(-x) 4°在x=±1有两个拐点。 5°曲线与x轴间所夹面积为1 标准正态分布函数Φ(x)的曲线是密度函数积分后的图形,它在x0点的取值为x点左方密度函 数曲线与x轴所夹的面积。分布函数曲线有以下特征: 1°关于点(0,0.5)对称,该点也是它的拐点 2°曲线以y=0和y=1为渐近线 3°Φ(1.960)-Φ(-1.960)=0.95 4°Φ(2.576)-Φ(-2.576)=0.99 后两个数值在统计推断中有重要应用,应熟记 上述特征特别是密度函数o(x)的特征在计算函数值时常有应用,应结合图形直观印象加以 熟记。 由于正态分布的重要性,它的密度函数及分布函数的数值都已被编成表格备查。这些表格 用法与一般数学常用表用法相同,不再赘述。需要注意的是多数表中只给出x≥0的(x)和(x) 值,这是因为由它们的对称性,有 q(-x)=(x)d(-x)=1-d(x) 因此可容易地算出x任意取值时o(x)和Φ(x)的值 由于上述表格均只限于标准正态分布表,对于服从一般正态分布的随机变量X,需先把它标 准化,然后再查表。标准化方法如下: 设X~N(p,02),令U X-H,则U~N(O,1),即: P(Xx0)=2(-x0) P(X12.128cm
图2.2 标准正态分布密度函数曲线(a)和分布函数曲线(b) 从图2.2中可看出标准正态分布密度函数(x)的曲线有以下特征: 1 x=0时,(x) 达到最大值。 2 x取值离原点越远,(x) 值越小。 3 关于y轴对称,即 (x)= (- x) 4 在x=1有两个拐点。 5 曲线与x轴间所夹面积为1。 标准正态分布函数(x)的曲线是密度函数积分后的图形,它在x0点的取值为x0点左方密度函 数曲线与x轴所夹的面积。分布函数曲线有以下特征: 1 关于点(0,0.5)对称,该点也是它的拐点; 2 曲线以y = 0和y = 1为渐近线; 3 (1.960) -(-1.960) = 0.95 4 (2.576) -(-2.576) = 0.99 后两个数值在统计推断中有重要应用,应熟记. 上述特征特别是密度函数 (x)的特征在计算函数值时常有应用,应结合图形直观印象加以 熟记。 由于正态分布的重要性,它的密度函数及分布函数的数值都已被编成表格备查。这些表格 用法与一般数学常用表用法相同,不再赘述。需要注意的是多数表中只给出x≥0的 (x)和(x) 值,这是因为由它们的对称性,有: (−x) = (x),(−x) = 1− (x) 因此可容易地算出x任意取值时 (x)和(x)的值。 由于上述表格均只限于标准正态分布表,对于服从一般正态分布的随机变量X,需先把它标 准化,然后再查表。标准化方法如下: 设X~N(μ,σ2 ),令 − = X U ,则U ~ N(0, 1),即: ( ) ( ) ( ) 0 0 0 − = − = x x P X x P U 这样,只要先计算 x0 − 的值,就可以从标准正态分布表中查出所需要的数值了。 在查表过程中,下述一些关系式也是十分有用的。它们大多基于(x)的对称性,希望能在理 解的基础上记忆它们,只有真正理解了才能牢固记忆且灵活应用。这些关系式包括: 令X~N(0,1),则: ( ) ( ) ( ) ( ) 1 2 ( ) ( ) 2 ( ) ( ) ( ) 2 1 (0 ) ( ) 1 2 2 1 0 0 0 0 0 0 0 0 P x X x x x P X x x P X x x P X x x P X x x = − = − − = − = − = − 例2.1 已知小麦穗长服从N(9.978, 1.4412),求下列概率: (1)穗长12.128cm
(3)穗长在8573cm与9978cm之间。 P(X12.128)=( )=④(-1.49)=0.06811 1441 P8537F1(70),应走第二条路 65-50 (2):F(65)= =(1.5) 65-60 F2(65)=o 4)=o(1.25) 显然F1(65)>F2(65),应走第二条路。 这道题还是有一定实际意义的。第一条路可能较短,但堵车的可能性较大,因此所需时间 有较大的变化范围;第二条路可能较长,但路况好,车辆少,因此所需时间变化不大。如果时 间充裕,则应走第二条路,此时到达的可能性大:反之时间有限,就只能走近路碰碰运气了 §24随机向量 在有些情况下,我们所关心的随机现象需要用不只一个数值来描述,例如要全面反映一个 人的健康情况,则需要血压,各种化验数据,X光透视或拍片,B超……等等。要反映温室中的 环境条件,也要有温度、湿度,CO浓度、光照强度等等。这样,当我们对类似的随机现象进 行研究测量时,每个样本点所包含的将不再是一个数字,而是一组数字,它们组成一个向量 X=(X1,X2,…Xn)。其中每个数字有它特定的生物学意义,如X1代表温度,X2代表湿度… 而且每个数字均带有测量时不可避免的随机误差,因此都是随机变量。这样的向量就称为随机 向量。与普通向量类似,其中包含的数字个数n称为向量的维数,每个数字称为向量的分量。显 然普通随机变量可视为一维随机向量。为了方便,我们常常对随机变量与随机向量不加区分, 而统一称为n维随机变量,其中n取值为自然数。 引入多维随机变量的概念主要是为了把它们作为一个整体来进行研究。在这样一个整体中 我们不仅能研究每个分量本身固有的性质,还可以研究各分量之间的关系,这在某些情况下是 非常有用的。限于课时及数学基础,我们不准备对这一课题进行深入讨论,而只是介绍一些必 要的概念
(3)穗长在8.573cm与9.978cm之间。 解: ) ( 1.49) 0.06811 1.441 12.128 9.978 ( 12.128) ( ) ( 2.39) 0.00842 1.441 6.536 9.978 ( 6.536) ( = − = − = − = − = − = P X P X (0) ( 1) 0.50000 0.15866 0.34134 ) 1.441 8.537 9.978 ) ( 1.441 9.978 9.978 (8.537 9.978) ( = − − = − = − − − = P X ∴ 所求概率分别为:0.00842, 0.06811, 0.34134。 例2.2 从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从 N(60,16),问: (1). 若有70分钟可用,走哪条路好? (2). 若只有65分钟呢? 解:走哪条路好可理解为走该条路在指定的时间内到达的可能性大。因此有: (1): ) (2) 10 70 50 (70) ( 1 = − F = ) (2.5) 4 70 60 (70) ( 2 = − F = 显然F2(70) > F1(70),应走第二条路。 (2): ) (1.5) 10 65 50 (65) ( 1 = − F = ) (1.25) 4 65 60 (65) ( 2 = − F = 显然F1(65) > F2(65),应走第二条路。 这道题还是有一定实际意义的。第一条路可能较短,但堵车的可能性较大,因此所需时间 有较大的变化范围;第二条路可能较长,但路况好,车辆少,因此所需时间变化不大。如果时 间充裕,则应走第二条路,此时到达的可能性大;反之时间有限,就只能走近路碰碰运气了。 §2.4 随机向量 在有些情况下,我们所关心的随机现象需要用不只一个数值来描述,例如要全面反映一个 人的健康情况,则需要血压,各种化验数据,X光透视或拍片,B超……等等。要反映温室中的 环境条件,也要有温度、湿度,CO2浓度、光照强度等等。这样,当我们对类似的随机现象进 行研究测量时,每个样本点所包含的将不再是一个数字,而是一组数字,它们组成一个向量: X=(X1,X2,…Xn)。其中每个数字有它特定的生物学意义,如X1代表温度,X2代表湿度…, 而且每个数字均带有测量时不可避免的随机误差,因此都是随机变量。这样的向量就称为随机 向量。与普通向量类似,其中包含的数字个数n称为向量的维数,每个数字称为向量的分量。显 然普通随机变量可视为一维随机向量。为了方便,我们常常对随机变量与随机向量不加区分, 而统一称为n维随机变量,其中n取值为自然数。 引入多维随机变量的概念主要是为了把它们作为一个整体来进行研究。在这样一个整体中, 我们不仅能研究每个分量本身固有的性质,还可以研究各分量之间的关系,这在某些情况下是 非常有用的。限于课时及数学基础,我们不准备对这一课题进行深入讨论,而只是介绍一些必 要的概念
、多维随机变量与联合分布函数 与一维随机变量类似,多维随机变量也有离散型与连续型的区别。它们的取值都可视为n维 空间中的点,不过离散型的概率集中在一些孤立的点上,而连续型的概率则分布在一些或大或 小的区间内。对于离散型随机向量,我们同样不仅关心它能取哪些值,而且关心它取这些值的 概率。因此我们仍可使用类似概率分布表的形式描述离散型随机向量,与一维随机变量的唯 区别就是它的取值不再是一个简单的数,而是一个向量 例2.3袋中装有4只白球和6只黑球,有放回摸球二次,令每次摸到白球记为1,摸到黑球记为0, 则有如下的二维随机变量: 取值:(0,0) (0,1) (1,0) (1,1) 66 64 46 44 概率: 1010 1010 1010 10 如果改为不放回摸球,则二维随机变量改为 取值:(0,0) (0,1) (1,0) (1,1) 65 64 46 43 109 109 对于连续型随机向量,我们也可用类似一维的方法定义它的密度函数。以二维为例,则有: f(x,x2)=m≤X1<x十A≤12x+Ax2) x2→0 同样与一维类似,我们可进一步定义多维情况下的分布函数 定义:称n元函数 F(x,x2,…x)=P(k<x,X2<x2,…Xn<xn) 为n维随机变量(X1,X2,…Xn)的联合分布函数。 可以证明,这样定义的联合分布函数也有与一维类似的基本性质,如关于每个分量单调 关于每个分量左连续;以及 F(XI, X 如果知道了联合分布函数F,则可计算随机向量落入某一区间的概率(以二维为例) P(arsXI<bl, a2<X2<b2)=F(b, b2)-F(aI, b2)-F(b1, a2)+F(aL, a2) 这一结果可用图21说明。由于网格部分被减掉了两次,因此须再加回来。 图23二维概率的计算 例24二维均匀分布:设9为R2中的有限区域,其面积为S,则由密度函数
一、多维随机变量与联合分布函数 与一维随机变量类似,多维随机变量也有离散型与连续型的区别。它们的取值都可视为n维 空间中的点,不过离散型的概率集中在一些孤立的点上,而连续型的概率则分布在一些或大或 小的区间内。对于离散型随机向量,我们同样不仅关心它能取哪些值,而且关心它取这些值的 概率。因此我们仍可使用类似概率分布表的形式描述离散型随机向量,与一维随机变量的唯一 区别就是它的取值不再是一个简单的数,而是一个向量。 例2.3 袋中装有4只白球和6只黑球,有放回摸球二次,令每次摸到白球记为1,摸到黑球记为0, 则有如下的二维随机变量: 取值: (0,0) (0,1) (1,0) (1,1) 概率: 10 6 10 6 10 4 10 6 10 6 10 4 10 4 10 4 如果改为不放回摸球,则二维随机变量改为: 取值: (0,0) (0,1) (1,0) (1,1) 概率: 9 5 10 6 9 4 10 6 9 6 10 4 9 3 10 4 对于连续型随机向量,我们也可用类似一维的方法定义它的密度函数。以二维为例,则有: 1 2 1 1 1 1 2 2 2 2 0, 0 1 2 ( , ) ( , ) lim 1 2 x x P x X x x x X x x f x x x x + + = → → 同样与一维类似,我们可进一步定义多维情况下的分布函数: 定义:称n元函数 F(x1, x2, … xn)=P(X1<x1, X2<x2, … Xn<xn) 为n维随机变量(X1,X2,…Xn)的联合分布函数。 可以证明,这样定义的联合分布函数也有与一维类似的基本性质,如关于每个分量单调; 关于每个分量左连续;以及 F(X1, X2, …, -∞, …Xn)=0 F(+∞, +∞, …, +∞)=1 如果知道了联合分布函数F,则可计算随机向量落入某一区间的概率(以二维为例): P(a1≤X1<b1, a2≤X2<b2)= F(b1,b2) - F(a1,b2) - F(b1,a2) + F(a1,a2) 这一结果可用图2.1说明。由于网格部分被减掉了两次,因此须再加回来。 b2 a2 a1 b1 图2.3 二维概率的计算 例2.4 二维均匀分布:设Ω为R 2中的有限区域,其面积为S,则由密度函数
f(x1,x2)=S x1,x2)∈g (x1,x2)∈g 定义的分布称为9上的均匀分布。 在第一章中我们曾介绍了采用几何概型的方法解决一些实际问题。那里的几何概型实际就 是二维或三维的均匀分布 例25n维正态分布: 设B=bn)为n阶对称矩阵,且|B>0,a=(a,:-,…“a),x=(x,x,…x),均为实向量,则密度函 P(x) exp aB-(x-a) 定义的分布称为n维正态分布,也称n元正态分布。n维正态分布可简记为N(a,B) 显然多维连续分布的密度函数应为非负,且对全空间(即每一维均为从∞至+∞)的积分应 为1 同样与一维情况类似,多维分布的分布函数与离散分布的概率分布表或连续分布的密度函 数有以下关系: 离散:令py,y2,…则=P(X1=y,X2=y2,…Mn=),则分布函数为 F(x,x2…xn)=∑p(1,y2…yn) 连续:令fy1,y2,…y)为其密度函数,则分布函数为: Fx.…wy=…(1y,…y,d…d 边际分布 前边已说过,我们引入多维随机变量的概念就是为了把它作为一个整体来研究,即不仅研 究每个分量的性质,而且要研究各分量之间的关系。前述的联合分布就是描述多维随机变量这 整体的,而边际分布则是描述一个分量子集或一个个单独分量的。从这一角度看,有了联合 分布应能推出所有边际分布;反之,即使有了所有的边际分布也未必能确定联合分布,因为边 际分布只描述了一个个分量子集,但没有描述这些子集间的关系。为简单起见,我们以二维联 合分布为例讨论它与其边际分布的关系。这些关系可以进一步推广到n维分布的场合。现在让我 们重新看一下例23 例23袋中有4只白球和6只黑球,摸到白球记为1,摸到黑球记为0。以X1记第一次摸球的结果 Ⅹ2记第二次摸球的结果,若为不放回摸球,则X1,X2的联合分布为: 取值:(0,0)(0,1) (1,1) 66 64 46 44 如果我们现在只考虑X1的取值,不考虑X2的取值,则根据古典概型的计算公式,有: *有关矩阵和向量的知识见书后附录1
= 0, ( , ) , ( , ) 1 ( , ) 1 2 1 2 1 2 x x x x f x x S 定义的分布称为Ω上的均匀分布。 在第一章中我们曾介绍了采用几何概型的方法解决一些实际问题。那里的几何概型实际就 是二维或三维的均匀分布。 例2.5 n维正态分布:* 设B=(bij)为n 阶对称矩阵,且 B >0, a=(a1, a2, …an), x=(x1, x2, …xn), 均为实向量,则密度函 数 − − − = − ( ) ( )' 2 1 exp (2 ) 1 ( ) 1 2 1 2 x a B x a B x n 定义的分布称为n维正态分布,也称n元正态分布。n维正态分布可简记为N(a,B)。 显然多维连续分布的密度函数应为非负,且对全空间(即每一维均为从-∞至+∞)的积分应 为1。 同样与一维情况类似,多维分布的分布函数与离散分布的概率分布表或连续分布的密度函 数有以下关系: 离散:令 p(y1, y2, … yn)=P(X1=y1, X2=y2, … Xn=yn),则分布函数为: = n n y x y x y x n n F x x x p y y y , , 1 2 1 2 2 2 1 1 ( , , ) ( , , ) 连续:令f(y1, y2, …yn)为其密度函数,则分布函数为: F(x1, x2, …xn) = n x x x f y y yn dy dy dy n 1 2 1 2 1 2 ( , , ) − − − 二、边际分布 前边已说过,我们引入多维随机变量的概念就是为了把它作为一个整体来研究,即不仅研 究每个分量的性质,而且要研究各分量之间的关系。前述的联合分布就是描述多维随机变量这 一整体的,而边际分布则是描述一个分量子集或一个个单独分量的。从这一角度看,有了联合 分布应能推出所有边际分布;反之,即使有了所有的边际分布也未必能确定联合分布,因为边 际分布只描述了一个个分量子集,但没有描述这些子集间的关系。为简单起见,我们以二维联 合分布为例讨论它与其边际分布的关系。这些关系可以进一步推广到n维分布的场合。现在让我 们重新看一下例2.3。 例2.3 袋中有4只白球和6只黑球,摸到白球记为1,摸到黑球记为0。以X1记第一次摸球的结果, X2记第二次摸球的结果,若为不放回摸球,则X1,X2的联合分布为: 取值:(0,0) (0,1) (1,0) (1,1) 概率: 10 6 10 6 10 4 10 6 10 6 10 4 10 4 10 4 如果我们现在只考虑X1的取值,不考虑X2的取值,则根据古典概型的计算公式,有: * 有关矩阵和向量的知识见书后附录 1