当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

上饶师范学院:《概率论与数理统计》课程教学资源(电子教案)第三章 连续形型随机变量 3.6 条件分布函数与条件期望、回归与第二类回归

资源类别:文库,文档格式:DOC,文档页数:5,文件大小:211.5KB,团购合买
点击下载完整版文档(DOC)

§3.6条件分布函数与条件期望、回归与第二类回归 在前一章中,对离散型随机变量(5,),我们曾经研究了在已知(们=y,)发生的条件 下5的分布问题,并称P(5=式,刀y,)为条件分布开,类似的问题对连续型随机变量也存 在。 因为连续型随机变量取单点值的概率为零,所以用分布函数P:(代)P:(5<x)来代 替离散型时的分布列PA5-a,),在这里也同样以P(5<n)来代替离散型时的 P5=x,刀y,并且称P5=x,刀y,)为已知(门y)发生的条件下5的条件分布函数 并记作F物() 现在的问愿是,如果已知(5,)的联合分布函数F(怎y)或它的密度函数叫飞,),如 何来条件分布函数F物()。由条件概率的定义读者会想到应该有 P(5<x,刀=y) Pnw=PA5<P(n=)) 但处,因为对连续型随机变量来说,P5<x刀0,R)一0,上述等式中的右端是8 也就是数学分布中的“不定式”,这并没有解决问题。 在数学分析中已知密也是吕的不定式,为解决这个子后,先考虑有限增量时的比 伍铝、然后再令△→0,并定义 会一然 由此得到启发,我们采取同样的思想途径定义 Pah (x)=P( =lmP(5<xly≤n<y+△y) F(x,y+△y)-F(x,y) =nF+0,y+A)-F+0,》 (3.86) 因为(5,)是连续型随机变量,若其老度函数为(x少,则上式可以写成 P物FP5<ny)

§3.6 条件分布函数与条件期望、回归与第二类回归 在前一章中,对离散型随机变量 (,) ,我们曾经研究了在已知 ( ) i  = y 发生的条件 下  的分布问题,并称 P(  =x i |  =y i )为条件分布开,类似的问题对连续型随机变量也存 在。 因为连续型随机变量取单点值的概率为零,所以用分布函数 P  (x)=P  (   x)来代 替离散型时的分布列 P(  =a i ),在这里也同样以 P(  <x|  =y) 来代替离散型时的 P(  =x i |  =y i ),并且称 P(  =x i |  =y i )为已知(  =y)发生的条件下  的条件分布函数, 并记作 F  | (x|y)。 现在的问题是,如果已知 (,) 的联合分布函数 F(x, y)或它的密度函数 p(x, y),如 何来条件分布函数 F  | (x|y)。由条件概率的定义读者会想到应该有 P  | (x|y)= P(  <x|  =y)= ( ) ( , ) P y P x y =  =    但是,因为对连续型随机变量来说,P(  <x,  =y)=0, P(  =y)=0,上述等式中的右端是 0 0 , 也就是数学分布中的“不定式”,这并没有解决问题。 在数学分析中已知 dx dy 也是 0 0 的不定式,为解决这个矛盾,先考虑有限增量时的比 值 x y   ,然后再令 x →0 ,并定义 dx dy = x y x    →0 lim 由此得到启发,我们采取同样的思想途径定义 P  | (x|y)= P(  <x|  =y) = lim ( | ) 0 P x y y y x    +   →   = ( , ) ( , ) ( , ) ( , ) lim 0 F y y F y F x y y F x y y + +  − + +  −  → (3.86) 因为 (,) 是连续型随机变量,若其密度函数为 p(x, y),则上式可以写成 P  | (x|y)= P(  <x|  =y)

Lpu.ydudy pO.ud p(u,)dud p.(v 3.87 若太是连续函数,又,则有 p(u.y)du ()= pn(y) de (3.88 显然,这时P)关于x的导数存在,且有 Ph)=Fly)=P(x.y) (3.89) p (y) 我们称P物)为在已知发生的条件下5的条件概率密度.完全类似地可以定义F水() 及P(),读者还可以比较一下条件概率密度与离散型时的条件分布列: P物(5=M,P5三,”=y) p(=y,) 它们之间是多么的相似 例6.18(略) 条件分布函数F水(y丨x)或条件密度函数P帐(y丨x)描写了随机变量5在已知 (=y)发生的条件下的统计规律,同样离散型情形一样,还可以求在(y)发生的条件下的 数学期望,也就是条件数学期望,于是有下述定义。 定义5.1如果随机变量5在己知(刀=y)发生的条件下的条件密度函数为P水(y x,若 x lPaw(xly)dk<o∞ 则称

=      − + − +  → y y y x y y y y p u v dudv p u v dudv ( , ) ( , ) lim 0 = p v dv p u v dudv y y y x y y y y ( ) ( , ) lim 0    + − +  →  (3.87) 若太是连续函数,又,则有 P  | (x|y)= ( ) ( , ) p y p u y du x  − = − x du p y p u y ( ) ( , )  (3.88) 显然,这时 P  | (x|y)关于 x 的导数存在,且有 P  | (x|y)= F '  | (x | y) = ( ) ( , ) p y p x y  (3.89) 我们称 P  | (x|y)为在已知发生的条件下  的条件概率密度。完全类似地可以定义 F | (x|y) 及 P | ( y | x),读者还可以比较一下条件概率密度与离散型时的条件分布列: P  | (  = x i |  = y i )= ( ) ( , ) i i i p y p x y = = =    它们之间是多么的相似! 例 6.18(略) 条件分布函数 F | ( y | x)或条件密度函数 P | ( y | x)描写了随机变量  在已知 (  =y)发生的条件下的统计规律,同样离散型情形一样,还可以求在(  =y)发生的条件下的 数学期望,也就是条件数学期望,于是有下述定义。 定义 5.1 如果随机变量  在已知(  =y)发生的条件下的条件密度函数为 P | ( y | x),若     − | x |p| (x | y)dx 则称

E(In-y=xpan (xly)dx< (3.90) 为5在(刀=y)发生的条件下的数学期望,或简称为条件期望。 同离散型情形相同,连续型随机变量的条件期望也具有下述性质: (1)若a≤5≤b,则a≤E(5引n=y)≤b: (2)若是k1、k2两个常数,又E(5,门=y)(1,2)存在,则有 E(k 5+5In=y)=k E(5n=y)+kE(52In=y) 进一步还可以把E(5引7=y)看成是1的函数,当时这个函数取值为E(5引=y) 记这个函数为E(5引),它是一个随机变量,可以对它求数学期望,仍与离散型相同, 有 (3)E(E{5l7}FE5. 条件数学期望在近代概率论中有者基本重要的作用,在实际问愿中也有很大用处。在 两个互有影响的随机变量二、门中,如果已知其中一个随机变量的取值)y,要据此去估 计或预测另一个随机变量的取值,这样的问题在实际应用中经常会碰到。人们称它为“预测 问题”。由上述讨论可知,条件数学期望E(5引n=y)是在已知(n=)发生的条件下,对5 的一个颇为“合理”的预测 例6.18(略) 一般认为,人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚 印长的估计式: E50=Fa+P受-a) 如果(a,+pg0-a:人)把画在平面的直角坐标系中,它是一条直线,这条直线在一定 02 程度上描写了身高5依赖于刀的关系,常常称为是回归直线。在一般情形下,由 E(5|n=y,y) (3.94) 或 {x,E(n5=x)} (394) 可以得到平面上的两条曲线,它们称为是回归曲线或简称为回归

E (  | = y )=     − xp (x | y)dx | (3.90) 为  在(  =y)发生的条件下的数学期望,或简称为条件期望。 同离散型情形相同,连续型随机变量的条件期望也具有下述性质: (1)若 a≤  ≤b,则 a≤E (  | = y )≤b; (2)若是 1 k 、 2 k 两个常数,又 E ( y i  | = )(i=1, 2)存在,则有 E ( k  + | = y 1 1 2 )= 1 k E (  | = y 1 )+ 2 k E (  | = y 2 ) 进一步还可以把 E (  | = y )看成是  的函数,当时这个函数取值为 E (  | = y ), 记这个函数为 E (  | ),它是一个随机变量,可以对它求数学期望,仍与离散型相同, 有 (3)E (E { |} )= E  。 条件数学期望在近代概率论中有着基本重要的作用,在实际问题中也有很大用处。在 两个互有影响的随机变量  、 中,如果已知其中一个随机变量的取值  =y,要据此去估 计或预测另一个随机变量的取值,这样的问题在实际应用中经常会碰到。人们称它为“预测 问题”。由上述讨论可知,条件数学期望 E (  | = y )是在已知(  =y)发生的条件下,对  的一个颇为“合理”的预测。 例 6.18(略) 一般认为,人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚 印长的估计式: E (  | = y )= ( ) 2 2 1 a1 + y − a    如果 ( ( ), ) 2 2 1 1 a + y − a y    把画在平面的直角坐标系中,它是一条直线,这条直线在一定 程度上描写了身高  依赖于  的关系,常常称为是回归直线。在一般情形下,由 E (  | = y ,y) (3.94) 或 {x,E (  |  = x )} (3.94 ' ) 可以得到平面上的两条曲线,它们称为是回归曲线或简称为回归

前面经指出,把E(5引=y)作为在已知(n)发生的条件下,对5的估计或预测,在 我们已经知道E(5引7)是n的函数,现在不妨假定有别的n的函数g(n)可以作为对 的估计或预测,我们当然要求这种估计或预测的误差5-g()川要尽可能地小,但 15-g()川是随机变量,一般就要求它的平均值 E[-g(n)]=min E[5-g()]2=min 如果(5,)的密度函数为px吵,就有 E[5-g]2=CC[x-gy叨川p(xy)y =[p,(y[[x-g(y)Fpa(xIy)dx)dy 由方差的性质(3.74),当gyE(5引7)时,能使 [[x-g(v)T pan(xly)dxX=E([-g(n=) 达到最小,从而当gy)FE(5引7)时也使E5-g(7)]2到最小。所以,在己知(7)发生 的条件下,用E(5引7)作为对5的估计或预测是最佳的,这时均方差E[5-g(7)]217y} 达到最小,这里证明的是连续型的情形,对离散型也可以类似地证明这个结论。 现在我们已经知道用E(5引7)作为对5进行估计或预测具有很有的性质。在门的任意 函数中,它的平均方差为最小,但是在某些场合,譬如密度函数x)为未知,或者E(5引7) 过分复杂等原因,这时可以降低一些要求寻找另外的估计,这当中一个常用的估计是,只要 求所得到的估计在刀的线性函数类L(门)=门+b中能使均方差达到最小,也就是要确定 a与b常数,使 A(a,b)=E[-(an+b)]2=min 为此,只要令

前面曾经指出,把 E (  | = y )作为在已知(  =y)发生的条件下,对  的估计或预测,在 直觉上是“合理”的,究竟它合理在什么地方?这个估计或预测具有那些“优良”的性质值 得引起人们的注意呢?这是下面要进一步研究的问题。 我们已经知道 E (  | )是  的函数,现在不妨假定有别的  的函数 g(  )可以作为对  的估计或预测,我们当然要求这种估计或预测的误差|  − g() |要尽可能地小,但 |  − g() |是随机变量,一般就要求它的平均值 E [  − g() ]=min 但是绝对运算在数学上处理并不方便,回忆在数学分析中提到过的最小的二乘方法以及第二 章中关于方差的讨论,读者能够想到,可以要求 E [  − g() ] 2 =min 如果 (,) 的密度函数为 p(x,y),就有 E [  − g() ] 2 = [x g( y)] p(x, y)dxdy 2    −  − − = p (y)( [x g(y)] p (x | y)dx)dy | 2    −  −  −   由方差的性质( 3.74),当 g(y)= E (  | )时,能使 [ ( )] ( | ) )( {[ ( )] | }) 2 | 2 x − g y p x y dx = E − g y = y   −     达到最小,从而当 g(y)= E (  | )时也使 E[  − g() ] 2 到最小。所以,在已知(  =y)发生 的条件下,用E (  | )作为对  的估计或预测是最佳的,这时均方差E{[  − g() ] 2 |  =y } 达到最小,这里证明的是连续型的情形,对离散型也可以类似地证明这个结论。 现在我们已经知道用 E (  | )作为对  进行估计或预测具有很有的性质。在  的任意 函数中,它的平均方差为最小,但是在某些场合,譬如密度函数 p(x,y)为未知,或者 E (  | ) 过分复杂等原因,这时可以降低一些要求寻找另外的估计,这当中一个常用的估计是,只要 求所得到的估计在  的线性函数类 L(  )=a  +b 中能使均方差达到最小,也就是要确定 a 与 b 常数,使 (a,b) =E [  − (a + b) ] 2 =min 为此,只要令

[OM(a.b)=2E(-(an+b]-0 da a,=2B5-(an+b刎=0 上述方程组等价于 aEn+b=E aEn+bEn=EEn (3.95 解此方程组可以求得 as CovE.n) 02 (3.96) 02 通常称上式为线性回归或第二类回归,并称(3.94)或给出的一般情况的回归为第一类回归。 第二娄回归的性质比第一类回归要差一些,但是在求第二类回归时,不必知道联合密度函数 而只要求知道5、刀的期望、方差与协方差就够了,而且第二类回归得到的总是一个线性 函数,因而第二类回归有便于应用的优点。还有一点应该指出的是,对于用得最广泛的正态 分布来说,可以从例3.27知道,两类回归恰好是一致的。这一事实表明,就正态分布而言, 最佳线性估计就是最佳估计。当然,这里“最佳”的意思是指均方差最小 由(3.96)式还可得到最佳线性估计的均方误差为 E5-401-EI5-5-eg-E =0-po=021-p) 这个均方误差常常称为剩余方差。由上式可知,当5与”间的相关系数Pl时,剩余方 差为零。这时,5可以用(3.96)式来准确估计,也就是说5与门之间存在着线性关系。于 是我们又一次证明了相关系数是随机变量间线性相依程度的反映

     = − + =   = − + =   2 [ ( )] 0 ( , ) 2 [( ( )) ] 0 ( , ) E a b b a b E a b a a b      上述方程组等价于    + = + =      aE bE E aE b E 2 (3.95) 解此方程组可以求得        = − = − = =               b E aE E E Cov a 2 1 2 1 2 2 ( , ) (3.96) 通常称上式为线性回归或第二类回归,并称(3.94)或给出的一般情况的回归为第一类回归。 第二娄回归的性质比第一类回归要差一些,但是在求第二类回归时,不必知道联合密度函数 而只要求知道  、 的期望、方差与协方差就够了,而且第二类回归得到的总是一个线性 函数,因而第二类回归有便于应用的优点。还有一点应该指出的是,对于用得最广泛的正态 分布来说,可以从例 3.27 知道,两类回归恰好是一致的。这一事实表明,就正态分布而言, 最佳线性估计就是最佳估计。当然,这里“最佳”的意思是指均方差最小 由(3.96)式还可得到最佳线性估计的均方误差为 E [  − L() ] 2 =E [ ( ) 2 1      − E −  − E ] 2 = (1 ) 2 2 1 2 1 2 2 1  −   =  −  这个均方误差常常称为剩余方差。由上式可知,当  与  间的相关系数|  |=1 时,剩余方 差为零。这时,  可以用(3.96)式来准确估计,也就是说  与  之间存在着线性关系。于 是我们又一次证明了相关系数是随机变量间线性相依程度的反映

点击下载完整版文档(DOC)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有