§3.6条件分布函数与条件期望、回归与第二类回归 在前一章中,对离散型随机变量(5,),我们曾经研究了在已知(们=y,)发生的条件 下5的分布问题,并称P(5=式,刀y,)为条件分布开,类似的问题对连续型随机变量也存 在。 因为连续型随机变量取单点值的概率为零,所以用分布函数P:(代)P:(5<x)来代 替离散型时的分布列PA5-a,),在这里也同样以P(5<n)来代替离散型时的 P5=x,刀y,并且称P5=x,刀y,)为已知(门y)发生的条件下5的条件分布函数 并记作F物() 现在的问愿是,如果已知(5,)的联合分布函数F(怎y)或它的密度函数叫飞,),如 何来条件分布函数F物()。由条件概率的定义读者会想到应该有 P(5<x,刀=y) Pnw=PA5<P(n=)) 但处,因为对连续型随机变量来说,P5<x刀0,R)一0,上述等式中的右端是8 也就是数学分布中的“不定式”,这并没有解决问题。 在数学分析中已知密也是吕的不定式,为解决这个子后,先考虑有限增量时的比 伍铝、然后再令△→0,并定义 会一然 由此得到启发,我们采取同样的思想途径定义 Pah (x)=P( =lmP(5<xly≤n<y+△y) F(x,y+△y)-F(x,y) =nF+0,y+A)-F+0,》 (3.86) 因为(5,)是连续型随机变量,若其老度函数为(x少,则上式可以写成 P物FP5<ny)
§3.6 条件分布函数与条件期望、回归与第二类回归 在前一章中,对离散型随机变量 (,) ,我们曾经研究了在已知 ( ) i = y 发生的条件 下 的分布问题,并称 P( =x i | =y i )为条件分布开,类似的问题对连续型随机变量也存 在。 因为连续型随机变量取单点值的概率为零,所以用分布函数 P (x)=P ( x)来代 替离散型时的分布列 P( =a i ),在这里也同样以 P( <x| =y) 来代替离散型时的 P( =x i | =y i ),并且称 P( =x i | =y i )为已知( =y)发生的条件下 的条件分布函数, 并记作 F | (x|y)。 现在的问题是,如果已知 (,) 的联合分布函数 F(x, y)或它的密度函数 p(x, y),如 何来条件分布函数 F | (x|y)。由条件概率的定义读者会想到应该有 P | (x|y)= P( <x| =y)= ( ) ( , ) P y P x y = = 但是,因为对连续型随机变量来说,P( <x, =y)=0, P( =y)=0,上述等式中的右端是 0 0 , 也就是数学分布中的“不定式”,这并没有解决问题。 在数学分析中已知 dx dy 也是 0 0 的不定式,为解决这个矛盾,先考虑有限增量时的比 值 x y ,然后再令 x →0 ,并定义 dx dy = x y x →0 lim 由此得到启发,我们采取同样的思想途径定义 P | (x|y)= P( <x| =y) = lim ( | ) 0 P x y y y x + → = ( , ) ( , ) ( , ) ( , ) lim 0 F y y F y F x y y F x y y + + − + + − → (3.86) 因为 (,) 是连续型随机变量,若其密度函数为 p(x, y),则上式可以写成 P | (x|y)= P( <x| =y)
Lpu.ydudy pO.ud p(u,)dud p.(v 3.87 若太是连续函数,又,则有 p(u.y)du ()= pn(y) de (3.88 显然,这时P)关于x的导数存在,且有 Ph)=Fly)=P(x.y) (3.89) p (y) 我们称P物)为在已知发生的条件下5的条件概率密度.完全类似地可以定义F水() 及P(),读者还可以比较一下条件概率密度与离散型时的条件分布列: P物(5=M,P5三,”=y) p(=y,) 它们之间是多么的相似 例6.18(略) 条件分布函数F水(y丨x)或条件密度函数P帐(y丨x)描写了随机变量5在已知 (=y)发生的条件下的统计规律,同样离散型情形一样,还可以求在(y)发生的条件下的 数学期望,也就是条件数学期望,于是有下述定义。 定义5.1如果随机变量5在己知(刀=y)发生的条件下的条件密度函数为P水(y x,若 x lPaw(xly)dk<o∞ 则称
= − + − + → y y y x y y y y p u v dudv p u v dudv ( , ) ( , ) lim 0 = p v dv p u v dudv y y y x y y y y ( ) ( , ) lim 0 + − + → (3.87) 若太是连续函数,又,则有 P | (x|y)= ( ) ( , ) p y p u y du x − = − x du p y p u y ( ) ( , ) (3.88) 显然,这时 P | (x|y)关于 x 的导数存在,且有 P | (x|y)= F ' | (x | y) = ( ) ( , ) p y p x y (3.89) 我们称 P | (x|y)为在已知发生的条件下 的条件概率密度。完全类似地可以定义 F | (x|y) 及 P | ( y | x),读者还可以比较一下条件概率密度与离散型时的条件分布列: P | ( = x i | = y i )= ( ) ( , ) i i i p y p x y = = = 它们之间是多么的相似! 例 6.18(略) 条件分布函数 F | ( y | x)或条件密度函数 P | ( y | x)描写了随机变量 在已知 ( =y)发生的条件下的统计规律,同样离散型情形一样,还可以求在( =y)发生的条件下的 数学期望,也就是条件数学期望,于是有下述定义。 定义 5.1 如果随机变量 在已知( =y)发生的条件下的条件密度函数为 P | ( y | x),若 − | x |p| (x | y)dx 则称
E(In-y=xpan (xly)dx< (3.90) 为5在(刀=y)发生的条件下的数学期望,或简称为条件期望。 同离散型情形相同,连续型随机变量的条件期望也具有下述性质: (1)若a≤5≤b,则a≤E(5引n=y)≤b: (2)若是k1、k2两个常数,又E(5,门=y)(1,2)存在,则有 E(k 5+5In=y)=k E(5n=y)+kE(52In=y) 进一步还可以把E(5引7=y)看成是1的函数,当时这个函数取值为E(5引=y) 记这个函数为E(5引),它是一个随机变量,可以对它求数学期望,仍与离散型相同, 有 (3)E(E{5l7}FE5. 条件数学期望在近代概率论中有者基本重要的作用,在实际问愿中也有很大用处。在 两个互有影响的随机变量二、门中,如果已知其中一个随机变量的取值)y,要据此去估 计或预测另一个随机变量的取值,这样的问题在实际应用中经常会碰到。人们称它为“预测 问题”。由上述讨论可知,条件数学期望E(5引n=y)是在已知(n=)发生的条件下,对5 的一个颇为“合理”的预测 例6.18(略) 一般认为,人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚 印长的估计式: E50=Fa+P受-a) 如果(a,+pg0-a:人)把画在平面的直角坐标系中,它是一条直线,这条直线在一定 02 程度上描写了身高5依赖于刀的关系,常常称为是回归直线。在一般情形下,由 E(5|n=y,y) (3.94) 或 {x,E(n5=x)} (394) 可以得到平面上的两条曲线,它们称为是回归曲线或简称为回归
E ( | = y )= − xp (x | y)dx | (3.90) 为 在( =y)发生的条件下的数学期望,或简称为条件期望。 同离散型情形相同,连续型随机变量的条件期望也具有下述性质: (1)若 a≤ ≤b,则 a≤E ( | = y )≤b; (2)若是 1 k 、 2 k 两个常数,又 E ( y i | = )(i=1, 2)存在,则有 E ( k + | = y 1 1 2 )= 1 k E ( | = y 1 )+ 2 k E ( | = y 2 ) 进一步还可以把 E ( | = y )看成是 的函数,当时这个函数取值为 E ( | = y ), 记这个函数为 E ( | ),它是一个随机变量,可以对它求数学期望,仍与离散型相同, 有 (3)E (E { |} )= E 。 条件数学期望在近代概率论中有着基本重要的作用,在实际问题中也有很大用处。在 两个互有影响的随机变量 、 中,如果已知其中一个随机变量的取值 =y,要据此去估 计或预测另一个随机变量的取值,这样的问题在实际应用中经常会碰到。人们称它为“预测 问题”。由上述讨论可知,条件数学期望 E ( | = y )是在已知( =y)发生的条件下,对 的一个颇为“合理”的预测。 例 6.18(略) 一般认为,人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚 印长的估计式: E ( | = y )= ( ) 2 2 1 a1 + y − a 如果 ( ( ), ) 2 2 1 1 a + y − a y 把画在平面的直角坐标系中,它是一条直线,这条直线在一定 程度上描写了身高 依赖于 的关系,常常称为是回归直线。在一般情形下,由 E ( | = y ,y) (3.94) 或 {x,E ( | = x )} (3.94 ' ) 可以得到平面上的两条曲线,它们称为是回归曲线或简称为回归
前面经指出,把E(5引=y)作为在已知(n)发生的条件下,对5的估计或预测,在 我们已经知道E(5引7)是n的函数,现在不妨假定有别的n的函数g(n)可以作为对 的估计或预测,我们当然要求这种估计或预测的误差5-g()川要尽可能地小,但 15-g()川是随机变量,一般就要求它的平均值 E[-g(n)]=min E[5-g()]2=min 如果(5,)的密度函数为px吵,就有 E[5-g]2=CC[x-gy叨川p(xy)y =[p,(y[[x-g(y)Fpa(xIy)dx)dy 由方差的性质(3.74),当gyE(5引7)时,能使 [[x-g(v)T pan(xly)dxX=E([-g(n=) 达到最小,从而当gy)FE(5引7)时也使E5-g(7)]2到最小。所以,在己知(7)发生 的条件下,用E(5引7)作为对5的估计或预测是最佳的,这时均方差E[5-g(7)]217y} 达到最小,这里证明的是连续型的情形,对离散型也可以类似地证明这个结论。 现在我们已经知道用E(5引7)作为对5进行估计或预测具有很有的性质。在门的任意 函数中,它的平均方差为最小,但是在某些场合,譬如密度函数x)为未知,或者E(5引7) 过分复杂等原因,这时可以降低一些要求寻找另外的估计,这当中一个常用的估计是,只要 求所得到的估计在刀的线性函数类L(门)=门+b中能使均方差达到最小,也就是要确定 a与b常数,使 A(a,b)=E[-(an+b)]2=min 为此,只要令
前面曾经指出,把 E ( | = y )作为在已知( =y)发生的条件下,对 的估计或预测,在 直觉上是“合理”的,究竟它合理在什么地方?这个估计或预测具有那些“优良”的性质值 得引起人们的注意呢?这是下面要进一步研究的问题。 我们已经知道 E ( | )是 的函数,现在不妨假定有别的 的函数 g( )可以作为对 的估计或预测,我们当然要求这种估计或预测的误差| − g() |要尽可能地小,但 | − g() |是随机变量,一般就要求它的平均值 E [ − g() ]=min 但是绝对运算在数学上处理并不方便,回忆在数学分析中提到过的最小的二乘方法以及第二 章中关于方差的讨论,读者能够想到,可以要求 E [ − g() ] 2 =min 如果 (,) 的密度函数为 p(x,y),就有 E [ − g() ] 2 = [x g( y)] p(x, y)dxdy 2 − − − = p (y)( [x g(y)] p (x | y)dx)dy | 2 − − − 由方差的性质( 3.74),当 g(y)= E ( | )时,能使 [ ( )] ( | ) )( {[ ( )] | }) 2 | 2 x − g y p x y dx = E − g y = y − 达到最小,从而当 g(y)= E ( | )时也使 E[ − g() ] 2 到最小。所以,在已知( =y)发生 的条件下,用E ( | )作为对 的估计或预测是最佳的,这时均方差E{[ − g() ] 2 | =y } 达到最小,这里证明的是连续型的情形,对离散型也可以类似地证明这个结论。 现在我们已经知道用 E ( | )作为对 进行估计或预测具有很有的性质。在 的任意 函数中,它的平均方差为最小,但是在某些场合,譬如密度函数 p(x,y)为未知,或者 E ( | ) 过分复杂等原因,这时可以降低一些要求寻找另外的估计,这当中一个常用的估计是,只要 求所得到的估计在 的线性函数类 L( )=a +b 中能使均方差达到最小,也就是要确定 a 与 b 常数,使 (a,b) =E [ − (a + b) ] 2 =min 为此,只要令
[OM(a.b)=2E(-(an+b]-0 da a,=2B5-(an+b刎=0 上述方程组等价于 aEn+b=E aEn+bEn=EEn (3.95 解此方程组可以求得 as CovE.n) 02 (3.96) 02 通常称上式为线性回归或第二类回归,并称(3.94)或给出的一般情况的回归为第一类回归。 第二娄回归的性质比第一类回归要差一些,但是在求第二类回归时,不必知道联合密度函数 而只要求知道5、刀的期望、方差与协方差就够了,而且第二类回归得到的总是一个线性 函数,因而第二类回归有便于应用的优点。还有一点应该指出的是,对于用得最广泛的正态 分布来说,可以从例3.27知道,两类回归恰好是一致的。这一事实表明,就正态分布而言, 最佳线性估计就是最佳估计。当然,这里“最佳”的意思是指均方差最小 由(3.96)式还可得到最佳线性估计的均方误差为 E5-401-EI5-5-eg-E =0-po=021-p) 这个均方误差常常称为剩余方差。由上式可知,当5与”间的相关系数Pl时,剩余方 差为零。这时,5可以用(3.96)式来准确估计,也就是说5与门之间存在着线性关系。于 是我们又一次证明了相关系数是随机变量间线性相依程度的反映
= − + = = − + = 2 [ ( )] 0 ( , ) 2 [( ( )) ] 0 ( , ) E a b b a b E a b a a b 上述方程组等价于 + = + = aE bE E aE b E 2 (3.95) 解此方程组可以求得 = − = − = = b E aE E E Cov a 2 1 2 1 2 2 ( , ) (3.96) 通常称上式为线性回归或第二类回归,并称(3.94)或给出的一般情况的回归为第一类回归。 第二娄回归的性质比第一类回归要差一些,但是在求第二类回归时,不必知道联合密度函数 而只要求知道 、 的期望、方差与协方差就够了,而且第二类回归得到的总是一个线性 函数,因而第二类回归有便于应用的优点。还有一点应该指出的是,对于用得最广泛的正态 分布来说,可以从例 3.27 知道,两类回归恰好是一致的。这一事实表明,就正态分布而言, 最佳线性估计就是最佳估计。当然,这里“最佳”的意思是指均方差最小 由(3.96)式还可得到最佳线性估计的均方误差为 E [ − L() ] 2 =E [ ( ) 2 1 − E − − E ] 2 = (1 ) 2 2 1 2 1 2 2 1 − = − 这个均方误差常常称为剩余方差。由上式可知,当 与 间的相关系数| |=1 时,剩余方 差为零。这时, 可以用(3.96)式来准确估计,也就是说 与 之间存在着线性关系。于 是我们又一次证明了相关系数是随机变量间线性相依程度的反映