协方差与相关系数
2 协方差与相关系数
定性的思考 通常人们在研究单个的随机变量的时候,并不 关心它们的分布,而是关心它们的数学期望和 方差,这也是因为分布携带了太多的信息,很 难给人们一个快捷的印象. 而人们在研究两个随机变量的关系的时候,也 不关心它们的联合分布,这是携带了更多信息 的内容.人们关心的是,这两个随机变量是联 系非常紧密呢?还是毫无关系?即相互独立? 人们希望用一个数字就能够在相当程度上描 述两个随机变量的联系程度
3 定性的思考 通常人们在研究单个的随机变量的时候, 并不 关心它们的分布, 而是关心它们的数学期望和 方差, 这也是因为分布携带了太多的信息, 很 难给人们一个快捷的印象. 而人们在研究两个随机变量的关系的时候, 也 不关心它们的联合分布, 这是携带了更多信息 的内容. 人们关心的是, 这两个随机变量是联 系非常紧密呢? 还是毫无关系?即相互独立? 人们希望用一个数字就能够在相当程度上描 述两个随机变量的联系程度
当然,从数学上看,这是不可能的 因为联合分布的信息量为许多个数,甚至无穷 多个数,因此一个数不可能反映出无穷多个数 携带的信息 但是我们仍然希望能够找到描述它们之间相 互关系的一个数,至少在大多数实际情况下能 够描绘两个随机变量联系的紧密程度,例如 如果这个数字越接近于零,说明这两个随机变 量的联系越差,越接近于相互独立,反之则联 系越紧密,越接近于相互之间有关系
4 当然, 从数学上看, 这是不可能的 因为联合分布的信息量为许多个数, 甚至无穷 多个数, 因此一个数不可能反映出无穷多个数 携带的信息. 但是我们仍然希望能够找到描述它们之间相 互关系的一个数, 至少在大多数实际情况下能 够描绘两个随机变量联系的紧密程度, 例如, 如果这个数字越接近于零, 说明这两个随机变 量的联系越差, 越接近于相互独立, 反之则联 系越紧密, 越接近于相互之间有关系
例如 个人的身高和体重是非常有关系的,但是又 并不完全是严格的函数关系,那么关系程度究 竞有多大呢? 个人的吸烟量和他的平均寿命是有关系的, 这个关系量又有多大呢? 种化肥的施用量和农作物的产量是有关系 的,这个关系的大小又是如何呢? 这样一些问题都希望能够用一个数字就表示 出来,这就是人们想到要用协方差和相关系数 的原因
5 例如 一个人的身高和体重是非常有关系的, 但是又 并不完全是严格的函数关系, 那么关系程度究 竟有多大呢? 一个人的吸烟量和他的平均寿命是有关系的, 这个关系量又有多大呢? 一种化肥的施用量和农作物的产量是有关系 的, 这个关系的大小又是如何呢? 这样一些问题都希望能够用一个数字就表示 出来, 这就是人们想到要用协方差和相关系数 的原因
对于两个随机变量ξ和n 当它们是完全相等的时候,联系是最紧密的了而当 它们相互独立的时候,联系是最差的了 因此我们先研究它们的和外m的方差 D(+m)=E{+nB(+m)}2 =E{2E2+Em}2 E{(-E2)2+(nEm)2+2(-E)(n-Em)} FE(5-ES+E(n-En2+2E(-ES(n-En =D+Dm+2E{(5E5(Em)}
6 对于两个随机变量x和h 当它们是完全相等的时候, 联系是最紧密的了.而当 它们相互独立的时候, 联系是最差的了. 因此我们先研究它们的和x+h的方差: D(x+h)=E{x+h-E(x+h)}2 =E{x-Ex+h-Eh} 2 =E{(x-Ex) 2+(h-Eh) 2+2(x-Ex)(h-Eh)} =E(x-Ex) 2+E(h-Eh) 2+2E{(x-Ex)(h-Eh)} =Dx+Dh+2E{(x-Ex)(h-Eh)}
重新写在这里 D(+m)=D+Dm+2E{(-E2)(-Em)} 关键在后一项2E{(-E2)(n-E)},我们定义 E{(5-E2(n-Em)}为和n的协方差,用cov(2,7) 表示.贝 D(5+m)=D+Dn+2cov(2,7) 当ξ和n相互独立时,联系最不紧密,这时候 cov(2,m)=0,因此D(+m)=D+Dn 而当ξ时,联系最紧密,这时候 DDm=cov(,m),因此D(=+m)=D(2)=4D5
7 重新写在这里: D(x+h)=Dx+Dh+2E{(x-Ex)(h-Eh)} 关键在后一项2E{(x-Ex)(h-Eh)}, 我们定义 E{(x-Ex)(h-Eh)}为x和h的协方差, 用cov(x,h) 表示. 则 D(x+h)=Dx+Dh+2cov(x,h) 当x和h相互独立时, 联系最不紧密, 这时候 cov(x,h)=0, 因此D(x+h)=Dx+Dh 而当x=h时, 联系最紧密, 这时候 Dx=Dh=cov(x,h), 因此D(x+h)=D(2x)=4Dx
进一步研究 cov(E,n=E(S -ES(nEn) D(+m)=D5+Dm+2cov(2,) 当协方差为0时表示5,n联系最不紧密,但协方差多 大表示5,n联系最紧密却是与5及m的方差的大小有 关的,为去除这个因素,因此定义 cov(5)为5,的相关系数,则 DE√Dn D(2+n)=D+Dm+2D√Dm
8 进一步研究 cov(x,h)=E{(x-Ex)(h-Eh)} D(x+h)=Dx+Dh+2cov(x,h) 当协方差为0时表示x,h联系最不紧密, 但协方差多 大表示x,h联系最紧密却是与x及h的方差的大小有 关的, 为去除这个因素, 因此定义 x h x h x h x h x h x h D D D D D D D ( ) 2 , , cov( , ) + = + + = 为 的相关系数 则
现证明体1 令2=5E,n=n-E,则2,都是期望值为0的 随机变量.对于任给的实数t,相信E(2+t7)2≥20, 即E2+2B(2m)+P2E72≥0,即是说关于t的一元 次方程E2+2E(m)+P2En2=0最多只有单 个实根或者没有实根,也就说明判别式 b2-4ac<0 4cov2(5,)-4EEm2≤0 coV (S,n) 21≤1,即2≤1或|p1 DEDn
9 现证明||1 令x’=x-Ex,h’=h-Eh, 则x',h'都是期望值为0的 随机变量. 对于任给的实数t, 相信E(x'+th')20, 即Ex' 2+2tE(x'h')+t 2Eh' 20, 即是说关于t的一元 二次方程Ex' 2+2tE(x'h')+t 2Eh' 2=0最多只有单 个实根或者没有实根, 也就说明判别式 b 2-4ac0 1, 1 | | 1 cov ( , ) 4cov ( , ) 4 ' ' 0 2 2 2 2 2 - x h x h x h x h 即 或 D D E E
再考虑当=1时会是什么情况,这时方程 E22+21E(m7)+2Em72=0存在着一个单根, 假设这单根为(,则有 E22+2t0E(2)+02En72=0 即E(2+07)2=0,而当一个总是取非负值 的随机变量的期望值为0时,答案只能是 此随机变量就是常数0,即存在着实数使 得2+10n20,即和7的离差是正好成比例 的,我们将这种情况称作与n呈线性关系 因此就有定理(接后页)
10 再考虑当||=1时会是什么情况, 这时方程 Ex' 2+2tE(x'h')+t 2Eh' 2=0 存在着一个单根, 假设这单根为t0 , 则有 Ex' 2+2t0E(x'h')+t0 2Eh' 2=0 即E(x'+t0h')2=0, 而当一个总是取非负值 的随机变量的期望值为0时, 答案只能是 此随机变量就是常数0, 即存在着实数t0使 得x'+t0h'=0, 即x和h的离差是正好成比例 的, 我们将这种情况称作x与h呈线性关系, 因此就有定理(接后页)
定理 两个随机变量和呈线性关系的充分必要条件,是 它们的相关系数的绝对值为1,即 A2=1 而另一方面,如果与n相互独立,则它们的相关系 数必为0,即p=0 当然,数学家们会喋喋不休地宣传当ρ=0时未见得ξ 与n相互独立,并在作业或者例子中经常给出反例 但是,作为经验之谈,当ρ=0时,两个随机变量确实 关系不大了这也是相关系数被广泛使用的原因
11 定理 两个随机变量x和h呈线性关系的充分必要条件, 是 它们的相关系数的绝对值为1, 即 ||=1 而另一方面, 如果x与h相互独立, 则它们的相关系 数必为0, 即=0. 当然, 数学家们会喋喋不休地宣传当=0时未见得x 与h相互独立, 并在作业或者例子中经常给出反例. 但是, 作为经验之谈, 当=0时, 两个随机变量确实 关系不大了.这也是相关系数被广泛使用的原因