§9相关分析与回归分析
§9 相关分析与回归分析
相关分析与回归分析是以概率论与数理统计为基础 迅速发展起来的应用性较强的科学方法,是现代应用统计 学的重要分支,是研究事物间量变规律的科学方法。回归 分析着重在寻找变量之间近似的函数关系,相关分析则不 着重这种关系而致力于寻找一些数量指标,以刻划有关变 量之间关系深浅的程度 变量之间的关系可分为确定性关系和非确定性关系两 类。确定性关系是指非随机变量之间的函数关系,非确定 性关系指随机变量之间或非随机变量与随机变量之间的 统计关系。统计关系包含相关关系和回归关系 统计关系是一种经验关系,并不一定包含着因果关系 有时尽管两个变量之间的统计关系非常密切而且很有启 发性,但决不能确定其间的因果联系,对于因果关系的设想 只能来自统计之外,归根到底是来自某种理论或其它方面
相关分析与回归分析是以概率论与数理统计为基础 迅速发展起来的应用性较强的科学方法, 是现代应用统计 学的重要分支,是研究事物间量变规律的科学方法。回归 分析着重在寻找变量之间近似的函数关系,相关分析则不 着重这种关系,而致力于寻找一些数量指标,以刻划有关变 量之间关系深浅的程度 . 变量之间的关系可分为确定性关系和非确定性关系两 类。确定性关系是指非随机变量之间的函数关系,非确定 性关系指随机变量之间或非随机变量与随机变量之间的 统计关系。统计关系包含相关关系和回归关系。 统计关系是一种经验关系,并不一定包含着因果关系, 有时尽管两个变量之间的统计关系非常密切而且很有启 发性,但决不能确定其间的因果联系,对于因果关系的设想 只能来自统计之外,归根到底是来自某种理论或其它方面
§91相关分析 本节要求掌握相关的概念,样本相关系数的计算及相 关性的检验。 、相关的概念 两个随机变量间的关系与函数关系不同。函数关系是 当变量X取定值x后变量Y一定有唯一确定的值y与之对应。 例如变量x、y都是非随机变量,设y=sin,则当x=π/2, 定取值1。然而,对随机变量X取定值x后,随机变量Y并 没有唯一确定的值与之对应,反之如此。 比如,人的身高与体重是两个随机变量,高度相同的人, 体重可以不尽相同;体重相同的人,其高度也不尽相同。但 般地讲身材较高的人,其体重相应较重;身材较矮的人 则体重较轻。身高与体重这类随机变量间的关系我们称 为相关关系
§9.1 相关分析 本节要求掌握相关的概念,样本相关系数的计算及相 关性的检验。 一、相关的概念 两个随机变量间的关系与函数关系不同。函数关系是 当变量X取定值x后,变量Y一定有唯一确定的值y与之对应。 例如变量x、y都是非随机变量,设y=sinx,则当x=π/2,y 一定取值1。然而,对随机变量X取定值x后,随机变量Y并 没有唯一确定的值与之对应,反之如此。 比如,人的身高与体重是两个随机变量,高度相同的人, 体重可以不尽相同;体重相同的人,其高度也不尽相同。但 一般地讲,身材较高的人,其体重相应较重;身材较矮的人 则体重较轻。身高与体重这类随机变量间的关系,我们称 为相关关系
当总体分布为正态时,相关系数确实是变量之间的相关 性的合理指标,而在非正态情况则只是线性相关程度的 度量。 两个随机变量X和Y之间的相关性,可由其总体相关系 数(或称 Pearson相关系数亦称完全相关系数描述: coV(A,Y ELCX-E(XDOY-E() =axan√x-E(X)Ey=C 其中cow(X,Y)为X,Y的协方差,2=EX-E(X 与G2=E[Y-E(Y)2分别为X和Y的方差
当总体分布为正态时,相关系数确实是变量之间的相关 性的合理指标,而在非正态情况则只是线性相关程度的 度量。 两个随机变量X和Y之间的相关性,可由其总体相关系 数(或称Pearson相关系数,亦称完全相关系数)描述: 其中cov(X,Y)为X,Y的协方差, 与 分别为X和Y的方差。 2 2 [ ( )] [ ( )] cov( , ) [( ( ))( ( ))] E X E X E Y E Y X Y E X E X Y E Y X Y X Y − − − − = = 2 2 E[X E(X)] X = − 2 2 E[Y E(Y)] Y = −
相关系数px是介于1和1之间的值不受X,Y的量纲影响 当pxy>0,X与Y呈正相关; 当xy0 plak +cbr+d XY (ab≠0) rr ab<0 (2)当Y为随机变量X的任一线性函数时,则x=士1,即 0 p(X,ax +6)= 1a<0
相关系数ρXY是介于–1和1之间的值,不受X,Y的量纲影响. 当ρXY >0 ,X与Y呈正相关; 当ρXY <0,X与Y呈负相关; 当 ρXY =0,X与Y呈零相关,即X与Y之间不存在线 性关系。 相关系数的大小反映的是两个变量间线性相关的程度。 线性相关系数具有如下性质: (1)坐标平移不改变X与Y的相关系数值,即 (2) 当Y为随机变量X的任一线性函数时,则ρXY =±1,即 ( 0) 0 0 ( , ) − + + = ab ab ab aX c bY d XY XY − + = 1 0 1 0 ( , ) a a X aX b
例1已知X~N(0,1),Y=X2,求Dxy 例2随机变量(X,Y)服从区域 D={(x,y)0<x<1,0<y<x 上的均匀分布,试求相关系数py
例1 已知X~N(0,1), Y=X2 ,求ρXY 。 例2 随机变量(X,Y)服从区域 上的均匀分布,试求相关系数ρXY 。 D ={(x, y)0 x 1, 0 y x}
样本相关系数 1、样本相关系数 在实际问题中,总体相关系数p一般是未知的。因此, 通常采用随机抽样的方法,从总体(即二维随机变量(X, Y))中独立地随机抽取n个个体,对每一个体同时观察 X和Y的取值,获得m对独立的观测数据(x2 i=1,2,,n,然后借助矩法估计去估计总体相关系数p, 即分别以 ∑(X1-X)2,-,∑(-Y)2 ∑(X1-Xy-Y) 和n 去估计VX,V(Y)和Cov(X,Y)。由此得出p的估计为 ∑(X1-XXy-Y) 称为样本 XY 相关系数 2(X,-x)212(x-y) YY
二、样本相关系数 1 、 样本相关系数 在实际问题中,总体相关系数ρ 一般是未知的。 因此, 通常采用随机抽样的方法,从总体(即二维随机变量(X, Y))中独立地随机抽取n个个体,对每一个体同时观察 X和Y的取值,获得n对独立的观测数据(xi ,yi) i=1,2,…,n ,然后借助矩法估计去估计总体相关系数ρ, 即分别以 和 去 估计V(X),V(Y) 和Cov(X,Y)。由此得出ρ的估计为 r称为样本 相关系数。 2 1 1 2 ( ) 1 1 ( ) , 1 1 = = − − − − n i i n i i Y Y n X X n = − − − n i Xi X Yi Y n 1 ( )( ) 1 1 X X YY X Y n i i n i i n i i i L L L X X Y Y X X Y Y r = − − − − = = = = 1 2 1 2 1 ( ) ( ) ( )( )
2、相关系数的大小和方向 设有二维随机变量(X,Y)。为了考察X与Y的关系,人们常 从总体中独立地随机抽取n个个体,对每一个体同时观察X和Y的取 值,获得n对独立的观测数据(x2y2)i=1,2,…,n并将这m对数据标绘 在平面直角坐标系中,对应的n个点构成一幅散点图。 下面给出6种常见的相关散点图。 (1)r=1 (2)r=-1 (3)0<r<1 (4)-1<r<0 (5)r=0 (6)r=0
2、相关系数的大小和方向 设有二维随机变量(X,Y)。为了考察X与Y的关系,人们常 从总体中独立地随机抽取n个个体,对每一个体同时观察X和Y的取 值,获得n对独立的观测数据(xi ,yi)i=1,2,…,n并将这n对数据标绘 在平面直角坐标系中,对应的n个点构成一幅散点图。 下面给出6种常见的相关散点图。 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • (1) r =1 (2) r = −1 (3) 0 r 1 (4) −1 r 0 (5) r = 0 (6) r = 0
从图中得知,散点的位置和向直线的集中的程度,正 好反映了相关系数的正负符号和大小。散点由左下向右 上的为正相关,此时,r0,它表示随X增大,Y未必增大, 但总体看确有X增大而Y呈直线上升的趋势。散点由左上 向右下分布为负相关,此时,rx2-nxLn=∑(y1-y)2=∑y2-ny2 i=1 ∑(x-x(y,-y)=∑xy1-nxy
从图中得知,散点的位置和向直线的集中的程度,正 好反映了相关系数的正负符号和大小。散点由左下向右 上的为正相关,此时,r>0,它表示随X增大,Y未必增大, 但总体看确有X增大而Y呈直线上升的趋势。散点由左上 向右下分布为负相关,此时,r<0,它表明从总体看随X 的增大Y呈直线下降趋势。散点分布不表现为这两种趋势 则为零相关,它包含Y与X毫无联系和Y与X之间是乎存 在某种对称曲线联系,这时随X的增大Y的上升趋势与下 降趋势相抵。散点分布集中在一条直线上时,r=±1。散 点越靠近一条直线, 越接近1,散点越远离一条直线, 越接近0。 相关系数的取值介于-1与1之间。 3、样本相关系数的计算 r r = = = − = − n i i n i xx i L x x x nx 1 2 2 1 2 ( ) = = = − = − n i n i yy i i L y y y ny 1 1 2 2 2 ( ) = = = − − = − n i n i xy i i i i L x x y y x y nx y 1 1 ( )( ) xx yy xy L L L r =
例2某试验室用大白鼠做实验,研究一种代乳粉的 营养价值。将10只体重不尽相同的大白鼠分笼饲 养提供充足的代乳粉和必要的饮用水。经一段时 间喂养后,记录进食量和体重增加量,获得原始数 据如下: 动物编号12345678 进食量820780720867690787934679639820 体重增量165158130180134167186145120158 求进食量x与体重增量y的相关系数r
例2 某试验室用大白鼠做实验,研究一种代乳粉的 营养价值。 将10只体重不尽相同的大白鼠分笼饲 养提供充足的代乳粉和必要的饮用水。经一段时 间喂养后,记录进食量和体重增加量,获得原始数 据如下: 动物编号 1 2 3 4 5 6 7 8 9 10 进食量 820 780 720 867 690 787 934 679 639 820 体重增量 165 158 130 180 134 167 186 145 120 158 求进食量x与体重增量y的相关系数r