第十三章 回归与相关 第一节直线相关 一、直线相关的概念 直线相关(linear correlation)是描述两个变 量间互依关系的一种统计分析方法。此法又称简 单相关(simple correlation)。此法通过直线相关 系数(linear correlation coefficient)描述两个变量 直线关系的大小和方向。此法要求两个变量服从 双变量正态分布。 吉林大学远程教育学院
2 吉林大学远程教育学院 第十三章 回归与相关 第二节 直线相关 一、直线相关的概念 直线相关(linear correlation)是描述两个变 量间互依关系的一种统计分析方法。此法又称简 单相关(simple correlation)。此法通过直线相关 系数(linear correlation coefficient)描述两个变量 直线关系的大小和方向。此法要求两个变量服从 双变量正态分布
相关系数又称积差相关系数,也称Pearson相 关系数,用r表示。它是说明具有直线送系的两个 变量间相关关系的密切程度和相关方向的指标。 用r的大小表示密切程度,用的正负表示相关方 向。其计算公式为: ∑(X-XY-T) 公式(13.8) V∑(x-)∑(Y-7)2V1xn 相关系数无单位,其取值范围为-1≤≤1。r 值为正表示正相关,为负表示负相关,为零表示 零相关。r-1为完全正相关,r=-1为完全负 吉林大学远程教育学院
3 吉林大学远程教育学院 相关系数又称积差相关系数,也称Pearson相 关系数,用r 表示。它是说明具有直线关系的两个 变量间,相关关系的密切程度和相关方向的指标。 用r 的大小表示密切程度,用r 的正负表示相关方 向。其计算公式为: X X YY X Y l l l X X Y Y X X Y Y r = − − − − = 2 2 ( ) ( ) ( )( ) 公式(13.8) 相关系数无单位,其取值范围为-1≤r≤1。r 值为正表示正相关,为负表示负相关,为零表示 零相关。r = 1为完全正相关,r = -1为完全负
相关。相关系数r的直观含义见下图13-7a、图13 7b。 二、相关系数的计算 例13,4根据例13.1妇女年龄与收缩压的数据计算二者的相 关系数。 1.先根据原始数据绘制散点图,大致判断两变 量之间是否有直线趋势。 本例的散点图见图131,可见年龄与收缩压呈 直线趋势,故可进行直线相关分析。 吉林大学远程教育学院
4 吉林大学远程教育学院 相关。相关系数r 的直观含义见下图13-7a、图13- 7b 。 二、相关系数的计算 例13.4 根据例13.1妇女年龄与收缩压的数据计算二者的相 关系数。 1. 先根据原始数据绘制散点图,大致判断两变 量之间是否有直线趋势。 本例的散点图见图13-1,可见年龄与收缩压呈 直线趋势,故可进行直线相关分析
2.计算相关系数。由前面计算可知: Ix1550.7,1yy=44.04,1广233.7,代入公式13.8) 得相关系数为: 233.7 =0.8943 J1550.7×44.04 三、相关系数的假设检验 前面所求相关系数,是样本相关系数,它实为 总体相关系数p的估计值。我们知道即使X、的 总体相关系数为零,由于抽样误差的存在,样 吉林大学远程教育学院
5 吉林大学远程教育学院 2. 计算相关系数。由前面计算可知: lXX=1550.7,lYY=44.04,lXY=233.7,代入公式(13.8) 得相关系数为: 0.8943 1550.7 44.04 233.7 = = = X X YY X Y l l l r 三、相关系数的假设检验 前面所求相关系数r 是样本相关系数,它实为 总体相关系数ρ 的估计值。我们知道即使X、Y的 总体相关系数ρ为零,由于抽样误差的存在,样
本相关系数,也不一定为零。因此需要对相关系数 r进行假设检验,以此推断X、是否存在直线相关 关系。常用检验,其检验统计量公式如下: r-0 (n-2)r2 S I-r 1- 公式(13.9) n-2 式中S,为样本相关系数的标准误,自由度V=n-2。 例13.5就例13.4求得的r值,检验妇女年龄与收缩压间是 否存在直线相关关系。 吉林大学远程教育学院
6 吉林大学远程教育学院 本相关系数r 也不一定为零。因此需要对相关系数 r 进行假设检验,以此推断X、Y是否存在直线相关 关系。常用t 检验,其检验统计量公式如下: 2 2 2 1 ( 2) 2 1 0 r n r n r r S r t r − − = − − = − = 公式(13.9) 式中Sr 为样本相关系数的标准误,自由度ν=n-2。 例13.5 就例13.4求得的r 值,检验妇女年龄与收缩压间是 否存在直线相关关系
①检验假设 H,:p=0即年龄与收缩压之间无直线相关关系 H1:≠0即年龄与收缩压之间有直线相关关系 =0.05 ②计算检验统计量本例n=12,r=0.8943, 代入公式(13.9)求t。 (12-2)×0.89432 =6.32 V1-0.89432 吉林大学远程教育学院
7 吉林大学远程教育学院 H0 : ρ = 0 即年龄与收缩压之间无直线相关关系 H1 : ρ≠0 即年龄与收缩压之间有直线相关关系 ① 检验假设 α= 0.05 ② 计算检验统计量 本例n = 12, r = 0.8943, 代入公式(13.9)求t 。 6.32 1 0.8943 (12 2) 0.8943 1 ( 2) 2 2 2 2 = − − = − − = r n r t
③确定P值和作出推断结论 由a=0.05,v=n-2=12-2=10,查t界值表 得tv=t0.0s,10-2.228,今求得=6.32>2.228 则P<0.05,按a=0.05水准拒绝H0,可认为妇女 年龄与收缩压之间有直线相关关系。 第三节直线相关与回归分析的关系 一、直线回归与相关的区别和联系 8 吉林大学远程教育学院
8 吉林大学远程教育学院 由α=0.05,ν=n-2=12-2=10,查t 界值表 得t α,ν=t 0.05,10=2.228,今求得t=6.32>2.228, 则P<0.05,按α=0.05水准拒绝H0,可认为妇女 年龄与收缩压之间有直线相关关系。 ③ 确定P值和作出推断结论 第三节 直线相关与回归分析的关系 一、直线回归与相关的区别和联系
回归与相关是两个既有区别又有联系的统计 分析方法,若研究目的是想定量地描述两个变量 间的依存关系,常用来由一个变量的数值去推算 另一个变量的数值,则应作回归分析;若目的是 想定量地描述两个变量间互依关系的密切程度和 方向,则应作相关分析。 ()区别 1.资料要求不同回归要求应变量Y服从正态分 布,X是可精确测量或严格控制的变量,一般称江 型回归。相关要求两个变量服从双变量正 吉林大学远程教育学院
9 吉林大学远程教育学院 回归与相关是两个既有区别又有联系的统计 分析方法,若研究目的是想定量地描述两个变量 间的依存关系,常用来由一个变量的数值去推算 另一个变量的数值,则应作回归分析;若目的是 想定量地描述两个变量间互依关系的密切程度和 方向,则应作相关分析。 ㈠ 区别 1. 资料要求不同 回归要求应变量Y 服从正态分 布,X 是可精确测量或严格控制的变量,一般称I 型回归。相关要求两个变量服从双变量正
态分布,此时若作回归分析,称Ⅱ型回归。 2.分析目的不同回归用来描述两个变量间的 依存关系,相关用来描述两个变量间的互依关系 白)联系 1.符号相同对一组数据若同时计算r与b,它 们的正负号相同。r为正说明两个变量间的相互 关系是同向变化的;b为正说明X增(减)一个单位 ,Y平均增(减)b个单位。 10 吉林大学远程教育学院
10 吉林大学远程教育学院 态分布,此时若作回归分析,称II 型回归。 2. 分析目的不同 回归用来描述两个变量间的 依存关系,相关用来描述两个变量间的互依关系 。 ㈡ 联系 1. 符号相同 对一组数据若同时计算r 与b , 它 们的正负号相同。 r 为正说明两个变量间的相互 关系是同向变化的;b 为正说明X 增(减)一个单位 ,Y 平均增(减) b 个单位
火次.假设检验等价对同一样本,样本回归系数b 的t检验与样本相关系数r的t检验的t值相等,即16 =(,。由于b的假设检验较繁,故在实际应用中常 用r的t检验代替。 3.用回归解释相关r的平方称为决定系数( coefficient of determination r2= SS回 SS 公式(13.10) lx·ln 上式说明当SS总固定不变时,回归平方和SS回 的大小决定了的大小。SS回越接近SS总,则2越 吉林大学远程教育学院
11 吉林大学远程教育学院 2. 假设检验等价 对同一样本,样本回归系数b 的t 检验与样本相关系数r 的t 检验的t 值相等,即tb = t r 。由于b 的假设检验较繁,故在实际应用中常 用r 的t 检验代替。 3. 用回归解释相关 r 的平方称为决定系数( coefficient of determination) 总 回 SS SS l l l l l l r YY X Y X X X X YY X Y = = = / 2 2 2 公式(13.10) 上式说明当SS总固定不变时,回归平方和SS回 的大小决定了r 2 的大小。SS回越接近SS总,则r 2 越