@ 主要内容 掌粗关系的含义、计算方法和应用 第九讲 一元性回归的基本和伊的最小二鼎估方法 回归与相关分析 利用回归方选行 Regression Correlation Analysis 掌温多元能性回归分析的实方法 照什么是相关分析 简甚本概念 是对两个变间的关联〔联系)看度的度量 散点臣 ·相关系数计算公式 相关 ·正相关、负相关、不相关 由于变量的调测量等級不同,相关系数的计算方法也不同 ·相关分析与回归分析 ·决定系败 两个定距变量间的相关系:筒单积距 两个定序变量间的相关系放 邮级〔映)相关 散点图·正相关 篇散点图-负相关
1 Journalism & Communication School 新闻传播学院 回归与相关分析 Regression & Correlation Analysis 第九讲 主讲教师:沈浩 北京广播学院新闻传播学院 副教授 北京广播学院调查统计研究所 副所长 新闻传播学院 2 • 掌握相关系数的含义、计算方法和应用 • 掌握一元线性回归的基本原理和参数的最小二乘估计方法 • 掌握回归方程的显著性检验 • 利用回归方程进行预测 • 掌握多元线性回归分析的基本方法 • 回归诊断和哑变量回归分析 • 用SPSS进行回归分析 主要内容 新闻传播学院 3 什么是相关分析 是对两个变量间的关联(联系)程度的度量 相关系数 由于变量的测量等级不同,相关系数的计算方法也不同。 例如: 两个定距变量间的相关系数:简单积距/person相关系数 两个定序变量间的相关系数:Spearman等级(秩)相关系数 新闻传播学院 4 基本概念 • 散点图 • 相关系数计算公式 • 正相关、负相关、不相关 • 相关分析与回归分析 • 决定系数 • 假设检验-总体相关系数 新闻传播学院 5 ● ● ● ● ● ● ● ● ● ● ● 散点图 - 正相关 X Y 新闻传播学院 6 ● ● ● ● ● ● ● ● ● ● ● 散点图 - 负相关 X Y
散点图-不相关 散点图-不相关 如何度量这种变量之间的关系 简函数关系 在社金现象中,变量之间的关系大数可分为两种 画:查量之网故限一定的画形式形成的一对应关系 变和之有在画美系 且指定,就是唯一定的 函数关系 统计关系 例:aAt 统计关系 线性相关 变量间的直旗美系是变量间联系中录简单岭一种,相美系 两个变量之间存在某种依存关系,但变量Y并不是由 述变量同缄性联系度的 变量X唯一确定的,它们之间没有严格的一对应关 两个变量之间存在最性关系 系,统计上称为相关关系 最性相关 例:数入与禽品的支出的关系 适当的变量变换 谮文成绩与学成的关系 两个变量之闻着存在非能性关系
2 新闻传播学院 7 X Y ● ● ● ● ● ● ● ● ● ● ● 散点图 - 不相关 新闻传播学院 8 ● ● ● ● ● ● ● ● ● ● ● 散点图 - 不相关 ● ● ● ● ● ● ● ● ● ● ● X Y 新闻传播学院 9 如何度量这种变量之间的关系 在社会现象中,变量之间的关系大致可分为两种 函数关系 统计关系 确定的 随机的 新闻传播学院 10 y y y y y y y y y x y 函数关系 函数:变量之间按照一定的函数形式形成的一一对应关系。 变量X和Y之间存在函数关系时: X值一旦被指定,Y值就是唯一确定的 例:Y=10+1.6X Y=SinX Y=X2 Y=1/X Y=1/X Y=ex Y=LnX 新闻传播学院 11 统计关系 两个变量之间存在某种依存关系,但变量Y并不是由 变量X唯一确定的, 它们之间没有严格的一一对应关 系,统计上称为相关关系。 例:收入与食品的消费支出的关系 语文成绩与数学成绩的关系 y y y y y y y y y x y 新闻传播学院 12 线性相关 两个变量之间存在线性关系 线性相关 两个变量之间若存在非线性关系 曲线相关 适当的变量变换 变量间的直线关系是变量间联系中最简单的一种,相关系数就是 描述变量间线性联系程度的度量
相关关系的类型 简单积矩/相关系数 相关关系 度量两个定距测量尺度变量之间的线性关系 样本相关系r 线性相关非线性相关完全相关 正负 正负 体相关系数 样本相关系数r 简相关关系的测度 (相关系数取值及其意义) ∑(x-X0Y-1 ∑(X-x)>-Y) 盒负相美 完金正相美 1≤r≤ +0.5 +1.0 r=0不相关 p>0正相关正相关 r0 y<0 X和没有幼性系时,测点均匀地布在四个象限∑x9=0
3 新闻传播学院 13 相关关系的类型 相关关系 线性相关 非线性相关 正 相 关 正 相 关 负 相 关 负 相 关 完全相关 不相关 新闻传播学院 14 简单积矩/Person相关系数 样本相关系数 r 度量两个定距测量尺度变量之间的线性关系 总体相关系数 ρ 检验 新闻传播学院 15 ∑ ∑ ∑ − − − − ≡ 2 2 ( ) ( ) ( )( ) X X Y Y X X Y Y r 样本相关系数 r -1≤r≤1 r=0 不相关 r>0 正相关 强/弱正相关 r<0 负相关 强/弱负相关 新闻传播学院 16 相关关系的测度 (相关系数取值及其意义) -1.0 -0.5 0 +0.5 +1.0 完全负相关 无线性相关 完全正相关 负相关程度增加 r 正相关程度增加 新闻传播学院 17 样本相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● x y Ⅱ Ⅰ Ⅲ Ⅳ xy>0 xy<0 xy>0 xy<0 ∑xy的正和负表现了 X和Y相关的正和负 X和Y没有线性联系时,观测点均匀地散布在四个象限,∑ xy=0 ∑xy= ∑(x-X)(y-Y) 新闻传播学院 18 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● r=0.6 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●
相关系数r的直观意义 相关系数r的直观意义 线性相关一函数关系 篇相关系数r的直观意义 相关系数r的直观意义 r=-0.8 强负相关 相关系数r的直观意义 注意极端情况下的相关 不相关 0.8 异常强相关 相关系数:仅是线性美系的一科度量 不相类并不意味着没有美系
4 新闻传播学院 19 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y r=1.0 线性相关—函数关系 新闻传播学院 20 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y r= -1.0 新闻传播学院 21 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● r = -0.8 强负相关 新闻传播学院 22 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● r=0 新闻传播学院 23 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y r= 0 ●● ● 不相关 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 相关系数 r 仅是线性关系的一种度量, 不相关并不意味着没有关系。 新闻传播学院 24 注意极端情况下的相关 ● ● ● ● X Y ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● r = 0.8 异常强相关
相关关系的图示 总体相关系数p的检验 本相关系数 总体相关系数 p—(置信区间) 光全正性相关 完全负性精关 非性福关 原假设Hux (X和Y之间没有线性关系 正注相类 负性相快 利用t值检验 总体相关系数的值检验的步骤 加果总体相关系数p=0,样本相关系敷r的抽样 介布随着n的增大来接近子服从于自由度为a2 1.陈述原假设H:p=0〔X和Y没有性相关关系) 的t分布 2.计算t统计量 比较p值<0.05(95%儐度 t(n-2)= 5.对原假设做出判断—拒绝或接受 假相关/共变关系 其它相关系数 教师的工资收入饮料的消量 不同级别的变量要用不同类型的相关系数 各种相关系数的使用范围及计算公式 要儿的身高 时 小树的高度 解释相关系数的意义时一定慎,丁有实际意叉
5 新闻传播学院 25 相关关系的图示 y y y y y y y y y y y y 不相关 y y y y y y y y y 负线性相关 y y y y y y y y y 正线性相关 y y y y y y y y y y y y 非线性相关 y y y y y y y 完全正线性相关 完全负线性相关 y y y y y y y y y 新闻传播学院 26 总体相关系数ρ的检验 样本相关系数 总体相关系数 假设检验 原假设H0:ρ=0 (X和Y之间没有线性关系) r ρ (置信区间) 新闻传播学院 27 利用t 值检验 如果总体相关系数ρ=0,样本相关系数 r 的抽样 分布随着 n 的增大越来越接近于服从于自由度为 n-2 的 t 分布 2 1 ( 2 ) 2 − − − = n r r t n 新闻传播学院 28 总体相关系数的t 值检验的步骤 1. 陈述原假设H0:ρ=0(X和Y没有线性相关关系) 2. 计算 t 统计量 3. 求得 t 的概值 4. 比较p值<0.05 (95%置信度) 5. 对原假设做出判断——拒绝或接受 新闻传播学院 29 假相关/共变关系 教师的工资收入——饮料的消费量 婴儿的身高 时 间 小树的高度 解释相关系数的意义时一定要慎重,要有实际意义。 新闻传播学院 30 各种相关系数的使用范围及计算公式 不同级别的变量要用不同类型的相关系数 其它相关系数
秩相关系数 回归分析 适用预定序变X和定序变量Y的相关测量 为确定变量之间的联系 些变量的变化说 把变和Y的测量值转为等级值(秩) 明另一个变量的变化,井进一步对另一个变量的取 不存在等值 因〔 dependent variable};說耶其变化的、对其行的量 数据换算成秩 真量( nde pendent variable用以锐国变量的量 计算皮尔逊相关系数=斯皮尔曼秩相关系数 确定变量间的关系 「端回归模型的类型 映·确定曝整食变量…、对因变 是有影响的 一个自变量 商个及两个以上自变量 确定自变量是以什么形式影响因变量的 多元回归 即是马…什么形式的函数 确定描站和联系的关系式中的未知数 非能性 回归模型 简单回归模型 回归机型中所包括的变多 数学上下列方程在团形上是一条直线 围反映现实的可能性大 因变量 Ya+b》数 解国归分析的结果变得更为圆难 备个变量之间存在着许多相互关系
6 新闻传播学院 31 spearman spearman 秩相关系数R 适用预定序变量X和定序变量Y的相关测量 把变量X和Y的测量值转为等级值(秩) ( 1) 6 1 2 2 − = − ∑ n n D R 不存在等值 数据换算成秩 计算皮尔逊相关系数=斯皮尔曼秩相关系数 新闻传播学院 32 为确定变量之间的联系,用一些变量的变化说 明另一个变量的变化,并进一步对另一个变量的取 值进行预测,这就是回归分析。 因变量(dependent variable):要说明其变化的、对其进行预测的变量。 自变量 (independent variable):用以说明或预测因变量的变量 回归分析 新闻传播学院 33 确定变量间的关系 • 确定哪些自变量x1 、x2、x3、 …、xk对因变量y 是有影响的。 • 确定自变量是以什么形式影响因变量的, 即y是 x1 x2 x3 … xk 什么形式的函数。 • 确定描述y和xi 联系的关系式中的未知参数。 新闻传播学院 34 回归模型的类型 一个自变量 两个及两个以上自变量 回归模型 一元回归 多元回归 线性 回归 非线性 回归 线性 回归 非线性 回归 新闻传播学院 35 各个变量之间存在着许多相互关系 回归模型中所包括的变量越多 模型反映现实的可能性越大 解释回归分析的结果变得更为困难 回归模型 新闻传播学院 36 因变量 Y=a+bX 自变量 (预测变量) 截距 斜率 数学上下列方程在图形上是一条直线 简单回归模型
抽取一个样本,样本量为n 篇理想的线性回归 端(X,Y)散点图 简(x.Y)线性回归直线 篇X和Y线性回归—直线方程 X和Y线性回归 +bX
7 新闻传播学院 37 抽取一个样本,样本量为 n (X1,Y1) (X2,Y2) (X3,Y3) …… (Xi ,Yi ) (Xn,Yn) …… x Y 散点图 新闻传播学院 38 X Y ● ● ● ● ● 理想的线性回归 ● ● 新闻传播学院 39 X Y ● ● ● ● ● (X,Y) 散点图 ● ● ● 新闻传播学院 40 X Y ● ● ● ● ● (X,Y)线性回归直线 ● ● ● 新闻传播学院 41 X Y ● ● ● ● ● X和Y线性回归——直线方程 ● ● ● Y Yˆ = a + bX Yˆ d 新闻传播学院 42 X Y ● X和Y线性回归 d 2 2 ( ) ∧ ∑d =∑Y −Y ∧ Y Yi Y = a + bX ∧ ● ● ● ● ● ● ● ● ●
拟合直线的准则 最小二乘法则 使所有和最小 Y:测值 X-XCr-Y) ∑d2=∑(Y- 拟合值 ∑(X-x 最小二乘法则 截距: Y-bX 斜率b的意义 端回归分析的基本要点 Y=a+bX 1.回归目的:预测或解释 观察点团是回归分析的第 3.对回归分析的解释 △Y=b 尤其是提及因果关系时,必须非常慎 △X=1 个单位变化时,伴增着发生 Y:拟合 真实的回归直线 篇误差项e的来源 总体中X和Y的回归关系 测量误篮 Y=a+Br,+e Y=a+Br,+e 误差项 总体中距、针率和误差项往往是未知的 8
8 新闻传播学院 43 拟合直线的准则 使所有偏差和最小 最小二乘法则 Y:观测值 :拟合值 2 2 ( ) ∧ ∑d =∑ Y −Y ∧ Y 新闻传播学院 44 最小二乘法则 斜率: ∑ ∑ − − − = 2 ( ) ( )( ) X X X X Y Y b 截 距: a = Y − bX 新闻传播学院 45 斜率 b 的意义: Y:拟合值 X Y 0 ∧X=1 ∧Y=b Y=a+bX 斜率b: X有一个单位变化时,伴随着发生 的Y的变化量 新闻传播学院 46 回归分析的基本要点 1. 回归目的: 预测或解释 2. 观察散点图是回归分析的第一步 3. 对回归分析的解释 4. 尤其是提及因果关系时, 必须非常谨慎 新闻传播学院 47 真实的回归直线 ——总体中X和Y的回归关系 i i i Y =α + βX +e 误差项 新闻传播学院 48 误差项 e 的来源 i i i Y =α + βX +e 测量误差 自然现象和社会现象中 不可避免的固有变化性 总体中截距、斜率和误差项往往是未知的
用拟合回归直线估计真实的回归直线 y= a+ bX Y=a+ BX 副食不可 的比分制食比教可 篇总体斜率β的假设检验-置信区间 总体斜率B的假设检验概值 原假设:X和Y之间没有什么联系 原假设:x和Y之间没有什么联系 0是否在P的情度 统t=(估计值原假设值标准误差 为1-a的量情区闻之内 ′ss/∑x 在a的显着性水平下,斜率B与0的差异 在统计上是显著可分辨)的 查自由度为n2的t分布表求得单侧 置信区间、预测区间、回归方程
9 新闻传播学院 49 用拟合回归直线估计真实的回归直线 Y = α + βX Y = a + bX ∧ 估计 新闻传播学院 50 Y=α+βx Y=a+bx Y=α+βx Y=a+bx 当x的值非常接近时拟合不可靠 当x的值比较分散时拟合比较可靠 未知的真实回归 未知的真实回归 估计回归 估计回归 新闻传播学院 51 总体斜率β的假设检验 - 置信区间 0 是否落在β的置信度 为1-α的置信区间之内 原假设: X和Y之间没有什么联系, H0:β=0 H1: β=0 在α的显著性水平下,斜率β与0的差异 在统计上是显著(可分辨)的 No 新闻传播学院 52 统计量 t =(估计值-原假设值)/标准误差 总体斜率β的假设检验 - 概值 ∑ = = 2 S x b SE b t 查自由度为n-2的 t 分布表, 求得单侧概值 原假设: X和Y之间没有什么联系 H0:β=0 H1: β=0 新闻传播学院 53 置信区间、预测区间、回归方程 xp y x 0 1 ˆ ˆ yˆ = β + β x 0 1 ˆ ˆ ˆ = β + β y x ⎯x 预测上限 置信上限 置 预 信 测下限 下限 新闻传播学院 54 1 20 13 0 140 1 50 16 0 170 1 80 height 20. 0 30. 0 40.0 50. 0 60. 0 70. 0 80. 0 w e i g h t R Sq Quadratic =0.522
自变量为定类变量采用哑变量的方法 相关和回归—有着非常紧密的联系 ∑(X-xy-Y) ∑(x 老类变量有n个类别需n1个变量 相关和回归分析 简用方差分析的观点看待回归 Y的标准差 不能用国归解事的偏楚Y-y X的标准差 Y-Y-可以用国归解事的偏整 Y=a+bx p=0·B=0…·x和Y之间没有线性联系 应用于回归的方差分析 篇四种方法可以检验原假设: 警X和Y没有线性联系 总变差-可以由回归解释的变差+不能解释的变差 回归系数 相关系致 两变之 F=可以由回归解释的方差>拒绝H 不能解释的方差 B=0的F拉验 0的量信区间 ∑(X-) E
10 新闻传播学院 55 自变量为定类变量-采用哑变量的方法 Nx1 X1 2 1 1 0 男 女 只取两值 Nx1 1 0 0 Nx2 0 1 0 0 1 东部 Nx3 X1 3 2 0 0 中部 西部 有三类值 定类变量有n个类别需要n-1个哑变量 新闻传播学院 56 相关和回归——有着非常紧密的联系 ∑ ∑ ∑ − − − − ≡ 2 2 ( ) ( ) ( )( ) X X Y Y X X Y Y 相关系数 r 回归斜率 ∑ ∑ − − − = 2 ( ) ( )( ) X X X X Y Y b 新闻传播学院 57 x y S S b = r Y 的标准差 X 的标准差 相关和回归分析 ρ=0 β=0 X和Y之间没有线性联系 新闻传播学院 58 用方差分析的观点看待回归 ● 利用回归减小了偏差 Y = a + bX ) Y −Y =总偏差 Y −Y ) =可以用回归解释的偏差 不能用回归解释的偏差 可以解释的变差和不可以解释的变差 X Y Y Y ) − 新闻传播学院 59 应用于回归的方差分析 总变差 = 可以由回归解释的变差 + 不能解释的变差 拒绝H0 不能解释的方差 可以由回归解释的方差 F = > 2 2 2 2 ( ) t SE b S b X X F = = − = ∑ 新闻传播学院 60 四种方法可以检验原假设: X和Y没有线性联系 β=0 的 F 检验 β=0 的 t 检验 ρ=0 的 t 检验 ρ=0 的 置信区间 回归系数 相关系数 两变量之间