@ 主要内容 掌相关系的含义、计方法和皮用 第九讲 最小二乘叶方法 回归与相关分析 利用园归方霍进行 Regression Correlation Analysis 掌多元能性回归分析的基本方法 用行四归分析 什么是相关分析 基本概念 是对两个变间的关联〔那)翟度的度 ·散点图 ·相关系撒计算公式 粗关系 ·正相关、负相关、不相关 由于变量的测量等級不同,相关系的计算方法也不同。 ·相关分析与回归分析 级〔)相关撒 散点图·正相关 散点图负相关
1 Journalism & Communication School 新闻传播学院 回归与相关分析 Regression & Correlation Analysis 第九讲 主讲教师:沈浩 北京广播学院新闻传播学院 副教授 北京广播学院调查统计研究所 副所长 新闻传播学院 2 • 掌握相关系数的含义、计算方法和应用 • 掌握一元线性回归的基本原理和参数的最小二乘估计方法 • 掌握回归方程的显著性检验 • 利用回归方程进行预测 • 掌握多元线性回归分析的基本方法 • 回归诊断和哑变量回归分析 • 用SPSS进行回归分析 主要内容 新闻传播学院 3 什么是相关分析 是对两个变量间的关联(联系)程度的度量 相关系数 由于变量的测量等级不同,相关系数的计算方法也不同。 例如: 两个定距变量间的相关系数:简单积距/person相关系数 两个定序变量间的相关系数:Spearman等级(秩)相关系数 新闻传播学院 4 基本概念 • 散点图 • 相关系数计算公式 • 正相关、负相关、不相关 • 相关分析与回归分析 • 决定系数 • 假设检验-总体相关系数 新闻传播学院 5 ● ● ● ● ● ● ● ● ● ● ● 散点图 - 正相关 X Y 新闻传播学院 6 ● ● ● ● ● ● ● ● ● ● ● 散点图 - 负相关 X Y
散点图不相关 散点图不相关 如何度量这种变量之间的关系 函数关系 在社会现象中变量之间的关系大致可分为两种 画:变量之闻放一定的画形式形成的一对应关系 变和之同存在画关系时: 一旦教指定,冒就是一请定的 函数关系 统计关系 例:WA 嘀定的 随机的 统计关系 线性相关 变量闻的直最头系是变量同展系中录简的一种,美系数能是 两个变量之间存在某种依存关系,但变量Y拌不是由 裤遮变量性系灌度的度正 变量X唯确定的,它们之间没有严格的—对应关 两个变量之间存在能性关系 系,统计上称为相关关系 适当的变变换 谮文成与学成的关系 两个变量之间着存在非能性关系
2 新闻传播学院 7 X Y ● ● ● ● ● ● ● ● ● ● ● 散点图 - 不相关 新闻传播学院 8 ● ● ● ● ● ● ● ● ● ● ● 散点图 - 不相关 ● ● ● ● ● ● ● ● ● ● ● X Y 新闻传播学院 9 如何度量这种变量之间的关系 在社会现象中,变量之间的关系大致可分为两种 函数关系 统计关系 确定的 随机的 新闻传播学院 10 y y y y y y y y y x y 函数关系 函数:变量之间按照一定的函数形式形成的一一对应关系。 变量X和Y之间存在函数关系时: X值一旦被指定,Y值就是唯一确定的 例:Y=10+1.6X Y=SinX Y=X2 Y=1/X Y=1/X Y=ex Y=LnX 新闻传播学院 11 统计关系 两个变量之间存在某种依存关系,但变量Y并不是由 变量X唯一确定的, 它们之间没有严格的一一对应关 系,统计上称为相关关系。 例:收入与食品的消费支出的关系 语文成绩与数学成绩的关系 y y y y y y y y y x y 新闻传播学院 12 线性相关 两个变量之间存在线性关系 线性相关 两个变量之间若存在非线性关系 曲线相关 适当的变量变换 变量间的直线关系是变量间联系中最简单的一种,相关系数就是 描述变量间线性联系程度的度量
相关关系的类型 简单积矩/相关系数 相关关系 度量两个定距测量尺度变量之间的线性关系 线性相关非线性相关完金相关 样本相关系r 正负 总体相关系败p 样本相关系数r 「端相关关系的测度 (相关系教取值及其意义) ∑(x-X0Y-1 ∑(X-x)>-Y) 完意负粗关 无性相美 完金正相美 -1≤r≤1 +0.5 +1.0 r=0不相关 p>0正相关弱正相关 r0 阳Y相关的正和负 X和没有性联系时彩测点均匀地市四个象限,工对=0
3 新闻传播学院 13 相关关系的类型 相关关系 线性相关 非线性相关 正 相 关 正 相 关 负 相 关 负 相 关 完全相关 不相关 新闻传播学院 14 简单积矩/Person相关系数 样本相关系数 r 度量两个定距测量尺度变量之间的线性关系 总体相关系数 ρ 检验 新闻传播学院 15 ∑ ∑ ∑ − − − − ≡ 2 2 ( ) ( ) ( )( ) X X Y Y X X Y Y r 样本相关系数 r -1≤r≤1 r=0 不相关 r>0 正相关 强/弱正相关 r<0 负相关 强/弱负相关 新闻传播学院 16 相关关系的测度 (相关系数取值及其意义) -1.0 -0.5 0 +0.5 +1.0 完全负相关 无线性相关 完全正相关 负相关程度增加 r 正相关程度增加 新闻传播学院 17 样本相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● x y Ⅱ Ⅰ Ⅲ Ⅳ xy>0 xy<0 xy>0 xy<0 ∑xy的正和负表现了 X和Y相关的正和负 X和Y没有线性联系时,观测点均匀地散布在四个象限,∑ xy=0 ∑xy= ∑(x-X)(y-Y) 新闻传播学院 18 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● r=0.6 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●
相关系数r的直观意义 相关系数r的直观意义 编性相关一函数关系 相关系数r的直观意义 相关系数r的直观意义 0.8 强负相关 相关系数r的直观意义 注意极端情况下的相关 不相关 0.8 异常强相关 相关系数r仅是性美系約一种康量 不相美并不味着没有类系
4 新闻传播学院 19 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y r=1.0 线性相关—函数关系 新闻传播学院 20 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y r= -1.0 新闻传播学院 21 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● r = -0.8 强负相关 新闻传播学院 22 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● r=0 新闻传播学院 23 相关系数 r 的直观意义 ● ● ● ● ● ● ● ● ● ● ● X Y r= 0 ●● ● 不相关 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 相关系数 r 仅是线性关系的一种度量, 不相关并不意味着没有关系。 新闻传播学院 24 注意极端情况下的相关 ● ● ● ● X Y ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● r = 0.8 异常强相关
相关关系的图示 总体相关系数p的检验 样本相关系数 总体相关系数 →(置信区间) 光全正编性相关 完全负编性相关 非性相关 原假设Hu X和Y之间没有线性关系 正性相美 负端性相 不相 利用t值检验 总体相关系数的t值检验的步骤 如采总体相关系数p 本棚关系数r的抽样 分布蔑着n的增大越来是接近子服从子自由度为m2 1.陈述原假设H6p=0(X和Y没有线性相关关系) 的t分布 2.计算t统计量 3.求得t的新值 比较p值<0.05(95%儐度 t(n-2)= 5.对原假设做出判断—拒绝或接受 假相关/变关系 其它相关系数 教师的工资收入 不同级别的变量要用不同类型的相关系数 各种相关系数的使用范围及计算公式 要儿的身高 时闯 小树的高度 解率相关系的意义时一定灵慎,要有实际意义
5 新闻传播学院 25 相关关系的图示 y y y y y y y y y y y y 不相关 y y y y y y y y y 负线性相关 y y y y y y y y y 正线性相关 y y y y y y y y y y y y 非线性相关 y y y y y y y 完全正线性相关 完全负线性相关 y y y y y y y y y 新闻传播学院 26 总体相关系数ρ的检验 样本相关系数 总体相关系数 假设检验 原假设H0:ρ=0 (X和Y之间没有线性关系) r ρ (置信区间) 新闻传播学院 27 利用t 值检验 如果总体相关系数ρ=0,样本相关系数 r 的抽样 分布随着 n 的增大越来越接近于服从于自由度为 n-2 的 t 分布 2 1 ( 2 ) 2 − − − = n r r t n 新闻传播学院 28 总体相关系数的t 值检验的步骤 1. 陈述原假设H0:ρ=0(X和Y没有线性相关关系) 2. 计算 t 统计量 3. 求得 t 的概值 4. 比较p值<0.05 (95%置信度) 5. 对原假设做出判断——拒绝或接受 新闻传播学院 29 假相关/共变关系 教师的工资收入——饮料的消费量 婴儿的身高 时 间 小树的高度 解释相关系数的意义时一定要慎重,要有实际意义。 新闻传播学院 30 各种相关系数的使用范围及计算公式 不同级别的变量要用不同类型的相关系数 其它相关系数
秩相关系数 回归分析 适用预定序变量X和定序变量Y的相关测 把变X和Y的测量值转为等级值(秩) 明另一个变量的变化,并进一步对另一个变量的取 不存在等值 因史量 (dependent variable)說明其变化的、对选行的变量 量( independent variable用以说园变量的量 数据换算成秩 计算皮尔遷相关系数=斯皮尔曼秩相关系数 确定变量间的关系 回归模型的类型 映·确定曝食爽量、…、对因变 回归模型 是有影响的 一个食变量 两个及两个以上自变量 确定自变量是以什么形式影响因变量的, 多元回归 即是…什么形式的函数 确定描站和联系的关系式中的未知 非能性 回归模型 简单回归模型 回归型中所包括的变量多 数学上下列方程在形上是一条直线 反映现宾的可能性大 因量Y=a+bX 解回归分析的结暴变得更为固难 各个量之间存在着许多相互关系
6 新闻传播学院 31 spearman spearman 秩相关系数R 适用预定序变量X和定序变量Y的相关测量 把变量X和Y的测量值转为等级值(秩) ( 1) 6 1 2 2 − = − ∑ n n D R 不存在等值 数据换算成秩 计算皮尔逊相关系数=斯皮尔曼秩相关系数 新闻传播学院 32 为确定变量之间的联系,用一些变量的变化说 明另一个变量的变化,并进一步对另一个变量的取 值进行预测,这就是回归分析。 因变量(dependent variable):要说明其变化的、对其进行预测的变量。 自变量 (independent variable):用以说明或预测因变量的变量 回归分析 新闻传播学院 33 确定变量间的关系 • 确定哪些自变量x1 、x2、x3、 …、xk对因变量y 是有影响的。 • 确定自变量是以什么形式影响因变量的, 即y是 x1 x2 x3 … xk 什么形式的函数。 • 确定描述y和xi 联系的关系式中的未知参数。 新闻传播学院 34 回归模型的类型 一个自变量 两个及两个以上自变量 回归模型 一元回归 多元回归 线性 回归 非线性 回归 线性 回归 非线性 回归 新闻传播学院 35 各个变量之间存在着许多相互关系 回归模型中所包括的变量越多 模型反映现实的可能性越大 解释回归分析的结果变得更为困难 回归模型 新闻传播学院 36 因变量 Y=a+bX 自变量 (预测变量) 截距 斜率 数学上下列方程在图形上是一条直线 简单回归模型
抽取一个样本,样本量为n 理想的线性回归 点目 (X,Y)散点图 (X,Y)线性回归直线 x和Y线性回归直线方程 篇X和Y线性回归 +bX
7 新闻传播学院 37 抽取一个样本,样本量为 n (X1,Y1) (X2,Y2) (X3,Y3) …… (Xi ,Yi ) (Xn,Yn) …… x Y 散点图 新闻传播学院 38 X Y ● ● ● ● ● 理想的线性回归 ● ● 新闻传播学院 39 X Y ● ● ● ● ● (X,Y) 散点图 ● ● ● 新闻传播学院 40 X Y ● ● ● ● ● (X,Y)线性回归直线 ● ● ● 新闻传播学院 41 X Y ● ● ● ● ● X和Y线性回归——直线方程 ● ● ● Y Yˆ = a + bX Yˆ d 新闻传播学院 42 X Y ● X和Y线性回归 d 2 2 ( ) ∧ ∑d =∑Y −Y ∧ Y Yi Y = a + bX ∧ ● ● ● ● ● ● ● ● ●
拟合直线的准则 最小二乘法则 使所有偏差和最小 X-XCr-Y) ∑d2=∑(-Y)2,报合值 ∑(X-x 最小二乘法则 截距: Y-bX 斜率b的意义 端回归分析的基本要点 Y=a+bX 1.回归目的:预测或解释 观察散点图是回归分析的第 3.对回归分析的解释 尤其是提及因果关系时,必须非常谨慎 个单位变化时,伴斷着发生 的Y的变化量 拟合 真实的回归直线 误差项e的来源 总体中X和Y的回归关系 测误 Y;=a+r,+e Y=a+Br,+e 误差项 总体中我距、斜率和误是項往往是木知的 8
8 新闻传播学院 43 拟合直线的准则 使所有偏差和最小 最小二乘法则 Y:观测值 :拟合值 2 2 ( ) ∧ ∑d =∑ Y −Y ∧ Y 新闻传播学院 44 最小二乘法则 斜率: ∑ ∑ − − − = 2 ( ) ( )( ) X X X X Y Y b 截 距: a = Y − bX 新闻传播学院 45 斜率 b 的意义: Y:拟合值 X Y 0 ∧X=1 ∧Y=b Y=a+bX 斜率b: X有一个单位变化时,伴随着发生 的Y的变化量 新闻传播学院 46 回归分析的基本要点 1. 回归目的: 预测或解释 2. 观察散点图是回归分析的第一步 3. 对回归分析的解释 4. 尤其是提及因果关系时, 必须非常谨慎 新闻传播学院 47 真实的回归直线 ——总体中X和Y的回归关系 i i i Y =α + βX +e 误差项 新闻传播学院 48 误差项 e 的来源 i i i Y =α + βX +e 测量误差 自然现象和社会现象中 不可避免的固有变化性 总体中截距、斜率和误差项往往是未知的
用拟合回归直线估计真实的回归直线 y= a+ bX a◆B a◆B Y=a+ BX 删微救食不可 城分食比可 总体斜率B的假设检验置信区间 总体斜率β的假设检验-概值 原假设:X和Y之间没有什么联系 原假设:X和Y之间没有什么联系 H0:B=0H:B40 是否灌在P的量懵度 统计量t=(估计值原假设值标准误差 为1-a的信区闻之内 ′ss/∑x 在a的显著性水平下,斜率β与0的差异 在统计上是显着(可分辨)的 查自由度为a2的t分布求单侧筐 置信区间、预测区间、回归方程 ↓(画
9 新闻传播学院 49 用拟合回归直线估计真实的回归直线 Y = α + βX Y = a + bX ∧ 估计 新闻传播学院 50 Y=α+βx Y=a+bx Y=α+βx Y=a+bx 当x的值非常接近时拟合不可靠 当x的值比较分散时拟合比较可靠 未知的真实回归 未知的真实回归 估计回归 估计回归 新闻传播学院 51 总体斜率β的假设检验 - 置信区间 0 是否落在β的置信度 为1-α的置信区间之内 原假设: X和Y之间没有什么联系, H0:β=0 H1: β=0 在α的显著性水平下,斜率β与0的差异 在统计上是显著(可分辨)的 No 新闻传播学院 52 统计量 t =(估计值-原假设值)/标准误差 总体斜率β的假设检验 - 概值 ∑ = = 2 S x b SE b t 查自由度为n-2的 t 分布表, 求得单侧概值 原假设: X和Y之间没有什么联系 H0:β=0 H1: β=0 新闻传播学院 53 置信区间、预测区间、回归方程 xp y x 0 1 ˆ ˆ yˆ = β + β x 0 1 ˆ ˆ ˆ = β + β y x ⎯x 预测上限 置信上限 置 预 信 测下限 下限 新闻传播学院 54 1 20 13 0 140 1 50 16 0 170 1 80 height 20. 0 30. 0 40.0 50. 0 60. 0 70. 0 80. 0 w e i g h t R Sq Quadratic =0.522
自变量为定类变量采用哑变量的方法 篇相关和回归有着非常紧密的联系 ∑(X-xy-Y) ∑(x 定类变量有n个类别备要n1个变量 相关和回归分析 奥用方差分析的观点看待回归 Y的标准差 不能用国归事的偏雄Y- X的标准差 Y-Y-可以用丽归新事的整 Y=a+bx →B=0…·x和Y之间没有编性联系 应用于回归的方差分析 四种方法可以检验原假设: X和Y没有线性联系 总变差-可以由回归解释的变差+不能解释的变差 回归系数 相关系数 两之闻 可以由回归解释的方差 F=一不能解释的方差>拒绝H B=0的F捡验 p=0的置信区间 =0的t检险 b2∑(x-x)b E
10 新闻传播学院 55 自变量为定类变量-采用哑变量的方法 Nx1 X1 2 1 1 0 男 女 只取两值 Nx1 1 0 0 Nx2 0 1 0 0 1 东部 Nx3 X1 3 2 0 0 中部 西部 有三类值 定类变量有n个类别需要n-1个哑变量 新闻传播学院 56 相关和回归——有着非常紧密的联系 ∑ ∑ ∑ − − − − ≡ 2 2 ( ) ( ) ( )( ) X X Y Y X X Y Y 相关系数 r 回归斜率 ∑ ∑ − − − = 2 ( ) ( )( ) X X X X Y Y b 新闻传播学院 57 x y S S b = r Y 的标准差 X 的标准差 相关和回归分析 ρ=0 β=0 X和Y之间没有线性联系 新闻传播学院 58 用方差分析的观点看待回归 ● 利用回归减小了偏差 Y = a + bX ) Y −Y =总偏差 Y −Y ) =可以用回归解释的偏差 不能用回归解释的偏差 可以解释的变差和不可以解释的变差 X Y Y Y ) − 新闻传播学院 59 应用于回归的方差分析 总变差 = 可以由回归解释的变差 + 不能解释的变差 拒绝H0 不能解释的方差 可以由回归解释的方差 F = > 2 2 2 2 ( ) t SE b S b X X F = = − = ∑ 新闻传播学院 60 四种方法可以检验原假设: X和Y没有线性联系 β=0 的 F 检验 β=0 的 t 检验 ρ=0 的 t 检验 ρ=0 的 置信区间 回归系数 相关系数 两变量之间