相关与回归 世间万物是普遍联系的
相关与回归 世间万物是普遍联系的
关联、预测和一致性 分析一组观察个体的两个变量之间的 关系,三个主要目的为: 关联 预测 一致性 分类变量之间的关联 连续变量之间的关联一相关 correlation N线性回归 linear regression
关联、预测和一致性 分析一组观察个体的两个变量之间的 关系,三个主要目的为: 关联 预测 一致性 分类变量之间的关联 连续变量之间的关联—相关correlation 线性回归linear regression
相关 CORRELATION 相关系数—衡量两个连续变量之间关联的强度 Pearson's r ∑(x-x)y2-y) 1<r≤+1 D总体相关系数p的区间估计 2 loge+r) SE()=1/ 1=2-1960/7-3)=2=2+1.9607 e21+1e22+1 假设检验 t.S V=n-2
相关CORRELATION 相关系数—衡量两个连续变量之间关联的强度 Pearson‘s r 总体相关系数的区间估计 假设检验 ( )( ) ( ) ( ) ; 1 1 2 2 − + − − − − = r x x y y x x y y r i i i i ( ) ( ) ( ) 1 1 , 1 1 1.96 1 3 , 1.96 1 3 , 1 3 1 1 log 2 2 1 1 2 2 2 2 1 2 2 1 + − + − = − − = + − = − − + = z z z z e e e e e z z n z z n SE z n r r z ; 2 2 1 ~ ; 0 2 , = − − − = − = n n r t s s r t r r
应用相关时应注意的问题 题数据的分布 随机样本、双正态、椭圆形、散点图 相关的应用 正确应用要求数据为:随机样本、双正态、独立 误用 多重两两相关(多重相关,挑选有统计意义的相关) 重复测量数据的相关(与独立性冲突) 任意增加或减少对分析不利的样本 混合样本 基线值与相对于基线值的改变量的相关 部分与整体的相关
应用相关时应注意的问题 数据的分布 随机样本、双正态、椭圆形、散点图 相关的应用 正确应用要求数据为:随机样本、双正态、独立 误用 多重两两相关(多重相关,挑选有统计意义的相关) 重复测量数据的相关(与独立性冲突) 任意增加或减少对分析不利的样本 混合样本 基线值与相对于基线值的改变量的相关 部分与整体的相关
秩相关 RANK CORRELATION 题顺位之间的关联— Spearmans r和 Kendall's t R Pearson相关与 Spearman相关的区别与 联系 1参数方法与非参数方法。 计算方法相同,但对象不同。 散点图的椭圆形判别 Pearson'sr衡量的是直线相关, Spearman's s衡量的是更为广义的相关 p Spearman相关可用于双向有序分类变量之 间是否有关联的分析
秩相关RANK CORRELATION 顺位之间的关联—Spearman’s rs和Kendall’s Pearson相关与Spearman相关的区别与 联系 参数方法与非参数方法。 计算方法相同,但对象不同。 散点图的椭圆形判别。 Pearson’s r衡量的是直线相关,Spearman‘s rs衡量的是更为广义的相关。 Spearman相关可用于双向有序分类变量之 间是否有关联的分析
偏相关 PARTIAL CORRELATION 去除第三个变量对两变量之间相关的影响 X X y X y 偏相关的计算 例 rx=0.6 r=0.9 0.17 =0.6
偏相关PARTIAL CORRELATION 去除第三个变量对两变量之间相关的影响 偏相关的计算 x y z x 1 y rxy 1 z rxz ryz 1 x y z ( )( ) 2 2 . 1 xz 1 yz xy xz yz xy z r r r r r r − − − = 例 rxy=0.6 rxz=0.9 ryz=0.6 rxy.z0.17
相关的解释与表述 直线相关与曲线相关 1002—数据的变异可由相关解释的部分 N相关关系不提示因果关系 多个变量的两两相关分析 相关关系的推移 建议在做相关分析前作散点图 相关分析的结果表述:相关系数、P值、 样本含量 利用相关阵表示多个变量间的两两相关
相关的解释与表述 直线相关与曲线相关 100r2—数据的变异可由相关解释的部分 相关关系不提示因果关系 多个变量的两两相关分析 相关关系的推移 建议在做相关分析前作散点图 相关分析的结果表述:相关系数、P值、 样本含量 利用相关阵表示多个变量间的两两相关
回归 REGRESS|ON N变量x的变化导致变量y的多少变化。或者说变量y的 变化有多少可以用x的变化来解释 反应/结果/因变量一解释/预测/自变量 回归分析的目的是利用样本数据拟合一条直线,直 线上的点是对应于x的每一个观测的y的估计值 N回归直线/回归方程/斜率sope/截距 intercept y=a a+bx N最小二乘估计 Least Square Estimate Ny的估计值 fitted value与残差 residual 残差平方和残差方差拟合优度 goodness of fit 估计值的变异/回归直线的假设检验
回归REGRESSION 变量x的变化导致变量y的多少变化。或者说变量y的 变化有多少可以用x的变化来解释。 反应/结果/因变量—解释/预测/自变量 回归分析的目的是利用样本数据拟合一条直线,直 线上的点是对应于x的每一个观测的y的估计值。 回归直线/回归方程/斜率slope/截距intercept y=a+bx 最小二乘估计Least Square Estimate y的估计值fitted value与残差residual 残差平方和/残差方差/拟合优度goodness of fit 估计值的变异/回归直线的假设检验
应用回归分析的假设条件 对应于解释变量x的每一个观测值,反应 变量y应服从正态分布(正态性) 注:不同于相关分析,对x没有要求 对应于解释变量x的每一个观测值的y的变 异应相同(方差齐性) Nx与y呈线性相关(趋势性) 如果满足上述三个条件,残差应服从均数 为0的正态分布一残差图
应用回归分析的假设条件 对应于解释变量x的每一个观测值,反应 变量y应服从正态分布(正态性) 注:不同于相关分析,对x没有要求 对应于解释变量x的每一个观测值的y的变 异应相同(方差齐性) x与y呈线性相关(趋势性) 如果满足上述三个条件,残差应服从均数 为0的正态分布—残差图
回归的应用 由对应于x的观测值的y的估计值的分 布推断总体均数的可信区间带 N回归系数(斜率)的估计b 个体观测值的预测区间带 Ny的总变异=可由回归解释的变异+误差 方差分析表
回归的应用 由对应于x的观测值的y的估计值的分 布推断总体均数的可信区间带 回归系数 (斜率)的估计b 个体观测值的预测区间带 y的总变异=可由回归解释的变异+误差 方差分析表