女名何+大手金正业 第+一 线性相关与回归 第二节高性物兵 ner CorreationRegreso) 第红节触意率须 氨除面手条 大学精品复用若一教华女标一、型 二·气祖有头喜微夏计票 上、和再多成好复说妆情 雪。成好高性有兵众所齿融意喜理 野花角个支贵XY量上号有秀满, 。势点:此计兵象 生行 杂经有系不中LT区有有
第十一章 线性相关与回归 (Linear Correlation & Regression ) 预防医学系 2 课程设置 课时: 理论课: 22学时 实习课: 10学时 联系方式:预防医学系卫生统计学教研室 Tel.: 2057153 Baidu贴吧:yfyxx (讨论、答疑、作业) http://tieba.baidu.com/f?kw=yfyxx# 大学精品课程网站→教学资源→(ppt、wmv) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 2 线性回归与相关 第一节 线性回归 第二节 线性相关 第三节 注意事项 3 一、线性相关的概念 二、线性相关系数及计算 三、相关系数的假设检验 四、进行线性相关分析的注意事项 线性相关(linear correlation) 4 Karl Pearson 线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性质可 由散点图直观的说明。 目的: 研究 两个变量X,Y数量上的相关关系。 特点:统计关系 一、线性相关的基本概念 5 一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标 系中把每对(Xi,Yi)值所代表的点绘出来,形成散点 图。 图11-2 11名男青年身高与前臂长散点图 6 7 若一个变量X由小到大(或由大到小),另 一变量Y亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为 共变,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青 年身材高,前臂亦长,说明身高与前臂长之间存 在线性相关关系我们把这种关系称为直线相关。 8 1、正相关:y随x的增大而增大,有直线上升的趋 势,x与y的变化是同向的; 2、负相关:y随x的增大而减少,有直线下降的 趋势,x与y的变化是反向的; 3、零相关:无论x增大或减少,y的大小均不受 影响; 4、非线性相关:点的排列呈现某种曲线趋势; 两变量间线性相关的性质和密切程度,可以用相 关系数 r 表示 9
…内头条发的老义与计茅 x-Σw- 美香相美?方向和帝切程成?」 上,和头泰发尚假该妆信 r-? -2
线性相关用于双变量正态资料。它的性质可由散点图直 观地说明。散点图中点的分布即线性相关的方向和相关之 间的密切程度,可分为以下几种情况: 1.正相关 2.负相关 3.无相关 10 y x r =-1 y x r =-0.8 y x r =-0.6 y x r =-0.4 11 相关系数的意义与计算 1、意义:相关系数(correlation coefficient)又称Pearson积 差相关系数,用来说明两个随机变量间线性相关关系 的密切程度与相关方向。 r表示样本相关系数,ρ表示其总体相关系数。 2. 计算:样本相关系数的计算公式为 xx yy xy L L L X X Y Y X X Y Y r 2 2 ( ) ( ) ( )( ) 12 相关系数的特点 1.相关系数r是一个无量纲的数值,且 -1≤r≤1; 2.r>0为正相关,r<0为负相关; 3./r/越接近于1,说明相关性越好./r/越接 近于0,说明相关性越差. 13 例11-2 从男青年总体中随机抽取11名男青年组成 样本,分别测量每个男青年的身高和前臂长, 身高和前臂长均以cm为单位,测量结果如下表 所示,试计算身高与前臂长之间的相关系数。 编号 身高(cm) 前臂长(cm) XY X2 Y2 (X) (Y) 1 170 47 7990 28900 2209 2 173 42 7266 29929 1764 3 160 44 7040 25600 1936 4 155 41 6355 24025 1681 5 173 47 8131 29929 2209 6 188 50 9400 35344 2500 7 178 47 8366 31684 2209 8 183 46 8418 33489 2116 9 180 49 8820 32400 2401 10 165 43 7095 27225 1849 11 166 44 3174 28561 2116 合计 1891 500 86185 326081 22810 14 是否相关?方向和密切程度? 15 本例: X=1891 2 X =326081 Y =500 2 Y =22810 n 11 XY =86185 2 2 2 ( ) 1891 326081 1000.909 11 XX X l X n 2 2 2 ( ) 500 22810 82.727 11 YY Y l Y n ( )( ) 1891 500 86185 230.455 11 XY X Y l XY n 230.455 0.8009 1000.909 82.727 r r = ? r = ? 通过样本计算的 r 值存在抽样误差, 只有假设检验才能推断 16 总体相关程度及方向。 三、相关系数的假设检验 与前面讲的其它统计量一样,根据样本资料计算出 来的相关系数同样存在抽样误差。即假设在一个X与Y 无关总体中作随机抽样,由于抽样误差的影响,所得 的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系, 仍需根据作总体相关系数ρ是否为零的假设检验。 17 常用的检验方法有两种: 1.按自由度直接查附表11的界值表,得到P 值。 (略) n 2 1 r r 0 t 2 r n 2 2.用假设检验法,计算统计量 ,其公式为: 18
3)典定P值,作出络论 啊,设行高性物其会新骑丝套率项 。-0.年青多量是用不海点g维的保 香t界值表。得t。 -=3.690 0,中接雪学长之a高有系系 t>to5ngP<0.005,框绝Hg,格 爱出,认为男青年身高与首臂长之网 -1-2 。仪用相关的情形 。,,用相关的情形 。适行高楼有兵◆新皆丝客率有 ⊙ 甲、成行岛根和兵◆新的性含李项 二节性回加(linear regre 一,高性两加路基绿桃合 3.Lb:-0.08,P<。海:7 二。高做商加中复萄外界
19 对例11-2计算得到的 r 值进行假设检验: (1)建立检验假设 H0 :ρ=0,即身高与前臂长之间不存在线性相关系 H1:ρ≠0,即身高与前臂长之间存在线性相关关系 α=0.05 (2)计算统计量 2 0 8009 0 4 013 1 0 8009 11 2 | . | t . ( . ) 11 2 9 (3)确定 P 值,作出结论 查 t 界值表,得t0.005/2,9=3.690, t>t0.005/2,9,P<0.005,拒绝H0,接 受H1 ,认为男青年身高与前臂长之间 存在正相关关系。 四、进行线性相关分析的注意事项 ⒈ 线性相关表示两个变量之间的相互关系是双向 的,分析两个变量之间到底有无相关关系可首 先绘制散点图,散点图呈现出直线趋势时,再 作分析。 ⒉ 相关系数的计算只适用于双变量正态分布的 情形,如果资料不服从正态分布,应先通过变量 变换,使之正态化,再根据变换值计算相关系数, 如果不符合条件应进行秩相关计算。 21 慎用相关的情形 22 (a)异常值 (b)分层资料 (c) 、(d)分层资料 慎用相关的情形 23 四、进行线性相关分析的注意事项 ⒊ 依据公式计算出的相关系数仅是样本相 关系数,它是总体相关系数的一个估计值, 与总体相关系数之间存在着抽样误差,要 判断两个事物之间有无相关及相关的密切 程度,必须作假设检验。 24 四、进行线性相关分析的注意事项 ⒋ 相关分析是用相关系数来描述两个变量间相互 关系的密切程度和方向,而两个事物之间的关 系既可能是依存因果关系,也可能仅是相互伴 随的数量关系。决不可因为两事物间的相关系 数有统计学意义,就认为两者之间存在着因果 关系,要证明两事物间确实存在因果关系,必 须凭借专业知识加以阐明。 25 思考题: 1. 已知:r=0.8 ,结论:两变量密切相关。 2.已知:r=0.8,P<α,结论:两变量密切相关。 3.已知:r=0.08,P<α,结论:? 26 一、线性回归的基本概念 二、线性回归方程的计算 三、线性回归方程的假设检验 四、进行线性回归分析的注意事项 第二节 线性回归(linear regression) 27
历史背景: 33.73+0.516 个 女 果高人山特为兴成名者本平曲并票,明 数:兔计长象。X值Y随海展始兵集, 充儿查年每与体重的其泰普。 不两子一能款季上的XY骑西款养染 1,a汤国物直高在Y利上的我延eee 日≥0,表帝直与k轴的史在豪A 2b为四如泰k,聊直岛的外本 a-7 上动 务号个的的
英国人类学家 F.Galton首次在《自然遗传》 一书中,提出并阐明了“相关”和“相关系 数”两个概念,为相关论奠定了基础。其后, 他和英国统计学家 Karl Pearson对上千个家庭 的身高、臂长等指标做了测量,发现: 历史背景: 28 Francis Galton 儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线性关系: 也即高个子父代的子代在成年之后的身高平均 来说不是更高,而是稍矮于其父代水平,而矮 个子父代的子代的平均身高不是更矮,而是稍 高于其父代水平。Galton将这种趋向于种族稳 定的现象称之“回归”。 ˆY X 33.73 0.516 29 30 “回归”已成为表示变量之间某种数 量依存关系的统计学术语,并且衍生出 “回归方程” “回归系数”等统计学概念。如研究糖 尿病人血糖与其胰岛素水平的关系,研 究儿童年龄与体重的关系等。 一、线性回归的基本概念 线性回归方程(linear regression equation ): 用于描述两个变量间依存变化的数量关系。 也称简单回归(simple regression)。 32 X-自变量(independent variable); Y-应变量(dependent variable); - 给定X 时Y 的估计值; a - 截距(intercept)或常数项(constant term); b - 回归系数(regression coefficient)。 目的:研究应变量Y对自变量X的数量依存关系。 特点:统计关系。 X值和Y值均数的关系, 不同于一般数学上的X 和Y的函数关系 33 34 2 2 2 XYXX X Y XY l ( X X )(Y Y ) n b l ( X X ) X X n a Y bX 表示X与Y 的离均差积和; 表示X的离均差平方和; 和 分别为两个变量的均值。 XY l XX l X Y 1.a 为回归直线在 Y 轴上的截距(intercept) a > 0,表示直线与纵轴的交点在原点 的上方 a 0,直线从左下方走向右上方,Y 随 X 增大而增大; b<0,直线从左上方走向右下方,Y 随 X 增大而减小; b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X 每增加(减) 一个单位,Y 平均改变b个单位 36
∑x-3n.4∑x2=2817X=41 ∑y-25.39∑y=2192420 F=2860∑X灯-23475 三,感性四物方雅的银设检脸 专维告套达因气混台情 a-了-T-2-4g-l -nws…L5n 则阿归才理为: 了-13.49+994 海女尚发春学条 9-27 002公
二、线性回归方程的计算 自变量? 因变量? 37 表11-1 饮水氟含量(mg/L)与骨X线改变指数 调查 对象 饮水氟含量 (X) 骨X线改变 指数(Y) XY X2 Y2 1 0.24 0.40 0.10 0.06 0.16 2 0.80 0.56 0.45 0.64 0.31 3 1.00 1.91 1.91 1.00 3.65 4 1.80 0.86 1.55 3.24 0.74 5 3.12 5.25 16.38 9.73 27.56 6 4.10 3.40 13.94 16.81 11.56 7 5.60 58.38 326.93 31.36 3408.22 8 10.27 70.33 722.29 105.47 4946.31 9 10.81 116.30 1257.20 116.86 13525.69 合计 37.74 257.39 2340.75 285.17 21924.20 (1)绘制散点图: 由散点图可见,饮水氟含量与骨X线改变指数之间 存在着直线趋势,可以考虑建立二者之间的线性 回归方程。 (2)计算回归系数与常数项 X . 37 74 2 X . 285 17 X . 4 19 Y . 257 39 2 Y . 21924 20 Y . 28 60 XY . 2340 75 本例: 2 2 2 37 74 257 39 2340 75 9 1261 43 9 940 37 74 126 91 285 17 9 XYXX X Y . . XY . l n . b . l X . . X . n a Y bX . . . . 28 60 9 940 4 19 13 049 代入公式得: 则回归方程为: 13 049 9 94 Y . . X ˆ 三、线性回归方程的假设检验 对线性回归方程要进行假设检验,就是要 检验b是否为β=0的总体中的一个随机样 本。该假设检验通常用方差分析或者t 检验, 两者的检验效果等价。 41 对例11-2的回归方程用t 检验进行假设检验 (1)建立假设检验 H0:β=0 H0:β≠0 α=0.05 (2)计算统计量 (3)确定P值作结论 t>t0.01/2(7)=3.499,, P <0.01,拒绝H0,接受H1,认为饮 水氟含量与成人骨X线改变指数之间存在线性回归关系。 42 2025 07 17 01 7 Y X . S . 17 01 1 510 126 91 b . S . . 9 94 0 6 58 1 51 | . | t . . 9 2 7 四、进行线性回归分析的注意事项 ⒈ 两个内在有联系的变量,进行回归分析才有意义。 ⒉ 如果两个变量存在依存因果的关系,那么应该以“因” 的变量为X ,以“果”的变量为Y 。如果变量之间并无 因果关系,以易于测定、较为稳定或变异较小者为X 。 ⒊ 在回归分析中,因变量是随机变量,自变量既可以是 随机变量(II型回归模型,两个变量应该都服从正态 分布),也可以是给定的量(I型回归模型,与每个X 取值相对应的变量Y必须服从正态分布),如果数据 不符合要求,在进行回归分析前,须进行变量变换。 43 四、进行线性回归分析的注意事项 ⒋ 回归方程建立后必须作假设检验,只有经假设检 验拒绝了无效假设,回归方程才有意义。 ⒌ 使用回归方程计算估计值时,不可把估计的范围 扩大到建立方程时的自变量的取值范围之外。 44 一、线性回归分析的应用 1. 线性回归方程可应用于以下三个方面: ① 分析两个变量之间是否存在线性依存关系; ② 利用回归方程由自变量 X 对应变量Y 进行估计,必 要时可以作区间估计; ③ 利用回归方程进行统计控制,即利用回归方程进行 逆运算,通过控制自变量 X 取值来限定应变量Y在一 定范围内波动。 第三节 线性回归与相关应用的注意事项
三。线性和头◆新的店用 性时指与关的利 >08时表有很等的相养性。 i rraf
2. 两个有内在联系的变量之间存在因果关系,应 以原因变量为X ,以结果变量为Y ;如果变量之间 因果关系难以确定,则应以易于测定或变异较小 者为X 。 3. 在回归分析中,自变量X 既可以是随机变量 (称为Ⅱ型回归模型,两个变量都服从正态分 布),也可以是给定的量(称为 I 型回归模型, 在 X 取值固定时Y 服从正态分布)。如果Y不服 从正态分布,在进行回归分析前,应先进行变量 的变换以使应变量符合回归分析的要求。 4. 使用回归方程估计Y 值时,尽量不要把估 计的范围扩大到建立方程时的自变量的取值 范围之外,由于超出样本取值范围,其线性 关系是否成立难以判断,外推要慎重。 如例11-1中,X 的取值范围为0.24~10.81,计 算估计值时X 的取值最好在0.24~10.81之间。 二、线性相关分析的应用 1. 相关分析理论上适用于双变量正态分布的情 形,如果资料不服从正态分布,应先通过变量 变换,使之近似正态化后计算相关系数。 如果不能正态化,或针对有序数据则可以计算 Spearman或Kendall相关系数进行分析。 2. 相关系数 r 值究竟多大有实际意义,需 要根据具体问题而定。实际经验而言, r≤0.3时,表示相关性较差; 0.3< r≤0.6时,表示中度相关; 0.6< r≤0.8时,表示有较高度的相关性; r>0.8时,表示有很高的相关性。 3. 相关系数可以描述两个变量间相互关系 的密切程度和方向。然而,不能因为两变 量间的相关系数有统计学意义,就认为两 者之间存在着因果关系,要证明两事物间 确实存在因果关系,必须凭借专业知识加 以阐明。医学中很多变量的数量变化可能 由于相同的因子调控引起。 三、线性回归与相关的区别 1. 相关系数的计算只适用于两个数值变量都服从 正态分布的情形,而在回归分析中,应变量是 随机变量,自变量既可以是随机变量(Ⅱ型回 归模型),也可以是给定的量(I 型回归模型)。 2. 线性相关表示两个变量之间的相互关系是双向 的,线性回归则反映两个变量之间单向的依存 关系,更适合分析因果关系的数量变化。 四、线性回归与相关的联系 1. 相关系数 r 与回归方程中的 b 正负号相同, r 和 b 为正,说明 X 与 Y 的数量变化的方向 是一致的,X 增大,Y 也增大;符号为负, 变化方向相反。 2. 对同一样本可以得出 r 与 b 互相转化的公 式,两种假设检验完全等价。 3. 相关与回归可以互相解释。r 的平方称为决 定系数 (coefficient of determination),可表 示为: 2 2 2 2 XY XY XX XX YY YY l l / l SS R r l l l SS 回归 总 R2表示回归平方和在总平方和中所占的比重, 即值越接近1, 回归效果越好。 决定系数和相关系数有确定的关系, 如 r = 0.5, 有R2=0.25, 说明一个变量的变异有25%可以 由另一变量所解释。 1.线性回归方程常用于分析两个变量之间是 否存在线性依存关系。 2.相关系数可以描述两个变量间相互关系的 密切程度和方向。 3.相关系数的计算适用于两个数值变量都服 从正态分布的情形,在回归分析中,应变量是 随机变量,自变量既可以是随机变量(Ⅱ型回 归模型),也可以是给定的量(I型回归模型)。 小 结
4. 线性相关表示两个变量之间的相互关系是双 向的,线性回归则反映两个变量之间单向的依存 关系,更适合分析因果关系的数量变化。 5.对同一资料进行相关与回归分析,相关系数r 与回归方程中的b 正负号相同,r 和b 为正,说明 X 与Y 的数量变化的方向是一致的,X 增大,Y 也增大;反之亦然