恋石河子大学 匹子电】 贱性相头与国归 第十章 第一节线性相关 第二节线性圆归 线性相关与回归 第三节线性相关与国归的区刮和联条 Linear Correlation Regression 第三节普极相关 预防医学首东升 战性相美(linear correlation) 线性相头的基本念 。线性构关inea 二、线性相关条教 性 三,相头象的普性检脸 日的 ▣持点:纯计奚集 一、我性相关的基本概念 对Y值所代表出来。卷或友。制12击 。 平身高与骨长资制的周周所示 。 1
第十章 线性相关与回归 (Linear Correlation & Regression ) (Linear Correlation & Regression ) (Linear Correlation & Regression ) (Linear Correlation & Regression ) 预防医学系 芮东升 1 线性相关与回归 线性相关与回归 线性相关与回归 线性相关与回归 第一节 线性相关 第二节 线性回归 第三节 线性相关与回归的区别和联系 线性相关与回归的区别和联系 线性相关与回归的区别和联系 线性相关与回归的区别和联系 第三节 等级相关 2 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 二、线性相关系数 二、线性相关系数 二、线性相关系数 二、线性相关系数 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 线性相关(linear correlation) 3 � 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由散点图直观的说明。 目的: 研究 两个变量X,Y数量上的相关关系。 数量上的相关关系。 数量上的相关关系。 数量上的相关关系。 � 特点:统计关系 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 4 150 160 170 180 190 52 50 48 46 44 42 40 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标系中把每 为直观地判断两个变量之间的关系,可在直角坐标系中把每 为直观地判断两个变量之间的关系,可在直角坐标系中把每 为直观地判断两个变量之间的关系,可在直角坐标系中把每 对(Xi,Yi)值所代表的点绘出来,形成散点图。例如 )值所代表的点绘出来,形成散点图。例如 )值所代表的点绘出来,形成散点图。例如 )值所代表的点绘出来,形成散点图。例如12名男青 年身高与前臂长资料绘制的散点图如图所示: 年身高与前臂长资料绘制的散点图如图所示: 年身高与前臂长资料绘制的散点图如图所示: 年身高与前臂长资料绘制的散点图如图所示: 5 6
一个量X由小到大(或由大到小, 而增大,有直线上升的趋 与y的变化 。4、非线性相关:点的排列呈现某种曲线趋势: 民载装紫布关雀质和害切金皮。可以用湘 热顶10华特在 2有装 ···相关系数的意义与计算 相关系数的特点 1、意义:相关系数 1相关系数是一个无量纲的数值且 1≤r≤1: 以符号表示样本相关系数,符号表示其总体相关系数, 2r>0为正相关r<0为负相关 2.计算:样本相关系数的计算公式为 3/虺接近于1.说明相关性越好/越接近于 0,说明相关性磁差, ∑(r-r-万 V∑r-∑y-)√LL
若一个变量X由小到大(或由大到小),另 由小到大(或由大到小),另 由小到大(或由大到小),另 由小到大(或由大到小),另 一变量Y亦相应地由小到大或由大到小,则两个 亦相应地由小到大或由大到小,则两个 亦相应地由小到大或由大到小,则两个 亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为 变量的散点图呈直线趋势,我们称这种现象为 变量的散点图呈直线趋势,我们称这种现象为 变量的散点图呈直线趋势,我们称这种现象为 共变,也就是这两个变量之间有 ,也就是这两个变量之间有 ,也就是这两个变量之间有 ,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青 男青年身高与前臂长散点呈直线趋势,即男青 男青年身高与前臂长散点呈直线趋势,即男青 男青年身高与前臂长散点呈直线趋势,即男青 年身材高,前臂亦长,说明身高与前臂长之间存 年身材高,前臂亦长,说明身高与前臂长之间存 年身材高,前臂亦长,说明身高与前臂长之间存 年身材高,前臂亦长,说明身高与前臂长之间存 在线性相关关系我们把这种关系称为 在线性相关关系我们把这种关系称为 在线性相关关系我们把这种关系称为 在线性相关关系我们把这种关系称为直线相关。 7 � 1、正相关:y随x的增大而增大,有直线上升的趋 势,x与y的变化是同向的; � 2、负相关:y随x的增大而减少,有直线下降的 趋势,x与y的变化是反向的; � 3、零相关:无论x增大或减少,y的大小均不受 影响; � 4、非线性相关:点的排列呈现某种曲线趋势; 两变量间线性相关的性质和密切程度,可以用相 关系数 r 表示 8 线性相关用于双变量正态资料 双变量正态资料 双变量正态资料 双变量正态资料。它的性质可由散点图直 观地说明。散点图中点的分布即线性相关的 观地说明。散点图中点的分布即线性相关的 观地说明。散点图中点的分布即线性相关的 观地说明。散点图中点的分布即线性相关的方向和相关之 间的密切程度,可分为以下几种情况: ,可分为以下几种情况: ,可分为以下几种情况: ,可分为以下几种情况: 1. 1. 1. 1.正相关 2.负相关 3.无相关 9 y x r =-1 y x r =-0.8 y x r =-0.6 y x r =-0.4 10 相关系数的意义与计算 1、意义:相关系数 、意义:相关系数 、意义:相关系数 、意义:相关系数(correlation coefficient correlation coefficient correlation coefficient correlation coefficient)又称 Pearson Pearson Pearson Pearson积差相关系数,用来说明两个随机变量间线性相关 积差相关系数,用来说明两个随机变量间线性相关 积差相关系数,用来说明两个随机变量间线性相关 积差相关系数,用来说明两个随机变量间线性相关 关系的密切程度与相关方向。 关系的密切程度与相关方向。 关系的密切程度与相关方向。 关系的密切程度与相关方向。 以符号r表示样本相关系数,符号 表示其总体相关系数。 2. 计算:样本相关系数的计算公式为 xx yy xy L L L X X Y Y X X Y Y r = − − − − = ∑ ∑ ∑ 2 2 ( ) ( ) ( )( ) 11 相关系数的特点 1.相关系数r是一个无量纲的数值,且 -1≤r≤1; 2.r>0为正相关,r<0为负相关; 3./r/越接近于1,说明相关性越好./r/越接近于 0,说明相关性越差. 12
侧0.1从男青平卷体中减执构取11名男青牛想成 -1891. -959 -50 -2810 -5185。代入公式(10-2》.得: 按公式(10-1)计算相关系数 是香相美?方向和密切程度? ● 三、相关款的显着性检脸 ,r= r=7 与首画讲的其电晚计量一杯,根每样本资料计算出 桌的相兴象数同样存在抽样福返。即银设在一个X与Y 1≤p≤0 p=0 通过样本计算的「值存在抽样证差, 只有假设检脸才能推新体相程及方向。 常用的检脸方法有两种: 第一种方 1.换自直接附表11的界值表得到P值。 即身商与背长之同不存在相关系 :身高与胃长之间存在相关 2.用假设检验法,计算统计量,其公式为: 2.计算统计量 1-r v=n-2 1,0.8012,白由度1-29 n-2 3.查工界值表。朝使计给论 查界值表《表1。 。因为x 0.05,按 水漆拒绝 接受 可以认为男青年身高与 长之间存在正相关关系
例10.1 从男青年总体中随机抽取11名男青年组成 样本,分别测量每个男青年的身高和前臂长, ,分别测量每个男青年的身高和前臂长, ,分别测量每个男青年的身高和前臂长, ,分别测量每个男青年的身高和前臂长, 身高和前臂长均以 身高和前臂长均以 身高和前臂长均以 身高和前臂长均以cm为单位,测量结果如下表 为单位,测量结果如下表 为单位,测量结果如下表 为单位,测量结果如下表 所示,试计算身高与前臂长之间的相关系数。 所示,试计算身高与前臂长之间的相关系数。 所示,试计算身高与前臂长之间的相关系数。 所示,试计算身高与前臂长之间的相关系数。 编号 身高(cm) 前臂长(cm) XY X2 Y2 (X) (Y) 1 170 47 7990 28900 2209 2 173 42 7266 29929 1764 3 160 44 7040 25600 1936 4 155 41 6355 24025 1681 5 173 47 8131 29929 2209 6 188 50 9400 35344 2500 7 178 47 8366 31684 2209 8 183 46 8418 33489 2116 9 180 49 8820 32400 2401 10 165 43 7095 27225 1849 11 166 44 3174 28561 2116 合计 1891 500 86185 326081 22810 13 解: , =1891, =89599, =500, =22810, =86185。代入公式(10-2),得: 1000 .909 11 1891 326081 ( ) 2 2 2 = ∑ − = − = ∑ nX L XX X 82 .727 11 500 22810 ( ) 2 2 2 = ∑ − = − = ∑ nY LYY Y 按公式(10-1)计算相关系数 是否相关?方向和密切程度? 14 r = ? r = ? 通过样本计算的 r 值存在抽样误差, 只有假设检验才能推断 只有假设检验才能推断 只有假设检验才能推断 只有假设检验才能推断 15 总体相关程度及方向。 相关程度及方向。 相关程度及方向。 相关程度及方向。 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料计算出 与前面讲的其它统计量一样,根据样本资料计算出 与前面讲的其它统计量一样,根据样本资料计算出 与前面讲的其它统计量一样,根据样本资料计算出 来的相关系数同样存在 来的相关系数同样存在 来的相关系数同样存在 来的相关系数同样存在抽样误差。即假设在一个 。即假设在一个 。即假设在一个 。即假设在一个X与Y 无关总体中作随机抽样,由于抽样误差的影响,所得 无关总体中作随机抽样,由于抽样误差的影响,所得 无关总体中作随机抽样,由于抽样误差的影响,所得 无关总体中作随机抽样,由于抽样误差的影响,所得 的样本相关系数也常常不等于零。 的样本相关系数也常常不等于零。 的样本相关系数也常常不等于零。 的样本相关系数也常常不等于零。 因此要判断两个变量 因此要判断两个变量 因此要判断两个变量 因此要判断两个变量X与Y是否真的存在相关关系, 是否真的存在相关关系, 是否真的存在相关关系, 是否真的存在相关关系, 仍需根据作总体相关系数ρ是否为零的假设检验。 16 常用的检验方法有两种 常用的检验方法有两种 常用的检验方法有两种 常用的检验方法有两种: 1.按自由度直接查附表 按自由度直接查附表 按自由度直接查附表 按自由度直接查附表11的界值表,得到 的界值表,得到 的界值表,得到 的界值表,得到P 值。 n 2 1 r r 0 t 2 r − − − = ν = n − 2 2.用假设检验法,计算统计量 ,其公式为: 17 第一种方法 1. 建立检验假设 : ,即身高与前臂长之间不存在相关关系 : ;即身高与前臂长之间存在相关关系 2. 计算统计量 =11, =0.8012,自由度 =11-2=9, 3.查 r 界值表,得统计结论 查 r 界值表(附表 11), 得 ,因为 r > ,故 P<0.005,按 水准拒绝 H 0 接受 H 1 ,可以认为男青年身高与前 臂长之间存在正相关关系。 18
第二种方法 四、进行线性相头分的注意事项 1.建立同样的检验假设 2.计算统计量 ,或性和头表添西个支量之洞的和玉头集是取向 作舟新。 v11-29 2。物头票数的计算只遂用于根文量正毒分车的 3.查界值表,得统计结论 情形,女暴资件不原从正春分布,应光通过其量 在界位表。得 ,P<0.005.结要 支禁。使之亚点化。再根每变换佳计算相吴◆ 查界值表一致。 ●●·慎用相关的情形 ●●●慎用相关的情形 ⊙ 异常值 份层资料 (问、分层资料 四、进行线性相美分斯的注意事项 四、进行线性相美分斯的注意事项 3绿插公或计第出的和长集长风是解本和兴集 关集的曹细橙成和方向,两两个李物之司的关 杂脱可能是候存国暴美集,七可能仅是物互件 随的教量层杂。秀不可面为两李物河的湘兵泰 教有统计争意义,就认为两者之调春在着国暴 吴季,要运明丙事物洞确实存在阳暴关条,西 须凭香香走知识如以明明
第二种方法 1. 建立同样的检验假设 2. 计算统计量 4 .017 11 2 1 0 .8012 0 .8012 0 2 = − − − t r = ν=11-2=9 3. 查界值表,得统计结论 查 界值表,得 , ,P < 0.005,结果与 查 界值表一致。 19 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 ⒈ 线性相关表示两个变量之间的相互关系是双向 线性相关表示两个变量之间的相互关系是双向 线性相关表示两个变量之间的相互关系是双向 线性相关表示两个变量之间的相互关系是双向 的,分析两个变量之间到底有无相关关系可首 的,分析两个变量之间到底有无相关关系可首 的,分析两个变量之间到底有无相关关系可首 的,分析两个变量之间到底有无相关关系可首 先绘制散点图,散点图呈现出直线趋势时,再 ,散点图呈现出直线趋势时,再 ,散点图呈现出直线趋势时,再 ,散点图呈现出直线趋势时,再 作分析。 ⒉ 相关系数的计算只适用于 相关系数的计算只适用于 相关系数的计算只适用于 相关系数的计算只适用于双变量正态分布 双变量正态分布 双变量正态分布 双变量正态分布的 情形,如果资料不服从正态分布,应先通过变量 情形,如果资料不服从正态分布,应先通过变量 情形,如果资料不服从正态分布,应先通过变量 情形,如果资料不服从正态分布,应先通过变量 变换,使之正态化,再根据变换值计算相关系 变换,使之正态化,再根据变换值计算相关系 变换,使之正态化,再根据变换值计算相关系 变换,使之正态化,再根据变换值计算相关系 数,如果不符合条件应进行 数,如果不符合条件应进行 数,如果不符合条件应进行 数,如果不符合条件应进行秩相关计算。 20 慎用相关的情形 21 (a)异常值 (b)分层资料 (c) 、(d)分层资料 慎用相关的情形 22 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 ⒊ 依据公式计算出的相关系数仅是样本相关系 依据公式计算出的相关系数仅是样本相关系 依据公式计算出的相关系数仅是样本相关系 依据公式计算出的相关系数仅是样本相关系 数,它是总体相关系数的一个估计值,与总体 数,它是总体相关系数的一个估计值,与总体 数,它是总体相关系数的一个估计值,与总体 数,它是总体相关系数的一个估计值,与总体 相关系数之间存在着 相关系数之间存在着 相关系数之间存在着 相关系数之间存在着抽样误差,要判断两个事 ,要判断两个事 ,要判断两个事 ,要判断两个事 物之间有无相关及相关的密切程度,必须作 物之间有无相关及相关的密切程度,必须作 物之间有无相关及相关的密切程度,必须作 物之间有无相关及相关的密切程度,必须作假 设检验。 23 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 ⒋ 相关分析是用相关系数来描述两个变量间相互 相关分析是用相关系数来描述两个变量间相互 相关分析是用相关系数来描述两个变量间相互 相关分析是用相关系数来描述两个变量间相互 关系的密切程度和方向,而两个事物之间的关 关系的密切程度和方向,而两个事物之间的关 关系的密切程度和方向,而两个事物之间的关 关系的密切程度和方向,而两个事物之间的关 系既可能是依存因果关系,也可能仅是相互伴 系既可能是依存因果关系,也可能仅是相互伴 系既可能是依存因果关系,也可能仅是相互伴 系既可能是依存因果关系,也可能仅是相互伴 随的数量关系。 随的数量关系。 随的数量关系。 随的数量关系。决不可因为两事物间的相关系 决不可因为两事物间的相关系 决不可因为两事物间的相关系 决不可因为两事物间的相关系 数有统计学意义,就认为两者之间存在着因果 数有统计学意义,就认为两者之间存在着因果 数有统计学意义,就认为两者之间存在着因果 数有统计学意义,就认为两者之间存在着因果 关系,要证明两事物间确实存在因果关系,必 要证明两事物间确实存在因果关系,必 要证明两事物间确实存在因果关系,必 要证明两事物间确实存在因果关系,必 须凭借专业知识加以阐明。 须凭借专业知识加以阐明。 须凭借专业知识加以阐明。 须凭借专业知识加以阐明。 24
第二节线性国归(linear regression) 无老都:08,结衣1高文量意七和吴和 2.已知:r=0.8,P<c,地论:而文量曹切和头。 一、线性回归的美本瓶金 3.已知:r=0.08,P<a,t论:? 二、或性国归方程的计算 三、戴性国归方程的显普性检脸 四、进行线性回归分新的注意事项 1≤≤0 0蓝 ·●·历史背景 ●●o 。儿子身高(英寸)与父亲身高(X,英寸) 存在线性关系: P=33.73+0516Y 量.发现: 来说 而是 个子父代的子代的平均身高不是更矮,面是稍 高于其父代水平。Galton将这种趋向于种族稳 定的现象称之“回归”。 “回归”已成为表示变量之间某种数量依存关 系的统计学术语,并且行生出“回归方密 “回归系数”等统计学概念。如研究糖尿病人血 糖与其胰岛素水平的关系,研究儿童年龄与体 重的关系等
思考题: 1. 已知:r=0.8 , r=0.8 , r=0.8 , r=0.8 ,结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 2.已知:r=0.8,P<α,结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 3.已知:r=0.08,P<α,结论:? 25 一、线性回归的基本概念 一、线性回归的基本概念 一、线性回归的基本概念 一、线性回归的基本概念 二、线性回归方程的计算 二、线性回归方程的计算 二、线性回归方程的计算 二、线性回归方程的计算 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 第二节 线性回归(linear regression) linear regression) linear regression) linear regression) 26 英国人类学家 F.Galton首次在《自然遗传》一书中,提出并阐 明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他 和英国统计学家 Karl Pearson对上千个家庭的身高、臂长等指标做了 测量,发现: 历史背景: 27 � 儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线性关系: � 也即高个子父代的子代在成年之后的身高平均 来说不是更高,而是稍矮于其父代水平,而矮 个子父代的子代的平均身高不是更矮,而是稍 高于其父代水平。Galton将这种趋向于种族稳 定的现象称之“回归”。 ˆY X = + 33.73 0.516 28 29 “回归”已成为表示变量之间某种数量依存关 系的统计学术语,并且衍生出“回归方程” “回归系数”等统计学概念。如研究糖尿病人血 糖与其胰岛素水平的关系,研究儿童年龄与体 重的关系等。 30
目的:研完应支量Y对自吏量义的戴量依存吴类。 拾点:晚计头泰。义值不丫值均教的头泰, 不同于一餐数学上的X和Y的西戴美集 性国加养条,成年序出的直或中很叫民成性暗加中雅。 线性方程的形式为 其中 ot) 0>0,表示直与轴的交点在原点 的上方 <0,则夹点在原点的下方 是给定X时的告计值 称为回系()。 a=0,则国归直线通过原点 二、性回归方程的计算 例10.3有人研究了灌度对鞋的心率的影响,得到了 2.b为回归条数,即直线的斜中 表10-2冲所示的资料,试进行回归分析。 ”D。直成从龙下动走向有上动,Y随X增火而情大
一、线性回归的基本概念 一、线性回归的基本概念 一、线性回归的基本概念 一、线性回归的基本概念 相关是分析两个正态变量X与Y之间的互相关系 之间的互相关系 之间的互相关系 之间的互相关系。在相关分 析中,分不清X与Y何者为自变量,何者为因变量 何者为自变量,何者为因变量 何者为自变量,何者为因变量 何者为自变量,何者为因变量。现在假 设两个变量X 、Y 中,当一个变量 中,当一个变量 中,当一个变量 中,当一个变量X 改变时,另一个变量 改变时,另一个变量 改变时,另一个变量 改变时,另一个变量 Y 也相应地改变,当这样的两个变量之间存在着直线关系时, 也相应地改变,当这样的两个变量之间存在着直线关系时, 也相应地改变,当这样的两个变量之间存在着直线关系时, 也相应地改变,当这样的两个变量之间存在着直线关系时, 不仅可以用相关系数 不仅可以用相关系数 不仅可以用相关系数 不仅可以用相关系数 r 表示变量Y与X线性关系的密切程度, 线性关系的密切程度, 线性关系的密切程度, 线性关系的密切程度, 也可以用一个直线方程来表示 Y 与 X 的线性关系。 根据大量实测数据,寻找出其规律性,寻求一个直线方程 根据大量实测数据,寻找出其规律性,寻求一个直线方程 根据大量实测数据,寻找出其规律性,寻求一个直线方程 根据大量实测数据,寻找出其规律性,寻求一个直线方程 来描述两个变量间依存变化的近似的线性数量关系,即线 来描述两个变量间依存变化的近似的线性数量关系,即线 来描述两个变量间依存变化的近似的线性数量关系,即线 来描述两个变量间依存变化的近似的线性数量关系,即线 性回归关系,这样得出的直线方程叫做 性回归关系,这样得出的直线方程叫做 性回归关系,这样得出的直线方程叫做 性回归关系,这样得出的直线方程叫做线性回归方程。 31 目的:研究应变量Y对自变量X的数量依存关系。 的数量依存关系。 的数量依存关系。 的数量依存关系。 特点:统计关系。 X值和Y值均数的关系, 不同于一般数学上的 不同于一般数学上的 不同于一般数学上的 不同于一般数学上的X 和Y的函数关系 32 线性回归方程的形式为: 其中 是给定 X时Y的估计值 b 称为回归系数(regression coefficient)。 33 1.a 为回归直线在 Y 轴上的截距 (intercept) (intercept) (intercept) (intercept) � a > 0,表示直线与纵轴的交点在原点 表示直线与纵轴的交点在原点 表示直线与纵轴的交点在原点 表示直线与纵轴的交点在原点 的上方 � a 0,直线从左下方走向右上方, ,直线从左下方走向右上方, ,直线从左下方走向右上方, ,直线从左下方走向右上方,Y 随 X 增大而增大; � b<0,直线从左上方走向右下方, ,直线从左上方走向右下方, ,直线从左上方走向右下方, ,直线从左上方走向右下方,Y 随 X 增大而减小; � b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X 每增加(减) 一个单位,Y 平均改变b个单位 35 二、线性回归方程的计算 二、线性回归方程的计算 二、线性回归方程的计算 二、线性回归方程的计算 例10.3 有人研究了温度对蛙的心率的影响,得到了 表10-2中所示的资料,试进行回归分析。 对象 温度(X) 心率(Y) XY X2 Y2 1 2 5 10 4 25 2 4 11 44 16 121 3 6 11 66 36 121 4 8 14 112 64 196 5 10 22 220 100 484 6 12 23 276 144 529 7 14 32 448 196 1024 8 16 29 464 256 841 9 18 32 576 324 1024 10 20 34 680 400 1156 11 22 33 726 484 1089 合计 132 246 3622 2024 6610 自变量? 因变量? 36
1.根据表10-2教据绘制聚点图,★下圆所杀 2#5质 下.3 。 7=2n.363 2024-2 a=F-67=22.363-1.523×12=4.087 则,国归方为 7=4087+1.523X 3.作如直线 三、线性国归方程的星着性检脸 按求得的日白方程,在X实测值的范国内(木制为2一2)任取两个 ■对线性回加方雅柔进行版设格险。此是要检脸b是 相距较远的点 接、B两点即得到目白直线。 香为日-0落体中一个随年本。松 本副可时取,计算出 。计算出 道零用专遂◆新成者检脸,两奇的检脸故暴羊价。 &65)和(21,36,06)再白的连线即为所求的国白直线(re8rcss10m lie ●● - r-to E 图中,任意一点的纵坐标被回归直线与均数 }-8 截或三个线段,其中: 。曲于 点是散点围中任取的一点,将全部数据点都按上法 处理,并将等式两端平方后再末和则有 ∑W-y-∑i-2+∑r- 数理统计可证明:∑巾-r-力=0 -4平方和
1.根据表10-2数据绘制散点图,如下图所示 数据绘制散点图,如下图所示 数据绘制散点图,如下图所示 数据绘制散点图,如下图所示: 0 10 20 30 40 30 20 10 0 37 2.计算回归系数与常数项 计算回归系数与常数项 计算回归系数与常数项 计算回归系数与常数项 在本例中: ∑X = 132 ∑ = 2024 2 X X = 12 ∑Y = 246 2 ∑Y = 6610 Y = 22.363 ∑ XY = 3622 2 2 2 ( )( ) (132)(246) 3622 670 11 1.523 ( ) 132 440 2024 11 XYXX X Y XY l n b l X X n − − = = = = = − − ∑ ∑ ∑ ∑ ∑ a Y b X = − = − × = 2 2 .3 6 3 1 .5 2 3 1 2 4 .0 8 7 ˆY X = + 4.087 1.523 则,回归方程为 38 3. 作回归直线 按求得的回归方程,在 X实测值的范围内(本例为 2~22)任取两个 相距较远的点 、 ,连接 A、B两点即得到回归直线。 本例可取 ,计算出 ; ,计算出 ,过(3, 8.65)和(21,36.06)两点的连线即为所求的回归直线 (regression line) 39 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 � 对线性回归方程要进行假设检验,就是要检验 对线性回归方程要进行假设检验,就是要检验 对线性回归方程要进行假设检验,就是要检验 对线性回归方程要进行假设检验,就是要检验b是 否为β=0的总体中的一个随机样本。该假设检验 的总体中的一个随机样本。该假设检验 的总体中的一个随机样本。该假设检验 的总体中的一个随机样本。该假设检验 通常用方差分析或者t 检验,两者的检验效果 ,两者的检验效果 ,两者的检验效果 ,两者的检验效果等价。 40 Y的离均 差,总变异 残差 回归的 变异 剩余 回归 MS MS F = 41 图中,任意一点 的纵坐标被回归直线 与均数 截成三个线段,其中: 。由于 点是散点图中任取的一点,将全部数据点都按上法 处理,并将等式两端平方后再求和则有 数理统计可证明: ∑ − =∑ − +∑ − 2 2 2 ) ˆ ) ( ˆ (Y Y ) (Y Y Y Y ) 0 ˆ )( ˆ ∑(Y −Y Y −Y = 42
●●● 上式用符号表示为 ,为回归平方和。由于特定样本的 均到了是固定的,所以这部分变异由的大小不同引起。 式中 当被引入回归以后,正是由于的不同导致了 即 ,为的离均差平方 不同,所以反映了在厂的总变异中可以用 和,表示未考虑与的回归关系时的 r与Y的直线关系解释的那部分变异。 总变异。 b离0越远,对P的影响越大, 就越大,说明 回归效果基好。 ●● ,为残差平方和,它反应除了对 以上分解可见,不考虑回归时,随机误 差是y的总变异:而考虑回归以后,由 于回归的贡款使原来的随机误差减小为 差越小,回归的作用越明显。 如果两史量间卷体回咖兴集确实存在,回 归的贡款就要大于随机课差,大到何种程度 上述三个平方和,各有其相应的白由座”,并有如下的关系 财可以认为具有统计意义,可计算统计量厅 线性四归才覆的是着性检险一方差分斯 式中 为回归均方 M分布 时SS。m与SS寿是具它素对了陷 欧=M.=2 F检脸对X与了之间有无回加美集进行检脸
上式用符号表示为 式中 即 ,为 的离均差平方 和,表示未考虑 与 的回归关系时 的 总变异。 43 即 ,为回归平方和。由于特定样本的 均数 Y 是固定的,所以这部分变异由 ˆYi 的大小不同引起。 当 X 被引入回归以后,正是由于 Xi 的不同导致了 不同,所以 SS回 反映了在 Y 的总变异中可以用 X 与 Y 的直线关系解释的那部分变异。 b 离 0 越远,X 对 Y 的影响越大, 就越大,说明 回归效果越好。 Y 44 即 ,为残差平方和。它反应除了 对 的线性影响之外的一切因素对 的变异的作用,也就 是在总平方和中无法用 解释的部分,表示考虑回归 之后 真正的随机误差。在散点图中,各实 测点离回 归直线越近, 也就越小,说明直线回归的估计误 差越小,回归的作用越明显。 上述三个平方和,各有其相应的自由度ν ,并有如下的关系: , , , 45 以上分解可见,不考虑回归时,随机误 差是 Y 的总变异 S S 总 ;而考虑回归以后,由 于回归的贡献使原来的随机误差减小为 S S 残 。 如果两变量间总体回归关系确实存在,回 如果两变量间总体回归关系确实存在,回 如果两变量间总体回归关系确实存在,回 如果两变量间总体回归关系确实存在,回 归的贡献就要大于随机误差,大到何种程度 归的贡献就要大于随机误差,大到何种程度 归的贡献就要大于随机误差,大到何种程度 归的贡献就要大于随机误差,大到何种程度 时可以认为具有统计意义,可计算统计量 时可以认为具有统计意义,可计算统计量 时可以认为具有统计意义,可计算统计量 时可以认为具有统计意义,可计算统计量F: 46 M S 回 为回归均方 M S 残 为残差均方。 F 服从自由度为 ν ν 回 、 残 的 F 分布。 式中 , xx xy yy xx xy xx l l SS SS SS l l l SS bl 2 2 = − = − = = 剩 总 回 回 47 线性回归方程的显著性检验 线性回归方程的显著性检验 线性回归方程的显著性检验 线性回归方程的显著性检验-方差分析 � 检验的基本思想 检验的基本思想 检验的基本思想 检验的基本思想: 如果 X 与 Y 之间无线性回归关系, 之间无线性回归关系, 之间无线性回归关系, 之间无线性回归关系, 则 SS回归 与 SS剩余 都是其它随机因素对 都是其它随机因素对 都是其它随机因素对 都是其它随机因素对Y的影 响,由此描写变异的 响,由此描写变异的 响,由此描写变异的 响,由此描写变异的 MS回归 与 MS剩余 应近似相 等,总体回归系数 ,总体回归系数 ,总体回归系数 ,总体回归系数β=0,反之,β≠0。于是,可 用 F 检验对 X 与 Y 之间有无回归关系进行检验。 之间有无回归关系进行检验。 之间有无回归关系进行检验。 之间有无回归关系进行检验。 48
值的支异可用式 来反映,雨每个都可以分 回白系数的假设检验可用下面简化公式计算 解成下式 将此式两边平方然后展开,得: SsSS。-5S 这三个平方和的白由度依次为: 对创10.3的国归方程用方差会行银设检 MS的= SSa明 MSa-SSaE V利余 年-E.空60誉,1t 4■-88.3引 (3)博定P随得出就计结论 安是分斯表 Vas-多 总支井108.5410 ■g1020.2311020.23103.97<0.01 量0特产然:T以队为 到余883199.81
值的变异可用式 来反映,而每个 都可以分 解成下式: ) ˆ ) ( ˆ Y − Y = (Y − Y + Y − Y 将此式两边平方然后展开,得: ∑ − =∑ − + − 2 2 Y Y ) ] ˆ Y ) ( Y ˆ (Y Y ) [ ( = ∑ − +∑ − + ∑ − Y −Y ) ˆ Y )( Y ˆ Y Y ) 2 ( ˆ Y ) ( Y ˆ ( 2 2 其中 则: 49 回归系数的假设检验可用下面简化公式计算 ∑ ∑ = ∑ − = − nY SS Y Y Y 2 2 2 ( ) ( ) 总 =∑ − = ∑ + − − = ∑ − 2 2 2 2 Y Y ) (Y b( X X ) Y ) b ( X X ) ˆ SS回归 ( XX XY 2 XX XY XX XY L L L bL L L = b = = SS 剩余= SS 总-SS 回归 这三个平方和的自由度依次为: 总=n-1, 回归=1, 剩余=n-2 50 回归 回归 回归 ν = SS MS 剩余 剩余 剩余 ν = SS MS 剩余 回归 MS MS F = 51 对例10.3的回归方程用方差分析进行假设检验 的回归方程用方差分析进行假设检验 的回归方程用方差分析进行假设检验 的回归方程用方差分析进行假设检验 (1)建立假设检验 )建立假设检验 )建立假设检验 )建立假设检验 β=0 β≠0 α=0.05 (2)计算统计量 SS总 SS回归 SS剩余= SS总-SS回归=88.31 2 2 2 ( ) 246 6610 1108.54 11 Y Y n = − = − = ∑ ∑ 1020.23 440 670 2 2 = = = XX XY l l / 1020.23/1 103.97 / 88.31/9 MS SS F MS SS ν ν = = = = 回归 回归 回归 剩余 剩余 剩余 52 (3)确定P值得出统计结论 值得出统计结论 值得出统计结论 值得出统计结论 查F界值表, V回归 = 1, V剩余 = 9, 按照a=0.05的检验水准,拒绝 的检验水准,拒绝 的检验水准,拒绝 的检验水准,拒绝H0 ,接受H1,可以认为温 度与蛙的心率之间存在线性回归关系。 度与蛙的心率之间存在线性回归关系。 度与蛙的心率之间存在线性回归关系。 度与蛙的心率之间存在线性回归关系。 0.01(1, 9) F = 10.56 F F > 0.01(1, 9) P < 0.01 53 方差分析表 变异来源 SS ν MS F P 总变异 1108.54 10 回 归 1020.23 1 1020.23 103.97 < 0.01 剩 余 88.31 9 9.81 54
对例10,3的回归方程用检验进行假设检验 注意: √10397-10.22 即直线回归中对回归系 温-0 数的检验与检验等价,类似于两 样本均数比较可以作检验亦可作方 =11-2=9 0.149 差分析。 结论与F检酸相同。 一。,适行高被回加会新白注老孝须 ■ 四、进行线性国归分析的注意事项 ,只者将两个内在有肠条的支堂教在一表选好南加命将才是者 又的 24 脸拖地了无藏设,画加方才有意义, 的支量汤Y,女系支营之用界无圆易关生,则店以号于测定 5。使用国咖方鞋计第估计值财,不可北估计的总圆 ,有文量酰可娱是随 大到立方对支量取值花之外 一、线性相头与四归的区副 1.湘兴集教的计算只通用于局小支量每限从正 态会布始情形,而在四咖分折中,固支量是随 第三节 轨史量,有支量晚可以是威轨文量(I红型国归 美型,两个变量车盛谁服从正态分市),也可 线性相关不回归的区别与联条 以是给的量(工型国型,域时,与个X 值相对应的支量衡须从正态布】· 2.虎性物共表乐两个变量之同的有正兴条是取
对例10.3的回归方程用t 检验进行假设检验 (1)建立假设检验 β=0 β≠0 α=0.05 (2)计算统计量 88.31 3.13 9 Y X s ⋅ = = 3.13 0.149 440 b s = = 1.523 0 10.22 0.149 t − = = V =11-2=9 (3)确定P值作结论 根据 V =9, 0.01/ 2 (9 ) t = 3.250, P <0.01,拒绝H0, 结论与F 检验相同。 F = t 103.97 10.22 ≈ 55 注意: ,即直线回归中对回归系 数的 检验与 检验等价,类似于两 样本均数比较可以作 检验亦可作方 差分析。 56 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 ⒈ 只有将两个内在有联系的变量放在一起进行回归分析才是有 只有将两个内在有联系的变量放在一起进行回归分析才是有 只有将两个内在有联系的变量放在一起进行回归分析才是有 只有将两个内在有联系的变量放在一起进行回归分析才是有 意义的。 ⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一 作回归分析时,如果两个有内在联系的变量之间存在的是一 作回归分析时,如果两个有内在联系的变量之间存在的是一 作回归分析时,如果两个有内在联系的变量之间存在的是一 种依存因果的关系,那么应该以 种依存因果的关系,那么应该以 种依存因果的关系,那么应该以 种依存因果的关系,那么应该以“因”的变量为X ,以“果” 的变量为Y 。如果变量之间并无因果关系,则应 。如果变量之间并无因果关系,则应 。如果变量之间并无因果关系,则应 。如果变量之间并无因果关系,则应以易于测定、 较为稳定或变异较小者为 较为稳定或变异较小者为 较为稳定或变异较小者为 较为稳定或变异较小者为X 。 ⒊ 在回归分析中, 在回归分析中, 在回归分析中, 在回归分析中,因变量是随机变量 因变量是随机变量 因变量是随机变量 因变量是随机变量,自变量既可以是随机变 ,自变量既可以是随机变 ,自变量既可以是随机变 ,自变量既可以是随机变 量(II型回归模型,两个变量应该都服从正态分布),也可 型回归模型,两个变量应该都服从正态分布),也可 型回归模型,两个变量应该都服从正态分布),也可 型回归模型,两个变量应该都服从正态分布),也可 以是给定的量( 以是给定的量( 以是给定的量( 以是给定的量(I型回归模型,这时,与每个 型回归模型,这时,与每个 型回归模型,这时,与每个 型回归模型,这时,与每个X 取值相对应的 变量Y必须服从正态分布 必须服从正态分布 必须服从正态分布 必须服从正态分布),如果数据不符合要求,在进行 ),如果数据不符合要求,在进行 ),如果数据不符合要求,在进行 ),如果数据不符合要求,在进行 回归分析前,必须先进行变量的变换。 回归分析前,必须先进行变量的变换。 回归分析前,必须先进行变量的变换。 回归分析前,必须先进行变量的变换。 57 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 ⒋ 回归方程建立后必须作假设检验,只有经假设检 回归方程建立后必须作假设检验,只有经假设检 回归方程建立后必须作假设检验,只有经假设检 回归方程建立后必须作假设检验,只有经假设检 验拒绝了无效假设,回归方程才有意义。 验拒绝了无效假设,回归方程才有意义。 验拒绝了无效假设,回归方程才有意义。 验拒绝了无效假设,回归方程才有意义。 ⒌ 使用回归方程计算估计值时,不可把估计的范围 使用回归方程计算估计值时,不可把估计的范围 使用回归方程计算估计值时,不可把估计的范围 使用回归方程计算估计值时,不可把估计的范围 扩大到建立方程时的自变量的取值范围之外。 扩大到建立方程时的自变量的取值范围之外。 扩大到建立方程时的自变量的取值范围之外。 扩大到建立方程时的自变量的取值范围之外。 58 第三节 线性相关和回归的区别与联系 线性相关和回归的区别与联系 线性相关和回归的区别与联系 线性相关和回归的区别与联系 59 一、线性相关与回归的区别 一、线性相关与回归的区别 一、线性相关与回归的区别 一、线性相关与回归的区别 ⒈ 相关系数的计算只适用于两个变量都服从正 相关系数的计算只适用于两个变量都服从正 相关系数的计算只适用于两个变量都服从正 相关系数的计算只适用于两个变量都服从正 态分布的情形,而在回归分析中,因变量是随 态分布的情形,而在回归分析中,因变量是随 态分布的情形,而在回归分析中,因变量是随 态分布的情形,而在回归分析中,因变量是随 机变量,自变量既可以是随机变量( 机变量,自变量既可以是随机变量( 机变量,自变量既可以是随机变量( 机变量,自变量既可以是随机变量(II型回归 模型,两个变量都应该服从正态分布),也可 模型,两个变量都应该服从正态分布),也可 模型,两个变量都应该服从正态分布),也可 模型,两个变量都应该服从正态分布),也可 以是给定的量( 以是给定的量( 以是给定的量( 以是给定的量(I型回归模型,这时,与每个 型回归模型,这时,与每个 型回归模型,这时,与每个 型回归模型,这时,与每个X 取值相对应的变量 取值相对应的变量 取值相对应的变量 取值相对应的变量Y必须服从正态分布 必须服从正态分布 必须服从正态分布 必须服从正态分布)。 ⒉ 线性相关表示两个变量之间的 线性相关表示两个变量之间的 线性相关表示两个变量之间的 线性相关表示两个变量之间的相互关系是双 向的,回归则反映两个变量之间的 ,回归则反映两个变量之间的 ,回归则反映两个变量之间的 ,回归则反映两个变量之间的依存关系, 是单向的。 60