第八章相关与回归分析 本章参考书:《相关关系分析的基本原理和方法》、吴梅村、西财经大学出版社 本章重点:相关系数的计算、一元线性回归方程的求解 前面我给大家讲解单变量数据的统计方法,它描述和分析的是一种现象的某 种特征,如集中趋势、离中趋势等。本章将要讨论研究客现象之间数量联系的统 计方法。如描述学生某两门课考试成绩的关系、教学经费与教学效果之间的关系 等。包括相关与回归两部分。 $1相关与回归分析的基本概念 一、相关关系的概念 经济活动中,我们常发现许多变量之间存在着一定的联系。例如:成本、 产量、价格、利润中的一个或几个变量发生变化,就会引起其它变量的变化。变 量之间的相互关系,可以分为两大类 1、函数关系(确定性关系) 如:圆的面积(Y)和半径(X)存在Y=2的关系,当X变化时,Y的 值可通过关系精确地得到,二者是一对一的关系。 2、相关关系(非确定性关系) 如:商品的价格和销售量之间的关系,一般来说,价格上升,销售量会随 之下降。但我不可能断言,价格提高了多少,销售量就一定会减少多少。有时价 格上升了,销售量反而有所增加,这是因为影响销售量的因素,还有收入、个人 爱好、季节等。也就是说,价格和销售量之间存在关系,但这种关系不是一对 的关系。 综上所述,相关关系指的是现象之间存在的不确定性的依存关系。 二、相关关系的种类 1、变量多少,分简单相关(单相关)与多元相关(复相关) 2、按相关方向,分正相关、负相关(仅就单相关而言) 正相关是指两个变量的数量变动方向相同的相关,如收入与支出。 负相关是指两个变量的数量变动方向相反的相关,如36岁幼儿年龄与跑20 米所用的时间。 3、按相关的形式,分直线相关与曲线相关
第八章 相关与回归分析 本章参考书:《相关关系分析的基本原理和方法》、吴梅村、西财经大学出版社 本章重点:相关系数的计算、一元线性回归方程的求解 前面我给大家讲解单变量数据的统计方法,它描述和分析的是一种现象的某 种特征,如集中趋势、离中趋势等。本章将要讨论研究客现象之间数量联系的统 计方法。如描述学生某两门课考试成绩的关系、教学经费与教学效果之间的关系 等。包括相关与回归两部分。 §1 相关与回归分析的基本概念 一、 相关关系的概念 经济活动中,我们常发现许多变量之间存在着一定的联系。例如:成本、 产量、价格、利润中的一个或几个变量发生变化,就会引起其它变量的变化。变 量之间的相互关系,可以分为两大类: 1、函数关系(确定性关系) 如:圆的面积(Y)和半径(X)存在 Y=π*X2 的关系,当 X 变化时,Y 的 值可通过关系精确地得到,二者是一对一的关系。 2、相关关系(非确定性关系) 如:商品的价格和销售量之间的关系,一般来说,价格上升,销售量会随 之下降。但我不可能断言,价格提高了多少,销售量就一定会减少多少。有时价 格上升了,销售量反而有所增加,这是因为影响销售量的因素,还有收入、个人 爱好、季节等。也就是说,价格和销售量之间存在关系,但这种关系不是一对一 的关系。 综上所述,相关关系指的是现象之间存在的不确定性的依存关系。 二、 相关关系的种类 1、变量多少,分简单相关(单相关)与多元相关(复相关) 2、按相关方向,分正相关、负相关(仅就单相关而言) 正相关是指两个变量的数量变动方向相同的相关,如收入与支出。 负相关是指两个变量的数量变动方向相反的相关,如 3- 6 岁幼儿年龄与跑 20 米所用的时间。 3、按相关的形式,分直线相关与曲线相关
直线相关指一变量随另一变量发生大致相等的变动,曲线相关指一变量随另 一变量不均等的变动。例,施肥量和亩产量的关系:在一定数量界限内,施肥量 增加,亩产量相应增加,体现为直线相关:当施肥量增加到一定程度,亩产量反 而下降,这就是曲线相关。 4、按相关的强度,分不相关、不完全相关和完全相关 不相关:两变量互不影响,如学生身高与学习成绩之间的关系 完全相关:两变量的数量变化关系是确定性的关系,它实际是函数关系 不完全相关:介于不相关和完全相关之间。一般的相关关系都指不完全相关。 完全相关和不相关可视为相关分析中的特例。 $2相关分析 进行相关分析的方法主要有定性判断、相关表、相关图、相关系数。 一、定性判断 它是根据日常经验进行判断,如根据经验,我们知道收入与支出有一定的相 关关系,而且是正相关的关系:产量与单位成本有一定的相关关系,而且是负相 关的关系。 二、相关表 它是把取得的数据以表的形式显示出来,据此观察变量的走势是否有关,从 而判断有无相关关系的方法。有简单相关表和分组相关表之分 (一)简单相关表 其中一个变量的值按顺序排列,将两个变量的值一一对应地填列在同一张表 格上,即形成简单相关表。适用于项目较少的情况。例如: 表1家庭人均月收入与家庭人均月支出简单相关表 家庭人均月收入(元)家庭人均月支出(元) 515 480 515 400 519 500 530 500 530 506 530 510 570 520 570 540 600 560
直线相关指一变量随另一变量发生大致相等的变动,曲线相关指一变量随另 一变量不均等的变动。例,施肥量和亩产量的关系:在一定数量界限内,施肥量 增加,亩产量相应增加,体现为直线相关;当施肥量增加到一定程度,亩产量反 而下降,这就是曲线相关。 4、按相关的强度,分不相关、不完全相关和完全相关 不相关:两变量互不影响,如学生身高与学习成绩之间的关系 完全相关:两变量的数量变化关系是确定性的关系,它实际是函数关系 不完全相关:介于不相关和完全相关之间。一般的相关关系都指不完全相关。 完全相关和不相关可视为相关分析中的特例。 §2 相关分析 进行相关分析的方法主要有定性判断、相关表、相关图、相关系数。 一、定性判断 它是根据日常经验进行判断,如根据经验,我们知道收入与支出有一定的相 关关系,而且是正相关的关系;产量与单位成本有一定的相关关系,而且是负相 关的关系。 二、相关表 它是把取得的数据以表的形式显示出来,据此观察变量的走势是否有关,从 而判断有无相关关系的方法。有简单相关表和分组相关表之分。 (一)简单相关表 其中一个变量的值按顺序排列,将两个变量的值一一对应地填列在同一张表 格上,即形成简单相关表。适用于项目较少的情况。例如: 表 1 家庭人均月收入与家庭人均月支出简单相关表 家庭人均月收入(元) 家庭人均月支出(元) 515 480 515 490 519 500 530 500 530 506 530 510 570 520 570 540 600 560
680 590 由表1可看出,总体而言,家庭人均月支出随家庭人均月收入的增加而增加, 但二者又不是一对一的关系,所以具有不完全相关的关系。 (二)分组相关表 1、单变量分组相关表 它是一个变量分组,另一个变量不分组的相关表。例如: 表2家庭人均月收入与家庭人均月支出单变量分组相关表 家庭人均月收入(元)户数家庭人均月支出(元) 515 2 485 519 1 500 530 3 505.3 570 ) 530 600 1 560 680 1 590 2、双变量分组相关表 它是两个变量都分组的相关表。例如: 表3家庭人均月收入与家庭人均月支出双变量分组相关表 家庭人均月支出家庭人均月收入(元 合计 (元) 510-570570630630-690 474-500 2 500525 525~550 550575 1 575~600 合计 16 3 10 三、相关图 两变量一个作横坐标,一个作纵坐标,形成点,通过观察点的分布情况,大 致看出两个变量之间有无相关关系及类型。可通过Excl绘制相关图(散点图)。 四、相关系数(直线积差相关系数) 相关系数可以测定变量之间相关的密切程度。 1、原始公式及判断标准 (① r=∑6x-必-) NO,O, 它是著名英国统计学家卡尔皮尔逊设计的。以上公式中,除去。:、0,剩 下的叫做x与y的协方差,用COV或o表示。所以
680 590 由表 1 可看出,总体而言,家庭人均月支出随家庭人均月收入的增加而增加, 但二者又不是一对一的关系,所以具有不完全相关的关系。 (二)分组相关表 1、单变量分组相关表 它是一个变量分组,另一个变量不分组的相关表。例如: 表 2 家庭人均月收入与家庭人均月支出单变量分组相关表 家庭人均月收入(元) 户数 家庭人均月支出(元) 515 2 485 519 1 500 530 3 505.3 570 2 530 600 1 560 680 1 590 2、双变量分组相关表 它是两个变量都分组的相关表。例如: 表 3 家庭人均月收入与家庭人均月支出双变量分组相关表 家庭人均月支出 (元) 家庭人均月收入(元) 合计 510~570 570~630 630~690 474~500 2 2 500~525 4 1 5 525~550 1 1 550~575 1 1 575~600 1 1 合计 6 3 1 10 三、相关图 两变量一个作横坐标,一个作纵坐标,形成点,通过观察点的分布情况,大 致看出两个变量之间有无相关关系及类型。可通过 Excel 绘制相关图(散点图)。 四、相关系数(直线积差相关系数) 相关系数可以测定变量之间相关的密切程度。 1、原始公式及判断标准 ① r = ( )( ) x y N x − x y − y 它是著名英国统计学家卡尔.皮尔逊设计的。以上公式中,除去 x 、 y ,剩 下的叫做 x 与 y 的协方差,用 COV 或 2 xy 表示。所以
00 ②判断标准为:=0,表示不存在直线相关:川=1,表示存在完全直线相关 0<<0.3,表示存在微弱直线相关:0.3≤川<0.5,表示存在低度直线相关: 0.5≤<0.8,表示存在显著直线相关:0.8≤<1,表示存在高度直线相关 ③习题:试证明完全正直线相关时,r等于1:完全负直线相关时,r等于-1。 2、常用计算公式 由6. ∑xEx】 Σy(EyY nn 、o,1n(n o=卫y2x 有r= n∑xy-∑x∑y Xy-Xy 2正收万 例81:某企业某年12个月的产量与单位成本的资料如下,试判断二者的相关程 度与方向 月份 123456789101112 产量(件)860820840900102091085070010001100880800 单位成本 620650630600550590630720520480610640 元) 解:设用x、y分别表示产量、单位成本,由题得 ∑x=9633000、∑y=4412200、∑xy=6369600、∑x=10680、∑y=7240 所以r= n∑xy-∑x∑ Vn∑x2-(ΣxjVn∑y-(区y) 12×6369600-10680×7240 V12×9633000-(1068012×4412200-(7240) =-09861 即产量与单位成本之间属于高度负相关的关系。 3、直线积差相关系数的使用条件 ①两个变量都是连续性的: ②必须是成对数据,且每对数据相互独立: ③两个变量的总体都接近正态分布:
r = x y xy 2 ②判断标准为: r = 0,表示不存在直线相关; r = 1,表示存在完全直线相关; 0< r <0.3, 表示存在微弱直线相关;0.3≤ r <0.5, 表示存在低度直线相关; 0.5≤ r <0.8,表示存在显著直线相关;0.8≤ r <1, 表示存在高度直线相关。 ③习题:试证明完全正直线相关时,r 等于 1;完全负直线相关时,r 等于-1。 2、常用计算公式 由 x = − n x x n 2 2 、 y = − n y y n 2 2 、 2 xy = n xy - n x n y 有 r = ( ) ( ) − − − n x x n y y n x y x y 2 2 2 2 、r = x x y y xy x y 2 2 2 2 − − − 例 8-1:某企业某年 12 个月的产量与单位成本的资料如下,试判断二者的相关程 度与方向。 月份 1 2 3 4 5 6 7 8 9 10 11 12 产量(件) 860 820 840 900 1020 910 850 700 1000 1100 880 800 单位成本 (元) 620 650 630 600 550 590 630 720 520 480 610 640 解:设用 x、y 分别表示产量、单位成本,由题得: x 2 =9633000、 y 2 =4412200、xy =6369600、x =10680、y =7240 所以 r = ( ) ( ) − − − n x x n y y n x y x y 2 2 2 2 = (10680) (7240) 2 2 12 9633000 12 4412200 12 6369600 10680 7240 − − − =-0.9861 即产量与单位成本之间属于高度负相关的关系。 3、直线积差相关系数的使用条件 ①两个变量都是连续性的; ②必须是成对数据,且每对数据相互独立; ③两个变量的总体都接近正态分布;
④两个变量的关系是线性的: ⑤排除共变因素的影响。例如,如果用智力不同的学生的学习成绩来考察两门学 科之间是否存在相关,这不妥。因为这两种成绩都受智力的影响,有可能智力因 素的作用更大。比如,智力高的学生物理和语文成绩都好,智力差的学生物理和 语文成绩都低,这样一来,计算出的相关系数必定很大。 ⑥只能描述两变量之间线性关系的密切程度和方向,不能闸明二者的本质联系。 如果要分析内在联系,还必须借助有关的专业理 论知识 ⑦两变量之间是否相关,以及程度的高低,不能只看r的大小(一般地说,n小 于30时计算出的r缺乏有效意义)。有时两个无关的变量,由于数据对数太少, 计算出的「反而较大:而关系密切的两个变量,由于数据对数太少,计算出的: 反而较小。 S3一元线性回归分析 一、回归分析的概念回归分析是对具有相关关系的两个或两个以上变量之间的数 量变化的一般关系进行测定,确立一个相应的数学表达式,以便从已知量来推测 未知量。 同归的种类 、简单线性回归方程的求解(一)方程式 Yc=a+bx (二)回归参数a、b的估计 A、估计a、b的几种方法 根据Yc=a+bx求出的拟合值Yc与实际值y总有误差(即e)。如果求出 的a、b能使拟合误差(残差et)为最小,就是最好的。而使et达到最小的准则, 可从以下四方面考虑。 1、使∑y-y)=min,其缺陷在于正、负误差可抵消。 使∑y-y=min,其缺陷在于存在野值时,不易作出正确判断,且计算不方 便。 2、使My-y=mim,其缺陷在于未考虑所有观测值,且计算繁杂。 3、使∑(y一y。)=m,可消除正、负号,也便于数学处理。所以实际中常 用该法,称为最小二乘法(最小平方法)。 B、a、b的最小二乘估计 1、Yc=a+bx,求出的a、b使误差平方和∑(y一yc)为最小的方法,就是最 小二乘法(最小平方法)。 2、要使Q=∑(y-ye)-∑(y-a-bx))=mim,必须
④两个变量的关系是线性的; ⑤排除共变因素的影响。例如,如果用智力不同的学生的学习成绩来考察两门学 科之间是否存在相关,这不妥。因为这两种成绩都受智力的影响,有可能智力因 素的作用更大。比如,智力高的学生物理和语文成绩都好,智力差的学生物理和 语文成绩都低,这样一来,计算出的相关系数必定很大。 ⑥只能描述两变量之间线性关系的密切程度和方向,不能阐明二者的本质联系。 如果要分析内在联系,还必须借助有关的专业理论知识。 ⑦两变量之间是否相关,以及程度的高低,不能只看 r 的大小(一般地说,n 小 于 30 时计算出的 r 缺乏有效意义)。有时两个无关的变量,由于数据对数太少, 计算出的 r 反而较大;而关系密切的两个变量,由于数据对数太少,计算出的 r 反而较小。 §3 一元线性回归分析 一、回归分析的概念回归分析是对具有相关关系的两个或两个以上变量之间的数 量变化的一般关系进行测定,确立一个相应的数学表达式,以便从已知量来推测 未知量。二、回 归 的 种 类 三、简单线性回归方程的求解(一)方程式 Yc =a+bx (二)回归参数 a、b 的估计 A、估计 a、b 的几种方法 根据 Yc =a+bx 求出的拟合值 Yc 与实际值 y 总有误差(即 et)。如果求出 的 a、b 能使拟合误差(残差 et)为最小,就是最好的。而使 et 达到最小的准则, 可从以下四方面考虑。 1、使 ( ) C y y − = min,其缺陷在于正、负误差可抵消。 使 c y y − = min,其缺陷在于存在野值时,不易作出正确判断,且计算不方 便。 2、使 c Max y y − = min,其缺陷在于未考虑所有观测值,且计算繁杂。 3、使 ( ) 2 c y y − = min,可消除正、负号,也便于数学处理。所以实际中常 用该法,称为最小二乘法(最小平方法)。 B、a、b 的最小二乘估计 1、Yc =a+bx,求出的 a、b 使误差平方和 ( ) 2 c y y − 为最小的方法,就是最 小二乘法(最小平方法)。 2、要使 Q= ( ) 2 c y y − = ( ) 2 y − −a bx = min,必须
2-0=2∑y.-a-x,)-0→∑y=nab∑x 是0户2Σy-a-xk0→∑xy=2xb2x 以上方程组称为正规方程组或标准方程组,最后求解得: 2xy2xy,ayb2x-灭-bx n∑xi-(ExJ n 3、例8-2:某局各企业月产量与生产费用的资料如下表: 月产量1223.13.856.1728 (千吨) 生产费用628680110115132135160 (万元) 试以月产量为自变量,生产费用为因变量拟合一元线性回归方程。 解:由题有:∑x,=36,4∑y=880∑xy,=454.6∑x=207.54n=8 设Yc=a+bx则 n2xy-ΣxL-8x4546=64×80-12896 n∑x-(Ex》 8×207.54-36.4 a=万-b,=880.12896×364-5132 所以,Yc=51.32+12.896x 四、回归系数与相关系数的关系五、回归分析与相关分析的区别 1、回归分析必须区分自变量和因变量,而相关分析不必区分。 2、回归分析的两个变量一个是自变量,一个是因变量,通过给定自变量的值来 推算因变量的可能值:而相关分析的两个变量都是随机变量。 3、回归分析中对于因果关系不甚明确的两个变量,可以建立两个回归方程:而 相关分析只能计算出一个相关系数。 §4估计标准误差 一、估计标准误差的涵义它是用来说明回归直线代表性大小的指标,用Syx表 示二、估计标准误差的测定 Σ(y-yc】 1、5yx=1m-2 Syx越小,表明实际观测点与所拟合的样本回归线的离差越小,即回归线有
Q a =0 -2 ( t) t y − −a bx =0 yt = na+b xt Q b =0 -2 ( t t ) t y − −a bx x =0 xt yt =a xt +b xt 2 以上方程组称为正规方程组或标准方程组,最后求解得: b= ( ) − − x x x y x y t n n t t t t t 2 2 ,a = n y t -b n xt = yt - b xt 3、例 8-2:某局各企业月产量与生产费用的资料如下表: 月产量 (千吨) 1.2 2 3.1 3.8 5 6.1 7.2 8 生产费用 (万元) 62 86 80 110 115 132 135 160 试以月产量为自变量,生产费用为因变量拟合一元线性回归方程。 解:由题有: xt =36.4 yt =880 xt yt =4544.6 xt 2 =207.54 n= 8 设 Yc =a+bx 则 b= ( ) − − x x x y x y t n n t t t t t 2 2 = 36.4 2 8 207.54 8 4544.6 36.4 880 − − =12.896 a= yt - b xt = 8 880 - 12.896× 8 36.4 = 51.32 所以,Yc=51.32+12.896xt 四、回归系数与相关系数的关系五、 回归分析与相关分析的区别 1、回归分析必须区分自变量和因变量,而相关分析不必区分。 2、回归分析的两个变量一个是自变量,一个是因变量,通过给定自变量的值来 推算因变量的可能值;而相关分析的两个变量都是随机变量。 3、回归分析中对于因果关系不甚明确的两个变量,可以建立两个回归方程;而 相关分析只能计算出一个相关系数。 §4 估计标准误差 一、估计标准误差的涵义它是用来说明回归直线代表性大小的指标,用 Syx 表 示二、估计标准误差的测定 1、Syx = ( ) 2 2 C n y y − − Syx 越小,表明实际观测点与所拟合的样本回归线的离差越小,即回归线有
较强的代表性:反之,Syx越大,表明实际观测点与所拟合的样本回归线的离差 越大,即回归线的代表性较差。 2、一般用Syx=1 Ey-∑y,-b∑xy来求syx n-2 3、例8-3:见例8-资2料及结果,有Yc=5132+12.896x 据公式Syx= Σ(y,-y ,有 n-2 y 62 86 80 110 115132135 160 66.877.1291.36 100.33115.8129.99144.17154.49 y. 0y.P2304 78.8544129.049693.50890.644.040184.088930.3601 则有Syx= 443.582 V8-2 =8.5983 而根据公式Syx= y,-∑y-∑x以有 n-2 Syx= 104214-5132×880-12896×45446=8.6143 8-2 一元线性回归模型预测 (一)基本公式 当给定X=Xr时,y,=a+bx 当X属于样本内的值时,为事后预测:当X属于样本之外的值时,为事前预测。 通常为事前预测。 发生识整的深高。 1、模型本身中的误差因素造成的误差。因为没有将所有影响因变量y的因素纳 入模型中,从而肯定带来误差。 2、回归系数的估计值同总体回归系数之间总有一定的误差,因为是根据样本数 据去估计总体回归系数a、b,求得a、b。 3、由于自变量X的设定值同其实际值的偏离所造成的误差。因为X本身也需要 用某种方法去预测
较强的代表性;反之,Syx 越大,表明实际观测点与所拟合的样本回归线的离差 越大,即回归线的代表性较差。 2、一般用 Syx = 2 2 t t t t a b n y y y − − x − 来求 Syx 3、例 8-3:见例 8-资 2 料及结果,有 Yc=51.32+12.896xt 据公式 Syx = ( ) 2 2 t c n y y − − ,有 yt 62 86 80 110 115 132 135 160 c y 66.8 77.12 91.36 100.33 115.8 129.99 144.17 154.49 (ytc y ) 2 23.04 78.8544 129.0496 93.5089 0.64 4.0401 84.0889 30.3601 则有 Syx = 8 2 443.582 − =8.5983 而根据公式 Syx = 2 2 t t t t a b n y y y − − x − ,有 Syx = 8 2 104214 51.32 880 12.896 4544.6 − − − =8.6143 三、一元线性回归模型预测 (一)基本公式 当给定 x= xf时, cf y =a+bxf 当 xf 属于样本内的值时,为事后预测;当 xf 属于样本之外的值时,为事前预测。 通常为事前预测。 (二)预测误差 发生误差的原因: 1、模型本身中的误差因素造成的误差。因为没有将所有影响因变量 y 的因素纳 入模型中,从而肯定带来误差。 2、回归系数的估计值同总体回归系数之间总有一定的误差,因为是根据样本数 据去估计总体回归系数 a、b,求得 a、b。 3、由于自变量 x 的设定值同其实际值的偏离所造成的误差。因为 xf 本身也需要 用某种方法去预测
4、由于未来时期总体回归系数发生变化所造成的误差。总体回归系数反映一定 时期内经济结构的数量特征,随着社会经济运行机制和经济结构的变化,它 也会有所变化。 (三)区间预测 一般公式:y,士txSyx
4、由于未来时期总体回归系数发生变化所造成的误差。总体回归系数反映一定 时期内经济结构的数量特征,随着社会经济运行机制和经济结构的变化,它 也会有所变化。 (三)区间预测 一般公式: cf y t×Syx