第1章 苏法:节术拉度新行运中海旗前试46 回归分析概述 为了在系统学习回归分析之前对该课程的思想方法、主要内容、发展现状等有 个概括的了解,本章将由变量间的统计关系,引申出社会经济与自然科学等现象中 的相关与回归问题,并扼要介绍“回归”名称的由来及近代回归分析的发展、回归分 析研究的主要内容,以及建立回归模型的步骤与建模过程中应注意的问题。 1.1变量间的统计关系 社会经济与自然科学等现象之间的相互联系和制约是一个普遍规律。例如社 会经济的发展总是与一定的经济变量的数量变化紧密联系的。社会经济现象不仅 同和它有关的现象构成一个普遍联系的整体,而且在它的内部也存在着许多彼此 关联的因素,在一定的社会环境、地理条件、政府决策影响下,一些因素推动或制约 另外一些与之联系的因素发生变化。这种状况表明,在经济现象的内部和外部联 系中存在着一定的相关性,人们往往利用这种相关关系来制定有关的经济政策,以 指导、控制社会经济活动的发展。要认识和掌握客观经济规律就必须探求经济现 象问经济变量的变化规律,变量间的统计关系是经济变量变化规律的重要特征。 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
互有联系的经济现象及经济变量间关系的紧密程度各不一样。一一种极端的情 况是一个变量的变化能完全决定另一个变量的变化。例如,一个保险公司承保汽 车5万辆,每辆保费收入为1000元,则该保险公可汽车承保总收入为5000万 元。如果把承保总收人记为y,承保汽车辆数记为x,则y=1000x。x与y两 个变量间完全表现为一种确定性关系,即函数关系。如图1.1所示。 y6000r 万5000 y=1000x 元4000 300 2000 1000 012345 图1.1函数关系田 再如.银行的年期存款利率为年息2.55%,存入的本金用x表示,到期 的本息用v表示,则y=x+2.55%x。这里y与x仍表现为-一种线性函数关系。 对于任意两个变量间的函数关系,我们可以表述为下面的数学形式 y=f(I) 再如,工业企业的原材料消耗总额用y表示,生产量用x1表示,单位产量 消耗用2表示,原材料价格用x3表示,则 y=z1n2x3 这里的y与x1,2,x3仍是一种确定性的函数关系,但它们显然不是线性 函数关系了。我们可以将变量y与p个变量x,x2,,x之间存在着的某种 函数关系用下面的形式表示 V=f(x1,x3,",t)】 经济问题中还有很多函数关系的例子。物理学中的自由落体距离公式、初等 数学中许多计算公式等都是变量间的函数关系。 然而,现实世界中还有不少情况是两事物之间有着密切的联系,但它们密切 的程度并没有到由一个可以完全确定另一个的程度。下面举儿个例子。 1.我们都知道某种高档消费品的销售量与城镇居民的收人密切相关,居民 收入高了这种消费品的销售量就大。但是由居民收入x并不能完全确定某种高 档消费品的销售量y,因为这种高档消费品的销售量还受着人们的消费习惯、心 理因素、其他商品的吸引程度及价格的高低等诸多因素的影响。这样变量ν与 2 PDF created with pdfFactory Pro trial version ww.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
变量x就是一种非确定的关系,见图1.2。 0 图1.2y与x非确定性关系图 2.粮食产量y与施肥壁x之间有着密切的关系,在·定的范围内,施肥量 超多,粮食产量就越高。但是,施肥量并不能完全确定粮食产量,因为粮食产量 还与其他因素的影响有关,如降雨量、田间管理水平等。因此粮食产量ν与施 肥量x之间不存在确定的函数关系。 3.储蓄额与居民的收入密切相关,但是由居民收入并不能完全确定储蓄额。 因为影响储蓄额的因素很多,如通货膨张、股票价格指数、利率、消费观念、投 资意识等。因此尽管储蓄额与居民收入有密切的关系,但它们之间并不存在一种 确定性关系。 再如:广告费支出与商品销售额,保险利润与保费收人、工业产值与用电量 等。这方面的例子不胜枚举。 以上变量间关系的一个共同特征是它们之间有密切关系,但它们是一种非确 定性关系。由于经济何题的复杂性,有许多因素因为我们的认识以及其他客观原 因的局限,并没有包含在内。或者由于试验误差、测量误差以及其他种种偶然因 素的影响,使得另外一个或一些变量的取值带有一定的随机性。因而当一个或 些变量取定值后,不能以确定值与之对应。 从图1.1看到确定性的函数关系,各对应点完全落在一条直线上。而由图 1.2看到,各对应点并不完全落在一条直线上,即有的点在直线上,有的点在直 线的两边。对于这种对应点不能分布在一条直线上的变量间的关系,也就是变量 x与y之间有一定的关系,但是又没有密切到可以通过x惟一确定y的程度,这 种关系正是统计学中研究的重要内容。在推断统计中,我们把上述变量间具有密 切关联而又不能由某一个或某一些变量惟一确定另外一个变量的关系,称为变量 间的统计关系或相关关系。这种统计关系规律性的研究是统计学中研究的主要对 象,现代统计学中关于统计关系的研究已形成两个重要的分支,它们叫相关分析 和回归分析。 3 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
同归分析和相关分析都是研究变量间关系的统计学课题。在应用中,两种分 析方法经常相互结合和渗透,但它研究的侧重点和应用面不同。它们的差别主 要有以下几点:一是在回归分析中,变量y称为因变量,处在被解释的特殊地 位。在相关分析中,变量y与变量x处于平等的地位,即研究变量y与变量x 的密切程度与研究变量x与变量y的密切程度是一回事。二是相关分析中所涉及 的变量y与x全是随机变量。而回归分析中,因变量y是随机变量,自变量x 可以是随机变量,也以是非随机的确定变量。通常的回归漠型中,我们总是假 定x是非随机的确定变量。三是相关分析的研究主要是为刻画两类变量问线性 相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可 以由可时方程进行预测和控制。 由于问归分析与相关分析的研究侧重不同,使得它们的研究方法也大不相 同。问分析已成为现代统汁学中应用最广泛、研究最活跃的一个独立分支。 1.2回归方程与回归名称的由来 可分析是处理变量x与y之间的关系的一种统计方法和技术。这里所研 究的变量之间的关系就是上述的统计关系。即当给定x的值y的值不能确定, 只能通过一定的概率分布来描述。于是,我们称给定x时y的条件数学期望 f(x)=E(ylx) (1.1) 为随机变量y对x的问归函数,或称为随机变昼y对x的均值回归函数。(1.1) 式从平均意义上刻画了变量x与y之间的统计规律。 在实际问题中,我们把x称为自变量,y称为因变量。如果要由x预测y, 就是要利用x,ν的观察值,即样本观测值 (x1,y1),(z2y2,…,(n+yn) (1.2) 来建立一个公式,当给定x值后,就代入此公式中算出·个y值,这个值就称 为y的预测值。如何建立这个公式,这就要从样本观测值(x,)出发,观察 (x,y)在平面直角坐标系上的分布情况,图1.2就是居民收入与商品销售额的 散点图。由这个图可看出样本点基本上分布在一条直线的周围,因而要确定商品 销售额y与居民收人x的关系,可考感用一个线性函数来描述。图1.2中的直 线即为线性方程 y=a+Ar (1.3) 方程(1.3)式中的参数。,3尚不知道,这就需要由样本数据(1.2)式去进行 4 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
估计。具体如何去估计参数4,B,我们在第二章中将详细介绍。 当我们由样本数据(1.2)式估计出a,3的值后,以估计值在,分别代替 (1.3)式中的a,3,得方程 y=&+ (1.4) (1.4)式方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性 关系,故我们称(1.4)式为y对x的线性回归方程。又因(1.4)式的建立依赖于观 察或试验积累的数据(1.2)式,所以我们又称(1.4)式为经验回归方程。相对这种 出法,我们把(1.3)式称为理论回方程。理论回日方程是设相把所研究问题的总 体中每一个体的(x,y)值都测量了,利用其全部结果而建立的回归方程(1.3)式, 这在实际中是办不到的。理论回归方程中的。是方程(1.3)式所画出的直线在y 轴上的截距,B为直线的斜率,它们分别称为回归常数和回归系数。而方程(1.4) 式中的参数丘,3被称为经验回归常数和经验回归系数。 回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家 F.高尔顿(F.Galton:1822~1911)。高尔顿和他的学生、现代统计学的奠基者之 一K,皮尔逊(K.Pearson:1856~1936)在研究父母身高与其子女身高的遗传问题 时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年 儿子的身高作为y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条 直线。计算出的回归直线方程为 y=33.73+0.516x (1.5) 这种趋势及回归方程总的表明父母平均身高x每增加一个单位时,其成年儿子 的身高v也平均增加0.516个单位。这个结果表明,虽然高个子父辈确有生高 个子儿子的趋势,但父辈身高增加一个单位,儿于身高仅增加半个单位左右。反 之,矮个子父辈确有生矮个子儿子的趋势,但父辈身高诚少一个单位,儿子身高 仅减少半个单位左右。通俗地说,一群特高个子父辈(例如排球运动员)的儿子们 在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高 个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈 的儿子们在同龄人中平均仅为略矮个子,即子代的平均高度向中心回归了。正是 因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间 内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分 化现象。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述 这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈身高x与子代身 高y的关系。尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量 5 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
的问题中,其变量x与y之间的关系并不总是具有这种“回归”的含义,但借 用这种名词把研究变量x与y间统计关系的量化方法称为“回归”分析也算是 对高尔顿这个伟大的统计学家的纪念。 1.3回归分析的主要内容及其一般模型 一、回归分析研究的主要内容 回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观 事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象 中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互 关系的密切程度、结构状态、模型预测的一种有效的工具。 回归分析方法在生产实践中的广泛应用是它发展和完善的根本动力。如果从 19世纪初(1809年)高斯(Gauss)提出最小二乘法算起,回归分析的历史已有190 多年。从经典的回归分析方法到近代的回归分析方法,它们所研究的内容已非常 丰高。如果按研究的方法来划分,回归分析研究的范围大致如下: ·元线性回归 线性回归子多元线性回归 多个因变量与多个自变量的回归 [讨论如何从数据推断回归模型基本假设的合理性 回归诊断 当基本假设不成立时如何对数据进行修正 判定回归方程拟合的效果 选择回归函数的形式 回归变量的选择 」自变量选择的准则 回归分析 逐步回归分析方法 岭回 参数估计方法的改进主成分回归 偏最小二乘法 一元非线性回归 非线性回归分段回归 多元非线性回归 含有定性变量的回归/自变量含定性变量的情况 !因变量是定性变量的情况 6 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
二、回归模型的一般形式 如果变量x1,x2,…,x,与随机变量y之间存在着相关关系,通常就意味 着每当x1,x2,…,xp取定值后,y便有相应的概率分布与之对应。随机变量 y与相关变量x,x,,xp之间的概率模型为 v=fx1,x2.…,xp)+e (1.6) 其中,随机变量y称为被解释变量(因变量);x1,x2,…,x称为解释变量 (自变量)。在计量经济学中,也称因变量为内生变量,自变量为外生变量: f代x1,x2,…,cp)为一般变量x1,x2,…,xb的确定性关系,e为随机误差。正 是因为随机误差项€的引人,才将变量之间的关系描述为一个随机方程,使得我 们可以借助随机数学方法研究y与x1,x2,…,x的关系。由于客观经济现象 是错综复杂的,一种经济现象很雅用有限个因素来准确说明,随机误差项可以概 括表示由于人们的认识以及其他客魂原因的局限而没有考虑的种种偶然因索。随 机误差项主要包括下列因素的影响: 1.由于人们认识的局限或时间、费用、数据质量等制约未引入回归模型但 又对回归被解释变量y有影响的因素: 2.样本数据的采集过程中变量观测值的观测误差的影响: 3.理论模型设定误差的影响: 4.其他随机因素的影啊。 模型(1.6)式清楚地表达了变量x1,x2,…,xe与随机变量y的相关关系, 它由两部分组成:一部分是确定性函数关系,由回归函数f代x1,x2,…,x)给出: 另一部分是随机误差项ε。由此可见模型(1.6)式准确地表达了相关关系那种既 有联系又不确定的特点。 当概率模型(1.6)式中回归函数为线性函数时,即有 y=+1x1t2x2t…+月p+e (1.7) 其中,风,月1,品2,,丹。为未知参数,常称它们为回归系数。线性回归模型 的“线性”是针对未知参数A(i=0,1,2,…,p)而言的。对于回归解释变量的线 性是非本质的,因为解释变量是非线性时,常可以通过变量的替换把它转化成线 性的。 如果{x1,x2,…,xp;y,),i=1,2,…,n是(1.7)式中变量(x1,x2,…,xp y)的一组观测值,则线性回归模型可表示为 y=%+B1x1+2.x21…'rp+e,i=1,2,…,n (1.8 为了估计模型参数的需要,古典线性回归模型通常应满足以下几个基本假设: PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
1.解释变量t1,x2,…,t是非随机变量,观测值x1,x2,…,x是 常数。 2.等方差及不相关的假定条件为 E(e,)=0,i=1,2,…,n .=j1,2.,n) 10,≠j 这个条件称为高斯-马尔柯夫(Gauss-Markov)条件,简称G-M条件。在此条 件下,便可以得到关于回归系数的最小二乘估计及误差项方差。2估计的一些重 要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。 3.正态分布的假定条件为 eN(0,c2),i=1,2,…,n 1,e2,…,9*相互独立 在此条件下便可得到关于回归系数的最小二乘估计及。2估计的进一步的结果, 如它们分别是回归系数及。的最小方差无偏估计等,并且可以作回归的显著性 检验及区间估计。 4.通常为了便于数学上的处理,还要求n>p,即样本容量的个数要多于解 释变量的个数。在整个回归分析中,线性回归的统计模型最为重要。一方面是因 为线性回归的应用最广泛;另一方面是只有在回归模型为线性的假定下,才能得到 比较深人和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变 为线性回归问题进行处理。因此,线性回归模型的理论和应用是本书研究的重点。 对线性回归模型我们通常要研究的问题有: 1.如何根据样本(x1,x2…,py),i=1,2,…,n求出风,月1,2…,月,及 方差。2的估计: 2.对回归方程及回归系数的种种假设进行检验; 3.如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。 1.4建立实际问题回归模型的过程 在实际问题回归分析模型的建立和分析中有几个重要的阶段,为了给读者 个整体印象,我们以经济模型的建立为例,先用逻辑框图表示回归模型的建模过 程。见图1.3。 下面我们按逻辑框图顺序叙述每个阶段要做的工作以及应注意的问题 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
「具体(社会经济同题 设置指标变量 收集整理数据 1 构造理论模型 估计模型参数 模型运用 经济因素分析 经济变量控制 经济决策两测 图1.3回归意模步廉流租图 一、根据研究的目的,设置指标变量 回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问 题的目的设置因变量y,然后再选取与y有统计关系的一些变量作为自变量: 通常情况下,我们希望因变量与自变量之间具有因果关系。尤其是在研究某 种经济活动或经济现象时,我们必须根据具体的经济现象的研究目的,利用经济 学理论,从定性角度来确定某种经济问题中各因素之间的因果关系。当我们把某 一经济变量作为“果”之后,接着更重要的是要正确选择作为“因”的变量。在 经济问题回归模型中,前者被称为“内生变量”或“被解释变量”,后者被称为 “外生变量”或“解释变量”。变量的正确选择关键在于能否正确把提所研究的经 济活动的经济学内涵。这就要求研究者对所研究的经济河恶及其背景要有足够的 了解。例如,要研究中国通货膨胀问题,必须懂得一些金融理论。通常把全国零 售物价总指数作为衡量通货膨胀的重要指标,那么,全国零售物价总指数作为被 解释变量,影响全国零售物价指数的有关因素就作为解释变量。参考文献[9]在 研究中国通货膨胀问题时,曾把国民收入、居民存款、工农业总产值、全民所有 制单位固定资产投资、货币流通量、职工平均工资、杜会商品零售总额等18个 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
指标确定为解释变量。参考文献[37]在研究中国储蓄被动机理中,曾把各项银行 存款作为被解释变量,把货币发行量、全国零售物价指数、股票价格指数、银行 利率、国债利率、居民收入等16个指标确定为解释变量。 对一个具体的经济问题,当研究目的确定之后,被解释变量容易确定,被解 释变量-般直接表达、刻画研究的目的。就像参考文献[9]、[37]中根据研究的问 题,直接将全国零售物价总指数和银行存款分别作为通货膨胀问题和储蓄问题的 被解释变量。而对被解释变量有影响的解释变量的确定就不太容易。一是由于我 们的认识有局限,可能并不知道对被解释变量有重要影响的因素。二是为了模型 参数估计的有效性,设置的解释变量之间应该是不相关的。我们很难确定哪些变 量是相关的,哪些不是相关的、因为在经济问题中很难找到影响同一结果的一些 因素它们之间是独立的。这就看我们如何在多个变量中确定儿个重要的、且不相 关的变量。三是我们从经济关系角度考虑非常重要的变量应该引进,但是在实际 中并没有这样的统计数据。这一点,在我国建立经济模型时经常会遇到。这时 可以考虑用相近的变量代替,或者由其他几个指标复合成·个新的指标。 在选择变量时要注意与一些专门领城的专家合作。研究金融模型,就要与 些金融专家和具体业务人员合作;研究粮食生产问题,就要与衣业部门的一些专 家合作。这样做可以帮助我们确定模型变量。 另外,不要认为一个回归模型所涉及到的解释变量越多越好。一个经济祺 型,如果把一些主要变量漏掉肯定会影响模型的应用效果,但如果细枝末节-起 进人模型也未必就好。当引人的变量太多时,可能选择了·些与问题无关的变 量,还可能由于一些变量的相关性很强,它们所反映的信息有较严重的重叠,这 就出现共线性问题。当变量太多时,计算工作量太大,计算误差积累也大,估计 出的模型参数精度自然不高。 总之,回归变量的确定是一个非常重要的问题,是建立回归模型最基本的工 作。这个工作一般一次并不能完全确定,通常要经过反复试算,最终找出最适合 的一些变量。这在今天计算机的帮助下,已变得不太困难了。 二、收集、整理统计数据 回归模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量 之后,就要对这些变量收集、整理统计数据。数据的收集是建立经济问题回归模 型的重要一环,是一项基础性工作,样本数据的质量如何,对回归模型的水平有 至关重要的影响。 常用的样本数据分为时间序列数据和横截面数据。 10 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com