中国人民大学出版社：《应用回归分析》书籍文献（第四版）统计学教材电子版（共九章，主编：何晓群、刘文卿）.pdf_大学文库

互有联系的经济现象及经济变量间关系的紧密程度各不一样。一一种极端的情况是一个变量的变化能完全决定另一个变量的变化。例如，一个保险公司承保汽车5万辆，每辆保费收入为1000元，则该保险公可汽车承保总收入为5000万元。如果把承保总收人记为y,承保汽车辆数记为x,则y=1000x。x与y两个变量间完全表现为一种确定性关系，即函数关系。如图1.1所示。 y6000r 万5000 y=1000x 元4000 300 2000 1000 012345 图1.1函数关系田再如.银行的年期存款利率为年息2.55%，存入的本金用x表示，到期的本息用v表示，则y=x+2.55%x。这里y与x仍表现为-一种线性函数关系。对于任意两个变量间的函数关系，我们可以表述为下面的数学形式 y=f(I) 再如，工业企业的原材料消耗总额用y表示，生产量用x1表示，单位产量消耗用2表示，原材料价格用x3表示，则 y=z1n2x3 这里的y与x1,2,x3仍是一种确定性的函数关系，但它们显然不是线性函数关系了。我们可以将变量y与p个变量x,x2,,x之间存在着的某种函数关系用下面的形式表示 V=f(x1,x3,",t)】经济问题中还有很多函数关系的例子。物理学中的自由落体距离公式、初等数学中许多计算公式等都是变量间的函数关系。然而，现实世界中还有不少情况是两事物之间有着密切的联系，但它们密切的程度并没有到由一个可以完全确定另一个的程度。下面举儿个例子。 1.我们都知道某种高档消费品的销售量与城镇居民的收人密切相关，居民收入高了这种消费品的销售量就大。但是由居民收入x并不能完全确定某种高档消费品的销售量y,因为这种高档消费品的销售量还受着人们的消费习惯、心理因素、其他商品的吸引程度及价格的高低等诸多因素的影响。这样变量ν与 2 PDF created with pdfFactory Pro trial version ww.pdffactory.com

变量x就是一种非确定的关系，见图1.2。 0 图1.2y与x非确定性关系图 2.粮食产量y与施肥壁x之间有着密切的关系，在·定的范围内，施肥量超多，粮食产量就越高。但是，施肥量并不能完全确定粮食产量，因为粮食产量还与其他因素的影响有关，如降雨量、田间管理水平等。因此粮食产量ν与施肥量x之间不存在确定的函数关系。 3.储蓄额与居民的收入密切相关，但是由居民收入并不能完全确定储蓄额。因为影响储蓄额的因素很多，如通货膨张、股票价格指数、利率、消费观念、投资意识等。因此尽管储蓄额与居民收入有密切的关系，但它们之间并不存在一种确定性关系。再如：广告费支出与商品销售额，保险利润与保费收人、工业产值与用电量等。这方面的例子不胜枚举。以上变量间关系的一个共同特征是它们之间有密切关系，但它们是一种非确定性关系。由于经济何题的复杂性，有许多因素因为我们的认识以及其他客观原因的局限，并没有包含在内。或者由于试验误差、测量误差以及其他种种偶然因素的影响，使得另外一个或一些变量的取值带有一定的随机性。因而当一个或些变量取定值后，不能以确定值与之对应。从图1.1看到确定性的函数关系，各对应点完全落在一条直线上。而由图 1.2看到，各对应点并不完全落在一条直线上，即有的点在直线上，有的点在直线的两边。对于这种对应点不能分布在一条直线上的变量间的关系，也就是变量 x与y之间有一定的关系，但是又没有密切到可以通过x惟一确定y的程度，这种关系正是统计学中研究的重要内容。在推断统计中，我们把上述变量间具有密切关联而又不能由某一个或某一些变量惟一确定另外一个变量的关系，称为变量间的统计关系或相关关系。这种统计关系规律性的研究是统计学中研究的主要对象，现代统计学中关于统计关系的研究已形成两个重要的分支，它们叫相关分析和回归分析。 3 PDF created with pdfFactory Pro trial version www.pdffactory.com

同归分析和相关分析都是研究变量间关系的统计学课题。在应用中，两种分析方法经常相互结合和渗透，但它研究的侧重点和应用面不同。它们的差别主要有以下几点：一是在回归分析中，变量y称为因变量，处在被解释的特殊地位。在相关分析中，变量y与变量x处于平等的地位，即研究变量y与变量x 的密切程度与研究变量x与变量y的密切程度是一回事。二是相关分析中所涉及的变量y与x全是随机变量。而回归分析中，因变量y是随机变量，自变量x 可以是随机变量，也以是非随机的确定变量。通常的回归漠型中，我们总是假定x是非随机的确定变量。三是相关分析的研究主要是为刻画两类变量问线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小，还可以由可时方程进行预测和控制。由于问归分析与相关分析的研究侧重不同，使得它们的研究方法也大不相同。问分析已成为现代统汁学中应用最广泛、研究最活跃的一个独立分支。 1.2回归方程与回归名称的由来可分析是处理变量x与y之间的关系的一种统计方法和技术。这里所研究的变量之间的关系就是上述的统计关系。即当给定x的值y的值不能确定，只能通过一定的概率分布来描述。于是，我们称给定x时y的条件数学期望 f(x)=E(ylx) (1.1) 为随机变量y对x的问归函数，或称为随机变昼y对x的均值回归函数。(1.1) 式从平均意义上刻画了变量x与y之间的统计规律。在实际问题中，我们把x称为自变量，y称为因变量。如果要由x预测y, 就是要利用x,ν的观察值，即样本观测值（x1,y1),(z2y2,…,(n+yn) (1.2) 来建立一个公式，当给定x值后，就代入此公式中算出·个y值，这个值就称为y的预测值。如何建立这个公式，这就要从样本观测值(x,)出发，观察 (x,y)在平面直角坐标系上的分布情况，图1.2就是居民收入与商品销售额的散点图。由这个图可看出样本点基本上分布在一条直线的周围，因而要确定商品销售额y与居民收人x的关系，可考感用一个线性函数来描述。图1.2中的直线即为线性方程 y=a+Ar (1.3) 方程(1.3)式中的参数。，3尚不知道，这就需要由样本数据(1.2)式去进行 4 PDF created with pdfFactory Pro trial version www.pdffactory.com

估计。具体如何去估计参数4，B,我们在第二章中将详细介绍。当我们由样本数据(1.2)式估计出a,3的值后，以估计值在，分别代替 (1.3)式中的a,3,得方程 y=&+ (1.4) (1.4)式方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性关系，故我们称(1.4)式为y对x的线性回归方程。又因(1.4)式的建立依赖于观察或试验积累的数据(1.2)式，所以我们又称(1.4)式为经验回归方程。相对这种出法，我们把(1.3)式称为理论回方程。理论回日方程是设相把所研究问题的总体中每一个体的(x,y)值都测量了，利用其全部结果而建立的回归方程(1.3)式，这在实际中是办不到的。理论回归方程中的。是方程(1.3)式所画出的直线在y 轴上的截距，B为直线的斜率，它们分别称为回归常数和回归系数。而方程(1.4) 式中的参数丘，3被称为经验回归常数和经验回归系数。回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家 F.高尔顿(F.Galton:1822~1911)。高尔顿和他的学生、现代统计学的奠基者之一K,皮尔逊(K.Pearson:1856~1936)在研究父母身高与其子女身高的遗传问题时，观察了1078对夫妇，以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将结果在平面直角坐标系上绘成散点图，发现趋势近乎一条直线。计算出的回归直线方程为 y=33.73+0.516x (1.5) 这种趋势及回归方程总的表明父母平均身高x每增加一个单位时，其成年儿子的身高v也平均增加0.516个单位。这个结果表明，虽然高个子父辈确有生高个子儿子的趋势，但父辈身高增加一个单位，儿于身高仅增加半个单位左右。反之，矮个子父辈确有生矮个子儿子的趋势，但父辈身高诚少一个单位，儿子身高仅减少半个单位左右。通俗地说，一群特高个子父辈（例如排球运动员）的儿子们在同龄人中平均仅为高个子，一群高个子父辈的儿子们在同龄人中平均仅为略高个子；一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子，一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子，即子代的平均高度向中心回归了。正是因为子代的身高有回到同龄人平均身高的这种趋势，才使人类的身高在一定时间内相对稳定，没有出现父辈个子高其子女更高，父辈个子矮其子女更矮的两极分化现象。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述这种有趣的现象，高尔顿引进了“回归”这个名词来描述父辈身高x与子代身高y的关系。尽管“回归”这个名称的由来具有其特定的含义，人们在研究大量 5 PDF created with pdfFactory Pro trial version www.pdffactory.com

二、回归模型的一般形式如果变量x1,x2,…,x,与随机变量y之间存在着相关关系，通常就意味着每当x1,x2,…,xp取定值后，y便有相应的概率分布与之对应。随机变量 y与相关变量x,x,,xp之间的概率模型为 v=fx1,x2.…,xp)+e (1.6) 其中，随机变量y称为被解释变量（因变量）；x1,x2,…,x称为解释变量 (自变量)。在计量经济学中，也称因变量为内生变量，自变量为外生变量： f代x1,x2,…,cp)为一般变量x1,x2,…,xb的确定性关系，e为随机误差。正是因为随机误差项€的引人，才将变量之间的关系描述为一个随机方程，使得我们可以借助随机数学方法研究y与x1,x2,…,x的关系。由于客观经济现象是错综复杂的，一种经济现象很雅用有限个因素来准确说明，随机误差项可以概括表示由于人们的认识以及其他客魂原因的局限而没有考虑的种种偶然因索。随机误差项主要包括下列因素的影响： 1.由于人们认识的局限或时间、费用、数据质量等制约未引入回归模型但又对回归被解释变量y有影响的因素： 2.样本数据的采集过程中变量观测值的观测误差的影响： 3.理论模型设定误差的影响： 4.其他随机因素的影啊。模型(1.6)式清楚地表达了变量x1,x2,…,xe与随机变量y的相关关系，它由两部分组成：一部分是确定性函数关系，由回归函数f代x1,x2,…,x)给出：另一部分是随机误差项ε。由此可见模型(1.6)式准确地表达了相关关系那种既有联系又不确定的特点。当概率模型(1.6)式中回归函数为线性函数时，即有 y=+1x1t2x2t…+月p+e (1.7) 其中，风，月1，品2，，丹。为未知参数，常称它们为回归系数。线性回归模型的“线性”是针对未知参数A(i=0,1,2,…,p)而言的。对于回归解释变量的线性是非本质的，因为解释变量是非线性时，常可以通过变量的替换把它转化成线性的。如果{x1,x2,…,xp;y,),i=1,2,…,n是(1.7)式中变量(x1,x2,…,xp y)的一组观测值，则线性回归模型可表示为 y=%+B1x1+2.x21…'rp+e,i=1,2,…,n (1.8 为了估计模型参数的需要，古典线性回归模型通常应满足以下几个基本假设： PDF created with pdfFactory Pro trial version www.pdffactory.com

1.解释变量t1,x2,…,t是非随机变量，观测值x1,x2,…,x是常数。 2.等方差及不相关的假定条件为 E(e,)=0,i=1,2,…,n .=j1,2.,n） 10,≠j 这个条件称为高斯-马尔柯夫(Gauss-Markov)条件，简称G-M条件。在此条件下，便可以得到关于回归系数的最小二乘估计及误差项方差。2估计的一些重要性质，如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。 3.正态分布的假定条件为 eN(0,c2),i=1,2,…,n 1,e2,…,9*相互独立在此条件下便可得到关于回归系数的最小二乘估计及。2估计的进一步的结果，如它们分别是回归系数及。的最小方差无偏估计等，并且可以作回归的显著性检验及区间估计。 4.通常为了便于数学上的处理，还要求n>p,即样本容量的个数要多于解释变量的个数。在整个回归分析中，线性回归的统计模型最为重要。一方面是因为线性回归的应用最广泛；另一方面是只有在回归模型为线性的假定下，才能得到比较深人和一般的结果；再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行处理。因此，线性回归模型的理论和应用是本书研究的重点。对线性回归模型我们通常要研究的问题有： 1.如何根据样本(x1,x2…,py),i=1,2,…,n求出风，月1,2…，月，及方差。2的估计： 2.对回归方程及回归系数的种种假设进行检验； 3.如何根据回归方程进行预测和控制，以及如何进行实际问题的结构分析。 1.4建立实际问题回归模型的过程在实际问题回归分析模型的建立和分析中有几个重要的阶段，为了给读者个整体印象，我们以经济模型的建立为例，先用逻辑框图表示回归模型的建模过程。见图1.3。下面我们按逻辑框图顺序叙述每个阶段要做的工作以及应注意的问题 PDF created with pdfFactory Pro trial version www.pdffactory.com

指标确定为解释变量。参考文献[37]在研究中国储蓄被动机理中，曾把各项银行存款作为被解释变量，把货币发行量、全国零售物价指数、股票价格指数、银行利率、国债利率、居民收入等16个指标确定为解释变量。对一个具体的经济问题，当研究目的确定之后，被解释变量容易确定，被解释变量-般直接表达、刻画研究的目的。就像参考文献[9]、[37]中根据研究的问题，直接将全国零售物价总指数和银行存款分别作为通货膨胀问题和储蓄问题的被解释变量。而对被解释变量有影响的解释变量的确定就不太容易。一是由于我们的认识有局限，可能并不知道对被解释变量有重要影响的因素。二是为了模型参数估计的有效性，设置的解释变量之间应该是不相关的。我们很难确定哪些变量是相关的，哪些不是相关的、因为在经济问题中很难找到影响同一结果的一些因素它们之间是独立的。这就看我们如何在多个变量中确定儿个重要的、且不相关的变量。三是我们从经济关系角度考虑非常重要的变量应该引进，但是在实际中并没有这样的统计数据。这一点，在我国建立经济模型时经常会遇到。这时可以考虑用相近的变量代替，或者由其他几个指标复合成·个新的指标。在选择变量时要注意与一些专门领城的专家合作。研究金融模型，就要与些金融专家和具体业务人员合作；研究粮食生产问题，就要与衣业部门的一些专家合作。这样做可以帮助我们确定模型变量。另外，不要认为一个回归模型所涉及到的解释变量越多越好。一个经济祺型，如果把一些主要变量漏掉肯定会影响模型的应用效果，但如果细枝末节-起进人模型也未必就好。当引人的变量太多时，可能选择了·些与问题无关的变量，还可能由于一些变量的相关性很强，它们所反映的信息有较严重的重叠，这就出现共线性问题。当变量太多时，计算工作量太大，计算误差积累也大，估计出的模型参数精度自然不高。总之，回归变量的确定是一个非常重要的问题，是建立回归模型最基本的工作。这个工作一般一次并不能完全确定，通常要经过反复试算，最终找出最适合的一些变量。这在今天计算机的帮助下，已变得不太困难了。二、收集、整理统计数据回归模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后，就要对这些变量收集、整理统计数据。数据的收集是建立经济问题回归模型的重要一环，是一项基础性工作，样本数据的质量如何，对回归模型的水平有至关重要的影响。常用的样本数据分为时间序列数据和横截面数据。 10 PDF created with pdfFactory Pro trial version www.pdffactory.com