杜会学系列教树 第二章 多元线性回归 多元线性回归( multiple linear regression)是分析一个随机变量与多个变量 之间线性关系的最常用的统计方法。实际工作中,常常希望知道所关心的事物受 哪些因素的影响,比如销售量与价格和广告费的关系,农业产量与原料和气候的 关系,生育水平与教育水平和经济水平的关系,物价和失业率的关系,收入与受 教育程度和年龄的关系等等。多元线性回归用变量的观察数据拟合所关注的变量 和影响它变化的变量之间的线性关系式,检验影响变量的显著程度和比较它们的 作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化 回归这一名词起源于19世纪生物学家F.高尔顿进行的遗传学研究,他在研 究子女身高与父母身高之间关系时发现,下一代人身高有回归同时代人类平均身 髙的趋势Φ;之后统计学家K.皮尔逊又用观察数据证实了这一现象,从而产生 了回归( regression)这一名称。回归分析的核心“最小二乘法”则早在18世纪 就已被高斯应用于行星轨道的测定。现在多元线性回归已广泛应用于工农业生 产、企业管理、商业决策、金融分析以及自然科学和社会科学等许多研究领域 中 ①参见张小蒂:《应用回归分析》,1版,22页,杭州,浙江大学出版社,1991
多元回归将所研究的变量分为一个被影响变量(称为因变量, dependent ariable)和一组影响变量(称为自变量, independent variable),并要求因变量必 须是间距测度等级以上的变量(也称连续变量),自变量可以是间距测度变量、 也可以是名义测度等级的变量(也称分类变量)。对于后一种情形,可以用虚拟 变量回归解决。 因变量和自变量的确定是建立回归模型的主要任务。在回归模型中,研究人 员以规定因变量和自变量的方式确定研究变量之间的因果关系,加以量化描述 并根据实测数据求解这一模型的各个参数,评价回归模型是否能够很好地拟合实 测数据,检验各自变量的作用是否符合预先的构想。如果模型能够很好地拟合实 测数据,回归模型还可以用于预测。 但是,研究方法论告诉我们,因果关系是不可能完全根据统计分析所证明 的。在回归模型中表述的变量之间的因果关系即使很好地拟合了数据,也不能完 全肯定它实际上存在,因为在模型中将因变量和自变量互换,也同样可能很好地 拟合数据。因此严格地说,回归分析在研究中所起的作用不是确证因果关系,而 是确认因变量和自变量的统计关系是否存在。如果在变量之间有比较稳定的关 系、回归分析可以加以量化描述。因此,回归模型只是幣个研究方案中的一环, 它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展 开 本章第一节简介回归分析的作用。第二节讨论一元线性回归,主要帮助读者 建立有关回归分析的基本概念和应用回归的各种条件。第三节讨论多元线性回归 方程的建立。第四节介绍评价多元回归方程的有关指标。第五节介绍回归分析的 统计检验。第六节讲解标准化回归系数的作用。第七节内容是回归预测的区间估 计。第八节讨论回归分析的多重共线性问题及解决方法。第九节介绍虚拟变量及 其效应变量在多元回归分析屮的应用。回归分析涉及到大量数据计算,而今天已 经可以使用计算机和现成的统计软件准确高效地完成这一工作。本章关于回归分 析的统计内容将结合SPSS统计软件中回归程序的应用加以介绍,因此特设附录 介绍有关SPSS回归分析的操作及其有关技巧,以取得以上各节中回归分析的统 计指标。 、变量的关系和回的任务 在实际工作中,常常需要根据一个或多个变量的变化来确定和解释另一个变 量的变化。变量的关系可以分为两类,一类有确定的函数关系,比如销售额
(M)、价格(P)和销售量(Q)有关系为M=P×Q;知道其中两个变量,就 可以确定第三个变量,它们的观察值都落在表示它们关系的曲面上。由于测量误 差的关系,有的观察值可能会偏离曲面,但随着测量精度的提高,这种偏离就会 变得很小 另一类是统计相关关系。比如不同地区家庭的人均食品支出与人均收人的关 系,收入高的地区,往往食品支出也高(见图2-1),但是相同收入的地区,食 品支出不一定相同,这是因为后者还与地区物价以及不易测量的消费习惯等随机 因素有关。又比如,生育水平与经济水平的关系,经济水平高的国家,往往生育 水平就低(见图2-2),但二者也没有惟一确定的关系,这是因为除了经济因素 以外,生育水平还受教育水平、城市化水平以及不易测量的风俗、宗教和其他 1400 人1200 均食品支出元 800 400 1000 2000 2500 3000 人均收入(元) 图2一1我国分地区城镇居民年人均食品支出和人均收入散点图 500010000150002000025000300003500040000 人均国民生产总值(美元) 图2-2世界若干国家总和生育率和人均国民生产总值散点图
未知随机因素的影响。 对于统计相关的变量,我们希望能够在已知主要影响变量x变化的情况下 预测感兴趣变量y的变化。为此回归分析用一条直线或曲线拟合图2-1或图 2-2中的散点,来描述当x变化时y的平均值的变化。这条曲线就称为回归曲 线,它给出了ν在给定x的条件下的均值E(y/x)。因此对于统计相关的变量, 回归分析就是要寻找在给定x的条件下y的概率分布,从而用一种确定的函数 关系近似描述y与ⅹ的不确定关系 为了建立变量之间的关系形式,最直观的方法是观察它们的散点图。图2一 1显示我国分地区家庭人均食品支出与人均收入有较好的线性关系;图2-2则 显示生育水平与经济水平呈对数下降关系。通常希望用简单函数,比如直线来拟 合散点,当y与x为非线性关系时,或者通过变量变换,将它们转化为线性关 系;或者用多项式去拟合散点;也可以在不同阶段拟合线性或曲线关系式,用分 段函数表示在整个区域内的非线性关系。从而许多情况下都可以将变量的关系转 换成关于参数线性的线性关系式,多元线性回归就是讨论对于参数线性的回归问 元线性回归模型 我们从简单的情况开始,先来看含有一个自变量的线性回归问题。一个自变 量的回归称为一元回归或简单回归。 统计分析经常是先对总体中随机抽样得到的样本数据进行分析,然后再对总 体迸行推断在一般统计学教科书中,总体的各种指标称为参数( parameter.), 样本的各种指标称为统计量( statistic)因此,在后面的统计表述中经常需要分 清总体参数和样本统计量。在很多情况下,两者相互对应,所以为了简明,本章 采用许多教科书的作法,在一般情况下将总体参数用大写符号标注,将样本统计 量用小写符号标注 1.一元线性回归方程 用一个例子来示范一元线性回归方程的建立。这里主要帮助读者建立回归模 型的概念。 例1.表2—1列出了我国分地区家庭年人均食品支出与人均收入的数据。我 们感兴趣家庭的人均食品支出与他们的人均收入的关系,因此设食品支出为因变 量,记为Y,人均收人为自变量,记为X,由图2-1知道Y与X有较好的线
性关系,假设在总体中它们有满足下面的线性关系式①: Y=A+ BX 其中Y为随机变量,X为一般变量②,A、B为待定常数,称为模型参数,ε是 依赖于食品支出的总体随机误差项。鉴于社会科学研究通常是根据随机抽样样本 的观测数据来推断总体回归函数的参数,为了使例1回归分析取得更普遍的示范 意义,我们假定其数据是从总体通过随机抽样取得的观测数据。 将表2-1数据(y,x;),i=1,2,…,30,代入方程(1)中,则有回归 模型 t br.+ 0(2) 上式中e;为样本随机误差项。 然后,我们希望得到能够对观测数据拟合最优的回归方程估计 y=a +bzy (3) 式(3)称为y对x的回归方程,如果用最小二乘法( Ordinary Least qure,常简略标为OLS)求出系数所得到的方程表示一条直线,称为最小 二乘直线;y称为y的拟合值或预测值,它是在x条件下y的条件均值的估 计 将所有观测值与估计值之间的误差平方和 bx;)]2 应用最小二乘法来求总体参数A、B的估计值a、b,使误差平方和最小。为此 将上式分别对a、b求导数,令其等于0,由极值原理,求解得③ a=y- bx, b= (x-x)(y-y) (4) 由表21数据计算有a=-53.09,b=0.42。于是得到拟合图2-1散点的 回归直线 y=-53.09+0.42x ①这里“线性”是指模型关于参数是线性的,或Y的条件期望E(Y)=A+BN是 参数B的线性函数 2-般情况下,X也是随机变量,为了简化处理,当X的随机变化与X的值域相比很 小时,则忽略X的随机变化。参见王学仁,温忠嶙编译:《应用回归分析》,4页,重庆,重 庆大学出版社 ③证明请参见任何有关回归分析的著作
表2一11991年我国分地区家庭年人均食品支出和年人均收入及粮食单价数据 地区 人均食均粮食 人均食人均 粮食 品支出 收入单价 地区 品支出收入 单价 Foodexp In Pric Foodexp Income 北京 1016 1.04 河南 6441612 0.84 天津 20871.01 湖北 717 「北 19590.83 湖南 7232045 0.63 山西 576 16910.65 广东 2673329 1.37 内蒙古 540 15320.74 广西 8742106 0.72 辽宁 829 海南 9682032 1.49 林 638 164l 0.73 四川 7722008 0.67 黑龙江 62I 16l1 0.77 贵州 161705 t:海 234 29250.98 云南 江苏 21010.72 西藏 10722675 1.21 浙江 陕西 安徽 17270.70 甘肃 福建 青海 711 0.72 江西 15420.61 宁夏 6541951 0.70 山东 19290).84 4新疆609 1877 资料来源:国家统计局城市社会经济调査总队:中国城镇居民家庭收攴调査资料》,北京.中国统计 出版过,1991 注:为了方便起见,表中人均食品支出和人均收入数据均取整数。本书所附磁盘中的相应SPSS数据 文件名为121.SA 2.元回系数的意义 在回归模型(2)式中,a、b称为回归直线的系数。a是直线在y轴上的截距 代表y的基础水平;b是直线的斜率,它表示x变化一个单位时,y的平均变化。 用最小二乘法得到的A、B的估计a、b又称为最小二乘估计。例1回归结 果显示,回归直线在y轴上的截距为-53.09;斜率为0.42,即人均收入每上升 1元,人均食品支出平均上升0.42元;或者说人均收入每1元对食品支出的贡 献是0.42元。 3.变量变换 当因变量y与自变量x是非线性关系时,可以通过变量变换使经过变换的 新变量对于参数是线性的。SPSS回归程序可以检查变量之间是否线性关系,其 操作方法参见本章附录中3.。建立变换变量的工作在SPSS中能够轻易地通过
Transform菜单中的 Compute命令完成,操作方法参见本章附录中1.。 例2.图2-2显示总和生育率y与人均国民生产总值x呈对数下降关系,假 设它们有关系式为 y=a+ bln(x)+e 其中e为随机误差项,做变量变换,令x′=ln(x),则上式可写为 bx′+e 图2-3显示样本数据中总和生育率与人均国民生产总值的对数有较好的线 性关系,将表2-2中总和生育率和人均国民总产值的对数数据带入a、b的求 解式(3)中,求解得:a=9.18,b=-0.76,于是得到 y=9.18-0.76x (6) 表2-2 若干国家总和生育率和人均国民生产总值及婴儿死亡率数据 总和生育率人均国民总产值人均国民总产值婴儿死亡率 (1997年) (1995年) 的对数 (1997年) FR PCGNP LNPCGNP 德国 7510 10.22 39640 10.59 4.0 加拿大 6.2 法国 10.13 英国 9.84 6.2 澳大利亚 9.84 中国 6.43 31.0 挪威 爱尔兰 6.3 美国 10.20 7.3 巴西 8.20 土耳其 47.0 印度尼西亚 2.9 哥伦比亚 3.0 1910 墨西哥 3.1 3320 8.11 南非 3.2 3160 摩洛哥 3.3 62.0 菲律宾 埃及 44.0 尼日利亚 6.2 84.0 坦桑尼亚 6.3 91.0 埃塞俄比亚 4.61120.0 资料来源: Population Reference Bureau,Inc., World Popularion Data Sheet,1997 注:本书所附磁盘中的相应SPSS数据文件名为122SAV
式(6)显示,拟合图2-3散点的最小二乘直线在y轴上的截距为918;人均 国民总产值每增长e倍(此处的e不是回归误差项,而是自然对数底,人均国民 总产值的对数每上升1个单位相当于人均国民总产值提高约2.72倍),总和生育 率平均下降0.76个单位。 总和生育 人均国民生产总值的对数 图2—3若干国家总和生育率与人均国民生产总值对数的散点图 将式(5)变换成原变量的形式,即得到拟合总和生育率和人均国民总产值 的最小二乘曲线(见图2—2 对于呈非线性相关的变量,通常根据观察数据的分布形状,采用不同的曲线 拟合散点,最后选择拟合精度最高的曲线作为拟合曲线。对于变换后的线性模 型,求出未知参数后,可以再变回曲线形式。表2-3是几种常用的拟合曲线和 变量变换⑩。 表2 几种常用的拟合曲线和变量变换 函数名称 函数表达式 变量变换 变换后的形式 对数函数 y=a+bIn( x) x'=In(x) v-at or 幂函数 y=In(y).a'=In( a) y=a + br 指数函数 y=ae r y= In(v),a=In(a) v=a+b s型曲线 y-at oz 参见郑德如:《回归分析和相关分析》,1版,71-86页,上海,上海人民出版社 983
4.最小二乘佔计的统计性质 最小二乘估计在求解回归方程模型时是最常用的估计方法。最小二乘法得到 的回归方程佔计,它有以下很好的统计性质① (1)回归方程的拟合误差e;=y,-y的总和等于0,即∑e;=0 (2)误差平方和最小,即在所有拟合散点的直线中,根据最小二乘原则得到 的回归直线使n个散点(y,x,)沿y轴方向到直线的距离平方和最小。 (3)y的平均值等于y的平均值,即1、=y。 (4)x与e相互独立,即x与c的协方差(o(x,e)=1x(x;-x)(e) (5)y与e相互独立,即(ov(y,e 0 (6)直线通过n个散点的重心(y,x)点。 5.模型的假设条件 在实际回归研究中、常常是对从总体随机抽样的样本数据进行回归,然而研 究目的并不局限于描述样本的情况,而是通过样本推断总体的情况。上一小节所 介绍的最小二乘估计的统计性质都是就回归时所用的数据资料内部关系而言的, 但并不能保证样本回归所取得的最小二乘估计能够很好地推断总体情况。 统计理论已经证明,在满足一定的假设条件下,样本数据的最小二乘估计是 总体参数的最佳线性无偏估计。这是因为在推断总体参数或进行统计检验时,必 须考虑总体回归模型中的随机误差项ε的分布特征。因此,对随机误差项ε提出 若干基本假设条件 (1)高斯假设条件 以下四项假设条件是由德国数学家高斯(C.F.Gis)首先提出的,所以 常称之为高斯假设条件②。其假设条件如下: 对总体中各次观察的随机误差ε;,i=1,2,…,N,满足 ①证明参见:美]约翰·内特、威廉·沃寨曼、迈克尔·H·库特纳:《应用线性回归模 型》,中文1版,43-45页,北京,中国统计出版社,1990;张小蒂:《应用回归分析》,4 9页 e参见美]D.格杰雷蒂:《计量经济学概论》,中文1版,36-40页,北京,农业出 板社,1988
(a)零均值性:即在自变量取一定值X的条件下,其总体各误差项的条件 平均值为0。其数学表达式为:条件数学期望E(;/X;)=0;i=1,2, (b)等方差性:即在自变量取一定值X;的条件下,其总体各误差项的条件 方差为一常数。其数学表达式为:条件方差D(;/X;)=Var(e;/X}) (c)误差项之间相互独立(即不相关)性:即在自变量取任意不同值X和 X时,其误差项之间相互独立。其数学表达式为:协方差Cov(e;,,)=0;当 i≠j,i,j=1,2, (d)误差项与自变量之间相互独立性:即自变量的变化与误差项无关。其数 学表达式为:协方差Cov(e,X)=0。 以上假设条件总称为标准古典假设条件。符合上述假设条件的回归模型称为 一般线性回归模型( general linear regression model)。对于一般线性回归模型,最 小二乘估计a、b、分别是总体参数A、B、Y的无偏估计,即由多次抽样数 据计算得到的不同的a、b、y的均值分别等于A、B、Y。注意,它们只是总体 参数的点估计。 如果我们的目的只是进行点估计。符合上述假设的一般线性回归模型便足够 了。但是如果不仅需要对总体参数的点估计,还需要估计总体参数的置信区间 或者需要完成假设检验,便需要考虑抽样误差问题,考虑总体误差项ε的概率分 布 (2)正态误差假定 在以上假设条件的基础上,如果还假设e的分布形式为正态分布,则式(1) 称为正态误差模型,这时对所有X的取值X,N个随机变量e;,i=1,2 V,相互独立且服从同一正态分布Nor(O,a2)①,同时Y1也相互独立且服从 正态分布Nor(Y,σ2),于是样本统计量y、y、a、b均是服从正态分布的随 机变量。 综上所述,在对总体回归系数A、B和预测值Y进行区间估计和回归方程 的显著性检验时,需要对c的分布函数作出假设。这里∈代表方程中未包括的 其他因素的影响以及Y的随机误差,这些随机影响通常互相独立。根据中心极 限定理,如果c代表多种来源的误差之和,则不论那些误差各自分布如何,随着 ①一般用Nor(,a2)代表以μ为平均值、以σ2为方差的正态分布函数