21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第二章多元线性回归（1/2）

多元线性回归(multiple linear regression)是分析一个随机变量与多个变量之间线性关系的最常用的统计方法。实际工作中,常常希望知道所关心的事物受哪些因素的影响,比如销售量与价格和广告费的关系,农业产量与原料和气候的关系,生育水平与教育水平和经济水平的关系,物价和失业率的关系,收入与受教育程度和年龄的关系等等。多元线性回归用变量的观察数据拟合所关注的变量和影响它变化的变量之间的线性关系式,检验影响变量的显著程度和比较它们的作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化。

团购合买资源类别：文库，文档格式：PDF，文档页数：70，文件大小：3.05MB

多元回归将所研究的变量分为一个被影响变量(称为因变量, dependent ariable)和一组影响变量(称为自变量, independent variable),并要求因变量必须是间距测度等级以上的变量(也称连续变量),自变量可以是间距测度变量、也可以是名义测度等级的变量(也称分类变量)。对于后一种情形,可以用虚拟变量回归解决。因变量和自变量的确定是建立回归模型的主要任务。在回归模型中,研究人员以规定因变量和自变量的方式确定研究变量之间的因果关系,加以量化描述并根据实测数据求解这一模型的各个参数,评价回归模型是否能够很好地拟合实测数据,检验各自变量的作用是否符合预先的构想。如果模型能够很好地拟合实测数据,回归模型还可以用于预测。但是,研究方法论告诉我们,因果关系是不可能完全根据统计分析所证明的。在回归模型中表述的变量之间的因果关系即使很好地拟合了数据,也不能完全肯定它实际上存在,因为在模型中将因变量和自变量互换,也同样可能很好地拟合数据。因此严格地说,回归分析在研究中所起的作用不是确证因果关系,而是确认因变量和自变量的统计关系是否存在。如果在变量之间有比较稳定的关系、回归分析可以加以量化描述。因此,回归模型只是幣个研究方案中的一环, 它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开本章第一节简介回归分析的作用。第二节讨论一元线性回归,主要帮助读者建立有关回归分析的基本概念和应用回归的各种条件。第三节讨论多元线性回归方程的建立。第四节介绍评价多元回归方程的有关指标。第五节介绍回归分析的统计检验。第六节讲解标准化回归系数的作用。第七节内容是回归预测的区间估计。第八节讨论回归分析的多重共线性问题及解决方法。第九节介绍虚拟变量及其效应变量在多元回归分析屮的应用。回归分析涉及到大量数据计算,而今天已经可以使用计算机和现成的统计软件准确高效地完成这一工作。本章关于回归分析的统计内容将结合SPSS统计软件中回归程序的应用加以介绍,因此特设附录介绍有关SPSS回归分析的操作及其有关技巧,以取得以上各节中回归分析的统计指标。、变量的关系和回的任务在实际工作中,常常需要根据一个或多个变量的变化来确定和解释另一个变量的变化。变量的关系可以分为两类,一类有确定的函数关系,比如销售额

未知随机因素的影响。对于统计相关的变量,我们希望能够在已知主要影响变量x变化的情况下预测感兴趣变量y的变化。为此回归分析用一条直线或曲线拟合图2-1或图 2-2中的散点,来描述当x变化时y的平均值的变化。这条曲线就称为回归曲线,它给出了ν在给定x的条件下的均值E(y/x)。因此对于统计相关的变量, 回归分析就是要寻找在给定x的条件下y的概率分布,从而用一种确定的函数关系近似描述y与ⅹ的不确定关系为了建立变量之间的关系形式,最直观的方法是观察它们的散点图。图2一 1显示我国分地区家庭人均食品支出与人均收入有较好的线性关系;图2-2则显示生育水平与经济水平呈对数下降关系。通常希望用简单函数,比如直线来拟合散点,当y与x为非线性关系时,或者通过变量变换,将它们转化为线性关系;或者用多项式去拟合散点;也可以在不同阶段拟合线性或曲线关系式,用分段函数表示在整个区域内的非线性关系。从而许多情况下都可以将变量的关系转换成关于参数线性的线性关系式,多元线性回归就是讨论对于参数线性的回归问元线性回归模型我们从简单的情况开始,先来看含有一个自变量的线性回归问题。一个自变量的回归称为一元回归或简单回归。统计分析经常是先对总体中随机抽样得到的样本数据进行分析,然后再对总体迸行推断在一般统计学教科书中,总体的各种指标称为参数( parameter.), 样本的各种指标称为统计量( statistic)因此,在后面的统计表述中经常需要分清总体参数和样本统计量。在很多情况下,两者相互对应,所以为了简明,本章采用许多教科书的作法,在一般情况下将总体参数用大写符号标注,将样本统计量用小写符号标注 1.一元线性回归方程用一个例子来示范一元线性回归方程的建立。这里主要帮助读者建立回归模型的概念。例1.表2—1列出了我国分地区家庭年人均食品支出与人均收入的数据。我们感兴趣家庭的人均食品支出与他们的人均收入的关系,因此设食品支出为因变量,记为Y,人均收人为自变量,记为X,由图2-1知道Y与X有较好的线

(a)零均值性:即在自变量取一定值X的条件下,其总体各误差项的条件平均值为0。其数学表达式为:条件数学期望E(;/X;)=0;i=1,2, (b)等方差性:即在自变量取一定值X;的条件下,其总体各误差项的条件方差为一常数。其数学表达式为:条件方差D(;/X;)=Var(e;/X}) (c)误差项之间相互独立(即不相关)性:即在自变量取任意不同值X和 X时,其误差项之间相互独立。其数学表达式为:协方差Cov(e;,,)=0;当 i≠j,i,j=1,2, (d)误差项与自变量之间相互独立性:即自变量的变化与误差项无关。其数学表达式为:协方差Cov(e,X)=0。以上假设条件总称为标准古典假设条件。符合上述假设条件的回归模型称为一般线性回归模型( general linear regression model)。对于一般线性回归模型,最小二乘估计a、b、分别是总体参数A、B、Y的无偏估计,即由多次抽样数据计算得到的不同的a、b、y的均值分别等于A、B、Y。注意,它们只是总体参数的点估计。如果我们的目的只是进行点估计。符合上述假设的一般线性回归模型便足够了。但是如果不仅需要对总体参数的点估计,还需要估计总体参数的置信区间或者需要完成假设检验,便需要考虑抽样误差问题,考虑总体误差项ε的概率分布 (2)正态误差假定在以上假设条件的基础上,如果还假设e的分布形式为正态分布,则式(1) 称为正态误差模型,这时对所有X的取值X,N个随机变量e;,i=1,2 V,相互独立且服从同一正态分布Nor(O,a2)①,同时Y1也相互独立且服从正态分布Nor(Y,σ2),于是样本统计量y、y、a、b均是服从正态分布的随机变量。综上所述,在对总体回归系数A、B和预测值Y进行区间估计和回归方程的显著性检验时,需要对c的分布函数作出假设。这里∈代表方程中未包括的其他因素的影响以及Y的随机误差,这些随机影响通常互相独立。根据中心极限定理,如果c代表多种来源的误差之和,则不论那些误差各自分布如何,随着 ①一般用Nor(,a2)代表以μ为平均值、以σ2为方差的正态分布函数

点击下载完整版文档（PDF格式）

共70页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第二章多元线性回归（1/2）

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第二章 多元线性回归（1/2）

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第二章多元线性回归（1/2）