21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第六章 logistic回归

一、引言多元回归分析在社会科学中已经得到广泛应用,成为标准的统计工具。作为多元分析,它能够对社会现象提供较深入的解释力同时,它的计算机软件现在已广为流传,它的统计结果又可以比较直观地得到解释。多元回归的确具有许多良好的统计性质,甚至在应用中的一些必要的假设条件不能完全满足时,它也仍然可以得到不失为合理的结果。

团购合买资源类别：文库，文档格式：PDF，文档页数：38，文件大小：1.51MB

时候,或成为纯粹定性的变量。在社会科学研究中,因变量是定性变量的情况并不是少数,许多要研究的行为以及它们背后的态度和偏好是定性的,或至少是作为定性观测的。社会生活中人们会涉及到大量的决策,比如政治选举、是否加入某个社会团体、是否签订一个合同、是否迁移、是否再生育一个孩子,等等。所有这些行为、决策和意愿都是定性的,有时是在少数类型之间选择,有时甚至只有是否或正反两种类型。然而,社会科学研究仍需要探索有哪些重要因素会影响这些决策或行动。这些研究除了模型的因变量是定性的因变量以外,其他方面都与多元回归类似。但是在这种情况下,再使用多元回归便不可避免地违反其许多重要假设条件,导致回归估计的推断存在严重误差以致无论是进行假设检验,或是计算置信区间都失去了合理性。多元回归分析在这种条件下不宜再使用。本章要介绍的是适用于这种情况的一个分析方法本章的第二节将简要讨论线性回归模型在上述情况下为什么会产生问题和产生哪些问题,以便为建立新的方法作一铺垫。第三节介绍在因变量为二分定性变量的条件下如何建立lgsi回归模型,它是如何克服多元回归的局限性的。第四节讨论 logistic同归的回归系数的意义。第五节介绍 logistic回归的统计推断。第六节以一个例题的数据来示范使用SPSS软件进行 logistic回归的几种主要方从多元线性回归到 logistic回根据实际研究的需要而不断对多元线性回归进行改造和发展导致了一种新的分析方法— Deistic回归的产生。本节通过这一发展过程来介绍 logistic回归克服了多元线性回归的缺陷,以服务于对定性因变量的多元分析。同时,也就介绍了 logistic回归的一般原理及其具有的性质。多元线性回归不能应用于定性因变量分析主要有以下两个方面。 1.多元线性回归中使用定性因变量严重违反本身假设条件首先,多元线性回归属于一般最小二乘法( Ordinary Least Square)一族的统计分析。这种方法通常要求变量在间距测度等级以上,也就是平常所说的连续变量。它还要求自变量之间不能完全相关,这是OLS回归能够求解的前提。此外,它还需要一系列其他假设条件,其中特别是关于误差项e的假设条件,主要

有以下几条①: (1)e与任何一个自变量x都不相关,并且它的平均数为0。 (2)关于e的另一个假设是,对应不同自变量值x;的各e;有不变的方差, (3)关于e;还有一假设是,在各个观测自变量点x;上的误差e之间无关。 (4)最后一个假设条件是,c;是正态分布的。以上的前三个假设经常被称为高斯一马尔可夫假设条件,因为它们即为高斯一马尔可夫定理中的条件。这个定理说明,在这一套假设条件下,OLS估计即为对于y的所有线性无偏估计中是最好的,即最有效( efficient),或者说具有最小的抽样方差,被称为BLUE,以代表最佳的线性无偏估计( the best linear, unbiased estimator)②。其中,假设(2)和假设(3)通常分别被称为“一致分布”( homoscedasticity和“序列独立”( series independent)。加上第4个假设条件后,那么回归系数的估计bk就是正态分布的。b的抽样方差可以计算,并且它们的分布已知。由此,可做假设检验,可建立置信区间,以及其他统计推断工作。当以虚拟编码的二分定性变量(即变量只能取值为0和1)为因变量的常规回归时,OLS估计就开始产生问题了。 OLS回归模型不限制自变量的取值,只限制它们之间不能是其他的线性组合。它们可以为连续的间距等级(如一个公司的净利润),也可以只取正值或零值(如一个党所得到的选票比例),也可以是整数(如某个家庭的子女数),也可以是虚拟变量(如男性赋值1.女性赋值0)。既然对α和b以及e都没有限制, 那么当然对因变量y便不存在限制。y可以从负无穷至正无穷中自由选择任何值。但是如果在实际观察中,只允许y取两个值(如0和1),那么关于因变量是连续的这一基本假设便十分严重地违反了,这应该引起我们特别的注意。如果因变量y只能取两个观测值,那么在其他不变的情况下,对于任何给定的xo值,c0本身只能取得两个值。为了简明,仅以简单OLS回归为例。令本章中,小写英文字母代表样本统计量( sample statistic),大写英文字母代表总体参数( population parameter)。参见 Moscr CA. and Graham Kalton(1979) Survey Methods in So cial Investigation, Second Edition. London: Heinemann Educational books 这两个概念是与抽样调查相联系的.而我们一般则是通过抽样统计来推断总体参数。 e DE Ardrich and Nelson(1984)Linear Probability, Logit and Probit Models. sage Publ cation

a+bx,那么对于任一x0,在y=0时有e0=0-y;在y=1时有eo=1-y 这就是说,虽然上述第一个关于e的关键假设(即e的期望值为0)仍然保持着,因而OLS对b的估计是无偏的,然而关于e;有不变方差的假设已不再能维持。实际上,c的方差是随自变量的取值进行系统的变动的。这是因为对于不同的自变量值x,由于因变量估计值ⅳ=a+bx;也不同,那么其误差能取的两项值也相应变化,最后导致e,的方差发生系统变动。作为结果,OLS的估计b虽然是无偏的但不是最好的,就是说它们不具有尽可能小的抽样方差。随之而来的是,对抽样方差的估计将是错误的,并且任何假设检验(如t检验和F检验)或在这些抽样方差的基础上建立的置信区间都是无理的,即使对于非常大的样本也是同样。因此,OLS对二分因变量的回归估计尽管是无偏的、但不能令人满意。有人提出了一种两步的加权估计来改正对线性概率模型的OLS回归,并命名为WLS方法( weighted Least squares)。这种方法计算的回归估计不仅是无偏的,而且具有尽可能小的抽样方差,参数估计的标准误对建立假设检验及其他来说也是正确的。但是,由于e;只能取两个值便不能是正态分布的。只有对于较大样本抽样误差才近似于正态分布,WLS估计的b才可以作为近似正态分布假设检验及其他工作才可以照常进行,所以这种方法只有对较大样本才适用。但是WLS还是线性回归,只是估计方法有所变化,它与原来的OLS共同的问题在于,如果它们以虚拟变量作为因变量,其因变量的估计值不仅可以处于0 和1之间,而且还可以大大超出和远离这个值域,那么当因变量作为概率来理解时就产生了困难。 2.线性概率模型及其问题当因变量是只能取值0和1、并作为事件发生与不发生两种情况来理解时, S和WLS都是线性概率模型( linear probability model,简称为LPM)。“线性”指模型中假设自变量对因变量的作用是线性的;“概率”则是指将模型的因变量理解为概率。这样一来,回归模型就是在分析当自变量变化时概率 p(y=1)是如何变化的。这时,解释不同自变量值所产生的因变量估计却有很大问题。首先,概率当然要限制于0至1的区间之中,然而线性回归方程却不能做到这一点。结果,线性概率模型就必须生硬规定,凡大于1的y估计值都作为1来理解,而小于0的y估计值都要作为0来理解。其次,线性概率的假设往往与实际情况不相吻合。这就涉及到现实当中存在

的收益递减(增)规律,即事物变化经常在初期阶段缓慢发展,然后逐渐加速至发展速度到达极限后,又会逐渐减速。而在线性概率模型中,自变量的边际作用b却只是一个常数。这样的模型就好比是说,对于一个年薪5000元的人、个年薪5万元的人和一个年薪50万元的人,当他们的年收入再提高5000元时会以同样幅度增加他们各自购买汽车的概率。事实上,多增加5000元收人对于这三个人的意义及其在购买汽车问题上的作用是大不一样的。一个特别有钱的人当然比钱数少的人更可能拥有汽车,但是再给他增加5000元收入对他决定购买汽车的概率也增加不了多少。对于钱数很少的人来说,增加5000元的年薪也不会增加其多少购车概率。所以,对于前两者增加5000元年薪对于其购车概率的提高幅度都很接近0。但是,5000元年薪的增加对于已经有5万元年收入的人就很不一样了。这一点是我们的常识。另外,如果y与x之间的真实关系或更准确地说y的期望与x之间的关系是非线性的,但由于我们对这一真实关系的无知而采用了线性概率模型作为近似结果将是对于x在不同取值范围中的作用出现过于简单化的错误估计总而言之,在为只限于0和1之间的概率选用模型时,线性概率模型是不太合适的。三、 logistic回归模型的建立上一节说明,如果我们错误地认定模型是线性的,那么在线性假设下导出的统计性质一般来说不能成立。其次,还有许多原因导致假设概率与自变量为线性模型在很多场合是不实用的。以非线性概率模型代替线性概率模型能够解决这些问题。如果我们将收益递减规律纳入我们制定的模型,考虑某一自变量在变化范围之间所起的作用可以有变化,确切地说,就是在变化范围的两端作用较小,而在其变化的中间部分作用较强,我们就假设这一自变量对因变量的作用并不是线性的,于是我们就转向了非线性的模型。同时,还要考虑到我们要设定的是一个概率模型,也就是说,模型的因变量的变化范围必须处于0和1之间。随着自变量的变化,这一概率总是在变化,但是概率的值永远不会小于0和大于当然,这种假设与线性假设一样是硬性规定的。但是这种假设并不一定就比线性假设更差,在许多实际情况下,它还似乎比线性假设更为合理那么是否有这样一种曲线能够满足我们的要求呢?实际上,这样的曲线的确

是有的,而且不只一种。最常用的曲线是 logistic曲线,此外还有一种被经常使用的是对正态分布曲线进行积分的概率曲线。当然还有一些其他类似的曲线,但是由于使用起来不太方便,它们的应用就不太普遍。在本章中,我们主要介绍应用 logistic曲线进行的问归分析。由于其在实际求解时有很多优越性,所以 logis- tic回归的应用最为普遍。 1. logistic I函数及其性质 logistic函数(罗吉斯蒂函数)又称增长函数。此函数曾于1838年由比利时学者维尔玉斯特(PF. Verhulst)第一次提出,后湮没失传。1920年,美国学者珀尔和利德( Robert b. Pearl and Lowell J.Reed)在研究果蝇的繁殖中,重新发现这个函数,并开始在人口估计和预测中推广应用,并引起广泛注意。① logistic函数的原型为②: P=(.-(a+ bt) 其中,t为时间,P为时间t上的人口数,L为P的最大极限值,a和b分别是有关参数。作为人口预测函数,P永远取正值(>0)。根据我们非线性概率模型的要求,需将P换成概率p=p(y=1),还要将上限L改为1。于是,概率的值域就被限制在(0,1)之间的合理范围内。上限p=1和下限p=0都是水平渐近线,实际上无论参数和自变量值如何变化,函数值都不会达到上限点或下限点。此外,由于我们未必一定要用时间作为自变量,因此我们将t改为x以泛指任意一个自变量,其值域也没有任何限制。于是,就得到了 logistic概率函数。下面我们通过几个 logistic函数的曲线(图6-1-1、6-1-2、6-1-3 6-1-4),来熟悉一下这一函数的性质和有关参数的作用。 logistic的概率函数定义为: 1+exp[ -(a+bx) 它也可以改写成如下形式 1+ expl b(-a/b (2 C Henry S Shryock, Jacob S Siegel and Associates(1976) The Methods and Material of Demography. Academic press:215-216.刘铮主编:《人口学辞典》,1版,239~241页,北京,人民出版社,1986 ②下面式中exp[u]表示自然对数底的指数函数,即e。下同

点击下载完整版文档（PDF格式）

共38页，可试读13页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录