杜会学系列教材 第六章 logistic 引言 多元回归分析在社会科学中已经得到广泛应用,成为标准的统计工具。作为 多元分析,它能够对社会现象提供较深人的解释力。同时,它的计算机软件现在 已广为流传,它的统计结果又可以比较直观地得到解释。多元回归的确具有许多 良好的统计性质,甚至在应用中的一些必要的假设条件不能完全满足时,它也仍 然可以得到不失为合理的结果。 但是,多元回归中的某些统计假设非常关键,违反它们将导致相当不合理 的估计。比如多元回归分析的一个基本要求是,因变量必须是具有间距测度等 级的连续变量。但是,在实际研究中这个要求经常不能得到很好的满足。比如 我们想研究社会中家庭规模是由哪些因素决定的,然而当代社会中绝大多数家 庭都已经是五人以下,也就是说因变量的取值只有少数几个整数值。同样的问 题在研究妇女生育子女数量时也会发生。在这样的情况下,不管自变量如何 变化,因变量也不可能有太大变化,这就会损伤多元回归的效力。尽管如此, 家庭规模或生育子女数仍然是一个真正的定量变量,我们仍然可以使用多元回 归来进行分析。在更为极端的情况下,因变量的取值缩小到只有两种可能性的
时候,或成为纯粹定性的变量。在社会科学研究中,因变量是定性变量的情 况并不是少数,许多要研究的行为以及它们背后的态度和偏好是定性的,或 至少是作为定性观测的。社会生活中人们会涉及到大量的决策,比如政治选举、 是否加入某个社会团体、是否签订一个合同、是否迁移、是否再生育一个孩 子,等等。所有这些行为、决策和意愿都是定性的,有时是在少数类型之间选 择,有时甚至只有是否或正反两种类型。然而,社会科学研究仍需要探索有哪 些重要因素会影响这些决策或行动。这些研究除了模型的因变量是定性的因变 量以外,其他方面都与多元回归类似。但是在这种情况下,再使用多元回归 便不可避免地违反其许多重要假设条件,导致回归估计的推断存在严重误差 以致无论是进行假设检验,或是计算置信区间都失去了合理性。多元回归 分析在这种条件下不宜再使用。本章要介绍的是适用于这种情况的一个分析方 法 本章的第二节将简要讨论线性回归模型在上述情况下为什么会产生问题和产 生哪些问题,以便为建立新的方法作一铺垫。第三节介绍在因变量为二分定性变 量的条件下如何建立lgsi回归模型,它是如何克服多元回归的局限性的。第 四节讨论 logistic同归的回归系数的意义。第五节介绍 logistic回归的统计推断。 第六节以一个例题的数据来示范使用SPSS软件进行 logistic回归的几种主要方 从多元线性回归到 logistic回 根据实际研究的需要而不断对多元线性回归进行改造和发展导致了一种新的 分析方法— Deistic回归的产生。本节通过这一发展过程来介绍 logistic回归克 服了多元线性回归的缺陷,以服务于对定性因变量的多元分析。同时,也就介绍 了 logistic回归的一般原理及其具有的性质。 多元线性回归不能应用于定性因变量分析主要有以下两个方面。 1.多元线性回归中使用定性因变量严重违反本身假设条件 首先,多元线性回归属于一般最小二乘法( Ordinary Least Square)一族的 统计分析。这种方法通常要求变量在间距测度等级以上,也就是平常所说的连续 变量。它还要求自变量之间不能完全相关,这是OLS回归能够求解的前提。此 外,它还需要一系列其他假设条件,其中特别是关于误差项e的假设条件,主要
有以下几条①: (1)e与任何一个自变量x都不相关,并且它的平均数为0。 (2)关于e的另一个假设是,对应不同自变量值x;的各e;有不变的方差, (3)关于e;还有一假设是,在各个观测自变量点x;上的误差e之间无关。 (4)最后一个假设条件是,c;是正态分布的。 以上的前三个假设经常被称为高斯一马尔可夫假设条件,因为它们即为高 斯一马尔可夫定理中的条件。这个定理说明,在这一套假设条件下,OLS估计 即为对于y的所有线性无偏估计中是最好的,即最有效( efficient),或者说具 有最小的抽样方差,被称为BLUE,以代表最佳的线性无偏估计( the best linear, unbiased estimator)②。其中,假设(2)和假设(3)通常分别被称为“一 致分布”( homoscedasticity和“序列独立”( series independent)。 加上第4个假设条件后,那么回归系数的估计bk就是正态分布的。b的抽 样方差可以计算,并且它们的分布已知。由此,可做假设检验,可建立置信区 间,以及其他统计推断工作。 当以虚拟编码的二分定性变量(即变量只能取值为0和1)为因变量的常规 回归时,OLS估计就开始产生问题了。 OLS回归模型不限制自变量的取值,只限制它们之间不能是其他的线性组 合。它们可以为连续的间距等级(如一个公司的净利润),也可以只取正值或零 值(如一个党所得到的选票比例),也可以是整数(如某个家庭的子女数),也可 以是虚拟变量(如男性赋值1.女性赋值0)。既然对α和b以及e都没有限制, 那么当然对因变量y便不存在限制。y可以从负无穷至正无穷中自由选择任何 值。但是如果在实际观察中,只允许y取两个值(如0和1),那么关于因变量 是连续的这一基本假设便十分严重地违反了,这应该引起我们特别的注意。 如果因变量y只能取两个观测值,那么在其他不变的情况下,对于任何给 定的xo值,c0本身只能取得两个值。为了简明,仅以简单OLS回归为例。令 本章中,小写英文字母代表样本统计量( sample statistic),大写英文字母代表总体参 数( population parameter)。参见 Moscr CA. and Graham Kalton(1979) Survey Methods in So cial Investigation, Second Edition. London: Heinemann Educational books 这两个概念是与抽样调查相联系的.而我们一般则是通过抽样统计来推断总体参数。 e DE Ardrich and Nelson(1984)Linear Probability, Logit and Probit Models. sage Publ cation
a+bx,那么对于任一x0,在y=0时有e0=0-y;在y=1时有eo=1-y 这就是说,虽然上述第一个关于e的关键假设(即e的期望值为0)仍然保持 着,因而OLS对b的估计是无偏的,然而关于e;有不变方差的假设已不再能维 持。实际上,c的方差是随自变量的取值进行系统的变动的。这是因为对于不同 的自变量值x,由于因变量估计值ⅳ=a+bx;也不同,那么其误差能取的两项 值也相应变化,最后导致e,的方差发生系统变动。 作为结果,OLS的估计b虽然是无偏的但不是最好的,就是说它们不具有 尽可能小的抽样方差。随之而来的是,对抽样方差的估计将是错误的,并且任何 假设检验(如t检验和F检验)或在这些抽样方差的基础上建立的置信区间都 是无理的,即使对于非常大的样本也是同样。因此,OLS对二分因变量的回归 估计尽管是无偏的、但不能令人满意。 有人提出了一种两步的加权估计来改正对线性概率模型的OLS回归,并命 名为WLS方法( weighted Least squares)。这种方法计算的回归估计不仅是无偏 的,而且具有尽可能小的抽样方差,参数估计的标准误对建立假设检验及其他来 说也是正确的。但是,由于e;只能取两个值便不能是正态分布的。只有对于较 大样本抽样误差才近似于正态分布,WLS估计的b才可以作为近似正态分布 假设检验及其他工作才可以照常进行,所以这种方法只有对较大样本才适用。 但是WLS还是线性回归,只是估计方法有所变化,它与原来的OLS共同的 问题在于,如果它们以虚拟变量作为因变量,其因变量的估计值不仅可以处于0 和1之间,而且还可以大大超出和远离这个值域,那么当因变量作为概率来理解 时就产生了困难。 2.线性概率模型及其问题 当因变量是只能取值0和1、并作为事件发生与不发生两种情况来理解时, S和WLS都是线性概率模型( linear probability model,简称为LPM)。“线 性”指模型中假设自变量对因变量的作用是线性的;“概率”则是指将模型的因 变量理解为概率。这样一来,回归模型就是在分析当自变量变化时概率 p(y=1)是如何变化的。这时,解释不同自变量值所产生的因变量估计却有很 大问题。 首先,概率当然要限制于0至1的区间之中,然而线性回归方程却不能做到 这一点。结果,线性概率模型就必须生硬规定,凡大于1的y估计值都作为1来 理解,而小于0的y估计值都要作为0来理解。 其次,线性概率的假设往往与实际情况不相吻合。这就涉及到现实当中存在
的收益递减(增)规律,即事物变化经常在初期阶段缓慢发展,然后逐渐加速 至发展速度到达极限后,又会逐渐减速。而在线性概率模型中,自变量的边际作 用b却只是一个常数。这样的模型就好比是说,对于一个年薪5000元的人、 个年薪5万元的人和一个年薪50万元的人,当他们的年收入再提高5000元时 会以同样幅度增加他们各自购买汽车的概率。事实上,多增加5000元收人对于 这三个人的意义及其在购买汽车问题上的作用是大不一样的。一个特别有钱的人 当然比钱数少的人更可能拥有汽车,但是再给他增加5000元收入对他决定购买 汽车的概率也增加不了多少。对于钱数很少的人来说,增加5000元的年薪也不 会增加其多少购车概率。所以,对于前两者增加5000元年薪对于其购车概率的 提高幅度都很接近0。但是,5000元年薪的增加对于已经有5万元年收入的人 就很不一样了。这一点是我们的常识。 另外,如果y与x之间的真实关系或更准确地说y的期望与x之间的关系是 非线性的,但由于我们对这一真实关系的无知而采用了线性概率模型作为近似 结果将是对于x在不同取值范围中的作用出现过于简单化的错误估计 总而言之,在为只限于0和1之间的概率选用模型时,线性概率模型是不太 合适的。 三、 logistic回归模型的建立 上一节说明,如果我们错误地认定模型是线性的,那么在线性假设下导出的 统计性质一般来说不能成立。其次,还有许多原因导致假设概率与自变量为线性 模型在很多场合是不实用的。以非线性概率模型代替线性概率模型能够解决这些 问题。 如果我们将收益递减规律纳入我们制定的模型,考虑某一自变量在变化范围 之间所起的作用可以有变化,确切地说,就是在变化范围的两端作用较小,而在 其变化的中间部分作用较强,我们就假设这一自变量对因变量的作用并不是线性 的,于是我们就转向了非线性的模型。 同时,还要考虑到我们要设定的是一个概率模型,也就是说,模型的因变量 的变化范围必须处于0和1之间。随着自变量的变化,这一概率总是在变化,但 是概率的值永远不会小于0和大于 当然,这种假设与线性假设一样是硬性规定的。但是这种假设并不一定就比 线性假设更差,在许多实际情况下,它还似乎比线性假设更为合理 那么是否有这样一种曲线能够满足我们的要求呢?实际上,这样的曲线的确
是有的,而且不只一种。最常用的曲线是 logistic曲线,此外还有一种被经常使 用的是对正态分布曲线进行积分的概率曲线。当然还有一些其他类似的曲线,但 是由于使用起来不太方便,它们的应用就不太普遍。在本章中,我们主要介绍应 用 logistic曲线进行的问归分析。由于其在实际求解时有很多优越性,所以 logis- tic回归的应用最为普遍。 1. logistic I函数及其性质 logistic函数(罗吉斯蒂函数)又称增长函数。此函数曾于1838年由比利时 学者维尔玉斯特(PF. Verhulst)第一次提出,后湮没失传。1920年,美国学者 珀尔和利德( Robert b. Pearl and Lowell J.Reed)在研究果蝇的繁殖中,重新发 现这个函数,并开始在人口估计和预测中推广应用,并引起广泛注意。① logistic函数的原型为②: P=(.-(a+ bt) 其中,t为时间,P为时间t上的人口数,L为P的最大极限值,a和b分 别是有关参数。作为人口预测函数,P永远取正值(>0)。根据我们非线性概率 模型的要求,需将P换成概率p=p(y=1),还要将上限L改为1。于是,概 率的值域就被限制在(0,1)之间的合理范围内。上限p=1和下限p=0都是 水平渐近线,实际上无论参数和自变量值如何变化,函数值都不会达到上限点或 下限点。此外,由于我们未必一定要用时间作为自变量,因此我们将t改为x以 泛指任意一个自变量,其值域也没有任何限制。于是,就得到了 logistic概率函 数。下面我们通过几个 logistic函数的曲线(图6-1-1、6-1-2、6-1-3 6-1-4),来熟悉一下这一函数的性质和有关参数的作用。 logistic的概率函数定义为: 1+exp[ -(a+bx) 它也可以改写成如下形式 1+ expl b(-a/b (2 C Henry S Shryock, Jacob S Siegel and Associates(1976) The Methods and Material of Demography. Academic press:215-216.刘铮主编:《人口学辞典》,1版,239~241页,北 京,人民出版社,1986 ②下面式中exp[u]表示自然对数底的指数函数,即e。下同
这样一来,式(2)就突出了两个有用的参数。第一个是b,第二个是 a/b。从图61中几个不同的 logistic曲线的比较可以看出 第一,当b是正数时, logistic函数随x值的增加而单调增加(图6-1 和图6-1-4);当b是负数时, logistic函数随x值的增加而单调减小(图6 1—1和图6-1-3)。因此b反映了自变量x与概率函数之间的对应关系。类似 于在多元线性回归分析中通过回归系数的符号来判断自变量的作用方向,在lo gistIc概率函数中b也表示自变量的作用方向 第二,一a/b实际上是曲线的中心,在这一点上概率函数整好取值0.5,达 到概率函数值区间的一半。函数以拐点(-ab,0.5)为中心对称,在这一点 上曲线的变化率最大,而距离这一点越远,曲线的变化率越小,在趋近函数的上 限或下限时,曲线的变化率接近于零。 第三,当b的绝对值越大,曲线在中段上升或下降的速度越快。这意味着主 要变化部分被压缩在x轴上对应拐点的附近范围里。比如图61-1与图6 1-3中x轴的标度相同,两条曲线的拐点也相同,但是图6-1-3中参数b的绝 对值比图6-1-2中参数b的绝对值大(0.2:0.1),于是主要的变化部分显然拥 挤得多。而图6-1-4中b的绝对值小于图61-2中b的绝对值(0.02:0.1),于 是整个曲线的主要变化在x轴上中心点周围很大的的范围中缓慢完成,曲线拉得很 开(请注意图6-1-4中x轴的标度与图61-2不同图示区间要大得多 但是,注意在 logistic概率函数中b的解释与线性回归中回归系数的解释有 很大的不同。由于是非线性函数,曲线上各点的斜率是变化的。 a=10.b=-0.,-a/b=100 1.0 P=1/〔l+exp(-) 0.5 0.2 5060708090100110120130140150
/b=50 p=1/〔1 0.3 0.2 0.0 0120130140150 图6-1-2 0,b=-0.2,-a/b=100 0.6 0 1/〔+exp(-x) 708090100110120130140150 图6-1-3 以上我们在 logistic概率函数中只引入了一个自变量,其实我们完全可以引 入多个自变量以完成多元分析。 为了取得一般化,我们将多元线性组合a+b1x1+b2x2+…+bxk以∑bx 表示,其中常数项a用b表示,x0恒等于1。然后为了推导的进一步简明,再 令z=∑bx1。于是, logistic概率函数可以表示为
a=-10,b=0.02,-a/b=500 0.5 p=l/〔l+exp(-z) 03 .2 300340380420460500540580620660700 图6-1-4 图6-1 logistic概率函数曲线及各参数的性质 如果将上式中右侧一项的分子和分母同乘一个exp(z),有 p exp 这也是 logistic概率函数的一个常用表达式之一。 2. logistic回归模型因变量的不同形式 为了在上述 logistic概率函数基础上将回归方程的自变量线性组合部分Z= ∑b,x;单独挪到等式的一边,使等式可以表达为自变量的线性形式,进行以下 系列转换 p[ p+ p* exp(z)=exp (z) p=exp(z)-p* exp (z) p=(1-p) exp(z) ex p ∑bx;) (4) 最后对等式两边取对数,得到了概率的函数与自变量之间的线性表达式
∑b 其实这就是说,事件概率以自变量的非线性表达可以转换为事件概率的函数 用自变量来线性表达。在上述线性表达式中,我们对于有关事件概率的各种函数 作以下命名和定义。 事件发生的概率-p=p(y=1) 事件不发生的概率=1-p=1-p(y=1)=p(y=0) 发生比(ods) 上式中的发生比,又称为相对风险( relative risk),它是事件发生的概率与 不发生的概率之比。根据式(4),发生比与自变量之间的关系为 2=exp(x)=exp(∑b;x;) (6) 还要定义 对数发生比( log odds)=ln 对数发生比实际上也是事件发生概率p的一个特定函数,当我们需要分析 这个特定函数分别与Ω和p的直接联系时,我们又将这个特定函数称为p的岁 吉特变换,并标志为 logit p=InQ=In [,p (8) p 所谓lgit,意思是“罗吉斯蒂概率单位”,即英文 logistic probability unit存 头取尾的缩写, logit p可以称为“p的罗吉斯蒂概率单位”或简称为“罗吉特 p"。并且,任意一个变量q的转换函数ln都称为 logit q 这个 logit p一方面表达出它是事件发生概率p的一种转换单位,由式(8) 表达;另一方面它作为回归的因变量就可以使自己与自变量之间的依存关系保持 传统回归中的模式。将式(8)与式(5)组合起来,我们有 logit p=∑b (9) 以上证明了,我们可以以 logistic函数形式p=1/[+exp(-∑bx,)],先 根据实际观测案例的事件发生情况及其各自变量的观测值求解各偏回归系数b, 再利用 logistic函数的已知数学性质对于 logistic回归的参数估计进行统计推断。 D前面曾提到正态分布的累积概率曲线也是一种较为常用的非线性概率函数,它被称为 probit模型。 probit即代表“概率单位"( probablity unit),SPSs软件也可以进行pbt回归分析