会学系列教材 第七章 对数线性模型 社会科学研究经常要涉及名义测度等级变量。比如,我国人口普查中的民 族、婚姻状况、地区类型等都属于分类选择答案的问题,也就是说这些问项形成 的变量就是名义测度等级的分类变量。我国人口普查中受教育程度是按等级分类 的。要是严格按照统计学的定义,这一项的答案所形成的变量属于序次测度等 级。因为这一变量除了具有分类的意义以外,各类之间还有水平高低的明确含 义。比如,初中程度比小学高,高中又比初中高。但是,如果对这种级差忽略不 计,这一变量在统计分析中也可以当作名义测度等级变量来对待①。在其他社会 调查中,对于个人意愿、事件原因、经济来源及很多社会情况都是按照分类选择 答案的方式提问的。有人曾经做过统计②,美国1975年进行的总体社会调查 ( General social! Survev)中一共有310个变量,其中有107个二分类变量和148 个多分类变量,分类变量数占了所有变量的82%。因此分类变量的分析构成了 ①在统计分析中,测度等级高的变量可以降级使用,但会损失一部分信息。参见郭志 刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,140~145页。 2 Dillon W.R. and M. Goldstein.( 1984) Multivariate Analysis: Methods and Applications. John Wiley Sons, Inc: 490 215
社会研究中的一个重要部分。 本书所介绍的其他多元分析方法大多都要求全部变量或一部分变量为间距测 度等级,然而本章所介绍的对数线性模型(Log- Linear model)技术是应用于纯 粹分类变量的多元统计方法。 本章第一节通过对常规交互表( crosstabulation)分析方法缺点的讨论,来概 括对数线性模型对于分类变量分析的重要发展。第二节借助一个简单模型的例题 介绍对数线性模型对多元交互频数表的分解技术,并介绍了三种模型分析,即分 层模型、一般模型和lgit模型。第三节讨论两种对数线性模型数据输入方式并 提供本章例题的数据。第四节介绍应用SPSS软件来进行对数线性模型分析。第 五节通过对例题模型增加变量,扩展为一个比较复杂的模型,以示范各种模型的 应用方法,并对该例的统计结果进行比较细致的分析。 从常规交互表分析到对数线性模型分析 传统交互表分析的缺点 传统的分类变量统计方法是采用简单的频数或频率的交互表分析,也有一些 测量相关的指标以及相应的统计检验方法①。 当我们只对一个分类变量列出其各类的频数的时候,这还不是交互表。它只 反映单变量频数的分布,而单变量的频率就是每类频数所占的比例。只有对两个 或多个分类变量之间的频数交互列表,才形成交互表。所以,交互表所要反映的 是变量之间的关联。 那么,交互表是如何反映变量之间关联的呢?实际上,无论是简单的交互表 还是复杂的交互表,其中分布的所有频数之间的关联都可以分解为两种不同性质 的效应( effect)基本类型。一种反映了变量自身的频数分布影响,称之为主效 应( main effect);另一种反映变量之间关联所产生的效应,称之为交互效应 ( interaction effect)。所胃简单的交互表,即变量很少,且变量中的分类很少,比 如两个二分类变量构成的频数交互表是一张二维交互表,那么其主效应只有两 个,而交互效应只有一个。当变量数增加时,交互表的维数就会增加,相当于多 张二维交互表。当变量中的分类数增加时,每一张二维交互表就会变大。但是不 管变量数怎么增加或变量中的分类数怎么增加,仍然可以将整个频数分布分解为 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,324-33页
主效应和交互效应,只不过两类效应各自的项数有所增加而已,尤其是交互效应 的项数会增加很快。 常规频数表统计方法通常只分析两个变量之间的联系,这样的交互表即使是 直接审阅也可以看出频数在交互单元中变化的大体趋势。但是当进行分类变量的 多元分析时,常规统计方法就无法把握变量之间的关系了。多维交互表其实是以 多个有内在联系的二维表构成的,由于将整个频数分布切割为多张表,使得本来 就很庞杂的信息处于系统性很差的状况,因此很难把握。 在实际研究中,经常可以见到研究人员采用另外的替代方法,即一次只分析 两个变量之间的交互表,经过多个两两交互分析,企图再拼接形成对于多个分类 变量之间复杂联系的整体理解。尽管这种作法也能得到一些发现,然而根据方法 论的原则,正如多个简单回归并不能替代多元回归一样,这种缺乏综合性的分析 方式是不可能以多个个别分析真正迭加出整体的多元联系的。 这种分析方式存在着很多内在局限性 (1)失去了对多变量之间的交互联系的分析由于整个频数分布被分成多张 二维交互表,因此只能大致分析每一张二维交互表的主效应和交互效应,而更多 变量之间的联合交互效应(称之为高阶( higher order)交互效应)将无法分析 然而,正是交互效应才真正反映变量之间的关联,不能充分分析多变量交互效 应,便不能有效分析多变量之间的关联。 2)}在进行两个变量之间的关联分析时缺乏必要的统计控制多元统计的优 越性之一是其对于任何两个变量之间关系的分析是在控制模型中其他变量作用的 条件下进行的,所以它对于变量之间的关系的定量描述都是以“偏系数”(par tial coefficient)的形式提出的。或者说,多元分析反映一个变量对另一个变量的 净贡献”( net contribution),而简单分析只反映一种“毛贡献”( gross effect) 因为它无法将其他变量的作用排除在外。两两交互表分析就是简单分析,由于其 分析模型中不包含其他变量,因而也不能对于其他变量进行控制。特别值得注意 的是,这种简单的两两交互表分析的并不是以有内在联系的多张二维交互表构成 的多元频数交互表,而是互相割裂的简单交互表。 (3)不能准确定量描述一个变量对另一个变量的作用幅度这个问题涉及的 不是简单交互表分析方法论上的缺陷,而是指其所利用的常规交互表分析技术的 缺点。比如,常常存在对于交互频数的卡方检验的错误理解,以为它是描述作用 幅度的指标。实际上它只相当于相关分析中对r的检验,即对发现的相关进行总 体推断:统计检验的显著水平高并不完全由相关程度决定,还会受到样本规模的 影响。常规统计中因此提岀一些其他指标,使其不受样本规模影响,以期能像相 217
关系数那样描述相关强度,如Q指标、Φ指标等①。但是,即使是相关强度也 并不是作用幅度。比如在对间距测度变量统计分析中,不但以相关系数描述相关 强度,而且以回归系数描述作用幅度,即自变量一个单位的变化导致因变量变化 的期望值。而常规交互表分析中根本不存在这样的作用幅度指标。当然,交互表 分析涉及的是分类变量,关于变量之间的作用的描述会有很大不同。但是,如果 分类变量之间相关,就意味着一个变量的某个类别与另一个变量的类别之间有紧 密联系,表现为这个交互组的频数会明显不同于其他交互组。所以变量的作用体 现于对频数分布的影响上。如果能够找到一种方法,直接或间接以因变量频数分 布变化幅度来定量描述自变量的作用,便能够大大提高交互表分析的技术水 平 2.对数线性模型的发展 本章介绍的对数线性模型正是在上述三个方面取得了显著进展的技术方法。 它通过数学方法来描述多元频数分布,因而具有了多元统计分析的综合性,即同 时囊括多个分类变量于一个模型之中。这一重大进展使得对数线性模型既可以在 控制其他分类变量的条件下研究两个分类变量之间的关联,又可以将多元频数分 布分解成具体的各项主效应和各项交互效应,即使是高阶交互效应也不会被遗 漏。这种方法还能够以发生比的形式来表示自变量的类型不同反映在因变量频数 分布上的差异,因此具有了定量测量自变量作用幅度的能力。最后,它还具有强 大的统计检验能力,不仅能够对于所有参数估计进行检验,使得抽样数据的分析 结果得以推断总体,而且能够通过不同模型的统计检验结果,对备选模型进行筛 选和评价,以确定不但具有最大解释能力而且又最简单的模型。 对数线性模型的基本原理 1.例1分析模型的背景情况 现在我们有一个简单的2×2交互频数表,数据是虚构的,只服务于本章示 范对数线性模型分析。对于说明对数线性模型的基本原理,一个简单的交互表就 够了,所以例1并没有包括数据中的所有变量。但是,在最后一节中,我们将把 其他变量纳入模型,以示范如何应用对数线性模型来进行比较复杂的交互表 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,329-331页。 218
分析。 例1研究的背景情况是,中国几千年社会发展中形成了重男轻女的旧风俗, 并且认为只有儿子才能延续家系香火。这一点在计划生育工作中感觉十分深刻 现在的研究任务是,根据调查数据检验这种情况是否在事实上存在,并定量描述 育龄夫妇所生育的第一个孩子的性别对后续生育决策的影响。例1涉及两个分类 变量,第一个是已经生育了一个孩子的父母是否领取独生子女证。我们将领取独 生子女证(编码为1)作为已经决定不再生育的标识,而未领取独生子女证(编 码为2)则标志着尚未决定停止生育或已经决定继续生育第二个变量是第一次 生育的孩子的性别,男孩编码为1,女孩编码为2。 表7-1 例1观测频数交互表 观测频数 B.初育孩子的性别 1.男孩2.女孩行合计 领证 212 365 2.未领证156 144 400 是否领取独生子女证列合计 367 总计:765 本来按照我们的研究目的,初育孩子的性别应该明确作为自变量,是否领证 应明确作为因变量。但是,对数线性模型本身实际上并不是对变量值的分析,而 是对交互频数的分析,因此就其本来意义是没有因变量、自变量之分的。在对数 线性模型中所有变量都称为因素( factor)。所以,在例1的观测频数交互表中用 A和B来标注这两个因素。另外,在对数线性模型的公式标注上用不同英文字母 表示因素也比较明确和方便。尽管对于变量的称谓不同,标注方式不同,但完全 不妨碍研究中有隐含的因果假设,也不妨碍开展因果分析。实际上,当我们明确 提出因果假设以后,对数线性模型反而可以更为简化和明确化。当然,这些内容 都要放在读者充分理解对数线性模型的基本形式和基本性质以后再加以介绍。 例1观测频数交互表(表7-1)是一个标准格式的二维交互表。中间全封 闭的四个方格中即为观测的交互频数,其他开放方格中是因素编码标注或是各种 合计。比如,第一个孩子是女孩而又领取了独生子女证的有153对夫妇,而第 个孩子是女孩未领证的有214对。于是,合计为367对夫妇有女孩。另外,加上 有男孩的夫妇合计398对,共计为765对夫妇。同样,这一样本规模可以从领证 合计加上未领证合计计算出来 应该指出,频数交互表并不是原始数据的简单罗列,而是原始数据经过初步汇 总加工的结果。我们把这些具体操作问题先放在一边,直接从交互表数据来建立
对数线性模型 2.交互表单元频数的对数线性模型化 如前所述,对数线性模型的优越性之一是它具有综合分析多元交互表的功 效。这一功效来自于它能够以一个通用的数学方程来表达交互表的任一交互单元 (cel)的频数。下面,我们示范如何将表7-1的观测频数定义为对数线性模型 第一步,先定义表内各单元中的频数为n(i为行,j为列)有 212 21=186 =214 第二步,对表7—1中每一个单元中的频数nn取自然对数(n[nn]),并在 右边和下边的边缘单元计算行和列上对数频数的平均值。最后,表右下角单元中 要计算总平均值,对列平均值再取均值、或对行平均值再取均值、或直接从交互 单元的频数对数计算均值都可以得到同样的结果。根据表7—1计算得到的频数 对数交互表如表7—2所示。 表 例1的对数频数交互表 频数对数 B.初育孩子的性别 1.男孩2.女孩 行平均值 1.领证 5.356 5.030 5.193 A 2.未领证5.226 5.366 5.296 是否领取独生子女证一列平均值 总均值:5.2445 第三步,定义对数线性模型为 n 1+pA(i)+{4B(j)+AB( 这一方程的意义为,对数频数lnn1是由代表若干效应项的参数(p)所 决定的。注意,在这一方程中,左侧是频数所取的对数,而右侧则是各项效应参 数的线性表达式,所以称为对数线性模型。 如果公式的左侧直接采用交互频数,右侧则为相应参数的指数项的乘积 即 =eXpL+1A(i)+1B()-4B() 或表达为 Xp LFA( p LAB() uABC) 对应项的意义为:
交互频数=总平均数×因素A分布效应×因素B分布效应×交互效应 公式(2)所对应的是频数表(即表7-1),而公式(1)则对应的是对数频 数表(即表7—2)。在这两个公式之间可以相互换算。如果以对数频数来表达 有 公式(1) i-u t AA(i; + ABU)+ Aab(i 对应项的意义是 对数频数=总平均数+因素A分布作用+因素B分布作用+交互作用 (期望对数频数)+交互作用 所谓期望对数频数就是在无交互作用时的对数频数。 通过取对数从公式(2)得到公式(1),各种效应项相乘的关系被转换成相 加的关系,使得各项效应独立化了。这一转换十分有利于对各项效应的分析工 作。公式(1)中已经包括了对应表7-2的所有对数频数的影响效应:p为常数 效应,相当于回归方程中的常数项。pA()为A因素效应。B()为B因素效应, 因素效应在对数线性模型分析中又被称为主效应或边际效应(main/ marginal ef fect)。pAB()为A和B两因素的交互效应( interaction effect)。虽然,所分析的 是一个最简单的交互表,但是它的对数线性方程已经显示了这一分析技术的基本 性质。对于更复杂的交互表所建立的对数线性模型,无非是方程中再多一些因素 效应项、多一些交互效应项。各项数目的一般规律是:多元交互频数表涉及多少 个因素,对数线性模型中就会有多少项因素效应项;而交互效应项的总数则为所 有因素各阶组合数之和。例1中只有2个因素,因此因素效应有2项,只有一个 2阶交互效应项。如果对三因素的模型建立对数线性模型,其中将有3个因素效 应项,2阶交互项有G=3!/[2!(3-2)!]=3项,3阶交互项有C=1项。 上述对数线性模型的方程有一个限制条件,为: gA()=B(=二AB( (3) 这个限制条件的意义是,模型中每一项效应的各类(以下标i或j或其他维 的关别下标)参数之和等于0由这一限制条件引申的意义是,如果每项效应中 只有一类的参数未知,那么它可以根据已知的其他各类参数推算出来。这条性质 在实际分析中经常用到,具体作法将在后面讨论 根据所定义的对数线性模型的各项效应参数的公式表达,可以看出它们的具 体意义如下: 其中I和J为对应和j的类型项目数,例1中有I=2,J=2。从式中可以 看出,主效应μ是交互表各单元中频数对数的合计除以交互单元数合计,实际上
就是频数对数的总平均值。 A因素效应的计算公式为 pA(2)=(∑n[nz]们) 注意上式中分数是交互表行平均值。实际上A因素效应是行平均值与总平均值 之间的差。 B因素效应的计算公式为 HBG)=(∑n[n]/)- 式中分数是交互表列平均值。所以,B因素效应是列平均值与总平均值之间的 差 最后,A因素和B因素之间交互效应的计算公式为 HAB()=ln[n]-A(1)-1B()-p 它表示在去除所有其他分布效应之后两个因素之间的净关联。 通过上述各项效应的具体定义,可以知道对数线性模型实际上是按如下原则 描述频数分布的。 根据公式(2),如果各因素效应和交互效应都为0,那么交互表中各频数是 常数,即样本案例是完全均匀分布于各交互单元中的。所以,常数效应就是交互 单元频数平均值效应,只受样本规模和交互单元数的影响。 主效应B()和μA()是各因素内部类别频数分布特征的反映,它将在平均频 数的基础上“补差”,以反映自身类别频数差异。如果模型中所有交互效应都等 于0,我们将会看到,虽然每行(列)频数不同,但行(列)频数分布比例却是 相同的,都等于原来分类变量的类别分布比例。以表7—3提供的观测频率交互 表为例,如果两个因素之间真的不存在关联,那么对应男孩的领证或未领证的比 例(现分别为53.3%和46.7%)都将等于样本中的男孩比例(52.0%),而领证 一行中生男孩的领证比例(现为58.1%)和生女孩的领证比例(现为41.9%) 都将等于样本的领证比例47.7%。 表7-3 例1观测频数比例交互表 B.初育孩子的性别丁 列比例(%) 「1.男孩「2.女孩 行平均 行比例(%) 1.领证 53.3 41.7 58.1 41.9 47.7 A 2.未领证46.7 58.3 是否领取独生子女证 46.5 53.5 列平均 52.0 合计:100.0
如果交互效应不等于0,则表明行和列都不能仅仅分别按因素类别分布,还 要加上另外的分布差异。这些差异便来自于因素之间的相关。也就是说,交互表 内部各单元频数在所在行(列)频数中的比例是由各种联合条件决定的,不一定 要正好等于行(列)的边际分布。比如表7—3中相对于行领证比例平均值(即 全列频数占总数比例47.7%),交互单元中生了男孩领证的偏多(58.1%),生 了女孩领证的偏少(41.9)。正是交互效应作用的存在使得联合分布比例偏离了 边际分布比例①。 现在我们回过头来讨论每一项中各类参数之间的关系。根据式(3),对于每 项主效应A(或BG分别有I类和J类,它们的自由度分别为-1和J-1 这就是说,如果确定了μA(;中的Ⅰ-1个,那么最后的一个参数也就同时确定 了。因为这一项主效应的各个参数的合计必须等于0。因此,计算最后一个参数 的公式可以确定如下 A(1)=0-∑PA()= :1A( (4 同理,最后一个B因素参数g(也可以通过已知的J-1个mB值计算出来。 对于例1,主效应pA(或B()各有两类。那么问题就更简单了,只要已知 其中的一个,另一个参数实际上是已知参数的相反数(只变化符号)。 在I×J交互表中对于交互效应实际上只有(I-1)(J-1)个自由度。比 如,在例1的2×2表中,对应4个交互单元有4个交互效应参数,其自由度等 亍1。那么只要有一个μAB(得到,其他各项也就确定了。这些交互项之间存在 的数量关系为: AB(11)AB(12)=HAB(21)=AB(22) 就此,我们已经对对数线性模型及其参数的设定有了基本的了解。下面我们 用SPSs对例1进行对数线性模型分析得到的有关输出部分来具体介绍参数估计 值的实际意义。有关SPSS操作将放在后面介绍。 3.对数线性模型参数估计值的理解 对数线性模型的参数中,常数项的意义为在频数均匀分布时各交互单元的频 ①用概率论的术语来表达,交互效应对应着条件概率,即在一个事件出现的条件下另 事件出现的概率,比如事件A发生条件下事件B发生的概率记为P(B丨A)。用P(AB) 表示事件A和B同时发生的联合概率,P(A)表示事件A发生的概率,于是联合概率与事 件概率及条件概率之间的关系为:P(AB)=P(A)P(B|A)=P(B)P(A|B)。但 是对数线性模型中的交互效应参数不是以概率为基础,而是以发生比为基础来表达的。 223
数值,因此它肯定取正值。SPSS分析不输出,而输出其他对应各交互单元的 参数HA()、pB()、HAB(n),分别表示主效应和交互效应。当它们的值大于0时 是正效应,其作用将使对应的频数增加。当它们的值小于0时为负效应,作用将 使频数减少。 下面我们根据SPSS输出的参数估计值,结合例1的情况来加以实际意义的 阐释表7-4。 SPSS分层模型输出的例1饱和模型参数估计 Estimates for Parameters TAKE SEX Parameter Coeff SId. err Z-Value ower 95 CI Upper 95 CI 36 03649 3.19540 04508 .18811 TAKE Parameter Coeff z- Value Lower 95 CI Upper 95 CI 0511746232 03649 -1.40250 12269 02034 SEX Parameter Z-Value Lower 95 CI Upper 95 CI 0464797530 03649 1.27383 02504 1800 SPSS分层模型( Hierarchical Model)输出的对数线性模型参数估计列在Es timates for Parameters的标题之下。第一项便是对于交互效应的估计,由于在数 据中定义因素A的变量名为TAKE、因素B的变量名为SEX,在应用分层模型 时,会自动生成所有可能的交互项,交互项的名称自动按原变量名相乘形式提 供,并且各项效应只按照自由度提供必要的参数估计。比如,例1有4个交互单 元,应该有4个对应交互效应估计,但是因为该项效应的自由度等于1,只提供 了其中的一项。另外,在默认状态下,SPSS将最后一类作为参照类,不输出其 参数,所以这里提供的TAKE*SEX估计,是因素A中第一类与因素B中第 类的交互效应,即AB(1)=0.117。根据前面的讨论,可以求出AB(12)= 0.117,AB(2)=-0.117,AB(2)=0.117。 实际上,我们研究交互表主要不是关心频数本身,而是关心变量之间的关 系。变量之间的关系可以从交互效应上反映出来。 比如,例1模型估计中,pAB(1)=pA(2)都是正值,它们分别表明