21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第七章对数线性模型（2/2）.pdf_大学文库

社会研究中的一个重要部分。本书所介绍的其他多元分析方法大多都要求全部变量或一部分变量为间距测度等级,然而本章所介绍的对数线性模型(Log- Linear model)技术是应用于纯粹分类变量的多元统计方法。本章第一节通过对常规交互表( crosstabulation)分析方法缺点的讨论,来概括对数线性模型对于分类变量分析的重要发展。第二节借助一个简单模型的例题介绍对数线性模型对多元交互频数表的分解技术,并介绍了三种模型分析,即分层模型、一般模型和lgit模型。第三节讨论两种对数线性模型数据输入方式并提供本章例题的数据。第四节介绍应用SPSS软件来进行对数线性模型分析。第五节通过对例题模型增加变量,扩展为一个比较复杂的模型,以示范各种模型的应用方法,并对该例的统计结果进行比较细致的分析。从常规交互表分析到对数线性模型分析传统交互表分析的缺点传统的分类变量统计方法是采用简单的频数或频率的交互表分析,也有一些测量相关的指标以及相应的统计检验方法①。当我们只对一个分类变量列出其各类的频数的时候,这还不是交互表。它只反映单变量频数的分布,而单变量的频率就是每类频数所占的比例。只有对两个或多个分类变量之间的频数交互列表,才形成交互表。所以,交互表所要反映的是变量之间的关联。那么,交互表是如何反映变量之间关联的呢?实际上,无论是简单的交互表还是复杂的交互表,其中分布的所有频数之间的关联都可以分解为两种不同性质的效应( effect)基本类型。一种反映了变量自身的频数分布影响,称之为主效应( main effect);另一种反映变量之间关联所产生的效应,称之为交互效应 ( interaction effect)。所胃简单的交互表,即变量很少,且变量中的分类很少,比如两个二分类变量构成的频数交互表是一张二维交互表,那么其主效应只有两个,而交互效应只有一个。当变量数增加时,交互表的维数就会增加,相当于多张二维交互表。当变量中的分类数增加时,每一张二维交互表就会变大。但是不管变量数怎么增加或变量中的分类数怎么增加,仍然可以将整个频数分布分解为 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,324-33页

主效应和交互效应,只不过两类效应各自的项数有所增加而已,尤其是交互效应的项数会增加很快。常规频数表统计方法通常只分析两个变量之间的联系,这样的交互表即使是直接审阅也可以看出频数在交互单元中变化的大体趋势。但是当进行分类变量的多元分析时,常规统计方法就无法把握变量之间的关系了。多维交互表其实是以多个有内在联系的二维表构成的,由于将整个频数分布切割为多张表,使得本来就很庞杂的信息处于系统性很差的状况,因此很难把握。在实际研究中,经常可以见到研究人员采用另外的替代方法,即一次只分析两个变量之间的交互表,经过多个两两交互分析,企图再拼接形成对于多个分类变量之间复杂联系的整体理解。尽管这种作法也能得到一些发现,然而根据方法论的原则,正如多个简单回归并不能替代多元回归一样,这种缺乏综合性的分析方式是不可能以多个个别分析真正迭加出整体的多元联系的。这种分析方式存在着很多内在局限性 (1)失去了对多变量之间的交互联系的分析由于整个频数分布被分成多张二维交互表,因此只能大致分析每一张二维交互表的主效应和交互效应,而更多变量之间的联合交互效应(称之为高阶( higher order)交互效应)将无法分析然而,正是交互效应才真正反映变量之间的关联,不能充分分析多变量交互效应,便不能有效分析多变量之间的关联。 2)}在进行两个变量之间的关联分析时缺乏必要的统计控制多元统计的优越性之一是其对于任何两个变量之间关系的分析是在控制模型中其他变量作用的条件下进行的,所以它对于变量之间的关系的定量描述都是以“偏系数”(par tial coefficient)的形式提出的。或者说,多元分析反映一个变量对另一个变量的净贡献”( net contribution),而简单分析只反映一种“毛贡献”( gross effect) 因为它无法将其他变量的作用排除在外。两两交互表分析就是简单分析,由于其分析模型中不包含其他变量,因而也不能对于其他变量进行控制。特别值得注意的是,这种简单的两两交互表分析的并不是以有内在联系的多张二维交互表构成的多元频数交互表,而是互相割裂的简单交互表。 (3)不能准确定量描述一个变量对另一个变量的作用幅度这个问题涉及的不是简单交互表分析方法论上的缺陷,而是指其所利用的常规交互表分析技术的缺点。比如,常常存在对于交互频数的卡方检验的错误理解,以为它是描述作用幅度的指标。实际上它只相当于相关分析中对r的检验,即对发现的相关进行总体推断:统计检验的显著水平高并不完全由相关程度决定,还会受到样本规模的影响。常规统计中因此提岀一些其他指标,使其不受样本规模影响,以期能像相 217

关系数那样描述相关强度,如Q指标、Φ指标等①。但是,即使是相关强度也并不是作用幅度。比如在对间距测度变量统计分析中,不但以相关系数描述相关强度,而且以回归系数描述作用幅度,即自变量一个单位的变化导致因变量变化的期望值。而常规交互表分析中根本不存在这样的作用幅度指标。当然,交互表分析涉及的是分类变量,关于变量之间的作用的描述会有很大不同。但是,如果分类变量之间相关,就意味着一个变量的某个类别与另一个变量的类别之间有紧密联系,表现为这个交互组的频数会明显不同于其他交互组。所以变量的作用体现于对频数分布的影响上。如果能够找到一种方法,直接或间接以因变量频数分布变化幅度来定量描述自变量的作用,便能够大大提高交互表分析的技术水平 2.对数线性模型的发展本章介绍的对数线性模型正是在上述三个方面取得了显著进展的技术方法。它通过数学方法来描述多元频数分布,因而具有了多元统计分析的综合性,即同时囊括多个分类变量于一个模型之中。这一重大进展使得对数线性模型既可以在控制其他分类变量的条件下研究两个分类变量之间的关联,又可以将多元频数分布分解成具体的各项主效应和各项交互效应,即使是高阶交互效应也不会被遗漏。这种方法还能够以发生比的形式来表示自变量的类型不同反映在因变量频数分布上的差异,因此具有了定量测量自变量作用幅度的能力。最后,它还具有强大的统计检验能力,不仅能够对于所有参数估计进行检验,使得抽样数据的分析结果得以推断总体,而且能够通过不同模型的统计检验结果,对备选模型进行筛选和评价,以确定不但具有最大解释能力而且又最简单的模型。对数线性模型的基本原理 1.例1分析模型的背景情况现在我们有一个简单的2×2交互频数表,数据是虚构的,只服务于本章示范对数线性模型分析。对于说明对数线性模型的基本原理,一个简单的交互表就够了,所以例1并没有包括数据中的所有变量。但是,在最后一节中,我们将把其他变量纳入模型,以示范如何应用对数线性模型来进行比较复杂的交互表 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,329-331页。 218

分析。例1研究的背景情况是,中国几千年社会发展中形成了重男轻女的旧风俗, 并且认为只有儿子才能延续家系香火。这一点在计划生育工作中感觉十分深刻现在的研究任务是,根据调查数据检验这种情况是否在事实上存在,并定量描述育龄夫妇所生育的第一个孩子的性别对后续生育决策的影响。例1涉及两个分类变量,第一个是已经生育了一个孩子的父母是否领取独生子女证。我们将领取独生子女证(编码为1)作为已经决定不再生育的标识,而未领取独生子女证(编码为2)则标志着尚未决定停止生育或已经决定继续生育第二个变量是第一次生育的孩子的性别,男孩编码为1,女孩编码为2。表7-1 例1观测频数交互表观测频数 B.初育孩子的性别 1.男孩2.女孩行合计领证 212 365 2.未领证156 144 400 是否领取独生子女证列合计 367 总计:765 本来按照我们的研究目的,初育孩子的性别应该明确作为自变量,是否领证应明确作为因变量。但是,对数线性模型本身实际上并不是对变量值的分析,而是对交互频数的分析,因此就其本来意义是没有因变量、自变量之分的。在对数线性模型中所有变量都称为因素( factor)。所以,在例1的观测频数交互表中用 A和B来标注这两个因素。另外,在对数线性模型的公式标注上用不同英文字母表示因素也比较明确和方便。尽管对于变量的称谓不同,标注方式不同,但完全不妨碍研究中有隐含的因果假设,也不妨碍开展因果分析。实际上,当我们明确提出因果假设以后,对数线性模型反而可以更为简化和明确化。当然,这些内容都要放在读者充分理解对数线性模型的基本形式和基本性质以后再加以介绍。例1观测频数交互表(表7-1)是一个标准格式的二维交互表。中间全封闭的四个方格中即为观测的交互频数,其他开放方格中是因素编码标注或是各种合计。比如,第一个孩子是女孩而又领取了独生子女证的有153对夫妇,而第个孩子是女孩未领证的有214对。于是,合计为367对夫妇有女孩。另外,加上有男孩的夫妇合计398对,共计为765对夫妇。同样,这一样本规模可以从领证合计加上未领证合计计算出来应该指出,频数交互表并不是原始数据的简单罗列,而是原始数据经过初步汇总加工的结果。我们把这些具体操作问题先放在一边,直接从交互表数据来建立

交互频数=总平均数×因素A分布效应×因素B分布效应×交互效应公式(2)所对应的是频数表(即表7-1),而公式(1)则对应的是对数频数表(即表7—2)。在这两个公式之间可以相互换算。如果以对数频数来表达有公式(1) i-u t AA(i; + ABU)+ Aab(i 对应项的意义是对数频数=总平均数+因素A分布作用+因素B分布作用+交互作用 (期望对数频数)+交互作用所谓期望对数频数就是在无交互作用时的对数频数。通过取对数从公式(2)得到公式(1),各种效应项相乘的关系被转换成相加的关系,使得各项效应独立化了。这一转换十分有利于对各项效应的分析工作。公式(1)中已经包括了对应表7-2的所有对数频数的影响效应:p为常数效应,相当于回归方程中的常数项。pA()为A因素效应。B()为B因素效应, 因素效应在对数线性模型分析中又被称为主效应或边际效应(main/ marginal ef fect)。pAB()为A和B两因素的交互效应( interaction effect)。虽然,所分析的是一个最简单的交互表,但是它的对数线性方程已经显示了这一分析技术的基本性质。对于更复杂的交互表所建立的对数线性模型,无非是方程中再多一些因素效应项、多一些交互效应项。各项数目的一般规律是:多元交互频数表涉及多少个因素,对数线性模型中就会有多少项因素效应项;而交互效应项的总数则为所有因素各阶组合数之和。例1中只有2个因素,因此因素效应有2项,只有一个 2阶交互效应项。如果对三因素的模型建立对数线性模型,其中将有3个因素效应项,2阶交互项有G=3!/[2!(3-2)!]=3项,3阶交互项有C=1项。上述对数线性模型的方程有一个限制条件,为: gA()=B(=二AB( (3) 这个限制条件的意义是,模型中每一项效应的各类(以下标i或j或其他维的关别下标)参数之和等于0由这一限制条件引申的意义是,如果每项效应中只有一类的参数未知,那么它可以根据已知的其他各类参数推算出来。这条性质在实际分析中经常用到,具体作法将在后面讨论根据所定义的对数线性模型的各项效应参数的公式表达,可以看出它们的具体意义如下: 其中I和J为对应和j的类型项目数,例1中有I=2,J=2。从式中可以看出,主效应μ是交互表各单元中频数对数的合计除以交互单元数合计,实际上

如果交互效应不等于0,则表明行和列都不能仅仅分别按因素类别分布,还要加上另外的分布差异。这些差异便来自于因素之间的相关。也就是说,交互表内部各单元频数在所在行(列)频数中的比例是由各种联合条件决定的,不一定要正好等于行(列)的边际分布。比如表7—3中相对于行领证比例平均值(即全列频数占总数比例47.7%),交互单元中生了男孩领证的偏多(58.1%),生了女孩领证的偏少(41.9)。正是交互效应作用的存在使得联合分布比例偏离了边际分布比例①。现在我们回过头来讨论每一项中各类参数之间的关系。根据式(3),对于每项主效应A(或BG分别有I类和J类,它们的自由度分别为-1和J-1 这就是说,如果确定了μA(;中的Ⅰ-1个,那么最后的一个参数也就同时确定了。因为这一项主效应的各个参数的合计必须等于0。因此,计算最后一个参数的公式可以确定如下 A(1)=0-∑PA()= :1A( (4 同理,最后一个B因素参数g(也可以通过已知的J-1个mB值计算出来。对于例1,主效应pA(或B()各有两类。那么问题就更简单了,只要已知其中的一个,另一个参数实际上是已知参数的相反数(只变化符号)。在I×J交互表中对于交互效应实际上只有(I-1)(J-1)个自由度。比如,在例1的2×2表中,对应4个交互单元有4个交互效应参数,其自由度等亍1。那么只要有一个μAB(得到,其他各项也就确定了。这些交互项之间存在的数量关系为: AB(11)AB(12)=HAB(21)=AB(22) 就此,我们已经对对数线性模型及其参数的设定有了基本的了解。下面我们用SPSs对例1进行对数线性模型分析得到的有关输出部分来具体介绍参数估计值的实际意义。有关SPSS操作将放在后面介绍。 3.对数线性模型参数估计值的理解对数线性模型的参数中,常数项的意义为在频数均匀分布时各交互单元的频 ①用概率论的术语来表达,交互效应对应着条件概率,即在一个事件出现的条件下另事件出现的概率,比如事件A发生条件下事件B发生的概率记为P(B丨A)。用P(AB) 表示事件A和B同时发生的联合概率,P(A)表示事件A发生的概率,于是联合概率与事件概率及条件概率之间的关系为:P(AB)=P(A)P(B|A)=P(B)P(A|B)。但是对数线性模型中的交互效应参数不是以概率为基础,而是以发生比为基础来表达的。 223

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第七章 对数线性模型（2/2）

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第七章对数线性模型（2/2）