21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第十四章对应分析.pdf_大学文库

异以及不同变量各个类别之间的对应关系。与其他相依变量分析技术不同,它既可以分析定性变量数据,同时还可以分析非线性关系。当我们分析的变量是名义变量或序次变量,变量之间存在非线性关系时,则可以用对应分析来揭示变量之间的联系。对应分析的基本形式是对由两个定性或类型( Category)变量构成的交互表进行分析,将定性变量数据转变成可度量的分值、减少维度并作出分值分布图。在减少维度方面,对应分析与因子分析( Factor Analysis)相似;在作分布图方面,对应分析与多维标度( Multidimensional scaling)方法相似。对应分析的优点就在于可以同时做到这几方面,这是以往的统计方法所不能做的,因此,在定性变量数据分析方面,对应分析提供了一种新的多元相依变量的分析技术 2.有关多元对应分析虽然对应分析的基本形式是对两个定性变量进行分析,实际上对于由三个或三个以上变量形成的交互表也可以进行对应分析,这样的对应分析称为多元对应分析( Multiple Correspondence Analysis)。多元对应分析可以采取两种方法,第种方法与二元对应分析非常相似,只是需要对超过二元的变量进行转换,从而使各个变量的所有类别都表现在同一个多维空间里。这里以同时分析三个名义变量为例,假设我们想分析不同性别、分别居住在城市和农村的人对在过去一年取得的收入是否满意,如果要将这三个变量放在同一张交互表里,就要进行转换。我们可以将性别与城乡这两个变量合并成一个变量,原来性别分为两个类型 (男、女),城乡也分为两种类型(城、乡),合并后的变量可以记为“性别城乡分为四个类型:男城市、男农村、女城市、女农村,这样就又可以使用对应分析的基夲形式(二维形式)对上述问题进行分析了。但是,从上述变量类型转换中也可以看出,当我们所要分析的变量超过三个时,用这种方法就会感到很不方便了,这时就要使用以下介绍的另种方法多元对应分析的第二种方法是采用同质性分析( Homogeneity analysis)技术.这是一种对多个名义变量进行主成分分析的技术,其优势是可以同时对多个定性变量进行对应分析。在SPSS软仵里专门有一个 HOMALS程序可以帮助我们进行分析,这里不多赘述。从上述两种多元对应分析方法的比较看,当对两个变量进行分析时(可以看作是多元对应分析的特例),用两种方法得到的统计结果并不致(但是用各自的解释方式得出的结论是一样的)。因此,在变量数为两个的情况下,建议使用对应分析的基本形式;在变量数为三个的情况下,建议使用上述多元对应分析的 458

第一种方法,即将其中两个变量合并成一个后再进行分析;当变量数为四个或以上时,建议使用上述多元对应分析的第二种方法,即运用同质性分析方法。 3.对应分析的基本思路对应分析方法通过对二维交互表的频数分析来确定变量及其类别之间的关系。例如,在分析顾客对不同品牌商品的喜好时,可以将商品品牌与顾客的性别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代表着不同特点的顾客与品牌之间的联系。通过对应分析,可以把品牌、顾客特点以及他们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似的品牌在图上的分布便会彼此靠近在一起。根据顾客特点与每一品牌之间距离的远近,还可以区分顾客的哪些特点与喜好某种品牌的关系密切。在对应分析中,每个变量的类别差异是通过直观图上的分值距离表现出来的,但这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权过程中,以卡方值( Chi-square)的差异表现的。因此,对应分析的基础是将卡方值转变成可度量的距离。卡方值分布是由累计交叉汇总表中每一交互组的实际频数与期望频数的差值得来的,如果卡方值是负值,就说明这一单元格中的实际发生频数低于期望频数。每一单元格(每个行变量类别与列变量类别在表中的交叉点)频数的期望值取决于它在行分布中所占的比例和列分布中所占的比例。如果某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量类别与列变量类别有很强的对应关系,这两个类别在图上的距离就会很近。如果是负值,则两个类别在图上的距离就会很远。 4.对应分析方法的优点对应分析方法的出现为我们分析定性变量提供了许多方便条件,这表现在以下几个方面。 (1)定性变量划分的类别越多,这种方法的优势越明显利用简单的交叉汇总表就可以对定性变量进行分析,而且变量划分的类别越多,这种分析方法的优势越明显尽管其他统计方法也可以对交叉汇总表进行分析,但当变量是名义或序次变量、而且变量的类别很多时,用这些方法就很难看出变量之间的关系。例如,当我们调査不同职业的顾客对不同品牌香烟的喜好时,职业变量可以分成十多个类别,而香烟品牌也可以有十个之多。这样一个由名义变量构成的庞大的交叉表就

很难看出变量间的联系。对于这样的研究,对应分析的优势就表现得十分明显。对应分析可以将不同职业的顾客与他们选择的不同品牌香烟同时表现在一个二维直观图里,从而清楚地反映出哪些职业的顾客喜欢冋样的香烟品牌,哪些香烟品牌在顾客的心目中比较相似等 (2)揭示行变量类别间与列变量类别间的联系对应分析不但可以表现行变量与列变量之间的联系,而且可以揭示行变量类别间与列变量类别间的联系在社会科学研究中,经常有许多用序次变量表示的变量。例如,在对不同受教育程度的人是否愿意做社区志愿服务人员的调查中,调查对象的意愿通常被划分为五类:1)非常愿意;2)愿意:3)一般;4)不愿意;5)很不愿意。在调查不同职业的人对在过去一年里收入的满意程度时,又往往会用编码:1)非常满意:2)满意;3)一般;4)不满意:5)很不满意来表示。如果对上述变量直接进行分析,隐含的假定是不同意愿或满意程度类别之间的差距是等距的,而实际上很可能并不是这样。而在对应分析的分布图上,特征相似的类别会聚集到起,差异很大的类别则相距很远,由此,我们可以区分变量的不同类别之间的差异情况,重新调整分类,使之更加符合实际情况。 (3)将类别联系直观地表现于图形中对应分析最大的优势是可以将所有行变量类别和列变量类别的联系直观地表现在同一张分布图上,我们从中可以看出哪些行变量类别与列变量类别有密切的联系,从而能够清楚地解释统计分析结果 4)可以将名义变量或序次变量转变为间距变量以对应分析方法为基础还可以将名义变量或序次变量转变为间距变量,从而可以应用更多的传统统计方法分析含有这样变量的调查数据。然而,在看到对应分析方法的优点的同时,也不能忽略它的局限性 5.对应分析方法的局限性 (1)不能用于相关关系的假设检验对应分析只是一种描述性的统计分析方法,它虽然可以揭示变量间的联系但不能用于相关关系的假设检验。例如,它不能说明两个变量之间存在的联系是否显著。如果你所作分析的主要目的是量化变量之间的联系,那么就要用Lag linear等其他统计方法。 (2)维度要由研究者决定对应分析是一种减少维度的方法,在分析过程中,到底用几维进行分析需要

由研究者自己决定,没有硬性的规定。在分析过程中,研究者可以知道最大维度数是多少,但是减少到几维为好必须权衡分析结果是否可解释( Interpretability) 以及是否简约( Parsi-mony)。对应分析的原则是用最少的维度来解释尽可能多的差异,但多少才算是多要由研究者决定。 (3)对极端值敏感在分析过程中,极端值( Outlier,或称野点子)对对应分析的结果影响很大、对应分析的假设条件运用分布图分析变量类别间的关系时可以采用两种方法:一种是分解法 ( Decomposi-tional Method),例如,多维标度( Multidimentional Scaling)就属于分解法分析技术,使用多维标度技术分析顾客对不同品牌商品的喜好时,每个被调查者只需对不同品牌是否相似或喜欢什么品牌作出一个总体的评价,随后这些总体评价会被分解成若于维度,从而在分布图上将不同品牌的差异表现出来。另一种方法是构成法(( oppositional Method),对应分析就属于构成法技术。用构成法分析顾客对不同品牌商品的喜好时,每个被调查者先要对不同品牌商品的每个特征分别进行评价,然后再从这些评价中得出品牌相似或品牌喜好的总体评价。在多元统计方法中,因子分析和判别分析都是常用的构成法分析技术对应分析方法对于数据类型、变量之间的关系没有严格的限定。但是,调查对象必须有代表性,研究对象要有可比性,变量的类别应当涵盖所有可能出现的情况。比如在生活满意度调查中,有满意的,也会有不满意的,还会有回答的,表示既不是满意也不是不满意,也有不回答的可能,这些答案都应考虑在内。对于所分析的调查数据,对应分析还有以下一些假设条件。 1.被调查者回答问题时并不都从同角度(或称维度)作出判断在意愿、满意度和商品品牌喜好等调查中,被调査者都通常会从两个维度进行评判。这两个维度一个是主观维度,一个是客观维度。主观维度是指人们主观的看法,比如认为某一商品很贵,某部电影很好看,某家生活很幸福等。之所以说这些判断是主观得出的,是因为换一个人可能就并不这样认为,一个人认为很好看的电影在另一个人眼里可能并不好看。客观维度是指从研究对象的有形特点进行判断,例如商品的体积、形状、颜色、重量等,一个重10公斤的物品在谁 46l

手里都是同样重量,不会因人而异。每一个被调查者不都从同一角度作出判断这一假设是说,被调查者并不都是用同样的主观或客观维度及指标来作为判断的依据,虽然主要的指标很可能会样,但不完全一样。举例来说,在调查人们生活的满意程度时,有的调查对象从收入的角度考虑得多一些,认为收入越高越满意;而另一些被调查者可能更注重家庭关系的和谐;还有的人注重有没有较好的工作、住房等;这样大家作出判断的角度就不一样了。在这里,收入可能是所有人都要考虑的指标之一,但如果所有调查者都以收入水平作为惟一的考虑角度,收入这样一个指标就反映了生活满意度,那么也就没有必要再进行对应分析了。 2.所有被调查者对于某一维度重要性的评价不必一样比如生活满意度的评价中,有的人认为收入水平最重要;但另一些人可能认为收入多少并不重要,而家庭和谐才是生活满意度的最重要因素。 3.被调查者的评判角度和看法可以改变被调查者作出评判时所考虑的角度、对每个维度重要性的看法会随着时间推移而改变,不一定要保持同一看法。现在对收入和生活很满意的人过两年也可能会回答不满意。在实际调查过程中,毎个被调查者通常会从各白选择的角度来回答问题,对满意程度、喜好与否等作出评判。对应分析就是要找出被调査者的比较一致的看法,以及他们在回答问题时主要是从哪些角度考虑的。在使用定性变量数据进行分析时,交叉汇总表中的数字可以代表线性关系也可以代表非线性关系。对应分析的基础是交叉汇总表,表中的每一个单元格(Cel)都代表着被调查者选择某一答案的频数,也表示着行与列的对应关系。对应分析的一个重要前提条件是表中的每一单元格都不能是负数或零,如果有频数为零的单元格出现, 应该对变量的分类进行合并,去掉有频数为零的单元格类别。例如,在分析有不同生活自理能力的老年人对自己健康状况的评价时,如果分成“极好、很好好、一般、不好、很不好”时,没有生活自理能力的老年人很可能就没有人回答健康¨极好”这一类,这样就出现了一个频数为零的单元格,这时就要将极好与很好(假如有人回答“很好”)合并,去掉“极好”这一类别。此外,表中的行和列的设置并不是固定的,比如说,表示职业的变量既可以作为列变量,也可以作为行变量,对分析结果没有影响

三、使用SPSS统计软件进行对应分析随着计算机的日益普及,可以进行对应分析的软件也越来越多。在各种软件中应用最广泛的软件是SPSS软件中的 ANACOR程序( Procedure)和 HOMALS程序,BMDP软件中的CA程序,P-MDS软件中的 CORRAN和 CORRESP程序。本章主要以SFS软件中的 ANACOR程序为例,并介绍相应的上机操作技术。 ANACOR是对应分析( Analysis of Correspondence)的缩写。在 SPSS for Windows6x版本软件中尚没有现成的菜单命令可供选择,需要在 Syntax窗口下编写并运行命令程序。但是,在刚刚发行的 SPSS for windows7.5版软件中已经有现成的菜单命令可供选择,用户在 Statistics窗口下选择 Data reduction子窗口,再选择( orrespondence命令就可以定义并运行命令程序。考虑到广大的用户现在仍在使用 SPSS for window6.x版本软件,本章的例题仍然以在6.x版本软件中编写程序的方式介绍对应分析方法,读者对于程序的编写格式和命令关键字的使用规定应当格外加以注意。ANA(OR程序是由荷兰雷登( Leiden)大学数据理论系编制的,在每次运行结果的开始都会显示这一单位。SPSS通过合同将此程序进行了套装。使用 Windows版SrSS进行对应分析的步骤如下: 兴对定性变量数据进行交叉汇总,得到对应分析所要求的汇总表。在 Statistics窗口中调用(' rossas程序,选择所要分析的两个定性变量数据分别定义为行变量和列变量,然后执行交叉汇总命令,得到汇总表。随后,要检查是否有频数为零的单元格,如果有这样的情况须进行必要的类别调整,使之符合对应分析对汇总表的要求。开启 Syntax窗口、按照对应分析的命令格式编写程序,进行参数设定并运行程序检查运行结果和各种统计图,必要时可以调整参数,重新运行程序,使直观图能够最好地表现变量之间的关系。 x对分析结果加以合理的解释。四、对应分析示例为了更好地说明对应分析的应用过程及参数确定等一系列问题,本章以一个

应用对应分析的例子来进行示范。例子中所用数据来自北京老年病医学研究中心 1992-1994年在北京市进行的“北京老龄化多维纵向研究”。在这项研究中,先后在两年的时间里,研究人员对一批60岁以上的老年人进行纵向追踪调查,其中有2703位老年人是在两次调查中都被调查到的,这里选择这些老年人在1992 年基线调查中对“日常生活自理能力”和“自评健康状况”两个问题的回答进行分析。在“日常生活自理能力”问题中,自理程度(答案)分为完全自理、部分自理和不能自理三类。健康自评的问题是:“您觉得您现在的身体好吗?”答案分为五类:很好、好、一般、差、很差第一步是对调査数据中“日常生活自理能力”和“自评健康状況”两个变量进行交叉汇总,得出汇总表。在 Windows版SPSS中,首先调入含有上述两个变量的数据文件;在St tics窗口中选择 Crosstabs程序,进行交叉汇总,得到以下汇总表,见表14-1 表14-1 老年人生活自理能力与自评健康状况汇总表自评健康状况生活自理能力完全自理部分自理不能自理合计很好 5 般 251 436 很差没回答 2 合计 400 306 270 在汇总表巾新出现了一行,即“没回答”,这是因为一些老人没有对自己的健康状况进行评价,这在类似的社会调查中也是常见的现象,也就是说常有一些被调查者没有回答全部问题。如果确实认为这一类情况可以不考虑在内,那么可以把这一行去掉。但从本例考虑,我们很想知道什么样的老年人更不愿意对自己的健康状况进行评价,所以在以下的对应分析中保留了这一行频数从表中的频数分布看,没有频数为零的单元格,符合对应分析的基本要求在回答健康状况好或一般的老年人中,生活能够完全自理的人最多,但仍有·部分人生活不能自理。在回答说自己健康状况很差的老年人中,生活不能自理的老年人占有很大比重。那么,自评健康状况与日常生活自理能力之间到底有怎样的

需要全部2703例原始数据就可以进行分析。我们在程序中直接输入的只是交互表中的交互频数,表14-1中的行和列合计数并不需要输人。所以,只要有定性变量的交互汇总表就可以进行对应分析。在编写程序的过程中还要注意:按照SPS软件的编程规则,在每一命令的结尾要有句号,例如,本例中, DATA LIST命令和 BEGIN DATA. END DA IA命令结尾处都有一个句号¨.”。如果在编程中忘记在命令结尾写句号,运行时将显示错误信息并中止运行。 VARIABLE LABELS命令是说明SRH和ADL两个变量各代表什么,如果你正在使用中文平台状态下的SPSs软件,可以直接用中文来加以说明,例如上述程序就直接用“自评健康状况”和“生活自理能力”来说明。如果不在中文平台下,这里可以用英文加以说明。对变量进行定义是一个选择项,目的是为了使分析结果更直观,如果认为没有必要再特地说明(因为只有两个变量),这项可以不要。 VALUE LABELS命令与 VARIABLE LABELS命令不同,它是说明每个变量中各个类别的含义的,我们建议您认真加以定义。如果不加以定义,输出结果将只给出类别代码,在类别很多的情况下就不容易分清每个类别代码代表着什么。与上一命令一样,如果你正在使用中文平台状态下的SPSS软件,可以直接用中文来加以说明。如果不在中文平台下,这里可以用英文加以说明。需要注意的是:一个变量的各个类别可以连续定义,但是一个变量与另一个变量之间要用 “”分开。在SPSS软件中,“是子命令分隔符。 WEIGHT命令是定义母一个单元格中的频数与变量FREQ的对应频数相同。 ANA( OR TABLE是调用对应分析的关键语句,它指明用对应分析程序对行变量和列变量进行分析。等号后是变量名,第一个变量是行变量,第二个变量是列变量,两个变量之间用b分开。变量名后括号里的数字是每个变量的取值范围(类别数)。 NORMALIZATION子命令是定义标准化的方式,这将决定绘制图形时是以行变量还是以列变量为主,亦或是同时考虑行和列变量。对应分析过程中主要有四种标准化方式可以选择:(1)如果分析的重点是行变量各个类别之间的差异就选用以行变量为主的标准化方法(命令关键字 RPRINCIPAL)。(2)如果分析的重点是列变量各个类别之间的差异,就选用以列变量为主的标准化方法(命令关键字( PRINCIPAL)(3)如果分析的重点是行变量与列变量两个变量之间的联系,而不是每个变量各个类别之间的差异,就要选用典型标准化方法(命令关键字 CANONICAL),这也是对应分析过程的缺省设定值。(4)如果分析的重点

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第十四章 对应分析

21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第十四章对应分析