杜会学系列教材 第十四章 对应分析 在社会科学研究中,一个经常会遇到的问题就是要对定性变量数据进行量化 分析,因为研究中往往使用一些定性( Nonmetric)变量,例如名义变量或序次 变量来反映研究对象的行为、态度等,研究不同性别的顾客对不同品牌商品的喜 好,不同职业的人在吸烟行为上的差异等都属于此类研究。以往在分析这样的定 性变量时,往往需要使用非线性统计方法,例如L< linear等,但在每个变量都 划分成许多类别的情况下,这些分析方法就很难直观地揭示出变量之间的联系以 及变量类别之间的关系。在这种情况下,我们可以使用对应分析方法。 什么是对应分析 1.对应分析的概念与基本形式 对应分析( orrespondence analvsis)方法是近年来新发展起来的一种多元 相依变量( Interdependence)统计分析技术,它通过分析由定性变量构成的交互 汇总表来揭示变量间的联系。当以变量的一系列类别以及这些类别的分布图来描 述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差
异以及不同变量各个类别之间的对应关系。 与其他相依变量分析技术不同,它既可以分析定性变量数据,同时还可以分 析非线性关系。当我们分析的变量是名义变量或序次变量,变量之间存在非线性 关系时,则可以用对应分析来揭示变量之间的联系。 对应分析的基本形式是对由两个定性或类型( Category)变量构成的交互表 进行分析,将定性变量数据转变成可度量的分值、减少维度并作出分值分布图。 在减少维度方面,对应分析与因子分析( Factor Analysis)相似;在作分布图方 面,对应分析与多维标度( Multidimensional scaling)方法相似。对应分析的优 点就在于可以同时做到这几方面,这是以往的统计方法所不能做的,因此,在定 性变量数据分析方面,对应分析提供了一种新的多元相依变量的分析技术 2.有关多元对应分析 虽然对应分析的基本形式是对两个定性变量进行分析,实际上对于由三个或 三个以上变量形成的交互表也可以进行对应分析,这样的对应分析称为多元对应 分析( Multiple Correspondence Analysis)。多元对应分析可以采取两种方法,第 种方法与二元对应分析非常相似,只是需要对超过二元的变量进行转换,从而 使各个变量的所有类别都表现在同一个多维空间里。这里以同时分析三个名义变 量为例,假设我们想分析不同性别、分别居住在城市和农村的人对在过去一年取 得的收入是否满意,如果要将这三个变量放在同一张交互表里,就要进行转换。 我们可以将性别与城乡这两个变量合并成一个变量,原来性别分为两个类型 (男、女),城乡也分为两种类型(城、乡),合并后的变量可以记为“性别城乡 分为四个类型:男城市、男农村、女城市、女农村,这样就又可以使用对应 分析的基夲形式(二维形式)对上述问题进行分析了。但是,从上述变量类型转 换中也可以看出,当我们所要分析的变量超过三个时,用这种方法就会感到很不 方便了,这时就要使用以下介绍的另种方法 多元对应分析的第二种方法是采用同质性分析( Homogeneity analysis)技 术.这是一种对多个名义变量进行主成分分析的技术,其优势是可以同时对多个 定性变量进行对应分析。在SPSS软仵里专门有一个 HOMALS程序可以帮助我 们进行分析,这里不多赘述。 从上述两种多元对应分析方法的比较看,当对两个变量进行分析时(可以看 作是多元对应分析的特例),用两种方法得到的统计结果并不致(但是用各自 的解释方式得出的结论是一样的)。因此,在变量数为两个的情况下,建议使用 对应分析的基本形式;在变量数为三个的情况下,建议使用上述多元对应分析的 458
第一种方法,即将其中两个变量合并成一个后再进行分析;当变量数为四个或以 上时,建议使用上述多元对应分析的第二种方法,即运用同质性分析方法。 3.对应分析的基本思路 对应分析方法通过对二维交互表的频数分析来确定变量及其类别之间的关 系。例如,在分析顾客对不同品牌商品的喜好时,可以将商品品牌与顾客的性 别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾 客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代 表着不同特点的顾客与品牌之间的联系。通过对应分析,可以把品牌、顾客特点 以及他们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似 的品牌在图上的分布便会彼此靠近在一起。根据顾客特点与每一品牌之间距离的 远近,还可以区分顾客的哪些特点与喜好某种品牌的关系密切。 在对应分析中,每个变量的类别差异是通过直观图上的分值距离表现出来 的,但这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权过程 中,以卡方值( Chi-square)的差异表现的。因此,对应分析的基础是将卡方值 转变成可度量的距离。卡方值分布是由累计交叉汇总表中每一交互组的实际频数 与期望频数的差值得来的,如果卡方值是负值,就说明这一单元格中的实际发生 频数低于期望频数。每一单元格(每个行变量类别与列变量类别在表中的交叉 点)频数的期望值取决于它在行分布中所占的比例和列分布中所占的比例。如果 某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量类 别与列变量类别有很强的对应关系,这两个类别在图上的距离就会很近。如果是 负值,则两个类别在图上的距离就会很远。 4.对应分析方法的优点 对应分析方法的出现为我们分析定性变量提供了许多方便条件,这表现在以 下几个方面。 (1)定性变量划分的类别越多,这种方法的优势越明显 利用简单的交叉汇总表就可以对定性变量进行分析,而且变量划分的类别越 多,这种分析方法的优势越明显 尽管其他统计方法也可以对交叉汇总表进行分析,但当变量是名义或序次变 量、而且变量的类别很多时,用这些方法就很难看出变量之间的关系。例如,当 我们调査不同职业的顾客对不同品牌香烟的喜好时,职业变量可以分成十多个类 别,而香烟品牌也可以有十个之多。这样一个由名义变量构成的庞大的交叉表就
很难看出变量间的联系。对于这样的研究,对应分析的优势就表现得十分明显。 对应分析可以将不同职业的顾客与他们选择的不同品牌香烟同时表现在一个二维 直观图里,从而清楚地反映出哪些职业的顾客喜欢冋样的香烟品牌,哪些香烟品 牌在顾客的心目中比较相似等 (2)揭示行变量类别间与列变量类别间的联系 对应分析不但可以表现行变量与列变量之间的联系,而且可以揭示行变量类 别间与列变量类别间的联系 在社会科学研究中,经常有许多用序次变量表示的变量。例如,在对不同受 教育程度的人是否愿意做社区志愿服务人员的调查中,调查对象的意愿通常被划 分为五类:1)非常愿意;2)愿意:3)一般;4)不愿意;5)很不愿意。在调查 不同职业的人对在过去一年里收入的满意程度时,又往往会用编码:1)非常满 意:2)满意;3)一般;4)不满意:5)很不满意来表示。如果对上述变量直接 进行分析,隐含的假定是不同意愿或满意程度类别之间的差距是等距的,而实际 上很可能并不是这样。而在对应分析的分布图上,特征相似的类别会聚集到 起,差异很大的类别则相距很远,由此,我们可以区分变量的不同类别之间的差 异情况,重新调整分类,使之更加符合实际情况。 (3)将类别联系直观地表现于图形中 对应分析最大的优势是可以将所有行变量类别和列变量类别的联系直观地表 现在同一张分布图上,我们从中可以看出哪些行变量类别与列变量类别有密切的 联系,从而能够清楚地解释统计分析结果 4)可以将名义变量或序次变量转变为间距变量 以对应分析方法为基础还可以将名义变量或序次变量转变为间距变量,从而 可以应用更多的传统统计方法分析含有这样变量的调查数据。 然而,在看到对应分析方法的优点的同时,也不能忽略它的局限性 5.对应分析方法的局限性 (1)不能用于相关关系的假设检验 对应分析只是一种描述性的统计分析方法,它虽然可以揭示变量间的联系 但不能用于相关关系的假设检验。例如,它不能说明两个变量之间存在的联系是 否显著。如果你所作分析的主要目的是量化变量之间的联系,那么就要用Lag linear等其他统计方法。 (2)维度要由研究者决定 对应分析是一种减少维度的方法,在分析过程中,到底用几维进行分析需要
由研究者自己决定,没有硬性的规定。在分析过程中,研究者可以知道最大维度 数是多少,但是减少到几维为好必须权衡分析结果是否可解释( Interpretability) 以及是否简约( Parsi-mony)。对应分析的原则是用最少的维度来解释尽可能多的 差异,但多少才算是多要由研究者决定。 (3)对极端值敏感 在分析过程中,极端值( Outlier,或称野点子)对对应分析的结果影响很 大 、对应分析的假设条件 运用分布图分析变量类别间的关系时可以采用两种方法:一种是分解法 ( Decomposi-tional Method),例如,多维标度( Multidimentional Scaling)就属于 分解法分析技术,使用多维标度技术分析顾客对不同品牌商品的喜好时,每个被 调查者只需对不同品牌是否相似或喜欢什么品牌作出一个总体的评价,随后这些 总体评价会被分解成若于维度,从而在分布图上将不同品牌的差异表现出来。 另一种方法是构成法(( oppositional Method),对应分析就属于构成法技 术。用构成法分析顾客对不同品牌商品的喜好时,每个被调查者先要对不同品牌 商品的每个特征分别进行评价,然后再从这些评价中得出品牌相似或品牌喜好的 总体评价。在多元统计方法中,因子分析和判别分析都是常用的构成法分析技 术 对应分析方法对于数据类型、变量之间的关系没有严格的限定。但是,调查 对象必须有代表性,研究对象要有可比性,变量的类别应当涵盖所有可能出现的 情况。比如在生活满意度调查中,有满意的,也会有不满意的,还会有回答 的,表示既不是满意也不是不满意,也有不回答的可能,这些答案都应考虑在 内。对于所分析的调查数据,对应分析还有以下一些假设条件。 1.被调查者回答问题时并不都从同角度(或称维度)作出判断 在意愿、满意度和商品品牌喜好等调查中,被调査者都通常会从两个维度进 行评判。这两个维度一个是主观维度,一个是客观维度。主观维度是指人们主观 的看法,比如认为某一商品很贵,某部电影很好看,某家生活很幸福等。之所以 说这些判断是主观得出的,是因为换一个人可能就并不这样认为,一个人认为很 好看的电影在另一个人眼里可能并不好看。客观维度是指从研究对象的有形特点 进行判断,例如商品的体积、形状、颜色、重量等,一个重10公斤的物品在谁 46l
手里都是同样重量,不会因人而异。 每一个被调查者不都从同一角度作出判断这一假设是说,被调查者并不都是 用同样的主观或客观维度及指标来作为判断的依据,虽然主要的指标很可能会 样,但不完全一样。举例来说,在调查人们生活的满意程度时,有的调查对象从 收入的角度考虑得多一些,认为收入越高越满意;而另一些被调查者可能更注重 家庭关系的和谐;还有的人注重有没有较好的工作、住房等;这样大家作出判断 的角度就不一样了。在这里,收入可能是所有人都要考虑的指标之一,但如果所 有调查者都以收入水平作为惟一的考虑角度,收入这样一个指标就反映了生活满 意度,那么也就没有必要再进行对应分析了。 2.所有被调查者对于某一维度重要性的评价不必一样 比如生活满意度的评价中,有的人认为收入水平最重要;但另一些人可能认 为收入多少并不重要,而家庭和谐才是生活满意度的最重要因素。 3.被调查者的评判角度和看法可以改变 被调查者作出评判时所考虑的角度、对每个维度重要性的看法会随着时间推 移而改变,不一定要保持同一看法。现在对收入和生活很满意的人过两年也可能 会回答不满意。 在实际调查过程中,毎个被调查者通常会从各白选择的角度来回答问题,对 满意程度、喜好与否等作出评判。对应分析就是要找出被调査者的比较一致的看 法,以及他们在回答问题时主要是从哪些角度考虑的。 在使用定性变量数据进行分析时,交叉汇总表中的数字可以代表线性关系 也可以代表非线性关系。 对应分析的基础是交叉汇总表,表中的每一个单元格(Cel)都代表着被调 查者选择某一答案的频数,也表示着行与列的对应关系。对应分析的一个重要前 提条件是表中的每一单元格都不能是负数或零,如果有频数为零的单元格出现, 应该对变量的分类进行合并,去掉有频数为零的单元格类别。例如,在分析有不 同生活自理能力的老年人对自己健康状况的评价时,如果分成“极好、很好 好、一般、不好、很不好”时,没有生活自理能力的老年人很可能就没有人回答 健康¨极好”这一类,这样就出现了一个频数为零的单元格,这时就要将极好与 很好(假如有人回答“很好”)合并,去掉“极好”这一类别。此外,表中的行 和列的设置并不是固定的,比如说,表示职业的变量既可以作为列变量,也可以 作为行变量,对分析结果没有影响
三、使用SPSS统计软件进行对应分析 随着计算机的日益普及,可以进行对应分析的软件也越来越多。在各种软件 中应用最广泛的软件是SPSS软件中的 ANACOR程序( Procedure)和 HOMALS程 序,BMDP软件中的CA程序,P-MDS软件中的 CORRAN和 CORRESP程序。 本章主要以SFS软件中的 ANACOR程序为例,并介绍相应的上机操作技术。 ANACOR是对应分析( Analysis of Correspondence)的缩写。在 SPSS for Windows6x版本软件中尚没有现成的菜单命令可供选择,需要在 Syntax窗口 下编写并运行命令程序。但是,在刚刚发行的 SPSS for windows7.5版软件中已 经有现成的菜单命令可供选择,用户在 Statistics窗口下选择 Data reduction子窗 口,再选择( orrespondence命令就可以定义并运行命令程序。考虑到广大的用户 现在仍在使用 SPSS for window6.x版本软件,本章的例题仍然以在6.x版本软 件中编写程序的方式介绍对应分析方法,读者对于程序的编写格式和命令关键字 的使用规定应当格外加以注意。ANA(OR程序是由荷兰雷登( Leiden)大学数 据理论系编制的,在每次运行结果的开始都会显示这一单位。SPSS通过合同将 此程序进行了套装。 使用 Windows版SrSS进行对应分析的步骤如下: 兴对定性变量数据进行交叉汇总,得到对应分析所要求的汇总表。 在 Statistics窗口中调用(' rossas程序,选择所要分析的两个定性变量数据 分别定义为行变量和列变量,然后执行交叉汇总命令,得到汇总表。随后,要检 查是否有频数为零的单元格,如果有这样的情况须进行必要的类别调整,使之符 合对应分析对汇总表的要求。 开启 Syntax窗口、按照对应分析的命令格式编写程序,进行参数设定并 运行程序 检查运行结果和各种统计图,必要时可以调整参数,重新运行程序,使直 观图能够最好地表现变量之间的关系。 x对分析结果加以合理的解释。 四、对应分析示例 为了更好地说明对应分析的应用过程及参数确定等一系列问题,本章以一个
应用对应分析的例子来进行示范。例子中所用数据来自北京老年病医学研究中心 1992-1994年在北京市进行的“北京老龄化多维纵向研究”。在这项研究中,先 后在两年的时间里,研究人员对一批60岁以上的老年人进行纵向追踪调查,其 中有2703位老年人是在两次调查中都被调查到的,这里选择这些老年人在1992 年基线调查中对“日常生活自理能力”和“自评健康状况”两个问题的回答进行 分析。 在“日常生活自理能力”问题中,自理程度(答案)分为完全自理、部分自 理和不能自理三类。健康自评的问题是:“您觉得您现在的身体好吗?”答案分为 五类:很好、好、一般、差、很差 第一步是对调査数据中“日常生活自理能力”和“自评健康状況”两个变量 进行交叉汇总,得出汇总表。 在 Windows版SPSS中,首先调入含有上述两个变量的数据文件;在St tics窗口中选择 Crosstabs程序,进行交叉汇总,得到以下汇总表,见表14-1 表14-1 老年人生活自理能力与自评健康状况汇总表 自评健康状况 生活自理能力 完全自理 部分自理 不能自理 合计 很好 5 般 251 436 很差 没回答 2 合计 400 306 270 在汇总表巾新出现了一行,即“没回答”,这是因为一些老人没有对自己的 健康状况进行评价,这在类似的社会调查中也是常见的现象,也就是说常有一些 被调查者没有回答全部问题。如果确实认为这一类情况可以不考虑在内,那么可 以把这一行去掉。但从本例考虑,我们很想知道什么样的老年人更不愿意对自己 的健康状况进行评价,所以在以下的对应分析中保留了这一行频数 从表中的频数分布看,没有频数为零的单元格,符合对应分析的基本要求 在回答健康状况好或一般的老年人中,生活能够完全自理的人最多,但仍有·部 分人生活不能自理。在回答说自己健康状况很差的老年人中,生活不能自理的老 年人占有很大比重。那么,自评健康状况与日常生活自理能力之间到底有怎样的
关系呢?这是我们关心的主要问题。 第二步,打开 Syntax窗口,编写对应分析程序、设定参数并运行程序。 首先,使用表14—1中两个变量各个类别的频数分布定义对应分析所需的数 据。其次,定义每个变量的名字和变量中每个类别的名字,以便在以后的统计结 果中可以一目了然地看清楚分析结果并加以解释。第三,定义标准化形式和图形 输出形式。最后,运行程序,得出分析结果和图形。 表142是针对本例编写的对应分析程序 表14-2 例1的命令程序 DATA LIST FREE SRH ADL FREQ BEGIN DATA 1:1291214138 21931221462396 31660321163374 4125142104438 511152:5323 611562136324 E、 D DATA VARIABLE LABELS SFH’自评健康状况 /ADL’生活自理能力 VALLE LABELS SRH1很好2”好3’一般’4'差’5'很差6’没回答 /DL1’完全自埋2部分自理’3’不能自理 WEIGHT BY FREQ NACOR TABLES=SRH (1, 6) BY ADL. (1, 3) ANORMALIZATION=PRINCIPAI PLOT ROWS COLLMNS 本书所附磁盘中提供这一程序文件,文件名为T14.2.Ss 在这个程序里, DATA LIST命令定义了在对应分析中要输入三个变量 SRH、ADL和FREQ,输入的格式是自由格式。其中,SRH的值代表表14-1 中的行号,ADL代表列号,FRFQ是对应的单元格的频数。例如,第二行的第 三组数字23%6就代表表14-1中第二行第三列的频数为96。 在上述程序中,数据的排列与表14—1的格式是对应的,这样比较直观,也 便于核对数据。实际上,由于在输入格式上我们已经定义为自由格式,输入数据 时各组数据完全可以连续输入,每组数据之间只要用空格分开就行,不必按原表 中格式排列。当一行程序写不下全部数据时,可以转到下一行接着写。 从数据输入这部分程序也可以看出,在已有交互汇总表的情况下,我们并不 465
需要全部2703例原始数据就可以进行分析。我们在程序中直接输入的只是交互 表中的交互频数,表14-1中的行和列合计数并不需要输人。所以,只要有定性 变量的交互汇总表就可以进行对应分析。 在编写程序的过程中还要注意:按照SPS软件的编程规则,在每一命令的 结尾要有句号,例如,本例中, DATA LIST命令和 BEGIN DATA. END DA IA命令结尾处都有一个句号¨.”。如果在编程中忘记在命令结尾写句号,运行 时将显示错误信息并中止运行。 VARIABLE LABELS命令是说明SRH和ADL两个变量各代表什么,如果 你正在使用中文平台状态下的SPSs软件,可以直接用中文来加以说明,例如上 述程序就直接用“自评健康状况”和“生活自理能力”来说明。如果不在中文平 台下,这里可以用英文加以说明。对变量进行定义是一个选择项,目的是为了使 分析结果更直观,如果认为没有必要再特地说明(因为只有两个变量),这项可 以不要。 VALUE LABELS命令与 VARIABLE LABELS命令不同,它是说明每个变 量中各个类别的含义的,我们建议您认真加以定义。如果不加以定义,输出结果 将只给出类别代码,在类别很多的情况下就不容易分清每个类别代码代表着什 么。与上一命令一样,如果你正在使用中文平台状态下的SPSS软件,可以直接 用中文来加以说明。如果不在中文平台下,这里可以用英文加以说明。需要注意 的是:一个变量的各个类别可以连续定义,但是一个变量与另一个变量之间要用 “”分开。在SPSS软件中,“是子命令分隔符。 WEIGHT命令是定义母一个单元格中的频数与变量FREQ的对应频数相同。 ANA( OR TABLE是调用对应分析的关键语句,它指明用对应分析程序对行 变量和列变量进行分析。等号后是变量名,第一个变量是行变量,第二个变量是 列变量,两个变量之间用b分开。变量名后括号里的数字是每个变量的取值范 围(类别数)。 NORMALIZATION子命令是定义标准化的方式,这将决定绘制图形时是以 行变量还是以列变量为主,亦或是同时考虑行和列变量。对应分析过程中主要有 四种标准化方式可以选择:(1)如果分析的重点是行变量各个类别之间的差异 就选用以行变量为主的标准化方法(命令关键字 RPRINCIPAL)。(2)如果分析 的重点是列变量各个类别之间的差异,就选用以列变量为主的标准化方法(命令 关键字( PRINCIPAL)(3)如果分析的重点是行变量与列变量两个变量之间的 联系,而不是每个变量各个类别之间的差异,就要选用典型标准化方法(命令关 键字 CANONICAL),这也是对应分析过程的缺省设定值。(4)如果分析的重点