杜会学系列教材 第十章 典型相关分析 典型相关分析( canonical correlation analysis)是近年来开始普及的一种新型 多元统计分析方法。典型相关分析源于荷泰林(H. Hotelling)于1936年在《生 物统计》期刊上发表的一篇论文《两组变式之间的关系》①。他所提出的方法经 过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。由于典型相关分析 涉及较大量的矩阵计算,它的应用在早期曾受到相当的限制。但当代计算机技术 及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走 向普及化。 典型相关分析是进行两组变量之间相关的分析技术,因而是一种更一般性的 方法,具有较强的分析能力。典型相关模型的相关函数等号两侧都有不只一个的 变量。相比之下,简单相关模型或简单回归模型在函数等号两侧都只有一个变 量;而多元相关模型则是一侧有多个自变量、另一侧只有一个因变量。因此它们 都可以视为典型相关分析的特殊形式。 典型相关分析的用途很广。当研究人员面临两组多变量数据并希望研究两组 ①参见 Hotelling,H.(1936) Relations between two sets of variates.Bom 377 307
变量之间的关系时,就可能用到典型相关分析。这里所要强调的是,典型相关分 析不是分别对其中一个变量组的每个变量做与另一组的多个变量之间的多元相关 或多元回归,因为这样做以后,仍然不能得到两个变量组之间的整体相关的信 息,因为自变量之间也存在着相关,多个多元相关或回归的结果是不能简单迭加 在一起的。而典型相关分析则是将各组变量都作为整体来对待,因此它所描述的 是两个变量组之间的整体的相关形式,而不是关于两个变量组中变量的相关。实 际研究当中,注重变量组之间关系的情况是很多的。比如,研究个人及其家庭的 社会经济状况与本人在某些方面的表现之间的联系,其中社会经济状况可以是多 方面的,本人的表现也可以从多个方面来测量。又比如,在有关专题的KAP调 查(即关于知识、态度和实际行动的调查)以后,我们可能将知识和态度变量作 为一组变量,将实际行动作为另一组变量,研究知识和态度与实际行动之间的联 系。又比如,典型相关分析还可以用来分析试验研究中产生的两组变量,即试验 前各方面的测量记录与试验后各方面的测量记录之间的联系。还有,典型相关分 析还可以用于对应关系研究,如夫妻之间、代际之间、干群之间、供求之间所存 在着的两组多变量之间关系的研究。 与相关分析类似,典型相关分析中本来也不设自变量(组)或因变量(组), 而是称第一变量组和第二变量组。但研究人员实际上可能有隐含的因果假设,即 某一组代表自变量,另一组代表因变量。比如,我们在分析中实际上把上述研究 中的社会经济状况、知识和态度、试验前测试结果作为自变量(或控制变量,在 模型中控制变量属于自变量范畴),把本人表现、实际行动和试验后测试结果作 为因变量。典型相关分析中习惯上将自变量和因变量分别称为预测变量( predic tor variables)和标准变量( criterion variable)。在有隐含的或明确的因果联系假 设时,我们将会更多地把研究精力集中于一个方向的作用上。在完全没有内在因 果联系假设时,我们便需要进行双向的分析。在典型相关分析中对两组的分析是 对称的,即分析结果是双向的,无论怎样定义第一变量组和第二变量组,只要组 内的变量不变,就能够得到同样的分析结果。 、典型相关分析思路的简介 由于本章的主旨是介绍利用SPSS软件来进行典型相关分析,因此本章不再 详细介绍它的数学证明及其计算过程,而是注重介绍它的分析思路以及有关主要 概念、指标的理解和应用。 我们先用一个图示(图10-1)来说明典型相关分析的思路和工作步骤。 08
设有两组观测变量,通过权数与观测变量对应相乘、然后将各项累加,分别 对每一组先建立一个线性组合,称典型变式( canonical variate、或组合 omposite)。每一个典型变式的值又构成一个新的典型变量。典型变式和典型变 量是一个事物的两个侧面,典型变式表达观测变量与典型变量之间的关系形式 典型变量更关注数值。后面的讨论中将混合使用这两种称谓。 yp 「2 CI_I y2 CV22 xs 交量分组1 变量分组2 原始观测变量 y1,y2 1,x2,文 通过典型系数 a0,a1,a2 组合成典型函数 Cv」d CV2_d 其中d=min(k1,k2) 求系数解的条件 按顺序d使cv1与cv2取得最大相关。 图101典型相关分析示意图 解出的这两个典型变式(量)之间的简单相关就是典型相关。但是在两个观 测变量组之间的典型相关并不是一个,而是表现在多维方面,其维度取决于两个 原始变量组的变量数目。每个维度上的典型相关系数是按一定顺序成对地建立两 个变量组的典型变式后逐步求解的
典型相关分析建立第一对典型变量的原则,是尽量使所建的两个典型变量之 间的相关系数最大化。换句话说,就是在两个变量组各自的总变化中先寻求它们 之间最大的一部分共变关系,并用一对典型变式(量)所描述。于是,第一维度 上的典型相关系数也随之求得。这还意味着上述的共变部分已经被从两组各自的 变化中剥离出来了。然后,继续在两组变量剩余的变化中寻找第二个最大的共变 部分,形成第二对典型变式(量),并解出第二维度上的典型相关。这样的过程 不断继续,直至所有变化部分被剥离完毕。因此,两组观测变量之间的关系可以 由若干对典型变量来代表。各对典型变量之间的典型相关程度依序次逐步下降。 由于每一对典型函数都是根据两组观测变量所拥有的变化作出的,因此实际上能 够得到的典型函数个数等于两组中变量较少的一组的变量个数。 这一步工作可以大大精简信息。 比如第一组中的变量有六个,第二组中的变量有三个。经过典型相关分析的 数据处理,原来九个观测变量现在用六个典型变量来代表(共三对)。应该指出 的是,每组所产生的三个变式可以代表各自所有观测变量变化的全部信息,并不 因为其中有一个组由于从六个观测变量产生三个典型变量而使原来的信息有所损 失 此外,每个典型变量只与另一组的对应典型变量相关,与本组或另一组的所 有其他典型变量都不相关。由于这个性质,由每组变式所代表的本组观测变量的 变化部分可以简单相加,其总和与本组观测变量的总变化相等。也就是说, 原来所有观测变量的总变化现在通过典型变量被表现在三个相互独立的维度 上 最后,精简信息还表现于第三个方面。在使用随机抽样数据的情况下,虽然 我们从样本数据中得到两组变量在三个维度上的典型相关系数(一般很少正好等 于0),为了肯定各个维度上的典型相关不仅在样本中存在,而且在总体中也存 在,就需要进行统计检验。由于这些典型相关系数值是依序次递减的,因此在统 计检验以后往往并不是都能够得到统计显著的结果。因此,对于总体没有推断意 义的那些维度上的联系可以忽略不计,于是我们又排除了一些对于总体推断无用 的信息,使后面的分析专注于更加重要的方面。其实,排除不显著的维度对于典 型相关程度并没有太大损失。根据典型变量的形成特点,序次在前的典型函数代 表着两分组之间典型相关的绝大部分,而被排除的那些序数较后的维度上的典型 相关往往很小。 所以,严格地说,一个典型相关系数描述的只是一对典型变量(式)之间的 相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关 310
共同揭示了两个观测变量组之间的相关形式 两个典型变式之间的函数关系式称为典型函数( canonical function)。作为函 数组成部分的两个典型变式中观测变量的权数称为典型系数或权数( canonical coefficient or weight)。如果对观测变量进行标准化后再进行上述转换,得到的典 型系数就是标准化系数( standardized coefficient),可以类比于标准化回归系数或 通径系数,有利于比较各原始观测变量对典型变量作用的相对大小。并且,标准 化后典型变式中也不再拥有常数项。此外,这时典型变量本身也是标准化的,即 方差等于1。这样一来,就大大便利于后面对于标准化变量的方差分析。在典型 相关分析中,这种方差分析被称为冗余分析。 在典型相关分析中,第一个典型相关程度至少会与本组的一个观测变量与另 组所有观测变量的多元相关程度一样大。然而,即使是在所有多元相关都很弱 时,第一个典型相关也可能会非常强。需要特别加以小心的是,一个组的典型变 量与另一组的原始观测变量之间的相关很弱时,第一个典型相关也可能会非常 强。因此,我们不能只看典型变量之间的相关(即典型相关)程度,而且需要对 这些典型变量对观测变量的代表能力、预测能力进行分析,以正确评价典型相关 的意义。典型冗余分析可以用来检验由典型变量再反过来估计原始观测变量时的 能力。 以上简要介绍的典型相关分析所涉及的概念和指标,我们将在后面进行较详 细的介绍。 二、典型相关模型的基本假设和数据要求 典型相关模型的基本关系假设是两组变量之间为线性关系,即每对典型变量 之间为线性关系。并且,每个典型变量与本组所有观测变量的关系也是线性关 系 如果理论和经验说明,两组变量之间并不是线性关系,就需要采取一些方法 来改造原来的观测变量。一些在多元回归中常用的变量改造方法都可以用在这 里。比如,很多研究都表明国家或地区的经济水平和收入水平与其他一些社会发 展水平之间并不是线性关系,我们通常对测量经济和收人水平的变量取对数后再 使用往往能够得到更好的结果。为了检验两组之间观测变量的关系是否为线性关 系,我们可以审阅简单相关矩阵。如果理论和经验说明存在较强联系的变量之间 相关程度很低,我们就应考虑是否它们之间的关联实际上不是简单相关,并寻找 可能将这种关系转换为线性关系的方法。另外,检验所有观测变量的分布也是
常用的手段。如果一个变量的分布呈严重偏态,便会影响它与其他正态分布的 变量之间的简单相关程度。比如,经济水平和收入水平往往具有这种偏态特 为了保证上述关系假设,要求模型中的所有观测变量为间距测度等级。典型 相关分析与一般的相关分析、回归分析一样,要求所有的变量为间距测度等级 并且要求实际取值范围较宽。但是,它也可以容纳由序次等级测度或名义等级测 度的变量按照一定形式所形成的虚拟变量。 此外,典型相关分析还要求各组内的观测变量之间不能有高度的多重共线 性,否则将不能产生典型变式,以至不能进行典型相关分析。 在使用随机抽样数据进行典型相关分析时,为了推断样本数据分析所得到的 典型相关关系不是由于抽样误差而产生,以便有把握确认它在总体中也存在,就 必须对得到的典型相关关系进行统计显著性检验。 典型相关分析方法是一种多元分析方法,因此它的检验也是多元检验 ( Multivariate test)。多元假设涉及多个典型相关系数的同时检验,它的形式 是 cr=0 其中,cr表示总体中对应的典型相关系数,下标表示该典型相关系数的序 数。上述无关假设的意义是,总体中对应的典型相关系数都是0,即总体中两个 变量组在各维度上都是不相关的。与一般统计检验相同,我们通常事先设定一个 显著水平标准,即α=0.05,然后检查典型相关得到的实际检验显著水平值。如 果实际显著水平大于等于设定标准,就不能拒绝上述关于总体中的无关假设。这 意味着,我们不能排除样本中计算得到的非0的典型相关系数是由于抽样误差所 造成的可能性。因此,后续分析工作就没有意义了。如果实际显著水平值小于设 定标准,则意味着我们能够以很大的把握(置信度大于0.95)肯定总体中存在 不为0的典型相关系数,从而肯定了总体中典型相关的存在。 关于具体检验指标和操作过程,我们将在后面详细介绍。 上述多元检验必须在一定的假设条件下才是有效的。这些假设条件包括 (1)观测变量中所有单变量为正态分布和多变量之间联合分布为多元正态分 布。虽然典型相关分析对于这个假设条件并不太严格,但是变量在正态分布情况 下,可以获得较高的相关系数。多元正态分布对于统计检验的有效性具有十分重 要的意义,然而实际中很难检验多变量之间是否呈多元正态分布。 (2)误差的方差齐性( homoscedasticity),即形成典型变式时的误差项的分 布方差相等。 312
应用SPSS软件进行典型相关分析 非常遗憾的是,SPSS第6版没有提供单独的菜单化命令来进行典型相关分 析。但是,使用SPSS软件时可以通过另外两种方法来完成典型相关分析工作 第一种方法:SPSS程序命令文件中附有一个编好的命令程序可以调用,能够 进行典型相关分析。它可以提供主要的典型相关分析统计结果,只是没有更多的 备选命令来调用其他的结果。它所采用的典型相关统计检验是卡方检验,而不是 像其他统计软件那样(如SAS)提供的是近似F检验,而后者的检验更为精确。 另外,此种方法不提供典型相关系数的平方以及特征根等指标。但是这种方 法与下面介绍的另一种方法相比也有一些优点。首先,它能够自动提供第一组 内、第二组内以及第一组与第二组之间各观测变量之间的相关矩阵。其次,它能 够提供两组所形成的典型变量各自与另一组观测变量之间的交叉负载。第三,它 还能将产生的典型变量值自动附加到原来的工作数据中去。这一点,对于学习和 更好地应用典型相关分析的读者来说是十分重要的。 第二种方法,是在SPSS软件中 MANOVA菜单程序部分中来运行典型相关 分析,它的主要不足是不能直接产生典型变量值。另外,它也不提供各组典型变 式与另一组观测变量之间的交叉负载。然而,它的执行过程完全是利用现成菜单 中命令选择,可以避免直接键入命令时可能产生的输入错误。并且,它能提供 些第_种方法所没有的统计结果,如多种多元F检验、典型相关系数平方、特 征根等。 这里将结合本章第六节的例题介绍有关SPSS典型相关分析的操作。 1.使用SPSS附带的典型相关分析命令程序进行分析 在SPSS中应用附带的典型相关程序命令进行分析的操作步骤如下 (1)准备工作 SPSS附带的典型相关分析程序是以 SYNTAX命令直接编写的文件。它的文 件名为:CAN(ORR.SPS。在运行典型相关分析以前,应该先检查一下它是否存 在于 SPSSWIN子目录中(后面我们将假设这个子目录在C盘根目录下)。现在, 我们假设已经将所分析的数据文件事先准备好了。于是,在SPSS中打开该数据 文件,将所有数据调入SPSS的工作文件窗口。 (2)调用 CANCORR程序 打开 SYNTAX窗口,输入调用上述命令程序及定义典型相关分析变量组的 313
命令 INCLUDE ' C:\ SPSSWIN\ CANCORR SPS CANCORR SETI= /SET2 上面为需要输入的两个命令,每个命令用英文句点表示结束。第一句命令是 调用 CANCORR.SPS命令程序。第二句命令是开始执行这个命令程序,并定义 典型相关分析中的变量组。本章例题中有五个变量,变量名分别为x1,x2,x3, x4和x5。第二个命令中SET1=之后需给出第一组中包括的变量。本例中第 组有两个变量,每个变量名之间以空格分开。注意第二个命令到此并未结束,所 以此处没有句点。SET2=之前空一格是为了表示这里是本命令中的一项子命 令,之后需要给出第二组中包括的三个变量。注意不要忽略“〃”线,也不要误 打为“\"。由于是直接输入SPSS命令,最好严格按照上述格式输入。如果在 研究中各组变量数与例子中不同,可以仿照上述形式自行加减,但一定要确保变 量名与工作文件中的变量名相同。 (3)执行程序 用光标选择这些命令,使其被阴影覆盖,再将光标双点击 SYNTAX视窗左 上部的RUN键,即可得到所有典型相关分析结果。 上述命令在执行中,先将工作数据记入一个暂存文件,其文件名为 CC TMP1.SAV,并将其打开变成新的工作文件。注意,该文件名中有连续两 个下划线,以避免与其他文件名相同。在完成典型相关分析以后,该命令程序会 自动形成两对(4个)新的典型变量。第一对变量分别被命名为SLCV1 和S2CV,意为第一组(set1)的第一个典型变量(cvl)和第二组的第一个 典型变量。其他典型变量SlCV2和S2-CV2也是以同样形式标注分组 属性及其序号的。这些典型变量连同原来的观测变量将被自动存入另一个暂存文 件CC-TMP2.SAV。可通过命令打开此文件使用典型变量,并最好将此文件 另取文件名存为一个永久性文件,因为在下一次运行 CANCORR命令时,又会 产生两个新的暂存文件将此覆盖。 2.用SPSs中 MANOVA菜单进行典型相关分析 (1)选择相应菜单 打开要进行分析的数据文件以后,选择 STATISTICS,再选择 ANOVA 314
Models一项,拉开方差分析子菜单,然后再选择 Multivariate…项,打开这个 菜单,然后按以下几个步骤来操作。 (2)定义两个变量组 在 Multivariate anova菜单中的左上方变量栏目中,选择所定义的因变量 组的变量,并用光标点击本栏目右侧的方向键将所有因变量移至该菜单右上方的 因变量( Dependent)栏目中去 然后再回到变量栏目中,选择所有自变量,并移至右下方协变量( Covari ates,因为在多元方差分析中间距测度等级的自变量被称为协变量)栏目中去。 如果在典型相关分析研究时并无因果联系的设想,那么只要将两组变量分别 选择移入这两个不同栏目即可。因为典型相关分析实际上是双向分析,所以只要 变量分组恰当,都能够得到所有的统计结果。 (3)定义模型 在定义变量组的工作完成以后,用光标打开 Multivariate anova窗口最下 方的中间一个标注着“ Model”的钮所联系的命令窗口。先改选窗口上方右侧 Custom-项,用光标点击其旁边的圆圈,使之变黑。然后,拉下这两个栏目之 间的 Build Term(s)的小窗口,并选择其中 Main effects-项。然后再选择左上 方栏目中的协变量并通过方向钮全部移入右侧的Modl栏目之中。 (4)定义输出项目 仍然是在Mdl窗口中,最下方中间有一个标有 Display的钮所联系的窗口。 用光标选择其中的四项输出结果,即:1) Multivariate tests;2) Eigenvalue;3 Dimension Reduction;4) Discriminant Analysis。其中,第一项是要求输出多元检 验结果,第二项是要求输出特征值、典型相关系数及其平方等指标,第三项要求 输出递减维度检验结果,第四项是要求输出典型相关分析的其他统计结果。所谓 选择这四项,即用光标点击这四项旁边的小圆圈,使之变黑,并且保证其他各项 处于未选择状态,即旁边小圆圈中的黑点被取消,否则程序将会输出许多于典型 相关分析无用的结果。输出项目定义完毕以后,用光标点击该窗口的右上侧的 Continue钮,回到 Multivariate anova窗口。 (5)执行 第四步,点击 Multivariate Anova窗口右上侧的OK钮,开始执行已经定 义好的典型相关分析。如果希望保留该项分析的所有设定命令,也可以点击 Paste钮,将所有命令粘贴到SPSS的 SYNTAX窗口中去,并存成单独的命令文 件。要执行这些命令就选择这些命令并点击Run。 315
3.关于两种操作方法可能取得某些统计指标的不同结果的讨论 需要提示的是,SPSS的两种方法所得到对应典型系数、负载经常出现数值 相等而符号相反的情况。这种不一致并不是程序设计错误,而是因为两种方法对 典型变式定义不同所造成的。由于所得典型变式只是观测变量的线性组合,所以 对变式乘以一个任意常数并不改变其统计性质,也不会对典型相关分析的最终结 果产生本质的影响。所以,当两种方法产生的数值相同、符号相反的情况时,即 意味着对应的典型变式之间相差一个负的乘数。换句话说就是,两组观测变量的 最初典型变式之间实际存在着负相关时,就需要将其中一个变式乘以-1使这 对变式之间的典型相关成为正值。于是,当一种方法选择将左侧变式的权数全部 改变符号时,另一种方法却选择将右侧变式全部改变符号。也就是说,在本来两 个变式之间为负相关时,为了以正数形式提供典型相关,必须将其中一个变式改 换为反面描述。如果两种方法的改换选择不同,我们就看到了两种方法得到的典 型系数、负载出现数值相等、符号相反的情况。其实,这种表面上的不一致并没 有改变两种方法的统计结果本质上的一致性。并且,这种表面上的不一致如果发 生,那么两种方法在对典型函数中两个变式所对应的所有典型系数和负载都会出 现上述情况,而交叉负载则不会出现上述情况(由于用 MANOVA方法做时,不 提供交叉负载,所以实际上也无法比较)。上述问题在使用同一种方法然而将不 同组定义为第一组(或因变量组)时也可能会产生。此外,在采用不同软件进行 典型相关分析时,这种情况也会发生于SPSS结果与其他软件(如SAS)结果之 间。其实,在表面上的不一致中仍然存在着正负号变化的一致。如果了解这种表 面不一致的原因以后,研究人员也就用不着再感到奇怪了。 实际上,本章例题在用SS的两种不同方法进行分析时就会发生上述现象 总而言之,SPSS的两种进行典型相关分析的方法各有所长。因此,应该说 sPSS典型相关分析程序的用户友善化程度不如其他可以从菜单调用的分析程序。 尽管如此,大家仍然可以根据情况采用SPSS提供的这两种方法之一进行分析。 有时可以将两种方法平行使用,各取所长也不失为一种策略。比如用命令程序得 到典型系数、负载与交叉负载、典型变量值;而对于其他一些统计结果则采用 MANOⅴA方法得到,比如典型相关系数平方、特征根、多元检验,这些结果没 有符号问题,不必担心与命令程序的结果发生不一致。 四、典型相关分析的统计指标 在后面各统计指标的介绍中,我们将同时注明SPSS提供的两种方法能否提