社会学系列教材 第九章 经别分析 鉴别分析( Discriminant analysis,简标为DA)这一技术是由费舍 (RA. Fisher)于1936年提出的。① 鉴别分析是一种进行统计鉴别和分组的技术手段。它可以就一定数量案例的 个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间 的数量关系,建立鉴别函数( discriminant function)o然后便可以利用这一数量 关系对其他已知多元变量信息、但未知分组类型所属的案例进行鉴别分组。沿用 多元回归模型的称谓,在鉴别分析中称分组变量( grouping variable)为因变量, 而用以分组的其他特征变量称为鉴别变量( disciminant variable)或自变量。其 实,这里的自变量并不一定是真正的“原因”变量,有时可能倒是真正的“结 果”或“反应”变量。它们与类型变量的关系从本质上并没有越过相关的范畴。 不过,既然我们要参照其值来进行分组,权且称之为自变量。 鉴别分析技术曾经在许多领域得到成功的应用,包括对儿童心理测验、手术 或药品效果、地理区划的经济差异、决策行为预测等结果的分类。 o R.A. Fisher (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics 7: 179-188 285
鉴别分析与聚类分析有所不同。聚类分析是一种纯统计技术,只要有多种指 标存在,它就能根据各案例的变量值近似程度排出顺序来,只是描述性的统计。 但是鉴别分析则不同,在分析之前就根据理论或实际的要求对于分组的意义和分 组类别数目加以确定。并且,盛别分析要以此为标准来建立鉴别函数。最后,鉴 别分析并不停留在描进分类类型与各鉴别指之间的关系上,还能够对于未知分 组类型的案例进行鉴别分组。因此,它带有“预测”的意义。 总的来说,鉴别分析包括两个阶段的工作 第一阶段是分析和解释各组的指标特征之间存在的差异,并建立鉴别函数。 在这部分工作中,研究人员要处理的是已知分组属性的那些案例。这时需要确定 是否能在特征变量数据的基础上鉴别出已知的分组来,以及分组能被鉴别的程度 和哪些特征变量是最有用的鉴别因素。另一个用途是为了分组的目的推导一个或 多个数学方程。这些方程称为“鉴别函数”,它们以某种数学形式将表示特征的 鉴别变量与分组属性结合起来,使我们能辨识一个案例所最近似的分组。在第 阶段的鉴别分析中,用来建立鉴别函数的数据案例必须具有相互排斥( mutual exclusive)的分组属性,即各案例的分组属性必须是确定的,每个案例一定属于 其中某一类别组,并只能归入一个类别组。也就是说,案例必须同时具备分组信 息和其他特征信息,使我们能够对这两部分的联系加以归纳。 第二阶段所要处理的是未知分组属性的案例,以第一阶段的分析结果为根据 将这些案例进行鉴别分组。这相当于根据以往经验来“预测”案例的分组属性。 在分组属性能够成为一种明确结果时(如分组代表的是事物发展的不同结果), 便可以作为事实来检验预测的准确性。而有的时候,分组的内在属性并不是显性 的,如一个病人的病症到底是哪一类的,那么鉴别分析只是提供一种判断。 本章将通过一个例题的鉴别分析过程来展开这种分析方法和有关指标的介 绍,并且将与应用SPSS统计软件进行这一分析结合起来。本章第二节介绍鉴别 分析的假设条件和基本模型。第三节介绍所要分析的例题的情况。第四节讨论鉴 别分析的各指标。第五节介绍应用SPSS进行鉴别分析的步骤。第六节是关于 SPSS鉴别分类输出结果的理解。 鉴别分析的假设条件和基本模型 1.鉴别分析的假设条件 鉴别分析最基本的要求是:分组类型( Group,用g表示)在两种以上,即
g≥2;在第一阶段工作时每组案例的规模必须至少在一个以上,即n;>1(下标 j表示所在类型组);各鉴别变量的测度水平在间距测度等级以上;各分组的案 例在各鉴别变量的数值上能够体现差别。在这种情况下,鉴别分析能够帮助我们 分析各类型在鉴别变量上的差别,并提供一套鉴别统计指标 鉴别变量必须以间距或比率测度来测量,才能够计算其平均值和方差,使其 能合理地应用于统计函数。一般来说,鉴别分析要求案例数量(n)比变量的个 数(k)多于两个(n≥k+2),而对于鉴别变量的个数没有限制。 与其他多元线性统计模型类似,鉴别变量假设之一是每一个鉴别变量不能是 其他鉴别变量的线性组合。身为其他变量线性组合的鉴别变量不能提供新的信 息,更重要的是在这种情况下无法估计鉴别函数。不仅如此,有时一个鉴别变量 与另外的鉴别变量高度相关、或与另外的鉴别变量的线性组合高度相关,虽然能 够求解,但参数估计的标准误将很大,以至于参数估计统计性不显著。这就是经 常所说的多重共线性问题。① 鉴别分析的假设之二,是各组案例的协方差矩阵相等②。鉴别分析的最简单 和最常用的形式是采用线性鉴别函数,它们是鉴别变量的简单线性组合。在各组 协方差矩阵相等的假设条件下,可以使用很简单的公式来计算鉴别函数和进行显 著性检验。 鉴别分析的假设之三,是各鉴别变量之间具有多元正态分布,即每个变量对 于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值 和分组归属的概率。当这个假设条件破坏时,计算的概率将非常不准确③。 鉴别分析是用于研究两个或多个组之间在一套鉴别变量上的差别的方法。因 为分组被定义为一个名义测度等级变量,所以在本质上鉴别分析是一种将一个名 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,395-39页 Elazar J Pedhazur (1982) Multiple Regression in Behavioral Research, Second Edition. CE College Publishing: 232-237 Joseph F Hair, Jr, Rolph E. Anderson, Ronald L Tatham, and William C Black(1995) Multivariate Data Analysis with Readings, Fourth Edition Prentice-Hall International, Inc: 92 1995) Multivarate hia alys with Loadings, Fourth adin ren ace l iam mCi bhak Inc.:196-197 ③在这种情况下,可以考虑用 logistic回归模型作为替代。 logistic回归是用最大似然法 来进行模型估计的,因此不受这一假设条件的限制。 logistic回归模型的介绍见本书第六章
义变量与多个间距等级变量联系起来的方法 2.鉴别分析的基本模型 鉴别分析的基本模型就是鉴别函数,它表示为分组变量与满足假设的条件的 鉴别变量的线性函数关系,其数学形式如下 y=b0+ blr1+62x2+.+ bkIk (1) 其中,y是鉴别函数值;x;为各鉴别变量;b;为相应的鉴别系数 从上述鉴别函数的方程式可以看出,它与一般多元线性回归模型的形式 致。所以,我们可以将鉴别函数值( discriminant function value)看成是因变量 而将鉴别系数看成是回归系数。①但实际上鉴别模型与线性回归有本质上的区 别。首先,鉴别函数中的y并不代表原来输入的因变量的估计。在鉴别分析中 所输入的因变量是一个定性的分组变量,表示案例所在的不同组别,通常以连贯 的整数作为编码。而在分析输出的鉴别函数中的y却是一个间距变量,并且它 并不直接与分组变量有数量联系,只代表在某一空间上的坐标。其次,回归分析 的方程式只有一个,而鉴别分析中的函数往往并不是只有一个,在鉴别变量较多 时,鉴别函数也往往有多个。 莶别函数值y又常简称为鉴别值( discriminant score)。其鉴别系数(ds criminant coefficient or weight)表示各鉴别变量对于鉴别函数值的影响,其中bo 是常数项。 鉴别模型对应的几何解释是,各鉴别变量代表了k维空间。每个案例按其 鉴别变量值成为这一k维空间中的一个点。如果各组案例就其鉴别变量值有明 显不同,就意味着每一组将会在这一空间的某一部分形成明显分离的蜂集点群。 即使这些组的点群在空间位置上有少量重叠,其各自的“领域”也大体可以分 清。为了概括这个组的位置,我们可以计算它的领域的中心。中心的位置可以用 这个组别中各案例在每个变量上的组平均值作为其坐标值。因为每个中心代表了 所在组的基本位置,我们可以通过研究它们来取得对于这些分组之间差别的理 解。然而,仅看单个变量会使我们只从单一方向观察;当有很多变量时,这样的 信息也许会复杂得难于理解。可以证明,实际可能用不着用这么多维度来完整地 参见 William r. Klecka(1980 Discriminant Analysis. Sage Publications.该书作者认为, 如果一个研究将分类定义为依赖于鉴别变量的因变量,那么这种情况就类似于多元回归。但 是反过来,在把鉴别变量的值定义为依赖于分类的时候,鉴别分析就成了多元方差分析的扩 展 288
代表一个组的中心的相对位置。因此,鉴别分析可以帮助我们精简对鉴别用处不 大的维度。总而言之,鉴别分析将这些空间分布特征与已知分组属性之间的联系 加以拟合,并估计出各鉴别系数的最优估计,并且对于整个模型和各参数估计进 行评价和检验。在完成这些任务时,鉴别分析需要通过对这一空间进行种种转 换,使鉴别变量在空间上的分离表现得最为充分,并由此提供各种有解释意义的 标准化统计量。鉴别分析所得到的每一个鉴别函数就是转换得到的鉴别空间上的 个维度。 模型估计的过程可简略描述如下:首先将鉴别变量表示的k维空间进行旋 转,寻找某个角度使各分组平均值的差别尽可能大,然后将其作为鉴别的第一维 度。在这一维度上可以代表或解释原始变量组间方差中最大的部分。①上述鉴别 函数就表达了将原始数量值转换至这一维度的系数方程式。对应第一维度的鉴别 函数称为第一鉴别函数。然后按照同一原则寻找第二维度,并建立第二鉴别 函数。如此下去,直至推导出所有鉴别函数。建立后续鉴别函数的条件是,后 一个函数必须与前面所有的函数正交,即鉴别函数之间完全独立(完全不相 关)。 实际上这样推导出的函数有min(k,g-1)个,即等于鉴别变量个数或分 组个数减1两者中的较小者。其实,这已经有可能将原来的k维加以精简了 比如鉴别变量有8个,而组型分为3种,实际上能够得到的鉴别函数只有2个 即我们只要从两个维度来进行案例分组即可。如果鉴别变量的数目大于分组数目 时,能推导的鉴别函数虽然还是k维,但这时所有案例的空间分布将最有利于 识别分组 得到的每一个函数都反映鉴别变量组间方差的一部分,可以用所占比例表示 其相对重要性。各鉴别函数所代表的组间方差比例之和为100%。其实,推导出 来的鉴别函数也不见得所有都真的有实用价值。往往先推导的那些鉴别函数作用 很大,而后面推导出的函数只代表很少一部分方差。即使在对案例鉴别分组时忽 略它们,也不会造成鉴别错误的明显增加。所以,这些实际效用不大的鉴别函 数,也可以被精简掉。关于某个鉴别函数的功效评价将在后面有关参数估计的章 ①严格地说,这里并不是组间方差,而是组间的离差平方与叉积之和( sums of squareds and cross products of deviation),这里只是沿用流行的表述方法。两者之间的不同在于,组间方 差是一种均方差,而后者没有经过平均化。另外,有时人们在表述中还简化地称组间方差为 方差。就这里所论述的具体情况而言,对于鉴别分组直接有效信息不是总的离差平方与叉积 和,而是组间( between-groups}的离差平方与叉积和
节中加以讨论。 、关于例题 为了使读者在实际上机应用SPSS操作鉴别分析时减少输入原始数据的麻 烦,这里我们尽量使用第三章因子分析中表3-2所提供的原始数据。该数据有 全国30个省、市、自治区的案例,原有5个变量,分别为多孩率、综合节育率 初中及以上受教育程度的人口比例、人均国民收入、城镇人口比例。假设我们将 这些变量作为鉴别变量来对各地区进行鉴别分组,以便更好分类指导工作。那 么,现在还必须要有一个分组变量才能完成鉴别分析。假设有理由可以断定其中 的一些地区归为一类、二类和三类地区,但是同时还有一些地区则很难进行类型 归属,于是我们可以建立一个分组变量TYPE来反映每个案例的分组属性。如 果读者已经将因子分析一章中表3-2的原始数据建立了SPSS数据文件,那么 现在只需要再新加一个分组变量并按照下列变量TYPE的数据输入即可。在这 个分组变量中,编码1、2、3分别表示一类、二类和三类,“”表示缺失值,在 输人数据时将相应单元格跳过即可。数据输入工作完成后,可以将该工作数据文 件另存为一个文件。然后我们就可以根据已知分组类型的案例建立鉴别方程,计 算各种鉴别分析统计指标,并在此基础上完成未知分组属性的那些案例的鉴别分 组工作 本章例题只是为了示范鉴别分析的操作过程,并无实际研究的意义(见表 9-1)。 表91 本章例题的原始数据 X3 TYPE 0.94 64.5135 2.58 92.32 55.41 2981 68.65 13.46 38.20 45.12 1124 41.83 678 011 8.91 91.43 1383 2 90.78 47.3 1628 47.17
续前表 X2 X3 X4 X5 TYPE 91.47 62.36 4822 66.23 90.31 40.85 21.24 7.07 14.44 88.71 29.04 15,24 9.04 12.02 87.28 38.76 124828.91 l1.15 89.13 36.33 976 18.23 87.72 1845 36.77 31.07 15.10 1193 24.05 7890.57 31.26 03 14.72 32.31 87.60 7.70 65 11.18 41.01 13.80 938 81.56 31.30 1100 27.35 2,33 20.84 81.45 34.59 1024 1374 31.91 ID只是序号,于分析无用。各X数据取自第三章表3-2 注:本书所附数据磁盘中相应数据文件名为T9.1.SAV。 三、鉴别分析模型的各参数指标及统计检验 个鉴别分析不光要有基本模型,还需要多个不同指标来表示模型的不同方 有的用于表示数量关系,有的用于评价和比较。下面分别对鉴别模型中所涉 及的主要指标加以介绍。为了避免有的参数计算过程所必须涉及的矩阵代数形式 或其他复杂的数学公式,这里将不对每个参数的来龙去脉加以详细讨论。由于本
章在介绍鉴别分析时将与SPSs统计软件的应用相结合,读者用不着在估计过程 的细节上花费许多功夫,因为只要我们正确地输入数据和制定鉴别分析的程序命 令,计算机能够提供全部统计结果。所以,在夲节中我们将只讨论每个指标的意 义和用途。有关SPSS的操作步骤在第四节中介绍。 I.非标准化鉴别系数 鉴别系数又称函数系数( function coefficient),其中还进一步分为两种: 标准化的和标准化的。非标准化鉴别系数( unstandardized discrimina oefficient)也称粗系数( raw coefficients)。将原始变量值(即粗数据, raw dat优 直接输入模型,得到的系数估计即非标准化的“粗"”系数。得到非标准化的鉴之 系数就意味着我们得到了求解的鉴别分析基本模型(见式(1)。 相应的SPSS的鉴别分析统计输出格式如表9-2。 表9 Unstandardized canonical discriminant function coefficients 2777410 7069548 0311224 2314016 1.66830980E-03 1.32867710E-0 0145724 1436736 Constant) 65.6113916 556023 在上述输出中,SPSS告诉我们推导的鉴别函数有两个,分别为① y1)=65.61+0.28x1-0.71x2-0.23x3+0.00x4+0.01xs y2)=-1.56+0.05x1-0.03x2-0.09x3-0.00x4+0.14x5 非标准化系数是用来计算鉴别值( discriminant score)的。将案例的各鉴别 变量值代入上述两个鉴别函数就可以分别计算出两个鉴别值来,于是就决定了其 在二维空间中的位置。实际上,如果需要鉴别值,SPSS也可以直接提供。通过 不同鉴别函数计算的鉴别值可以用来作图表示在鉴别空间中各案例的点,并用来 分析具体案例点与组别之间的位置。 类似于回归分析中的非标准化系数,非标准化的鉴别系数的大小并不能反映 相应变量在鉴别作用上的大小。比如在第一函数和第二函数中x4系数都非常 ①下面式中个别系数值太小以至无法显示有效数字
小,但这并不意味着x4这个鉴别的作用真的非常小。这是因为,由于原始变量所 取的测量单位有所不同,因此非标准化系数之间没有可比性。比如,x4代表人均 国民收人,原始变量值都是3位或4位整数,如果将其测量单位元改为百元,使 其与其他鉴别变量一样整数位成为1位或2位数,那么其非标准化系数就会变 大 2.标准化鉴别系数 通过对于非标准化系数加以特定形式的调整,就得到标准化鉴别系数 andardized discriminant coefficient)。以标准化系数表达的鉴别函数不再有常数 并且函数中出现的自变量不再是原始变量,而是标准化的变量。也就是说 果将经过标准化的变量输入鉴别模型,那么可以直接得到标准化的回归系数。 SPSS鉴别分析关于标准化鉴别系数的输出格式如表9—3。 9 Standardized canonical discriminant function coefficients FU 1.03784 20164 78122 0343 1.4777 1.46174 11642 15392 1.51750 标准化使得每个变量都以自己的平均值作为数轴原点,以自己的标准差作为 单位。这样一来,每个案例的原始变量值现在则一方面表现为与平均值之间的距 离,另一方面以正负号形式表示了自己偏离平均值的方向。并且,各标准化系数 因为一致以其标准差来测量也具有了可比性。哪个变量的标准化系数绝对值大, 就意味着将对鉴别值有更大的影响,于是可以用来比较各变量对鉴别值的相对作 用。上面的统计输出表明,对于第一鉴别函数而言,x3的作用最大,而x4虽然 非标准化系数很小,但标准化系数却几乎与x3-样大。x5对于第一函数作用最 小,然而对第二函数的作用却最大。 但是正如分析中回归系数只表达自变量轴与回归线之间的角度,但并不反映 各案例点与回归线之间的拟合程度一样,鉴别系数(即使是标准化的鉴别系数也 样)也只是表达鉴别变量与鉴别值之间的这样一种关系。所以仅仅由于标准化 鉴别系数绝对值大,就认为相应自变量对于整个鉴别力(注意这里说的是鉴别力 而不是鉴别值)最有用仍然是有问题的。如果鉴别系数实际上拟合效果很不好
那么即使对鉴别值有很大作用,但是鉴别值在鉴别准确性方面仍会存在很大问 题。因此,我们在判断各个变量对鉴别力的影响时,除了要看标准化鉴别系数的 绝对值以外,还要检查它的结构系数。 3.结构系数 在鉴别分析中结构系数( structural coefficient)又被称为鉴别负载( discrimi- nant loading),它实际上是某个鉴别变量x;与鉴别值y之间的相关系数,它表辶 两者之间的拟合水平。当这个系数的绝对值很大(接近+1或-1)时,这个乎 数表达的信息与这个变量的信息几乎相同。当这个系数接近于0时,它们之间 没有什么共同之处。类似在因子分析中所做的那样,如果一些变量与一个函数 间有很大的结构系数值,我们就可以用这些变量的名字命名这个函数。如果这坦 变量似乎有类似方面的特征,我们可以以这种总的特征来命名这个函数。 结构系数有两种,一种是总结构系数,另一种是组内结构系数。 总结构系数基于总相关之上。它们的用途是在于识别由这些函数携带的在分 组间进行鉴别的信息。 然而,有时我们的兴趣在于探求一个函数与分组内部的变量的紧密联系程 度。这一信息可以从汇合的组内相关( Pooled within- groups correlations),又称 为组内结构系数( within- groups structure coefficient)得到。SPSS鉴别分析提 供的就是这样一种组内结构系数。 SPSS提供的结构系数矩阵格式如表9-4 表 Pooled within-groups correlations between discriminating variables and canonical discriminant functions ( Variables ordered by size of correlation within function) Func 2 8140 01678 45800并 05869 1612 *denotes l bsolute correlation bet ween each variable and any discriminant fur nction