21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第九章鉴别分析（2/2）

鉴别分析是一种进行统计鉴别和分组的技术手段。它可以就一定数量案例的个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立鉴别函数( discriminant function)o然后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行鉴别分组。沿用多元回归模型的称谓,在鉴别分析中称分组变量( grouping variable)为因变量, 而用以分组的其他特征变量称为鉴别变量( disciminant variable)或自变量。其实,这里的自变量并不一定是真正的“原因”变量,有时可能倒是真正的“结果”或“反应”变量。它们与类型变量的关系从本质上并没有越过相关的范畴。不过,既然我们要参照其值来进行分组,权且称之为自变量。

团购合买资源类别：文库，文档格式：PDF，文档页数：22，文件大小：1.01MB

鉴别分析与聚类分析有所不同。聚类分析是一种纯统计技术,只要有多种指标存在,它就能根据各案例的变量值近似程度排出顺序来,只是描述性的统计。但是鉴别分析则不同,在分析之前就根据理论或实际的要求对于分组的意义和分组类别数目加以确定。并且,盛别分析要以此为标准来建立鉴别函数。最后,鉴别分析并不停留在描进分类类型与各鉴别指之间的关系上,还能够对于未知分组类型的案例进行鉴别分组。因此,它带有“预测”的意义。总的来说,鉴别分析包括两个阶段的工作第一阶段是分析和解释各组的指标特征之间存在的差异,并建立鉴别函数。在这部分工作中,研究人员要处理的是已知分组属性的那些案例。这时需要确定是否能在特征变量数据的基础上鉴别出已知的分组来,以及分组能被鉴别的程度和哪些特征变量是最有用的鉴别因素。另一个用途是为了分组的目的推导一个或多个数学方程。这些方程称为“鉴别函数”,它们以某种数学形式将表示特征的鉴别变量与分组属性结合起来,使我们能辨识一个案例所最近似的分组。在第阶段的鉴别分析中,用来建立鉴别函数的数据案例必须具有相互排斥( mutual exclusive)的分组属性,即各案例的分组属性必须是确定的,每个案例一定属于其中某一类别组,并只能归入一个类别组。也就是说,案例必须同时具备分组信息和其他特征信息,使我们能够对这两部分的联系加以归纳。第二阶段所要处理的是未知分组属性的案例,以第一阶段的分析结果为根据将这些案例进行鉴别分组。这相当于根据以往经验来“预测”案例的分组属性。在分组属性能够成为一种明确结果时(如分组代表的是事物发展的不同结果), 便可以作为事实来检验预测的准确性。而有的时候,分组的内在属性并不是显性的,如一个病人的病症到底是哪一类的,那么鉴别分析只是提供一种判断。本章将通过一个例题的鉴别分析过程来展开这种分析方法和有关指标的介绍,并且将与应用SPSS统计软件进行这一分析结合起来。本章第二节介绍鉴别分析的假设条件和基本模型。第三节介绍所要分析的例题的情况。第四节讨论鉴别分析的各指标。第五节介绍应用SPSS进行鉴别分析的步骤。第六节是关于 SPSS鉴别分类输出结果的理解。鉴别分析的假设条件和基本模型 1.鉴别分析的假设条件鉴别分析最基本的要求是:分组类型( Group,用g表示)在两种以上,即

g≥2;在第一阶段工作时每组案例的规模必须至少在一个以上,即n;>1(下标 j表示所在类型组);各鉴别变量的测度水平在间距测度等级以上;各分组的案例在各鉴别变量的数值上能够体现差别。在这种情况下,鉴别分析能够帮助我们分析各类型在鉴别变量上的差别,并提供一套鉴别统计指标鉴别变量必须以间距或比率测度来测量,才能够计算其平均值和方差,使其能合理地应用于统计函数。一般来说,鉴别分析要求案例数量(n)比变量的个数(k)多于两个(n≥k+2),而对于鉴别变量的个数没有限制。与其他多元线性统计模型类似,鉴别变量假设之一是每一个鉴别变量不能是其他鉴别变量的线性组合。身为其他变量线性组合的鉴别变量不能提供新的信息,更重要的是在这种情况下无法估计鉴别函数。不仅如此,有时一个鉴别变量与另外的鉴别变量高度相关、或与另外的鉴别变量的线性组合高度相关,虽然能够求解,但参数估计的标准误将很大,以至于参数估计统计性不显著。这就是经常所说的多重共线性问题。① 鉴别分析的假设之二,是各组案例的协方差矩阵相等②。鉴别分析的最简单和最常用的形式是采用线性鉴别函数,它们是鉴别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算鉴别函数和进行显著性检验。鉴别分析的假设之三,是各鉴别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当这个假设条件破坏时,计算的概率将非常不准确③。鉴别分析是用于研究两个或多个组之间在一套鉴别变量上的差别的方法。因为分组被定义为一个名义测度等级变量,所以在本质上鉴别分析是一种将一个名 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,395-39页 Elazar J Pedhazur (1982) Multiple Regression in Behavioral Research, Second Edition. CE College Publishing: 232-237 Joseph F Hair, Jr, Rolph E. Anderson, Ronald L Tatham, and William C Black(1995) Multivariate Data Analysis with Readings, Fourth Edition Prentice-Hall International, Inc: 92 1995) Multivarate hia alys with Loadings, Fourth adin ren ace l iam mCi bhak Inc.:196-197 ③在这种情况下,可以考虑用 logistic回归模型作为替代。 logistic回归是用最大似然法来进行模型估计的,因此不受这一假设条件的限制。 logistic回归模型的介绍见本书第六章

义变量与多个间距等级变量联系起来的方法 2.鉴别分析的基本模型鉴别分析的基本模型就是鉴别函数,它表示为分组变量与满足假设的条件的鉴别变量的线性函数关系,其数学形式如下 y=b0+ blr1+62x2+.+ bkIk (1) 其中,y是鉴别函数值;x;为各鉴别变量;b;为相应的鉴别系数从上述鉴别函数的方程式可以看出,它与一般多元线性回归模型的形式致。所以,我们可以将鉴别函数值( discriminant function value)看成是因变量而将鉴别系数看成是回归系数。①但实际上鉴别模型与线性回归有本质上的区别。首先,鉴别函数中的y并不代表原来输入的因变量的估计。在鉴别分析中所输入的因变量是一个定性的分组变量,表示案例所在的不同组别,通常以连贯的整数作为编码。而在分析输出的鉴别函数中的y却是一个间距变量,并且它并不直接与分组变量有数量联系,只代表在某一空间上的坐标。其次,回归分析的方程式只有一个,而鉴别分析中的函数往往并不是只有一个,在鉴别变量较多时,鉴别函数也往往有多个。莶别函数值y又常简称为鉴别值( discriminant score)。其鉴别系数(ds criminant coefficient or weight)表示各鉴别变量对于鉴别函数值的影响,其中bo 是常数项。鉴别模型对应的几何解释是,各鉴别变量代表了k维空间。每个案例按其鉴别变量值成为这一k维空间中的一个点。如果各组案例就其鉴别变量值有明显不同,就意味着每一组将会在这一空间的某一部分形成明显分离的蜂集点群。即使这些组的点群在空间位置上有少量重叠,其各自的“领域”也大体可以分清。为了概括这个组的位置,我们可以计算它的领域的中心。中心的位置可以用这个组别中各案例在每个变量上的组平均值作为其坐标值。因为每个中心代表了所在组的基本位置,我们可以通过研究它们来取得对于这些分组之间差别的理解。然而,仅看单个变量会使我们只从单一方向观察;当有很多变量时,这样的信息也许会复杂得难于理解。可以证明,实际可能用不着用这么多维度来完整地参见 William r. Klecka(1980 Discriminant Analysis. Sage Publications.该书作者认为, 如果一个研究将分类定义为依赖于鉴别变量的因变量,那么这种情况就类似于多元回归。但是反过来,在把鉴别变量的值定义为依赖于分类的时候,鉴别分析就成了多元方差分析的扩展 288

代表一个组的中心的相对位置。因此,鉴别分析可以帮助我们精简对鉴别用处不大的维度。总而言之,鉴别分析将这些空间分布特征与已知分组属性之间的联系加以拟合,并估计出各鉴别系数的最优估计,并且对于整个模型和各参数估计进行评价和检验。在完成这些任务时,鉴别分析需要通过对这一空间进行种种转换,使鉴别变量在空间上的分离表现得最为充分,并由此提供各种有解释意义的标准化统计量。鉴别分析所得到的每一个鉴别函数就是转换得到的鉴别空间上的个维度。模型估计的过程可简略描述如下:首先将鉴别变量表示的k维空间进行旋转,寻找某个角度使各分组平均值的差别尽可能大,然后将其作为鉴别的第一维度。在这一维度上可以代表或解释原始变量组间方差中最大的部分。①上述鉴别函数就表达了将原始数量值转换至这一维度的系数方程式。对应第一维度的鉴别函数称为第一鉴别函数。然后按照同一原则寻找第二维度,并建立第二鉴别函数。如此下去,直至推导出所有鉴别函数。建立后续鉴别函数的条件是,后一个函数必须与前面所有的函数正交,即鉴别函数之间完全独立(完全不相关)。实际上这样推导出的函数有min(k,g-1)个,即等于鉴别变量个数或分组个数减1两者中的较小者。其实,这已经有可能将原来的k维加以精简了比如鉴别变量有8个,而组型分为3种,实际上能够得到的鉴别函数只有2个即我们只要从两个维度来进行案例分组即可。如果鉴别变量的数目大于分组数目时,能推导的鉴别函数虽然还是k维,但这时所有案例的空间分布将最有利于识别分组得到的每一个函数都反映鉴别变量组间方差的一部分,可以用所占比例表示其相对重要性。各鉴别函数所代表的组间方差比例之和为100%。其实,推导出来的鉴别函数也不见得所有都真的有实用价值。往往先推导的那些鉴别函数作用很大,而后面推导出的函数只代表很少一部分方差。即使在对案例鉴别分组时忽略它们,也不会造成鉴别错误的明显增加。所以,这些实际效用不大的鉴别函数,也可以被精简掉。关于某个鉴别函数的功效评价将在后面有关参数估计的章 ①严格地说,这里并不是组间方差,而是组间的离差平方与叉积之和( sums of squareds and cross products of deviation),这里只是沿用流行的表述方法。两者之间的不同在于,组间方差是一种均方差,而后者没有经过平均化。另外,有时人们在表述中还简化地称组间方差为方差。就这里所论述的具体情况而言,对于鉴别分组直接有效信息不是总的离差平方与叉积和,而是组间( between-groups}的离差平方与叉积和

小,但这并不意味着x4这个鉴别的作用真的非常小。这是因为,由于原始变量所取的测量单位有所不同,因此非标准化系数之间没有可比性。比如,x4代表人均国民收人,原始变量值都是3位或4位整数,如果将其测量单位元改为百元,使其与其他鉴别变量一样整数位成为1位或2位数,那么其非标准化系数就会变大 2.标准化鉴别系数通过对于非标准化系数加以特定形式的调整,就得到标准化鉴别系数 andardized discriminant coefficient)。以标准化系数表达的鉴别函数不再有常数并且函数中出现的自变量不再是原始变量,而是标准化的变量。也就是说果将经过标准化的变量输入鉴别模型,那么可以直接得到标准化的回归系数。 SPSS鉴别分析关于标准化鉴别系数的输出格式如表9—3。 9 Standardized canonical discriminant function coefficients FU 1.03784 20164 78122 0343 1.4777 1.46174 11642 15392 1.51750 标准化使得每个变量都以自己的平均值作为数轴原点,以自己的标准差作为单位。这样一来,每个案例的原始变量值现在则一方面表现为与平均值之间的距离,另一方面以正负号形式表示了自己偏离平均值的方向。并且,各标准化系数因为一致以其标准差来测量也具有了可比性。哪个变量的标准化系数绝对值大, 就意味着将对鉴别值有更大的影响,于是可以用来比较各变量对鉴别值的相对作用。上面的统计输出表明,对于第一鉴别函数而言,x3的作用最大,而x4虽然非标准化系数很小,但标准化系数却几乎与x3-样大。x5对于第一函数作用最小,然而对第二函数的作用却最大。但是正如分析中回归系数只表达自变量轴与回归线之间的角度,但并不反映各案例点与回归线之间的拟合程度一样,鉴别系数(即使是标准化的鉴别系数也样)也只是表达鉴别变量与鉴别值之间的这样一种关系。所以仅仅由于标准化鉴别系数绝对值大,就认为相应自变量对于整个鉴别力(注意这里说的是鉴别力而不是鉴别值)最有用仍然是有问题的。如果鉴别系数实际上拟合效果很不好

点击下载完整版文档（PDF格式）

共22页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录