杜会学系列教村 第三章 因子分析 因子分析( Factor Analysis)是多元统讣分析技术的一个分支,其主要目的 是浓缩数据。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本 结构,并用少数几个假想变量来表示基本的数据结构。这些假想变量能够反映原 来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关 系,我们把这些假想变量称之为基础变量,即因子( Factors)。因子分析就是研 究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子 因子分析是由心理学家发展起来的,最初心理学家借助因子分析模型来解释 人类的行为和能力,1904年查尔斯·斯皮尔曼( Charles spearman)在美国心理学 杂志上发表了第一篇有关因子分析的文章,在以后的三四十年里,因子分析的理 论和数学基础逐步得到了发展和完善,它作为一个一般的统计分析工具逐渐被人 们所认识和接受。50年代以来,随着计算机的普及和各种统计软件的出现,因 子分析在社会学、经济学、医学、地质学、气象学和市场营销等越来越多的领域 得到了应用。 因子分析的应用主要有以下两个方面 第一,寻求基本结构( Summarization)。在多元统计分析中,经常碰到观测 变量很多且变量之间存在着较强的相关关系这种情形,这不仅给问题的分析和描
述带来一定困难,而且在使用某些统计方法时会出现问题。例如,在多元回归分 析中,当自变量之间高度相关时,会出现多重共线性现象。变量之间高度相关意 味着他们所反映的信息高度重合,通过因子分析我们能找到较少的几个因子,他 们代表数据的基本结构,反映了信息的本质特征。例如,某快餐店为了解其市场 竞争能力进行消费者调査,通过定性研究设计了30个有关快餐店及其产品和服 务的调查项目,这30个项目可能反映了快餐的质量、价格、就餐环境和服务四 个基本方面,通过因子分析我们能找出反映数据本质特征的这四个因子并分析原 来30个观测变量和它们之间的关系。 第二,数据化简( Data reduction)。通过因子分析把一组观测变量化为少数 的几个因子后,可以进一步将原始观测变量的信息转换成这些因子的因子值,然 后,用这些因子代替原来的观测变量进行其他的统计分析,如回归分析、路径分 析、判别分析和聚类分析等,利用因子值也可以直接对样本进行分类和综合评 价 以上这些应用都需要通过因子分析,首先确定能够解释观测变量之间相关的 假想因子的个数。一般来说,要是研究者事先对观测数据背后存在多少个基础变 量一无所知,因子分析用来作为探索基础变量的维数,这种类型的应用称为探测 性( Exploratory)因子分析,因子分析的大部分应用都属于这种类型。有些情 况下,研究者根据某些理论或其他的先验知识可能对因子的个数或因子的结构作 出假设,因子分析也可以用来检验这个假设,作为证实假设的工具,这种类型的 应用称为证实性( Confirmatory)因子分析,在心理学领域中的应用属于这种类 型,这部分内容本章不做讨论。 因子分析原理 1.因子分析模型 因为任何一个变量,经过x=x变换(x为x的均值,为x的标准 差)成为标准化变量,很容易证明,经过这样的标准化变换不改变变量之间的相 关系数,所以,不失一般性,假设我们讨论的是标准化变量 因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线 性组合来表示。设有k个观测变量,分别为x1,x2 xk,其中x;为具有零 均值、单位方差的标准化变量。则因子模型的一般表达形式为 x;=a;1fi+ai2f2+.+aimfm +ui k)
在该模型中 (1)f1,f2,…,fm叫做公因子( Common factors),它们是各个观测变量所 共有的因子,解释了变量之间的相关 2)u1称为特殊因子( Unique factor),它是每个观测变量所特有的因子, 相当于多元回归中的残差项,表示该变量不能被公因子所解释的部分 (3)a称为因子负载( Factor loadings),它是第i个变量在第j个公因子上 的负载,相当于多元回归分析中的标准回归系数(i=1,…,k;j=1,…, 因子分析模型也可以用路径分析图表示如图3-1。 aim/a2m km 图3-1因子分析模型 该模型假设k个特殊因子之间是彼此独立的,特殊因子和公因子之间也是 彼此独立的。 因子分析模型中,每一个观测变量由m个公因子和一个特殊因子的线性组 合来表示,我们感兴趣的只是这些能够代表较多信息的公因子,如果不加以说 明,本书中经常用到的因子一词实际指公因子。公因子的个数最多可以等于观测 变量数。因为在求因子解时,总是使第一个因子代表了所有变量中最多的信息, 随后的因子代表性日益衰减,如果忽略掉最后几个因子,对原始变量的代表性也
不会有什么损失,所以,因子分析模型中,公因子的个数,往往远远小于观测变 量的个数。如果把特殊因子作为残差项看待,因子分析模型和多元线性回归方程 在形式上很相近,他们都是用其他变量的线性组合加上一个残差项来表示一个变 量,但是回归模型中的自变量是可观测的,而因子分析模型中的因子是假想变 量,是不可观测的,这就使得它有别于一般的线性模型。为了进一步了解模型所 表示的意义,下面我们讨论因子分析中常用的几个统计量。 2.因子分析中的有关概念 (1)因子负载 因子负载是因子分析模型中最重要的一个统计量,它是连接观测变量和公因 子之间的纽带。当公因子之间完全不相关时,很容易证明因子负载a等于第;个 变量和第j个因子之间的相关系数。大多数情况下,人们往往假设公因子之间是 彼此正交的( Orthogonal),即不相关。因此,因子负载不仅表示了观测变量是 如何由因子线性表出的,而且反映了因子和变量之间的相关程度,an的绝对值 越大,表示公因子f与变量x1关系越密切。 假设我们得到了下面五个观测变量、两个公因子的模型: x1=0.9562f1+0.2012f2+0.2126u1 x2=0.8735f1+0.2896f2+0.3913u2 x3=0.1744f1+0.8972f2+0.40573 0.5675f1+0.7586f2+0.3202 x5=0.8562f1+0.3315f2+0.3962s 很容易看出,公因子f与变量x1,x2,x4,x5关系密切,它主要代表了这 些变量的信息,公因子f2与变量x3,x4关系密切,它主要代表了这两个变量的 信息 因子负载还可以用来估计观测变量之间的相关系数,当公因子之间彼此不相 关时,由因子分析模型很容易推导出变量x,和x,之间的相关系数为: 即任何两个观测变量之间的相关系数等于对应的因子负载乘积之和。这表 明因子分析模型假设观测变量之间的潜在联系通过公因子描述,如果我们把 变量x,和因子之间的负载理解为相关系数,变量x和因子之间的负载理解为 通径系数,则变量x;和变量x之间的关系可以通过图3-2直观地表示出 来
由因子模型导出的变量之间的相关系数可以用来判断因子解是否合适,如果 从观测数据计算出的相关系数和从模型导出的变量的相关系数差别很小,那么我 们可以说模型很好地拟合了观测数据,因子解是合适的。公因子模型是从解释 变量之间的相关关系出发的,他的解最大可能地再现了观测变量之间的相关关 系 (2)公因子方差 公因子方差( Communality)也叫共同度,又称公共方差,指观测变量 方差中由公因子决定的比例。变量x的公因子方差记做h12。当公因子之间彼 此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示 为 变量的方差由两部分组成,一部分由公因子决定,一部分由特殊因子决定。 公因子方差表示了变量方差中能被公因子所解释的部分,公因子方差越大,变量 能被因子说明的程度越高。对于上面所举的五个观测变量、两个公因子的例子 计算出每个变量的公因子方差见表3-1。h12=0.9548,表明f1和f2两个因子 解释了x1变量信息量的9548%。公因子方差这个指标以观测变量为中心,它的 意义在于说明如果用公因子替代观测变量后,原来每个变量的信息被保留的程 度
表3 因子负载与公因子方差 f2 0.9562 0.2012 0.9548 0.8735 0.2896 0.8469 0.1744 0.8972 0.8354 0.5675 0.8975 5 0.8562 0.3315 0.8430 (3)因子的贡献 每个公因子对数据的解释能力,可以用该因子所解释的总方差来衡量,通常 称为该因子的贡献(( ontributions),记为vpo它等于和该因子有关的因子负载 的平方和,即 所有公因子的总贡献为: 实际中更常用相对指标,即每个因子所解释的方差占所有变量总方差的比 例。相对指标衡量了公因子的相对重要性。设k表示观测变量数,V2/k表示了 第p个因子所解释的方差的比例,V作k表示所有公因子累积解释的方差比例, 它可以用来作为因子分析结束的判断指标。 在上例中,V1k=0.55,vV2/k=0.32,V/k=0.87 表明第一个因子解释了所有变量总方差的55%,第二个因子解释了上述总 方差的32%,两个因子一共解释了总方差的87%。 3.因子分析的步骤 因子分析通常包括以下四个主要步骤: (1)首先,计算所有变量的相关矩阵。相关矩阵是因子分析直接要用的数 据,根据计算出的相关矩阵还应该进一步判断应用因子分析方法是否合适,这 点我们下面再讨论 (2)第二步是提取因子。在这一步要确定因子的个数和求因子解的方法。 (3)第三步是进行因子旋转。这一步的目的是通过坐标变换使因子解的实际 意义更容易解释
(4)第四步是计算因子值。因子值是各个因子在每个案例上的得分值,有了 因子值可以在其他的分析中使用这些因子 因子分析的目的是简化数据或者找出基本的数据结构,因此使用因子分析的 前提条件是观测变量之间应该有较强的相关关系。如果变量之间的相关程度很小 的话,他们不可能共享公因子。所以,计算出相关矩阵后,在进行下面的步骤之 前应该对相关矩阵进行检验,如果相关矩阵中的大部分相关系数都小于0.3,则 不适合做因子分析。SPSS软件提供了三个统计量帮助判断观测数据是否适合做 因子分析。 (1)反映象相关矩阵(Anti- image correlation matrix)。其元素等于负的偏相 关系数。偏相关是控制其他变量不变,一个自变量对因变量的独特解释作用。如 果数据中确实存在公因子,变量之间的偏相关系数应该很小,因为它与其他变量 重叠的解释影响被扣除掉了。所以如果反映象相关矩阵中很多元素的值比较大的 话,应该考虑该观测数据可能不适合做因子分析。 (2)巴特利特球体检验( Bartlett test of sphericity)。该统计量从检验整个相 关矩阵出发,其零假设为相关矩阵是单位阵,如果不能拒绝该假设的话,应该重 新考虑因子分析的使用。 (3)KMO( Kaiser-Meyer-Olkin Measure of Sampling Adequacy)测度。该测度 从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,其值的变化 范围从0到1。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数 的平方和时,KMO值接近1,KMO值较小时,表明观测变量不适合做因子分 析。通常按以下标准解释该指标值的大小:0.9以上,非常好;0.8以上,好 0.7,一般:0.6,差:0.5,很差:0.5以下,不能接受① 例1·生育率的影响因素分析。生育率受社会、经济、文化、计划生育政策 等很多因素影响,但是这些因素对生育率的影响并不是完全独立的,而是交织在 起的,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能 保留二三个变量,其他变量的信息就丢失了。因此,我们首先对自变量进行因子 分析,找岀基本的数据结构,用新生成的因子再对生育率进行分析。这样,一方 面克服了自变量之间高度相关的缺陷,另一方面,又保留了这些变量的信息 选择的变量有:人均国民收入、城镇人口比例、初中以上文化程度的人口比 例、多孩率、综合节育率。表3-2给出的是1990年中国30个省、自治区、直 Joseph F Hair, JR etc.(1995) Multivariate Data Analysis with Readings, +1h Edition. Prentice-Hall International, Inc,: 374
辖市的数据。对这五个变量进行相关分析表明:多孩率和综合节育率之间存在着 较强的相关关系,其余的三个变量之间存在着较强的相关关系(见表3-3),可 以对该数据进行因子分析,本章以下各节将利用该数据说明因子分析的过程。 表3-2 原始数据 多孩率综合节育率初中以上文化程度人均国民收入城镇人口比例 个案(%) (%) 人口比例(%) 3577 55,41 68.65 3.46 412.46 45.12 90.46 41.83 1080 36.12 90.17 50.64 2011 46.32 42.65 88.82 1628 90.80 91.47 4822 105.94 90.31 1696 l12.60 92.42 35.14 l717 127.07 87.97 29.51 933 17.90 29.04 1313 21.36 9.43 20.40 153.16 91 169.04 88.76 1712.02 87.28 1248 1811.15 36.33 76 18.23 1922.46 87.72 36.77 2024.34 31.0 2133.2 l193 24.05 90.57 31.26 903 20.25 2321.56 86.00 18.93 2414.09 14.72 2532.31 865 611.18 89.71 41.01 930 21.49
续前表 多孩率综合节育率初中以上文化程度人均国民收入城镇人口比例 个案(%) (% 人口比例(%) (元) 2713.80 2825.34 81.56 31 1100 27.35 2920.84 1024 25.72 38.47 1374 3l.91 注:原数据中第三个案例的多孩率和第五个案例中的综合节育率为缺失值,用样本平均值代替 本书所附数据磁盘中的相应数据文件名为T32.SAV 表3-3 相关系数矩阵 2 5 1.00000 1.00000 54179 1.00000 45283 25283 1.00000 45341 84883 87772 1.00000 Kaiser- Meyer-Olkin Measure of Sampling Adequacy=.7132 rtlett Test of Sphericity =106. 77649, Significance = 00000 ∴、求解初始因子 在探测性因子分析中,求解初始因子这一步的主要目的是确定能够解释观测 变量之间相关关系的最小因子个数。根据所依据的准则不同,有很多种求因子解 的方法,主要可以分为两类:一类是基于主成分分析模型的主成分分析法,另 类是基于第一节介绍的公因子模型的公因子分析法,包括主轴因子法、极大似然 法、最小二乘法、 alpha法等等。主成分分析实际是独立于因子分析的一和数据 化简技术。因子分析中把主成分分析的结果作为一个初始因子解,因为在确定因 子个数时主要用到主成分分析产生的一个统计量—特征值。其他的求因子解的 方法,如主轴因子法采用了和主成分分析类似的算法,所以,主成分分析在因子 分析中占有重要的地位。下面,我们将分别介绍主成分分析法和公因子分析法。 1.主成分分析法 主成分( Principal components)分析是一种数学变换的方法,它把给定的一
组(比如k个)相关变量通过线性变换转换成另一组不相关的变量,这些新的 变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第 一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且和第 个变量不相关,称为第二主成分,依次类推,k个变量就有k个主成分,最后 个主成分具有的方差最小,并且和前面的主成分都不相关。 1)主成分的几何意义 下面我们在二维和三维空间中来解释一下主成分的几何意义。 假设在二维空间中一些样本点的分布近似一个椭圆(见图3-3)。如果我们 要用一维,即一个轴来表示这些点的相对位置的话,则这个轴应该选在椭圆的长 轴上。因为从总体来看,样本点离这条线最近,在该方向上样本点最分散,该轴 就是第一主成分,它能解释最大方差,所包含的信息是最多的。两个变量只可能 有芮个主成分,第一个主成分确定后,第二个也就确定了,为椭圆的短轴 图3-3 如果在三维空间中样本点的分布近似一个椭球,设椭球最长的方向为第一长 轴,宽为第二长轴,高为短轴。则第一主成分应该取在第一长轴上,它对数据的 解释能力取决于椭球的形状,如果椭球很长很细,像一根棍,第一主成分基本能 反映原来变量的信息。如果椭球很长很宽,但很扁,则需要两个主成分才能比较 精确地描述该椭球,第二个主成分取在第二长轴上。如果长、宽、高三维都比较