21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第三章因子分析（2/2）

因子分析( Factor Analysis)是多元统讣分析技术的一个分支,其主要目的是浓缩数据。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示基本的数据结构。这些假想变量能够反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系,我们把这些假想变量称之为基础变量,即因子( Factors)。因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子因子分析是由心理学家发展起来的,最初心理学家借助因子分析模型来解释人类的行为和能力,1904年查尔斯·斯皮尔曼( Charles spearman)在美国心理学杂志上发表了第一篇有关因子分析的文章,在以后的三四十年里,因子分析的理论和数学基础逐步得到了发展和完善,它作为一个一般的统计分析工具逐渐被人们所认识和接受。

团购合买资源类别：文库，文档格式：PDF，文档页数：30，文件大小：1.13MB

述带来一定困难,而且在使用某些统计方法时会出现问题。例如,在多元回归分析中,当自变量之间高度相关时,会出现多重共线性现象。变量之间高度相关意味着他们所反映的信息高度重合,通过因子分析我们能找到较少的几个因子,他们代表数据的基本结构,反映了信息的本质特征。例如,某快餐店为了解其市场竞争能力进行消费者调査,通过定性研究设计了30个有关快餐店及其产品和服务的调查项目,这30个项目可能反映了快餐的质量、价格、就餐环境和服务四个基本方面,通过因子分析我们能找出反映数据本质特征的这四个因子并分析原来30个观测变量和它们之间的关系。第二,数据化简( Data reduction)。通过因子分析把一组观测变量化为少数的几个因子后,可以进一步将原始观测变量的信息转换成这些因子的因子值,然后,用这些因子代替原来的观测变量进行其他的统计分析,如回归分析、路径分析、判别分析和聚类分析等,利用因子值也可以直接对样本进行分类和综合评价以上这些应用都需要通过因子分析,首先确定能够解释观测变量之间相关的假想因子的个数。一般来说,要是研究者事先对观测数据背后存在多少个基础变量一无所知,因子分析用来作为探索基础变量的维数,这种类型的应用称为探测性( Exploratory)因子分析,因子分析的大部分应用都属于这种类型。有些情况下,研究者根据某些理论或其他的先验知识可能对因子的个数或因子的结构作出假设,因子分析也可以用来检验这个假设,作为证实假设的工具,这种类型的应用称为证实性( Confirmatory)因子分析,在心理学领域中的应用属于这种类型,这部分内容本章不做讨论。因子分析原理 1.因子分析模型因为任何一个变量,经过x=x变换(x为x的均值,为x的标准差)成为标准化变量,很容易证明,经过这样的标准化变换不改变变量之间的相关系数,所以,不失一般性,假设我们讨论的是标准化变量因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线性组合来表示。设有k个观测变量,分别为x1,x2 xk,其中x;为具有零均值、单位方差的标准化变量。则因子模型的一般表达形式为 x;=a;1fi+ai2f2+.+aimfm +ui k)

不会有什么损失,所以,因子分析模型中,公因子的个数,往往远远小于观测变量的个数。如果把特殊因子作为残差项看待,因子分析模型和多元线性回归方程在形式上很相近,他们都是用其他变量的线性组合加上一个残差项来表示一个变量,但是回归模型中的自变量是可观测的,而因子分析模型中的因子是假想变量,是不可观测的,这就使得它有别于一般的线性模型。为了进一步了解模型所表示的意义,下面我们讨论因子分析中常用的几个统计量。 2.因子分析中的有关概念 (1)因子负载因子负载是因子分析模型中最重要的一个统计量,它是连接观测变量和公因子之间的纽带。当公因子之间完全不相关时,很容易证明因子负载a等于第;个变量和第j个因子之间的相关系数。大多数情况下,人们往往假设公因子之间是彼此正交的( Orthogonal),即不相关。因此,因子负载不仅表示了观测变量是如何由因子线性表出的,而且反映了因子和变量之间的相关程度,an的绝对值越大,表示公因子f与变量x1关系越密切。假设我们得到了下面五个观测变量、两个公因子的模型: x1=0.9562f1+0.2012f2+0.2126u1 x2=0.8735f1+0.2896f2+0.3913u2 x3=0.1744f1+0.8972f2+0.40573 0.5675f1+0.7586f2+0.3202 x5=0.8562f1+0.3315f2+0.3962s 很容易看出,公因子f与变量x1,x2,x4,x5关系密切,它主要代表了这些变量的信息,公因子f2与变量x3,x4关系密切,它主要代表了这两个变量的信息因子负载还可以用来估计观测变量之间的相关系数,当公因子之间彼此不相关时,由因子分析模型很容易推导出变量x,和x,之间的相关系数为: 即任何两个观测变量之间的相关系数等于对应的因子负载乘积之和。这表明因子分析模型假设观测变量之间的潜在联系通过公因子描述,如果我们把变量x,和因子之间的负载理解为相关系数,变量x和因子之间的负载理解为通径系数,则变量x;和变量x之间的关系可以通过图3-2直观地表示出来

(4)第四步是计算因子值。因子值是各个因子在每个案例上的得分值,有了因子值可以在其他的分析中使用这些因子因子分析的目的是简化数据或者找出基本的数据结构,因此使用因子分析的前提条件是观测变量之间应该有较强的相关关系。如果变量之间的相关程度很小的话,他们不可能共享公因子。所以,计算出相关矩阵后,在进行下面的步骤之前应该对相关矩阵进行检验,如果相关矩阵中的大部分相关系数都小于0.3,则不适合做因子分析。SPSS软件提供了三个统计量帮助判断观测数据是否适合做因子分析。 (1)反映象相关矩阵(Anti- image correlation matrix)。其元素等于负的偏相关系数。偏相关是控制其他变量不变,一个自变量对因变量的独特解释作用。如果数据中确实存在公因子,变量之间的偏相关系数应该很小,因为它与其他变量重叠的解释影响被扣除掉了。所以如果反映象相关矩阵中很多元素的值比较大的话,应该考虑该观测数据可能不适合做因子分析。 (2)巴特利特球体检验( Bartlett test of sphericity)。该统计量从检验整个相关矩阵出发,其零假设为相关矩阵是单位阵,如果不能拒绝该假设的话,应该重新考虑因子分析的使用。 (3)KMO( Kaiser-Meyer-Olkin Measure of Sampling Adequacy)测度。该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,其值的变化范围从0到1。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数的平方和时,KMO值接近1,KMO值较小时,表明观测变量不适合做因子分析。通常按以下标准解释该指标值的大小:0.9以上,非常好;0.8以上,好 0.7,一般:0.6,差:0.5,很差:0.5以下,不能接受① 例1·生育率的影响因素分析。生育率受社会、经济、文化、计划生育政策等很多因素影响,但是这些因素对生育率的影响并不是完全独立的,而是交织在起的,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能保留二三个变量,其他变量的信息就丢失了。因此,我们首先对自变量进行因子分析,找岀基本的数据结构,用新生成的因子再对生育率进行分析。这样,一方面克服了自变量之间高度相关的缺陷,另一方面,又保留了这些变量的信息选择的变量有:人均国民收入、城镇人口比例、初中以上文化程度的人口比例、多孩率、综合节育率。表3-2给出的是1990年中国30个省、自治区、直 Joseph F Hair, JR etc.(1995) Multivariate Data Analysis with Readings, +1h Edition. Prentice-Hall International, Inc,: 374

点击下载完整版文档（PDF格式）

共30页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录