聚类分析的主要步骤般来说,聚类分析至少都应该包括以下四个步骤:首先,根据

点击下载：21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第四章聚类分析

正在加载图片...

聚类分析的主要步骤般来说,聚类分析至少都应该包括以下四个步骤:首先,根据研究的目的选择合适的聚类变量;第二步计算相似性测度;第三步选定聚类方法进行聚类; 最后是对结果进行解释和验证。下面我们对每一步骤进行简单介绍。 1.选择变量因为聚类分析是根据所选定的变量对研究对象进行分类,聚类的结果仅仅反映了所选定变量所定义的数据结构,所以变量的选择在聚类分析中非常重要。般来说,选择哪些变量应该具有一定的理论支持,但实践中往往缺乏这样强有力的理论基础,研究者一般是根据实际工作经验和所研究问题的特征人为地选择些变量。那么,这些变量应该具有以下特点 (1)和聚类分析的目标密切相关; (2)反映了要分类对象的特征; (3)在不同研究对象上的值具有明显差异; 4)变量之间不应该高度相关。选择变量时要注意克服“加入尽可能多的变量”这种错误倾向,并不是加入的变量越多,得到的结果越客观。有时,由于加入一两个不合适的变量就会使得分类结果大相径庭。所以,聚类分析应该只根据在研究对象上有显著差别的那些变量进行分类。因此,研究者需要对聚类结果不断进行检验,剔除在不同类之间没有显著差别的变量。另一点应该注意的是,所选择的变量之间不应该高度相关,不加鉴别地使用高度相关的变量相当于给这些变量进行了加权。如果我们所选择的变量中有三个高度相关的变量,这相当于使用了这三个高度相关变量中的一个,并对其给予了倍的权数。对于高度相关的变量有两种处理办法,一是在聚类之前,首先对变量进行聚类分析,从聚得的各类中分别挑选出一个有代表性的变量作为聚类变量;二是做主成分分析或因子分析,主成分分析和因子分析都可以用来降低数据的维数,产生新的不相关变量,然后把这些变量作为聚类变量。 2.计算相似性选定了聚类变量,下一步就是计算研究对象之间的相似性( Similarity)。相

<<向上翻页向下翻页>>

点击下载：21世纪社会学系列教材：《高等SPSS》教学资源（PDF电子书）第四章聚类分析