正在加载图片...
聚类分析的主要步骤 般来说,聚类分析至少都应该包括以下四个步骤:首先,根据研究的目的 选择合适的聚类变量;第二步计算相似性测度;第三步选定聚类方法进行聚类; 最后是对结果进行解释和验证。下面我们对每一步骤进行简单介绍。 1.选择变量 因为聚类分析是根据所选定的变量对研究对象进行分类,聚类的结果仅仅反 映了所选定变量所定义的数据结构,所以变量的选择在聚类分析中非常重要。 般来说,选择哪些变量应该具有一定的理论支持,但实践中往往缺乏这样强有力 的理论基础,研究者一般是根据实际工作经验和所研究问题的特征人为地选择 些变量。那么,这些变量应该具有以下特点 (1)和聚类分析的目标密切相关; (2)反映了要分类对象的特征; (3)在不同研究对象上的值具有明显差异; 4)变量之间不应该高度相关。 选择变量时要注意克服“加入尽可能多的变量”这种错误倾向,并不是加入的 变量越多,得到的结果越客观。有时,由于加入一两个不合适的变量就会使得分 类结果大相径庭。所以,聚类分析应该只根据在研究对象上有显著差别的那些变 量进行分类。因此,研究者需要对聚类结果不断进行检验,剔除在不同类之间没 有显著差别的变量。 另一点应该注意的是,所选择的变量之间不应该高度相关,不加鉴别地使用 高度相关的变量相当于给这些变量进行了加权。如果我们所选择的变量中有三个 高度相关的变量,这相当于使用了这三个高度相关变量中的一个,并对其给予了 倍的权数。对于高度相关的变量有两种处理办法,一是在聚类之前,首先对变 量进行聚类分析,从聚得的各类中分别挑选出一个有代表性的变量作为聚类变 量;二是做主成分分析或因子分析,主成分分析和因子分析都可以用来降低数据 的维数,产生新的不相关变量,然后把这些变量作为聚类变量。 2.计算相似性 选定了聚类变量,下一步就是计算研究对象之间的相似性( Similarity)。相
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有