正在加载图片...
绝对值距离是另一个应用很广泛的距离,使用时要注意的一个问题是它假设 变量之间是不相关的,如果变量之间相关,则聚类结果不可信。 (3)明科夫斯基距离( Minkowski metrics)。定义为 明科夫斯基距离是个通用的距离测度公式,当r为1时为绝对值距离,r等 于2时为欧氏距离 (4)马氏距离( Mahalanobis d)。定义为 dn=(X;-X)’E(x-X) 其中,X,X分别为案例i和案例j在各个变量上的值所组成的向量,E1 为聚类变量的协方差阵的逆矩阵。和前面所定义的距离测度所不同的是,马氏距 离考虑了聚类变量之间的相关,如果变量之间的相关为零,马氏距离等于平方欧 氏距离。 和相关测度所不同的是,距离测度更侧重于变量值的大小,不考虑案例在聚 类变量上的变化模式,认为靠得近的案例为相似的案例。表4-3给出了对于表 4-1中的数据计算出的简单欧氏距离。按照距离越近,相似程度越高的原则,案 例2,3应该归为一类,案例1,4,5归为另一类,这和用相关测度的聚类结果差 异很大,参照图4-1我们可以更清楚地看出相关测度和距离测度的差异。 表↓ 相似测度:欧氏距离 案例 8.7 2345 3.74 4.24 11.75 10.86 3.关联测度 关联测度用来度量聚类变量为分类变量的研究对象的相似性。有很多种关联 测度系数,其中只有三种得到了广泛的应用,它们分别是简单匹配系数(the Simple matching coefficient)、雅科比系数( Jaccards coefficient)和果瓦系数 ( Gowers coefficient),其中,简单匹配系数和雅科比系数只适用于二分类变量
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有