正在加载图片...
表4-2 相似性测度:相关系数 案例 2 3 2 0 0.97 0.14 0.19 0.87-0.170.91022 相关测度的一个主要缺点也就是它忽视了变量值大小之间的差异。高度相关 的两个样本所提供的信息可能并不等同,有时甚至相差甚远。如本例中的案例1 和案例3之间的相关系数高达0.97,但两个案例的变量值相差很大。实际上,在 聚类分析的大部分应用中都更重视变量值大小的差异,而不是值的变化模式,所 以相关测度在聚类分析中应用并不普遍,应用最普遍的是我们下面要介绍的距离 测度 2.距离测度 距离测度的出发点是把每个案例看作m维空间(m为变量个数)中的一个 点,在m维空间中定义点与点之间的距离,距离越近的点,相似程度越高,聚类 时更可能归为一类。如果两个案例在所有的变量上的值都相同,这两个点在m维 空间中应该重合,两个点之间的距离为0 距离测度应该满足下列条件: 1)d=dn=0即距离具有对称性,从案例i至案例j的距离与案例j至案 例i的距离相等。 2)d,≤dk+d即三角不等式,任意一边小于其他两边之和。 3)如果d,≠0,则≠j,即案例i和案例j不等同。 常见的距离测度有 (1)欧氏距离( Euclidean distance)。定义为 其中,d,表示案例和案例j之间的距离,x表示第i个案例在第k个变量 上的值。欧式距离是聚类分析中用得最广泛的距离,上式也称为简单欧式距离, 另一种常用的形式是平方欧式距离,即取上式的平方,记为d2。平方欧式距离 的优点是,因为不再计算平方根,所以大大提高了计算机的运算速度。 (2)绝对值距离( Manhattan distance或 city-block metric)。定义为 121
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有