正在加载图片...
, (x, y)=2x-y.q 当q=1,2或q→>+∞时,则分别得到 )绝对值距离 ∑x-y 2)欧氏距离 d2(x,y)=2-yl 3) Chebyshev距离 xk-VE 在 Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交 旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同 值得注意的是在采用 Minkowski距离时,一定要采用相同量纲的变量。如果变量 的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计 算距离。在采用 Minkowski距离时,还应尽可能地避免变量的多重相关性 ( multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。 由于 Minkowski距离的这些缺点,一种改进的距离就是马氏距离,定义如下 4)马氏( Mahalanobis)距离 d(x,y) (4) 其中x,y为来自p维总体Z的样本观测值,Σ为Z的协方差矩阵,实际中Σ往往是不 知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量 纲的影响 此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年 来随着数据挖掘研究的深入,这方面的新方法层出不穷。 1.1.2类与类间的相似性度量 如果有两个样本类G1和G2,我们可以用下面的一系列方法度量它们间的距离: 1)最短距离法( nearest neighbor or single linkage method) 444-444- q p k q q k k d x y x y 1 1 ( , ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ∑ − = ,q > 0 当 q = 1,2或 q → +∞ 时,则分别得到 1)绝对值距离 ∑= = − q k k k d x y x y 1 1( , ) , (1) 2)欧氏距离 2 1 1 2 2 ( , ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ∑ − = p k k k d x y x y , (2) 3)Chebyshev 距离 k k k p d x y = x − y ≤ ≤ ∞ 1 ( , ) max 。 (3) 在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交 旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同。 值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量 的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计 算距离。在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性 (multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。 由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下 4)马氏(Mahalanobis)距离 ( , ) ( ) ( ) 1 d x y x y x y T = − Σ − − (4) 其中 x, y 为来自 p 维总体 Z 的样本观测值,Σ 为 Z 的协方差矩阵,实际中Σ 往往是不 知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量 纲的影响。 此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年 来随着数据挖掘研究的深入,这方面的新方法层出不穷。 1.1.2 类与类间的相似性度量 如果有两个样本类G1和G2 ,我们可以用下面的一系列方法度量它们间的距离: 1)最短距离法(nearest neighbor or single linkage method)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有