ｇ２Ｑ１Ｃ１＋１Ｃ２ æ è ç_中国高校课件下载中心

正在加载图片...

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·715· 由上述合并顺序的获取过程可以看出，k邻域大小的选择直接影响了数据点密度的大小，进而影 1(11 2 响了DSMC算法的合并顺序。因此，k邻域的大小根据定理1，取=gG十Gg血谷>0，也被看作是DSMC算法的一个重要参数。则在该算法中，密度的大小不仅受到k邻域的影 P(I(C-C)-E(G-C)l≥ 响，也会受到距离度量(x,y)的影响。针对不同特征的数据集，选取合适的f(x,y)可以得到更好的聚 171 类结果。在算法中较为常见的距离度量有欧式距离，马氏距离，最大/最小值距离等。本文实验中主 2r2 < 要应用一种距离度量，它利用数据点最大特征差异 2 进行排序，使得d=max,eks(max(x:-y:),(i=A, 推论得证。 B,C,…),K(x)表示点x的k邻域。随机生成含由推论1可知，当δ取值接近于零时（本文有20个点的数据集，选取k邻域大小为4，利用上若未特别标明，8取为1/(61X12),类别组合述距离度量，得到DSMC算法的合并顺序如图2 (C,C2)满足不等式1(C-C3)-E(C,-C)1≤ 所示。 b(C1,C2)的概率接近于1，其中b(C1,C2)= 20TG,7G方：若(G,G)可以合并，说 1 明在数据集X·中2者属于同一类别，则有 E(C,-C,)=0。根据这2个前提条件得到如下统计合并判定准则： ● M(C1,C2)= |ue,1(G-C)l≤b(C,c) false,其他当类别组合(C,C,)满足|(C-C)|≤ (a)原图 b(C1,C2)时，则合并(C1,C2);反之则不然。将该准则扩展到具有多个特征信息的数据集中，形式如下： ftue,a∈{A,B,…f, M(C,C2上 I(G-Ca)|≤b(C,G) false,其他 1.3合并顺序建立合适的合并准则后，聚类算法的结果受合并顺序的影响。与随机选取数据点进行合并判定的算法不同，DSMC算法利用了数据点的密度信息以获得合并顺序。获取过程可叙述如下：首先，计算数 (b)k=4时的合并顺序图2DSMC算法的合并顺序据集中任意2点之间的距离度量（例如欧式距离、 Fig.2 Merging order of DSMC algorithm 最大/最小距离、马氏距离等)，获得度量矩阵：然后，确定每一数据点的k邻域，选取k邻域中所有点 2DSMC算法的实现与稠密点距离度量的最大值，作为稠密点的局部密度信息：最后，根据获得的局部密度信息，将所有数 2.1DSMC算法的实现细节据点按密度从大到小排序，得到算法的合并顺序。通过对DSMC算法的详细介绍可知，DSMC算在整个算法过程中，基于密度的合并顺序保证了在法主要通过2个步骤实现：步骤1是根据数据点的任意2个不同的类别进行合并判定时，其自身已经密度信息获得合并顺序及每一数据点的k邻域：步完成所有可能的合并。骤2是按照合并顺序依次将稠密点与其k邻域中的ｇ２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ 根据定理１，取 τ ＝ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ｌｎ２ δ ＞０，则ＰＣ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ( ) ≥ ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ ｌｎ２ δ ö ø ÷ ≤ ｅｘｐ－２τ ２ ∑ｋｒｋ ( ) ２ æ è çç ö ø ÷÷ ＝ δ ２＜ δ 推论得证。由推论１可知，当 δ 取值接近于零时（本文若未特别标明， δ 取为１／（６｜Ｘ｜２），类别组合（Ｃ１，Ｃ２）满足不等式｜Ｃ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ) ｜ ≤ ｂ（Ｃ１，Ｃ２）的概率接近于１，其中ｂＣ１，Ｃ２ ( ) ＝ｇ１２Ｑ（１Ｃ１＋１Ｃ２）ｌｎ２ δ ；若（Ｃ１，Ｃ２）可以合并，说明在数据集Ｘ ∗ 中２者属于同一类别，则有Ｅ（Ｃ１ ( －Ｃ２ ( ）＝０。根据这２个前提条件得到如下统计合并判定准则：ＭＣ１，Ｃ２ ( ) ＝ｔｒｕｅ，Ｃ１ ( －Ｃ１ ( ( ) ≤ ｂＣ１，Ｃ２ ( ) ｆａｌｓｅ，其他 { 当类别组合（Ｃ１，Ｃ２）满足Ｃ１ ( －Ｃ２ ( ( ) ≤ ｂ（Ｃ１，Ｃ２）时，则合并（Ｃ１，Ｃ２）；反之则不然。将该准则扩展到具有多个特征信息的数据集中，形式如下：ＭＣ１，Ｃ２ ( )＝ｔｒｕｅ， ∀ａ ∈｛Ａ，Ｂ，…｝，Ｃａ１ ( －Ｃａ２ ( ( ) ≤ｂ（Ｃ１，Ｃ２）ｆａｌｓｅ，其他 ì î í ï ï ï ï １．３合并顺序建立合适的合并准则后，聚类算法的结果受合并顺序的影响。与随机选取数据点进行合并判定的算法不同，ＤＳＭＣ算法利用了数据点的密度信息以获得合并顺序。获取过程可叙述如下：首先，计算数据集中任意２点之间的距离度量（例如欧式距离、最大／最小距离、马氏距离等），获得度量矩阵；然后，确定每一数据点的ｋ邻域，选取ｋ邻域中所有点与稠密点距离度量的最大值，作为稠密点的局部密度信息；最后，根据获得的局部密度信息，将所有数据点按密度从大到小排序，得到算法的合并顺序。在整个算法过程中，基于密度的合并顺序保证了在任意２个不同的类别进行合并判定时，其自身已经完成所有可能的合并。由上述合并顺序的获取过程可以看出，ｋ邻域大小的选择直接影响了数据点密度的大小，进而影响了ＤＳＭＣ算法的合并顺序。因此，ｋ邻域的大小也被看作是ＤＳＭＣ算法的一个重要参数。在该算法中，密度的大小不仅受到ｋ邻域的影响，也会受到距离度量ｆ（ｘ，ｙ）的影响。针对不同特征的数据集，选取合适的ｆ（ｘ，ｙ）可以得到更好的聚类结果。在算法中较为常见的距离度量有欧式距离，马氏距离，最大／最小值距离等。本文实验中主要应用一种距离度量，它利用数据点最大特征差异进行排序，使得ｄ＝ｍａｘｙ∈Ｋ（ｘ）ｍａｘｘｉ－ｙｉ ( ( ) ) ，（ｉ＝Ａ，Ｂ，Ｃ，…），Ｋ（ｘ）表示点ｘ的ｋ邻域。随机生成含有２０个点的数据集，选取ｋ邻域大小为４，利用上述距离度量，得到ＤＳＭＣ算法的合并顺序如图２所示。（ａ）原图（ｂ）ｋ＝４时的合并顺序图２ＤＳＭＣ算法的合并顺序Ｆｉｇ．２ＭｅｒｇｉｎｇｏｒｄｅｒｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ２ＤＳＭＣ算法的实现２．１ＤＳＭＣ算法的实现细节通过对ＤＳＭＣ算法的详细介绍可知，ＤＳＭＣ算法主要通过２个步骤实现：步骤１是根据数据点的密度信息获得合并顺序及每一数据点的ｋ邻域；步骤２是按照合并顺序依次将稠密点与其ｋ邻域中的第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１５·

<<向上翻页向下翻页>>

点击下载：机器学习：基于密度的统计合并聚类算法编辑部