阵以及核矩阵决定，因为它们的时间复杂度均为Ｏ（ｎ２ｄ），因此整体的时

正在加载图片...

·604. 智能系统学报第11卷阵以及核矩阵决定，因为它们的时间复杂度均为果，并与其他算法进行比较。第1组人工数据集 0(n2d),因此整体的时间复杂度也为0(n2d)。 Sym1分布在二维空间内，分为4部分，每部分由200 个数据点组成，共8O0个数据，点。使用数据集Syml 6 实验与分析的目的是检验算法是否能够尽可能多的发现可供选 6.1聚类结果评估择的聚类结果，且所有结果均满足与初始聚类结果聚类结果根据聚类质量和相异性两方面进行评正交的条件。第2组人工数据集Sym2的结构较为估。聚类质量分为两种情况：如果已知正确的类标，复杂，每部分的形状都是非凸的。使用数据集Sy2 则可选聚类结果和正确的类标之间通过F-measure 的目的是检验算法是否能够处理非线性的数据结计算，计算公式为F=2P×R/(P+R),其中P和R分构，并且发掘出嵌入在高维数据中的低维流形结构。别表示准确率(precision)和召回率(recall);否则，图1中的第1行表示的是RLPP使用数据集使用Dunn Index计算，表示为Dl(g。数学上，Dunn Syml得到的运行结果。其中，第1列表示的是所提 min均{8(c,9)} 供的参考聚类结果C),第2列表示的是由RLPP ndex定义为Dlo-742,其中8：GxC一得到的可供选择的聚类结果C2)。从图中可以直观 R。,表示类与类之间的距离，△：C→R。表示类内地看出，RLPP成功地找到了与所提供的参考聚类直径。对于评估聚类结果的相异性，使用了两种不结果完全不相同，但是聚类质量很高的可选聚类结同的方法。第1种是最为常用的标准化互信息果。另外，如果我们把该结果C2)看作除C)外新 (normalized mutual information,NMl),第2种是杰增的参考聚类结果，并且寻找第2个可选的参考聚卡德指数(Jaccard index,.JI)。类结果C),RLPP会得到第3列所显示的聚类结对于NMI和JⅡ指标，值越小意味着不同聚类结果。C3)在欧氏距离下与前两个聚类结果相比不是果之间的相似度越高；对于F-measure和Dunn Index 特别得自然，但是C)仍然很有启发性，并且它完全指标，值越大意味着更高的聚类质量。独立于前2个参考聚类结果C)和C2)。同时注意 6.2人工数据集到，RPCA算法无法寻找出合适的C)。在表1中，使用两种流行的人工数据集评估LPP的效提供了这些算法的表现。 14 2 10 2 6 1012 14 -4 2 0 246 101214-4-202 468101214 (a)Synl数据集可选聚类结果C (b)Syml数据集可选聚类结果C (c)Synl数据集可选聚类结果C ② 88 4-4-3 -2 4-4-3 -2-1 01234 (d)Syn2数据集可选聚类结果C (e)Syn2数据集可选聚类结果Ca (f)Syn2数据集可选聚类结果C 图1由数据集Synl(第1行)和Syn2(第2行)得到的可选聚类结果 Fig.1 Alternative clusterings uncovered from Synl(1"row)and Syn2(24 row)datasets阵以及核矩阵决定，因为它们的时间复杂度均为Ｏ（ｎ２ｄ），因此整体的时间复杂度也为Ｏ（ｎ２ｄ）。６实验与分析６．１聚类结果评估聚类结果根据聚类质量和相异性两方面进行评估。聚类质量分为两种情况：如果已知正确的类标，则可选聚类结果和正确的类标之间通过Ｆ⁃ｍｅａｓｕｒｅ计算，计算公式为Ｆ＝２Ｐ×Ｒ／（Ｐ＋Ｒ），其中Ｐ和Ｒ分别表示准确率（ｐｒｅｃｉｓｉｏｎ）和召回率（ｒｅｃａｌｌ）；否则，使用ＤｕｎｎＩｎｄｅｘ计算，表示为ＤＩ（Ｃ）。数学上，ＤｕｎｎＩｎｄｅｘ定义为ＤＩ（Ｃ）＝ｍｉｎｉ≠ｊ｛δ（ｃｉ，ｃｊ）｝ｘ１≤ｌ≤ｋ｛Δ（ｃｌ）｝，其中 δ：Ｃ×Ｃ→ Ｒ＋０，表示类与类之间的距离，Δ：Ｃ→Ｒ＋０表示类内直径。对于评估聚类结果的相异性，使用了两种不同的方法。第１种是最为常用的标准化互信息（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＮＭＩ），第２种是杰卡德指数（Ｊａｃｃａｒｄｉｎｄｅｘ，ＪＩ）。对于ＮＭＩ和ＪＩ指标，值越小意味着不同聚类结果之间的相似度越高；对于Ｆ⁃ｍｅａｓｕｒｅ和ＤｕｎｎＩｎｄｅｘ指标，值越大意味着更高的聚类质量。６．２人工数据集使用两种流行的人工数据集评估ＲＬＰＰ的效果，并与其他算法进行比较。第１组人工数据集Ｓｙｎ１分布在二维空间内，分为４部分，每部分由２００个数据点组成，共８００个数据点。使用数据集Ｓｙｎ１的目的是检验算法是否能够尽可能多的发现可供选择的聚类结果，且所有结果均满足与初始聚类结果正交的条件。第２组人工数据集Ｓｙｎ２的结构较为复杂，每部分的形状都是非凸的。使用数据集Ｓｙｎ２的目的是检验算法是否能够处理非线性的数据结构，并且发掘出嵌入在高维数据中的低维流形结构。图１中的第１行表示的是ＲＬＰＰ使用数据集Ｓｙｎ１得到的运行结果。其中，第１列表示的是所提供的参考聚类结果Ｃ（１），第２列表示的是由ＲＬＰＰ得到的可供选择的聚类结果Ｃ（２）。从图中可以直观地看出，ＲＬＰＰ成功地找到了与所提供的参考聚类结果完全不相同，但是聚类质量很高的可选聚类结果。另外，如果我们把该结果Ｃ（２）看作除Ｃ（１）外新增的参考聚类结果，并且寻找第２个可选的参考聚类结果Ｃ（３），ＲＬＰＰ会得到第３列所显示的聚类结果。Ｃ（３）在欧氏距离下与前两个聚类结果相比不是特别得自然，但是Ｃ（３）仍然很有启发性，并且它完全独立于前２个参考聚类结果Ｃ（１）和Ｃ（２）。同时注意到，ＲＰＣＡ算法无法寻找出合适的Ｃ（３）。在表１中，提供了这些算法的表现。图１由数据集Ｓｙｎ１（第１行）和Ｓｙｎ２（第２行）得到的可选聚类结果Ｆｉｇ．１ＡｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｕｎｃｏｖｅｒｅｄｆｒｏｍＳｙｎ１（１ｓｔｒｏｗ）ａｎｄＳｙｎ２（２ｎｄｒｏｗ）ｄａｔａｓｅｔｓ ·６０４· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于局部保留投影的多可选聚类发掘算法