正在加载图片...
·604. 智能系统学报 第11卷 阵以及核矩阵决定,因为它们的时间复杂度均为 果,并与其他算法进行比较。第1组人工数据集 0(n2d),因此整体的时间复杂度也为0(n2d)。 Sym1分布在二维空间内,分为4部分,每部分由200 个数据点组成,共8O0个数据,点。使用数据集Syml 6 实验与分析 的目的是检验算法是否能够尽可能多的发现可供选 6.1聚类结果评估 择的聚类结果,且所有结果均满足与初始聚类结果 聚类结果根据聚类质量和相异性两方面进行评 正交的条件。第2组人工数据集Sym2的结构较为 估。聚类质量分为两种情况:如果已知正确的类标, 复杂,每部分的形状都是非凸的。使用数据集Sy2 则可选聚类结果和正确的类标之间通过F-measure 的目的是检验算法是否能够处理非线性的数据结 计算,计算公式为F=2P×R/(P+R),其中P和R分 构,并且发掘出嵌入在高维数据中的低维流形结构。 别表示准确率(precision)和召回率(recall);否则, 图1中的第1行表示的是RLPP使用数据集 使用Dunn Index计算,表示为Dl(g。数学上,Dunn Syml得到的运行结果。其中,第1列表示的是所提 min均{8(c,9)} 供的参考聚类结果C),第2列表示的是由RLPP ndex定义为Dlo-742,其中8:GxC一 得到的可供选择的聚类结果C2)。从图中可以直观 R。,表示类与类之间的距离,△:C→R。表示类内 地看出,RLPP成功地找到了与所提供的参考聚类 直径。对于评估聚类结果的相异性,使用了两种不 结果完全不相同,但是聚类质量很高的可选聚类结 同的方法。第1种是最为常用的标准化互信息 果。另外,如果我们把该结果C2)看作除C)外新 (normalized mutual information,NMl),第2种是杰 增的参考聚类结果,并且寻找第2个可选的参考聚 卡德指数(Jaccard index,.JI)。 类结果C),RLPP会得到第3列所显示的聚类结 对于NMI和JⅡ指标,值越小意味着不同聚类结 果。C3)在欧氏距离下与前两个聚类结果相比不是 果之间的相似度越高;对于F-measure和Dunn Index 特别得自然,但是C)仍然很有启发性,并且它完全 指标,值越大意味着更高的聚类质量。 独立于前2个参考聚类结果C)和C2)。同时注意 6.2人工数据集 到,RPCA算法无法寻找出合适的C)。在表1中, 使用两种流行的人工数据集评估LPP的效 提供了这些算法的表现。 14 2 10 2 6 1012 14 -4 2 0 246 101214-4-202 468101214 (a)Synl数据集可选聚类结果C (b)Syml数据集可选聚类结果C (c)Synl数据集可选聚类结果C ② 88 4-4-3 -2 4-4-3 -2-1 01234 (d)Syn2数据集可选聚类结果C (e)Syn2数据集可选聚类结果Ca (f)Syn2数据集可选聚类结果C 图1由数据集Synl(第1行)和Syn2(第2行)得到的可选聚类结果 Fig.1 Alternative clusterings uncovered from Synl(1"row)and Syn2(24 row)datasets阵以及核矩阵决定,因为它们的时间复杂度均为 O(n 2 d),因此整体的时间复杂度也为 O(n 2 d)。 6 实验与分析 6.1 聚类结果评估 聚类结果根据聚类质量和相异性两方面进行评 估。 聚类质量分为两种情况:如果已知正确的类标, 则可选聚类结果和正确的类标之间通过 F⁃measure 计算,计算公式为 F = 2P×R / (P+R),其中 P 和 R 分 别表示准确率( precision) 和召回率( recall);否则, 使用 Dunn Index 计算,表示为 DI(C) 。 数学上,Dunn Index 定义为 DI(C) = mini≠j{δ(ci,cj)} x1≤l≤k{Δ(cl)} ,其中 δ:C×C→ R + 0 ,表示类与类之间的距离,Δ:C→R + 0 表示类内 直径。 对于评估聚类结果的相异性,使用了两种不 同的方法。 第 1 种是最为常用的标准化互信息 (normalized mutual information, NMI),第 2 种是杰 卡德指数(Jaccard index, JI)。 对于 NMI 和 JI 指标,值越小意味着不同聚类结 果之间的相似度越高;对于 F⁃measure 和 Dunn Index 指标,值越大意味着更高的聚类质量。 6.2 人工数据集 使用两种流行的人工数据集评估 RLPP 的效 果,并与其他算法进行比较。 第 1 组人工数据集 Syn1 分布在二维空间内,分为 4 部分,每部分由 200 个数据点组成,共 800 个数据点。 使用数据集 Syn1 的目的是检验算法是否能够尽可能多的发现可供选 择的聚类结果,且所有结果均满足与初始聚类结果 正交的条件。 第 2 组人工数据集 Syn2 的结构较为 复杂,每部分的形状都是非凸的。 使用数据集 Syn2 的目的是检验算法是否能够处理非线性的数据结 构,并且发掘出嵌入在高维数据中的低维流形结构。 图 1 中的第 1 行表示的是 RLPP 使用数据集 Syn1 得到的运行结果。 其中,第 1 列表示的是所提 供的参考聚类结果 C (1) ,第 2 列表示的是由 RLPP 得到的可供选择的聚类结果 C (2) 。 从图中可以直观 地看出,RLPP 成功地找到了与所提供的参考聚类 结果完全不相同,但是聚类质量很高的可选聚类结 果。 另外,如果我们把该结果 C (2) 看作除 C (1) 外新 增的参考聚类结果,并且寻找第 2 个可选的参考聚 类结果 C (3) ,RLPP 会得到第 3 列所显示的聚类结 果。 C (3)在欧氏距离下与前两个聚类结果相比不是 特别得自然,但是 C (3)仍然很有启发性,并且它完全 独立于前 2 个参考聚类结果 C (1)和 C (2) 。 同时注意 到,RPCA 算法无法寻找出合适的 C (3) 。 在表 1 中, 提供了这些算法的表现。 图 1 由数据集 Syn1(第 1 行)和 Syn2(第 2 行)得到的可选聚类结果 Fig.1 Alternative clusterings uncovered from Syn1(1 st row) and Syn2(2 nd row) datasets ·604· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有