个数据集上均测试１０次；每次测试均随机生成一个包含Ｍ个聚类成员的

正在加载图片...

.422 智能系统学报第11卷个数据集上均测试10次：每次测试均随机生成一个 USPS等数据集，本文方法相较聚类成员优势更包含M个聚类成员的聚类集合，然后在此聚类集合显著。上运行本文算法以得到一个集成聚类结果。由此， 3.4聚类集成方法的对比实验得到本文方法在10次运行测试中的平均表现以及本节将所提出方法与6个现有的聚类集成方法聚类成员的平均表现（以NMI度量）。如图2所示。进行对比实验。这6个对比方法分别是evidence accumulation clustering (EAC)hybrid bipartite 0.9 本文方法 graph formulation (HBGF)SimRank similarity 0.8 口聚类成员 based method (SRS)weighted connected triple 0.7 based method(WCT)[2],weighted evidence accumula- 0.6 tion clustering(WEAC)sgraph partitioning with multi-granularity link analysis(GP-MGLA)[8] 0.5 在每一个数据集中，每个聚类集成方法均运行 0.4 10次，每次运行根据第3.2节所述随机生成聚类成 0.3 员，进而得到每个算法在每个数据集的平均NMI得 0.2 分及其标准差。在表2中，在每一个数据集中，最高 Glass Ecoli IS MNISTISOLETPD USPS LR NM得分以粗体显示。如表2所示，本文方法在8 个数据集上均取得了优于其他聚类集成方法的聚类图2本文方法与聚类成员的性能对比 Fig.2 Comparison between our method and the base 效果，特别是在Glass、MNIST和USPS数据集上，本 clusterings 文方法取得的平均NMI得分比其他方法高出10% 本文方法可取得比聚类成员更好的聚类结果：左右。表2的对比实验结果验证了本文方法在聚类尤其是在Glass、Ecoli、IS、MNIST、PD、集成效果上的优势。表2本文方法与其他聚类集成方法的对比实验 Table 2 The average performances of different methods 测试方法 Glass Ecoli IS MNIST ISOLET PD USPS LR 本文方法 0.463 0.682 0.641 0.653 0.756 0.787 0.632 0.454 EACt4] 0.418 0.640 0.618 0.592 0.746 0.747 0.580 0.435 HBGF ( 0.397 0.635 0.624 0.609 0.747 0.757 0.588 0.441 SRS [21] 0.423 0.632 0.623 0.594 0.747 0.755 0.593 0.436 WCT [z) 0.434 0.678 0.623 0.627 0.752 0.764 0.598 0.439 WEAC [s] 0.409 0.637 0.616 0.607 0.746 0.752 0.581 0.439 GP-MGLA[8) 0.399 0.640 0.634 0.624 0.747 0.758 0.602 0.441 3.5在不同聚类集成规模下的对比实验间对比实验。所有实验均在MATLAB2014h下运行，接下来，我们进行本文方法与其他对比方法在不所使用的工作站配置具体如下：Windows Server2008 同聚类集成规模（即聚类成员个数）下的对比实验。R264位操作系统：英特尔八核心2.4GHz中央处理当聚类集成规模由M=10增长到50时，各个聚类集器：96GB内存。为求客观对比各个算法运行的CPU 成方法在10次运行中的平均NM得分如图3所示。时间，所有实验均在单线程模式下运行。在Ecoli数据集中，WCT方法取得了与本文方法基本为测试各个聚类集成算法在不同数据规模（即相当的性能表现。除了Ecoi数据集之外，在其他7数据点个数)下的运行时间，本节实验在LR数据集个数据集中，本文方法在不同聚类集成规模下的聚类的不同大小的子集上进行。LR数据集一共包含有2 表现均显著优于其他方法。图3的实验结果验证了万个数据点：我们在实验中所测试的子集大小从0逐本文方法在不同聚类集成规模下表现出比其他聚类步增长至20000。例如，当测试数据规模设定为W'∈ 集成方法更好的鲁棒性。 [0,20000]时，我们就随机从整个LR数据集中选取 3.6运行时间 N'个数据点进行实验，并记录各个测试方法在此数据在本节中，我们进行各个聚类集成方法的运行时规模上的运行时间。如图4所示，当数据规模较小个数据集上均测试１０次；每次测试均随机生成一个包含Ｍ个聚类成员的聚类集合，然后在此聚类集合上运行本文算法以得到一个集成聚类结果。由此，得到本文方法在１０次运行测试中的平均表现以及聚类成员的平均表现（以ＮＭＩ度量）。如图２所示。图２本文方法与聚类成员的性能对比Ｆｉｇ．２Ｃｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎｏｕｒｍｅｔｈｏｄａｎｄｔｈｅｂａｓｅｃｌｕｓｔｅｒｉｎｇｓ本文方法可取得比聚类成员更好的聚类结果；尤其是在Ｇｌａｓｓ、Ｅｃｏｌｉ、ＩＳ、ＭＮＩＳＴ、ＰＤ、ＵＳＰＳ等数据集，本文方法相较聚类成员优势更显著。３．４聚类集成方法的对比实验本节将所提出方法与６个现有的聚类集成方法进行对比实验。这６个对比方法分别是ｅｖｉｄｅｎｃｅａｃｃｕｍｕｌａｔｉｏｎｃｌｕｓｔｅｒｉｎｇ（ＥＡＣ）［４］、ｈｙｂｒｉｄｂｉｐａｒｔｉｔｅｇｒａｐｈｆｏｒｍｕｌａｔｉｏｎ（ＨＢＧＦ）［３］、ＳｉｍＲａｎｋｓｉｍｉｌａｒｉｔｙｂａｓｅｄｍｅｔｈｏｄ（ＳＲＳ）［２１］、ｗｅｉｇｈｔｅｄｃｏｎｎｅｃｔｅｄｔｒｉｐｌｅｂａｓｅｄｍｅｔｈｏｄ（ＷＣＴ）［２２］、ｗｅｉｇｈｔｅｄｅｖｉｄｅｎｃｅａｃｃｕｍｕｌａ⁃ ｔｉｏｎｃｌｕｓｔｅｒｉｎｇ（ＷＥＡＣ）［８］以及ｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇｗｉｔｈｍｕｌｔｉ⁃ｇｒａｎｕｌａｒｉｔｙｌｉｎｋａｎａｌｙｓｉｓ（ＧＰ⁃ＭＧＬＡ）［８］。在每一个数据集中，每个聚类集成方法均运行１０次，每次运行根据第３．２节所述随机生成聚类成员，进而得到每个算法在每个数据集的平均ＮＭＩ得分及其标准差。在表２中，在每一个数据集中，最高ＮＭＩ得分以粗体显示。如表２所示，本文方法在８个数据集上均取得了优于其他聚类集成方法的聚类效果，特别是在Ｇｌａｓｓ、ＭＮＩＳＴ和ＵＳＰＳ数据集上，本文方法取得的平均ＮＭＩ得分比其他方法高出１０％左右。表２的对比实验结果验证了本文方法在聚类集成效果上的优势。表２本文方法与其他聚类集成方法的对比实验Ｔａｂｌｅ２Ｔｈｅａｖｅｒａｇｅｐｅｒｆｏｒｍａｎｃｅｓｏｆｄｉｆｆｅｒｅｎｔｍｅｔｈｏｄｓ测试方法ＧｌａｓｓＥｃｏｌｉＩＳＭＮＩＳＴＩＳＯＬＥＴＰＤＵＳＰＳＬＲ本文方法０．４６３０．６８２０．６４１０．６５３０．７５６０．７８７０．６３２０．４５４ＥＡＣ［４］０．４１８０．６４００．６１８０．５９２０．７４６０．７４７０．５８００．４３５ＨＢＧＦ［３］０．３９７０．６３５０．６２４０．６０９０．７４７０．７５７０．５８８０．４４１ＳＲＳ［２１］０．４２３０．６３２０．６２３０．５９４０．７４７０．７５５０．５９３０．４３６ＷＣＴ［２２］０．４３４０．６７８０．６２３０．６２７０．７５２０．７６４０．５９８０．４３９ＷＥＡＣ［８］０．４０９０．６３７０．６１６０．６０７０．７４６０．７５２０．５８１０．４３９ＧＰ－ＭＧＬＡ［８］０．３９９０．６４００．６３４０．６２４０．７４７０．７５８０．６０２０．４４１３．５在不同聚类集成规模下的对比实验接下来，我们进行本文方法与其他对比方法在不同聚类集成规模（即聚类成员个数）下的对比实验。当聚类集成规模由Ｍ＝１０增长到５０时，各个聚类集成方法在１０次运行中的平均ＮＭＩ得分如图３所示。在Ｅｃｏｌｉ数据集中，ＷＣＴ方法取得了与本文方法基本相当的性能表现。除了Ｅｃｏｌｉ数据集之外，在其他７个数据集中，本文方法在不同聚类集成规模下的聚类表现均显著优于其他方法。图３的实验结果验证了本文方法在不同聚类集成规模下表现出比其他聚类集成方法更好的鲁棒性。３．６运行时间在本节中，我们进行各个聚类集成方法的运行时间对比实验。所有实验均在ＭＡＴＬＡＢ２０１４ｂ下运行，所使用的工作站配置具体如下：ＷｉｎｄｏｗｓＳｅｒｖｅｒ２００８Ｒ２６４位操作系统；英特尔八核心２．４ＧＨｚ中央处理器；９６ＧＢ内存。为求客观对比各个算法运行的ＣＰＵ时间，所有实验均在单线程模式下运行。为测试各个聚类集成算法在不同数据规模（即数据点个数）下的运行时间，本节实验在ＬＲ数据集的不同大小的子集上进行。ＬＲ数据集一共包含有２万个数据点；我们在实验中所测试的子集大小从０逐步增长至２００００。例如，当测试数据规模设定为Ｎ′∈ [０，２００００] 时，我们就随机从整个ＬＲ数据集中选取Ｎ′个数据点进行实验，并记录各个测试方法在此数据规模上的运行时间。如图４所示，当数据规模较小 ·４２２· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于决策加权的聚类集成算法编辑部