【机器学习】基于决策加权的聚类集成算法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.79MB

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.2016030 网络出版地址：http:/www.cmki.net/kcms/detail/23.1538.TP.20160513.0921.020.html 基于决策加权的聚类集成算法黄栋，王昌栋23，赖剑煌2,3，梁云1，边山，陈羽 (1.华南农业大学数学与信息学院，广东广州510640：2.中山大学数据科学与计算机学院，广东广州510006：3.广东省信息安全技术重点实验室，广东广州510006)》摘要：聚类集成的目标是融合多个聚类成员的信息以得到一个更优、更鲁棒的聚类结果。针对聚类成员可靠度估计与加权问题，提出了一个基于二部图模型与决策加权机制的聚类集成方法。在该方法中，每个聚类成员被视作一个包含若干连接决策的集合。每个聚类成员的决策集合享有一个单位的可信度，该可信度由集合内的各个决策共同分享。基于可信度分享的思想，进一步对各个聚类成员内的决策进行加权，并将此决策加权机制整合至一个统一的二部图模型：然后利用快速二部图分割算法将该图划分为若干子集，以得到最终聚类结果。实验结果表明，该方法相较于其他对比方法在聚类效果及运算效率上均表现出显著优势。关键词：聚类：聚类集成：决策加权：二部图模型：图分割：基聚类：可信度分享：加权集成中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)03-0418-08 中文引用格式：黄栋，王昌栋，赖剑煌，等.基于决策加权的聚类集成算法[J].智能系统学报，2016,11(3)：418-424. 英文引用格式：HUANG Dong,WANG Changdong,LAI Jianhuang,etal.Clustering ensemble by decision weighting[J].CAAI Transactions on Intelligent Systems,2016,11(3):418-424. Clustering ensemble by decision weighting HUANG Dong',WANG Changdong23,LAI Jianhuang2.3,LIANG Yun',BIAN Shan',CHEN Yu' (1.College of Mathematics and Informatics,South China Agricultural University,Guangzhou 510640,China;2.School of Data and Computer Science,Sun Yat-sen University,Guangzhou 510006,China;3.Guangdong Key Laboratory of Information Security Technol- ogy,Guangzhou 510006,China) Abstract:The clustering ensemble technique aims to combine multiple base clusterings to achieve better and more robust clustering results.To evaluate the reliability of the base clusterings and weight them accordingly,in this pa- per,we propose a new clustering ensemble approach based on a bipartite graph formulation and decision weighting strategy.Each base clustering is treated as a bag of decisions,and is assigned one unit of credit.This credit is shared (divided)by all the decisions in one clustering.Using the credit sharing concept,we propose weighting the decisions in the base clusterings with regard to the credit they have.Then,the clustering ensemble problem is for- mulated into a bipartite graph model that incorporates the decision weights,and the final clustering is obtained by rapidly partitioning the bipartite graph.Experimental results have demonstrated the superiority of the proposed algo- rithm in terms of both effectiveness and efficiency. Keywords:clustering;clustering ensemble;decision weighting;bipartite graph formulation;graph partitioning; base clustering;credit sharing;weighted clustering ensemble 聚类集成(clustering ensemble)的目标是融合多 ber)或者基聚类(base clustering);聚类成员可以由个聚类结果以得到一个更优的最终聚类结果[]。不同聚类算法生成，或者由一个聚类方法在不同参每一个输入聚类称为一个聚类成员(ensemble mem- 数设定下生成。聚类成员的质量（或可靠度）是影响聚类集成性能的关键因素之一。然而，在无监督收稿日期：2016-03-18.网络出版日期：2016-05-13. 设定下，现有方法大多无法自动评估聚类成员可靠基金项目：国家自然科学基金项目(61573387,61502543)：广东省自然科学基金博士启动项目(2016A030310457,2015A030310 度并据此对其加权，从而容易受到低质量聚类成员 450,2014A030310180):广东省科技计划项目(2015A0202 (甚至病态聚类成员)的负面影响。近年来，部分研 09124,2015B010108001):广州市科技计划项目(20150801 究者开始对此进行研究并提出了一些加权聚类集成 0032):中央高校基本科研业务费专项项目(161lgzd15). 通信作者：王昌栋.E-mail:changdongwang(@hotmail.com. 的方法[8，]，但是这些方法往往在集成效果和运算效率上仍有局限性。例如，文献[11]提出了一种基

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９２１．０２０．ｈｔｍｌ基于决策加权的聚类集成算法黄栋１，王昌栋２，３，赖剑煌２，３，梁云１，边山１，陈羽１（１．华南农业大学数学与信息学院，广东广州５１０６４０；２．中山大学数据科学与计算机学院，广东广州５１０００６；３．广东省信息安全技术重点实验室，广东广州５１０００６）摘要：聚类集成的目标是融合多个聚类成员的信息以得到一个更优、更鲁棒的聚类结果。针对聚类成员可靠度估计与加权问题，提出了一个基于二部图模型与决策加权机制的聚类集成方法。在该方法中，每个聚类成员被视作一个包含若干连接决策的集合。每个聚类成员的决策集合享有一个单位的可信度，该可信度由集合内的各个决策共同分享。基于可信度分享的思想，进一步对各个聚类成员内的决策进行加权，并将此决策加权机制整合至一个统一的二部图模型；然后利用快速二部图分割算法将该图划分为若干子集，以得到最终聚类结果。实验结果表明，该方法相较于其他对比方法在聚类效果及运算效率上均表现出显著优势。关键词：聚类；聚类集成；决策加权；二部图模型；图分割；基聚类；可信度分享；加权集成中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０４１８⁃０８中文引用格式：黄栋，王昌栋，赖剑煌，等．基于决策加权的聚类集成算法［Ｊ］．智能系统学报，２０１６，１１（３）：４１８⁃４２４．英文引用格式：ＨＵＡＮＧＤｏｎｇ，ＷＡＮＧＣｈａｎｇｄｏｎｇ，ＬＡＩＪｉａｎｈｕａｎｇ，ｅｔａｌ．Ｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅｂｙｄｅｃｉｓｉｏｎｗｅｉｇｈｔｉｎｇ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（３）：４１８⁃４２４．ＣｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅｂｙｄｅｃｉｓｉｏｎｗｅｉｇｈｔｉｎｇＨＵＡＮＧＤｏｎｇ１，ＷＡＮＧＣｈａｎｇｄｏｎｇ２，３，ＬＡＩＪｉａｎｈｕａｎｇ２，３，ＬＩＡＮＧＹｕｎ１，ＢＩＡＮＳｈａｎ１，ＣＨＥＮＹｕ１（１．ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＩｎｆｏｒｍａｔｉｃｓ，ＳｏｕｔｈＣｈｉｎａＡｇｒｉｃｕｌｔｕｒａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕａｎｇｚｈｏｕ５１０６４０，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＤａｔａａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＳｕｎＹａｔ⁃ｓｅｎＵｎｉｖｅｒｓｉｔｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ；３．ＧｕａｎｇｄｏｎｇＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｆｏｒｍａｔｉｏｎＳｅｃｕｒｉｔｙＴｅｃｈｎｏｌ⁃ ｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅｔｅｃｈｎｉｑｕｅａｉｍｓｔｏｃｏｍｂｉｎｅｍｕｌｔｉｐｌｅｂａｓｅｃｌｕｓｔｅｒｉｎｇｓｔｏａｃｈｉｅｖｅｂｅｔｔｅｒａｎｄｍｏｒｅｒｏｂｕｓｔｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓ．Ｔｏｅｖａｌｕａｔｅｔｈｅｒｅｌｉａｂｉｌｉｔｙｏｆｔｈｅｂａｓｅｃｌｕｓｔｅｒｉｎｇｓａｎｄｗｅｉｇｈｔｔｈｅｍａｃｃｏｒｄｉｎｇｌｙ，ｉｎｔｈｉｓｐａ⁃ ｐｅｒ，ｗｅｐｒｏｐｏｓｅａｎｅｗｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅａｐｐｒｏａｃｈｂａｓｅｄｏｎａｂｉｐａｒｔｉｔｅｇｒａｐｈｆｏｒｍｕｌａｔｉｏｎａｎｄｄｅｃｉｓｉｏｎｗｅｉｇｈｔｉｎｇｓｔｒａｔｅｇｙ．Ｅａｃｈｂａｓｅｃｌｕｓｔｅｒｉｎｇｉｓｔｒｅａｔｅｄａｓａｂａｇｏｆｄｅｃｉｓｉｏｎｓ，ａｎｄｉｓａｓｓｉｇｎｅｄｏｎｅｕｎｉｔｏｆｃｒｅｄｉｔ．Ｔｈｉｓｃｒｅｄｉｔｉｓｓｈａｒｅｄ（ｄｉｖｉｄｅｄ）ｂｙａｌｌｔｈｅｄｅｃｉｓｉｏｎｓｉｎｏｎｅｃｌｕｓｔｅｒｉｎｇ．Ｕｓｉｎｇｔｈｅｃｒｅｄｉｔｓｈａｒｉｎｇｃｏｎｃｅｐｔ，ｗｅｐｒｏｐｏｓｅｗｅｉｇｈｔｉｎｇｔｈｅｄｅｃｉｓｉｏｎｓｉｎｔｈｅｂａｓｅｃｌｕｓｔｅｒｉｎｇｓｗｉｔｈｒｅｇａｒｄｔｏｔｈｅｃｒｅｄｉｔｔｈｅｙｈａｖｅ．Ｔｈｅｎ，ｔｈｅｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅｐｒｏｂｌｅｍｉｓｆｏｒ⁃ ｍｕｌａｔｅｄｉｎｔｏａｂｉｐａｒｔｉｔｅｇｒａｐｈｍｏｄｅｌｔｈａｔｉｎｃｏｒｐｏｒａｔｅｓｔｈｅｄｅｃｉｓｉｏｎｗｅｉｇｈｔｓ，ａｎｄｔｈｅｆｉｎａｌｃｌｕｓｔｅｒｉｎｇｉｓｏｂｔａｉｎｅｄｂｙｒａｐｉｄｌｙｐａｒｔｉｔｉｏｎｉｎｇｔｈｅｂｉｐａｒｔｉｔｅｇｒａｐｈ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｈａｖｅｄｅｍｏｎｓｔｒａｔｅｄｔｈｅｓｕｐｅｒｉｏｒｉｔｙｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏ⁃ ｒｉｔｈｍｉｎｔｅｒｍｓｏｆｂｏｔｈｅｆｆｅｃｔｉｖｅｎｅｓｓａｎｄｅｆｆｉｃｉｅｎｃｙ．Ｋｅｙｗｏｒｄｓ：ｃｌｕｓｔｅｒｉｎｇ；ｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅ；ｄｅｃｉｓｉｏｎｗｅｉｇｈｔｉｎｇ；ｂｉｐａｒｔｉｔｅｇｒａｐｈｆｏｒｍｕｌａｔｉｏｎ；ｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇ；ｂａｓｅｃｌｕｓｔｅｒｉｎｇ；ｃｒｅｄｉｔｓｈａｒｉｎｇ；ｗｅｉｇｈｔｅｄｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅ收稿日期：２０１６⁃０３⁃１８．网络出版日期：２０１６⁃０５⁃１３基金项目：国家自然科学基金项目（６１５７３３８７，６１５０聚类集成（ｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅ）的目标是通信作者：王昌栋．Ｅ⁃ｍａｉｌ：ｃｈａｎｇｄｏｎｇｗａｎｇ＠ｈｏｔｍａｉｌ．ｃｏｍ．融合多个聚类结果以得到一个更优的最终聚类结果［１⁃１０］。每一个输入聚类称为一个聚类成员（ｅｎｓｅｍｂｌｅｍｅｍ⁃ ｂｅｒ）或者基聚类（ｂａｓｅｃｌｕｓｔｅｒｉｎｇ）；聚类成员可以由不同聚类算法生成，或者由一个聚类方法在不同参数设定下生成。聚类成员的质量（或可靠度）是影响聚类集成性能的关键因素之一。然而，在无监督设定下，现有方法大多无法自动评估聚类成员可靠度并据此对其加权，从而容易受到低质量聚类成员（甚至病态聚类成员）的负面影响。近年来，部分研究者开始对此进行研究并提出了一些加权聚类集成的方法［８，１１］，但是这些方法往往在集成效果和运算效率上仍有局限性。例如，文献［１１］提出了一种基．２５４３）；广东省自然科学基金博士启动项目(2016A030310457,2015A030310 450,2014A030310180)；广东省科技计划项目(2015A0202 09124,2015B010108001)；广州市科技计划项目(20150801 0032)；中央高校基本科研业务费专项项目(16lgzd15)

第3期黄栋，等：基于决策加权的聚类集成算法 419· 于非负矩阵分解的加权聚类集成方法，但该方法的 2-D串编码的一致性度量，并利用0-1半正定规划非负矩阵分解过程运算负担非常大，基本无法应用来最大化此一致性度量，以得到中心聚类。于大数据集；文献[8]提出了一种基于归一化群体尽管国内外研究者已经提出了许多聚类集成算认可度指标的加权聚类集成方法，但较高的计算复法「]，但这些算法大都将各个聚类成员同等对待，杂度也是限制其更广泛应用的一个重要障碍。在当缺乏对聚类成员进行可靠度估计及加权的能力，容前聚类集成研究中，如何高效地对聚类成员的可靠易受低质量聚类成员（甚至病态聚类成员）的负面度进行评估并加权集成，仍是一个非常具有挑战性影响。针对此问题，近年来有研究者提出了一些解的问题。决方法[8，。文献[11]提出了一种基于非负矩阵针对此问题，本文提出了一种基于二部图构造分解的加权聚类集成方法，在该方法的优化过程中，和决策加权机制的聚类集成算法。我们将每个聚类可对各聚类成员的可靠度进行估计并加权：但是，该成员视作一个包含若干连接决策的集合。每个聚类方法的非负矩阵分解过程的耗时非常大，使其无法成员的决策集合享有一个单位的可信度，该可信度应用于较大数据集。文献[8]利用归一化群体认可由集合内的各个决策共同分享。进一步，我们根据度指标对各个聚类成员的可靠度进行估计，并进而每个聚类成员的每个决策分享得到的可信度进行加提出了两个加权聚类集成算法；但是归一化群体认权，并将之整合至一个二部图模型，进而利用快速二可度指标的计算复杂度较高，使其难以适用于大规部图分割算法将该图划分为若干块以得到最终聚类模数据的聚类集成问题。在当前聚类集成研究中，结果。我们将本文方法及多个对比方法在8个实际如何有效地、高效地估计聚类成员可靠度并据此加数据集上进行实验分析，实验结果表明，本文方法相权集成，进而提高聚类集成性能，仍是一个亟待解决较于其他对比方法在聚类集成效果及运算效率上均的挑战性问题。表现出显著优势。 2基于决策加权的聚类集成算法 1相关研究 2.1问题建模现有的聚类集成方法，主要可以分为3类：1) 给定一个数据集X={x1,x2,…,xN},其中x:表基于点对相似性的方法[]：2)基于图分割的方示X中的第i个数据点，N表示X中数据点的个数。法1.)；3)基于中心聚类的方法[2,6。令Ⅱ表示一个包含M个聚类成员的集合，记作基于点对相似性的方法[4，)根据数据点与数据 Ⅱ={π，π2，…，m“} 点之间在多个聚类成员中属于相同簇的频率来得到式中π"表示聚类集合Ⅱ中的第m个聚类成员。每一个共联矩阵，并以该共联矩阵作为相似性矩阵，进一个聚类成员是对数据集X的一个聚类结果，各个而采用层次聚类方法得到最终聚类结果。文献[4] 聚类成员可以由不同聚类算法得到，或者由一个聚最早提出共联矩阵的概念，并提出了线索集聚聚类类算法在不同初始化和参数设置下运行得到。每个 (evidence accumulation clustering,EAC)方法。文献聚类成员包含若干个簇，记作 [5]对EAC方法进行扩展，将簇的大小加入考虑， Tm={C,Cg,…,Cm} 提出了概率集聚算法。式中：C表示聚类成员πm中的第i个簇，n表示π” 基于图分割的方法1，)首先根据聚类集成信息中簇的个数。每个簇是一个包含若干数据点的集构造一个图结构，再利用图分割算法将图划分为若合。根据聚类的性质可知，一个聚类成员内所有簇干块，进而得到最终的聚类集成结果。文献[1]将的并集，就是整个数据集，即：U,C=X;同一个聚聚类集成中的每一个簇视作一条超边，构造得到一类内的任意两个簇之间的交集为空集，即：Vi≠，个超图结构，进而可使用METS算法[2或Ncut算 C∩C=。将全体聚类成员的簇的集合表示为法[]将其分割为若干块，以得到最终聚类结果。 C={C1,C2,…,CN} 基于中心聚类的方法[2，将聚类集成问题建模式中：C,表示集合C中的第i个簇，N,表示集合C中为一个最优化问题，其优化目标是寻找一个与所有制聚类成员的相似性最大化的聚类结果。中心聚类问 n"。簇的总数。由其定义可知N= 题是一个NP难问题，因而在全局聚类空间寻找聚类集成的目标是将聚类集合Ⅱ中各聚类成员最优解对于较大的数据集是几乎不可行的。针对此的信息融合得到一个更优、更鲁棒的聚类结果。根据问题，文献[2]将聚类表示为染色体，并提出利用遗输入信息的不同，聚类集成问题主要有2种不同的建传算法求得一个近似解。文献[6]提出一种基于模方式：第1种建模方式同时以聚类集合Π和数据集

于非负矩阵分解的加权聚类集成方法，但该方法的非负矩阵分解过程运算负担非常大，基本无法应用于大数据集；文献［８］提出了一种基于归一化群体认可度指标的加权聚类集成方法，但较高的计算复杂度也是限制其更广泛应用的一个重要障碍。在当前聚类集成研究中，如何高效地对聚类成员的可靠度进行评估并加权集成，仍是一个非常具有挑战性的问题。针对此问题，本文提出了一种基于二部图构造和决策加权机制的聚类集成算法。我们将每个聚类成员视作一个包含若干连接决策的集合。每个聚类成员的决策集合享有一个单位的可信度，该可信度由集合内的各个决策共同分享。进一步，我们根据每个聚类成员的每个决策分享得到的可信度进行加权，并将之整合至一个二部图模型，进而利用快速二部图分割算法将该图划分为若干块以得到最终聚类结果。我们将本文方法及多个对比方法在８个实际数据集上进行实验分析，实验结果表明，本文方法相较于其他对比方法在聚类集成效果及运算效率上均表现出显著优势。１相关研究现有的聚类集成方法，主要可以分为３类：１）基于点对相似性的方法［４⁃５］；２）基于图分割的方法［１，３］；３）基于中心聚类的方法［２，６］。基于点对相似性的方法［４，５］根据数据点与数据点之间在多个聚类成员中属于相同簇的频率来得到一个共联矩阵，并以该共联矩阵作为相似性矩阵，进而采用层次聚类方法得到最终聚类结果。文献［４］最早提出共联矩阵的概念，并提出了线索集聚聚类（ｅｖｉｄｅｎｃｅａｃｃｕｍｕｌａｔｉｏｎｃｌｕｓｔｅｒｉｎｇ，ＥＡＣ）方法。文献［５］对ＥＡＣ方法进行扩展，将簇的大小加入考虑，提出了概率集聚算法。基于图分割的方法［１，３］首先根据聚类集成信息构造一个图结构，再利用图分割算法将图划分为若干块，进而得到最终的聚类集成结果。文献［１］将聚类集成中的每一个簇视作一条超边，构造得到一个超图结构，进而可使用ＭＥＴＩＳ算法［１２］或Ｎｃｕｔ算法［１３］将其分割为若干块，以得到最终聚类结果。基于中心聚类的方法［２，６］将聚类集成问题建模为一个最优化问题，其优化目标是寻找一个与所有聚类成员的相似性最大化的聚类结果。中心聚类问题是一个ＮＰ难问题［１４］，因而在全局聚类空间寻找最优解对于较大的数据集是几乎不可行的。针对此问题，文献［２］将聚类表示为染色体，并提出利用遗传算法求得一个近似解。文献［６］提出一种基于２⁃Ｄ串编码的一致性度量，并利用０－１半正定规划来最大化此一致性度量，以得到中心聚类。尽管国内外研究者已经提出了许多聚类集成算法［１⁃６］，但这些算法大都将各个聚类成员同等对待，缺乏对聚类成员进行可靠度估计及加权的能力，容易受低质量聚类成员（甚至病态聚类成员）的负面影响。针对此问题，近年来有研究者提出了一些解决方法［８，１１］。文献［１１］提出了一种基于非负矩阵分解的加权聚类集成方法，在该方法的优化过程中，可对各聚类成员的可靠度进行估计并加权；但是，该方法的非负矩阵分解过程的耗时非常大，使其无法应用于较大数据集。文献［８］利用归一化群体认可度指标对各个聚类成员的可靠度进行估计，并进而提出了两个加权聚类集成算法；但是归一化群体认可度指标的计算复杂度较高，使其难以适用于大规模数据的聚类集成问题。在当前聚类集成研究中，如何有效地、高效地估计聚类成员可靠度并据此加权集成，进而提高聚类集成性能，仍是一个亟待解决的挑战性问题。２基于决策加权的聚类集成算法２．１问题建模给定一个数据集Ｘ＝ｘ１，ｘ２，…，ｘＮ { } ，其中ｘｉ表示Ｘ中的第ｉ个数据点，Ｎ表示Ｘ中数据点的个数。令 Π 表示一个包含Ｍ个聚类成员的集合，记作 Π ＝ π １，π ２，…，π Ｍ { } 式中 π ｍ表示聚类集合 Π 中的第ｍ个聚类成员。每一个聚类成员是对数据集Ｘ的一个聚类结果，各个聚类成员可以由不同聚类算法得到，或者由一个聚类算法在不同初始化和参数设置下运行得到。每个聚类成员包含若干个簇，记作 π ｍ＝Ｃｍ１，Ｃｍ２，…，Ｃｍ { ｎｍ} 式中：Ｃｍｉ表示聚类成员π ｍ中的第ｉ个簇，ｎｍ表示π ｍ中簇的个数。每个簇是一个包含若干数据点的集合。根据聚类的性质可知，一个聚类成员内所有簇的并集，就是整个数据集，即：∪ｎｍｉ＝１Ｃｍｉ＝Ｘ；同一个聚类内的任意两个簇之间的交集为空集，即：∀ｉ ≠ ｊ，Ｃｍｉ ∩ Ｃｍｊ＝。将全体聚类成员的簇的集合表示为Ｃ＝Ｃ１，Ｃ２，…，ＣＮｃ { } 式中：Ｃｉ表示集合Ｃ中的第ｉ个簇，Ｎｃ表示集合Ｃ中簇的总数。由其定义可知Ｎｃ＝ ∑ Ｍｍ＝１ｎｍ。聚类集成的目标是将聚类集合 Π 中各聚类成员的信息融合得到一个更优、更鲁棒的聚类结果。根据输入信息的不同，聚类集成问题主要有２种不同的建模方式：第１种建模方式同时以聚类集合 Π 和数据集第３期黄栋，等：基于决策加权的聚类集成算法 ·４１９·

·420· 智能系统学报第11卷 X作为输入信息[s):第2种建模方式则只以聚类集论的直观理解在于，若一个聚类成员作出的连接决合Ⅱ为输入信息，而不需要访问数据集X中的数据策数量越小（即越稀有），则其正确率往往越高（即特征o。两种建模方式的区别就在于除聚类成员越宝贵)：若其连接决策数量越大，则其决策出错的的信息之外是否可访问原始数据特征。在聚类集成比例往往越高。当一个聚类成员将全体数据点都归研究中，第2种建模方式对原始数据的依赖度更低，入同一个簇时，其连接决策数达到最大值，此时该聚亦被更广泛采用o]:本文的聚类集成研究按照第2 类成员的连接决策失去意义。种建模方式进行，即以聚类集合Ⅱ为输入，不要求访 0.8 问原始数据特征，依此得到最终聚类结果π‘。 2.2决策加权 0.7 在聚类集成问题中，每一个聚类成员可以视作是一个包含若干个连接决策的集合。如果数据点x: 0.6 和x在聚类成员πm中被划分在同一个簇，那么我 0.5 们称m对xi和x作出了一个连接决策，由此可得一个簇C∈π"所作出的连接决策的数量为 0.4 (1-1C|)1Cg 米 #Decisions(Cπ)= 2 0.3 0 0.5 1.015 20*10 式中C表示簇C中数据点的个数。进而，可得聚 #Decisions 类成员π"所作出的连接决策的数量，即为π中所有图1对于MNST数据集，各聚类成员的连接决策数与簇的连接决策数之和：正确决策率之间的关系 Fig.1 The relation between #Decisions and RatioCD #Decisions(πm)= ∑#Decisions(C) (1) for the MNIST dataset k= 每个聚类成员包含一定数量的连接决策：聚类一个聚类成员的正确决策率，是其对于数据点两成员的可靠度估计与加权问题，可视作是对聚类成两之间处于同一个簇的判断的正确比例，可视作该聚员连接决策的可靠度估计与加权问题。我们在实例类成员的可靠度。由于聚类决策数与可靠度的负相研究中发现，聚类成员的可靠度与其连接决策总数关关系，为减小低可靠度决策的不良影响以提高聚类存在显著的负相关关系。集成鲁棒性，一个可行策略是采取权值与聚类决策数具体地，我们以MNIST数据集[1)为例。该数负相关的加权集成方案。在本文中，我们对每个聚类据集包含5000个数据点。我们使用k均值聚类算成员分配一个单位的可信度，该可信度由聚类成员内法为该数据集生成100个聚类成员，每次生成均采的全体决策共同分享。那么，聚类成员π"中每个连用随机聚类个数及随机初始化。如果两个数据点x: 接决策分享到的可信度是l/#Decisions(πm)个单位。和x:在聚类成员πm中被划分在同一个簇，并且这根据各个聚类成员中连接决策的平均可信度对其加两个数据点在MNIST数据集的真实类别中也属于权，则聚类成员πm的权值计算公式为同一个类，那么称聚类成员πm对数据点x:和x作 1 出了一个正确决策，并将π"作出的正确决策的数花（πm)= #Decisions(m) 量记作#CorrectDecisions(πm)。我们将聚类成员m" 1 作出的所有连接决策中正确决策所占的比例，称为 #Decisions( 正确决策率，记作RatioCD(πm),计算公式为进而可得： RatioCD(#CorrectDecisions() 1 (2) 10(πm)= #Decisions(π") 图1显示了MNIST数据集的1O0个聚类成员 Deciston(r)∑Decision( 的连接决策数与正确决策率之间的关系。对每一个 (3) 聚类成员，根据式(1)计算其连接决策数，根据式由定义可知，全体聚类成员的权值之和为1，即 (2)计算其正确决策率，从而在图1中描出对应的 (r）=1 坐标点。由图1可以看到，聚类成员的连接决策数 m=1 与其正确决策率存在显著的负相关关系。此实验结 2.3二部图构造与聚类集成在聚类成员可靠度分析与权值分配的基础上

Ｘ作为输入信息［１５⁃１７］；第２种建模方式则只以聚类集合 Π 为输入信息，而不需要访问数据集Ｘ中的数据特征［１⁃１０］。两种建模方式的区别就在于除聚类成员的信息之外是否可访问原始数据特征。在聚类集成研究中，第２种建模方式对原始数据的依赖度更低，亦被更广泛采用［１⁃１０］；本文的聚类集成研究按照第２种建模方式进行，即以聚类集合 Π 为输入，不要求访问原始数据特征，依此得到最终聚类结果π ∗ 。２．２决策加权在聚类集成问题中，每一个聚类成员可以视作是一个包含若干个连接决策的集合。如果数据点ｘｉ和ｘｊ在聚类成员 π ｍ中被划分在同一个簇，那么我们称 πｍ对ｘｉ和ｘｊ作出了一个连接决策，由此可得一个簇Ｃｍｋ ∈π ｍ所作出的连接决策的数量为＃Ｄｅｃｉｓｉｏｎｓ（Ｃｍｋ）＝（１－Ｃｍｋ）Ｃｍｋ２式中Ｃｍｋ表示簇Ｃｍｋ中数据点的个数。进而，可得聚类成员π ｍ所作出的连接决策的数量，即为π ｍ中所有簇的连接决策数之和：＃Ｄｅｃｉｓｉｏｎｓ（π ｍ）＝ ∑ ｎｍｋ＝１＃Ｄｅｃｉｓｉｏｎｓ（Ｃｍｋ）（１）每个聚类成员包含一定数量的连接决策；聚类成员的可靠度估计与加权问题，可视作是对聚类成员连接决策的可靠度估计与加权问题。我们在实例研究中发现，聚类成员的可靠度与其连接决策总数存在显著的负相关关系。具体地，我们以ＭＮＩＳＴ数据集［１８］为例。该数据集包含５０００个数据点。我们使用ｋ均值聚类算法为该数据集生成１００个聚类成员，每次生成均采用随机聚类个数及随机初始化。如果两个数据点ｘｉ和ｘｊ在聚类成员 π ｍ中被划分在同一个簇，并且这两个数据点在ＭＮＩＳＴ数据集的真实类别中也属于同一个类，那么称聚类成员 π ｍ对数据点ｘｉ和ｘｊ作出了一个正确决策，并将 π ｍ作出的正确决策的数量记作＃ＣｏｒｒｅｃｔＤｅｃｉｓｉｏｎｓ（π ｍ）。我们将聚类成员 π ｍ作出的所有连接决策中正确决策所占的比例，称为正确决策率，记作ＲａｔｉｏＣＤ（π ｍ），计算公式为ＲａｔｉｏＣＤ π ｍ ( ) ＝＃ＣｏｒｒｅｃｔＤｅｃｉｓｉｏｎｓ（π ｍ）＃Ｄｅｃｉｓｉｏｎｓ（π ｍ）（２）图１显示了ＭＮＩＳＴ数据集的１００个聚类成员的连接决策数与正确决策率之间的关系。对每一个聚类成员，根据式（１）计算其连接决策数，根据式（２）计算其正确决策率，从而在图１中描出对应的坐标点。由图１可以看到，聚类成员的连接决策数与其正确决策率存在显著的负相关关系。此实验结论的直观理解在于，若一个聚类成员作出的连接决策数量越小（即越稀有），则其正确率往往越高（即越宝贵）；若其连接决策数量越大，则其决策出错的比例往往越高。当一个聚类成员将全体数据点都归入同一个簇时，其连接决策数达到最大值，此时该聚类成员的连接决策失去意义。图１对于ＭＮＩＳＴ数据集，各聚类成员的连接决策数与正确决策率之间的关系Ｆｉｇ．１Ｔｈｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎ＃ＤｅｃｉｓｉｏｎｓａｎｄＲａｔｉｏＣＤｆｏｒｔｈｅＭＮＩＳＴｄａｔａｓｅｔ一个聚类成员的正确决策率，是其对于数据点两两之间处于同一个簇的判断的正确比例，可视作该聚类成员的可靠度。由于聚类决策数与可靠度的负相关关系，为减小低可靠度决策的不良影响以提高聚类集成鲁棒性，一个可行策略是采取权值与聚类决策数负相关的加权集成方案。在本文中，我们对每个聚类成员分配一个单位的可信度，该可信度由聚类成员内的全体决策共同分享。那么，聚类成员π ｍ中每个连接决策分享到的可信度是１／＃Ｄｅｃｉｓｉｏｎｓ（π ｍ）个单位。根据各个聚类成员中连接决策的平均可信度对其加权，则聚类成员 π ｍ的权值计算公式为ｗ π ｍ ( ) ＝１＃Ｄｅｃｉｓｉｏｎｓ（π ｍ） ∑ Ｍｋ＝１１＃Ｄｅｃｉｓｉｏｎｓ（π ｋ）进而可得：ｗ π ｍ ( ) ＝１＃Ｄｅｃｉｓｉｏｎｓ（π ｍ）∑ Ｍｋ＝１１＃Ｄｅｃｉｓｉｏｎｓ（π ｋ）（３）由定义可知，全体聚类成员的权值之和为１，即 ∑ Ｍｍ＝１ｗ π ｍ ( ) ＝１２．３二部图构造与聚类集成在聚类成员可靠度分析与权值分配的基础上， ·４２０· 智能系统学报第１１卷

第3期黄栋，等：基于决策加权的聚类集成算法 ·421· 我们将进一步将聚类集成问题构造为一个二部图模是Glass、Ecoli、Image Segmentation(IS)、MNIST 型。在所构造的二部图模型中，聚类集合中各个聚 ISOLET、Pen Digits(PD)、USPS以及Letter Recog- 类成员的簇与数据点同时作为节点。簇节点与簇节 nition(LR)。其中，除MNIST数据集来自于文献点之间不存在连接边：数据点节点与数据点节点之 [18]之外，其他7个数据集均来自于UCI机器学习间亦不存在连接边。两个节点之间存在连接边，当数据仓库(UCI machine learning repository)【o。所且仅当其中一个节点是数据点节点，另一个节点是用的测试数据集的具体情况如表1所示。簇节点，并且该数据点位于该簇之内。边的权值由表1实验数据集该簇所在的聚类成员的权值决定（见式(3）)。由 Table 1 Description of datasets 此，可得到一个二部图结构，其左部为数据点节点的数据集数据点数维度类别数集合，右部为簇节点的集合。我们将该二部图结构 Glass 214 9 7 表示为 Ecoli 336 7 8 G=(U,V,E) 9 2310 19 7 式中：U=X表示左部节点集（数据点集合），V=C表示右部节点集（簇集合），E表示边的集合。给定两 MNIST 5000 784 10 个节点u,和v,两者之间的边的权值定义为 ISOLET 7797 617 26 (w(T()), :∈X,y∈C,4:∈ PD 10992 16 10 e= 0. 否则 USPS 11000 256 10 式中：π(e)表示簇U所在的聚类成员，即如果巴∈ LR 20000 16 26 π，则T(u)=π。 3.2实验设置与评价指标接下来，利用图G的二部图结构，我们采用在本文实验中，我们首先需要生成一个包含若 Tcut算法[1将图G快速地分割为若千块，进而将每干聚类成员的聚类集合，以对比分析本文方法以及一块中数据点集合作为最终聚类的一个簇，由此可其他聚类集成方法的聚类效果。具体地，我们在每以得到最终聚类结果。一次运行中使用k均值聚类算法生成M个聚类成 2.4时间复杂度员，每一个聚类成员的生成均采用随机初始化，并在第2.3节所构造的二部图G包含有N+N。个节区间[2，√厅]中随机选取初始聚类个数k。对于点，其中N是数据点个数，Nc是簇个数。如果使用每一个方法在每一个数据集上的实验，我们均运行经典的Ncut算法[9)对图G进行分割，其时间复杂 10次（每次使用随机生成的聚类集合，如前所述），度是O(k(N+N)32),其中k是图分割的块数。与然后得到各个方法的平均性能得分，以实现客观公之相比，本文采用的Tcut算法[9)可利用图G的二平的对比与分析。部图结构，进行快速图分割，其时间复杂度是我们将聚类成员个数M称为聚类集成规模：将 O(kWN+kN2):考虑式(3)中权值计算的复杂度是数据集的数据点数N称为数据规模。在后续实验 O(N),故本文总体算法的时间复杂度即是中，我们首先固定聚类集成规模M=10,接下来分别 O(kW+kN)。由于在实际聚类问题中数据点个进行本文方法与聚类成员以及与其他聚类集成方法数N通常远大于簇个数N。,因此使用Tcut算法相当的对比实验，并进一步测试在不同聚类集成规模M 于可使时间复杂度由O(kN2)降低至O(kN)。当下各个聚类集成方法的聚类表现。最后，将对比测面对大数据集时，本文算法在运算效率上的优势尤试各个聚类集成方法的运算效率。在本文实验中，其显著；在本文后续的对比实验中，本文聚类集成算采用标准互信息量(normalized mutual information, 法相比于现有算法的效率优势也得到了验证。 NMI)山作为评价指标。NMI可根据两个聚类之间 3 实验结果与分析的互信息量来度量其相似性，是聚类研究中被广泛应用的一个评价指标。一个聚类结果（与真实聚类在本节中，我们将在多个实际数据集中进行实比较)的NMI值越大，则表示其聚类质量越好。验，与若干现有聚类集成算法进行对比分析，以验证 3.3与聚类成员的对比实验本文方法的有效性及运算效率。聚类集成的目标是融合多个聚类成员的信息以 3.1数据集期得到一个更优聚类。在本节中，我们将本文方法本文的实验一共使用了8个实际数据集，分别的聚类集成结果，与聚类成员进行对比实验。在每

我们将进一步将聚类集成问题构造为一个二部图模型。在所构造的二部图模型中，聚类集合中各个聚类成员的簇与数据点同时作为节点。簇节点与簇节点之间不存在连接边；数据点节点与数据点节点之间亦不存在连接边。两个节点之间存在连接边，当且仅当其中一个节点是数据点节点，另一个节点是簇节点，并且该数据点位于该簇之内。边的权值由该簇所在的聚类成员的权值决定（见式（３））。由此，可得到一个二部图结构，其左部为数据点节点的集合，右部为簇节点的集合。我们将该二部图结构表示为Ｇ＝（Ｕ，Ｖ，Ｅ）式中：Ｕ＝Ｘ表示左部节点集（数据点集合），Ｖ＝Ｃ表示右部节点集（簇集合），Ｅ表示边的集合。给定两个节点ｕｉ和ｖｊ，两者之间的边的权值定义为ｅｉｊ＝ｗ π ｖｊ ( ( ) ) ，ｕｉ ∈ Ｘ，ｖｊ ∈ Ｃ，ｕｉ ∈ ｖｊ {０，否则式中：π ｖｊ ( ) 表示簇ｖｊ所在的聚类成员，即如果ｖｊ ∈ π ｍ，则 π ｖｊ ( ) ＝π ｍ。接下来，利用图Ｇ的二部图结构，我们采用Ｔｃｕｔ算法［１９］将图Ｇ快速地分割为若干块，进而将每一块中数据点集合作为最终聚类的一个簇，由此可以得到最终聚类结果。２．４时间复杂度第２．３节所构造的二部图Ｇ包含有Ｎ＋Ｎｃ个节点，其中Ｎ是数据点个数，Ｎｃ是簇个数。如果使用经典的Ｎｃｕｔ算法［１９］对图Ｇ进行分割，其时间复杂度是ＯｋＮ＋Ｎｃ ( ) ３／２ ( ) ，其中ｋ是图分割的块数。与之相比，本文采用的Ｔｃｕｔ算法［１９］可利用图Ｇ的二部图结构，进行快速图分割，其时间复杂度是ＯｋＮ＋ｋＮｃ３／２ ( ) ；考虑式（３）中权值计算的复杂度是Ｏ (Ｎ) ，故本文总体算法的时间复杂度即是ＯｋＮ＋ｋＮｃ３／２ ( ) 。由于在实际聚类问题中数据点个数Ｎ通常远大于簇个数Ｎｃ，因此使用Ｔｃｕｔ算法相当于可使时间复杂度由ＯｋＮ３／２ ( ) 降低至Ｏ(ｋＮ) 。当面对大数据集时，本文算法在运算效率上的优势尤其显著；在本文后续的对比实验中，本文聚类集成算法相比于现有算法的效率优势也得到了验证。３实验结果与分析在本节中，我们将在多个实际数据集中进行实验，与若干现有聚类集成算法进行对比分析，以验证本文方法的有效性及运算效率。３．１数据集本文的实验一共使用了８个实际数据集，分别是Ｇｌａｓｓ、Ｅｃｏｌｉ、ＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ（ＩＳ）、ＭＮＩＳＴ、ＩＳＯＬＥＴ、ＰｅｎＤｉｇｉｔｓ（ＰＤ）、ＵＳＰＳ以及ＬｅｔｔｅｒＲｅｃｏｇ⁃ ｎｉｔｉｏｎ（ＬＲ）。其中，除ＭＮＩＳＴ数据集来自于文献［１８］之外，其他７个数据集均来自于ＵＣＩ机器学习数据仓库（ＵＣＩｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｐｏｓｉｔｏｒｙ）［２０］。所用的测试数据集的具体情况如表１所示。表１实验数据集Ｔａｂｌｅ１Ｄｅｓｃｒｉｐｔｉｏｎｏｆｄａｔａｓｅｔｓ数据集数据点数维度类别数Ｇｌａｓｓ２１４９７Ｅｃｏｌｉ３３６７８ＩＳ２３１０１９７ＭＮＩＳＴ５０００７８４１０ＩＳＯＬＥＴ７７９７６１７２６ＰＤ１０９９２１６１０ＵＳＰＳ１１０００２５６１０ＬＲ２００００１６２６３．２实验设置与评价指标在本文实验中，我们首先需要生成一个包含若干聚类成员的聚类集合，以对比分析本文方法以及其他聚类集成方法的聚类效果。具体地，我们在每一次运行中使用ｋ均值聚类算法生成Ｍ个聚类成员，每一个聚类成员的生成均采用随机初始化，并在区间 [２，Ｎ ] 中随机选取初始聚类个数ｋ。对于每一个方法在每一个数据集上的实验，我们均运行１０次（每次使用随机生成的聚类集合，如前所述），然后得到各个方法的平均性能得分，以实现客观公平的对比与分析。我们将聚类成员个数Ｍ称为聚类集成规模；将数据集的数据点数Ｎ称为数据规模。在后续实验中，我们首先固定聚类集成规模Ｍ＝１０，接下来分别进行本文方法与聚类成员以及与其他聚类集成方法的对比实验，并进一步测试在不同聚类集成规模Ｍ下各个聚类集成方法的聚类表现。最后，将对比测试各个聚类集成方法的运算效率。在本文实验中，采用标准互信息量（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＮＭＩ）［１］作为评价指标。ＮＭＩ可根据两个聚类之间的互信息量来度量其相似性，是聚类研究中被广泛应用的一个评价指标。一个聚类结果（与真实聚类比较）的ＮＭＩ值越大，则表示其聚类质量越好。３．３与聚类成员的对比实验聚类集成的目标是融合多个聚类成员的信息以期得到一个更优聚类。在本节中，我们将本文方法的聚类集成结果，与聚类成员进行对比实验。在每第３期黄栋，等：基于决策加权的聚类集成算法 ·４２１·

.422 智能系统学报第11卷个数据集上均测试10次：每次测试均随机生成一个 USPS等数据集，本文方法相较聚类成员优势更包含M个聚类成员的聚类集合，然后在此聚类集合显著。上运行本文算法以得到一个集成聚类结果。由此， 3.4聚类集成方法的对比实验得到本文方法在10次运行测试中的平均表现以及本节将所提出方法与6个现有的聚类集成方法聚类成员的平均表现（以NMI度量）。如图2所示。进行对比实验。这6个对比方法分别是evidence accumulation clustering (EAC)hybrid bipartite 0.9 本文方法 graph formulation (HBGF)SimRank similarity 0.8 口聚类成员 based method (SRS)weighted connected triple 0.7 based method(WCT)[2],weighted evidence accumula- 0.6 tion clustering(WEAC)sgraph partitioning with multi-granularity link analysis(GP-MGLA)[8] 0.5 在每一个数据集中，每个聚类集成方法均运行 0.4 10次，每次运行根据第3.2节所述随机生成聚类成 0.3 员，进而得到每个算法在每个数据集的平均NMI得 0.2 分及其标准差。在表2中，在每一个数据集中，最高 Glass Ecoli IS MNISTISOLETPD USPS LR NM得分以粗体显示。如表2所示，本文方法在8 个数据集上均取得了优于其他聚类集成方法的聚类图2本文方法与聚类成员的性能对比 Fig.2 Comparison between our method and the base 效果，特别是在Glass、MNIST和USPS数据集上，本 clusterings 文方法取得的平均NMI得分比其他方法高出10% 本文方法可取得比聚类成员更好的聚类结果：左右。表2的对比实验结果验证了本文方法在聚类尤其是在Glass、Ecoli、IS、MNIST、PD、集成效果上的优势。表2本文方法与其他聚类集成方法的对比实验 Table 2 The average performances of different methods 测试方法 Glass Ecoli IS MNIST ISOLET PD USPS LR 本文方法 0.463 0.682 0.641 0.653 0.756 0.787 0.632 0.454 EACt4] 0.418 0.640 0.618 0.592 0.746 0.747 0.580 0.435 HBGF ( 0.397 0.635 0.624 0.609 0.747 0.757 0.588 0.441 SRS [21] 0.423 0.632 0.623 0.594 0.747 0.755 0.593 0.436 WCT [z) 0.434 0.678 0.623 0.627 0.752 0.764 0.598 0.439 WEAC [s] 0.409 0.637 0.616 0.607 0.746 0.752 0.581 0.439 GP-MGLA[8) 0.399 0.640 0.634 0.624 0.747 0.758 0.602 0.441 3.5在不同聚类集成规模下的对比实验间对比实验。所有实验均在MATLAB2014h下运行，接下来，我们进行本文方法与其他对比方法在不所使用的工作站配置具体如下：Windows Server2008 同聚类集成规模（即聚类成员个数）下的对比实验。R264位操作系统：英特尔八核心2.4GHz中央处理当聚类集成规模由M=10增长到50时，各个聚类集器：96GB内存。为求客观对比各个算法运行的CPU 成方法在10次运行中的平均NM得分如图3所示。时间，所有实验均在单线程模式下运行。在Ecoli数据集中，WCT方法取得了与本文方法基本为测试各个聚类集成算法在不同数据规模（即相当的性能表现。除了Ecoi数据集之外，在其他7数据点个数)下的运行时间，本节实验在LR数据集个数据集中，本文方法在不同聚类集成规模下的聚类的不同大小的子集上进行。LR数据集一共包含有2 表现均显著优于其他方法。图3的实验结果验证了万个数据点：我们在实验中所测试的子集大小从0逐本文方法在不同聚类集成规模下表现出比其他聚类步增长至20000。例如，当测试数据规模设定为W'∈ 集成方法更好的鲁棒性。 [0,20000]时，我们就随机从整个LR数据集中选取 3.6运行时间 N'个数据点进行实验，并记录各个测试方法在此数据在本节中，我们进行各个聚类集成方法的运行时规模上的运行时间。如图4所示，当数据规模较小

个数据集上均测试１０次；每次测试均随机生成一个包含Ｍ个聚类成员的聚类集合，然后在此聚类集合上运行本文算法以得到一个集成聚类结果。由此，得到本文方法在１０次运行测试中的平均表现以及聚类成员的平均表现（以ＮＭＩ度量）。如图２所示。图２本文方法与聚类成员的性能对比Ｆｉｇ．２Ｃｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎｏｕｒｍｅｔｈｏｄａｎｄｔｈｅｂａｓｅｃｌｕｓｔｅｒｉｎｇｓ本文方法可取得比聚类成员更好的聚类结果；尤其是在Ｇｌａｓｓ、Ｅｃｏｌｉ、ＩＳ、ＭＮＩＳＴ、ＰＤ、ＵＳＰＳ等数据集，本文方法相较聚类成员优势更显著。３．４聚类集成方法的对比实验本节将所提出方法与６个现有的聚类集成方法进行对比实验。这６个对比方法分别是ｅｖｉｄｅｎｃｅａｃｃｕｍｕｌａｔｉｏｎｃｌｕｓｔｅｒｉｎｇ（ＥＡＣ）［４］、ｈｙｂｒｉｄｂｉｐａｒｔｉｔｅｇｒａｐｈｆｏｒｍｕｌａｔｉｏｎ（ＨＢＧＦ）［３］、ＳｉｍＲａｎｋｓｉｍｉｌａｒｉｔｙｂａｓｅｄｍｅｔｈｏｄ（ＳＲＳ）［２１］、ｗｅｉｇｈｔｅｄｃｏｎｎｅｃｔｅｄｔｒｉｐｌｅｂａｓｅｄｍｅｔｈｏｄ（ＷＣＴ）［２２］、ｗｅｉｇｈｔｅｄｅｖｉｄｅｎｃｅａｃｃｕｍｕｌａ⁃ ｔｉｏｎｃｌｕｓｔｅｒｉｎｇ（ＷＥＡＣ）［８］以及ｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇｗｉｔｈｍｕｌｔｉ⁃ｇｒａｎｕｌａｒｉｔｙｌｉｎｋａｎａｌｙｓｉｓ（ＧＰ⁃ＭＧＬＡ）［８］。在每一个数据集中，每个聚类集成方法均运行１０次，每次运行根据第３．２节所述随机生成聚类成员，进而得到每个算法在每个数据集的平均ＮＭＩ得分及其标准差。在表２中，在每一个数据集中，最高ＮＭＩ得分以粗体显示。如表２所示，本文方法在８个数据集上均取得了优于其他聚类集成方法的聚类效果，特别是在Ｇｌａｓｓ、ＭＮＩＳＴ和ＵＳＰＳ数据集上，本文方法取得的平均ＮＭＩ得分比其他方法高出１０％左右。表２的对比实验结果验证了本文方法在聚类集成效果上的优势。表２本文方法与其他聚类集成方法的对比实验Ｔａｂｌｅ２Ｔｈｅａｖｅｒａｇｅｐｅｒｆｏｒｍａｎｃｅｓｏｆｄｉｆｆｅｒｅｎｔｍｅｔｈｏｄｓ测试方法ＧｌａｓｓＥｃｏｌｉＩＳＭＮＩＳＴＩＳＯＬＥＴＰＤＵＳＰＳＬＲ本文方法０．４６３０．６８２０．６４１０．６５３０．７５６０．７８７０．６３２０．４５４ＥＡＣ［４］０．４１８０．６４００．６１８０．５９２０．７４６０．７４７０．５８００．４３５ＨＢＧＦ［３］０．３９７０．６３５０．６２４０．６０９０．７４７０．７５７０．５８８０．４４１ＳＲＳ［２１］０．４２３０．６３２０．６２３０．５９４０．７４７０．７５５０．５９３０．４３６ＷＣＴ［２２］０．４３４０．６７８０．６２３０．６２７０．７５２０．７６４０．５９８０．４３９ＷＥＡＣ［８］０．４０９０．６３７０．６１６０．６０７０．７４６０．７５２０．５８１０．４３９ＧＰ－ＭＧＬＡ［８］０．３９９０．６４００．６３４０．６２４０．７４７０．７５８０．６０２０．４４１３．５在不同聚类集成规模下的对比实验接下来，我们进行本文方法与其他对比方法在不同聚类集成规模（即聚类成员个数）下的对比实验。当聚类集成规模由Ｍ＝１０增长到５０时，各个聚类集成方法在１０次运行中的平均ＮＭＩ得分如图３所示。在Ｅｃｏｌｉ数据集中，ＷＣＴ方法取得了与本文方法基本相当的性能表现。除了Ｅｃｏｌｉ数据集之外，在其他７个数据集中，本文方法在不同聚类集成规模下的聚类表现均显著优于其他方法。图３的实验结果验证了本文方法在不同聚类集成规模下表现出比其他聚类集成方法更好的鲁棒性。３．６运行时间在本节中，我们进行各个聚类集成方法的运行时间对比实验。所有实验均在ＭＡＴＬＡＢ２０１４ｂ下运行，所使用的工作站配置具体如下：ＷｉｎｄｏｗｓＳｅｒｖｅｒ２００８Ｒ２６４位操作系统；英特尔八核心２．４ＧＨｚ中央处理器；９６ＧＢ内存。为求客观对比各个算法运行的ＣＰＵ时间，所有实验均在单线程模式下运行。为测试各个聚类集成算法在不同数据规模（即数据点个数）下的运行时间，本节实验在ＬＲ数据集的不同大小的子集上进行。ＬＲ数据集一共包含有２万个数据点；我们在实验中所测试的子集大小从０逐步增长至２００００。例如，当测试数据规模设定为Ｎ′∈ [０，２００００] 时，我们就随机从整个ＬＲ数据集中选取Ｎ′个数据点进行实验，并记录各个测试方法在此数据规模上的运行时间。如图４所示，当数据规模较小 ·４２２· 智能系统学报第１１卷

.424. 智能系统学报第11卷 100 sing evidence accumulation.IEEE transactions on pattern 一米一本文方法 analysis and machine intelligence,2005,27(6):835-850. -eEAC 80 X一HBGF -SRS 0 [5]WANG Xi,YANG Chunyu,ZHOU Jie.Clustering aggrega- 米 -·米-WCT tion by probability accumulation[J].Pattern recognition, -米-WEAC 60 -·e-GP-MGLA 2009,42(5):668-675 [6]SINGH V,MUKHERJEE L,PENG Jiming,et al.Ensemble % -8.0. 米 clustering using semidefinite programming with applications [J].Machine learning,2010.79(1/2):177-200. [7]HUANG Dong,LAI Jianhuang,WANG Changdong.Exploi- 杀举米 ×109 ting the wisdom of crowd:a multi-granularity approach to 0.5 1.0 1.5 2.0 clustering ensemble[C]//Proceedings of the 4th Internation- 数据规模 al Conference on Intelligence Science and Big Data Engineer- (h)LR ing.Beijing,China,2013:112-119. 图4各个聚类集成方法在不同数据规模下的运行时间 [8]HUANG Dong,LAI Jianhuang,WANG Changdong.Combi- 对比 ning multiple clusterings via crowd agreement estimation and Fig.4 Execution time of different methods with varying multi-granularity link analysis[J].Neurocomputing,2015, data sizes 170:240-250. 3 结束语 [9]HUANG Dong,LAI Jianhuang,WANG Changdong.Ensem- 为解决聚类集成研究中的聚类成员可靠度估计 ble clustering using factor graph[J].Pattern recognition, 2016,50:131-142 与加权问题，本文提出了一个基于二部图结构与决策 [10]HUANG Dong,LAI Jianhuang,WANG Changdong.Robust 加权机制的聚类集成方法。我们将每个聚类成员视 ensemble clustering using probability trajectories[J].IEEE 作一个包含若干连接决策的集合，并为每个聚类成员 transactions on knowledge and data engineering,2016,28 的决策集合分配一个单位的可信度。该可信度由聚 (5):1312-1326. 类成员内的各个决策共同分享。进一步地，我们提出 [11]LI Tao,DING C.Weighted consensus clustering[C]//Pro- 基于可信度分享的决策加权机制，并将之整合至一个 ceedings of the 2008 SIAM International Conference on Data 统一的二部图模型中。因其二部图结构，该图模型可 mining.Auckland,New Zealand,2008:798-809. 利用Tcut算法进行快速分割，从而得到最终聚类集[l2]KARYPIS G,KUMAR V.Multilevel k-way partitioning 成结果。本文在8个实际数据集中进行了实验，将所 scheme for irregular graphs[J].Journal of parallel and dis- 提出方法与聚类成员以及6个现有方法进行了对比 tributed computing,1998,48(1):96-129. 分析。实验结果验证了本文方法在聚类质量及运算 [13]NG A Y,JORDAN M I,WEISS Y.On spectral clustering: Analysis and an algorithm[C]//Advances in Neural Infor- 效率上的显著优势。 mation Processing Systems.Vancouver,Canada,2001. 参考文献： [14]TOPCHY A,JAIN A K,PUNCH W.Clustering ensembles: models of consensus and weak partitions[J.IEEE transac- [1]STREHL A,GHOSH J.Cluster ensembles-a knowledge reuse tions on pattern analysis and machine intelligence,2005,27 framework for combining multiple partitions[J].The journal (12):1866-1881. of machine learning research,2003,3(3):583-617. [15]VEGA-PONS S,CORREA-MORRIS J,RUIZ-SHULCLOP- 2]CRISTOFOR D,SIMOVICI D.Finding median partitions u- ER J.Weighted partition consensus via kernels[]].Pattern sing information-theoretical-based genetic algorithms [J]. rec0 gnition,2010,43(8):2712-2724. Journal of universal computer science,2002,8(2):153-[16 VEGA-PONS S,RUIZ-SHULCLOPER J,GUERRA- 172 GANDON A.Weighted association based methods for the [3]FERN X Z,BRODLEY C E.Solving cluster ensemble prob- combination of heterogeneous partitions[J].Pattern recog- lems by bipartite graph partitioning[C]//Proceedings of the nition letters,.2011,32(16):2163-2170, 2 Ist International Conference on Machine Learning.New[I7]徐森，周天，于化龙，等.一种基于矩阵低秩近似的聚类 York,NY,USA,2004. 集成算法[J].电子学报，2013,41(6)：1219-1224. [4]FRED A L N,JAIN A K.Combining multiple clusterings u- XU Sen,ZHOU Tian,YU Hualong,et al.Matrix low rank

（ｈ）ＬＲ图４各个聚类集成方法在不同数据规模下的运行时间对比Ｆｉｇ．４Ｅｘｅｃｕｔｉｏｎｔｉｍｅｏｆｄｉｆｆｅｒｅｎｔｍｅｔｈｏｄｓｗｉｔｈｖａｒｙｉｎｇｄａｔａｓｉｚｅｓ３结束语为解决聚类集成研究中的聚类成员可靠度估计与加权问题，本文提出了一个基于二部图结构与决策加权机制的聚类集成方法。我们将每个聚类成员视作一个包含若干连接决策的集合，并为每个聚类成员的决策集合分配一个单位的可信度。该可信度由聚类成员内的各个决策共同分享。进一步地，我们提出基于可信度分享的决策加权机制，并将之整合至一个统一的二部图模型中。因其二部图结构，该图模型可利用Ｔｃｕｔ算法进行快速分割，从而得到最终聚类集成结果。本文在８个实际数据集中进行了实验，将所提出方法与聚类成员以及６个现有方法进行了对比分析。实验结果验证了本文方法在聚类质量及运算效率上的显著优势。参考文献：［１］ＳＴＲＥＨＬＡ，ＧＨＯＳＨＪ．Ｃｌｕｓｔｅｒｅｎｓｅｍｂｌｅｓ⁃ａｋｎｏｗｌｅｄｇｅｒｅｕｓｅｆｒａｍｅｗｏｒｋｆｏｒｃｏｍｂｉｎｉｎｇｍｕｌｔｉｐｌｅｐａｒｔｉｔｉｏｎｓ［Ｊ］．Ｔｈｅｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３，３（３）：５８３⁃６１７．［２］ＣＲＩＳＴＯＦＯＲＤ，ＳＩＭＯＶＩＣＩＤ．Ｆｉｎｄｉｎｇｍｅｄｉａｎｐａｒｔｉｔｉｏｎｓｕ⁃ ｓｉｎｇｉｎｆｏｒｍａｔｉｏｎ⁃ｔｈｅｏｒｅｔｉｃａｌ⁃ｂａｓｅｄｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｕｎｉｖｅｒｓａｌｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２００２，８（２）：１５３⁃ １７２．［３］ＦＥＲＮＸＺ，ＢＲＯＤＬＥＹＣＥ．Ｓｏｌｖｉｎｇｃｌｕｓｔｅｒｅｎｓｅｍｂｌｅｐｒｏｂ⁃ ｌｅｍｓｂｙｂｉｐａｒｔｉｔｅｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００４．［４］ＦＲＥＤＡＬＮ，ＪＡＩＮＡＫ．Ｃｏｍｂｉｎｉｎｇｍｕｌｔｉｐｌｅｃｌｕｓｔｅｒｉｎｇｓｕ⁃ ｓｉｎｇｅｖｉｄｅｎｃｅａｃｃｕｍｕｌａｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００５，２７（６）：８３５⁃８５０．［５］ＷＡＮＧＸｉ，ＹＡＮＧＣｈｕｎｙｕ，ＺＨＯＵＪｉｅ．Ｃｌｕｓｔｅｒｉｎｇａｇｇｒｅｇａ⁃ ｔｉｏｎｂｙｐｒｏｂａｂｉｌｉｔｙａｃｃｕｍｕｌａｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００９，４２（５）：６６８⁃６７５．［６］ＳＩＮＧＨＶ，ＭＵＫＨＥＲＪＥＥＬ，ＰＥＮＧＪｉｍｉｎｇ，ｅｔａｌ．Ｅｎｓｅｍｂｌｅｃｌｕｓｔｅｒｉｎｇｕｓｉｎｇｓｅｍｉｄｅｆｉｎｉｔｅｐｒｏｇｒａｍｍｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，２０１０，７９（１／２）：１７７⁃２００．［７］ＨＵＡＮＧＤｏｎｇ，ＬＡＩＪｉａｎｈｕａｎｇ，ＷＡＮＧＣｈａｎｇｄｏｎｇ．Ｅｘｐｌｏｉ⁃ ｔｉｎｇｔｈｅｗｉｓｄｏｍｏｆｃｒｏｗｄ：ａｍｕｌｔｉ⁃ｇｒａｎｕｌａｒｉｔｙａｐｐｒｏａｃｈｔｏｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎ⁃ ａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｃｅＳｃｉｅｎｃｅａｎｄＢｉｇＤａｔａＥｎｇｉｎｅｅｒ⁃ ｉｎｇ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１３：１１２⁃１１９．［８］ＨＵＡＮＧＤｏｎｇ，ＬＡＩＪｉａｎｈｕａｎｇ，ＷＡＮＧＣｈａｎｇｄｏｎｇ．Ｃｏｍｂｉ⁃ ｎｉｎｇｍｕｌｔｉｐｌｅｃｌｕｓｔｅｒｉｎｇｓｖｉａｃｒｏｗｄａｇｒｅｅｍｅｎｔｅｓｔｉｍａｔｉｏｎａｎｄｍｕｌｔｉ⁃ｇｒａｎｕｌａｒｉｔｙｌｉｎｋａｎａｌｙｓｉｓ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１５，１７０：２４０⁃２５０．［９］ＨＵＡＮＧＤｏｎｇ，ＬＡＩＪｉａｎｈｕａｎｇ，ＷＡＮＧＣｈａｎｇｄｏｎｇ．Ｅｎｓｅｍ⁃ ｂｌｅｃｌｕｓｔｅｒｉｎｇｕｓｉｎｇｆａｃｔｏｒｇｒａｐｈ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２０１６，５０：１３１⁃１４２．［１０］ＨＵＡＮＧＤｏｎｇ，ＬＡＩＪｉａｎｈｕａｎｇ，ＷＡＮＧＣｈａｎｇｄｏｎｇ．Ｒｏｂｕｓｔｅｎｓｅｍｂｌｅｃｌｕｓｔｅｒｉｎｇｕｓｉｎｇｐｒｏｂａｂｉｌｉｔｙｔｒａｊｅｃｔｏｒｉｅｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２０１６，２８（５）：１３１２⁃１３２６．［１１］ＬＩＴａｏ，ＤＩＮＧＣ．Ｗｅｉｇｈｔｅｄｃｏｎｓｅｎｓｕｓｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＳＩＡＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａｍｉｎｉｎｇ．Ａｕｃｋｌａｎｄ，ＮｅｗＺｅａｌａｎｄ，２００８：７９８⁃８０９．［１２］ＫＡＲＹＰＩＳＧ，ＫＵＭＡＲＶ．Ｍｕｌｔｉｌｅｖｅｌｋ⁃ｗａｙｐａｒｔｉｔｉｏｎｉｎｇｓｃｈｅｍｅｆｏｒｉｒｒｅｇｕｌａｒｇｒａｐｈｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｐａｒａｌｌｅｌａｎｄｄｉｓ⁃ ｔｒｉｂｕｔｅｄｃｏｍｐｕｔｉｎｇ，１９９８，４８（１）：９６⁃１２９．［１３］ＮＧＡＹ，ＪＯＲＤＡＮＭＩ，ＷＥＩＳＳＹ．Ｏｎｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ：Ａｎａｌｙｓｉｓａｎｄａｎａｌｇｏｒｉｔｈｍ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒ⁃ ｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，２００１．［１４］ＴＯＰＣＨＹＡ，ＪＡＩＮＡＫ，ＰＵＮＣＨＷ．Ｃｌｕｓｔｅｒｉｎｇｅｎｓｅｍｂｌｅｓ：ｍｏｄｅｌｓｏｆｃｏｎｓｅｎｓｕｓａｎｄｗｅａｋｐａｒｔｉｔｉｏｎｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００５，２７（１２）：１８６６⁃１８８１．［１５］ＶＥＧＡ⁃ＰＯＮＳＳ，ＣＯＲＲＥＡ⁃ＭＯＲＲＩＳＪ，ＲＵＩＺ⁃ＳＨＵＬＣＬＯＰ⁃ ＥＲＪ．Ｗｅｉｇｈｔｅｄｐａｒｔｉｔｉｏｎｃｏｎｓｅｎｓｕｓｖｉａｋｅｒｎｅｌｓ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２０１０，４３（８）：２７１２⁃２７２４．［１６］ＶＥＧＡ⁃ＰＯＮＳＳ，ＲＵＩＺ⁃ＳＨＵＬＣＬＯＰＥＲＪ，ＧＵＥＲＲＡ⁃ ＧＡＮＤóＮＡ．Ｗｅｉｇｈｔｅｄａｓｓｏｃｉａｔｉｏｎｂａｓｅｄｍｅｔｈｏｄｓｆｏｒｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆｈｅｔｅｒｏｇｅｎｅｏｕｓｐａｒｔｉｔｉｏｎｓ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇ⁃ ｎｉｔｉｏｎｌｅｔｔｅｒｓ，２０１１，３２（１６）：２１６３⁃２１７０．［１７］徐森，周天，于化龙，等．一种基于矩阵低秩近似的聚类集成算法［Ｊ］．电子学报，２０１３，４１（６）：１２１９⁃１２２４．ＸＵＳｅｎ，ＺＨＯＵＴｉａｎ，ＹＵＨｕａｌｏｎｇ，ｅｔａｌ．Ｍａｔｒｉｘｌｏｗｒａｎｋ ·４２４· 智能系统学报第１１卷

第3期黄栋，等：基于决策加权的聚类集成算法 .425. approximation--based cluster ensemble algorithm[J].Acta作者简介： electronica sinica,2013,41(6):1219-1224. 黄栋，男，1987年生，讲师，主要研究 [18]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based 方向为数据挖掘与模式识别，发表学术 learning applied to document recognition[J].Proceedings of 论文10余篇。 the IEEE,1998,86(11):2278-2324. [19]LI Zhenguo,WU Xiaoming,CHANG S F.Segmentation u- sing superpixels:a bipartite graph partitioning approach [C]//Proceedings of the 2012 IEEE Conference on Com- 王昌栋，男，1984年生，讲师，主要研 puter Vision and Pattem Recognition.Providence,RI, 究方向为非线性聚类、社交网络、大数据 USA,2012:789-796. 分析，发表学术论文40余篇。 [20]BACHE K,LICHMAN M.UCI machine learning repository EB/OL].(2013-04-04).http://archive.ics.uci.edu/ml. [21]IAM-ON N,BOONGOEN T,GARRETT S.Refining pair- wise similarity matrix for cluster ensemble problem with 赖剑煌，男，1964年生，教授，博士生 cluster relations[C]//Proceedings of the 11th International 导师，博士，广东省图象图形学会理事 Conference on Discovery Science.Budapest,Hungary, 长，中国图象图形学会常务理事，主要研 2008:222-233. 究方向为生物特征识别、数字图像处理、 [22]IAM-ON N,BOONGOEN T,GARRETT S,et al.A link- 模式识别和机器学习。主持国家自然科 based approach to the cluster ensemble problem[J].IEEE 学基金与广东联合重点项目、科技部科 transactions on pattern analysis and machine intelligence, 技支撑课题各1项，主持国家自然科学基金项目4项。发表 2011.33(12):2396-2409. 学术论文近200篇。全国知识图谱与语义计算大会 China Conference on Knowledge Graph and Semantic Computing (CCKS2016) 全国知识图谱与语义计算大会(CCKS:China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专家委员会负责组织和承办。CCKS2O16源于国内两个主要的相关会议：中文知识图谱研讨会Conference on Chi- nese Knowledge Graph(KG)和中国语义互联网与Web科学大会Chinese Semantic Web and WebScience Conference(CSWS)。首届中文知识图谱研讨会于2013年在苏州举行，随后分别在武汉、宜昌成功举办第二次和第三次研讨会。CSWS首次会议于2006年在北京举办，随后的近十年里，逐渐成为国内语义技术领域的主要会议。新的知识图谱与语义计算大会将致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议，并聚集了知识表示、自然语言处理、机器学习、数据库、图计算等相关领域的重要学者和研究人员。今年会议的主题是“语义、知识与链接大数据”。今年会议的主题是“语义、知识与链接大数据”。会议将包括学术讲习班工业界论坛、评测与竞赛、特邀报告、学术论文、海报及演示等主要环节。其中，学术讲习班邀请国内外知名研究者讲授实学术界最新进展和实战经验，工业界论坛邀请产业界的主要研发人员分享经验，促进产学研合作。大会同时欢迎英文和中文论文。英文论文将被Spig©r出版的论文集收录，中文论文将被推荐到东南大学学报、中文信息学报等期刊发表。部分优秀论文将被推荐到the Semantic Web Journal,Elsevier Journal of Big Data Research,Journalof Web Seman- tics等国际期刊发表。所有论文要求是未发表内容，并通过会议论文网站提交：https://easychair.org/conferences/?conf= ccks2016.相关主题如下（但不限于）： 1)知识表示 5)知识共享与基于知识的系统 2)知识图谱构建与信息抽取 6)知识推理 3)语义集成 7)链接数据 4)知识存储会议网站：htp:/ccks2016.cipsc..org.cn/或http:/ccks2016.cm

ａｐｐｒｏｘｉｍａｔｉｏｎ⁃ｂａｓｅｄｃｌｕｓｔｅｒｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍ［Ｊ］．Ａｃｔａｅｌｅｃｔｒｏｎｉｃａｓｉｎｉｃａ，２０１３，４１（６）：１２１９⁃１２２４．［１８］ＬＥＣＵＮＹ，ＢＯＴＴＯＵＬ，ＢＥＮＧＩＯＹ，ｅｔａｌ．Ｇｒａｄｉｅｎｔ⁃ｂａｓｅｄｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，１９９８，８６（１１）：２２７８⁃２３２４．［１９］ＬＩＺｈｅｎｇｕｏ，ＷＵＸｉａｏｍｉｎｇ，ＣＨＡＮＧＳＦ．Ｓｅｇｍｅｎｔａｔｉｏｎｕ⁃ ｓｉｎｇｓｕｐｅｒｐｉｘｅｌｓ：ａｂｉｐａｒｔｉｔｅｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇａｐｐｒｏａｃｈ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１２ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍ⁃ ｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｒｏｖｉｄｅｎｃｅ，ＲＩ，ＵＳＡ，２０１２：７８９⁃７９６．［２０］ＢＡＣＨＥＫ，ＬＩＣＨＭＡＮＭ．ＵＣＩｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｐｏｓｉｔｏｒｙ［ＥＢ／ＯＬ］．（２０１３⁃０４⁃０４）．ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ．［２１］ＩＡＭ⁃ＯＮＮ，ＢＯＯＮＧＯＥＮＴ，ＧＡＲＲＥＴＴＳ．Ｒｅｆｉｎｉｎｇｐａｉｒ⁃ ｗｉｓｅｓｉｍｉｌａｒｉｔｙｍａｔｒｉｘｆｏｒｃｌｕｓｔｅｒｅｎｓｅｍｂｌｅｐｒｏｂｌｅｍｗｉｔｈｃｌｕｓｔｅｒｒｅｌａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｓｃｏｖｅｒｙＳｃｉｅｎｃｅ．Ｂｕｄａｐｅｓｔ，Ｈｕｎｇａｒｙ，２００８：２２２⁃２３３．［２２］ＩＡＭ⁃ＯＮＮ，ＢＯＯＮＧＯＥＮＴ，ＧＡＲＲＥＴＴＳ，ｅｔａｌ．Ａｌｉｎｋ⁃ ｂａｓｅｄａｐｐｒｏａｃｈｔｏｔｈｅｃｌｕｓｔｅｒｅｎｓｅｍｂｌｅｐｒｏｂｌｅｍ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１１，３３（１２）：２３９６⁃２４０９．作者简介：黄栋，男，１９８７年生，讲师，主要研究方向为数据挖掘与模式识别，发表学术论文１０余篇。王昌栋，男，１９８４年生，讲师，主要研究方向为非线性聚类、社交网络、大数据分析，发表学术论文４０余篇。赖剑煌，男，１９６４年生，教授，博士生导师，博士，广东省图象图形学会理事长，中国图象图形学会常务理事，主要研究方向为生物特征识别、数字图像处理、模式识别和机器学习。主持国家自然科学基金与广东联合重点项目、科技部科技支撑课题各１项，主持国家自然科学基金项目４项。发表学术论文近２００篇。全国知识图谱与语义计算大会ＣｈｉｎａＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＧｒａｐｈａｎｄＳｅｍａｎｔｉｃＣｏｍｐｕｔｉｎｇ（ＣＣＫＳ２０１６）全国知识图谱与语义计算大会（ＣＣＫＳ：ＣｈｉｎａＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＧｒａｐｈａｎｄＳｅｍａｎｔｉｃＣｏｍｐｕｔｉｎｇ）由中国中文信息学会语言与知识计算专家委员会负责组织和承办。ＣＣＫＳ２０１６源于国内两个主要的相关会议：中文知识图谱研讨会ＣｏｎｆｅｒｅｎｃｅｏｎＣｈｉ⁃ ｎｅｓｅＫｎｏｗｌｅｄｇｅＧｒａｐｈ（ＫＧ）和中国语义互联网与Ｗｅｂ科学大会ＣｈｉｎｅｓｅＳｅｍａｎｔｉｃＷｅｂａｎｄＷｅｂＳｃｉｅｎｃｅＣｏｎｆｅｒｅｎｃｅ（ＣＳＷＳ）。首届中文知识图谱研讨会于２０１３年在苏州举行，随后分别在武汉、宜昌成功举办第二次和第三次研讨会。ＣＳＷＳ首次会议于２００６年在北京举办，随后的近十年里，逐渐成为国内语义技术领域的主要会议。新的知识图谱与语义计算大会将致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议，并聚集了知识表示、自然语言处理、机器学习、数据库、图计算等相关领域的重要学者和研究人员。今年会议的主题是“语义、知识与链接大数据”。今年会议的主题是“语义、知识与链接大数据”。会议将包括学术讲习班、工业界论坛、评测与竞赛、特邀报告、学术论文、海报及演示等主要环节。其中，学术讲习班邀请国内外知名研究者讲授实学术界最新进展和实战经验，工业界论坛邀请产业界的主要研发人员分享经验，促进产学研合作。大会同时欢迎英文和中文论文。英文论文将被Ｓｐｒｉｎｇｅｒ出版的论文集收录，中文论文将被推荐到东南大学学报、中文信息学报等期刊发表。部分优秀论文将被推荐到ｔｈｅＳｅｍａｎｔｉｃＷｅｂＪｏｕｒｎａｌ，ＥｌｓｅｖｉｅｒＪｏｕｒｎａｌｏｆＢｉｇＤａｔａＲｅｓｅａｒｃｈ，ＪｏｕｒｎａｌｏｆＷｅｂＳｅｍａｎ⁃ ｔｉｃｓ等国际期刊发表。所有论文要求是未发表内容，并通过会议论文网站提交：ｈｔｔｐｓ：／／ｅａｓｙｃｈａｉｒ．ｏｒｇ／ｃｏｎｆｅｒｅｎｃｅｓ／？ｃｏｎｆ＝ｃｃｋｓ２０１６．相关主题如下（但不限于）：１）知识表示２）知识图谱构建与信息抽取３）语义集成４）知识存储５）知识共享与基于知识的系统６）知识推理７）链接数据会议网站：ｈｔｔｐ：／／ｃｃｋｓ２０１６．ｃｉｐｓｃ．ｏｒｇ．ｃｎ／或ｈｔｔｐ：／／ｃｃｋｓ２０１６．ｃｎ第３期黄栋，等：基于决策加权的聚类集成算法 ·４２５·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录