【机器学习】基于局部保留投影的多可选聚类发掘算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：2.18MB

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201508022 网络出版地址：htp:/ww.cnki.net/kcms/detail/23.1538.TP.20160824.0928.004.html 基于局部保留投影的多可选聚类发掘算法程肠，王士同 (江南大学数字蝶体学院，江苏无锡214122) 摘要：绝大多数的聚类分析算法仅能得到单一的聚类结果，考虑到数据的复杂程度普遍较高，以及看待数据的视角不同，所得到的聚类结果在保证其合理性的基础上应当是不唯一的，针对此问题，提出了一个新的算法RLPP,用于发掘多种可供选择的聚类结果。RLPP的目标函数兼顾了聚类质量和相异性两大要素，采用子空间流形学习技术，通过新的子空间不断生成多种互不相同的聚类结果。LPP同时适用于线性以及非线性的数据集。实验表明， RLPP成功地发掘了多种可供选择的聚类结果，其性能相当或优于现有的算法。关键词：可供选择的聚类结果：无监督学习；流形学习：多聚类；特征分解中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)05-0600-08 中文引用格式：程肠，王士同.基于局部保留投影的多可选聚类发掘算法[J].智能系统学报，2016,11(5)：600-607. 英文引用格式：CHENG Yang,WANG Shitong.A multiple alternative clusterings mining algorithm using locality preserving projec tions[].CAAI transactions on intelligent systems,2016,11(5):600-607. A multiple alternative clusterings mining algorithm using locality preserving projections CHENG Yang,WANG Shitong (School of Digit Media,Jiangnan University,Wuxi 214122.China) Abstract:Most clustering algorithms typically find just one single result for the data inputted.Considering that the complexity of the data is generally high,combined with the need to allow the data to be viewed from different per- spectives (on the basis of ensuring reasonableness),means that clustering results are often not unique.We present a new algorithm RLPP for an alternative clustering generation method.The objective of RLPP is to find a balance between clustering quality and dissimilarity using a subspace manifold learning technique in a new subspace so that a variety of clustering results can be generated.Experimental results using both linear and nonlinear datasets show that RLPP successfully provides a variety of alternative clustering results,and is able to outperform or at least match a range of existing methods. Keywords:alternative clustering;unsupervised learning;manifold learning;multiple clusterings;eigendecomposi- tion 大多数传统的聚类算法仅仅能得到单个结果，本文根据文献[1]所述原理，提出了一种能够发但是当对复杂数据进行聚类分析时，很可能存在多掘多个可供选择的聚类结果的算法RLPP。算法结个具有合理性的聚类结果。这一特点在高维数据上合了希尔伯特施密特独立性度量准则(hilbert- 表现得尤为明显，例如文本、图像、基因数据等，这些 schmidt independence criterion,HsIC)]以及局部保数据具有多种特征，而不同的特征子空间往往会得持投影(locality preserving projections,LPP)[),改进到完全不同的聚类结果，同时每一种结果都能体现了LPP算法学习子空间的过程。由于HSIC可以高数据不同的结构信息。效地评估不同随机变量之间的依赖性，而LPP算法具有流形学习能力，因此RLPP同时兼顾了聚类结收稿日期：2015-08-26.网络出版日期：2016-08-24 果的相异性和聚类质量这两大要素。并且由于其目基金项目：国家自然科学基金项目(61272210). 通信作者：程肠.E-mail:szhchengyang(@163.com 标函数最终在特征分解问题的框架内求解，因此能

第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０８０２２网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０８２４．０９２８．００４．ｈｔｍｌ基于局部保留投影的多可选聚类发掘算法程旸，王士同（江南大学数字媒体学院，江苏无锡２１４１２２）摘要：绝大多数的聚类分析算法仅能得到单一的聚类结果，考虑到数据的复杂程度普遍较高，以及看待数据的视角不同，所得到的聚类结果在保证其合理性的基础上应当是不唯一的，针对此问题，提出了一个新的算法ＲＬＰＰ，用于发掘多种可供选择的聚类结果。ＲＬＰＰ的目标函数兼顾了聚类质量和相异性两大要素，采用子空间流形学习技术，通过新的子空间不断生成多种互不相同的聚类结果。ＲＬＰＰ同时适用于线性以及非线性的数据集。实验表明，ＲＬＰＰ成功地发掘了多种可供选择的聚类结果，其性能相当或优于现有的算法。关键词：可供选择的聚类结果；无监督学习；流形学习；多聚类；特征分解中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０６００⁃０８中文引用格式：程旸，王士同．基于局部保留投影的多可选聚类发掘算法［Ｊ］．智能系统学报，２０１６，１１（５）：６００⁃６０７．英文引用格式：ＣＨＥＮＧＹａｎｇ，ＷＡＮＧＳｈｉｔｏｎｇ．Ａｍｕｌｔｉｐｌｅａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｕｓｉｎｇｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃ⁃ ｔｉｏｎｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：６００⁃６０７．ＡｍｕｌｔｉｐｌｅａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｕｓｉｎｇｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓＣＨＥＮＧＹａｎｇ，ＷＡＮＧＳｈｉｔｏｎｇ（ＳｃｈｏｏｌｏｆＤｉｇｉｔＭｅｄｉａ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｍｏｓｔｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｔｙｐｉｃａｌｌｙｆｉｎｄｊｕｓｔｏｎｅｓｉｎｇｌｅｒｅｓｕｌｔｆｏｒｔｈｅｄａｔａｉｎｐｕｔｔｅｄ．Ｃｏｎｓｉｄｅｒｉｎｇｔｈａｔｔｈｅｃｏｍｐｌｅｘｉｔｙｏｆｔｈｅｄａｔａｉｓｇｅｎｅｒａｌｌｙｈｉｇｈ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｎｅｅｄｔｏａｌｌｏｗｔｈｅｄａｔａｔｏｂｅｖｉｅｗｅｄｆｒｏｍｄｉｆｆｅｒｅｎｔｐｅｒ⁃ ｓｐｅｃｔｉｖｅｓ（ｏｎｔｈｅｂａｓｉｓｏｆｅｎｓｕｒｉｎｇｒｅａｓｏｎａｂｌｅｎｅｓｓ），ｍｅａｎｓｔｈａｔｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓａｒｅｏｆｔｅｎｎｏｔｕｎｉｑｕｅ．ＷｅｐｒｅｓｅｎｔａｎｅｗａｌｇｏｒｉｔｈｍＲＬＰＰｆｏｒａｎａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｇｅｎｅｒａｔｉｏｎｍｅｔｈｏｄ．ＴｈｅｏｂｊｅｃｔｉｖｅｏｆＲＬＰＰｉｓｔｏｆｉｎｄａｂａｌａｎｃｅｂｅｔｗｅｅｎｃｌｕｓｔｅｒｉｎｇｑｕａｌｉｔｙａｎｄｄｉｓｓｉｍｉｌａｒｉｔｙｕｓｉｎｇａｓｕｂｓｐａｃｅｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｉｎａｎｅｗｓｕｂｓｐａｃｅｓｏｔｈａｔａｖａｒｉｅｔｙｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｃａｎｂｅｇｅｎｅｒａｔｅｄ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｕｓｉｎｇｂｏｔｈｌｉｎｅａｒａｎｄｎｏｎｌｉｎｅａｒｄａｔａｓｅｔｓｓｈｏｗｔｈａｔＲＬＰＰｓｕｃｃｅｓｓｆｕｌｌｙｐｒｏｖｉｄｅｓａｖａｒｉｅｔｙｏｆａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓ，ａｎｄｉｓａｂｌｅｔｏｏｕｔｐｅｒｆｏｒｍｏｒａｔｌｅａｓｔｍａｔｃｈａｒａｎｇｅｏｆｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓ．Ｋｅｙｗｏｒｄｓ：ａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇ；ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ；ｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇ；ｍｕｌｔｉｐｌｅｃｌｕｓｔｅｒｉｎｇｓ；ｅｉｇｅｎｄｅｃｏｍｐｏｓｉ⁃ ｔｉｏｎ收稿日期：２０１５⁃０８⁃２６．网络出版日期：２０１６⁃０８⁃２４．基金项目：国家自然科学基金项目（６１２７２２１０）．通信作者：程旸．Ｅ⁃ｍａｉｌ：ｓｚｈｃｈｅｎｇｙａｎｇ＠１６３．ｃｏｍ．大多数传统的聚类算法仅仅能得到单个结果，但是当对复杂数据进行聚类分析时，很可能存在多个具有合理性的聚类结果。这一特点在高维数据上表现得尤为明显，例如文本、图像、基因数据等，这些数据具有多种特征，而不同的特征子空间往往会得到完全不同的聚类结果，同时每一种结果都能体现数据不同的结构信息。本文根据文献［１］所述原理，提出了一种能够发掘多个可供选择的聚类结果的算法ＲＬＰＰ。算法结合了希尔伯特施密特独立性度量准则（ｈｉｌｂｅｒｔ⁃ ｓｃｈｍｉｄｔｉｎｄｅｐｅｎｄｅｎｃｅｃｒｉｔｅｒｉｏｎ，ＨＳＩＣ）［２］以及局部保持投影（ｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ，ＬＰＰ）［３］，改进了ＬＰＰ算法学习子空间的过程。由于ＨＳＩＣ可以高效地评估不同随机变量之间的依赖性，而ＬＰＰ算法具有流形学习能力，因此ＲＬＰＰ同时兼顾了聚类结果的相异性和聚类质量这两大要素。并且由于其目标函数最终在特征分解问题的框架内求解，因此能

第5期程肠，等：基于局部保留投影的多可选聚类发掘算法 ·601· 够确保求出的新的子空间一定存在，并且解是全局列空间中，可以用P×b计算，其中P被称为投影矩最优的。阵，P=A(ATA)AT。而(I-P)同样也是一个投总的来说，本文所做的工作为：1)提出了一种新的影矩阵，表示把投影到了AT的零空间中。文献[14] 算法RLPP,用于发掘多种可供选择的聚类结果：2) 中提出的2种算法把每个数据实例看作向量，利用 LPP根据同时满足质量和相异性要求的目标函数，生了上述投影等式。文献[15]中的研究也与此相关，成一个新的特征子空间，该特征子空间能够确保存在，投影矩阵被应用于从所提供的聚类结果导出的距离并且是全局最优的：3)通过实验，验证了RLPP的效矩阵上。相比于文献[14]中的2种算法，这种方法果，并与其他现有的算法进行了性能比较。的优势在于能够解决数据维数比类别数小的情况。 1当前典型的可选聚类发掘方法文献[16]提出的算法采用了不同的方法，通过对数据的投影，使得在参考聚类结果中属于相同类别的当前，有关发掘可选聚类结果的算法大体上可数据点经过映射后在新的空间中拉开距离。这一方以分为两类：一类直接利用原始数据空间寻找，另一法与其他方法之间的不同之处在于它并不寻找一个类则是基于投影（变形）子空间寻找。全新的可选聚类，而是通过设定2个聚类结果之间 1.1基于全部原始数据空间的相异度阈值，允许已知的聚类结果中的部分在可这类研究利用的是整个原始特征空间，大多数选聚类结果中保留下来。文献[17]和文献[18]中研究的不同之处在于优化聚类质量和相异性的目标所提出的算法基于谱聚类实现，前者表明可选聚类函数不同。文献[4-9]中的研究可以归类为此类。结果可以通过拉普拉斯矩阵不同的特征向量找到，文献[4]提出了一种分层聚类(hierarchical cluste- 后者所提出的多重谱聚类(multiple spectral cluste- ring)算法COALA,该算法把从提供的聚类结果中生 ring,MSC)把子空间学习技术融入了谱聚类的过程成的cannot--link约束项合并入它的每一个凝聚步骤中，也就是说，MSC的目标函数是一个对偶函数中，即尽可能多地满足这些cannot--ink约束项。在 (dual-function),通过最优化一项来修正另一项。另文献[7]中，提出了CAMI算法，用于同时寻找两个外，文献[I]提出了正则化PCA(regularized PCA, 可供选择的聚类结果。CAMI算法在混合模型下构 RPCA)和正则化的图方法(regularized graph-based 造聚类问题，优化了一个双重目标函数(dual-objec- method,RegGB)算法，其中RPCA与MSC一样，都 tive function),使得当两个混合模型之间的互信息采用了HSIC,用于评估相关性，而RegGB算法则是 (反映了两种聚类结果之间的不同)最小时，对数似基于图论构造。总的来说，RPCA和RegGB算法在然（反映了聚类质量）最大。文献[6]提出的两种算寻找可选聚类的能力上要优于之前所提到的算法，法Dec-kmeans和Conv-EM也属于此类，这两种算法但是RPCA算法只适用于线性结构的数据集，并且分别改进了k-means和EM的目标函数，结合了一其寻找可选聚类结果的能力有限，往往只能找到个修正项，用于表示两种聚类结果之间的去相关信个可选聚类，这些都极大地影响了它在使用上的灵息。文献[8]中的工作采用了不同的方式，其原理活性。因此，本文在文献[1]所提出的思路上，探索来源于信息论，它的目标函数最大化全部数据实例了一种新的算法，通过引入流形学习大大提高了其和可选聚类结果类标之间的互信息(M),同时最小发掘低维流形结构的能力和子空间学习能力，并通化可选聚类和所提供的聚类结果之间的互信息。文过核化扩大了其适用范围，使得其既适用于线性，同献[8]中并没有基于传统的香农嫡，而是采用了时又适用于非线性的数据集。 Renyi熵，以及相对应的二次互信息[2]，这种方法在结合了非参数Parzen窗[]后使得MI基本近似。 2问题描述这种双重优化聚类目标同样被用于文献[9]中，区别在于文献「91使用的是迭代法，而不是文献「81中假设数据集X={x1x2…xn},x:eR,即X是所使用的分层技术。 dxn的矩阵，并提供一个使用任意聚类算法得到的 1.2基于投影子空间参考聚类结果C)。则本文研究的目标为：发掘数如果原数据空间的子空间与原数据空间是相互据集X上的可供选择的聚类结果C2),并且C2)中独立的（比如是正交的），那么根据该子空间得到的的所有类别C2必须满足两个条件，U,C2=X和聚类结果也与原聚类结果不同。文献[14-18]就是 C2nC2=0(i≠j)。除了与C)不同外，还要求根据这样的理论基础提出了各自的算法。文献 C(2)的聚类质量较高。同理，若提供一组参考聚类「14]由正交投影方法提出了两种寻找可供选择的结果{C),C,…{,必须生成高质量的可供选择聚类结果的算法。已知一个向量b,投影到矩阵的的聚类结果C),且与之前所有的聚类结果{C)

够确保求出的新的子空间一定存在，并且解是全局最优的。总的来说，本文所做的工作为：１）提出了一种新的算法ＲＬＰＰ，用于发掘多种可供选择的聚类结果；２）ＲＬＰＰ根据同时满足质量和相异性要求的目标函数，生成一个新的特征子空间，该特征子空间能够确保存在，并且是全局最优的；３）通过实验，验证了ＲＬＰＰ的效果，并与其他现有的算法进行了性能比较。１当前典型的可选聚类发掘方法当前，有关发掘可选聚类结果的算法大体上可以分为两类：一类直接利用原始数据空间寻找，另一类则是基于投影（变形）子空间寻找。１．１基于全部原始数据空间这类研究利用的是整个原始特征空间，大多数研究的不同之处在于优化聚类质量和相异性的目标函数不同。文献［４⁃９］中的研究可以归类为此类。文献［４］提出了一种分层聚类（ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅ⁃ ｒｉｎｇ）算法ＣＯＡＬＡ，该算法把从提供的聚类结果中生成的ｃａｎｎｏｔ⁃ｌｉｎｋ约束项合并入它的每一个凝聚步骤中，即尽可能多地满足这些ｃａｎｎｏｔ⁃ｌｉｎｋ约束项。在文献［７］中，提出了ＣＡＭＩ算法，用于同时寻找两个可供选择的聚类结果。ＣＡＭＩ算法在混合模型下构造聚类问题，优化了一个双重目标函数（ｄｕａｌ⁃ｏｂｊｅｃ⁃ ｔｉｖｅｆｕｎｃｔｉｏｎ），使得当两个混合模型之间的互信息（反映了两种聚类结果之间的不同）最小时，对数似然（反映了聚类质量）最大。文献［６］提出的两种算法Ｄｅｃ⁃ｋｍｅａｎｓ和Ｃｏｎｖ⁃ＥＭ也属于此类，这两种算法分别改进了ｋ⁃ｍｅａｎｓ和ＥＭ的目标函数，结合了一个修正项，用于表示两种聚类结果之间的去相关信息。文献［８］中的工作采用了不同的方式，其原理来源于信息论，它的目标函数最大化全部数据实例和可选聚类结果类标之间的互信息（ＭＩ），同时最小化可选聚类和所提供的聚类结果之间的互信息。文献［８］中并没有基于传统的香农熵［１０］，而是采用了Ｒｅｎｙｉ熵，以及相对应的二次互信息［１１⁃１２］，这种方法在结合了非参数Ｐａｒｚｅｎ窗［１３］后使得ＭＩ基本近似。这种双重优化聚类目标同样被用于文献［９］中，区别在于文献［９］使用的是迭代法，而不是文献［８］中所使用的分层技术。１．２基于投影子空间如果原数据空间的子空间与原数据空间是相互独立的（比如是正交的），那么根据该子空间得到的聚类结果也与原聚类结果不同。文献［１４⁃１８］就是根据这样的理论基础提出了各自的算法。文献［１４］由正交投影方法提出了两种寻找可供选择的聚类结果的算法。已知一个向量ｂ，投影到矩阵的列空间中，可以用Ｐ×ｂ计算，其中Ｐ被称为投影矩阵，Ｐ＝Ａ（ＡＴＡ）－１ＡＴ。而（Ⅰ－Ｐ）同样也是一个投影矩阵，表示把投影到了ＡＴ的零空间中。文献［１４］中提出的２种算法把每个数据实例看作向量，利用了上述投影等式。文献［１５］中的研究也与此相关，投影矩阵被应用于从所提供的聚类结果导出的距离矩阵上。相比于文献［１４］中的２种算法，这种方法的优势在于能够解决数据维数比类别数小的情况。文献［１６］提出的算法采用了不同的方法，通过对数据的投影，使得在参考聚类结果中属于相同类别的数据点经过映射后在新的空间中拉开距离。这一方法与其他方法之间的不同之处在于它并不寻找一个全新的可选聚类，而是通过设定２个聚类结果之间的相异度阈值，允许已知的聚类结果中的部分在可选聚类结果中保留下来。文献［１７］和文献［１８］中所提出的算法基于谱聚类实现，前者表明可选聚类结果可以通过拉普拉斯矩阵不同的特征向量找到，后者所提出的多重谱聚类（ｍｕｌｔｉｐｌｅｓｐｅｃｔｒａｌｃｌｕｓｔｅ⁃ ｒｉｎｇ，ＭＳＣ）把子空间学习技术融入了谱聚类的过程中，也就是说，ＭＳＣ的目标函数是一个对偶函数（ｄｕａｌ⁃ｆｕｎｃｔｉｏｎ），通过最优化一项来修正另一项。另外，文献［１］提出了正则化ＰＣＡ（ｒｅｇｕｌａｒｉｚｅｄＰＣＡ，ＲＰＣＡ）和正则化的图方法（ｒｅｇｕｌａｒｉｚｅｄｇｒａｐｈ⁃ｂａｓｅｄｍｅｔｈｏｄ，ＲｅｇＧＢ）算法，其中ＲＰＣＡ与ＭＳＣ一样，都采用了ＨＳＩＣ，用于评估相关性，而ＲｅｇＧＢ算法则是基于图论构造。总的来说，ＲＰＣＡ和ＲｅｇＧＢ算法在寻找可选聚类的能力上要优于之前所提到的算法，但是ＲＰＣＡ算法只适用于线性结构的数据集，并且其寻找可选聚类结果的能力有限，往往只能找到一个可选聚类，这些都极大地影响了它在使用上的灵活性。因此，本文在文献［１］所提出的思路上，探索了一种新的算法，通过引入流形学习大大提高了其发掘低维流形结构的能力和子空间学习能力，并通过核化扩大了其适用范围，使得其既适用于线性，同时又适用于非线性的数据集。２问题描述假设数据集Ｘ＝｛ｘ１ｘ２… ｘｎ｝，ｘｉ∈Ｒｄ，即Ｘ是ｄ×ｎ的矩阵，并提供一个使用任意聚类算法得到的参考聚类结果Ｃ（１）。则本文研究的目标为：发掘数据集Ｘ上的可供选择的聚类结果Ｃ（２），并且Ｃ（２）中的所有类别Ｃ（２）ｉ必须满足两个条件，ＵｉＣ（２）ｉ＝Ｘ和Ｃ（２）ｉ ∩Ｃ（２）ｊ＝Ø（∀ｉ≠ｊ）。除了与Ｃ（１）不同外，还要求Ｃ（２）的聚类质量较高。同理，若提供一组参考聚类结果｛Ｃ（１），Ｃ（２），…｝，必须生成高质量的可供选择的聚类结果Ｃ（ｋ），且与之前所有的聚类结果｛Ｃ（１），第５期程旸，等：基于局部保留投影的多可选聚类发掘算法 ·６０１·

·602· 智能系统学报第11卷 C2),…}不同。假设欧式空间R”中的数据矩阵通过非线性映为了发掘另一个可供选择的聚类结果，使用子射函数p映射到希尔伯特空间K,即p:R→K。使空间流形学习方法，将原始数据空间X映射到一个用(X)表示希尔伯特空间中的数据矩阵，即新的子空间中。该空间保留了X的特征，并且完全 p(X)=[e(x,)p(x2)…p(xn)]。那么，在希尔伯独立于其他的参考聚类结果。任何聚类算法都可以特空间中的特征向量问题就可以表示为使用这个新的子空间进行聚类分析。 [(X)Le(X)']v=A[e(X)De(X)]v (5) 考虑如下的核函数： 3局部保持投影 K(x:,x)=(p(x:)·p(x))=p(x)p(x) 局部保持投影(locality preserving projections, 式(5)中的特征向量是p(x,),p(x2),, LPP)[)是一种非监督降维方法，是流形学习算法 p(x)的线性组合，每一项的系数分别为a, Laplacian Eigenmap的线性逼近。给定R中的n个 i=1,2,…,m,即y= 数据点x1,x2,…,xn,LPP通过寻找转换矩阵A,将 ae(x)=g(X)a。其中， i=1 这n个数据点映射为R(ld)上的数据点y,y2, a=[a,a2…an]T。经过简单的代数变换，可以得 …Jyn,即到如下特征向量问题：KLKa=AKDKa。. y:=Ax,i=1,2,…,n (1) 4希尔伯特-施密特独立性度量准则式中所需的转换矩阵A可以通过最小化式(2)目标函数得到：已知一个参考聚类结果C”,使用RLPP算法学 A=argmin∑(y:-y,)2wg (2) 习相对于C)独立的子空间A,这样就确保了使用 A得到的聚类结果C)与C)不同。为了计算不同式中：W是权值矩阵，可采用k最近邻算法得到邻子空间之间的相异性，采用了HSIC(hilbert-schmidt 接图，再求出权值矩阵。 independence criterion)),更重要的是，LPP与HSIC 如果x:是x:的k近邻点，则W=exp- 1x-x2 结合后可以导出一个特征分解问题，这样就一定可以计算出全局最佳解。 (t∈R):否则W,=0。显然，W是一个n×n的稀疏对 HSIC是一种基于核的独立性度量方法，采用称矩阵。 Hilbert--Schmidt互协方差算子，通过对该算子范数从目标函数式(2)可以看出，降维后的特征空间的经验估计得到独立性判断准则。具体来说，已知可以保持原始高维空间的局部结构。结合式(1)和 X和Y两个随机变量，HSIC(x,n的值越大说明X和式(2)，做简单的代数变换： Y的关联性越强，值等于0时说明X和Y相互之间 Σ)，完全独立。数学上，令F表示再生核希尔伯特空间，P(x) Σ(4x-Ax护W,= 表示数据x从原空间映射到F中的映射函数，则核函数可以写为K(x,x)=〈p(x),(x)）。同样的， ∑Ax,DaxA-∑Ax,W,xA= 定义山(y)为原空间中的数据y映射到再生希尔伯 (3) 特空间G的映射函数，核函数可以写为L(y,y)= AX(D-W)XA =ATXLXA 〈(y),(y)》。则互协方差算子C,:G→F可以式中：X=[x1x2…xn],D是一个n的对角矩阵，对角被定义为C,=E,[((x)-u)⑧((y)-μ，)]，⑧ 线元素D=∑W,L是拉普拉斯矩阵，L=D-W。表示张量积。C,即为Hilbert-Schmidt算子，而HSIC 能够使得式(3)取最小值的变换矩阵A的求解定义为C,的Hilbert--Schmidt算子范数，即可以转换为如下的广义特征值问题： HSIC(eF.=IC,I,其中P表示X和Y的联合 XLXA =AXDXA (4) 分布。实际上，不需要知道联合分布P,已知n个将式(4)求解出的特征值按从小到大排列，即观测值Z={(x1y1),…,(xyn)},可以直接给出入。<…<入-1，取前k个最小的特征值对应的特征向 HSIC的经验估计值为HSICr.=(n-l)-r(L,H)。量a0,a1,…,ak-1组成A,即A=[aoa1…ak-1】,由于其中K,L,∈R,且K,L,分别是核K和L关于Z观 a:是列向量，所以A是d×k的矩阵。测值的Gam矩阵，即K,=k(x:,x),L,g=(y:,》)= 此外，LPP不仅适用于原始数据空间，还适用于《心：y〉，其中y:是一个二元向量，表示对x,的类标再生核希尔伯特空间(reproducing kernel hilbert space,RKHS),这样就可以引出核LPP算法。签所做的编码（稍后将举例说明)。H=1-e,c,e

Ｃ（２），…｝不同。为了发掘另一个可供选择的聚类结果，使用子空间流形学习方法，将原始数据空间Ｘ映射到一个新的子空间中。该空间保留了Ｘ的特征，并且完全独立于其他的参考聚类结果。任何聚类算法都可以使用这个新的子空间进行聚类分析。３局部保持投影局部保持投影（ｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ，ＬＰＰ）［３］是一种非监督降维方法，是流形学习算法ＬａｐｌａｃｉａｎＥｉｇｅｎｍａｐ的线性逼近。给定Ｒｄ中的ｎ个数据点ｘ１，ｘ２，…，ｘｎ，ＬＰＰ通过寻找转换矩阵Ａ，将这ｎ个数据点映射为Ｒｌ（ｌ≪ｄ）上的数据点ｙ１，ｙ２， …，ｙｎ，即：ｙｉ＝ＡＴｘｉ，ｉ＝１，２，…，ｎ（１）式中所需的转换矩阵Ａ可以通过最小化式（２）目标函数得到：Ａ＝ａｒｇｍｉｎ∑ｉｊ（ｙｉ－ｙｊ）２Ｗｉｊ（２）式中：Ｗｉｊ是权值矩阵，可采用ｋ最近邻算法得到邻接图，再求出权值矩阵。如果ｘｊ是ｘｉ的ｋ近邻点，则Ｗｉｊ＝ｅｘｐ－ ‖ｘｉ－ｘｊ‖２ｔ（ｔ∈Ｒ）；否则Ｗｉｊ＝０。显然，Ｗ是一个ｎ×ｎ的稀疏对称矩阵。从目标函数式（２）可以看出，降维后的特征空间可以保持原始高维空间的局部结构。结合式（１）和式（２），做简单的代数变换：１２ ∑ｉｊ（ｙｉ－ｙｊ）２Ｗｉｊ＝１２ ∑ｉｊ（ＡＴｘｉ－ＡＴｘｊ）２Ｗｉｊ＝ ∑ｉＡＴｘｉＤｉｉｘＴｉＡ－ ∑ｉｊＡＴｘｉＷｉｊｘＴｊＡ＝ＡＴＸ(Ｄ－Ｗ) ＸＴＡ＝ＡＴＸＬＸＴＡ（３）式中：Ｘ＝ｘ１ｘ２… ｘｎ [ ] ，Ｄ是一个ｎ×ｎ的对角矩阵，对角线元素Ｄｉｉ＝ ∑ ｊＷｉｊ，Ｌ是拉普拉斯矩阵，Ｌ＝Ｄ－Ｗ。能够使得式（３）取最小值的变换矩阵Ａ的求解可以转换为如下的广义特征值问题：ＸＬＸＴＡ＝ λＸＤＸＴＡ（４）将式（４）求解出的特征值按从小到大排列，即 λ０＜…＜λｌ－１，取前ｋ个最小的特征值对应的特征向量ａ０，ａ１，…，ａｋ－１组成Ａ，即Ａ＝ａ０ａ１… ａｋ－１ [ ] ，由于ａｉ是列向量，所以Ａ是ｄ×ｋ的矩阵。此外，ＬＰＰ不仅适用于原始数据空间，还适用于再生核希尔伯特空间（ｒｅｐｒｏｄｕｃｉｎｇｋｅｒｎｅｌｈｉｌｂｅｒｔｓｐａｃｅ，ＲＫＨＳ），这样就可以引出核ＬＰＰ算法。假设欧式空间Ｒｎ中的数据矩阵通过非线性映射函数 φ 映射到希尔伯特空间Ｋ，即 φ：Ｒｎ→Ｋ。使用 φ（Ｘ）表示希尔伯特空间中的数据矩阵，即 φ（Ｘ）＝ [φ（ｘ１）φ（ｘ２） …φ（ｘｎ） ] 。那么，在希尔伯特空间中的特征向量问题就可以表示为 φ（Ｘ）Ｌφ（Ｘ）Ｔ [ ] ｖ＝ λ φ（Ｘ）Ｄφ（Ｘ）Ｔ [ ] ｖ（５）考虑如下的核函数：Ｋｘｉ，ｘｊ ( ) ＝ φ ｘｉ ( )·φ ｘｊ ( ( ) ) ＝ φ ｘｉ ( ) Ｔφ ｘｊ ( ) 式（５）中的特征向量是 φ（ｘ１），φ（ｘ２），…， φ（ｘｎ）的线性组合，每一项的系数分别为ａｉ，ｉ＝１，２，…，ｍ，即ｖ＝ ∑ ｎｉ＝１ａｉφ（ｘｉ）＝ φ（Ｘ）ａ。其中，ａ＝［ａ１ａ２ … ａｎ］Ｔ。经过简单的代数变换，可以得到如下特征向量问题：ＫＬＫａ＝λＫＤＫａ。４希尔伯特－施密特独立性度量准则已知一个参考聚类结果Ｃ（１），使用ＲＬＰＰ算法学习相对于Ｃ（１）独立的子空间Ａ，这样就确保了使用Ａ得到的聚类结果Ｃ（２）与Ｃ（１）不同。为了计算不同子空间之间的相异性，采用了ＨＳＩＣ（ｈｉｌｂｅｒｔ⁃ｓｃｈｍｉｄｔｉｎｄｅｐｅｎｄｅｎｃｅｃｒｉｔｅｒｉｏｎ）［１］，更重要的是，ＬＰＰ与ＨＳＩＣ结合后可以导出一个特征分解问题，这样就一定可以计算出全局最佳解。ＨＳＩＣ是一种基于核的独立性度量方法，采用Ｈｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔ互协方差算子，通过对该算子范数的经验估计得到独立性判断准则。具体来说，已知Ｘ和Ｙ两个随机变量，ＨＳＩＣ（Ｘ，Ｙ）的值越大说明Ｘ和Ｙ的关联性越强，值等于０时说明Ｘ和Ｙ相互之间完全独立。数学上，令Ｆ表示再生核希尔伯特空间，φ（ｘ）表示数据ｘ从原空间映射到Ｆ中的映射函数，则核函数可以写为Ｋ（ｘ，ｘＴ）＝〈φ（ｘ），φ（ｘＴ）〉。同样的，定义 ψ（ｙ）为原空间中的数据ｙ映射到再生希尔伯特空间Ｇ的映射函数，核函数可以写为Ｌ（ｙ，ｙＴ）＝〈ψ（ｙ），ψ（ｙＴ）〉。则互协方差算子Ｃｘｙ：Ｇ→Ｆ可以被定义为Ｃｘｙ＝Ｅｘｙ [（φ（ｘ）－μｘ）􀱋（ψ（ｙ）－μｙ） ] ，􀱋 表示张量积。Ｃｘｙ即为Ｈｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔ算子，而ＨＳＩＣ定义为Ｃｘｙ的Ｈｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔ算子范数，即ＨＳＩＣ（Ｐｘｙ，Ｆ，Ｇ）＝ ‖Ｃｘｙ‖２ＨＳ，其中Ｐｘｙ表示Ｘ和Ｙ的联合分布。实际上，不需要知道联合分布Ｐｘｙ，已知ｎ个观测值Ｚ＝（ｘ１，ｙ１），…，（ｘｎ，ｙ { ｎ）} ，可以直接给出ＨＳＩＣ的经验估计值为ＨＳＩＣ（Ｚ，Ｆ，Ｇ）＝（ｎ－１）－２ｔｒ（ＫＨＬｙＨ）。其中Ｋ，Ｌｙ∈Ｒｎ×ｎ，且Ｋ，Ｌｙ分别是核Ｋ和Ｌ关于Ｚ观测值的Ｇｒａｍ矩阵，即Ｋｉｊ＝ｋ（ｘｉ，ｘｊ），Ｌｙｉｊ＝ｌ（ｙｉ，ｙｊ）＝〈ｙｉ，ｙｊ〉，其中ｙｉ是一个二元向量，表示对ｘｉ的类标签所做的编码（稍后将举例说明）。Ｈ＝Ｉ－１ｎｅｎｅＴｎ，ｅｎ ·６０２· 智能系统学报第１１卷

第5期程肠，等：基于局部保留投影的多可选聚类发掘算法 ·603· 表示元素值全为1的列向量。r(·)表示矩阵的此，P(X)LP(X)T+p(X)HL,Hp(X)'是实对称矩迹。阵。作为一个特征分解问题，A的最优解由前k个为了表示简单，使用HSICox,)代替HSIC(2.F,, 最小非零特征值对应的特征向量构成，即A= 表示随机变量X和(x)=A'x,也就是X和Y之间 [a,a2…&]。下一步，可以使用k-means算法的依赖性。对子空间A进行聚类，得到可供选择的聚类结假设有8个数据{x1,x2,…,xg,{,其中x,和x2, 果C2)。 x3和x4,x3和x6,x,和xg分别为一类。则向量y1= 可以看到，(X)HL,He(X)I直接影响了LPP y2=(1000),y3=y4=(0100),y5=y6= 算法中(X)Lp(X)T项，也就是说，可以把两个聚 (0010)T,y,=yg=(0001)'。矩阵Y的每一行对类结果之间的独立性看作添加的约束项。同时，通应一个y。L,是一个8×8的矩阵，由：和y的点过添加更多的HSIC项，将算法推广可以找到更多积构成。K是一个8×8的矩阵，表示(x:)和(x) 可供选择的聚类结果。之间的相似度。同时注意，根据定义，H是一个n×n 举例来说，在寻找第3个可供选择的聚类结果 (在本例中是8×8)的常数矩阵，每行每列的和都等 C3)时，只要提供之前找到的两个聚类结果C)和于0。因此，在上述示例中，每一行（列）都包含7个 C2),并把式(6)中的HSIC(ax.c)一项替换为 (安)和1个 HSIC(ATx.c)+HSIC(ax.c2,即可。因此只要在式 (8)中使用A'XHL,HXA+A'XHL2HXA,即直接 5基于局部保留投影的多可选聚类发使用AXH(L,:+L,2）HXA代替AXHL,HXA。掘算法也就是说，使用(L,+L,2)代替了L,其他矩阵保持不变即可。由于通过HSIC,)可以自然地评估结构很复 RLPP算法描述如下：杂的样本X和Y之间的相关性，因此结合HSICo.” 1)输入数据集X;一个X上的参考聚类结果对LPP的目标函数进行修改。要求是转换矩阵A C。必须能够发掘嵌入在高维数据中的低维流形结构， 2)输出一个数据集X上可供选择的参考聚类并且与已知的聚类结果C)完全独立。换句话说，结果C2。在所有与已经存在的聚类结果C)不同的子空间 3)算法流程：中，要选出能够最好地保持高维数据流形结构的子 ①计算L,L,=(y:y〉，其中y:是一个二元向空间。因此，改进LPP的目标函数如下：量，表示C)中x,的类标签的编码。 A=argmin A'XLX'A HSIC(ATX.c(D)= ②计算H=1-e.c。 argmin A XLX'A tr(HKHL,) (6) 式中：A表示A的最佳解，且由迹的性质可知 ③计算权值矩阵W,如果x是x:的k近邻点， r(HKHL,)=r(KHL,H)。不同的核函数在计算变那么W,=exp- x-12 (t∈R),否则W,=0。量之间的独立性时结果不同，这里采用线性核函数， t 映射函数定义为：(x)=ATx,因此，K= ④计算矩阵D,Da=∑W,计算拉普拉斯矩阵 (p(X),P(X)〉=YAAX。即 L,L=D-W。 ATXLXA tr(HKHL,)= ⑤使用高斯核计算核矩阵K,K=9(x)'· AXLXA+AXHL HX'A= p()。 AT (XLX+XHL HX)A (7) ⑥分解核矩阵K,K=PP,根据P(X)=AP 将数据集合X映射到高维特征空间中后，就可得到(X)。以最终得到(X)=[p(x)(x2)…(xn)]。其 ⑦计算(X)LP(X)'+(X)HL,H(X)的特中，核矩阵K的元素为K=p(x:)I·(x)。即：征值和特征向量。 A.m=A((X)L(X)+(X)HL H (X))A ⑧按特征值从小到大的顺序对特征向量排序。 (8) ⑨选择前k个最小的特征值对应的特征向量，因为H和L,都是对称矩阵，所以即A=[a0a1…ak-1Jo (X)HL,H(X)'也是对称矩阵，同样，因为L是 ①c2)-k-means(A'e(X))。对称矩阵，所以P(X)L(X)T也是对称矩阵。因 RLPP算法的时间复杂度完全由计算最近邻矩

表示元素值全为１的列向量。ｔｒ（·）表示矩阵的迹。为了表示简单，使用ＨＳＩＣ（Ｘ，Ｙ）代替ＨＳＩＣ（Ｚ，Ｆ，Ｇ），表示随机变量Ｘ和 φ（ｘ）＝ＡＴｘ，也就是Ｘ和Ｙ之间的依赖性。假设有８个数据｛ｘ１，ｘ２，…，ｘ８，｝，其中ｘ１和ｘ２，ｘ３和ｘ４，ｘ５和ｘ６，ｘ７和ｘ８分别为一类。则向量ｙ１＝ｙ２＝（１０００）Ｔ，ｙ３＝ｙ４＝（０１００）Ｔ，ｙ５＝ｙ６＝（００１０）Ｔ，ｙ７＝ｙ８＝（０００１）Ｔ。矩阵Ｙ的每一行对应一个ｙｉ。Ｌｙ是一个８×８的矩阵，由ｙｉ和ｙｊ的点积构成。Ｋ是一个８×８的矩阵，表示 φ（ｘｉ）和φ（ｘｊ）之间的相似度。同时注意，根据定义，Ｈ是一个ｎ×ｎ（在本例中是８×８）的常数矩阵，每行每列的和都等于０。因此，在上述示例中，每一行（列）都包含７个（－１８）和１个７８。５基于局部保留投影的多可选聚类发掘算法由于通过ＨＳＩＣ（Ｘ，Ｙ）可以自然地评估结构很复杂的样本Ｘ和Ｙ之间的相关性，因此结合ＨＳＩＣ（Ｘ，Ｙ）对ＬＰＰ的目标函数进行修改。要求是转换矩阵Ａ必须能够发掘嵌入在高维数据中的低维流形结构，并且与已知的聚类结果Ｃ（１）完全独立。换句话说，在所有与已经存在的聚类结果Ｃ（１）不同的子空间中，要选出能够最好地保持高维数据流形结构的子空间。因此，改进ＬＰＰ的目标函数如下：Ａｏｐｔ＝ａｒｇｍｉｎＡＴＸＬＸＴＡ＋ＨＳＩＣ（ＡＴＸ，Ｃ（１））＝ａｒｇｍｉｎＡＴＸＬＸＴＡ＋ｔｒＨＫＨＬｙ ( ) （６）式中：Ａｏｐｔ表示Ａ的最佳解，且由迹的性质可知ｔｒＨＫＨＬｙ ( ) ＝ｔｒ(ＫＨＬｙＨ) 。不同的核函数在计算变量之间的独立性时结果不同，这里采用线性核函数，映射函数定义为： φ（ｘ）＝ＡＴｘ，因此，Ｋ＝〈φ（Ｘ），φ（Ｘ）〉＝ＸＴＡＡＴＸ。即ＡＴＸＬＸＴＡ＋ｔｒＨＫＨＬｙ ( ) ＝ＡＴＸＬＸＴＡ＋ＡＴＸＨＬｙＨＸＴＡ＝ＡＴＸＬＸＴ＋ＸＨＬｙＨＸＴ ( ) Ａ（７）将数据集合Ｘ映射到高维特征空间中后，就可以最终得到 φ（Ｘ）＝［φ（ｘ１） φ（ｘ２） … φ（ｘｎ）］。其中，核矩阵Ｋ的元素为Ｋｉｊ＝φ （ｘｉ）Ｔ·φ（ｘｊ）。即：Ａｏｐｔ＝ＡＴ（φ（Ｘ）Ｌφ （Ｘ）Ｔ＋ φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ）Ａ（８）因为Ｈ和Ｌｙ都是对称矩阵，所以 φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ也是对称矩阵，同样，因为Ｌ是对称矩阵，所以 φ(Ｘ) Ｌφ （Ｘ）Ｔ也是对称矩阵。因此，φ（Ｘ）Ｌφ （Ｘ）Ｔ＋φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ是实对称矩阵。作为一个特征分解问题，Ａｏｐｔ的最优解由前ｋ个最小非零特征值对应的特征向量构成，即Ａ＝［α１ α２… αｋ］。下一步，可以使用ｋ⁃ｍｅａｎｓ［１９］算法对子空间Ａ进行聚类，得到可供选择的聚类结果Ｃ（２）。可以看到，φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ直接影响了ＬＰＰ算法中 φ（Ｘ）Ｌφ （Ｘ）Ｔ项，也就是说，可以把两个聚类结果之间的独立性看作添加的约束项。同时，通过添加更多的ＨＳＩＣ项，将算法推广可以找到更多可供选择的聚类结果。举例来说，在寻找第３个可供选择的聚类结果Ｃ（３）时，只要提供之前找到的两个聚类结果Ｃ（１）和Ｃ（２），并把式（６）中的ＨＳＩＣ（ＡＴＸ，Ｃ（１））一项替换为ＨＳＩＣ（ＡＴＸ，Ｃ（１））＋ＨＳＩＣ（ＡＴＸ，Ｃ（２））即可。因此只要在式（８）中使用ＡＴＸＨＬｙ１ＨＸＴＡ＋ＡＴＸＨＬｙ２ＨＸＴＡ，即直接使用ＡＴＸＨ（Ｌｙ１＋Ｌｙ２）ＨＸＴＡ代替ＡＴＸＨＬｙＨＸＴＡ。也就是说，使用（Ｌｙ１＋Ｌｙ２）代替了Ｌｙ，其他矩阵保持不变即可。ＲＬＰＰ算法描述如下：１）输入数据集Ｘ；一个Ｘ上的参考聚类结果Ｃ（１）。２）输出一个数据集Ｘ上可供选择的参考聚类结果Ｃ（２）。３）算法流程： ①计算Ｌｙ，Ｌｙ＝〈ｙｉ，ｙｊ〉，其中ｙｉ是一个二元向量，表示Ｃ（１）中ｘｉ的类标签的编码。 ②计算Ｈ＝Ｉ－１ｎｅｎｅＴｎ。 ③计算权值矩阵Ｗ，如果ｘｊ是ｘｉ的ｋ近邻点，那么Ｗｉｊ＝ｅｘｐ－ ‖ｘｉ－ｘｊ‖２ｔ（ｔ∈Ｒ），否则Ｗｉｊ＝０。 ④计算矩阵Ｄ，Ｄｉｉ＝ ∑ ｊＷｉｊ，计算拉普拉斯矩阵Ｌ，Ｌ＝Ｄ－Ｗ。 ⑤使用高斯核计算核矩阵Ｋ，Ｋｉｊ＝ φ （ｘｉ）Ｔ · φ（ｘｊ）。 ⑥分解核矩阵Ｋ，Ｋ＝ＰＴΛＰ，根据 φ（Ｘ）＝ Λ １２Ｐ得到 φ（Ｘ）。 ⑦计算 φ（Ｘ）Ｌφ （Ｘ）Ｔ＋φ（Ｘ）ＨＬｙＨφ（Ｘ）Ｔ的特征值和特征向量。 ⑧按特征值从小到大的顺序对特征向量排序。 ⑨选择前ｋ个最小的特征值对应的特征向量，即Ａ＝［ａ０ａ１… ａｋ－１］。 ⑩Ｃ（２）＝ｋ⁃ｍｅａｎｓ（ＡＴφ（Ｘ））。ＲＬＰＰ算法的时间复杂度完全由计算最近邻矩第５期程旸，等：基于局部保留投影的多可选聚类发掘算法 ·６０３·

·604. 智能系统学报第11卷阵以及核矩阵决定，因为它们的时间复杂度均为果，并与其他算法进行比较。第1组人工数据集 0(n2d),因此整体的时间复杂度也为0(n2d)。 Sym1分布在二维空间内，分为4部分，每部分由200 个数据点组成，共8O0个数据，点。使用数据集Syml 6 实验与分析的目的是检验算法是否能够尽可能多的发现可供选 6.1聚类结果评估择的聚类结果，且所有结果均满足与初始聚类结果聚类结果根据聚类质量和相异性两方面进行评正交的条件。第2组人工数据集Sym2的结构较为估。聚类质量分为两种情况：如果已知正确的类标，复杂，每部分的形状都是非凸的。使用数据集Sy2 则可选聚类结果和正确的类标之间通过F-measure 的目的是检验算法是否能够处理非线性的数据结计算，计算公式为F=2P×R/(P+R),其中P和R分构，并且发掘出嵌入在高维数据中的低维流形结构。别表示准确率(precision)和召回率(recall);否则，图1中的第1行表示的是RLPP使用数据集使用Dunn Index计算，表示为Dl(g。数学上，Dunn Syml得到的运行结果。其中，第1列表示的是所提 min均{8(c,9)} 供的参考聚类结果C),第2列表示的是由RLPP ndex定义为Dlo-742,其中8：GxC一得到的可供选择的聚类结果C2)。从图中可以直观 R。,表示类与类之间的距离，△：C→R。表示类内地看出，RLPP成功地找到了与所提供的参考聚类直径。对于评估聚类结果的相异性，使用了两种不结果完全不相同，但是聚类质量很高的可选聚类结同的方法。第1种是最为常用的标准化互信息果。另外，如果我们把该结果C2)看作除C)外新 (normalized mutual information,NMl),第2种是杰增的参考聚类结果，并且寻找第2个可选的参考聚卡德指数(Jaccard index,.JI)。类结果C),RLPP会得到第3列所显示的聚类结对于NMI和JⅡ指标，值越小意味着不同聚类结果。C3)在欧氏距离下与前两个聚类结果相比不是果之间的相似度越高；对于F-measure和Dunn Index 特别得自然，但是C)仍然很有启发性，并且它完全指标，值越大意味着更高的聚类质量。独立于前2个参考聚类结果C)和C2)。同时注意 6.2人工数据集到，RPCA算法无法寻找出合适的C)。在表1中，使用两种流行的人工数据集评估LPP的效提供了这些算法的表现。 14 2 10 2 6 1012 14 -4 2 0 246 101214-4-202 468101214 (a)Synl数据集可选聚类结果C (b)Syml数据集可选聚类结果C (c)Synl数据集可选聚类结果C ② 88 4-4-3 -2 4-4-3 -2-1 01234 (d)Syn2数据集可选聚类结果C (e)Syn2数据集可选聚类结果Ca (f)Syn2数据集可选聚类结果C 图1由数据集Synl(第1行)和Syn2(第2行)得到的可选聚类结果 Fig.1 Alternative clusterings uncovered from Synl(1"row)and Syn2(24 row)datasets

阵以及核矩阵决定，因为它们的时间复杂度均为Ｏ（ｎ２ｄ），因此整体的时间复杂度也为Ｏ（ｎ２ｄ）。６实验与分析６．１聚类结果评估聚类结果根据聚类质量和相异性两方面进行评估。聚类质量分为两种情况：如果已知正确的类标，则可选聚类结果和正确的类标之间通过Ｆ⁃ｍｅａｓｕｒｅ计算，计算公式为Ｆ＝２Ｐ×Ｒ／（Ｐ＋Ｒ），其中Ｐ和Ｒ分别表示准确率（ｐｒｅｃｉｓｉｏｎ）和召回率（ｒｅｃａｌｌ）；否则，使用ＤｕｎｎＩｎｄｅｘ计算，表示为ＤＩ（Ｃ）。数学上，ＤｕｎｎＩｎｄｅｘ定义为ＤＩ（Ｃ）＝ｍｉｎｉ≠ｊ｛δ（ｃｉ，ｃｊ）｝ｘ１≤ｌ≤ｋ｛Δ（ｃｌ）｝，其中 δ：Ｃ×Ｃ→ Ｒ＋０，表示类与类之间的距离，Δ：Ｃ→Ｒ＋０表示类内直径。对于评估聚类结果的相异性，使用了两种不同的方法。第１种是最为常用的标准化互信息（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＮＭＩ），第２种是杰卡德指数（Ｊａｃｃａｒｄｉｎｄｅｘ，ＪＩ）。对于ＮＭＩ和ＪＩ指标，值越小意味着不同聚类结果之间的相似度越高；对于Ｆ⁃ｍｅａｓｕｒｅ和ＤｕｎｎＩｎｄｅｘ指标，值越大意味着更高的聚类质量。６．２人工数据集使用两种流行的人工数据集评估ＲＬＰＰ的效果，并与其他算法进行比较。第１组人工数据集Ｓｙｎ１分布在二维空间内，分为４部分，每部分由２００个数据点组成，共８００个数据点。使用数据集Ｓｙｎ１的目的是检验算法是否能够尽可能多的发现可供选择的聚类结果，且所有结果均满足与初始聚类结果正交的条件。第２组人工数据集Ｓｙｎ２的结构较为复杂，每部分的形状都是非凸的。使用数据集Ｓｙｎ２的目的是检验算法是否能够处理非线性的数据结构，并且发掘出嵌入在高维数据中的低维流形结构。图１中的第１行表示的是ＲＬＰＰ使用数据集Ｓｙｎ１得到的运行结果。其中，第１列表示的是所提供的参考聚类结果Ｃ（１），第２列表示的是由ＲＬＰＰ得到的可供选择的聚类结果Ｃ（２）。从图中可以直观地看出，ＲＬＰＰ成功地找到了与所提供的参考聚类结果完全不相同，但是聚类质量很高的可选聚类结果。另外，如果我们把该结果Ｃ（２）看作除Ｃ（１）外新增的参考聚类结果，并且寻找第２个可选的参考聚类结果Ｃ（３），ＲＬＰＰ会得到第３列所显示的聚类结果。Ｃ（３）在欧氏距离下与前两个聚类结果相比不是特别得自然，但是Ｃ（３）仍然很有启发性，并且它完全独立于前２个参考聚类结果Ｃ（１）和Ｃ（２）。同时注意到，ＲＰＣＡ算法无法寻找出合适的Ｃ（３）。在表１中，提供了这些算法的表现。图１由数据集Ｓｙｎ１（第１行）和Ｓｙｎ２（第２行）得到的可选聚类结果Ｆｉｇ．１ＡｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｕｎｃｏｖｅｒｅｄｆｒｏｍＳｙｎ１（１ｓｔｒｏｗ）ａｎｄＳｙｎ２（２ｎｄｒｏｗ）ｄａｔａｓｅｔｓ ·６０４· 智能系统学报第１１卷

第5期程肠，等：基于局部保留投影的多可选聚类发掘算法 ·605. 表1人工数据集Syml上3种算法的表现 Table 1 Clustering performance of all algorithms for synthetic dataset Synl 算法 NMI2 NMI NMI2 e J 几 F2 FB RPCA 0.00 0.33 1.00 RegGB 0.00 0.00 0.00 0.33 0.33 0.33 1.00 1.00 1.00 RLPP 0.00 0.00 0.00 0.33 0.33 0.33 1.00 1.00 1.00 表2人工数据集Sym2上3种算法的表现 Table 2 Clustering performance of all algorithms for synthetic dataset Syn2 算法 NMI2 NMI NMI2 JI2 几g J几 S RegGB 0.00 0.00 0.00 0.33 0.33 0.33 1.00 1.00 1.00 RLPP 0.00 0.00 0.00 0.33 0.33 0.33 1.00 1.00 1.00 6.3舍尔图数据集虽然图2(f)的结果看似更佳，但是图2(d)保留了选择文献[11]中所介绍的埃舍尔图(escher im- 原图中更多的信息，每只爬行动物的轮廓都能够得 age)作为另一个用于寻找多个可选聚类结果实验的到保留，这是由于RLPP采用了流形子空间学习技数据集。对于人眼来说，埃舍尔图有多种分割结果 (即聚类结果)。图2(a)显示的图片为原始图片，术，能够最大程度地保留原始数据的结构。对每种可以看到图中有多只爬行动物，并且聚类时明显可算法重复运行了10次，表3给出了这些算法的平均以有多种聚类结果。在分割过程中，图中的每个像表现。素点都表示一个反映了RGB信息的数据点。我们使用k-means对图2(a)进行聚类。图2(b)为k- means得到的聚类结果，作为其他算法所需要的参考聚类结果。图2(c)和图2(d)分别为RLPP得到产的可选聚类结果C(2)和C3),可以看出图2(c)中的 (b) (c) 爬行动物为水平姿势，图2(d)中的爬行动物为垂直姿势。为了对比，提供了由RegGB算法得到的结果 (RPCA算法得到的C(2)与RegGB算法近似，C3)则效果很差，因此不加入对比)。图2(e)和图2(f)为 2 RegGB得到的可选聚类结果C(2)和C3)。从肉眼观 (d) (e) (f 察的角度可以发现，图2(c)与图2(e)相比轮廓更图2埃舍尔图数据集上的图像分割结果加清晰，聚类的效果更好。图2(d)与图2()相比， Fig.2 Image segmentation results on Escher image data 表3埃舍尔图数据集上两种算法的表现 Table 3 Clustering performance of two algorithms on the Escher image data 算法 NMI2 NMI3 NMI JIp JI2 DI DIs DL RegGB 0.05 0.27 0.26 0.39 0.33 0.28 3.81 0.05 2.38 RLPP 0.03 0.06 0.01 0.19 0.39 0.34 3.81 0.02 1.60 6.4 CMUFace数据集随机选取了3个人的全部图像进行试验。使用UCI数据库中的CMUFace数据集检验算图3显示的是聚类结果的平均值的图像。其中法。CMUFace数据集包含20个人的图像，每个人第1行是原始图像经由k-means算法得到的平均值又分为不同的面部表情（正常、高兴、悲伤、生气），图像，第2行由LPP算法得到，第3行和第4行由不同的头部朝向（向左、向右、向前、向上），不同眼 RPCA与RegGB算法得到。部状况（睁开、墨镜）。每个人有32张图片，包含了从图像上看，第1行聚类的依据是不同的人，其上述特征的组合。由于图片中的人的身份是已知余3行聚类的依据是人不同的头部朝向。很明显，3 的，因此身份信息可以作为参考聚类结果直接使用。种算法都从数据集中得到了另一组完全不同，但是

表１人工数据集Ｓｙｎ１上３种算法的表现Ｔａｂｌｅ１ＣｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆａｌｌａｌｇｏｒｉｔｈｍｓｆｏｒｓｙｎｔｈｅｔｉｃｄａｔａｓｅｔＳｙｎ１算法ＮＭＩ１２ＮＭＩ１３ＮＭＩ２３ＪＩ１２ＪＩ１３ＪＩ２３Ｆ１２Ｆ１３Ｆ２３ＲＰＣＡ０．００＼＼０．３３＼＼１．００＼＼ＲｅｇＧＢ０．０００．０００．０００．３３０．３３０．３３１．００１．００１．００ＲＬＰＰ０．０００．０００．０００．３３０．３３０．３３１．００１．００１．００表２人工数据集Ｓｙｎ２上３种算法的表现Ｔａｂｌｅ２ＣｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆａｌｌａｌｇｏｒｉｔｈｍｓｆｏｒｓｙｎｔｈｅｔｉｃｄａｔａｓｅｔＳｙｎ２算法ＮＭＩ１２ＮＭＩ１３ＮＭＩ２３ＪＩ１２ＪＩ１３ＪＩ２３Ｆ１２Ｆ１３Ｆ２３ＲｅｇＧＢ０．０００．０００．０００．３３０．３３０．３３１．００１．００１．００ＲＬＰＰ０．０００．０００．０００．３３０．３３０．３３１．００１．００１．００６．３舍尔图数据集选择文献［１１］中所介绍的埃舍尔图（ｅｓｃｈｅｒｉｍ⁃ ａｇｅ）作为另一个用于寻找多个可选聚类结果实验的数据集。对于人眼来说，埃舍尔图有多种分割结果（即聚类结果）。图２（ａ）显示的图片为原始图片，可以看到图中有多只爬行动物，并且聚类时明显可以有多种聚类结果。在分割过程中，图中的每个像素点都表示一个反映了ＲＧＢ信息的数据点。我们使用ｋ⁃ｍｅａｎｓ对图２（ａ）进行聚类。图２（ｂ）为ｋ⁃ ｍｅａｎｓ得到的聚类结果，作为其他算法所需要的参考聚类结果。图２（ｃ）和图２（ｄ）分别为ＲＬＰＰ得到的可选聚类结果Ｃ（２）和Ｃ（３），可以看出图２（ｃ）中的爬行动物为水平姿势，图２（ｄ）中的爬行动物为垂直姿势。为了对比，提供了由ＲｅｇＧＢ算法得到的结果（ＲＰＣＡ算法得到的Ｃ（２）与ＲｅｇＧＢ算法近似，Ｃ（３）则效果很差，因此不加入对比）。图２（ｅ）和图２（ｆ）为ＲｅｇＧＢ得到的可选聚类结果Ｃ（２）和Ｃ（３）。从肉眼观察的角度可以发现，图２（ｃ）与图２（ｅ）相比轮廓更加清晰，聚类的效果更好。图２（ｄ）与图２（ｆ）相比，虽然图２（ｆ）的结果看似更佳，但是图２（ｄ）保留了原图中更多的信息，每只爬行动物的轮廓都能够得到保留，这是由于ＲＬＰＰ采用了流形子空间学习技术，能够最大程度地保留原始数据的结构。对每种算法重复运行了１０次，表３给出了这些算法的平均表现。图２埃舍尔图数据集上的图像分割结果Ｆｉｇ．２ＩｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｒｅｓｕｌｔｓｏｎＥｓｃｈｅｒｉｍａｇｅｄａｔａ表３埃舍尔图数据集上两种算法的表现Ｔａｂｌｅ３ＣｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆｔｗｏａｌｇｏｒｉｔｈｍｓｏｎｔｈｅＥｓｃｈｅｒｉｍａｇｅｄａｔａ算法ＮＭＩ１２ＮＭＩ１３ＮＭＩ２３ＪＩ１２ＪＩ１３ＪＩ２３ＤＩ１２ＤＩ１３ＤＩ２３ＲｅｇＧＢ０．０５０．２７０．２６０．３９０．３３０．２８３．８１０．０５２．３８ＲＬＰＰ０．０３０．０６０．０１０．１９０．３９０．３４３．８１０．０２１．６０６．４ＣＭＵＦａｃｅ数据集使用ＵＣＩ数据库中的ＣＭＵＦａｃｅ数据集检验算法。ＣＭＵＦａｃｅ数据集包含２０个人的图像，每个人又分为不同的面部表情（正常、高兴、悲伤、生气），不同的头部朝向（向左、向右、向前、向上），不同眼部状况（睁开、墨镜）。每个人有３２张图片，包含了上述特征的组合。由于图片中的人的身份是已知的，因此身份信息可以作为参考聚类结果直接使用。随机选取了３个人的全部图像进行试验。图３显示的是聚类结果的平均值的图像。其中第１行是原始图像经由ｋ⁃ｍｅａｎｓ算法得到的平均值图像，第２行由ＲＬＰＰ算法得到，第３行和第４行由ＲＰＣＡ与ＲｅｇＧＢ算法得到。从图像上看，第１行聚类的依据是不同的人，其余３行聚类的依据是人不同的头部朝向。很明显，３种算法都从数据集中得到了另一组完全不同，但是第５期程旸，等：基于局部保留投影的多可选聚类发掘算法 ·６０５·

·606 智能系统学报第11卷同等重要的聚类结果。从图中可以看出，RLPP和 7结束语 RPCA的聚类效果最好，RegGB稍差。表4是这3 种算法的对比。本文提出了一种新的算法RLPP,采用子空间流表4 CMUFace数据集上3种算法的表现形学习技术，寻找可供选择的聚类结果。RLPP算 Table 4 Clustering performance of all algorithms for CM- 法的优势在于最终能够转化为特征分解问题，也就 UFace data 是说可以找到封闭解，并且子空间一定是全局最优算法 NMI F 的，这也是本文区别于其他相关研究的重要特点之 RPCA 0.0124 0.2941 0.7139 一。在文章中对RLPP算法进行了论证和实验，并对比了目前效果最好的著名算法。实验结果表明 RegGB 0.6690 0.4444 0.7512 RLPP算法的性能不输于甚至优于其他算法。对于 RLPP 0.0766 0.2151 0.7021 如何更好地选取最小特征值的个数k,以及如何降低算法在处理维数较大数据时的时间复杂度，都是继续研究的方向。参考文献： [1]DANG Xuanhong,BAILEY J.Generating multiple alterna- tive clusterings via globally optimal subspaces[J].Data (a)k-means算法基于不同人的聚类结果 mining and knowledge discovery,2014,28(3):569-592. [2]GRETTON A,BOUSQUET O,SMOLA A,et al.Measuring statistical dependence with Hilbert-Schmidt norms M]// JAIN S.SIMON H U.TOMITA E.Algorithmic Learning Theory.Berlin Heidelberg:Springer,2005:63-77 (b)RLPP算法基于头部朝向的聚类结果 [3]HE Xiaofei,NIYOGI X.Locality preserving projections [C]//Advances in Neural Information Processing Systems. Vancouver,Canada,2003,16:153-160. [4]BAE E,BAILEY J.COALA:a novel approach for the ex- traction of an alternate clustering of high quality and high dissimilarity[C]//Proceedings of the 6th International Con- (C)RPCA算法基于头部朝向的聚类结果 ference on Data Mining.Hong Kong,China,2006:53-62. 5]GONDEK D.HOFMANN T.Non-redundant data clustering []Knowledge and information systems,2007,12(1):1- [6]JAIN P,MEKA R,DHILLON I S.Simultaneous unsuper- vised learning of disparate clusterings[.Statistical analy- (d)RegGB算法基于头部朝向的聚类结果 sis and data mining:the ASA data science journal,2008,1 图3 CMUFace数据集上的运行结果 (3):195-210. Fig.3 Results on CMUFace data [7]DANG Xuanhong,BAILEY J.Generation of alternative 6.5算法运行时间 clusterings using the CAMI approach[C]//Proceedings of the SIAM International Conference on Data Mining,SDM 实验均在MARTLAB8.1.0.604(R2013a)平台下 2010.Columbus,0hio.USA,2010.10:118-129. 完成，操作系统为4位Windows7,CPU为Intel(R) [8]DANG Xuanhong,BAILEY J.A hierarchical information Core(TM)i3-32403.40GHz,内存为4GB。 theoretic technique for the discovery of non linear alternative 对于人工数据集Synl和Svn2,RLPP算法发掘 clusterings[C]//Proceedings of the 16th ACM SIGKDD In- 出一个可供选择的聚类结果分别耗时3.4s和2.9s。 ternational Conference on Knowledge Discovery and Data 对于Esher图，由于聚类之前需要进行图像一维化 Mining.Washington,DC,USA,2010:573-582 处理，因此数据集的维数很大，共耗时136s。对于 [9]VINH N X,EPPS J.MinCEntropy:a novel information the- CMUFace数据集，RLPP算法找到一个可供选择的 oretic approach for the generation of alternative clusterings 聚类结果共耗时2.7s。以上运行时间均为运行10 [C]//Proceedings of the IEEE International Conference on Data Mining.Sydney,Australia,2010:521-530 次试验的平均时间。 [10]COVER T M,THOMAS J A.Elements of information theo- 上述运行时间表明本文算法在合适的数据集上 ry[M].Chichester:John Wiley Sons,2012. 是完全适用的，但是在数据集规模很大的情况下，仍 [11]KAPUR J N.Measures of information and their applica- 存有改进的空间。 tions[M].New York:Wiley-Interscience,1994

同等重要的聚类结果。从图中可以看出，ＲＬＰＰ和ＲＰＣＡ的聚类效果最好，ＲｅｇＧＢ稍差。表４是这３种算法的对比。表４ＣＭＵＦａｃｅ数据集上３种算法的表现Ｔａｂｌｅ４ＣｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆａｌｌａｌｇｏｒｉｔｈｍｓｆｏｒＣＭ⁃ ＵＦａｃｅｄａｔａ算法ＮＭＩＪＩＦＲＰＣＡ０．０１２４０．２９４１０．７１３９ＲｅｇＧＢ０．６６９００．４４４４０．７５１２ＲＬＰＰ０．０７６６０．２１５１０．７０２１图３ＣＭＵＦａｃｅ数据集上的运行结果Ｆｉｇ．３ＲｅｓｕｌｔｓｏｎＣＭＵＦａｃｅｄａｔａ６．５算法运行时间实验均在ＭＡＲＴＬＡＢ８．１．０．６０４（Ｒ２０１３ａ）平台下完成，操作系统为６４位Ｗｉｎｄｏｗｓ７，ＣＰＵ为Ｉｎｔｅｌ（Ｒ）Ｃｏｒｅ（ＴＭ）ｉ３⁃３２４０３．４０ＧＨｚ，内存为４ＧＢ。对于人工数据集Ｓｙｎ１和Ｓｙｎ２，ＲＬＰＰ算法发掘出一个可供选择的聚类结果分别耗时３．４ｓ和２．９ｓ。对于Ｅｓｈｅｒ图，由于聚类之前需要进行图像一维化处理，因此数据集的维数很大，共耗时１３６ｓ。对于ＣＭＵＦａｃｅ数据集，ＲＬＰＰ算法找到一个可供选择的聚类结果共耗时２．７ｓ。以上运行时间均为运行１０次试验的平均时间。上述运行时间表明本文算法在合适的数据集上是完全适用的，但是在数据集规模很大的情况下，仍存有改进的空间。７结束语本文提出了一种新的算法ＲＬＰＰ，采用子空间流形学习技术，寻找可供选择的聚类结果。ＲＬＰＰ算法的优势在于最终能够转化为特征分解问题，也就是说可以找到封闭解，并且子空间一定是全局最优的，这也是本文区别于其他相关研究的重要特点之一。在文章中对ＲＬＰＰ算法进行了论证和实验，并对比了目前效果最好的著名算法。实验结果表明ＲＬＰＰ算法的性能不输于甚至优于其他算法。对于如何更好地选取最小特征值的个数ｋ，以及如何降低算法在处理维数较大数据时的时间复杂度，都是继续研究的方向。参考文献：［１］ＤＡＮＧＸｕａｎｈｏｎｇ，ＢＡＩＬＥＹＪ．Ｇｅｎｅｒａｔｉｎｇｍｕｌｔｉｐｌｅａｌｔｅｒｎａ⁃ ｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｖｉａｇｌｏｂａｌｌｙｏｐｔｉｍａｌｓｕｂｓｐａｃｅｓ［Ｊ］．Ｄａｔａｍｉｎｉｎｇａｎｄｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙ，２０１４，２８（３）：５６９⁃５９２．［２］ＧＲＥＴＴＯＮＡ，ＢＯＵＳＱＵＥＴＯ，ＳＭＯＬＡＡ，ｅｔａｌ．ＭｅａｓｕｒｉｎｇｓｔａｔｉｓｔｉｃａｌｄｅｐｅｎｄｅｎｃｅｗｉｔｈＨｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔｎｏｒｍｓ［Ｍ］／／ＪＡＩＮＳ，ＳＩＭＯＮＨＵ，ＴＯＭＩＴＡＥ．ＡｌｇｏｒｉｔｈｍｉｃＬｅａｒｎｉｎｇＴｈｅｏｒｙ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００５：６３⁃７７．［３］ＨＥＸｉａｏｆｅｉ，ＮＩＹＯＧＩＸ．Ｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，２００３，１６：１５３⁃１６０．［４］ＢＡＥＥ，ＢＡＩＬＥＹＪ．ＣＯＡＬＡ：ａｎｏｖｅｌａｐｐｒｏａｃｈｆｏｒｔｈｅｅｘ⁃ ｔｒａｃｔｉｏｎｏｆａｎａｌｔｅｒｎａｔｅｃｌｕｓｔｅｒｉｎｇｏｆｈｉｇｈｑｕａｌｉｔｙａｎｄｈｉｇｈｄｉｓｓｉｍｉｌａｒｉｔｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ，２００６：５３⁃６２．［５］ＧＯＮＤＥＫＤ，ＨＯＦＭＡＮＮＴ．Ｎｏｎ⁃ｒｅｄｕｎｄａｎｔｄａｔａｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｋｎｏｗｌｅｄｇｅａｎｄｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ，２００７，１２（１）：１⁃ ２４．［６］ＪＡＩＮＰ，ＭＥＫＡＲ，ＤＨＩＬＬＯＮＩＳ．Ｓｉｍｕｌｔａｎｅｏｕｓｕｎｓｕｐｅｒ⁃ ｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｄｉｓｐａｒａｔｅｃｌｕｓｔｅｒｉｎｇｓ［Ｊ］．Ｓｔａｔｉｓｔｉｃａｌａｎａｌｙ⁃ ｓｉｓａｎｄｄａｔａｍｉｎｉｎｇ：ｔｈｅＡＳＡｄａｔａｓｃｉｅｎｃｅｊｏｕｒｎａｌ，２００８，１（３）：１９５⁃２１０．［７］ＤＡＮＧＸｕａｎｈｏｎｇ，ＢＡＩＬＥＹＪ．ＧｅｎｅｒａｔｉｏｎｏｆａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｕｓｉｎｇｔｈｅＣＡＭＩａｐｐｒｏａｃｈ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳＩＡＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ，ＳＤＭ２０１０．Ｃｏｌｕｍｂｕｓ，Ｏｈｉｏ，ＵＳＡ，２０１０，１０：１１８⁃１２９．［８］ＤＡＮＧＸｕａｎｈｏｎｇ，ＢＡＩＬＥＹＪ．Ａｈｉｅｒａｒｃｈｉｃａｌｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｅｔｉｃｔｅｃｈｎｉｑｕｅｆｏｒｔｈｅｄｉｓｃｏｖｅｒｙｏｆｎｏｎｌｉｎｅａｒａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＡＣＭＳＩＧＫＤＤＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ，２０１０：５７３⁃５８２．［９］ＶＩＮＨＮＸ，ＥＰＰＳＪ．ＭｉｎＣＥｎｔｒｏｐｙ：ａｎｏｖｅｌｉｎｆｏｒｍａｔｉｏｎｔｈｅ⁃ ｏｒｅｔｉｃａｐｐｒｏａｃｈｆｏｒｔｈｅｇｅｎｅｒａｔｉｏｎｏｆａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２０１０：５２１⁃５３０．［１０］ＣＯＶＥＲＴＭ，ＴＨＯＭＡＳＪＡ．Ｅｌｅｍｅｎｔｓｏｆｉｎｆｏｒｍａｔｉｏｎｔｈｅｏ⁃ ｒｙ［Ｍ］．Ｃｈｉｃｈｅｓｔｅｒ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，２０１２．［１１］ＫＡＰＵＲＪＮ．Ｍｅａｓｕｒｅｓｏｆｉｎｆｏｒｍａｔｉｏｎａｎｄｔｈｅｉｒａｐｐｌｉｃａ⁃ ｔｉｏｎｓ［Ｍ］．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ⁃Ｉｎｔｅｒｓｃｉｅｎｃｅ，１９９４． ·６０６· 智能系统学报第１１卷

第5期程肠，等：基于局部保留投影的多可选聚类发掘算法 ·607· [12]PRINCIPE J C,XU D,FISHER J.Information theoretic [18]NIU Donglin,DY J G,JORDAN M I.Multiple non-redun- learning[M]//HAYKIN S.Unsupervised Adaptive Filte- dant spectral clustering views C]//Proceedings of the ring.New York:Wiley,2000,1:265-319. 27th International Conference on Machine Learning.Haifa, [13]PARZEN E.On estimation of a probability density function Israel.2010:831-838 and mode J].The annals of mathematical statistics, 作者简介： 1962,33(3):1065-1076. 程肠，男，1991年生，硕士研究生 [14]CUI Ying,FERN X Z,DY J G.Non-redundant multi-view 主要研究方向为人工智能与模式识别、 clustering via orthogonalization [C]//Proceedings of the 数据挖掘。 7th IEEE International Conference on Data Mining.Oma- ha,Nebraska,USA,2007:133-142. [15]DAVIDSON I,QI Zijie.Finding alternative clusterings u- sing constraints[C]//Proceedings of the 8th IEEE Interna- tional Conference on Data Mining.Pisa,Italy,2008:773- 778. 王士同，男，1964年生，教授，博士 [16]QI Zijie,DAVIDSON I.A principled and flexible frame- 生导师，中国离散数学学会常务理事， work for finding alternative clusterings [C]//Proceedings 中国机器学习学会常务理事。主要研 of the 15th ACM SIGKDD International Conference on 究方向为人工智能、模式识别和图像处 Knowledge Discovery and Data Mining.Paris,France, 理。发表学术论文近百篇，其中被SC、 2009:717-726. EI检索50余篇。 [17]DASGUPTA S,NG V.Mining clustering dimensions [C]//Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel,2010:263-270. 第2届物联网，大数据和安全国际会议 2nd International Conference on Internet of Things, Big Data and Security 24-26 April,2017,Porto,Portugal Internet of Things(IoT)is a platform and a phenomenon that allows everything to process information,commu- nicate data,analyze context collaboratively and in the service or individuals,organizations and businesses.In the process of doing so,a large amount of data with different formats and content has to be processed efficiently,quick- ly and intelligently through advanced algorithms,techniques,models and tools.This new paradigm is enabled by the maturity of several different technologies,including the internet,wireless communication,cloud computing, sensors,big data analytics and machine learning algorithms. Big Data is another paradigm to describe processing of data to make it make sense'to people using loT.Big Data has five characteristics:volume,velocity,variety,veracity and value.There are reports that businesses and research communities equipped with Big Data skills can provide additional incentives,opportunities,funding and innovation to their long-term strategies.The new knowledge,tools,practices,and infrastructures produced will en- able breakthrough discoveries and innovation in physical science,engineering,mobile services,medicine,busi- ness,education,earth science,security and risk analysis.For organizations that adopt Big Data,the boundary be- tween the use of private clouds,public clouds,IoT is sometimes very thin to allow better access,performance and efficiency of analyzing the data and understanding the data analysis.A common approach is to develop Big Data in the loT to deliver "Everything as a Service".In the process of doing so,innovative services known as "Emerging Services and Analytics"can be the highlight and strategic solutions to organizations adopting IoT and Big Data. Website:http://www.iotbd.org/?y=2017

［１２］ＰＲＩＮＣＩＰＥＪＣ，ＸＵＤ，ＦＩＳＨＥＲＪ．Ｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｅｔｉｃｌｅａｒｎｉｎｇ［Ｍ］／／ＨＡＹＫＩＮＳ．ＵｎｓｕｐｅｒｖｉｓｅｄＡｄａｐｔｉｖｅＦｉｌｔｅ⁃ ｒｉｎｇ．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ，２０００，１：２６５⁃３１９．［１３］ＰＡＲＺＥＮＥ．Ｏｎｅｓｔｉｍａｔｉｏｎｏｆａｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎａｎｄｍｏｄｅ［Ｊ］．Ｔｈｅａｎｎａｌｓｏｆｍａｔｈｅｍａｔｉｃａｌｓｔａｔｉｓｔｉｃｓ，１９６２，３３（３）：１０６５⁃１０７６．［１４］ＣＵＩＹｉｎｇ，ＦＥＲＮＸＺ，ＤＹＪＧ．Ｎｏｎ⁃ｒｅｄｕｎｄａｎｔｍｕｌｔｉ⁃ｖｉｅｗｃｌｕｓｔｅｒｉｎｇｖｉａｏｒｔｈｏｇｏｎａｌｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．Ｏｍａ⁃ ｈａ，Ｎｅｂｒａｓｋａ，ＵＳＡ，２００７：１３３⁃１４２．［１５］ＤＡＶＩＤＳＯＮＩ，ＱＩＺｉｊｉｅ．Ｆｉｎｄｉｎｇａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｕ⁃ ｓｉｎｇｃｏｎｓｔｒａｉｎｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ８ｔｈＩＥＥＥＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．Ｐｉｓａ，Ｉｔａｌｙ，２００８：７７３⁃ ７７８．［１６］ＱＩＺｉｊｉｅ，ＤＡＶＩＤＳＯＮＩ．Ａｐｒｉｎｃｉｐｌｅｄａｎｄｆｌｅｘｉｂｌｅｆｒａｍｅ⁃ ｗｏｒｋｆｏｒｆｉｎｄｉｎｇａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｐａｒｉｓ，Ｆｒａｎｃｅ，２００９：７１７⁃７２６．［１７］ＤＡＳＧＵＰＴＡＳ，ＮＧＶ．Ｍｉｎｉｎｇｃｌｕｓｔｅｒｉｎｇｄｉｍｅｎｓｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｈａｉｆａ，Ｉｓｒａｅｌ，２０１０：２６３⁃２７０．［１８］ＮＩＵＤｏｎｇｌｉｎ，ＤＹＪＧ，ＪＯＲＤＡＮＭＩ．Ｍｕｌｔｉｐｌｅｎｏｎ⁃ｒｅｄｕｎ⁃ ｄａｎｔｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｈａｉｆａ，Ｉｓｒａｅｌ，２０１０：８３１⁃８３８．作者简介：程旸，男，１９９１年生，硕士研究生，主要研究方向为人工智能与模式识别、数据挖掘。王士同，男，１９６４年生，教授，博士生导师，中国离散数学学会常务理事，中国机器学习学会常务理事。主要研究方向为人工智能、模式识别和图像处理。发表学术论文近百篇，其中被ＳＣＩ、ＥＩ检索５０余篇。第２届物联网，大数据和安全国际会议２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ，ＢｉｇＤａｔａａｎｄＳｅｃｕｒｉｔｙ２４－２６Ａｐｒｉｌ，２０１７，Ｐｏｒｔｏ，ＰｏｒｔｕｇａｌＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ（ＩｏＴ）ｉｓａｐｌａｔｆｏｒｍａｎｄａｐｈｅｎｏｍｅｎｏｎｔｈａｔａｌｌｏｗｓｅｖｅｒｙｔｈｉｎｇｔｏｐｒｏｃｅｓｓｉｎｆｏｒｍａｔｉｏｎ，ｃｏｍｍｕ⁃ ｎｉｃａｔｅｄａｔａ，ａｎａｌｙｚｅｃｏｎｔｅｘｔｃｏｌｌａｂｏｒａｔｉｖｅｌｙａｎｄｉｎｔｈｅｓｅｒｖｉｃｅｏｒｉｎｄｉｖｉｄｕａｌｓ，ｏｒｇａｎｉｚａｔｉｏｎｓａｎｄｂｕｓｉｎｅｓｓｅｓ．Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｄｏｉｎｇｓｏ，ａｌａｒｇｅａｍｏｕｎｔｏｆｄａｔａｗｉｔｈｄｉｆｆｅｒｅｎｔｆｏｒｍａｔｓａｎｄｃｏｎｔｅｎｔｈａｓｔｏｂｅｐｒｏｃｅｓｓｅｄｅｆｆｉｃｉｅｎｔｌｙ，ｑｕｉｃｋ⁃ ｌｙａｎｄｉｎｔｅｌｌｉｇｅｎｔｌｙｔｈｒｏｕｇｈａｄｖａｎｃｅｄａｌｇｏｒｉｔｈｍｓ，ｔｅｃｈｎｉｑｕｅｓ，ｍｏｄｅｌｓａｎｄｔｏｏｌｓ．Ｔｈｉｓｎｅｗｐａｒａｄｉｇｍｉｓｅｎａｂｌｅｄｂｙｔｈｅｍａｔｕｒｉｔｙｏｆｓｅｖｅｒａｌｄｉｆｆｅｒｅｎｔｔｅｃｈｎｏｌｏｇｉｅｓ，ｉｎｃｌｕｄｉｎｇｔｈｅｉｎｔｅｒｎｅｔ，ｗｉｒｅｌｅｓｓｃｏｍｍｕｎｉｃａｔｉｏｎ，ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ，ｓｅｎｓｏｒｓ，ｂｉｇｄａｔａａｎａｌｙｔｉｃｓａｎｄｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ．ＢｉｇＤａｔａｉｓａｎｏｔｈｅｒｐａｒａｄｉｇｍｔｏｄｅｓｃｒｉｂｅｐｒｏｃｅｓｓｉｎｇｏｆｄａｔａｔｏｍａｋｅｉｔ ‘ｍａｋｅｓｅｎｓｅ’ ｔｏｐｅｏｐｌｅｕｓｉｎｇＩｏＴ．ＢｉｇＤａｔａｈａｓｆｉｖｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ：ｖｏｌｕｍｅ，ｖｅｌｏｃｉｔｙ，ｖａｒｉｅｔｙ，ｖｅｒａｃｉｔｙａｎｄｖａｌｕｅ．ＴｈｅｒｅａｒｅｒｅｐｏｒｔｓｔｈａｔｂｕｓｉｎｅｓｓｅｓａｎｄｒｅｓｅａｒｃｈｃｏｍｍｕｎｉｔｉｅｓｅｑｕｉｐｐｅｄｗｉｔｈＢｉｇＤａｔａｓｋｉｌｌｓｃａｎｐｒｏｖｉｄｅａｄｄｉｔｉｏｎａｌｉｎｃｅｎｔｉｖｅｓ，ｏｐｐｏｒｔｕｎｉｔｉｅｓ，ｆｕｎｄｉｎｇａｎｄｉｎｎｏｖａｔｉｏｎｔｏｔｈｅｉｒｌｏｎｇ－ｔｅｒｍｓｔｒａｔｅｇｉｅｓ．Ｔｈｅｎｅｗｋｎｏｗｌｅｄｇｅ，ｔｏｏｌｓ，ｐｒａｃｔｉｃｅｓ，ａｎｄｉｎｆｒａｓｔｒｕｃｔｕｒｅｓｐｒｏｄｕｃｅｄｗｉｌｌｅｎ⁃ ａｂｌｅｂｒｅａｋｔｈｒｏｕｇｈｄｉｓｃｏｖｅｒｉｅｓａｎｄｉｎｎｏｖａｔｉｏｎｉｎｐｈｙｓｉｃａｌｓｃｉｅｎｃｅ，ｅｎｇｉｎｅｅｒｉｎｇ，ｍｏｂｉｌｅｓｅｒｖｉｃｅｓ，ｍｅｄｉｃｉｎｅ，ｂｕｓｉ⁃ ｎｅｓｓ，ｅｄｕｃａｔｉｏｎ，ｅａｒｔｈｓｃｉｅｎｃｅ，ｓｅｃｕｒｉｔｙａｎｄｒｉｓｋａｎａｌｙｓｉｓ．ＦｏｒｏｒｇａｎｉｚａｔｉｏｎｓｔｈａｔａｄｏｐｔＢｉｇＤａｔａ，ｔｈｅｂｏｕｎｄａｒｙｂｅ⁃ ｔｗｅｅｎｔｈｅｕｓｅｏｆｐｒｉｖａｔｅｃｌｏｕｄｓ，ｐｕｂｌｉｃｃｌｏｕｄｓ，ＩｏＴｉｓｓｏｍｅｔｉｍｅｓｖｅｒｙｔｈｉｎｔｏａｌｌｏｗｂｅｔｔｅｒａｃｃｅｓｓ，ｐｅｒｆｏｒｍａｎｃｅａｎｄｅｆｆｉｃｉｅｎｃｙｏｆａｎａｌｙｚｉｎｇｔｈｅｄａｔａａｎｄｕｎｄｅｒｓｔａｎｄｉｎｇｔｈｅｄａｔａａｎａｌｙｓｉｓ．ＡｃｏｍｍｏｎａｐｐｒｏａｃｈｉｓｔｏｄｅｖｅｌｏｐＢｉｇＤａｔａｉｎｔｈｅＩｏＴｔｏｄｅｌｉｖｅｒ “ＥｖｅｒｙｔｈｉｎｇａｓａＳｅｒｖｉｃｅ”．Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｄｏｉｎｇｓｏ，ｉｎｎｏｖａｔｉｖｅｓｅｒｖｉｃｅｓｋｎｏｗｎａｓ “ＥｍｅｒｇｉｎｇＳｅｒｖｉｃｅｓａｎｄＡｎａｌｙｔｉｃｓ” ｃａｎｂｅｔｈｅｈｉｇｈｌｉｇｈｔａｎｄｓｔｒａｔｅｇｉｃｓｏｌｕｔｉｏｎｓｔｏｏｒｇａｎｉｚａｔｉｏｎｓａｄｏｐｔｉｎｇＩｏＴａｎｄＢｉｇＤａｔａ．Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｗｗｗ．ｉｏｔｂｄ．ｏｒｇ／？ｙ＝２０１７第５期程旸，等：基于局部保留投影的多可选聚类发掘算法 ·６０７·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录