【机器学习】结合度量融合和地标表示的自编码谱聚类算法

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：3.49MB

第15卷第4期智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.201911039 结合度量融合和地标表示的自编码谱聚类算法张敏，周治平2 (1.江南大学物联网工程学院，江苏无锡214122,2.江南大学物联网技术应用教育部工程研究中心，江苏无锡214122) 摘要：针对大多数现有谱聚类算法处理大规模数据集时面临聚类精度低、大规模相似度矩阵存储开销大的问题，提出一种结合度量融合和地标表示的自编码谱聚类算法。引入相对质量概念进行节点评估，选取最具代表性的点作为地标点，通过稀疏表示近似获得图相似度矩阵，以降低存储开销。同时考虑到近邻样本的几何分布和拓扑分布的信息，融合欧氏距离与Kendall Tau距离来度量地标点与其他样本之间的相似度，提高聚类精度：以栈式自编码器取代拉普拉斯矩阵特征分解，将所获得的相似度矩阵作为自编码器的输入，通过联合学习嵌入表示和聚类来进一步提高聚类精度。在5个大规模数据集上的实验验证了本文算法的有效性。关键词：大规模数据集；度量融合：地标表示：相对质量：稀疏表示：栈式自编码器：联合学习：嵌入表示中图分类号：TP18文献标志码：A文章编号：1673-4785(2020)04-0687-10 中文引用格式：张敏，周治平.结合度量融合和地标表示的自编码谱聚类算法，智能系统学报，2020,15(4)：687-696. 英文引用格式：ZHANG Min,ZHOU Zhiping.An autoencoder-based spectral clustering algorithm combined with metric fusion and landmark representation[J].CAAI transactions on intelligent systems,2020,15(4):687-696. An autoencoder-based spectral clustering algorithm combined with metric fusion and landmark representation ZHANG Min',ZHOU Zhiping2 (1.School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China;2.Engineering Research Center of Internet of Things Technology Applications Ministry of Education,Jiangnan University,Wuxi 214122,China) Abstract:Most existing spectral clustering algorithms are faced with low clustering accuracy and costly large-scale sim- ilarity matrix storage.Aiming at these problems,this paper proposes an autoencoder-based spectral clustering algorithm combined with metric fusion and landmark representation.First,instead of random sampling,the concept of relative mass is introduced to evaluate node quality.Based on this,the most representative nodes are selected as the landmark points and the graph similarity matrix is approximately obtained by sparse representation.Meanwhile,considering the geometric and topological distribution of the nearest neighbor samples,the Euclidean distance and Kendall Tau distance are integrated to measure the similarity between the landmarks and the other points,so as to increase the clustering pre- cision.A stacked autoencoder is then used to replace the Laplace matrix eigen-decomposition,and the obtained similar- ity matrix is taken as the autoencoder's input.The clustering accuracy is further improved by joint learning of embed- ded representation and clustering.Experiments on five large-scale datasets validate the effectiveness of our algorithm. Keywords:large-scale datasets;metric fusion;landmark representation;relative mass;sparse representation;stacked au- toencoder;joint learning;embedded representation 聚类旨在根据数据点之间的相似性将其划分算法，缺乏处理复杂数据结构的能力，当样本空到不同的簇，使簇内相似度最大，簇间相似度最间非凸时，易陷入局部最优。近年来，谱聚类算小u。传统聚类方法如K-means算法和模糊聚类法因其可在任意形状空间内进行聚类，并收敛到收稿日期：2019-12-02. 全局最优，在非凸数据集表现出良好聚类性能，通信作者：张敏.E-mail:150618823731@163.com 在人脸识别、社区检测、图像分割等领域有着广

DOI: 10.11992/tis.201911039 结合度量融合和地标表示的自编码谱聚类算法张敏1 ，周治平1,2 （1. 江南大学物联网工程学院，江苏无锡 214122; 2. 江南大学物联网技术应用教育部工程研究中心，江苏无锡 214122）摘要：针对大多数现有谱聚类算法处理大规模数据集时面临聚类精度低、大规模相似度矩阵存储开销大的问题，提出一种结合度量融合和地标表示的自编码谱聚类算法。引入相对质量概念进行节点评估，选取最具代表性的点作为地标点，通过稀疏表示近似获得图相似度矩阵，以降低存储开销。同时考虑到近邻样本的几何分布和拓扑分布的信息，融合欧氏距离与 Kendall Tau 距离来度量地标点与其他样本之间的相似度，提高聚类精度；以栈式自编码器取代拉普拉斯矩阵特征分解，将所获得的相似度矩阵作为自编码器的输入，通过联合学习嵌入表示和聚类来进一步提高聚类精度。在 5 个大规模数据集上的实验验证了本文算法的有效性。关键词：大规模数据集；度量融合；地标表示；相对质量；稀疏表示；栈式自编码器；联合学习；嵌入表示中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2020)04−0687−10 中文引用格式：张敏, 周治平. 结合度量融合和地标表示的自编码谱聚类算法 [J]. 智能系统学报, 2020, 15(4): 687–696. 英文引用格式：ZHANG Min, ZHOU Zhiping. An autoencoder-based spectral clustering algorithm combined with metric fusion and landmark representation[J]. CAAI transactions on intelligent systems, 2020, 15(4): 687–696. An autoencoder-based spectral clustering algorithm combined with metric fusion and landmark representation ZHANG Min1 ，ZHOU Zhiping1,2 (1. School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China; 2. Engineering Research Center of Internet of Things Technology Applications Ministry of Education, Jiangnan University, Wuxi 214122, China) Abstract: Most existing spectral clustering algorithms are faced with low clustering accuracy and costly large-scale similarity matrix storage. Aiming at these problems, this paper proposes an autoencoder-based spectral clustering algorithm combined with metric fusion and landmark representation. First, instead of random sampling, the concept of relative mass is introduced to evaluate node quality. Based on this, the most representative nodes are selected as the landmark points and the graph similarity matrix is approximately obtained by sparse representation. Meanwhile, considering the geometric and topological distribution of the nearest neighbor samples,the Euclidean distance and Kendall Tau distance are integrated to measure the similarity between the landmarks and the other points, so as to increase the clustering precision. A stacked autoencoder is then used to replace the Laplace matrix eigen-decomposition, and the obtained similarity matrix is taken as the autoencoder’s input. The clustering accuracy is further improved by joint learning of embedded representation and clustering. Experiments on five large-scale datasets validate the effectiveness of our algorithm. Keywords: large-scale datasets; metric fusion; landmark representation; relative mass; sparse representation; stacked autoencoder; joint learning; embedded representation 聚类旨在根据数据点之间的相似性将其划分到不同的簇，使簇内相似度最大，簇间相似度最小 [1]。传统聚类方法如 K-means 算法和模糊聚类算法，缺乏处理复杂数据结构的能力，当样本空间非凸时，易陷入局部最优。近年来，谱聚类算法因其可在任意形状空间内进行聚类，并收敛到全局最优，在非凸数据集表现出良好聚类性能，在人脸识别、社区检测、图像分割等领域有着广收稿日期：2019−12−02. 通信作者：张敏. E-mail：15061882373_1@163.com. 第 15 卷第 4 期智能系统学报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020

·688… 智能系统学报第15卷泛的应用。均值优化Ncut的目标函数，避免拉普拉斯矩阵的谱聚类将聚类问题转化为图分割问题)，通直接特征分解。Tian等i6证明了自编码器和谱过寻找最优子图对数据点进行划分。但现存的多聚类之间的相似性，利用栈式自编码器代替特征数谱聚类算法在处理大规模数据集时，涉及相似分解，有效降低计算复杂度。Banijamali等度矩阵构造和对应的拉普拉斯矩阵分解，往往需提出将深层结构与地标表示相结合，实现快速且要高昂的时空开销，高计算成本成为制约其在大准确的聚类。但上述提及的谱聚类算法均使用传规模场景应用中的瓶颈。为实现对大规模数据统基于欧氏距离度量方案，并不能完全反映数据的高效聚类分析，提升谱聚类算法的扩展性，大复杂的空间分布特性。光俊叶等割提出融合欧量研究方法被提出。Nystrom扩展作为一种近似氏距离和Kendall Tau距离的谱聚类方法，充分利低秩矩阵的有效方法，利用抽样技术，减少特征用不同相似性度量从不同角度获取数据信息的优分解复杂度。针对抽样策略的选择，Zhan等势，全面反映底层结构信息。设计了一种自适应的Nystrom采样方法，通过多本文在地标点采样8的理论基础上，采用基次遍历并更新抽样概率，选取更有意义的样本于网页质量的PageRank算法计算节点的重要性，点，以较小的抽样集获得理想的聚类效果。考虑作为抽样策略依据代替随机抽样，选取代表点作到高斯核参数调整问题，Yang等提出一种基于为地标点，通过稀硫表示近似获得图相似度矩层次二部图的谱聚类算法，通过金字塔结构式的阵，以降低存储开销。同时为全面反映数据底层多层锚点构造层次二部图降低计算复杂度，此外结构信息，将欧氏距离与Kendall Tau距离两种度采用无参数邻接分配策略构造相似度矩阵，避免量方案融合，用局部标准差代替特定的缩放尺参数调优过程。蔡登等⑧-提出基于地标表示的度，构造融合多度量方式的自适应相似度矩阵，研究，择取具有代表性的数据点作为地标点，通以提高聚类精度。此外，用栈式自编码器代替特过地标点的稀疏线性组合近似构造图相似度矩征分解，在联合学习框架中进行嵌入表示学习和阵，从而有效降低谱嵌入的计算复杂度，该算法聚类，避免微调环节覆盖之前所得最优参数，从一定程度上解决了矩阵存储开销问题，但其随机而进一步提高聚类精度。采样确定地标点的方式会造成聚类结果的不稳定，故而地标点的选取为算法的关键。叶茂等 1相关算法理论利用由近似奇异向量的长度计算的抽样概率来进 1.1基于QPR的地标选择行抽样，以保证聚类结果的稳定性和精度。 PageRank算法采用平均分配思想，将节点权 Zhang等川提出一种基于增量视角的抽样框架，重划分给人链节点，忽略节点质量存在差异性，每一个要抽样的点是由先前选定的地标点决定，改进后的加权PageRank算法通过传入链路权重在地标点之间建立显式关系。但这些改进的方法在择取地标点时都忽略了节点的拓扑属性，其可 wa及传出链路权重w,2个参数1，依据网络结构有区分地进行权值分配，但该参数在迭代过有效描述亲和图整体结构特性，对于捕捉高维数据空间的拓扑信息有着重要意义。故邓思雨等叫程中是固定存在的，存在局限性。基于网页质量将PageRank分值作为样本信息量的度量指标，的PageRank算法(page quality based PageRank al- Rafailid等l)提出一种基于地标选择的快速谱聚 gorithm,QPR)定义了相对质量Q(a,用于迭代过程协助分配PR值，动态评估每个节点的质量，其类算法，根据加权PageRank算法选择亲和图中最计算公式为重要的节点作为地标点。Liu等将数据点视为 PR(a) web页面，数据点之间的距离类似为链路间的权 Q(a)= 重，采用PageRank算法评估数据点的重要性，选 PR(b) MPR(a) (1) 择代表点。该方法能够区分球状和非球状的簇，且减少噪声点的负面影响。以上这些改进的谱聚 MPR(a)=max PR(b heB(a) 类算法虽然降低了计算复杂度，仍然需要对矩阵式中：B(a)表示节点a的入链节点集合：MPR(a) 进行特征分解。Jia等设计了一种无需特征分表示a的入链节点集合中的最大PR值。相对质解的大规模近似Ncut谱聚类算法，一方面通过对量Q(a)将迭代过程中a的人链集合与其本身的数据点的采样推断数据集的全局特征，减少归一 PR值信息结合，对于具有相同PR值的节点，拥化切割的空间需求，另一方面利用近似加权核k 有较大入链PR值的节点将得到加权，从而在下

泛的应用[2]。谱聚类将聚类问题转化为图分割问题[3] ，通过寻找最优子图对数据点进行划分。但现存的多数谱聚类算法在处理大规模数据集时，涉及相似度矩阵构造和对应的拉普拉斯矩阵分解，往往需要高昂的时空开销，高计算成本成为制约其在大规模场景应用中的瓶颈[4]。为实现对大规模数据的高效聚类分析，提升谱聚类算法的扩展性，大量研究方法被提出。Nyström 扩展作为一种近似低秩矩阵的有效方法，利用抽样技术，减少特征分解复杂度[5]。针对抽样策略的选择，Zhan 等 [6] 设计了一种自适应的 Nyström 采样方法，通过多次遍历并更新抽样概率，选取更有意义的样本点，以较小的抽样集获得理想的聚类效果。考虑到高斯核参数调整问题，Yang 等 [7] 提出一种基于层次二部图的谱聚类算法，通过金字塔结构式的多层锚点构造层次二部图降低计算复杂度，此外采用无参数邻接分配策略构造相似度矩阵，避免参数调优过程。蔡登等[8-9] 提出基于地标表示的研究，择取具有代表性的数据点作为地标点，通过地标点的稀疏线性组合近似构造图相似度矩阵，从而有效降低谱嵌入的计算复杂度，该算法一定程度上解决了矩阵存储开销问题，但其随机采样确定地标点的方式会造成聚类结果的不稳定，故而地标点的选取为算法的关键。叶茂等[10] 利用由近似奇异向量的长度计算的抽样概率来进行抽样，以保证聚类结果的稳定性和精度。 Zhang 等 [11] 提出一种基于增量视角的抽样框架，每一个要抽样的点是由先前选定的地标点决定，在地标点之间建立显式关系。但这些改进的方法在择取地标点时都忽略了节点的拓扑属性，其可有效描述亲和图整体结构特性，对于捕捉高维数据空间的拓扑信息有着重要意义。故邓思雨等[12] 将 PageRank 分值作为样本信息量的度量指标， Rafailid 等 [13] 提出一种基于地标选择的快速谱聚类算法，根据加权 PageRank 算法选择亲和图中最重要的节点作为地标点。Liu 等 [14] 将数据点视为 web 页面，数据点之间的距离类似为链路间的权重，采用 PageRank 算法评估数据点的重要性，选择代表点。该方法能够区分球状和非球状的簇，且减少噪声点的负面影响。以上这些改进的谱聚类算法虽然降低了计算复杂度，仍然需要对矩阵进行特征分解。Jia 等 [15] 设计了一种无需特征分解的大规模近似 Ncut 谱聚类算法，一方面通过对数据点的采样推断数据集的全局特征，减少归一化切割的空间需求，另一方面利用近似加权核 k- 均值优化 Ncut 的目标函数，避免拉普拉斯矩阵的直接特征分解。Tian 等 [16] 证明了自编码器和谱聚类之间的相似性，利用栈式自编码器代替特征分解，有效降低计算复杂度。Banijamali 等 [ 1 7 ] 提出将深层结构与地标表示相结合，实现快速且准确的聚类。但上述提及的谱聚类算法均使用传统基于欧氏距离度量方案，并不能完全反映数据复杂的空间分布特性。光俊叶等[18] 提出融合欧氏距离和 Kendall Tau 距离的谱聚类方法，充分利用不同相似性度量从不同角度获取数据信息的优势，全面反映底层结构信息。本文在地标点采样[8-9] 的理论基础上，采用基于网页质量的 PageRank 算法计算节点的重要性，作为抽样策略依据代替随机抽样，选取代表点作为地标点，通过稀疏表示近似获得图相似度矩阵，以降低存储开销。同时为全面反映数据底层结构信息，将欧氏距离与 Kendall Tau 距离两种度量方案融合，用局部标准差代替特定的缩放尺度，构造融合多度量方式的自适应相似度矩阵，以提高聚类精度。此外，用栈式自编码器代替特征分解，在联合学习框架中进行嵌入表示学习和聚类，避免微调环节覆盖之前所得最优参数，从而进一步提高聚类精度。 1 相关算法理论 1.1 基于 QPR 的地标选择 w in (a,b) w out (a,b) Q(a) PageRank 算法采用平均分配思想，将节点权重划分给入链节点，忽略节点质量存在差异性，改进后的加权 PageRank 算法通过传入链路权重及传出链路权重 2 个参数[13] ，依据网络结构有区分地进行权值分配，但该参数在迭代过程中是固定存在的，存在局限性。基于网页质量的 PageRank 算法[19] (page quality based PageRank algorithm, QPR) 定义了相对质量，用于迭代过程协助分配 PR 值，动态评估每个节点的质量，其计算公式为 Q(a) = PR(a) ( ∑ b∈B(a) PR(b) )/MPR(a) MPR(a) = max b∈B(a) PR(b) (1) B(a) a MPR(a) a Q(a) a 式中：表示节点的入链节点集合；表示的入链节点集合中的最大 PR 值。相对质量将迭代过程中的入链集合与其本身的 PR 值信息结合，对于具有相同 PR 值的节点，拥有较大入链 PR 值的节点将得到加权，从而在下 ·688· 智能系统学报第 15 卷

第4期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·689· 一轮迭代中具有更高PR值。随着多轮迭代，节性。其聚类结果可能受到异常值影响，因为局部点各自的PR值出现差距，高质量的节点能较快尺度参数σ，可能扭曲了离群值。为避免该问题，积累PR值，获得较高排名。该算法计算PageR- 文献[22]提出一种局部标准差谱聚类算法，定义 ank的公式为 PR(@=d∑PR(b)Pr(b-→a)+-d 局部标准差d= -》p,),其表示样本 1 l (2) x的前k个近邻的局部标准差，相似度矩阵的元 m--QoQc 素则如式(4)所示，尽可能地反映数据集的原始分布：式中：Pr(b→a)表示节点b分配给节点a的PR值 -p(xi,xi) 比重，F(b)表示节点b的出链节点集合，即F(b)= exp i≠i (4) {al(b,a)eE,d是一个阻尼因子，通常设置为0.85， n为节点个数。当所有节点满足式(3)时，迭代过程停止： 2本文算法 PR(d)-PR(aas≤B (3) 2.1结合度量融合与地标表示的相似度矩阵 PR(@)aer 由1.2节可以看出谱聚类算法中所构造的相该式表示上一次迭代与当前迭代之间的归一似度矩阵维度为n×n,对于大规模数据集无法实化差值，其中，B是预先设置的停止阈值。当满足现高效的谱嵌入，空间计算复杂度较高。对此文该式时，停止迭代，选择PR值最高的p节点作为献[8-9]提出选取pn个地标点作为特征代表地标点。点，将所有样本近似表示为这些地标点的线性组 1.2自适应谱聚类算法合，有效利用稀疏表示矩阵近似获得图相似度矩相似度矩阵的构造是谱聚类算法的一个重要阵。本文采用1.1节的基于QPR的地标选择方步骤，而高斯核函数是构造相似度矩阵最常用的式，选择P℉值最高的p个节点作为地标点。对度量方法之一。给定数据集X=[x1,2,…,xJ∈R, 于任意给定样本，其近似样本可表示为 i=1,2,…,n,拟将其划分为K簇。谱聚类算法将聚类问题视为无向图G=(V,E)的多路划分问题，其中顶点集V={x,x2,…,xn}为所有样本集合，E= 尺1 {A}表示顶点间边的权重集合，A=(A)∈R, 式中：y,是地标点矩阵YeRp的列向量，Z为稀 i,j=1,2,…,n即为所需构造的相似度矩阵，其元素疏表示矩阵Z∈Rm的第i行、第j列元素，表示被定义为所选取的p个地标点与所有样本点之间的成对相似性。根据稀疏编码策略，与y越接近，Z越 -p(xi,x） exp i Ai= 2r2 大，而若y,不在样本x的k近邻内，则将Z置为 0,i=j 0,通过引入k近邻点来度量点对之间的局部亲和式中：p(x,x)指样本x与x之间的一种距离度量力。相应稀疏表示矩阵Z的元素为方法，参数σ是手动给出的固定缩放参数，并不 A元 jE KNN() 具有自适应性，难以体现数据的真实分布20。自 Ami 适应谱聚类算法2！针对全局尺度参数不能有效 mEKNN(x) (5) 0,jKNN(x) 反映数据集真实分布信息，提出了局部尺度参数的概念，根据样本x的第k个近邻定义样本x的式中：A:表示样本：与地标点y,之间的相似度，局部尺度参数σ：=px,x,该算法定义相似度矩采用式(4)计算方式，尽可能反映数据集的原始阵元素为分布。在计算点对相似性时往往采用欧氏距离传统度量方式，一些邻域有用信息容易被忽略。 -p(xi,xj) exp i≠j 200 Kendall Tau距离是衡量两个等级列表之间两两不 0,i=i 一致的数量，即求两个排列之间的逆序数，反映了特定的缩放参数：可根据样本x:和x的邻两个排列的相似程度。对于两排列L=(L,L2,…, 域点进行自调。该算法虽然在一定程度上克服了 Lni)及L2=(L2,L2,…,La),它们之间的Kendall 自适应谱聚类算法的缺点，但也有一定的局限 Tau距离定义为

一轮迭代中具有更高 PR 值。随着多轮迭代，节点各自的 PR 值出现差距，高质量的节点能较快积累 PR 值，获得较高排名。该算法计算 PageRank 的公式为 PR(a) = d ∑ b∈B(a) PR(b)Pr(b → a)+ (1−d) n Pr(b → a) = Q(a)/ ∑ c∈F(b) Q(c) (2) Pr(b → a) b a F(b) b F(b) = {a|(b,a) ∈ E} d n 式中：表示节点分配给节点的 PR 值比重，表示节点的出链节点集合，即，是一个阻尼因子，通常设置为 0.85，为节点个数。当所有节点满足式 (3) 时，迭代过程停止： PR(a)iter−1 −PR(a)iter PR(a)iter ⩽ β (3) β p 该式表示上一次迭代与当前迭代之间的归一化差值，其中，是预先设置的停止阈值。当满足该式时，停止迭代，选择 PR 值最高的节点作为地标点。 1.2 自适应谱聚类算法 X = [x1, x2,··· , xn] ∈ R n×d , i = 1,2,··· ,n K G = (V,E) V = {x1, x2,··· , xn} E = {Ai j} A = (Ai j) ∈ R n×n i, j = 1,2,··· ,n 相似度矩阵的构造是谱聚类算法的一个重要步骤，而高斯核函数是构造相似度矩阵最常用的度量方法之一。给定数据集，拟将其划分为簇。谱聚类算法将聚类问题视为无向图的多路划分问题，其中顶点集为所有样本集合，表示顶点间边的权重集合，，即为所需构造的相似度矩阵，其元素被定义为 Ai j =    exp( −ρ 2 (xi , xj) 2σ2 ) , i , j 0, i = j ρ(xi , xj) xi xj σ xi k xi σi = ρ(xi , xk) 式中：指样本与之间的一种距离度量方法，参数是手动给出的固定缩放参数，并不具有自适应性，难以体现数据的真实分布[20]。自适应谱聚类算法[21] 针对全局尺度参数不能有效反映数据集真实分布信息，提出了局部尺度参数的概念，根据样本的第个近邻定义样本的局部尺度参数，该算法定义相似度矩阵元素为 Ai j =    exp( −ρ 2 (xi , xj) 2σiσj ) , i , j 0, i = j 特定的缩放参数 σi 可根据样本 xi 和 xj 的邻域点进行自调。该算法虽然在一定程度上克服了自适应谱聚类算法的缺点，但也有一定的局限 σi σstd_i = vt 1 k−1 ∑k t=1 ρ 2 (xi , xt) xi k 性。其聚类结果可能受到异常值影响，因为局部尺度参数可能扭曲了离群值。为避免该问题，文献 [22] 提出一种局部标准差谱聚类算法，定义局部标准差，其表示样本的前个近邻的局部标准差，相似度矩阵的元素则如式 (4) 所示，尽可能地反映数据集的原始分布： Ai j =    exp( −ρ 2 (xi , xj) 2σstd_iσstd_ j ) , i , j 0, i = j (4) 2 本文算法 2.1 结合度量融合与地标表示的相似度矩阵 n×n p ≪ n p xi xˆi 由 1.2 节可以看出谱聚类算法中所构造的相似度矩阵维度为，对于大规模数据集无法实现高效的谱嵌入，空间计算复杂度较高。对此文献 [8-9] 提出选取个地标点作为特征代表点，将所有样本近似表示为这些地标点的线性组合，有效利用稀疏表示矩阵近似获得图相似度矩阵。本文采用 1.1 节的基于 QPR 的地标选择方式，选择 PR 值最高的个节点作为地标点。对于任意给定样本，其近似样本可表示为 xˆi = ∑p j=1 Zjiyj yj Y ∈ R d×p Zi j Z ∈ R p×n p xi yj Zji yj xi k Zji k Z 式中：是地标点矩阵的列向量，为稀疏表示矩阵的第 i 行、第 j 列元素，表示所选取的个地标点与所有样本点之间的成对相似性。根据稀疏编码策略，与越接近，越大，而若不在样本的近邻内，则将置为 0，通过引入近邻点来度量点对之间的局部亲和力。相应稀疏表示矩阵的元素为 Zji =    ∑ Aji m∈KNN(xi) Ami , j ∈ KNN(xi) 0, j < KNN(xi) (5) Aji xi yj L1 = (L11,L21,··· , Ln1) L2 = (L12,L22,··· ,Ln2) 式中：表示样本与地标点之间的相似度，采用式 (4) 计算方式，尽可能反映数据集的原始分布。在计算点对相似性时往往采用欧氏距离传统度量方式，一些邻域有用信息容易被忽略。 Kendall Tau 距离是衡量两个等级列表之间两两不一致的数量，即求两个排列之间的逆序数，反映了两个排列的相似程度。对于两排列及，它们之间的 Kendall Tau 距离定义为第 4 期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·689·

·690· 智能系统学报第15卷 KT(L.L)=((i,j):iLn)A(L2>Lp)) (6) 式中：L:和L2表示L,和L2中第i个元素各自的式中：F出表示基于欧氏距离度量的稀疏表示矩序号，H为集合中元素的个数。若两排列相同，则阵在h步迭代更新后的状态矩阵，F2表示基于 KT(L1,L2)为0；若两排列互为逆序，KT(L1,L2)为 Kendall Tau距离度量的矩阵在h步迭代更新后的 n(n-1)/2。通过除以n(n-1)/2进行规范化处理，状态矩阵。此步骤每次更新状态矩阵时，生成两使KT(L,L2)位于区间[0,1]内。个并行交换扩散过程，在h步后，融合两种度量若将欧氏距离及Kendall Tau距离两种度量方式的稀疏表示矩阵Z: 方式融合，生成增强的相似度矩阵，能在反映点对之间地理相似性的同时考虑点之间的拓扑逻辑相 Z=P+r (9) 2 似性。将点：和x之间的欧氏距离表示为P(x,x, 从概率角度分析该交叉扩散过程，对于状态 Kendall Tau距离表示为p2(,x)。在基于欧氏距矩阵F,依据扩散映射4]可定义进行h步迭代离对样本进行排序，然后利用Kendall Tau距离度时的扩散距离M(位，)=F'i)-F':州，扩散量两个样本之间的全局关系，全面反映数据的底过程即是将数据空间映射到扩散空间R的过层结构信息。对于样本x,基于欧氏距离计算与程，本质上每个样本都可由自身与其他数据点间 p个地标点之间的相似度，可得一有序序列：List= 相似度表示。为实现核矩阵之间的融合，对于样本 [p(,xP1(,x),…,P(mx,…p(p,x小，同样的 x”eR,引入线性算子Z②，经过x,=Z2x+E 对于样本x可得有序序列Lst,那么结合式(6)， (ε为白噪声)线性运算后，由扩散映射性质可获样本：和x之间的Kendall Tau距离则为得x,的边缘分布2，同理可得x,。该交叉扩散 p2(xi,x)=KT(Listi,Listj) 过程的实质并非在原始数据空间中进行线性投从度量融合的角度来看，大多数主流的思想影，而是在扩散空间中进行迭代线性运算的，这都是通过线性组合多个亲和图来获得互补的相似样对样本的噪声和规模具有较强鲁棒性，且融合信息2)，然而这个线性组合对分配给每个度量的了整个样本集的相似流形的内在结构。权重很敏感，且来自多个亲和图的互补信息并非在由式(9)获得稀疏表示矩阵Z后，通过该线性相关的。为探索两种距离度量方案相互融合矩阵来近似获得数据X的规范化图亲和矩阵，的思想，综合考虑相邻点的几何分布和拓扑分布，受到联合训练算法的启发，采用基于消息传即：G=2T2eRm,其中2=D-PZ,D为度矩阵，递理论和交叉扩散过程的融合方法。以完全相似其元素一般为D:=∑，乙，为进一步降低计算复杂矩阵作为初始状态矩阵，即对式（⑤）不考虑k近邻度，采用文献[2]计算度矩阵元素Da=diag(22), 点而构建相似矩阵，该初始状态矩阵F携带关于其中2=2，为Px1的向量，其第k个元素为每个地标点与其他所有样本点之间相似性的完整扫1 信息，对应元素为 2的第k行元素之和，该计算D的时间复杂度为 O(p)。结合度量融合与稀疏表示的拉普拉斯矩 (7) 阵表示为 L-DGD--D-2T2D-! (10) =1 式(7)分别采用欧氏距离、Kendall Tau距离度量然后将D2T作为栈式自编码器的输人，通方法计算获得的完全相似矩阵表示为F、F2。过编码和解码重构学习数据潜在特征表示。稀疏表示矩阵实际上是完全相似矩阵的KNN 2.2深度嵌入谱聚类图，在扩散过程中为提高计算效率，采用稀疏表假定聚类任务为N个样本，X=,x2,…,x, 示矩阵作为核矩阵进行交叉扩散。将稀疏表示矩 x∈，i=1,2,…,n划分为K簇，每个都由聚类中阵Z采用欧氏距离、Kendall Tau距离分别表示为心4，j=1,2,…,K表示。为避免直接在样本空间 Z和Ze。首先将F,=Fu和F2。=F2视为送 X上进行聚类，首先使用非线性映射进行数据转换，嵌入函数Pw:X→H,将原始数据映射到潜在代过程第一步中的初始两个状态矩阵(=0)，而特征空间H=[h1,h2,…,hnJ,heR4,与输入样本相度量融合的关键步骤是迭代更新对应于每个度量比具有较低维度(d,<d),再经过非线性映射进的稀硫表示矩阵行数据重构，解码器映射函数gw:H→，= F=Z0×F2×(Z)T (8) [,,…,],无表示样本，的数据重构。本文旨 FR,=Ze×F×(Z2)T 在寻找良好的嵌人特征表示h,,使其更适合于

KT(L1 ,L2) = {(i, j) : i Lj1)∧(Li2 > Lj2))} (6) Li1 Li2 L1 L2 i |·| KT(L1,L2) KT(L1,L2) n(n−1)/2 n(n−1)/2 KT(L1,L2) [0,1] 式中：和表示和中第个元素各自的序号，为集合中元素的个数。若两排列相同，则为 0；若两排列互为逆序，为。通过除以进行规范化处理，使位于区间内。 xi xj ρ1(xi , xj) ρ2(xi , xj) xi p Listi = [ρ1(x1, xi), ρ1(x2, xi),··· ,ρ1(xm, xi),··· , ρ1(xp, xi)] xj Listj xi xj 若将欧氏距离及 Kendall Tau 距离两种度量方式融合，生成增强的相似度矩阵，能在反映点对之间地理相似性的同时考虑点之间的拓扑逻辑相似性。将点和之间的欧氏距离表示为 , Kendall Tau 距离表示为。在基于欧氏距离对样本进行排序，然后利用 Kendall Tau 距离度量两个样本之间的全局关系，全面反映数据的底层结构信息。对于样本，基于欧氏距离计算与个地标点之间的相似度，可得一有序序列：，同样的对于样本可得有序序列，那么结合式 (6)，样本和之间的 Kendall Tau 距离则为 ρ2(xi , xj) = KT(Listi ,Listj) k F 从度量融合的角度来看，大多数主流的思想都是通过线性组合多个亲和图来获得互补的相似信息[23] ，然而这个线性组合对分配给每个度量的权重很敏感，且来自多个亲和图的互补信息并非线性相关的。为探索两种距离度量方案相互融合的思想，综合考虑相邻点的几何分布和拓扑分布，受到联合训练算法的启发，采用基于消息传递理论和交叉扩散过程的融合方法。以完全相似矩阵作为初始状态矩阵，即对式 (5) 不考虑近邻点而构建相似矩阵，该初始状态矩阵携带关于每个地标点与其他所有样本点之间相似性的完整信息，对应元素为 Fji = Aji ∑p m=1 Ami (7) F (1) F (2) Z Z (1) Z (2) F (1) h=0 = F (1) F (2) h=0 = F (2) h = 0 式 (7) 分别采用欧氏距离、Kendall Tau 距离度量方法计算获得的完全相似矩阵表示为、。稀疏表示矩阵实际上是完全相似矩阵的 KNN 图，在扩散过程中为提高计算效率，采用稀疏表示矩阵作为核矩阵进行交叉扩散。将稀疏表示矩阵采用欧氏距离、Kendall Tau 距离分别表示为和。首先将和视为迭代过程第一步中的初始两个状态矩阵 ( )，而度量融合的关键步骤是迭代更新对应于每个度量的稀疏表示矩阵 F (1) h+1 = Z (1) × F (2) h ×(Z (1)) T F (2) h+1 = Z (2) × F (1) h ×(Z (2)) T (8) F (1) h h F (2) h h h Z 式中：表示基于欧氏距离度量的稀疏表示矩阵在步迭代更新后的状态矩阵，表示基于 Kendall Tau 距离度量的矩阵在步迭代更新后的状态矩阵。此步骤每次更新状态矩阵时，生成两个并行交换扩散过程，在步后，融合两种度量方式的稀疏表示矩阵： Z = F (1) h + F (2) h 2 (9) F (1) h h M (1) h (i, j) = F (1) h (i,:)− F (1) h (j,:) ℜ (1) h x (1) h ∈ ℜ(1) h Z (2) x (2) h+1 = Z (2)x (1) h +ε ε x (2) h+1 x (1) h+1 从概率角度分析该交叉扩散过程，对于状态矩阵，依据扩散映射[24] 可定义进行步迭代时的扩散距离，扩散过程即是将数据空间映射到扩散空间的过程，本质上每个样本都可由自身与其他数据点间相似度表示。为实现核矩阵之间的融合，对于样本，引入线性算子，经过 ( 为白噪声) 线性运算后，由扩散映射性质可获得的边缘分布[23] ，同理可得。该交叉扩散过程的实质并非在原始数据空间中进行线性投影，而是在扩散空间中进行迭代线性运算的，这样对样本的噪声和规模具有较强鲁棒性，且融合了整个样本集的相似流形的内在结构。 Z X Gˆ = Zˆ T Zˆ ∈ R n×n Zˆ = D −1/2Z D Dii = ∑ j Zi j Dii = diag(Zˆ T i Zˆ s ) Zˆ s = ∑n j=1 Zˆ j p×1 k Zˆ k D O(np) 在由式 (9) 获得稀疏表示矩阵后，通过该矩阵来近似获得数据的规范化图亲和矩阵，即：，其中，为度矩阵，其元素一般为，为进一步降低计算复杂度，采用文献 [2] 计算度矩阵元素，其中，为的向量，其第个元素为的第行元素之和，该计算的时间复杂度为。结合度量融合与稀疏表示的拉普拉斯矩阵表示为 L = D − 1 2 GDˆ − 1 2 = D − 1 2 Zˆ T Z Dˆ − 1 2 (10) D − 1 然后将 2 Zˆ T 作为栈式自编码器的输入，通过编码和解码重构学习数据潜在特征表示。 2.2 深度嵌入谱聚类 N X = [x1, x2,··· , xn], xi ∈ R dx ,i = 1,2,··· ,n K µj , j = 1,2,··· ,K X φW : X → H H = [h1,h2,··· ,hn],hi ∈ R dh dh ≪ dx gW′ : H → Xˆ Xˆ = [ ˆx1, xˆ2,··· , xˆn] xˆi xi {hi} n i=1 假定聚类任务为个样本，划分为簇，每个都由聚类中心表示。为避免直接在样本空间上进行聚类，首先使用非线性映射进行数据转换，嵌入函数，将原始数据映射到潜在特征空间，与输入样本相比具有较低维度 ( )，再经过非线性映射进行数据重构，解码器映射函数 , ，表示样本的数据重构。本文旨在寻找良好的嵌入特征表示使其更适合于 ·690· 智能系统学报第 15 卷

第4期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·691· 聚类，所构造的损失目标函数包含自编码器重构损失及聚类损失，利用自编码器以无监督方式学 0-221+-'-9Xa- 习表示，所习得特征能最大限度地保留数据的固反向传播给栈式自编码器，利用下层将有局部结构，聚类损失用于分散嵌入点。与需要 h 分层预训练以及非联合嵌入聚类的学习模型不神经元梯度由上层神经元残差导出的规律，自上同，同时避免微调步骤覆盖预训练获得的参数，面下反向逐层计算出胎及0。给定小批量样采用联合聚类和重构损失函数的目标函数，对所本数目m及学习率入，编码器参数W、解码器参有网络层进行端到端优化训练，迭代优化自编码数W及聚类中心4更新公式为器参数及聚类中心，损失目标函数J定义为分(u+y J=J+yJo (11) W=W- maw+yam (16) 其中J,和分别表示为重构损失和聚类损失， aJ, y(0<y<1)用来调节潜在特征空间的失真程度。 W=W- m台aw (17) 基于2.1节，将构造的相似度矩阵作为栈式自编码的输人，在进行聚类之前，对嵌入特征表示 4=4- 片au (18) h:,进行预训练，执行k-means算法，获得初始自 m台dw 编码器参数{WW)及聚类中心{41 2.3算法步骤对于训练所获得的嵌人特征表示，在文献23] 算法结合度量融合和地标表示的自编码谱引入了由-SNE衡量的软标签分布P,用来衡量聚类算法潜在空间样本：与聚类中心山；之间的相似度：输入输入数据X,聚类数日K,地标点个数 P,停止阈值B,近邻点数目k,学习率入，迭代次 +h,-m P i=1.2,…,K (12) 数h,最大迭代次数maxiter,停止收敛阈值Th。 2a+脉-m 输出自编码器参数(WW)及聚类中心 {la及样本类标签Label,. 式中P表示潜在空间样本h:属于山所在簇的概 1)根据式(1)、(2)计算节点PR值，当所有节率。结合最小化相关熵(KL散度)来降低软标签点满足式(3)时，停止迭代，PR值降序排列，择取分布P与辅助目标分布Q之间的差异，将聚类损前p个高PR值节点作为地标点；失目标函数J定义为 2)依据式(4)成对相似度计算，引入k近邻 =KuQn=∑∑als器 (13) 点，以欧氏距离、Kendall Tau距离2种度量方式，通过式（⑤）分别计算相应的稀疏表示矩阵Z和其中，辅助目标分布分量qk是由p:得到的，通过 Z②。同时，通过式(7)计算对应于2种度量方式计算弘使其为零，求取相应封闭解获得9： op 的完全相似矩阵F)、F②； I∑Pre 3)将F、F2作为初始状态矩阵，Z、Z2作 9= (14) 为核矩阵，根据式(8)进行矩阵融合，迭代更新对公m 应于每个度量的稀疏表示矩阵，在h步后结合式 (9)获得融合2种度量方式的稀疏表示矩阵Z; 最小化聚类损失目标函数J可视为自训练 4)通过式(10)构造拉普拉斯矩阵，将D2r 过程，此外，重构误差函数J,采用均值误差测量作为栈式自编码器的输入，前向训练网络获得初 (mean squared error,MSE): 始化数据潜在特征表示{h,1； h=乃k-g知据 (15) 5)对嵌入特征表示h,进行预训练，执行k i=1 means算法，获得初始自编码器参数(WW)及聚关于自编码器参数{WW}及聚类中心类中心4 的更新，采用mini-batch随机梯度算法反向传播 6)若迭代次数大于maxiter,.转至10)，否则重逐层训练网络。J.关于嵌人特征表示h:和聚类复执行7)~9)：中心4的梯度计算为 7)根据式(12)和式(14)计算Pk和q; 张-2a+k-nDg-- 8)根据式(11)、(13)和(15)计算损失目标函数； 9)采用mini-batch随机梯度算法反向传播逐

J 聚类，所构造的损失目标函数包含自编码器重构损失及聚类损失，利用自编码器以无监督方式学习表示，所习得特征能最大限度地保留数据的固有局部结构，聚类损失用于分散嵌入点。与需要分层预训练以及非联合嵌入聚类的学习模型不同，同时避免微调步骤覆盖预训练获得的参数，采用联合聚类和重构损失函数的目标函数，对所有网络层进行端到端优化训练，迭代优化自编码器参数及聚类中心，损失目标函数定义为 J = Jr +γJc (11) Jr Jc γ(0 < γ < 1) {hi} n i=1 {W,W′ } { µj }K j=1 其中和分别表示为重构损失和聚类损失，用来调节潜在特征空间的失真程度。基于 2.1 节，将构造的相似度矩阵作为栈式自编码的输入，在进行聚类之前，对嵌入特征表示进行预训练，执行 k-means 算法，获得初始自编码器参数及聚类中心。 pik hi µj 对于训练所获得的嵌入特征表示，在文献 [23] 引入了由 t-SNE 衡量的软标签分布，用来衡量潜在空间样本与聚类中心之间的相似度： pik = (1+ hi −mj 2 ) −1 ∑K j=1 (1+ hi −mj 2 ) −1 , j = 1,2,··· ,K (12) pik hi µj P Q Jc 式中表示潜在空间样本属于所在簇的概率。结合最小化相关熵 (KL 散度) 来降低软标签分布与辅助目标分布之间的差异，将聚类损失目标函数定义为 Jc = KL(Q ∥ P) = 1 N ∑ i ∑ k qik lg qik pik (13) qik pik ∂Jc ∂pik qik 其中，辅助目标分布分量是由得到的，通过计算使其为零，求取相应封闭解获得： qik = p 2 ik/ ∑ i ′ pi ′ k ∑ k ′ ( p 2 ik′ / ∑ i ′ pi ′ k ′ ) (14) Jc Jr 最小化聚类损失目标函数可视为自训练过程，此外，重构误差函数采用均值误差测量 (mean squared error, MSE)： Jr = ∑n i=1 ∥xi −gW′ (hi)∥ 2 2 (15) {W,W′ } { µj }K j=1 Jc hi µj 关于自编码器参数及聚类中心的更新，采用 mini-batch 随机梯度算法反向传播逐层训练网络。关于嵌入特征表示和聚类中心的梯度计算为 ∂Jc ∂hi = 2 ∑K j=1 (1+ hi −µj 2 ) −1 (qi j − pi j)(hi −µj) ∂Jc ∂µi = 2 ∑K j=1 (1+ hi −µj 2 ) −1 (pi j −qi j)(hi −µj) ∂Jc ∂hi ∂Jc ∂W ∂Jc ∂W′ m λ W W′ µj 将反向传播给栈式自编码器，利用下层神经元梯度由上层神经元残差导出的规律，自上而下反向逐层计算出及。给定小批量样本数目及学习率，编码器参数、解码器参数及聚类中心更新公式为 W = W − λ m ∑m i=1 ( ∂Jr ∂W +γ ∂Jc ∂W ) (16) W′ = W′ − λ m ∑m i=1 ∂Jr ∂W′ (17) µj = µj − λ m ∑k j=1 ∂Jr ∂µj (18) 2.3 算法步骤算法结合度量融合和地标表示的自编码谱聚类算法 K p β k λ h maxiter Th 输入输入数据 X，聚类数目，地标点个数，停止阈值，近邻点数目，学习率，迭代次数，最大迭代次数，停止收敛阈值。 {W,W′ } { µj }K j=1 输出自编码器参数及聚类中心及样本类标签 Label。 p 1) 根据式 (1)、(2) 计算节点 PR 值，当所有节点满足式 (3) 时，停止迭代，PR 值降序排列，择取前个高 PR 值节点作为地标点； k Z (1) Z (2) F (1) F (2) 2) 依据式 (4) 成对相似度计算，引入近邻点，以欧氏距离、Kendall Tau 距离 2 种度量方式，通过式 (5) 分别计算相应的稀疏表示矩阵和。同时，通过式 (7) 计算对应于 2 种度量方式的完全相似矩阵、； F (1) F (2) Z (1) Z (2) h Z 3) 将、作为初始状态矩阵，、作为核矩阵，根据式 (8) 进行矩阵融合，迭代更新对应于每个度量的稀疏表示矩阵，在步后结合式 (9) 获得融合 2 种度量方式的稀疏表示矩阵； D − 1 2 Zˆ T {hi} n i=1 4) 通过式 (10) 构造拉普拉斯矩阵，将作为栈式自编码器的输入，前向训练网络获得初始化数据潜在特征表示； {hi} n i=1 {W,W′ } { µj }K j=1 5) 对嵌入特征表示进行预训练，执行 kmeans 算法，获得初始自编码器参数及聚类中心； 6) 若迭代次数大于 maxiter ，转至 10)，否则重复执行 7) ~ 9)； 7) 根据式 (12) 和式 (14) 计算 pik 和 qik； 8) 根据式 (11)、(13) 和 (15) 计算损失目标函数； 9) 采用 mini-batch 随机梯度算法反向传播逐第 4 期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·691·

{W,W′ } { µj }K j=1 层训练网络，根据式 (16)~(18) 更新整个网络参数及聚类中心； P Label(i) = argmax k∈1,2,···,K pik 10) 根据软标签分布来分配样本类标签：。 2.4 算法复杂度分析 n p O(tpn) t O(pnlog2n) O(nD2 +nvK) K D v K ⩽ v ⩽ D O(tpn+ pnlog2n+nD2 ) O(tpn+ pn+ p 3 + p 2n) p ≪ n O(tpn+ pn+ p 2n) p D n O(n 2 +nD2 ) O(n 2 +nKD) 首先，从个数据样本中选择个地标点，该步骤时间复杂度为，为迭代次数。相似度矩阵构造部分涉及了 2 种度量方案的融合以及构造稀疏表示矩阵[17] ，时间复杂度为。本文算法用栈式自编码器代替拉普拉斯矩阵特征分解部分，时间复杂度为，为聚类数目，为设置的隐藏层最大单元数，为数据潜在特征表示维度，一般，所提算法整体时间复杂度为。基于地标表示的快速谱聚类算法[ 9 ] 时间复杂度为，由于，时间复杂度可写为。和取值相当且远小于，因而本文算法复杂度略高于基于地标表示的快速谱聚类算法时间复杂度，但远远低于基于自编码器的谱聚类算法 DEC[25] 的时间复杂度、GraEn [16] 的时间复杂度。 3 实验及分析结果 3.1 实验环境为证明本文算法适用于大规模数据集，选取如下 5 个数据集：MNIST、USPS、COIL100、CoverType 和 CIFAR10。这 5 个数据集包含不同类型的图像，如手写数字、英文字母表、物体图像和森林植被类等，样本数较大，可以有效验证本文算法在大规模数据集上的聚类性能。表 1 为相关数据集的具体信息。仿真实验硬件环境为 Intel(R) Core(TM) i7-6 700 CPU @3.40 GHz；16 GB RAM；操作系统：Windows7；编程语言：Python 3.5。表 1 实验数据集描述 Table 1 The description of experimental datasets 数据集样本数类维数 MNIST 70 000 10 784 LetterRec 20 000 26 16 COIL100 7 200 100 1 024 CoverType 581 012 7 54 CIFAR10 60 000 10 1 024 p p 本文算法与文献 [8-9] 基于地标表示的快速谱聚类算法 LSC-R 和 LSC-K，未考虑地标点的基于自编码的谱聚类算法 DEC[25] 及 GraEn[16] 、文献 [17] 中自编码器与地标点结合的快速谱聚类算法 SCAL-R 及 SCAL-K 进行对比。LSC-R 及 SCALR 是通过随机采样获取个地标点，LSC-K 及 SCAL-K 是采用 k-means 算法获得个地标点的。 p k p−500−500−2 000−10 10−2 000−500− 500−p β = 10−3 h = 10 m λ = 0.1 Th = 0.001 maxiter γ = 0.1 为保证算法之间的公平对比，具体参数如下设置：文献 [8-9]、[17] 及本文算法涉及的地标点个数统一设置为 1 000，稀疏表示矩阵构造涉及的近邻点数目设置为 5，所有算法涉及 k-means 部分迭代次数为 500。文献 [16]、[17]、[25] 及本文算法涉及的自编码器部分，编码器维度为，解码器则为，非线性激活函数统一采用线性校正单元 (rectified linear units，ReLU)。本文算法中涉及的停止阈值，距离度量融合步骤迭代次数设置为，参数优化更新部分采用 mini-batch 随机梯度算法，小批量样本数目为 256，学习率；在预训练阶段，执行 k-means 算法 20 次选取最佳结果，初始化自编码器参数和聚类中心；收敛阈值设置为，最大迭代次数为 20 000，调节潜在特征空间的失真程度。 3.2 实验分析为了比较这些算法性能，通过聚类结果和样本真实标签进行对比。采用聚类准确率 (ACC) 和标准化互信息 (NMI) 来作为度量指标进行评估比较。ACC 和 NMI 这 2 种度量标准在 [0,1] 之间取值，值越大聚类性能越好。各种算法在 5 个大规模数据集的实验结果如表 2、3 所示。表 2 不同数据集的准确率 (ACC) 的比较 Table 2 Comparison of clustering accuracy (ACC) for different data sets 算法 MNIST LetterRec COIL100 CoverType CIFAR10 LSC-R[9] 0.589 0 0.292 2 0.489 6 0.247 5 0.471 6 LSC-K[9] 0.727 0 0.303 3 0.545 6 0.255 0 0.504 0 SCAL-R[17] 0.836 1 0.439 4 0.790 5 0.260 2 0.561 9 SCAL-K[17] 0.889 8 0.447 0 0.812 2 0.293 3 0.580 2 DEC[25] 0.865 1 0.297 5 0.721 9 0.249 7 0.482 1 GraEn[16] 0.818 2 0.287 2 0.735 0 0.221 8 0.513 4 本文算法 0.901 2 0.469 0 0.890 3 0.332 5 0.612 9 ·692· 智能系统学报第 15 卷

第4期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·693· 表3不同数据集的标准化互信息(NM四的比较 17.15%、5.84%。说明本文构造的结合度量融合和 Table 3 Comparison of normalized mutual information 地标表示的相似度矩阵更全面地反映了数据之间 (NMI)for different data sets 的结构信息，且运行效率大大得到提升。算法 MNIST LetterRec COIL100 CoverType CIFAR10 3)此外，间接可以看出，以LSC-R、LSC-K为 LSC-RI9 代表的引入地标点算法与DEC、GraEn为代表 0.59110.3734 0.7315 0.0831 0.0348 的基于深度自编码算法相比，在MNIST、COL1O0 LSC-KI9 0.72220.3963 0.7632 0.0902 0.0542 及CIFAR10这些维度相对较高的大规模数据集 SCAL-Rm0.82970.3915 0.8274 0.0912 0.0765 中，聚类性能处于劣势，但在LetterRec及Cover-- sCAL-K70.87540.4055 Type维度较低的数据集上则处于优势，可见基于 0.8416 0.1025 0.0844 自编码器的算法对于高维数据集较为友好，地标 DECRS] 0.83690.3851 0.8045 0.0856 0.0651 点的择取有利于大规模数据集的聚类性能。 GraEn[16 0.74730.37120.7911 0.0719 0.0579 本文算法采用欧氏距离与Kendall Tau距离本文算法0.88210.44350.87020.13420.1521 度量融合的方式，挖掘数据的真实分布，从上述结论1)可以看出算法性能会受到距离度量方式通过表2、3两种指标下的各种算法性能度量的影响。为深人分析，将本文算法稀疏表示矩阵对比，可以看出本文提出的结合度量融合和地标构造部分，分别采用基于欧氏距离(SCE)与基于表示的自编码谱聚类算法在MNIST、LetterRec、 Kendall Tau距离(SCK)计算点对相似度，采用 COLl00、CoverType及CIFAR10这5个大规模数 ACC和NMI两个指标与本文算法融合度量方案据集上，相对于基于地标表示的快速谱聚类算法进行性能对比。表4显示3种算法在3个数据集 LSC-R和LSC-K,未考虑地标点的基于自编码的上的算法性能。从表4可以看出，2种距离度量谱聚类算法DEC及GraEn,.自编码器与地标点结方式的融合一定程度上能更全面地反映数据之间合的快速谱聚类算法SCAL-R及SCAL-K,在ACC 的结构信息，从而获得更为理想的聚类性能。欧和NMI两种指标下均表现出了更为理想的聚类氏距离与Kendall Tau距离这两种度量方式的优性能。同时，还可以得出如下结论：劣，并不能准确地从数据中评判出来，但结合表2、3 1)本文算法在稀疏表示矩阵构造部分由于引可以看出，基于本文算法的SCE和SCK算法在入网页质量进行地标点择取，并进行度量融合计 3个数据集上与其他几种算法相比，相对处于优算点对相似度，在算法复杂度方面，相对于旨在势。特别是与SCAL R及SCAL K算法对应ACC 提升谱聚类算法效率的LSC-R和LSC-K处于劣和NMI对比可以得出，本文通过基于网页质量的势。从运行时间上看，在MNIST数据集上，LSC PageRank算法择取地标点总体上要优于随机选 R及LSC-K算法仅需10s左右，本文算法则需择与k-means算法的方法，但也有低于这两种方 200~300s的运行时间，但相对于DEC及GraEn, 法的情况出现，为深入分析，更改地标点个数p 本文算法运行时间降低了1000~2000s,有了很从100~1000，在3个数据集上，进行本文算法与大的提升。且从表2中可以看出，就ACC,本文 SCAL-R、SCAL-K的ACC值的对比实验。图1、2 算法与LSC-K算法相比，在MNIST、LetterRec、分别显示了SCAL-R、SCAL-K及本文算法在选取 COIL1000、CoverType及CIFAR10F分别提升了的3个数据集上，地标点个数从100~1000之间变 17.42%、16.57%、34.47%、7.75%、10.89%,与随机化，所对应的ACC及NM值。图中可直观看出，抽样择取地标点的LSC-R算法相比，优势更大。本文算法在3个数据集上的ACC、NMI普遍比同样地，从表3看出，本文算法NMI值也有了明 LSC-K、SCAL-K要高，除去在MNIST数据集上，显的提升。而与SCAL-R及SCAL-K算法相比，地标点个数较少时，本文算法与SCAL-R算法相本文融合两种距离度量多角度描述数据集的结比略处于劣势，这是由于本文构造相似度矩阵采构信息，使其在ACC、NMI两种指标上均处于用的度量融合方案，在地标点个数相对多时，能优势。有效地挖掘数据的结构信息，地标点个数从 2)相比未考虑地标点的基于自编码的谱聚 300开始，本文算法便展现出优势。同时从折线类算法DEC及GraEn,本文算法ACC和NMI也走势可以看出，地标点个数的增加，3种算法的有了一定的提升，如与DEC算法对比，本文算法 ACC、NMI值也随之提高，且本文算法呈现稳步在LetterRec数据集上ACC、NMI分别提升了上升趋势，这表明两个聚类性能指标受地标点个

表 3 不同数据集的标准化互信息 (NMI) 的比较 Table 3 Comparison of normalized mutual information (NMI) for different data sets 算法 MNIST LetterRec COIL100 CoverType CIFAR10 LSC-R[9] 0.591 1 0.373 4 0.731 5 0.083 1 0.034 8 LSC-K[9] 0.722 2 0.396 3 0.763 2 0.090 2 0.054 2 SCAL-R[17] 0.829 7 0.391 5 0.827 4 0.091 2 0.076 5 SCAL-K[17] 0.875 4 0.405 5 0.841 6 0.102 5 0.084 4 DEC[25] 0.836 9 0.385 1 0.804 5 0.085 6 0.065 1 GraEn[16] 0.747 3 0.371 2 0.791 1 0.071 9 0.057 9 本文算法 0.882 1 0.443 5 0.870 2 0.134 2 0.152 1 通过表 2、3 两种指标下的各种算法性能度量对比，可以看出本文提出的结合度量融合和地标表示的自编码谱聚类算法在 MNIST、LetterRec、 COIL100、CoverType 及 CIFAR10 这 5 个大规模数据集上，相对于基于地标表示的快速谱聚类算法 LSC-R 和 LSC-K，未考虑地标点的基于自编码的谱聚类算法 DEC 及 GraEn，自编码器与地标点结合的快速谱聚类算法 SCAL-R 及 SCAL-K，在 ACC 和 NMI 两种指标下均表现出了更为理想的聚类性能。同时，还可以得出如下结论： 1) 本文算法在稀疏表示矩阵构造部分由于引入网页质量进行地标点择取，并进行度量融合计算点对相似度，在算法复杂度方面，相对于旨在提升谱聚类算法效率的 LSC-R 和 LSC-K 处于劣势。从运行时间上看，在 MNIST 数据集上，LSCR 及 LSC-K 算法仅需 10 s 左右，本文算法则需 200~300 s 的运行时间，但相对于 DEC 及 GraEn，本文算法运行时间降低了 1 000~2 000 s，有了很大的提升。且从表 2 中可以看出，就 ACC，本文算法与 LSC-K 算法相比，在 MNIST、LetterRec、 COIL100、CoverType 及 CIFAR10F 分别提升了 17.42%、16.57%、34.47%、7.75%、10.89%，与随机抽样择取地标点的 LSC-R 算法相比，优势更大。同样地，从表 3 看出，本文算法 NMI 值也有了明显的提升。而与 SCAL-R 及 SCAL-K 算法相比，本文融合两种距离度量多角度描述数据集的结构信息，使其在 ACC、NMI 两种指标上均处于优势。 2) 相比未考虑地标点的基于自编码的谱聚类算法 DEC 及 GraEn，本文算法 ACC 和 NMI 也有了一定的提升，如与 DEC 算法对比，本文算法在 LetterRec 数据集上 ACC、NMI 分别提升了 17.15%、5.84%。说明本文构造的结合度量融合和地标表示的相似度矩阵更全面地反映了数据之间的结构信息，且运行效率大大得到提升。 3) 此外，间接可以看出，以 LSC-R、LSC-K 为代表的引入地标点算法与 DEC、GraEn 为代表的基于深度自编码算法相比，在 MNIST、COIL100 及 CIFAR10 这些维度相对较高的大规模数据集中，聚类性能处于劣势，但在 LetterRec 及 CoverType 维度较低的数据集上则处于优势，可见基于自编码器的算法对于高维数据集较为友好，地标点的择取有利于大规模数据集的聚类性能。 p 本文算法采用欧氏距离与 Kendall Tau 距离度量融合的方式，挖掘数据的真实分布，从上述结论 1) 可以看出算法性能会受到距离度量方式的影响。为深入分析，将本文算法稀疏表示矩阵构造部分，分别采用基于欧氏距离 (SCE) 与基于 Kendall Tau 距离 (SCK) 计算点对相似度，采用 ACC 和 NMI 两个指标与本文算法融合度量方案进行性能对比。表 4 显示 3 种算法在 3 个数据集上的算法性能。从表 4 可以看出，2 种距离度量方式的融合一定程度上能更全面地反映数据之间的结构信息，从而获得更为理想的聚类性能。欧氏距离与 Kendall Tau 距离这两种度量方式的优劣，并不能准确地从数据中评判出来，但结合表 2、3 可以看出，基于本文算法的 SCE 和 SCK 算法在 3 个数据集上与其他几种算法相比，相对处于优势。特别是与 SCAL_R 及 SCAL_K 算法对应 ACC 和 NMI 对比可以得出，本文通过基于网页质量的 PageRank 算法择取地标点总体上要优于随机选择与 k-means 算法的方法，但也有低于这两种方法的情况出现，为深入分析，更改地标点个数从 100~1 000，在 3 个数据集上，进行本文算法与 SCAL-R、SCAL-K 的 ACC 值的对比实验。图 1、2 分别显示了 SCAL-R、SCAL-K 及本文算法在选取的 3 个数据集上，地标点个数从 100~1 000 之间变化，所对应的 ACC 及 NMI 值。图中可直观看出，本文算法在 3 个数据集上的 ACC、NMI 普遍比 LSC-K、SCAL-K 要高，除去在 MNIST 数据集上，地标点个数较少时，本文算法与 SCAL-R 算法相比略处于劣势，这是由于本文构造相似度矩阵采用的度量融合方案，在地标点个数相对多时，能有效地挖掘数据的结构信息，地标点个数从 300 开始，本文算法便展现出优势。同时从折线走势可以看出，地标点个数的增加，3 种算法的 ACC、NMI 值也随之提高，且本文算法呈现稳步上升趋势，这表明两个聚类性能指标受地标点个第 4 期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·693·

·694· 智能系统学报第15卷数的选取影响很大。总体来说，在不同地标点的 0.90 o-LSC-K 个数选取下，本文算法展现出优于其他算法的聚 0.85 ★SCAL- 一本文算法类性能。 0.80 ★ 表4不同距离度量方案的算法性能对比 0.75 Table 4 Performance comparision of algorithms with dif- ferent distance measurement schemes 0.65 数据集算法 SCE SCK 本文算法 0.60 0 200 400 600 8001000 ACC 0.8733 0.8624 0.9012 地标点的个数 MNIST NMI 0.8489 0.8545 0.8821 (a)MNIST数据集 ACC 0.8391 0.8214 0.8903 0.90 -o-LSC-K COIL100 0.85 ★SCAL-K NMI 0.8547 0.8427 0.8702 一本文算法 90.80 ACC 0.5975 0.5899 0.6129 CIFAR10 0.75 NMI 0.1124 0.1324 0.1521 0.65 0.95 -o-LSC-K 0.60 0.90 200 400600 800 1000 ★SCAL-K 一本文算法地标点的个数 0.85 (b)COL100数据集 0.80 0.16 0.75 o-LSC-K 0.14 ★SCAL-K 0.70 厨0.12 一本文算法 0.65 0.60 0 200 400600 8001000 0.08 地标点的个数 0e (a)MNIST数据集 0.04 ★★ 0.9r -o-LSC-K ★SCAL-K 0.02 0 200 400 600 8001000 0.8 一本文算法地标点的个数 (C)CIFARI0数据集 0.7 图2不同数据集上3种算法的NMⅡ比较 0.6 Fig.2 Comparison of the NMIs of three algorithms on dif- 0.5 ferent dataset 0.4 0 200 4006008001000 4结束语地标点的个数 (b)COL100数据集随着数据规模的增大，结构信息的复杂度提 0.65 高，在聚类过程中往往会耗费大量时间，存在相 -o-LSC-K ◆SA✉K 0.60 似度矩阵存储开销大及矩阵分解复杂度高的问本文算法题，且聚类精度也会受到影响。为此，本文提出 0.55 一种结合度量融合和地标表示的自编码谱聚类算法，通过引入节点相对质量概念作为地标点选择 0.45 的依据，以地标点与其他样本点之间相似度构造图相似度矩阵，以降低存储开销。同时，融合欧 0.40 0 200 400 600 800 1000 氏距离与Kendall Tau距离作为相似度度量方式，地标点的个数 (c)CIFAR10数据集充分挖掘数据底层结构信息，且以栈式自编码器代替拉普拉斯矩阵分解步骤，通过联合学习框架图1不同数据集上3种算法的ACC比较 Fig.1 Comparison of the ACCs of three algorithms on dif. 进一步提高聚类精度。实验表明在几种大规模数 ferent datasets 据集上本文算法具有较好的聚类性能，但由于本

数的选取影响很大。总体来说，在不同地标点的个数选取下，本文算法展现出优于其他算法的聚类性能。表 4 不同距离度量方案的算法性能对比 Table 4 Performance comparision of algorithms with different distance measurement schemes 数据集算法 SCE SCK 本文算法 MNIST ACC 0.873 3 0.862 4 0.901 2 NMI 0.848 9 0.854 5 0.882 1 COIL100 ACC 0.839 1 0.821 4 0.890 3 NMI 0.854 7 0.842 7 0.870 2 CIFAR10 ACC 0.597 5 0.589 9 0.612 9 NMI 0.112 4 0.132 4 0.152 1 0.95 0.90 0.85 0.80 聚类准确率聚类准确率聚类准确率 0.75 0.70 0.65 0.60 0.40 0.45 0.50 0.55 0.60 0.65 0.4 0.5 0.6 0.7 0.8 0.9 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集图 1 不同数据集上 3 种算法的 ACC 比较 Fig. 1 Comparison of the ACCs of three algorithms on different datasets 0.90 0.85 0.80 标准化互信息标准化互信息标准化互信息 0.75 0.70 0.65 0.60 0.02 0.04 0.06 0.08 0.10 0.14 0.12 0.16 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 0 400 600 200 地标点的个数 800 1 000 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 LSC-K SCAL-K 本文算法 (a) MNIST 数据集 (b) COIL100 数据集 (c) CIFAR10 数据集图 2 不同数据集上 3 种算法的 NMI 比较 Fig. 2 Comparison of the NMIs of three algorithms on different dataset 4 结束语随着数据规模的增大，结构信息的复杂度提高，在聚类过程中往往会耗费大量时间，存在相似度矩阵存储开销大及矩阵分解复杂度高的问题，且聚类精度也会受到影响。为此，本文提出一种结合度量融合和地标表示的自编码谱聚类算法，通过引入节点相对质量概念作为地标点选择的依据，以地标点与其他样本点之间相似度构造图相似度矩阵，以降低存储开销。同时，融合欧氏距离与 Kendall Tau 距离作为相似度度量方式，充分挖掘数据底层结构信息，且以栈式自编码器代替拉普拉斯矩阵分解步骤，通过联合学习框架进一步提高聚类精度。实验表明在几种大规模数据集上本文算法具有较好的聚类性能，但由于本 ·694· 智能系统学报第 15 卷

第4期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·695· 文算法聚类精度受地标点个数影响较大，且选取 ing:incremental perspective and novel analysis[J].ACM 方式略微增加了算法复杂度，未来将致力于寻求 transactions on knowledge discovery from data,2016, 更为有效的地标点选择方式，在保证聚类精度的 11(11-25. 同时进一步降低算法复杂度。 [12]邓思宇，刘福伦，黄雨婷，等.基于PageRank的主动学习算法).智能系统学报，2019,14(3)551-559. 参考文献： DENG Siyu,LIU Fulun,HUANG Yuting,et al.Active [1]WANG Lijuan,DING Shifei,JIA Hongjie.An improve- learning through PageRank[J.CAAl transactions on in- ment of spectral clustering via message passing and telligent systems,2019,14(3):551-559. density sensitive similarity[J].IEEE access,2019,7: [13]RAFAILID D.CONSTANTINOU E,MANOLO- 101054-101062 POULOS Y.Landmark selection for spectral clustering [2]LI Xinning,ZHAO Xiaoxiao,CHU Derun,et al.An au- based on weighted PageRank[J].Future generation com- toencoder-based spectral clustering algorithm[J].Soft com- puter systems,2017,68:465-472. puting,2020,24(3:1661-1671. [14]LIU Li,SUN Letian,CHEN Shiping,et al.K-PRSCAN: [3]王一宾，李田力，程玉胜.结合谱聚类的标记分布学 A clustering method based on PageRank[J].Neurocom- puting,2016,175:65-80. 习[.智能系统学报，2019,145)：966-973. WANG Yibin,LI Tianli,CHENG Yusheng.Label distri- [15]JIA Hongjie,DING Shifei,DU Mingjing,et al.Approx- imate normalized cuts without eigen-decomposition[J]. bution learning based on spectral clustering[J].CAAI Information sciences,2016,374:135-150. transactions on intelligent systems,2019,14(5):966-973. [4]赵晓晓，周治平.结合稀疏表示与约束传递的半监督谱 [16]TIAN Fei,GAO Bin,CUI Qing,et al.Learning deep rep- resentations for graph clustering[C]//Proceedings of the 聚类算法)智能系统学报，2018,13(5)855-863. 28th AAAI Conference on Artificial Intelligence.Quebec. ZHAO Xiaoxiao,ZHOU Zhiping.A semi-supervised spec- Canada,2014:1293-1299. tral clustering algorithm combined with sparse representa- [17]BANIJAMALI E,GHODSI A.Fast spectral clustering us- tion and constraint propagation[J].CAAI transactions on ing autoencoders and landmarks[C]//Proceedings of Inter- intelligent systems,2018,13(5):855-863. national Conference Image Analysis and Recognition. [5]LANGONE R,SUYKENS J A K.Fast kernel spectral Montreal,Canada,2017:380-388. clustering[J].Neurocomputing,2017,268:27-33. [18]光俊叶，邵伟，孙亮，等.基于融合欧氏距离与Kendall [6]ZHAN Qiang,MAO Yu.Improved spectral clustering Tau距离度量的谱聚类算法U.控制理论与应用，2017 based on Nystrom method[J].Multimedia tools and applic- 346):783-789 ations,.2017,76(19):20149-20165. GUANG Junye,SHAO Wei,SUN Liang,et al.Spectral [7]YANG Xiaojun,YU Weizhong,WANG Rong,et al.Fast clustering with mixed Euclidean and Kendall Tau spectral clustering learning with hierarchical bipartite metrics[J].Control theory applications,2017,34(6): graph for large-scale data[J].Pattern recognition letters, 783-789 2020,130(2:345-352. [19]WEI Kai,TIAN Pingfang,GU Jingguang,et al.RDF data [8]CHEN Xinlei,CAI Deng.Large scale spectral clustering assessment based on metrics and improved PageRank al- with landmark-based representation[C]//Proceedings of the gorithm[C]//Proceedings of International Conference on 24hAAAI Conference on Artificial Intelligence.San Fran- Database Systems for Advanced Applications.Suzhou, cisco,.USA,2011:313-318. China.2017:204-212. [9]CAI Deng,CHEN Xinlei.Large scale spectral clustering [20]谢娟英，丁丽娟.完全自适应的谱聚类算法).电子学 via landmark-based sparse representation[J].IEEE trans 报，2019,47(5)：1000-1008. cybern,2015,45(8):1669-1680. XIE Juanying,DING Lijuan.The true self-adaptive spec- [10们叶茂，刘文芬.基于快速地标采样的大规模谱聚类算 tral clustering algorithms[J].Acta electronica sinica, 法[.电子与信息学报，2017,39(2)：278-284 2019,47(5:1000-1008. YE Mao,LIU Wenfen.Large scale spectral clustering [21]NG A Y,JORDAN M I,WEISS Y.On spectral cluster- based on fast landmark sampling[J].Journal of electron- ing:analysis and an algorithm[C]//Proceedings of Neural ics and information technology,2017,39(2):278-284. Information Processing Systems 14,NIPS 2001.Van- [11]ZHANG Xianchao,ZONG Linlin,YOU Quanzeng,et al. couver,British Columbia,Canada,2002:849-856. Sampling for Nystrom extension-based spectral cluster- [22]XIE Juanying,ZHOU Ying,DING Lijuan.Local stand-

文算法聚类精度受地标点个数影响较大，且选取方式略微增加了算法复杂度，未来将致力于寻求更为有效的地标点选择方式，在保证聚类精度的同时进一步降低算法复杂度。参考文献： WANG Lijuan, DING Shifei, JIA Hongjie. An improvement of spectral clustering via message passing and density sensitive similarity[J]. IEEE access, 2019, 7: 101054–101062. [1] LI Xinning, ZHAO Xiaoxiao, CHU Derun, et al. An autoencoder-based spectral clustering algorithm[J]. Soft computing, 2020, 24(3): 1661–1671. [2] 王一宾, 李田力, 程玉胜. 结合谱聚类的标记分布学习 [J]. 智能系统学报, 2019, 14(5): 966–973. WANG Yibin, LI Tianli, CHENG Yusheng. Label distribution learning based on spectral clustering[J]. CAAI transactions on intelligent systems, 2019, 14(5): 966–973. [3] 赵晓晓, 周治平. 结合稀疏表示与约束传递的半监督谱聚类算法 [J]. 智能系统学报, 2018, 13(5): 855–863. ZHAO Xiaoxiao, ZHOU Zhiping. A semi-supervised spectral clustering algorithm combined with sparse representation and constraint propagation[J]. CAAI transactions on intelligent systems, 2018, 13(5): 855–863. [4] LANGONE R, SUYKENS J A K. Fast kernel spectral clustering[J]. Neurocomputing, 2017, 268: 27–33. [5] ZHAN Qiang, MAO Yu. Improved spectral clustering based on Nyström method[J]. Multimedia tools and applications, 2017, 76(19): 20149–20165. [6] YANG Xiaojun, YU Weizhong, WANG Rong, et al. Fast spectral clustering learning with hierarchical bipartite graph for large-scale data[J]. Pattern recognition letters, 2020, 130(2): 345–352. [7] CHEN Xinlei, CAI Deng. Large scale spectral clustering with landmark-based representation[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence. San Francisco, USA, 2011: 313−318. [8] CAI Deng, CHEN Xinlei. Large scale spectral clustering via landmark-based sparse representation[J]. IEEE trans cybern, 2015, 45(8): 1669–1680. [9] 叶茂, 刘文芬. 基于快速地标采样的大规模谱聚类算法 [J]. 电子与信息学报, 2017, 39(2): 278–284. YE Mao, LIU Wenfen. Large scale spectral clustering based on fast landmark sampling[J]. Journal of electronics and information technology, 2017, 39(2): 278–284. [10] ZHANG Xianchao, ZONG Linlin, YOU Quanzeng, et al. Sampling for Nyström extension-based spectral cluster- [11] ing: incremental perspective and novel analysis[J]. ACM transactions on knowledge discovery from data, 2016, 11(1): 1–25. 邓思宇, 刘福伦, 黄雨婷, 等. 基于 PageRank 的主动学习算法 [J]. 智能系统学报, 2019, 14(3): 551–559. DENG Siyu, LIU Fulun, HUANG Yuting, et al. Active learning through PageRank[J]. CAAI transactions on intelligent systems, 2019, 14(3): 551–559. [12] RAFAILID D, CONSTANTINOU E, MANOLOPOULOS Y. Landmark selection for spectral clustering based on weighted PageRank[J]. Future generation computer systems, 2017, 68: 465–472. [13] LIU Li, SUN Letian, CHEN Shiping, et al. K-PRSCAN: A clustering method based on PageRank[J]. Neurocomputing, 2016, 175: 65–80. [14] JIA Hongjie, DING Shifei, DU Mingjing, et al. Approximate normalized cuts without eigen-decomposition[J]. Information sciences, 2016, 374: 135–150. [15] TIAN Fei, GAO Bin, CUI Qing, et al. Learning deep representations for graph clustering[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec, Canada, 2014: 1293−1299. [16] BANIJAMALI E, GHODSI A. Fast spectral clustering using autoencoders and landmarks[C]//Proceedings of International Conference Image Analysis and Recognition. Montreal, Canada, 2017: 380−388. [17] 光俊叶, 邵伟, 孙亮, 等. 基于融合欧氏距离与 Kendall Tau 距离度量的谱聚类算法 [J]. 控制理论与应用, 2017, 34(6): 783–789. GUANG Junye, SHAO Wei, SUN Liang, et al. Spectral clustering with mixed Euclidean and Kendall Tau metrics[J]. Control theory & applications, 2017, 34(6): 783–789. [18] WEI Kai, TIAN Pingfang, GU Jingguang, et al. RDF data assessment based on metrics and improved PageRank algorithm[C]//Proceedings of International Conference on Database Systems for Advanced Applications. Suzhou, China, 2017: 204−212. [19] 谢娟英, 丁丽娟. 完全自适应的谱聚类算法 [J]. 电子学报, 2019, 47(5): 1000–1008. XIE Juanying, DING Lijuan. The true self-adaptive spectral clustering algorithms[J]. Acta electronica sinica, 2019, 47(5): 1000–1008. [20] NG A Y, JORDAN M I, WEISS Y. On spectral clustering: analysis and an algorithm[C]//Proceedings of Neural Information Processing Systems 14, NIPS 2001. Vancouver, British Columbia, Canada, 2002: 849−856. [21] [22] XIE Juanying, ZHOU Ying, DING Lijuan. Local stand- 第 4 期张敏，等：结合度量融合和地标表示的自编码谱聚类算法 ·695·

·696· 智能系统学报第15卷 ard deviation spectral clustering[C]//Proceedings of the 作者简介： 2018 IEEE International Conference on Big Data and Smart Computing (BigComp).Shanghai,China,2018: 张敏，硕士研究生，主要研究方向 242-250. 为数据挖掘。 [23]WANG Bo,JIANG Jiayan,WANG Wei,et al.Unsuper- vised metric fusion by cross diffusion[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pat- tern Recognition.Providence,Rhode Island,2012: 2997-3004 [24]COIFMAN RR,LAFON S.Diffusion maps[J].Applied 周治平，教授，博士，主要研究方 and computational harmonic analysis,2006,21(1):5-30. 向为智能检测、网络安全。发表学术论文80余篇。 [25]XIE Junyuan,GIRSHICK R B,FARHADI A.Unsuper- vised deep embedding for clustering analysis[C]//Pro- ceedings of the 33nd International Conference on Ma- chine Learning.New York,USA,2016:478-487. 第五届认知系统和信息处理国际会议认知系统和信息处理国际会议(ICCSIP)每两年举办一次，已成为认知科学、智能系统、机器人等领域学者与企业的交流桥梁，为促进海内外学者的交流提供了全球化的平台，目前已举办4届，录用的论文在 Springer出版。当前正是认知科学与人工智能的飞速发展期，二者的结合与交融有利于触发瞬间灵感，推动创新步伐。因此，第五届认知系统和信息处理国际会议(ICC$P2020)主题为”面向人工智能的认知计算”，并于2020年12月18-20日在中国珠海横琴岛召开，希望推动认知、心理、智能、机器人等领域的融通交汇。此外，还将特别设立科技抗疫专题，欢迎各界人士依托此平台为全球科技抗疫贡献力量。同时国际会议现场还举办中国人工智能学会认知系统与信息处理专委会的年会。 1.专辑录用的优秀论文将会推荐至下列期刊专辑发表： 1)Cognitive Computation and Systems;2)InternationalJournal of Control,Automation,and Systems;3)Robotics and Autonomous Systems;4)Science China:Information Sciences;5)Tsinghua Science and Technology(English Ver- sion):6)IEEE Transactions on Cognitive and Development Systems;7)IEEE Transactions on Fuzzy Systems. 2.主题（包含但不限于）：认知系统：认知科学与技术，视觉认知处理，听觉认知处理，新颖认知计算模型，认知指标，认知心理学，认知机器人学，认知无线电，认知雷达。信息处理：信息表示与度量，多模态信息交互与融合，大数据和智能信息处理，神经认知计算与学习，视觉信息处理，脑机接口，生物信息学及应用，灵巧操作的多模态认知机制，极限学习及应用。 3.重要日期：投稿截止：2020.10.10 录用通知：2020.10.30 会议注册：2020.11.20 4.联系我们： E-mail:csip2020-2020@163.com,手机号：15952525480 更多信息请详见：http:/iccsip2020.caai.cnl

ard deviation spectral clustering[C]// Proceedings of the 2018 IEEE International Conference on Big Data and Smart Computing (BigComp). Shanghai, China, 2018: 242−250. WANG Bo, JIANG Jiayan, WANG Wei, et al. Unsupervised metric fusion by cross diffusion[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, Rhode Island, 2012: 2997−3004. [23] COIFMAN R R, LAFON S. Diffusion maps[J]. Applied and computational harmonic analysis, 2006, 21(1): 5–30. [24] XIE Junyuan, GIRSHICK R B, FARHADI A. Unsupervised deep embedding for clustering analysis[C]//Proceedings of the 33nd International Conference on Machine Learning. New York, USA, 2016: 478−487. [25] 作者简介：张敏，硕士研究生，主要研究方向为数据挖掘。周治平，教授，博士，主要研究方向为智能检测、网络安全。发表学术论文 80 余篇。第五届认知系统和信息处理国际会议认知系统和信息处理国际会议（ICCSIP）每两年举办一次，已成为认知科学、智能系统、机器人等领域学者与企业的交流桥梁，为促进海内外学者的交流提供了全球化的平台，目前已举办 4 届，录用的论文在 Springer 出版。当前正是认知科学与人工智能的飞速发展期，二者的结合与交融有利于触发瞬间灵感，推动创新步伐。因此，第五届认知系统和信息处理国际会议 (ICCSIP2020) 主题为”面向人工智能的认知计算”，并于 2020 年 12 月 18-20 日在中国珠海横琴岛召开，希望推动认知、心理、智能、机器人等领域的融通交汇。此外，还将特别设立科技抗疫专题，欢迎各界人士依托此平台为全球科技抗疫贡献力量。同时国际会议现场还举办中国人工智能学会认知系统与信息处理专委会的年会。 1.专辑录用的优秀论文将会推荐至下列期刊专辑发表： 1）Cognitive Computation and Systems；2）InternationalJournal of Control, Automation, and Systems；3）Robotics and Autonomous Systems；4）Science China: Information Sciences；5）Tsinghua Science and Technology (English Version)；6）IEEE Transactions on Cognitive and Development Systems；7）IEEE Transactions on Fuzzy Systems。 2.主题（包含但不限于）：认知系统：认知科学与技术,视觉认知处理,听觉认知处理,新颖认知计算模型,认知指标,认知心理学,认知机器人学,认知无线电,认知雷达。信息处理：信息表示与度量,多模态信息交互与融合,大数据和智能信息处理,神经认知计算与学习,视觉信息处理,脑机接口,生物信息学及应用,灵巧操作的多模态认知机制,极限学习及应用。 3.重要日期：投稿截止：2020.10.10 录用通知：2020.10.30 会议注册：2020.11.20 4.联系我们： E-mail:csip2020-2020@163.com，手机号：15952525480 更多信息请详见：http://iccsip2020.caai.cn/ ·696· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录