泛的应用[2]。谱聚类将聚类问题转化为图分割问题[3] ，通过寻找最优

正在加载图片...

·688… 智能系统学报第15卷泛的应用。均值优化Ncut的目标函数，避免拉普拉斯矩阵的谱聚类将聚类问题转化为图分割问题)，通直接特征分解。Tian等i6证明了自编码器和谱过寻找最优子图对数据点进行划分。但现存的多聚类之间的相似性，利用栈式自编码器代替特征数谱聚类算法在处理大规模数据集时，涉及相似分解，有效降低计算复杂度。Banijamali等度矩阵构造和对应的拉普拉斯矩阵分解，往往需提出将深层结构与地标表示相结合，实现快速且要高昂的时空开销，高计算成本成为制约其在大准确的聚类。但上述提及的谱聚类算法均使用传规模场景应用中的瓶颈。为实现对大规模数据统基于欧氏距离度量方案，并不能完全反映数据的高效聚类分析，提升谱聚类算法的扩展性，大复杂的空间分布特性。光俊叶等割提出融合欧量研究方法被提出。Nystrom扩展作为一种近似氏距离和Kendall Tau距离的谱聚类方法，充分利低秩矩阵的有效方法，利用抽样技术，减少特征用不同相似性度量从不同角度获取数据信息的优分解复杂度。针对抽样策略的选择，Zhan等势，全面反映底层结构信息。设计了一种自适应的Nystrom采样方法，通过多本文在地标点采样8的理论基础上，采用基次遍历并更新抽样概率，选取更有意义的样本于网页质量的PageRank算法计算节点的重要性，点，以较小的抽样集获得理想的聚类效果。考虑作为抽样策略依据代替随机抽样，选取代表点作到高斯核参数调整问题，Yang等提出一种基于为地标点，通过稀硫表示近似获得图相似度矩层次二部图的谱聚类算法，通过金字塔结构式的阵，以降低存储开销。同时为全面反映数据底层多层锚点构造层次二部图降低计算复杂度，此外结构信息，将欧氏距离与Kendall Tau距离两种度采用无参数邻接分配策略构造相似度矩阵，避免量方案融合，用局部标准差代替特定的缩放尺参数调优过程。蔡登等⑧-提出基于地标表示的度，构造融合多度量方式的自适应相似度矩阵，研究，择取具有代表性的数据点作为地标点，通以提高聚类精度。此外，用栈式自编码器代替特过地标点的稀疏线性组合近似构造图相似度矩征分解，在联合学习框架中进行嵌入表示学习和阵，从而有效降低谱嵌入的计算复杂度，该算法聚类，避免微调环节覆盖之前所得最优参数，从一定程度上解决了矩阵存储开销问题，但其随机而进一步提高聚类精度。采样确定地标点的方式会造成聚类结果的不稳定，故而地标点的选取为算法的关键。叶茂等 1相关算法理论利用由近似奇异向量的长度计算的抽样概率来进 1.1基于QPR的地标选择行抽样，以保证聚类结果的稳定性和精度。 PageRank算法采用平均分配思想，将节点权 Zhang等川提出一种基于增量视角的抽样框架，重划分给人链节点，忽略节点质量存在差异性，每一个要抽样的点是由先前选定的地标点决定，改进后的加权PageRank算法通过传入链路权重在地标点之间建立显式关系。但这些改进的方法在择取地标点时都忽略了节点的拓扑属性，其可 wa及传出链路权重w,2个参数1，依据网络结构有区分地进行权值分配，但该参数在迭代过有效描述亲和图整体结构特性，对于捕捉高维数据空间的拓扑信息有着重要意义。故邓思雨等叫程中是固定存在的，存在局限性。基于网页质量将PageRank分值作为样本信息量的度量指标，的PageRank算法(page quality based PageRank al- Rafailid等l)提出一种基于地标选择的快速谱聚 gorithm,QPR)定义了相对质量Q(a,用于迭代过程协助分配PR值，动态评估每个节点的质量，其类算法，根据加权PageRank算法选择亲和图中最计算公式为重要的节点作为地标点。Liu等将数据点视为 PR(a) web页面，数据点之间的距离类似为链路间的权 Q(a)= 重，采用PageRank算法评估数据点的重要性，选 PR(b) MPR(a) (1) 择代表点。该方法能够区分球状和非球状的簇，且减少噪声点的负面影响。以上这些改进的谱聚 MPR(a)=max PR(b heB(a) 类算法虽然降低了计算复杂度，仍然需要对矩阵式中：B(a)表示节点a的入链节点集合：MPR(a) 进行特征分解。Jia等设计了一种无需特征分表示a的入链节点集合中的最大PR值。相对质解的大规模近似Ncut谱聚类算法，一方面通过对量Q(a)将迭代过程中a的人链集合与其本身的数据点的采样推断数据集的全局特征，减少归一 PR值信息结合，对于具有相同PR值的节点，拥化切割的空间需求，另一方面利用近似加权核k 有较大入链PR值的节点将得到加权，从而在下泛的应用[2]。谱聚类将聚类问题转化为图分割问题[3] ，通过寻找最优子图对数据点进行划分。但现存的多数谱聚类算法在处理大规模数据集时，涉及相似度矩阵构造和对应的拉普拉斯矩阵分解，往往需要高昂的时空开销，高计算成本成为制约其在大规模场景应用中的瓶颈[4]。为实现对大规模数据的高效聚类分析，提升谱聚类算法的扩展性，大量研究方法被提出。Nyström 扩展作为一种近似低秩矩阵的有效方法，利用抽样技术，减少特征分解复杂度[5]。针对抽样策略的选择，Zhan 等 [6] 设计了一种自适应的 Nyström 采样方法，通过多次遍历并更新抽样概率，选取更有意义的样本点，以较小的抽样集获得理想的聚类效果。考虑到高斯核参数调整问题，Yang 等 [7] 提出一种基于层次二部图的谱聚类算法，通过金字塔结构式的多层锚点构造层次二部图降低计算复杂度，此外采用无参数邻接分配策略构造相似度矩阵，避免参数调优过程。蔡登等[8-9] 提出基于地标表示的研究，择取具有代表性的数据点作为地标点，通过地标点的稀疏线性组合近似构造图相似度矩阵，从而有效降低谱嵌入的计算复杂度，该算法一定程度上解决了矩阵存储开销问题，但其随机采样确定地标点的方式会造成聚类结果的不稳定，故而地标点的选取为算法的关键。叶茂等[10] 利用由近似奇异向量的长度计算的抽样概率来进行抽样，以保证聚类结果的稳定性和精度。 Zhang 等 [11] 提出一种基于增量视角的抽样框架，每一个要抽样的点是由先前选定的地标点决定，在地标点之间建立显式关系。但这些改进的方法在择取地标点时都忽略了节点的拓扑属性，其可有效描述亲和图整体结构特性，对于捕捉高维数据空间的拓扑信息有着重要意义。故邓思雨等[12] 将 PageRank 分值作为样本信息量的度量指标， Rafailid 等 [13] 提出一种基于地标选择的快速谱聚类算法，根据加权 PageRank 算法选择亲和图中最重要的节点作为地标点。Liu 等 [14] 将数据点视为 web 页面，数据点之间的距离类似为链路间的权重，采用 PageRank 算法评估数据点的重要性，选择代表点。该方法能够区分球状和非球状的簇，且减少噪声点的负面影响。以上这些改进的谱聚类算法虽然降低了计算复杂度，仍然需要对矩阵进行特征分解。Jia 等 [15] 设计了一种无需特征分解的大规模近似 Ncut 谱聚类算法，一方面通过对数据点的采样推断数据集的全局特征，减少归一化切割的空间需求，另一方面利用近似加权核 k- 均值优化 Ncut 的目标函数，避免拉普拉斯矩阵的直接特征分解。Tian 等 [16] 证明了自编码器和谱聚类之间的相似性，利用栈式自编码器代替特征分解，有效降低计算复杂度。Banijamali 等 [ 1 7 ] 提出将深层结构与地标表示相结合，实现快速且准确的聚类。但上述提及的谱聚类算法均使用传统基于欧氏距离度量方案，并不能完全反映数据复杂的空间分布特性。光俊叶等[18] 提出融合欧氏距离和 Kendall Tau 距离的谱聚类方法，充分利用不同相似性度量从不同角度获取数据信息的优势，全面反映底层结构信息。本文在地标点采样[8-9] 的理论基础上，采用基于网页质量的 PageRank 算法计算节点的重要性，作为抽样策略依据代替随机抽样，选取代表点作为地标点，通过稀疏表示近似获得图相似度矩阵，以降低存储开销。同时为全面反映数据底层结构信息，将欧氏距离与 Kendall Tau 距离两种度量方案融合，用局部标准差代替特定的缩放尺度，构造融合多度量方式的自适应相似度矩阵，以提高聚类精度。此外，用栈式自编码器代替特征分解，在联合学习框架中进行嵌入表示学习和聚类，避免微调环节覆盖之前所得最优参数，从而进一步提高聚类精度。 1 相关算法理论 1.1 基于 QPR 的地标选择 w in (a,b) w out (a,b) Q(a) PageRank 算法采用平均分配思想，将节点权重划分给入链节点，忽略节点质量存在差异性，改进后的加权 PageRank 算法通过传入链路权重及传出链路权重 2 个参数[13] ，依据网络结构有区分地进行权值分配，但该参数在迭代过程中是固定存在的，存在局限性。基于网页质量的 PageRank 算法[19] (page quality based PageRank algorithm, QPR) 定义了相对质量，用于迭代过程协助分配 PR 值，动态评估每个节点的质量，其计算公式为 Q(a) = PR(a) ( ∑ b∈B(a) PR(b) )/MPR(a) MPR(a) = max b∈B(a) PR(b) (1) B(a) a MPR(a) a Q(a) a 式中：表示节点的入链节点集合；表示的入链节点集合中的最大 PR 值。相对质量将迭代过程中的入链集合与其本身的 PR 值信息结合，对于具有相同 PR 值的节点，拥有较大入链 PR 值的节点将得到加权，从而在下 ·688· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】结合度量融合和地标表示的自编码谱聚类算法