正在加载图片...
·901· 杨梦茵,等:非对称卷积编码器的聚类算法 第5期 applications with noise)等简单易实现,得到广泛 备自动编码器来学习嵌入特征。DCN6结合了 应用。但在图像、文本、语音等高维且无结构的数 自动编码器和K-means算法。DCN预先训练自 据上容易发生维度灾难,且需要为每个数据集和任 动编码器,而后优化重建损失和K-means损失。 务人工设计特征,从而使聚类性能大打折扣。主 精心设计了网络结构,以避免琐碎和无意义的解 成分分析法(principal component analysis,.PCA) 决方案,并提出了一个有效的优化程序来处理挑 对高维数据进行降维并提取特征,其线性表征能 战性问题。DEN)利用自动编码器从原始数据 力在应对某些特殊分布的数据时效果不佳。基于 中学习简化的表示。应用局部保留约束保留数据 非监督学习的自编码器(auto-encoder,AE)-通过 的局部结构属性,通过优化损失对网络进行微调 多层复合映射能得到数据的非线性特征。自编码 实现聚类的精度的提高。 器将原始高维数据映射到低维特征空间,在该空 卷积自编码器中卷积核利用局部感受野抽取 间中更容易依据特征的分布形态执行聚类分析。 图像的局部特征和权值共享减少参数个数等优 深度聚类是用深度神经网络进行表征学习和 点,使得深度聚类方法DBC⑧在图像数据集上获 聚类指派的过程,通常卷积神经网络(convolution- 得很好的聚类结果。DBC尝试学习深度卷积自 al neural networks,CNN)周或堆叠自编码器自适应 编码器以端到端的方式进行训练,设计卷积层 地学习特征表示,再使用传统聚类算法完成聚类 (卷积层和反卷积层)和池化层(池化层和反池化 指派。此类方法与非深度聚类算法相比,在基准 层)组成的全连接卷积自编码器(FCAE)网络。 测试图像数据集上都获得了较好的性能。而AE 使用t分布嵌入算法(t-SNE)分布去衡量特征点 由此不断发展为稀疏自动编码器(sparse auto-.en- 与特征聚类中心点的相似性。 coder)9-1o、降噪自动编码器(denoising auto-en- CAE进行特征提取加快了网络训练的速度还 coder)-l2I以及卷积自动编码器(convolutional 提高了其下游应用任务的精度。基于深度特征表 auto-encoder,CAEy。 示的Softmax聚类算法(ASCAE-Softmax)2o算法 现有的聚类方法大多侧重于建模实例之间的 设计非对称自编码器网络进行无监督聚类,其中 相似或相异关系,而忽略了提取更有效的表示, 随机初始化网络权值替代层层预训练和全连接层 这在很大程度上影响了聚类性能。受此启发,本 的重构误差作为目标函数的正则约束。该方法为 文提出了一种基于非对称全连接层的卷积自编码 无监督聚类分析和特征表达提供了新思路。 器的深度聚类算法进行图像聚类分析。非对称全 连接层的卷积自编码器学习输入图片的特征表 2 AFCAE聚类算法 示,然后经典的K-means算法对特征进行聚类划 利用卷积自编码器进行无监督的特征提取, 分,对应成原图像的聚类结果。该方法的主要贡 并应用在下游聚类任务中。与一些联合聚类算法 献包括: 不同,本文方法分阶段进行。 1)提出非对称全连接层的卷积网络: 21网络结构 2)使用小卷积核,降低算法的复杂性,加快 本文提出了一种非对称全连接的卷积自编码 运行速度; (asymmetric fully-connected layers convolutional 3)在MNIST数据集上取得优于先进的深度 auto-encoder,.AFCAE),网络结构如图1上半部分 聚类算法的聚类精度。 所示。网络的输人是28×28的图片,然后通过卷 1相关工作 积网络(C1-C4)进行特征提取。受经典联合聚类 算法DBC1I的启发,卷积核多采用3×3。C1到 自动编码器是无监督表示学习中重要算法之 C3的每个待提取特征图都使用3×3卷积核,而 一,由于隐藏层维度通常比数据层小,它可以帮 C4层上使用2×2的卷积核。在C1层使用步长为 助提取更显著的特征。DEC(deep embedding clus- 3的3×3卷积核,步长等于卷积核的尺寸相当于 tering)先通过深度编码解码网络对数据进行降 把图片分割成小片再做特征提取,便于在分辨率 维,然后采用软分配确定样本点所属簇类,得到 高的图像上捕捉丰富的局部特征信息。F1-F6是 聚类结果。通过最小化软标签的分布和辅助目标 全连接层,其中F4层的神经元个数与数据集有 分布之间的KL散度来迭代改善聚类。IDECU1 关,其他层均设为50个。网络采用ReLU激活函 基于DEC的这种思路,在表征学习步骤时使用重 数。AFCAE网络相对于对称式网络而言可以看 构损失和聚类损失联合训练聚类网络。使用欠完 成在F2-F6对称全连接部分前加入F1全连接层applications with noise)[4] 等简单易实现,得到广泛 应用。但在图像、文本、语音等高维且无结构的数 据上容易发生维度灾难,且需要为每个数据集和任 务人工设计特征,从而使聚类性能大打折扣。主 成分分析法 (principal component analysis,PCA)[5] 对高维数据进行降维并提取特征,其线性表征能 力在应对某些特殊分布的数据时效果不佳。基于 非监督学习的自编码器 (auto-encoder,AE)[6-7] 通过 多层复合映射能得到数据的非线性特征。自编码 器将原始高维数据映射到低维特征空间,在该空 间中更容易依据特征的分布形态执行聚类分析。 深度聚类是用深度神经网络进行表征学习和 聚类指派的过程,通常卷积神经网络 (convolution￾al neural networks,CNN)[8] 或堆叠自编码器自适应 地学习特征表示,再使用传统聚类算法完成聚类 指派。此类方法与非深度聚类算法相比,在基准 测试图像数据集上都获得了较好的性能。而 AE 由此不断发展为稀疏自动编码器 (sparse auto-en￾coder)[9-10] 、降噪自动编码器 (denoising auto-en￾coder)[11-12] 以及卷积自动编码器 (convolutional auto-encoder,CAE)[13]。 现有的聚类方法大多侧重于建模实例之间的 相似或相异关系,而忽略了提取更有效的表示, 这在很大程度上影响了聚类性能。受此启发,本 文提出了一种基于非对称全连接层的卷积自编码 器的深度聚类算法进行图像聚类分析。非对称全 连接层的卷积自编码器学习输入图片的特征表 示,然后经典的 K-means 算法对特征进行聚类划 分,对应成原图像的聚类结果。该方法的主要贡 献包括: 1)提出非对称全连接层的卷积网络; 2)使用小卷积核,降低算法的复杂性,加快 运行速度; 3)在 MNIST 数据集上取得优于先进的深度 聚类算法的聚类精度。 1 相关工作 自动编码器是无监督表示学习中重要算法之 一,由于隐藏层维度通常比数据层小,它可以帮 助提取更显著的特征。DEC(deep embedding clus￾tering)[14] 先通过深度编码解码网络对数据进行降 维,然后采用软分配确定样本点所属簇类,得到 聚类结果。通过最小化软标签的分布和辅助目标 分布之间的 KL 散度来迭代改善聚类。IDEC[15] 基于 DEC 的这种思路,在表征学习步骤时使用重 构损失和聚类损失联合训练聚类网络。使用欠完 备自动编码器来学习嵌入特征。DCN[16] 结合了 自动编码器和 K-means 算法。DCN 预先训练自 动编码器,而后优化重建损失和 K-means 损失。 精心设计了网络结构,以避免琐碎和无意义的解 决方案,并提出了一个有效的优化程序来处理挑 战性问题。DEN[17] 利用自动编码器从原始数据 中学习简化的表示。应用局部保留约束保留数据 的局部结构属性,通过优化损失对网络进行微调 实现聚类的精度的提高。 卷积自编码器中卷积核利用局部感受野抽取 图像的局部特征和权值共享减少参数个数等优 点,使得深度聚类方法 DBC[18] 在图像数据集上获 得很好的聚类结果。DBC 尝试学习深度卷积自 编码器以端到端的方式进行训练,设计卷积层 (卷积层和反卷积层) 和池化层 (池化层和反池化 层) 组成的全连接卷积自编码器 (FCAE) 网络。 使用 t 分布嵌入算法 (t-SNE)[19] 分布去衡量特征点 与特征聚类中心点的相似性。 CAE 进行特征提取加快了网络训练的速度还 提高了其下游应用任务的精度。基于深度特征表 示的 Softmax 聚类算法 (ASCAE-Softmax)[20] 算法 设计非对称自编码器网络进行无监督聚类,其中 随机初始化网络权值替代层层预训练和全连接层 的重构误差作为目标函数的正则约束。该方法为 无监督聚类分析和特征表达提供了新思路。 2 AFCAE 聚类算法 利用卷积自编码器进行无监督的特征提取, 并应用在下游聚类任务中。与一些联合聚类算法 不同,本文方法分阶段进行。 2.1 网络结构 本文提出了一种非对称全连接的卷积自编码 器 (asymmetric fully-connected layers convolutional auto-encoder, AFCAE),网络结构如图 1 上半部分 所示。网络的输入是 28×28 的图片,然后通过卷 积网络 (C1-C4) 进行特征提取。受经典联合聚类 算法 DBC[18] 的启发,卷积核多采用 3×3。C1 到 C3 的每个待提取特征图都使用 3×3 卷积核,而 C4 层上使用 2×2 的卷积核。在 C1 层使用步长为 3 的 3×3 卷积核,步长等于卷积核的尺寸相当于 把图片分割成小片再做特征提取,便于在分辨率 高的图像上捕捉丰富的局部特征信息。F1-F6 是 全连接层,其中 F4 层的神经元个数与数据集有 关,其他层均设为 50 个。网络采用 ReLU 激活函 数。AFCAE 网络相对于对称式网络而言可以看 成在 F2-F6 对称全连接部分前加入 F1 全连接层 ·901· 杨梦茵,等:非对称卷积编码器的聚类算法 第 5 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有