行衡量。对初始聚类中心点聚类后分类正确率统计如表 2 所示。对初始聚类

正在加载图片...

第2期赵燕伟，等：基于可拓距的改进k-means聚类算法 ·349· 行衡量。算法在聚类的均衡性上差异较小，但当维数增高对初始聚类中心点聚类后分类正确率统计如时，现有改进算法聚类均衡性和分类准确性会降表2所示。对初始聚类中心点聚类后各簇类样本低，导致个别类中样本较多，相反也会出现有些的个数统计如表3所示。由表3得出改进前后算类中样本过少的情况，使得之后聚类中心点更新法的均衡性指标如表4所示。从表2与表4中可时，较少样本数据的中心点在迭代更新时坐标变看出当数据集样本维数不高时，本文算法与改进化不明显，从而导致最终聚类效果差。表2改进前后算法聚类正确率指标 Table 2 Accuracy of clustering algorithm before and after % 数据集文献[17改进算法文献[18]改进算法传统k-means?算法本文提出算法 Iris 87.36 85.24 82.37 86.79 Wine 61.05 63.07 60.12 65.28 表3改进前后算法聚类后各簇类样本个数 Table 3 The number of samples in each cluster 数据实际各簇数本文提出算法各簇数文献[1刀改进算法各簇数文献[18]改进算法各簇数 Iris [50,50,50] [40,29,81] [53,84,13] [61,39,50] Wine [59,71,48] [27,78,73] [118,53,7刀 [116,4,58] 表4改进前后算法聚类均衡性指标 Table 4 Balance of clustering algorithm before and after 均衡性指标实际聚类本文提出算法聚类文献[17刀改进算法聚类文献[18]改进算法聚类 Iris 0 22.4 29.1 8.98 Wine 0 23.8 42.77 51.11 4结束语参考文献：本文提出一种基于可拓距的改进k-means聚 [1]于佐军，秦欢.基于改进蜂群算法的k-means算法).控类算法，将样本间平均距离映射为可拓距上对应制与决策，2018,33(1)181-185. 两个平均侧距，作为初始聚类中心选取的约束范 YU Zuojun,QIN Huan.k-means algorithm based on im- 围，克服了首个选取的初始中心点可能位于较疏 proved artificial bee colony algorithm[J].Control and de- cision,2018,33(1):181-185 散边界的缺陷。实验表明在高维数据集的情况 [2]HE Hong,TAN Yonghong.Automatic pattern recognition 下，基于可拓距的改进k-means算法选取的初始 of ECG signals using entropy-based adaptive dimensional- 聚类中心点聚类具有较高的正确率和均衡率，表 ity reduction and clustering[J].Applied soft computing, 明选取的初始聚类中心点较优，更适合大数据背 2017,55:238-252 景下的海量、高维数据聚类。 [3]PENG Chong,KANG Zhao,XU Fei,et al.Image projec- 本文对k-means聚类算法初始聚类中心的选 tion ridge regression for subspace clustering[J].IEEE sig- 取展开了研究，由于时间和个人能力有限，还存 nal processing letters,2017,24(7):991-995. 在不足之处有待后续研究中深化、提高：1)本文 [4]ROTHLISBERGER V,ZISCHG A P,KEILER M,et al. 算法对非数值型的数据集样本如何衡量相似度， Identifying spatial clusters of flood exposure to support de- cision making in risk management[J].Science of the total 并没有给出解决方法。2)文中提到的缩放因子并 environment,2017,598:593-603 不能自适应的变化，对算法的性能有所影响。 [5]何熊熊，管俊轶，叶宣佐，等.一种基于密度和网格的簇 3)如何引人关联函数代替距离计算相似度，是值心可确定聚类算法[J].控制与决策，2017,32(5)：得深人研究的问题。4)在理论上和实用上的意义 913-919. 及价值。5)进一步深入研究本课题的建议。 HE Xiongxiong,GUAN Junyi,YE Xuanzuo,et al.A dens-行衡量。对初始聚类中心点聚类后分类正确率统计如表 2 所示。对初始聚类中心点聚类后各簇类样本的个数统计如表 3 所示。由表 3 得出改进前后算法的均衡性指标如表 4 所示。从表 2 与表 4 中可看出当数据集样本维数不高时，本文算法与改进算法在聚类的均衡性上差异较小，但当维数增高时，现有改进算法聚类均衡性和分类准确性会降低，导致个别类中样本较多，相反也会出现有些类中样本过少的情况，使得之后聚类中心点更新时，较少样本数据的中心点在迭代更新时坐标变化不明显，从而导致最终聚类效果差。表 2 改进前后算法聚类正确率指标 Table 2 Accuracy of clustering algorithm before and after % 数据集文献[17]改进算法文献[18]改进算法传统k-means算法本文提出算法 Iris 87.36 85.24 82.37 86.79 Wine 61.05 63.07 60.12 65.28 表 3 改进前后算法聚类后各簇类样本个数 Table 3 The number of samples in each cluster 数据实际各簇数本文提出算法各簇数文献[17]改进算法各簇数文献[18]改进算法各簇数 Iris [50, 50, 50] [40, 29, 81] [53, 84, 13] [61, 39, 50] Wine [59, 71, 48] [27, 78, 73] [118, 53, 7] [116, 4, 58] 表 4 改进前后算法聚类均衡性指标 Table 4 Balance of clustering algorithm before and after 均衡性指标实际聚类本文提出算法聚类文献[17]改进算法聚类文献[18]改进算法聚类 Iris 0 22.4 29.1 8.98 Wine 0 23.8 42.77 51.11 4 结束语本文提出一种基于可拓距的改进 k-means 聚类算法，将样本间平均距离映射为可拓距上对应两个平均侧距，作为初始聚类中心选取的约束范围，克服了首个选取的初始中心点可能位于较疏散边界的缺陷。实验表明在高维数据集的情况下，基于可拓距的改进 k-means 算法选取的初始聚类中心点聚类具有较高的正确率和均衡率，表明选取的初始聚类中心点较优，更适合大数据背景下的海量、高维数据聚类。本文对 k-means 聚类算法初始聚类中心的选取展开了研究，由于时间和个人能力有限，还存在不足之处有待后续研究中深化、提高：1) 本文算法对非数值型的数据集样本如何衡量相似度，并没有给出解决方法。2) 文中提到的缩放因子并不能自适应的变化，对算法的性能有所影响。 3) 如何引入关联函数代替距离计算相似度，是值得深入研究的问题。4) 在理论上和实用上的意义及价值。5) 进一步深入研究本课题的建议。参考文献：于佐军, 秦欢. 基于改进蜂群算法的 k-means 算法 [J]. 控制与决策, 2018, 33(1): 181–185. YU Zuojun, QIN Huan. k-means algorithm based on improved artificial bee colony algorithm[J]. Control and decision, 2018, 33(1): 181–185. [1] HE Hong, TAN Yonghong. Automatic pattern recognition of ECG signals using entropy-based adaptive dimensionality reduction and clustering[J]. Applied soft computing, 2017, 55: 238–252. [2] PENG Chong, KANG Zhao, XU Fei, et al. Image projection ridge regression for subspace clustering[J]. IEEE signal processing letters, 2017, 24(7): 991–995. [3] RÖTHLISBERGER V, ZISCHG A P, KEILER M, et al. Identifying spatial clusters of flood exposure to support decision making in risk management[J]. Science of the total environment, 2017, 598: 593–603. [4] 何熊熊, 管俊轶, 叶宣佐, 等. 一种基于密度和网格的簇心可确定聚类算法 [J]. 控制与决策, 2017, 32(5): 913–919. HE Xiongxiong, GUAN Junyi, YE Xuanzuo, et al. A dens- [5] 第 2 期赵燕伟，等：基于可拓距的改进 k-means 聚类算法 ·349·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】基于可拓距的改进k-means聚类算法