2.2 改进 k-means 算法初始聚类中心选取流程根据上述思想，得到

正在加载图片...

第2期赵燕伟，等：基于可拓距的改进k-means聚类算法 ·347· 2.2改进k-means算法初始聚类中心选取流程 3实验与分析根据上述思想，得到改进k-means算法初始聚类中心选取的具体实施步骤如下：为了验证本文所提出算法的有效性，将本文 1)按式(4)计算出两两样本间距离及等效密算法与传统k-means算法及文献[22-23]所提出的集距离区间[A,B]: 改进聚类算法进行对比分析。 2)按式(5)和式(6)将距离映射为可拓左侧距实验所用的测试数据集为UCI数据库中用于 pD及可拓右侧距P,D,将p按从小到大顺序测试聚类的Iris数据集和Wine数据集，各数据的依次排序，同时按式(7)计算样本间可拓平均左特征如表1所示。侧距可及可拓平均右侧距p; 表1 各数据集的基本特征 Table 1 Characteristics of datasets 3)遍历排序好的可拓距，将其中首个大于样数据集样本维数本间可拓平均左侧距可的可拓距对应中心点坐样本个数分类数标作为第一个初始聚类中心。 Iris 150 4)计算排好序可拓距中下一个值对应中心点 Wine 179 3 坐标并依次计算出其与已确定的初始聚类中心的基于本文提出算法对Iris、Wine数据进行初可拓距，将其与样本平均可拓右侧距F进行比始中心点选取，特别指出，为了观察初始聚类中较，若其均大于可，则该中心点坐标作为下一个心点选取位置的大体远近及分散程度，本文为节初始聚类中心；否则重新执行步骤4)。省篇幅，只展示数据集两属性的二维图3和图4。 5)如果遍历一次后，初始聚类中心未达到K, 从图3和图4中可看出本文提出改进算法选取的则按式(8)计算出缩小因子，动态缩小样本平均初始聚类中心点，对低维与高维数据选取的初始可拓右侧距可，重新回到步骤3)。聚类中心点，相较于其他改进算法分布更均匀， 6)若聚类中心数达到K时，则完成初始聚类位于边界区域初始聚类中心点，其周围数据点也中心的选取。相对密集。 4.5r 4.5 4.5 840 号4.0 84.0 35 35 35 3.0 3.0 3.0 25 2.5 2.0 2.0上 2.0 4.55.05.56.06.57.07.58.0 4.55.05.56.06.57.07.58.0 4.55.05.56.06.57.07.58.0 花萼长度/cm 花萼长度/cm 花萼长度/cm (a)基于可拓距方法 (b)基于密集度方法 (c)基于平均差异度方法图3基于Iis数据的初始聚类中心点分布对比 Fig.3 Comparison of distribution of initial cluster centers based on Iris dataset 6 6 6 5 5 5 …… 34 2 2 3 1 11.0 12.013.014.0 15.0 11.012.013.0 14.015.0 11.0 12.013.014.015.0 乙醇乙醇乙醇 (a)基于可拓距方法 (b)基于密集度方法 (c)基于平均差异度方法图4基于Wine数据的初始聚类中心点分布对比 Fig.4 Comparison of distribution of initial cluster centers based on Wine dataset 为了定量描述初始聚类中心点选取的质量，情况和现有改进算法聚类情况进行对比，其聚类本文先将所选中心点聚类，将其与样本实际聚类效果图5和图6。2.2 改进 k-means 算法初始聚类中心选取流程根据上述思想，得到改进 k-means 算法初始聚类中心选取的具体实施步骤如下： 1）按式 (4) 计算出两两样本间距离及等效密集距离区间 [A,B]； ρl (i, j) ρr (i, j) ρl (i, j) ρl ρr 2）按式 (5) 和式 (6) 将距离映射为可拓左侧距及可拓右侧距，将按从小到大顺序依次排序，同时按式 (7) 计算样本间可拓平均左侧距及可拓平均右侧距； ρl 3）遍历排序好的可拓距，将其中首个大于样本间可拓平均左侧距的可拓距对应中心点坐标作为第一个初始聚类中心。 ρr ρr 4）计算排好序可拓距中下一个值对应中心点坐标并依次计算出其与已确定的初始聚类中心的可拓距，将其与样本平均可拓右侧距进行比较，若其均大于，则该中心点坐标作为下一个初始聚类中心；否则重新执行步骤 4）。 η ρr 5）如果遍历一次后，初始聚类中心未达到 K，则按式 (8) 计算出缩小因子，动态缩小样本平均可拓右侧距，重新回到步骤 3）。 6）若聚类中心数达到 K 时，则完成初始聚类中心的选取。 3 实验与分析为了验证本文所提出算法的有效性，将本文算法与传统 k-means 算法及文献 [22-23] 所提出的改进聚类算法进行对比分析。实验所用的测试数据集为 UCI 数据库中用于测试聚类的 Iris 数据集和 Wine 数据集，各数据的特征如表 1 所示。表 1 各数据集的基本特征 Table 1 Characteristics of datasets 数据集样本个数样本维数分类数 Iris 150 4 3 Wine 179 13 3 基于本文提出算法对 Iris、Wine 数据进行初始中心点选取，特别指出，为了观察初始聚类中心点选取位置的大体远近及分散程度，本文为节省篇幅，只展示数据集两属性的二维图 3 和图 4。从图 3 和图 4 中可看出本文提出改进算法选取的初始聚类中心点，对低维与高维数据选取的初始聚类中心点，相较于其他改进算法分布更均匀，位于边界区域初始聚类中心点，其周围数据点也相对密集。 (a) 基于可拓距方法 4.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 3.5 3.0 花萼宽度/cm 花萼长度/cm 2.5 2.0 (c) 基于平均差异度方法 4.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 3.5 3.0 花萼宽度/cm 花萼长度/cm 2.5 2.0 (b) 基于密集度方法 4.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 3.5 3.0 花萼宽度/cm 花萼长度/cm 2.5 2.0 图 3 基于 Iris 数据的初始聚类中心点分布对比 Fig. 3 Comparison of distribution of initial cluster centers based on Iris dataset (a) 基于可拓距方法 6 11.0 12.0 13.0 14.0 15.0 5 4 3 苹果酸乙醇 2 1 (b) 基于密集度方法 6 11.0 12.0 13.0 14.0 15.0 5 4 3 苹果酸乙醇 2 1 (c) 基于平均差异度方法 6 11.0 12.0 13.0 14.0 15.0 5 4 3 苹果酸乙醇 2 1 图 4 基于 Wine 数据的初始聚类中心点分布对比 Fig. 4 Comparison of distribution of initial cluster centers based on Wine dataset 为了定量描述初始聚类中心点选取的质量，本文先将所选中心点聚类，将其与样本实际聚类情况和现有改进算法聚类情况进行对比，其聚类效果图 5 和图 6。第 2 期赵燕伟，等：基于可拓距的改进 k-means 聚类算法 ·347·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】基于可拓距的改进k-means聚类算法