正在加载图片...
据分布差别很大。K-Means聚类结果的数据分布更为集中,占比最多的一类达到了 37.426%,而TwoStep聚类结果占比最多的一类占比只有24.636%。同时,K-Means聚类结 果中存在两类占比极少,数据的分布情况体现了K-Means聚类结果的簇内数据更为集中, 簇间差别较大,验证了DBI和DI评价指标对聚类簇数为6时的评价结果,可以得到结论: 在本文所选的样本数据及数据特征基础上,K-Means算法的聚类结果优于TwoStep算法的 聚类结果。 3.2聚类算法原比较 从聚类结果的数据分布以及DBI、DI评价指标的比较,可以得到K-Means聚类结果 更优的结论。本节从聚类算法原理角度,讨论K-Means算法与TwoStep算法之间的优劣 B4。 K-Meas算法根据事先确定的类别数选取不同对象作为聚类中心点,以欧式距离为相 似度标准分派数据,再重新确定聚类中心,直至聚类结果收敛,这样聚类过程与 TwoStep算法构造CF树后采用凝聚法合并数据簇相比,有效地简化不减少了K- Means算法的时间复杂度。同时,TwoStep算法采用凝聚法合并数据簇也决定了其在大数 据样本处理能力上逊色于K-Means算法,且由于算法在构造CP树后采用凝聚法合并相似 簇,这种合并子簇方法的不可逆性导致聚类算法无法重新合并或分离簇代化聚类结果。 在衡量相似度的标准上,K-Means采用了欧氏距离,而oSep使用了对数似然距离, 这是统计理论中衡量簇与簇相异度的方法。不同的相似度衡量标准对聚类结果的影响很大, 需要选用合理的衡量指标进行聚类分析。 能够自动确定类别数是TwoStep算法的最太特 TwoStep算法可以通过AIC、BIC 以及类别间最短距离自动确定类别数。而K-MCa算法需要事先给定聚类数K值,K值 的确定也会影响算法的最终聚类结果。 对于数据中的异常点,TwoStep可以直动将其归类至最近簇中,但K-Means对异常点 没有有效的解决方法,异常点的存在会对聚类结果产生严重影响。本文在聚类分析前剔除 了数据集中异常点,因此K-Means算法才得到了较好的聚类结果。 从聚类算法原理来看,K-Means和TwoStep算法均有其优点,但算法本身也存在其不 足之处。两种算法本身并没有优劣之分,只是针对不同特性的数据集和特定应用场景,两 种聚类算法对数据集的处理能力处理结果存在差异。 3.3炉型分类的物理含义 录用 簇数为6时, K-Means TwoStep算法的聚类结果如图9所示。 10 Me --Cluster -Cluster -Cluster5一C1 uster6 Cluster 2 Cluster 5 Cluster 6 40 60 80 100 120 140 Temperature/C 圆9K-Means、TwoStep聚类结果(簇数为6) Fig.9 K-Means,TwoStep clustering results (the number of clusters is 6)据分布差别很大。K-Means 聚类结果的数据分布更为集中,占比最多的一类达到了 37.426%,而 TwoStep 聚类结果占比最多的一类占比只有 24.636%。同时,K-Means 聚类结 果中存在两类占比极少,数据的分布情况体现了 K-Means 聚类结果的簇内数据更为集中, 簇间差别较大,验证了 DBI 和 DI 评价指标对聚类簇数为 6 时的评价结果,可以得到结论: 在本文所选的样本数据及数据特征基础上,K-Means 算法的聚类结果优于 TwoStep 算法的 聚类结果。 3.2 聚类算法原理比较 从聚类结果的数据分布以及 DBI、DI 评价指标的比较,可以得到 K-Means 聚类结果 更优的结论。本节从聚类算法原理角度,讨论 K-Means 算法与 TwoStep 算法之间的优劣 [34]。 K-Means 算法根据事先确定的类别数选取不同对象作为聚类中心点,以欧式距离为相 似度标准分派数据,再重新确定聚类中心,直至聚类结果收敛,这样的聚类过程与 TwoStep 算法构造 CF 树后采用凝聚法合并数据簇相比,有效地简化了算法,减少了 K￾Means 算法的时间复杂度。同时,TwoStep 算法采用凝聚法合并数据簇也决定了其在大数 据样本处理能力上逊色于 K-Means 算法,且由于算法在构造 CF 树后采用凝聚法合并相似 簇,这种合并子簇方法的不可逆性导致聚类算法无法重新合并或分离簇优化聚类结果。 在衡量相似度的标准上,K-Means 采用了欧氏距离,而 TwoStep 使用了对数似然距离, 这是统计理论中衡量簇与簇相异度的方法。不同的相似度衡量标准对聚类结果的影响很大, 需要选用合理的衡量指标进行聚类分析。 能够自动确定类别数是 TwoStep 算法的最大特点,TwoStep 算法可以通过 AIC、BIC 以及类别间最短距离自动确定类别数。而 K-Means 算法需要事先给定聚类数 K 值, K 值 的确定也会影响算法的最终聚类结果。 对于数据中的异常点,TwoStep 可以自动将其归类至最近簇中,但 K-Means 对异常点 没有有效的解决方法,异常点的存在会对聚类结果产生严重影响。本文在聚类分析前剔除 了数据集中异常点,因此 K-Means 算法才得到了较好的聚类结果。 从聚类算法原理来看,K-Means 和 TwoStep 算法均有其优点,但算法本身也存在其不 足之处。两种算法本身并没有优劣之分,只是针对不同特性的数据集和特定应用场景,两 种聚类算法对数据集的处理能力与处理结果存在差异。 3.3 炉型分类的物理含义 簇数为 6 时,K-Means 与 TwoStep 算法的聚类结果如图 9 所示。 40 60 80 100 120 140 6 8 10 12 14 The section of cooling stave Temperature/℃ K-Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Twostep Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 图 9 K-Means、TwoStep 聚类结果(簇数为 6) Fig.9 K-Means, TwoStep clustering results (the number of clusters is 6) 录用稿件,非最终出版稿
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有