正在加载图片...
高、不支持大规模数据集、聚类结果对模型参数敏感的缺点,其优势在于模型能够提供充 分描述数据的方法,C.Saxena等人结合了K-Means与SOM充分发挥了其在可视化、解释 模型方面的优点,但随着聚类算法的深入研究,判别分析、主成分分析等方法被用于聚类 结果的解释中,Counteny Mckim利用判别分析中的图形技术帮助使用者理解和解释集群 ,本文作者则借助主成分分析解决了指标重复性大的问题,研究结果也表明判别分析与 主成分分析方法在解释聚类结果时取得了良好的效果。TwoStep算法是改进的BRICH算法 (层次聚类算法),降低了算法的时间复杂度,并能够自动确定最佳聚类簇数,具有较好 的扩展性,在高炉操作炉型监控管理的应用中也表现出较好的效果。 囊1聚类算法分类及特点 Table.1 Classification and characteristics of clustering algorithms Clustering algorithms Advantages Disadvantages Low time complexity;High The number of clusters needed to be preset:not K-Means computing efficiency suitable for non-convex data Suitable for the arbitrary data set; High in time complexify:The number of clusters Based on Hierarchy High scalability needed to be preset Diverse and developed models High time complexity;The premise not SOM providing means to describe data completely correet,The clustering result adequately sensitive to the parameters of selected models Improved BRICH algorithm: Medium computational efficiency for large-scale TwoStep Automatically determined ustering algorithm cannot remerge or clustering numbers separate clusters to optimize clustering results 基于以上讨论,本文结合所研究数据对象的特征,选择了两种现阶段高炉操作炉型研 究中常用的聚类算法一一K-Means和TwoStep算法,对高炉炉身冷却壁热电偶数据进行聚 类分析,并借助合适的聚类有效性评价指标研究不同算法的聚类效果差异,以期为高炉 炼铁大数据分析中的聚类算法选择提供有力参考。 1.2K-Means算法、TwoStep算法理 (I)K-Means聚类的算法思想7是按照样本之间距离,将n个样本点划分为k个类, 使得相似的样本尽量被分到同个类,其衡量相似度的计算方法为欧氏距离。 K-Means算法的具体步骤为: 1.对全部个对像随机选择k个对象作为一个类的中心,代表将生成的k个类: 2.计算其他对象到聚类中心的距离,分派对象至距离最近的簇内: 3.针对每个类计算其所有对象的平均值,作为所有对象的新中心值: 4根据距离最近原则,重新分配数据: 5返同3)值至无变化,结束聚类。 (2 oStep两步聚类算法是BIRCH层次聚类算法的改良方法,加入了自动确定最 佳簇数量的机制,使得TwoStep算法更加实用281。 该聚类算法可分为预聚类阶段和聚类阶段。在预聚类阶段,采用了BIRCH算法中CF 树生长的思想,先遍历一遍数据,生成C℉树的同时,预先聚类较为密集的数据点,形成 诸多子簇。在聚类阶段,以预聚类阶段的子簇为对象,利用凝聚法逐个合并子簇,通过 AIC准则(Akaike Information Criterion)、BIC准则(Bayesian Information Criterion)以及 类别间最短距离确定最优类别数作为聚类终止的条件。 13聚类有效性评价榴标 聚类有效性评价指标分为内部指标和外部指标两类,两者的区别在于是否将外部信息高、不支持大规模数据集、聚类结果对模型参数敏感的缺点,其优势在于模型能够提供充 分描述数据的方法,C.Saxena 等人结合了 K-Means 与 SOM 充分发挥了其在可视化、解释 模型方面的优点,但随着聚类算法的深入研究,判别分析、主成分分析等方法被用于聚类 结果的解释中,Counteny Mckim 利用判别分析中的图形技术帮助使用者理解和解释集群 [28],本文作者则借助主成分分析解决了指标重复性大的问题,研究结果也表明判别分析与 主成分分析方法在解释聚类结果时取得了良好的效果。TwoStep 算法是改进的 BRICH 算法 (层次聚类算法),降低了算法的时间复杂度,并能够自动确定最佳聚类簇数,具有较好 的扩展性,在高炉操作炉型监控管理的应用中也表现出较好的效果。 表 1 聚类算法分类及特点 Table.1 Classification and characteristics of clustering algorithms Clustering algorithms Advantages Disadvantages K-Means Low time complexity; High computing efficiency The number of clusters needed to be preset; not suitable for non-convex data Based on Hierarchy Suitable for the arbitrary data set; High scalability High in time complexity; The number of clusters needed to be preset SOM Diverse and developed models providing means to describe data adequately High time complexity; The premise not completely correct; The clustering result sensitive to the parameters of selected models TwoStep Improved BRICH algorithm; Automatically determined clustering numbers Medium computational efficiency for large-scale data;Clustering algorithm cannot remerge or separate clusters to optimize clustering results 基于以上讨论,本文结合所研究数据对象的特征,选择了两种现阶段高炉操作炉型研 究中常用的聚类算法——K-Means 和 TwoStep 算法,对高炉炉身冷却壁热电偶数据进行聚 类分析,并借助合适的聚类有效性评价指标,研究不同算法的聚类效果差异,以期为高炉 炼铁大数据分析中的聚类算法选择提供有力参考。 1.2 K-Means 算法、TwoStep 算法原理 (1)K-Means 聚类的算法思想[26-27]是按照样本之间距离,将 n 个样本点划分为 k 个类, 使得相似的样本尽量被分到同一个类,其衡量相似度的计算方法为欧氏距离。 K-Means 算法的具体步骤为: 1.对全部 n 个对象,随机选择 k 个对象作为一个类的中心,代表将生成的 k 个类; 2.计算其他对象到聚类中心的距离,分派对象至距离最近的簇内; 3.针对每个类计算其所有对象的平均值,作为所有对象的新中心值; 4.根据距离最近原则,重新分配数据; 5.返回(3)直至无变化,结束聚类。 (2)TwoStep 两步聚类算法是 BIRCH 层次聚类算法的改良方法,加入了自动确定最 佳簇数量的机制,使得 TwoStep 算法更加实用[28]。 该聚类算法可分为预聚类阶段和聚类阶段。在预聚类阶段,采用了 BIRCH 算法中 CF 树生长的思想,先遍历一遍数据,生成 CF 树的同时,预先聚类较为密集的数据点,形成 诸多子簇。在聚类阶段,以预聚类阶段的子簇为对象,利用凝聚法逐个合并子簇,通过 AIC 准则(Akaike Information Criterion)、BIC 准则(Bayesian Information Criterion)以及 类别间最短距离确定最优类别数作为聚类终止的条件。 1.3 聚类有效性评价指标 聚类有效性评价指标分为内部指标和外部指标两类,两者的区别在于是否将外部信息 录用稿件,非最终出版稿
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有