《工程科学学报》：基于不同算法的高炉操作炉型聚类效果对比.pdf_大学文库

《工程科学学报》录用稿，htps:/doi.org/10.13374/i,issn2095-9389.2021.05.25.005©北京科技大学2020 基于不同算法的高炉操作炉型聚类效果对比鲁杰，闫炳基趣，赵伟，李鹏，陈栋，国宏伟苏州大学沙钢钢铁学院，苏州，江苏，215137 ☒通信作者，E-mail:bjyan(@sudaedu.cn 摘要高炉操作炉型与高炉操作、技术经济指标等关系密切，合理的操作炉型有利手保高炉生产的优质、低耗、高产、长寿。通过对冷却壁温度的聚类分析，能够有效合理地表征高炉操作炉型的变化，对高炉生产有着重要的指导意义。本文分别采用K-Means、TwoStep对数据集进行聚类分析，基于两种聚类算法的原理，结合Davies-Bouldin indicator(DBI)与Dunn indicator(DI)对聚类结果进行评价，分析不同聚类算法间的差异，得出了在本文所选的样本数据及数据特征基础上，KMas算法聚类结果更好的结论，该研究可为高炉炼铁大数据分析中的聚类算法选择提供有力参考关键词高炉操作炉型：K-Means:TwoStep:聚类；Davies-Bouldin indicator:l Dunn indicator 分类号TF512 Comparison of the effect of different clustering algorithms on the clustering of management of furnace profile LU Jie,】 YAN Bing-j,ZHAO Wei LI Peng,CHEN Dong,GUO Hong-wei School of Iron and Steel,Soochow University.Suzhou,Jiangsu215137,China Corresponding author,E-mail:biya Abstract Blast furnace eration profile is closely related to blast furnace's operation,technical and economic indicators,etc.Reasonable furnace operation profile is conducive to get high-quality hot metal,low fuel consumption,high yield and longevity of blast furnace production.Through cluster analysis of the stave temperature it can effectively and reasonably characterize the change of blast furnace operation profile,which has important guiding significance for blast furnace production.K-Means,TwoStep and hierarchical clustering algorithms are most commonly used in domestic for blast furnace operation profile monitoring at this stage.The research results also show that different clustering algorithms can basically achieve the management of blast furnace operation profile,but for different algorithms,the difference among the clustering results is not clear. Based on the previous research,this paper compared the clustering principles and research status with different algorithms,and selected two algorithms of K-Means and TwoStep which were more applied and more compatible with the algorithm principles.K-Means algorithm was a typical partition-based clustering algorithm,with low time complexity,high clustering efficiency,and good clustering quality.It was widely used in cluster analysis of blast 收精日期：基童项目：国家自然科学基金资助项目(52074185,51774209)

基于不同算法的高炉操作炉型聚类效果对比鲁杰，闫炳基，赵伟，李鹏，陈栋，国宏伟苏州大学沙钢钢铁学院，苏州，江苏，215137  通信作者，E-mail: bjyan@suda.edu.cn 摘要高炉操作炉型与高炉操作、技术经济指标等关系密切，合理的操作炉型有利于保证高炉生产的优质、低耗、高产、长寿。通过对冷却壁温度的聚类分析，能够有效合理地表征高炉操作炉型的变化，对高炉生产有着重要的指导意义。本文分别采用 K-Means、TwoStep 对数据集进行聚类分析，基于两种聚类算法的原理，结合 Davies-Bouldin indicator（DBI）与 Dunn indicator（DI）对聚类结果进行评价，分析不同聚类算法间的差异，得出了在本文所选的样本数据及数据特征基础上，K-Means 算法聚类结果更好的结论，该研究可为高炉炼铁大数据分析中的聚类算法选择提供有力参考。关键词高炉操作炉型；K-Means；TwoStep；聚类；Davies-Bouldin indicator；Dunn indicator 分类号 TF512 Comparison of the effect of different clustering algorithms on the clustering of management of furnace profile LU Jie，YAN Bing-ji，ZHAO Wei，LI Peng，CHEN Dong，GUO Hong-wei School of Iron and Steel, Soochow University, Suzhou, Jiangsu 215137, China  Corresponding author, E-mail: bjyan@suda.edu.cn Abstract Blast furnace operation profile is closely related to blast furnace's operation, technical and economic indicators, etc. Reasonable furnace operation profile is conducive to get high-quality hot metal, low fuel consumption, high yield and longevity of blast furnace production. Through cluster analysis of the stave temperature, it can effectively and reasonably characterize the change of blast furnace operation profile, which has important guiding significance for blast furnace production. K-Means, TwoStep and hierarchical clustering algorithms are most commonly used in domestic for blast furnace operation profile monitoring at this stage. The research results also show that different clustering algorithms can basically achieve the management of blast furnace operation profile, but for different algorithms, the difference among the clustering results is not clear. Based on the previous research, this paper compared the clustering principles and research status with different algorithms, and selected two algorithms of K-Means and TwoStep which were more applied and more compatible with the algorithm principles. K-Means algorithm was a typical partition-based clustering algorithm, with low time complexity, high clustering efficiency, and good clustering quality. It was widely used in cluster analysis of blast 收稿日期: 基金项目: 国家自然科学基金资助项目(52074185，51774209) 《工程科学学报》录用稿，https://doi.org/10.13374/j.issn2095-9389.2021.05.25.005 ©北京科技大学 2020 录用稿件，非最终出版稿

高炉操作炉型是高炉投入生产后，经炉衬侵蚀、渣皮生成，由设计炉型逐渐演变而来的表征高炉状态的高炉内型。在高炉冶炼过程中，高炉操作人员大多通过冷却壁参数、操作参数，结合生产经验间接分析高炉操作炉型的变化情况，以此判断炉况的好坏②。为保证高炉生产的优质、低耗、高产、长寿，就需要一个合理的高炉操作炉型。通过高炉冶炼过程参数，有效合理地表征高炉操作炉型的状况及其变化过程，并分析造成变化的原因，有利于高炉操作者及时调节高炉操作制度，优化生产过程。大数据分析平台改善了传统工业的生产模式，对高炉炼铁生产具有重要指导意义。聚类分析是大数据中重要一环，借助大数据平台，国内外学者探索了高炉料面控制、煤气调度的优化、中心煤气流分布情况监测、高炉操作炉型监控、铁水温度预测及铁水硅含量预测等技术B,有效优化了高炉治炼过程，是治金工业向智能制造转型的有力支撑。 K-Means、TwoStep是现阶段常用的高炉操作炉型聚类算法I3-16,但是对于不同聚类算法，应用效果的对照关系不甚明确。本文以高炉治炼过程的冷却壁热电偶温度为表征参数，利用K-Means和TwoStep聚类算法进行聚类分析，结合算法原理及聚类结果研究不同聚类算法的效果差异，以期为高炉炼铁大数据分析中的聚类算法选择提有利参考 1聚类算法 1.1聚类算法的选择聚类分析是数据挖掘技术中一项重要技术，通过将数据集合划分成多个类，基于数据的特征将相似的样本归为一类，而相异的样本分置于不的类中，以此确保类内样本的同质性及类间样本的异质性。随着数据挖掘技术应用方面愈发广泛，国内外学者将聚类分析引入至高炉操作炉型的管理中，通过采用不同聚类算法对高炉治炼数据进行分析，有效合理地表征高炉操作炉型的变化，对高炉生产有春重要的指导意义。武森等人选择了K-Meas算法与层次聚类算法分别对高炉治炼数据进行分析，实现了对高炉操作炉型波动与变化的实时监控有利于操作人员及时准确地调整高炉操作。 C.Saxena等人-1在K-Means算法的基础上引入了自组织特征映射(SOM),利用SOM 训练数据集，根据训练集的输出结果采用K-Means进行聚类以获得更好的聚类结果，在可视化、解释模型方面取得较好的效果。而在武钢5号高炉操作炉型管理系统的开发过程中，陈令坤io针对K-means算法对初始中心敏感、样本分布有要求的特点，对K-Means算法进行了一定的改进，聚类绩果准确表征了高炉铜冷却壁温度变化，并借助炉型变化与高炉利用系数的对应关系，步获得了武钢5号高炉的炉型变化规律。曹英杰等人阅选TwoStep聚类算法研究国丰1号高炉操作炉型，对高炉冷却壁热电偶温度值进行聚类分析，确定了高炉透气性指数与炉型变化的规律，并通过实践证明聚类分析的结果能够有效监控炉型变化，指导高炉生产现场。而本文作者考虑到评价炉型的指标多重叠性大的问题，曾在TwoStep算法的基础上引入主成分分析方法(Principal Component Analysis,PCA),从传统评价炉型的指标中生成3个新的核指标以评价聚类结果，实践结果表明生成的核指标有效解决了指标多且重复性大的问题，有效优化了高炉操作炉型的管理。上述研究进展中涉及的聚类算法特点如表1所示2o-21。K-Means聚类算法是经典的基于划分的聚类算法，时间复杂度低，聚类效率高，聚类质量好，在高炉操作炉型聚类分析中应用较多，同时K-Means算法也存在对初始中心敏感、对数据分布有要求的缺点，但陈令坤提出的改进方法是行之有效的，在对高炉操作炉型的管理中得到了优异效果6。层次聚类算法的时间复杂度普遍较高，且ROCK、chameleon等典型算法并不支持大规模数据集 ,层次聚类算法在高炉操作炉型的研究中应用较少，武森等人也仅在研究中提到该方法的可行性。自组织特征映射($OM)是一种基于模型的聚类算法，该算法存在时间复杂度

高炉操作炉型是高炉投入生产后，经炉衬侵蚀、渣皮生成，由设计炉型逐渐演变而来的表征高炉状态的高炉内型。在高炉冶炼过程中，高炉操作人员大多通过冷却壁参数、操作参数，结合生产经验间接分析高炉操作炉型的变化情况，以此判断炉况的好坏[1-2]。为保证高炉生产的优质、低耗、高产、长寿，就需要一个合理的高炉操作炉型。通过高炉冶炼过程参数，有效合理地表征高炉操作炉型的状况及其变化过程，并分析造成变化的原因，有利于高炉操作者及时调节高炉操作制度，优化生产过程。大数据分析平台改善了传统工业的生产模式，对高炉炼铁生产具有重要指导意义。聚类分析是大数据中重要一环，借助大数据平台，国内外学者探索了高炉料面控制、煤气调度的优化、中心煤气流分布情况监测、高炉操作炉型监控、铁水温度预测及铁水硅含量预测等技术[3-12]，有效优化了高炉冶炼过程，是冶金工业向智能制造转型的有力支撑。 K-Means、TwoStep 是现阶段常用的高炉操作炉型聚类算法[13-16]，但是对于不同聚类算法，应用效果的对照关系不甚明确。本文以高炉冶炼过程的冷却壁热电偶温度为表征参数，利用 K-Means 和 TwoStep 聚类算法进行聚类分析，结合算法原理及聚类结果研究不同聚类算法的效果差异，以期为高炉炼铁大数据分析中的聚类算法选择提供有利参考。 1 聚类算法 1.1 聚类算法的选择聚类分析是数据挖掘技术中一项重要技术，通过将数据集合划分成多个类，基于数据的特征将相似的样本归为一类，而相异的样本分置于不同的类中，以此确保类内样本的同质性及类间样本的异质性。随着数据挖掘技术应用方面愈发广泛，国内外学者将聚类分析引入至高炉操作炉型的管理中，通过采用不同聚类算法对高炉冶炼数据进行分析，有效合理地表征高炉操作炉型的变化，对高炉生产有着重要的指导意义。武森等人[17]选择了 K-Means 算法与层次聚类算法分别对高炉冶炼数据进行分析，实现了对高炉操作炉型波动与变化的实时监控，有利于操作人员及时准确地调整高炉操作。 C.Saxena 等人[18-19]在 K-Means 算法的基础上引入了自组织特征映射（SOM），利用 SOM 训练数据集，根据训练集的输出结果采用 K-Means 进行聚类以获得更好的聚类结果，在可视化、解释模型方面取得较好的效果。而在武钢 5 号高炉操作炉型管理系统的开发过程中，陈令坤[16]针对 K-means 算法对初始中心敏感、样本分布有要求的特点，对 K-Means 算法进行了一定的改进，聚类结果准确表征了高炉铜冷却壁温度变化，并借助炉型变化与高炉利用系数的对应关系，初步获得了武钢 5 号高炉的炉型变化规律。曹英杰等人[15]选用了 TwoStep 聚类算法研究国丰 1 号高炉操作炉型，对高炉冷却壁热电偶温度值进行聚类分析，确定了高炉透气性指数与炉型变化的规律，并通过实践证明聚类分析的结果能够有效监控炉型变化，指导高炉生产现场。而本文作者[14]考虑到评价炉型的指标多且重叠性大的问题，曾在 TwoStep 算法的基础上引入主成分分析方法（Principal Component Analysis，PCA），从传统评价炉型的指标中生成 3 个新的核指标以评价聚类结果，实践结果表明生成的核指标有效解决了指标多且重复性大的问题，有效优化了高炉操作炉型的管理。上述研究进展中涉及的聚类算法特点如表 1 所示[20-25]。K-Means 聚类算法是经典的基于划分的聚类算法，时间复杂度低，聚类效率高，聚类质量好，在高炉操作炉型聚类分析中应用较多，同时 K-Means 算法也存在对初始中心敏感、对数据分布有要求的缺点，但陈令坤提出的改进方法是行之有效的，在对高炉操作炉型的管理中得到了优异效果[16]。层次聚类算法的时间复杂度普遍较高，且 ROCK、chameleon 等典型算法并不支持大规模数据集 [25]，层次聚类算法在高炉操作炉型的研究中应用较少，武森等人也仅在研究中提到该方法的可行性。自组织特征映射（SOM）是一种基于模型的聚类算法，该算法存在时间复杂度录用稿件，非最终出版稿

高、不支持大规模数据集、聚类结果对模型参数敏感的缺点，其优势在于模型能够提供充分描述数据的方法，C.Saxena等人结合了K-Means与SOM充分发挥了其在可视化、解释模型方面的优点，但随着聚类算法的深入研究，判别分析、主成分分析等方法被用于聚类结果的解释中，Counteny Mckim利用判别分析中的图形技术帮助使用者理解和解释集群 ,本文作者则借助主成分分析解决了指标重复性大的问题，研究结果也表明判别分析与主成分分析方法在解释聚类结果时取得了良好的效果。TwoStep算法是改进的BRICH算法 (层次聚类算法)，降低了算法的时间复杂度，并能够自动确定最佳聚类簇数，具有较好的扩展性，在高炉操作炉型监控管理的应用中也表现出较好的效果。囊1聚类算法分类及特点 Table.1 Classification and characteristics of clustering algorithms Clustering algorithms Advantages Disadvantages Low time complexity;High The number of clusters needed to be preset:not K-Means computing efficiency suitable for non-convex data Suitable for the arbitrary data set; High in time complexify:The number of clusters Based on Hierarchy High scalability needed to be preset Diverse and developed models High time complexity;The premise not SOM providing means to describe data completely correet,The clustering result adequately sensitive to the parameters of selected models Improved BRICH algorithm: Medium computational efficiency for large-scale TwoStep Automatically determined ustering algorithm cannot remerge or clustering numbers separate clusters to optimize clustering results 基于以上讨论，本文结合所研究数据对象的特征，选择了两种现阶段高炉操作炉型研究中常用的聚类算法一一K-Means和TwoStep算法，对高炉炉身冷却壁热电偶数据进行聚类分析，并借助合适的聚类有效性评价指标研究不同算法的聚类效果差异，以期为高炉炼铁大数据分析中的聚类算法选择提供有力参考。 1.2K-Means算法、TwoStep算法理 (I)K-Means聚类的算法思想7是按照样本之间距离，将n个样本点划分为k个类，使得相似的样本尽量被分到同个类，其衡量相似度的计算方法为欧氏距离。 K-Means算法的具体步骤为： 1.对全部个对像随机选择k个对象作为一个类的中心，代表将生成的k个类： 2.计算其他对象到聚类中心的距离，分派对象至距离最近的簇内： 3.针对每个类计算其所有对象的平均值，作为所有对象的新中心值： 4根据距离最近原则，重新分配数据： 5返同3)值至无变化，结束聚类。 (2 oStep两步聚类算法是BIRCH层次聚类算法的改良方法，加入了自动确定最佳簇数量的机制，使得TwoStep算法更加实用281。该聚类算法可分为预聚类阶段和聚类阶段。在预聚类阶段，采用了BIRCH算法中CF 树生长的思想，先遍历一遍数据，生成C℉树的同时，预先聚类较为密集的数据点，形成诸多子簇。在聚类阶段，以预聚类阶段的子簇为对象，利用凝聚法逐个合并子簇，通过 AIC准则(Akaike Information Criterion)、BIC准则(Bayesian Information Criterion)以及类别间最短距离确定最优类别数作为聚类终止的条件。 13聚类有效性评价榴标聚类有效性评价指标分为内部指标和外部指标两类，两者的区别在于是否将外部信息

高、不支持大规模数据集、聚类结果对模型参数敏感的缺点，其优势在于模型能够提供充分描述数据的方法，C.Saxena 等人结合了 K-Means 与 SOM 充分发挥了其在可视化、解释模型方面的优点，但随着聚类算法的深入研究，判别分析、主成分分析等方法被用于聚类结果的解释中，Counteny Mckim 利用判别分析中的图形技术帮助使用者理解和解释集群 [28]，本文作者则借助主成分分析解决了指标重复性大的问题，研究结果也表明判别分析与主成分分析方法在解释聚类结果时取得了良好的效果。TwoStep 算法是改进的 BRICH 算法（层次聚类算法），降低了算法的时间复杂度，并能够自动确定最佳聚类簇数，具有较好的扩展性，在高炉操作炉型监控管理的应用中也表现出较好的效果。表 1 聚类算法分类及特点 Table.1 Classification and characteristics of clustering algorithms Clustering algorithms Advantages Disadvantages K-Means Low time complexity; High computing efficiency The number of clusters needed to be preset; not suitable for non-convex data Based on Hierarchy Suitable for the arbitrary data set; High scalability High in time complexity; The number of clusters needed to be preset SOM Diverse and developed models providing means to describe data adequately High time complexity; The premise not completely correct; The clustering result sensitive to the parameters of selected models TwoStep Improved BRICH algorithm； Automatically determined clustering numbers Medium computational efficiency for large-scale data；Clustering algorithm cannot remerge or separate clusters to optimize clustering results 基于以上讨论，本文结合所研究数据对象的特征，选择了两种现阶段高炉操作炉型研究中常用的聚类算法——K-Means 和 TwoStep 算法，对高炉炉身冷却壁热电偶数据进行聚类分析，并借助合适的聚类有效性评价指标，研究不同算法的聚类效果差异，以期为高炉炼铁大数据分析中的聚类算法选择提供有力参考。 1.2 K-Means 算法、TwoStep 算法原理（1）K-Means 聚类的算法思想[26-27]是按照样本之间距离，将 n 个样本点划分为 k 个类，使得相似的样本尽量被分到同一个类，其衡量相似度的计算方法为欧氏距离。 K-Means 算法的具体步骤为： 1.对全部 n 个对象，随机选择 k 个对象作为一个类的中心，代表将生成的 k 个类； 2.计算其他对象到聚类中心的距离，分派对象至距离最近的簇内； 3.针对每个类计算其所有对象的平均值，作为所有对象的新中心值； 4.根据距离最近原则，重新分配数据； 5.返回(3)直至无变化，结束聚类。（2）TwoStep 两步聚类算法是 BIRCH 层次聚类算法的改良方法，加入了自动确定最佳簇数量的机制，使得 TwoStep 算法更加实用[28]。该聚类算法可分为预聚类阶段和聚类阶段。在预聚类阶段，采用了 BIRCH 算法中 CF 树生长的思想，先遍历一遍数据，生成 CF 树的同时，预先聚类较为密集的数据点，形成诸多子簇。在聚类阶段，以预聚类阶段的子簇为对象，利用凝聚法逐个合并子簇，通过 AIC 准则（Akaike Information Criterion）、BIC 准则（Bayesian Information Criterion）以及类别间最短距离确定最优类别数作为聚类终止的条件。 1.3 聚类有效性评价指标聚类有效性评价指标分为内部指标和外部指标两类，两者的区别在于是否将外部信息录用稿件，非最终出版稿

用于聚类评价。在不考虑外部信息时，内部指标是利用数据集的空间几何结构信息评估聚类结构的优劣。在许多场景中常有没有外标签可用的情况，内部指标是聚类评价的唯一选择。聚类有效性评价的内部指标主要包括Compactness、Separation、Davies-.Bouldin indicator、Dunn indicator、Silhouette coefficient,这些评价指标的计算公式或方法如表2所示25,303 囊2聚类评价指标 Table.2 Cluster evaluation index Name Measure method or formula Explanations Compactness k stands for the number of clusters; (CP) r回Ak Xi,X stand for the data points in the cluster; Ceach Wi,W;stand different cluste s for the distance from X:-W Separation (SP) 2玄 the data poin e center of cluster; ands for the distance Davies- C+C Bouldin DB=k之maw-W, among different clusters; indicator(DBI) stand for the average distance Dunn indicator min min x-xK (DI) 0<m≠n<k1Vx;∈Q of all data points in the same cluster, DI= stands for the distance max max x-x‖ 0<msKVx,x∈ among any two data points. Silhouette Evaluate the clustering result based on the average distance between a data point and other coefficient data points in the same cluster and average distance among different clusters,while the number of data samples among different clusters is almost same. Compactness计算了每类的类内各点到聚类中心的平均距离，但并没有考虑类间距离；Separation计算聚类中心之间的平均距离，但没有考虑类内效果；Davies--Bouldin indicator和Dunn indicator考虑了类内效果与类间效果两方面，对聚类效果的评价更为全面： Silhouette coefficient适用于数据结构清楚、各簇样本数目相差不大的情况B),而本文所选两种算法的聚类结果中各簇样本数目有明显差异，故而Silhouette coefficient并不适用。基于五种聚类评价指标的特点，本文选用Davies--Bouldin indicator(DBI)和Dunn indicatorD)作为评价依据。 2基于不同聚类算法的高炉操作炉型聚类本文采用的数据是国内某钢铁厂高炉炉身热电偶的31986条历史冶炼数据（考虑数据缺失、中途休风等影响已去掉无效数据)，通过高炉炉身不同高度的冷却壁及耐火材料处安装的测量电偶，可以获得高炉炉身沿纵向8层热电偶（第6、7、8、9、10、11、12、14 段冷却壁，第13段无热电偶)测得的温度变化，高炉各段冷却壁位置如图3所示

用于聚类评价[29]。在不考虑外部信息时，内部指标是利用数据集的空间几何结构信息评估聚类结构的优劣。在许多场景中常有没有外标签可用的情况，内部指标是聚类评价的唯一选择。聚类有效性评价的内部指标主要包括 Compactness、Separation、Davies-Bouldin indicator、Dunn indicator、Silhouette coefficient，这些评价指标的计算公式或方法如表 2 所示[25,30-32]。表 2 聚类评价指标 Table.2 Cluster evaluation index Name Measure method or formula Explanations Compactness (CP) CP´ i= 1 |Ωi| ∑xi ϵΩi ‖xi−wi‖ CP´ = 1 K ∑ k=1 K CP´ k 1. kstands for the number of clusters; 2. xi , x j stand for the data points in the cluster; 3. wi ,wj stand for the centers of different clusters; 4. ‖xi−wi‖ stands for the distance from the data point to the center of cluster; 5. ‖wi−wj‖2 stands for the distance among different clusters; 6. C´ i ,C´ j stand for the average distance of all data points in the same cluster; 7. ‖xi−x j‖ stands for the distance among any two data points. Separation (SP) SP´ = 2 k 2−k ∑ i=1 k ∑ j=i+1 k ‖wi−wj‖2 DaviesBouldin indicator (DBI) DBI= 1 k ∑ i=1 k max j ≠i ( C´ i+C´ j ‖wi−wj‖2 ) Dunn indicator (DI) DI= min 0<m≠n<k { min ∀ xi∈Ωm ∀x j∈Ωn {‖xi−x j‖}} max 0<m≤ K max ∀ xi , xj∈Ωm {‖xi−x j‖} Silhouette coefficient Evaluate the clustering result based on the average distance between a data point and other data points in the same cluster and average distance among different clusters, while the number of data samples among different clusters is almost same. Compactness 计算了每一类的类内各点到聚类中心的平均距离，但并没有考虑类间距离；Separation 计算了各聚类中心之间的平均距离，但没有考虑类内效果；Davies-Bouldin indicator 和 Dunn indicator 考虑了类内效果与类间效果两方面，对聚类效果的评价更为全面； Silhouette coefficient 适用于数据结构清楚、各簇样本数目相差不大的情况[33]，而本文所选两种算法的聚类结果中各簇样本数目有明显差异，故而 Silhouette coefficient 并不适用。基于五种聚类评价指标的特点，本文选用 Davies-Bouldin indicator （ DBI ）和 Dunn indicator（DI）作为评价依据。 2 基于不同聚类算法的高炉操作炉型聚类本文采用的数据是国内某钢铁厂高炉炉身热电偶的 31986 条历史冶炼数据（考虑数据缺失、中途休风等影响已去掉无效数据），通过高炉炉身不同高度的冷却壁及耐火材料处安装的测量电偶，可以获得高炉炉身沿纵向 8 层热电偶（第 6、7、8、9、10、11、12、14 段冷却壁，第 13 段无热电偶）测得的温度变化，高炉各段冷却壁位置如图 3 所示。录用稿件，非最终出版稿

图 3 高炉各段冷却壁位置示意图 Fig.3 Position of cooling stave in each section of blast furnace 2.1 数据处理 K-Means 和 TwoStep 聚类算法在聚类过程中常会受到数据集中样本或是相似性度量函数的影响，难以达到最佳的聚类效果。因此，在聚类分析前对数据集进行处理能够使聚类结果更为理想，本文在借鉴刘叶等人思路的基础上[26-27]，在聚类前对数据集作如下处理：（1）对于聚凸数据集以及中心点的问题，在数据集中确定一个端点，对所有个案到端点的欧氏距离排序，从而可以根据新的有序样本确定各个初始中心；（2）对于异常点敏感的问题，聚类分析前已经去掉了缺失数据以及异常点数据；（3）对于相似性度量函数，由于在第（1）步中采用欧式距离对数据集重新排序，因此确定采用欧式距离作为相似性度量函数，可以减少相似性度量函数对聚类结果的影响。 2.2 聚类簇数的确定本文利用 DBI 和 DI 指标评价聚类效果，选择聚类结果最佳时的聚类簇数为最优方案。在用聚类算法对高炉操作炉型聚类分析时，考虑到炉型分类的具体情况，即聚类簇数过少时评价炉型的精度不够，聚类簇数过多时会有部分类数据过少不具备代表性，因此将聚类簇数的范围限制在 5 至 12 类，DBI 和 DI 评价指标的结果如图 4 所示。 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 Davies-Bouldin index Clusters K-Means TwoStep 4 5 6 7 8 9 10 11 12 13 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 Dunn validity index Clusters K-Means TwoStep （a）DBI （b）DI 图 4 不同聚类簇数的 DBI 和 DI 指标结果 Fig.4 Calculation results of cluster evaluation index for different numbers of clusters 根据表 2 中 DBI 和 DI 指标的计算方法可以看出，DBI 评价指标结果越小，DI 评价指标越大，意味着更小的簇间相似性以及更大的簇内相似性，代表了聚类效果较优的情况。从图 4（a）可以看出，TwoStep 算法的 DBI 评价指标在聚类簇数为 6 时最低，聚类结果在录用稿件，非最终出版稿

此处最优，而K-Means算法的聚类结果整体优于TwoStep算法的聚类结果，当聚类簇数在 5至7时，聚类效果相差不大，聚类簇数>7时，DBI评价指标呈现上升的趋势。于图 4(b)中，DI指标的评价结果也呈现K-Means算法聚类结果整体优于TwoStep算法聚类结果的趋势，TwoStep算法的DI评价指标在聚类簇数为6时最大，聚类结果此处最优，K- Means算法的DI评价指标在聚类簇数在5和6时较大，明显优于聚类簇数>6时的聚类结果。综合TwoStep和K-Menas算法的DBI和DI评价指标结果，可以得到结论，在本文所选的样本数据及数据特征基础上，聚类簇数为6时，两种算法的聚类结果普遍更优。 2.3聚类结果关于高炉操作炉型的监控研究，由于对象高炉的不同，聚类簇数的差异是一定的。本文根据DBI和DI指标运算结果，确定目标高炉操作炉型的最佳聚类簇数为6类。K-Means 最出版稻与TwoStep算法的聚类簇数为6类时，6类炉型冷却壁各段温度分布如下图3和图6所示。 ■5K-Means聚类 6类炉型冷却壁各段温度分布（℃） Fig.5 K-Means clustering- Temperature distfibution of each cooling stave of 6 furnace profiles(C) 录用稿体 -Cluster 1 ---Cluster 2 Cluster 3 ----Cluster 6 60 8010 120 140 TemperatureFC 圆6 TwoStep聚类一6类炉型冷却壁各段温度分布（℃） Fig.6 TwoStep clustering-Temperature distribution of each cooling stave of 6 furnace profiles(C) 从图5、6可以看到，利用K-Means与TwoStep算法分别对高炉冷却壁测温热电偶数据进行聚类分析，聚类结果中各类间区分明显，均有效表征了高炉不同时期的操作炉型状态。K-Means与TwoStep的聚类结果中高炉冷却壁温度有如下特点：冷却壁温度于第1l-l2 段相对较高，第l2段冷却壁温度最高(K-Means聚类结果中第12段温度最大值为 130.7℃，TwoStep聚类结果中第12段温度最大值为127.1℃)：两种聚类结果中均存在一

此处最优，而 K-Means 算法的聚类结果整体优于 TwoStep 算法的聚类结果，当聚类簇数在 5 至 7 时，聚类效果相差不大，聚类簇数＞7 时，DBI 评价指标呈现上升的趋势。于图 4（b）中，DI 指标的评价结果也呈现 K-Means 算法聚类结果整体优于 TwoStep 算法聚类结果的趋势，TwoStep 算法的 DI 评价指标在聚类簇数为 6 时最大，聚类结果此处最优，KMeans 算法的 DI 评价指标在聚类簇数在 5 和 6 时较大，明显优于聚类簇数＞6 时的聚类结果。综合 TwoStep 和 K-Menas 算法的 DBI 和 DI 评价指标结果，可以得到结论，在本文所选的样本数据及数据特征基础上，聚类簇数为 6 时，两种算法的聚类结果普遍更优。 2.3 聚类结果关于高炉操作炉型的监控研究，由于对象高炉的不同，聚类簇数的差异是一定的。本文根据 DBI 和 DI 指标运算结果，确定目标高炉操作炉型的最佳聚类簇数为 6 类。K-Means 与 TwoStep 算法的聚类簇数为 6 类时，6 类炉型冷却壁各段温度分布如下图 5 和图 6 所示。 40 60 80 100 120 140 6 8 10 12 14 The section of cooling stave Temperature/℃ Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 图 5 K-Means 聚类——6 类炉型冷却壁各段温度分布（℃） Fig.5 K-Means clustering——Temperature distribution of each cooling stave of 6 furnace profiles( ) ℃ 40 60 80 100 120 140 6 8 10 12 14 The section of cooling stave Temperature/℃ Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 图 6 TwoStep 聚类——6 类炉型冷却壁各段温度分布（℃） Fig.6 TwoStep clustering——Temperature distribution of each cooling stave of 6 furnace profiles( ) ℃ 从图 5、6 可以看到，利用 K-Means 与 TwoStep 算法分别对高炉冷却壁测温热电偶数据进行聚类分析，聚类结果中各类间区分明显，均有效表征了高炉不同时期的操作炉型状态。K-Means 与 TwoStep 的聚类结果中高炉冷却壁温度有如下特点：冷却壁温度于第 11-12 段相对较高，第 12 段冷却壁温度最高（K-Means 聚类结果中第 12 段温度最大值为 130.7℃，TwoStep 聚类结果中第 12 段温度最大值为 127.1℃）；两种聚类结果中均存在一录用稿件，非最终出版稿

类高炉特殊时期的炉型（K-Means 聚类结果中 Cluster 4 与 TwoStep 聚类结果中 Cluster 1）；K-Means 聚类结果中 Cluster 3 与 TwoStep 聚类结果中各类的相差最为明显。对于这些特点，只依赖聚类结果难以分析，因此进一步分别从聚类簇内数据分布、聚类算法原理以及炉型物理含义的角度，分析 K-Means 与 TwoStep 的聚类结果有何不同，并判断当聚类簇数为 6 时，K-Means 与 TwoStep 的聚类效果哪种更好，更适用于高炉操作炉型的管理。 3 聚类结果分析 3.1 聚类簇内数据分布 TwoStep 聚类效果在簇数为 6 与 7 时表现出很大差别，通过汇总簇内数据的分布情况，分析簇数由 7 减少至 6 时减少的一簇中数据流向。簇数为 6、7 时数据分布如图 7 所示。 0.03758 0.13653 0.17132 0.24636 0.19024 0.21797 0.03758 0.12884 0.16601 0.11302 0.18483 0.21488 0.15485 1 2 3 4 5 6 7 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Percentage Cluster Percentage of 6 Clusters Percentage of 7 Clusters 图 7 TwoStep 聚类——簇数为 6、7 时数据分布 Fig.7 TwoStep clustering——Data distribution when the number of clusters is 6 and 7 从图 7 可以看到，簇数为 6 和 7 时，第 1 类至第 6 类数据量基本一致，而簇数为 6 时的第 4 类接近于簇数为 7 时第 4、7 两类数据量之和。通过调用聚类后的数据集也得到相同的结论：簇数为 6 时的第 4 类与簇数为 7 时的第 4、7 类数据基本重合。根据 DBI 和 DI 评价指标的计算公式，可以认为簇数为 7 时聚类效果更差的原因在于其第 4 类与第 7 类的簇间距离较小。当缩减聚类簇数时，相似的两类被合并为了一类，使得簇数为 6 时的聚类结果明显优于簇数为 7 时的结果。 K-Means 算法在聚类簇数为 6 时的数据分布如图 8 所示。 0.1344 0.22588 0.01016 0.0302 0.37426 0.2251 1 2 3 4 5 6 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 Percentage Cluster Percentge 图 8 K-Means 聚类——簇数为 6 时数据分布 Fig.8 K-Mrans clustering——Data distribution when the number of clusters is 6 比较图 7 与图 8 可以发现，当聚类簇数均为 6 时，K-Means 与 TwoStep 聚类算法的数录用稿件，非最终出版稿

据分布差别很大。K-Means聚类结果的数据分布更为集中，占比最多的一类达到了 37.426%,而TwoStep聚类结果占比最多的一类占比只有24.636%。同时，K-Means聚类结果中存在两类占比极少，数据的分布情况体现了K-Means聚类结果的簇内数据更为集中，簇间差别较大，验证了DBI和DI评价指标对聚类簇数为6时的评价结果，可以得到结论：在本文所选的样本数据及数据特征基础上，K-Means算法的聚类结果优于TwoStep算法的聚类结果。 3.2聚类算法原比较从聚类结果的数据分布以及DBI、DI评价指标的比较，可以得到K-Means聚类结果更优的结论。本节从聚类算法原理角度，讨论K-Means算法与TwoStep算法之间的优劣 B4。 K-Meas算法根据事先确定的类别数选取不同对象作为聚类中心点，以欧式距离为相似度标准分派数据，再重新确定聚类中心，直至聚类结果收敛，这样聚类过程与 TwoStep算法构造CF树后采用凝聚法合并数据簇相比，有效地简化不减少了K- Means算法的时间复杂度。同时，TwoStep算法采用凝聚法合并数据簇也决定了其在大数据样本处理能力上逊色于K-Means算法，且由于算法在构造CP树后采用凝聚法合并相似簇，这种合并子簇方法的不可逆性导致聚类算法无法重新合并或分离簇代化聚类结果。在衡量相似度的标准上，K-Means采用了欧氏距离，而oSep使用了对数似然距离，这是统计理论中衡量簇与簇相异度的方法。不同的相似度衡量标准对聚类结果的影响很大，需要选用合理的衡量指标进行聚类分析。能够自动确定类别数是TwoStep算法的最太特 TwoStep算法可以通过AIC、BIC 以及类别间最短距离自动确定类别数。而K-MCa算法需要事先给定聚类数K值，K值的确定也会影响算法的最终聚类结果。对于数据中的异常点，TwoStep可以直动将其归类至最近簇中，但K-Means对异常点没有有效的解决方法，异常点的存在会对聚类结果产生严重影响。本文在聚类分析前剔除了数据集中异常点，因此K-Means算法才得到了较好的聚类结果。从聚类算法原理来看，K-Means和TwoStep算法均有其优点，但算法本身也存在其不足之处。两种算法本身并没有优劣之分，只是针对不同特性的数据集和特定应用场景，两种聚类算法对数据集的处理能力处理结果存在差异。 3.3炉型分类的物理含义录用簇数为6时， K-Means TwoStep算法的聚类结果如图9所示。 10 Me --Cluster -Cluster -Cluster5一C1 uster6 Cluster 2 Cluster 5 Cluster 6 40 60 80 100 120 140 Temperature/C 圆9K-Means、TwoStep聚类结果（簇数为6） Fig.9 K-Means,TwoStep clustering results (the number of clusters is 6)

据分布差别很大。K-Means 聚类结果的数据分布更为集中，占比最多的一类达到了 37.426%，而 TwoStep 聚类结果占比最多的一类占比只有 24.636%。同时，K-Means 聚类结果中存在两类占比极少，数据的分布情况体现了 K-Means 聚类结果的簇内数据更为集中，簇间差别较大，验证了 DBI 和 DI 评价指标对聚类簇数为 6 时的评价结果，可以得到结论：在本文所选的样本数据及数据特征基础上，K-Means 算法的聚类结果优于 TwoStep 算法的聚类结果。 3.2 聚类算法原理比较从聚类结果的数据分布以及 DBI、DI 评价指标的比较，可以得到 K-Means 聚类结果更优的结论。本节从聚类算法原理角度，讨论 K-Means 算法与 TwoStep 算法之间的优劣 [34]。 K-Means 算法根据事先确定的类别数选取不同对象作为聚类中心点，以欧式距离为相似度标准分派数据，再重新确定聚类中心，直至聚类结果收敛，这样的聚类过程与 TwoStep 算法构造 CF 树后采用凝聚法合并数据簇相比，有效地简化了算法，减少了 KMeans 算法的时间复杂度。同时，TwoStep 算法采用凝聚法合并数据簇也决定了其在大数据样本处理能力上逊色于 K-Means 算法，且由于算法在构造 CF 树后采用凝聚法合并相似簇，这种合并子簇方法的不可逆性导致聚类算法无法重新合并或分离簇优化聚类结果。在衡量相似度的标准上，K-Means 采用了欧氏距离，而 TwoStep 使用了对数似然距离，这是统计理论中衡量簇与簇相异度的方法。不同的相似度衡量标准对聚类结果的影响很大，需要选用合理的衡量指标进行聚类分析。能够自动确定类别数是 TwoStep 算法的最大特点，TwoStep 算法可以通过 AIC、BIC 以及类别间最短距离自动确定类别数。而 K-Means 算法需要事先给定聚类数 K 值， K 值的确定也会影响算法的最终聚类结果。对于数据中的异常点，TwoStep 可以自动将其归类至最近簇中，但 K-Means 对异常点没有有效的解决方法，异常点的存在会对聚类结果产生严重影响。本文在聚类分析前剔除了数据集中异常点，因此 K-Means 算法才得到了较好的聚类结果。从聚类算法原理来看，K-Means 和 TwoStep 算法均有其优点，但算法本身也存在其不足之处。两种算法本身并没有优劣之分，只是针对不同特性的数据集和特定应用场景，两种聚类算法对数据集的处理能力与处理结果存在差异。 3.3 炉型分类的物理含义簇数为 6 时，K-Means 与 TwoStep 算法的聚类结果如图 9 所示。 40 60 80 100 120 140 6 8 10 12 14 The section of cooling stave Temperature/℃ K-Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Twostep Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 图 9 K-Means、TwoStep 聚类结果（簇数为 6） Fig.9 K-Means, TwoStep clustering results (the number of clusters is 6) 录用稿件，非最终出版稿

从图9可以看出，高炉炉型第6-9段冷却壁温度相对10-14段（除13段无热电偶）温度较低。温度差异明显主要在于其冷却制度的不同，6-9段为轧制铜与铸铜冷却壁，冷却效果较好，10、11段为铸钢冷却壁，12、14段为铸铁冷却壁，铸钢、铸铁冷却壁的冷却效果不如铜冷却壁Bs-3沟。对比每段各自冷却壁温度，当温度变化，基于炉型聚类结果可以判定操作炉型的变化状态，当操作炉型发生变化时，可能是由以下原因造成的： (1)该段渣皮脱落较多，脱落频率较高，因此炉壁内衬相对较薄，热电偶温度上升： (2)此段边缘气流有发展趋势，温度上升，此时可以根据现场需要对上部布料角度进行调整或加大边缘负荷等操作抑制边缘气流发展： (3)如果出现温度长时间持续上升，则需要现场及时采取相应措施，对高炉下部风口进行调整，避免炉温继续升高。因此，现场人员可以通过对高炉操作炉型的观察和监控，根据炉型整化情况采取相应的调控措施。 4结论本文以国内某钢铁厂高炉炉身热电偶温度值的31986条历史治炼记录为数据集，分别选择K-Means、TwoStep算法对高炉操作炉型进行聚类。结合算法原理以及DBI、DI评价指标对两种聚类算法进行比较，结果显示： (1)通过DBI和DI评价指标比较两种算法在聚类簇数不同时的聚类效果，确定了最佳聚类簇数为6，此时K-Means和TwoStep算法都能得到更好的聚类结果。 (2)从聚类原理来看，K-Means与TwoStep算法并没有优劣之分。从聚类结果上来看，在本文所选的样本数据及数据特征基础②XK-Means算法的聚类结果明显优于 TwoStep算法的聚类结果。 (3)分析了炉身冷却壁热电偶温度变化优其是操作炉型发生变化时的原因，主要包括：渣皮脱落导致的炉壁内衬变薄，边缘气流呈发展趋势，高炉下部风口影响等：高炉操作炉型聚类结果是对影响炉型状态的各个原因的综合显现，对其类别变化的跟踪，可为上下部调剂提供关键的指导信息，对于生产过程的及时调控具有重要的意义。录用稿作

从图 9 可以看出，高炉炉型第 6-9 段冷却壁温度相对 10-14 段（除 13 段无热电偶）温度较低。温度差异明显主要在于其冷却制度的不同，6-9 段为轧制铜与铸铜冷却壁，冷却效果较好，10、11 段为铸钢冷却壁，12、14 段为铸铁冷却壁，铸钢、铸铁冷却壁的冷却效果不如铜冷却壁[35-36]。对比每段各自冷却壁温度，当温度变化，基于炉型聚类结果可以判定操作炉型的变化状态，当操作炉型发生变化时，可能是由以下原因造成的：（1）该段渣皮脱落较多，脱落频率较高，因此炉壁内衬相对较薄，热电偶温度上升；（2）此段边缘气流有发展趋势，温度上升，此时可以根据现场需要对上部布料角度进行调整或加大边缘负荷等操作抑制边缘气流发展；（3）如果出现温度长时间持续上升，则需要现场及时采取相应措施，对高炉下部风口进行调整，避免炉温继续升高。因此，现场人员可以通过对高炉操作炉型的观察和监控，根据炉型整体变化情况采取相应的调控措施。 4 结论本文以国内某钢铁厂高炉炉身热电偶温度值的 31986 条历史冶炼记录为数据集，分别选择 K-Means、TwoStep 算法对高炉操作炉型进行聚类。结合算法原理以及 DBI、DI 评价指标对两种聚类算法进行比较，结果显示：（1）通过 DBI 和 DI 评价指标比较两种算法在聚类簇数不同时的聚类效果，确定了最佳聚类簇数为 6，此时 K-Means 和 TwoStep 算法都能得到更好的聚类结果。（2）从聚类原理来看，K-Means 与 TwoStep 算法并没有优劣之分。从聚类结果上来看，在本文所选的样本数据及数据特征基础上， K-Means 算法的聚类结果明显优于 TwoStep 算法的聚类结果。（3）分析了炉身冷却壁热电偶温度变化尤其是操作炉型发生变化时的原因，主要包括：渣皮脱落导致的炉壁内衬变薄，边缘气流呈发展趋势，高炉下部风口影响等；高炉操作炉型聚类结果是对影响炉型状态的各个原因的综合显现，对其类别变化的跟踪，可为上下部调剂提供关键的指导信息，对于生产过程的及时调控具有重要的意义。录用稿件，非最终出版稿