高炉操作炉型是高炉投入生产后,经炉衬侵蚀、渣皮生成,由设计炉型逐渐演变而来 的表征高炉状态的高炉内型。在高炉冶炼过程中,高炉操作人员大多通过冷却壁参数、操 作参数,结合生产经验间接分析高炉操作炉型的变化情况,以此判断炉况的好坏②。为保 证高炉生产的优质、低耗、高产、长寿,就需要一个合理的高炉操作炉型。通过高炉冶炼 过程参数,有效合理地表征高炉操作炉型的状况及其变化过程,并分析造成变化的原因, 有利于高炉操作者及时调节高炉操作制度,优化生产过程。 大数据分析平台改善了传统工业的生产模式,对高炉炼铁生产具有重要指导意义。聚 类分析是大数据中重要一环,借助大数据平台,国内外学者探索了高炉料面控制、煤气调 度的优化、中心煤气流分布情况监测、高炉操作炉型监控、铁水温度预测及铁水硅含量预 测等技术B,有效优化了高炉治炼过程,是治金工业向智能制造转型的有力支撑。 K-Means、TwoStep是现阶段常用的高炉操作炉型聚类算法I3-16,但是对于不同聚类算 法,应用效果的对照关系不甚明确。本文以高炉治炼过程的冷却壁热电偶温度为表征参数, 利用K-Means和TwoStep聚类算法进行聚类分析,结合算法原理及聚类结果研究不同聚类 算法的效果差异,以期为高炉炼铁大数据分析中的聚类算法选择提有利参考 1聚类算法 1.1聚类算法的选择 聚类分析是数据挖掘技术中一项重要技术,通过将数据集合划分成多个类,基于数据 的特征将相似的样本归为一类,而相异的样本分置于不的类中,以此确保类内样本的同 质性及类间样本的异质性。随着数据挖掘技术应用方面愈发广泛,国内外学者将聚类分析 引入至高炉操作炉型的管理中,通过采用不同聚类算法对高炉治炼数据进行分析,有效合 理地表征高炉操作炉型的变化,对高炉生产有春重要的指导意义。 武森等人选择了K-Meas算法与层次聚类算法分别对高炉治炼数据进行分析,实现 了对高炉操作炉型波动与变化的实时监控有利于操作人员及时准确地调整高炉操作。 C.Saxena等人-1在K-Means算法的基础上引入了自组织特征映射(SOM),利用SOM 训练数据集,根据训练集的输出结果采用K-Means进行聚类以获得更好的聚类结果,在可 视化、解释模型方面取得较好的效果。而在武钢5号高炉操作炉型管理系统的开发过程中, 陈令坤io针对K-means算法对初始中心敏感、样本分布有要求的特点,对K-Means算法进 行了一定的改进,聚类绩果准确表征了高炉铜冷却壁温度变化,并借助炉型变化与高炉利 用系数的对应关系,步获得了武钢5号高炉的炉型变化规律。 曹英杰等人阅选TwoStep聚类算法研究国丰1号高炉操作炉型,对高炉冷却壁热 电偶温度值进行聚类分析,确定了高炉透气性指数与炉型变化的规律,并通过实践证明聚 类分析的结果能够有效监控炉型变化,指导高炉生产现场。而本文作者考虑到评价炉型 的指标多重叠性大的问题,曾在TwoStep算法的基础上引入主成分分析方法(Principal Component Analysis,PCA),从传统评价炉型的指标中生成3个新的核指标以评价聚类结 果,实践结果表明生成的核指标有效解决了指标多且重复性大的问题,有效优化了高炉操 作炉型的管理。 上述研究进展中涉及的聚类算法特点如表1所示2o-21。K-Means聚类算法是经典的基 于划分的聚类算法,时间复杂度低,聚类效率高,聚类质量好,在高炉操作炉型聚类分析 中应用较多,同时K-Means算法也存在对初始中心敏感、对数据分布有要求的缺点,但陈 令坤提出的改进方法是行之有效的,在对高炉操作炉型的管理中得到了优异效果6。层次 聚类算法的时间复杂度普遍较高,且ROCK、chameleon等典型算法并不支持大规模数据集 ,层次聚类算法在高炉操作炉型的研究中应用较少,武森等人也仅在研究中提到该方法 的可行性。自组织特征映射($OM)是一种基于模型的聚类算法,该算法存在时间复杂度高炉操作炉型是高炉投入生产后,经炉衬侵蚀、渣皮生成,由设计炉型逐渐演变而来 的表征高炉状态的高炉内型。在高炉冶炼过程中,高炉操作人员大多通过冷却壁参数、操 作参数,结合生产经验间接分析高炉操作炉型的变化情况,以此判断炉况的好坏[1-2]。为保 证高炉生产的优质、低耗、高产、长寿,就需要一个合理的高炉操作炉型。通过高炉冶炼 过程参数,有效合理地表征高炉操作炉型的状况及其变化过程,并分析造成变化的原因, 有利于高炉操作者及时调节高炉操作制度,优化生产过程。 大数据分析平台改善了传统工业的生产模式,对高炉炼铁生产具有重要指导意义。聚 类分析是大数据中重要一环,借助大数据平台,国内外学者探索了高炉料面控制、煤气调 度的优化、中心煤气流分布情况监测、高炉操作炉型监控、铁水温度预测及铁水硅含量预 测等技术[3-12],有效优化了高炉冶炼过程,是冶金工业向智能制造转型的有力支撑。 K-Means、TwoStep 是现阶段常用的高炉操作炉型聚类算法[13-16],但是对于不同聚类算 法,应用效果的对照关系不甚明确。本文以高炉冶炼过程的冷却壁热电偶温度为表征参数, 利用 K-Means 和 TwoStep 聚类算法进行聚类分析,结合算法原理及聚类结果研究不同聚类 算法的效果差异,以期为高炉炼铁大数据分析中的聚类算法选择提供有利参考。 1 聚类算法 1.1 聚类算法的选择 聚类分析是数据挖掘技术中一项重要技术,通过将数据集合划分成多个类,基于数据 的特征将相似的样本归为一类,而相异的样本分置于不同的类中,以此确保类内样本的同 质性及类间样本的异质性。随着数据挖掘技术应用方面愈发广泛,国内外学者将聚类分析 引入至高炉操作炉型的管理中,通过采用不同聚类算法对高炉冶炼数据进行分析,有效合 理地表征高炉操作炉型的变化,对高炉生产有着重要的指导意义。 武森等人[17]选择了 K-Means 算法与层次聚类算法分别对高炉冶炼数据进行分析,实现 了对高炉操作炉型波动与变化的实时监控,有利于操作人员及时准确地调整高炉操作 。 C.Saxena 等人[18-19]在 K-Means 算法的基础上引入了自组织特征映射(SOM),利用 SOM 训练数据集,根据训练集的输出结果采用 K-Means 进行聚类以获得更好的聚类结果,在可 视化、解释模型方面取得较好的效果。而在武钢 5 号高炉操作炉型管理系统的开发过程中, 陈令坤[16]针对 K-means 算法对初始中心敏感、样本分布有要求的特点,对 K-Means 算法进 行了一定的改进,聚类结果准确表征了高炉铜冷却壁温度变化,并借助炉型变化与高炉利 用系数的对应关系,初步获得了武钢 5 号高炉的炉型变化规律。 曹英杰等人[15]选用了 TwoStep 聚类算法研究国丰 1 号高炉操作炉型,对高炉冷却壁热 电偶温度值进行聚类分析,确定了高炉透气性指数与炉型变化的规律,并通过实践证明聚 类分析的结果能够有效监控炉型变化,指导高炉生产现场。而本文作者[14]考虑到评价炉型 的指标多且重叠性大的问题,曾在 TwoStep 算法的基础上引入主成分分析方法(Principal Component Analysis,PCA),从传统评价炉型的指标中生成 3 个新的核指标以评价聚类结 果,实践结果表明生成的核指标有效解决了指标多且重复性大的问题,有效优化了高炉操 作炉型的管理。 上述研究进展中涉及的聚类算法特点如表 1 所示[20-25]。K-Means 聚类算法是经典的基 于划分的聚类算法,时间复杂度低,聚类效率高,聚类质量好,在高炉操作炉型聚类分析 中应用较多,同时 K-Means 算法也存在对初始中心敏感、对数据分布有要求的缺点,但陈 令坤提出的改进方法是行之有效的,在对高炉操作炉型的管理中得到了优异效果[16]。层次 聚类算法的时间复杂度普遍较高,且 ROCK、chameleon 等典型算法并不支持大规模数据集 [25],层次聚类算法在高炉操作炉型的研究中应用较少,武森等人也仅在研究中提到该方法 的可行性。自组织特征映射(SOM)是一种基于模型的聚类算法,该算法存在时间复杂度 录用稿件,非最终出版稿