aem ■3高炉各段冷却壁位置示意图 Fig.3 Position of cooling stave in each section of blast 2.1数据处理 K-Means和TwoStep聚类算法在聚类过程中常会受到数据集中样本或是相似性度量函 数的影响,难以达到最佳的聚类效果。因此,在聚类分析前数据集进行处理能够使聚类 结果更为理想,本文在借鉴刘叶等人思路的基础上s入在聚类前对数据集作如下处理: (1)对于聚凸数据集以及中心点的问题,在数据集中确定一个端点,对所有个案到 端点的欧氏距离排序,从而可以根据新的有序样本确危各个初始中心: (2)对于异常点敏感的问题,聚类分析前经转掉了缺失数据以及异常点数据: (3)对于相似性度量函数,由于在第(X步伸采用欧式距离对数据集重新排序,因 此确定采用欧式距离作为相似性度量函数,可以减少相似性度量函数对聚类结果的影响。 2.2聚类镜数的确定 本文利用DBI和DI指标评价聚类效果,选择聚类结果最佳时的聚类簇数为最优方案。 在用聚类算法对高炉操作炉型聚类分析时,考虑到炉型分类的具体情况,即聚类簇数 过少时评价炉型的精度不够,聚类簇数过多时会有部分类数据过少不具备代表性,因此将 聚类簇数的范围限制在5至2类DBI和DI评价指标的结果如图4所示。 50 K-Mean 045 40 35 .15 67490123 .C Clusters (a)DBI (b)DI ■4不同聚类簇数的DBI和DI指标结果 Fig.4 Calculation results of cluster evaluation index for different numbers of clusters 根据表2中DBI和DI指标的计算方法可以看出,DBI评价指标结果越小,DI评价指 标越大,意味着更小的簇间相似性以及更大的簇内相似性,代表了聚类效果较优的情况。 从图4(a)可以看出,TwoStep算法的DBI评价指标在聚类簇数为6时最低,聚类结果在图 3 高炉各段冷却壁位置示意图 Fig.3 Position of cooling stave in each section of blast furnace 2.1 数据处理 K-Means 和 TwoStep 聚类算法在聚类过程中常会受到数据集中样本或是相似性度量函 数的影响,难以达到最佳的聚类效果。因此,在聚类分析前对数据集进行处理能够使聚类 结果更为理想,本文在借鉴刘叶等人思路的基础上[26-27],在聚类前对数据集作如下处理: (1)对于聚凸数据集以及中心点的问题,在数据集中确定一个端点,对所有个案到 端点的欧氏距离排序,从而可以根据新的有序样本确定各个初始中心; (2)对于异常点敏感的问题,聚类分析前已经去掉了缺失数据以及异常点数据; (3)对于相似性度量函数,由于在第(1)步中采用欧式距离对数据集重新排序,因 此确定采用欧式距离作为相似性度量函数,可以减少相似性度量函数对聚类结果的影响。 2.2 聚类簇数的确定 本文利用 DBI 和 DI 指标评价聚类效果,选择聚类结果最佳时的聚类簇数为最优方案。 在用聚类算法对高炉操作炉型聚类分析时,考虑到炉型分类的具体情况,即聚类簇数 过少时评价炉型的精度不够,聚类簇数过多时会有部分类数据过少不具备代表性,因此将 聚类簇数的范围限制在 5 至 12 类,DBI 和 DI 评价指标的结果如图 4 所示。 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 Davies-Bouldin index Clusters K-Means TwoStep 4 5 6 7 8 9 10 11 12 13 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 Dunn validity index Clusters K-Means TwoStep (a)DBI (b)DI 图 4 不同聚类簇数的 DBI 和 DI 指标结果 Fig.4 Calculation results of cluster evaluation index for different numbers of clusters 根据表 2 中 DBI 和 DI 指标的计算方法可以看出,DBI 评价指标结果越小,DI 评价指 标越大,意味着更小的簇间相似性以及更大的簇内相似性,代表了聚类效果较优的情况。 从图 4(a)可以看出,TwoStep 算法的 DBI 评价指标在聚类簇数为 6 时最低,聚类结果在 录用稿件,非最终出版稿