用于聚类评价。在不考虑外部信息时,内部指标是利用数据集的空间几何结构信息评估 聚类结构的优劣。在许多场景中常有没有外标签可用的情况,内部指标是聚类评价的唯一 选择。聚类有效性评价的内部指标主要包括Compactness、Separation、Davies-.Bouldin indicator、Dunn indicator、Silhouette coefficient,这些评价指标的计算公式或方法如表2所 示25,303 囊2聚类评价指标 Table.2 Cluster evaluation index Name Measure method or formula Explanations Compactness k stands for the number of clusters; (CP) r回Ak Xi,X stand for the data points in the cluster; Ceach Wi,W;stand different cluste s for the distance from X:-W Separation (SP) 2玄 the data poin e center of cluster; ands for the distance Davies- C+C Bouldin DB=k之maw-W, among different clusters; indicator(DBI) stand for the average distance Dunn indicator min min x-xK (DI) 0<m≠n<k1Vx;∈Q of all data points in the same cluster, DI= stands for the distance max max x-x‖ 0<msKVx,x∈ among any two data points. Silhouette Evaluate the clustering result based on the average distance between a data point and other coefficient data points in the same cluster and average distance among different clusters,while the number of data samples among different clusters is almost same. Compactness计算了每类的类内各点到聚类中心的平均距离,但并没有考虑类间距 离;Separation计算聚类中心之间的平均距离,但没有考虑类内效果;Davies--Bouldin indicator和Dunn indicator考虑了类内效果与类间效果两方面,对聚类效果的评价更为全面: Silhouette coefficient适用于数据结构清楚、各簇样本数目相差不大的情况B),而本文所选 两种算法的聚类结果中各簇样本数目有明显差异,故而Silhouette coefficient并不适用。基 于五种聚类评价指标的特点,本文选用Davies--Bouldin indicator(DBI)和Dunn indicatorD)作为评价依据。 2基于不同聚类算法的高炉操作炉型聚类 本文采用的数据是国内某钢铁厂高炉炉身热电偶的31986条历史冶炼数据(考虑数据 缺失、中途休风等影响已去掉无效数据),通过高炉炉身不同高度的冷却壁及耐火材料处 安装的测量电偶,可以获得高炉炉身沿纵向8层热电偶(第6、7、8、9、10、11、12、14 段冷却壁,第13段无热电偶)测得的温度变化,高炉各段冷却壁位置如图3所示。用于聚类评价[29]。在不考虑外部信息时,内部指标是利用数据集的空间几何结构信息评估 聚类结构的优劣。在许多场景中常有没有外标签可用的情况,内部指标是聚类评价的唯一 选择。聚类有效性评价的内部指标主要包括 Compactness、Separation、Davies-Bouldin indicator、Dunn indicator、Silhouette coefficient,这些评价指标的计算公式或方法如表 2 所 示[25,30-32]。 表 2 聚类评价指标 Table.2 Cluster evaluation index Name Measure method or formula Explanations Compactness (CP) CP´ i= 1 |Ωi| ∑xi ϵΩi ‖xi−wi‖ CP´ = 1 K ∑ k=1 K CP´ k 1. kstands for the number of clusters; 2. xi , x j stand for the data points in the cluster; 3. wi ,wj stand for the centers of different clusters; 4. ‖xi−wi‖ stands for the distance from the data point to the center of cluster; 5. ‖wi−wj‖2 stands for the distance among different clusters; 6. C´ i ,C´ j stand for the average distance of all data points in the same cluster; 7. ‖xi−x j‖ stands for the distance among any two data points. Separation (SP) SP´ = 2 k 2−k ∑ i=1 k ∑ j=i+1 k ‖wi−wj‖2 DaviesBouldin indicator (DBI) DBI= 1 k ∑ i=1 k max j ≠i ( C´ i+C´ j ‖wi−wj‖2 ) Dunn indicator (DI) DI= min 0<m≠n<k { min ∀ xi∈Ωm ∀x j∈Ωn {‖xi−x j‖}} max 0<m≤ K max ∀ xi , xj∈Ωm {‖xi−x j‖} Silhouette coefficient Evaluate the clustering result based on the average distance between a data point and other data points in the same cluster and average distance among different clusters, while the number of data samples among different clusters is almost same. Compactness 计算了每一类的类内各点到聚类中心的平均距离,但并没有考虑类间距 离;Separation 计算了各聚类中心之间的平均距离,但没有考虑类内效果;Davies-Bouldin indicator 和 Dunn indicator 考虑了类内效果与类间效果两方面,对聚类效果的评价更为全面; Silhouette coefficient 适用于数据结构清楚、各簇样本数目相差不大的情况[33],而本文所选 两种算法的聚类结果中各簇样本数目有明显差异,故而 Silhouette coefficient 并不适用。基 于 五 种 聚 类 评 价 指 标 的 特 点 , 本 文 选 用 Davies-Bouldin indicator ( DBI ) 和 Dunn indicator(DI)作为评价依据。 2 基于不同聚类算法的高炉操作炉型聚类 本文采用的数据是国内某钢铁厂高炉炉身热电偶的 31986 条历史冶炼数据(考虑数据 缺失、中途休风等影响已去掉无效数据),通过高炉炉身不同高度的冷却壁及耐火材料处 安装的测量电偶,可以获得高炉炉身沿纵向 8 层热电偶(第 6、7、8、9、10、11、12、14 段冷却壁,第 13 段无热电偶)测得的温度变化,高炉各段冷却壁位置如图 3 所示。 录用稿件,非最终出版稿