工程科学学报,第37卷,增刊1:5664,2015年5月 Chinese Journal of Engineering,Vol.37,Suppl.1:56-64,May 2015 DOI:10.13374/j.issn2095-9389.2015.s1.010:http://journals.ustb.edu.cn 基于数据挖掘的热轧带钢质量分析方法 李 扬,王 京,张勇军四 北京科技大学治金工程研究院,北京100083 区通信作者,E-mail:zhangyi@usth.cd.cn 摘要带钢热连轧是一个多阶段的生产过程,在工序繁多的加工过程中与产品质量直接相关的控制参数和目标参数近百 个,如何找到控制参数和目标参数之间存在的信息加以利用,提高热轧带钢产品质量一直是科研人员和工程技术人员努力 的目标.研究表明,利用数据挖掘方法结合热连轧生产的工业特点,提取潜在的、有用的、最终可理解的工艺知识,得到质量 缺陷与控制状态的对应关联关系,通过控制变量权值向量和数据挖掘高危关联状态集合综合分析,可以迅速对带钢质量问题 的产生原因进行定位,找出关键控制变量做出调整,减少经济损失,提高生产效率,为热轧带钢产品质量问题分析提供科学、 准确的思路 关键词数据挖掘:因子分析:故障逻辑分析:关联分析:质量分析 分类号TG142.71 Quality analysis method for hot strip based on data mining LI Yang,WANG Jing,ZHANG Yong jun Engineering Research Institute,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:zhangyj@ustb.edu.cn ABSTRACT The hot rolling of strip is a multi-stage production process.There are about a hundred of control parameters and target parameters which are related to the quality of products directly in the multi-ehannel processes.It is the main development orientation for both the literal research and engineering practice to improve the quality of hot rolling products,by finding the information between the control parameters and target parameters,and making use of the information.It is investigated that combining data mining with the industrial features of hot rolling productions,the potentially,useful,ultimately understandable process knowledge can be extracted. The correspondence relationship between quality defects and control state can be got.Through a comprehensive analysis of control pa- rameters weight vector and the set of high-risk relationships,the key control parameters can be find to improve.This method can re- duce the economic losses,improve the production efficiency,and provide the scientific and accurate idea for the quality analysis of hot rolling strip production. KEY WORDS data mining:factor analysis:fault logic analysis:association analysis:quality analysis 带钢的热连轧具有多阶段生产过程的特点,工序 数据挖掘是20世纪末兴起的数据智能分析技术, 繁多的加工过程中与产品质量直接相关的控制参数和 是指从数据库中提取潜在的、有用的、最终可理解的知 目标参数近百个,并且工艺参数、原料参数与产品质量 识的非平凡过程.关联规则挖掘则是数据挖掘的一个 是一种非线性的关系,且变量之间相互耦合,而且许多 重要研究方向,其侧重于确定数据库中不同领域间的 控制参数和目标参数之间存在着许多的信息,这都给 联系,找出满足给定支持度和可信度的多个域之间的 产品质量分析带来一定的困难. 依赖关系-习 收稿日期:20150106
工程科学学报,第 37 卷,增刊 1: 56--64,2015 年 5 月 Chinese Journal of Engineering,Vol. 37,Suppl. 1: 56--64,May 2015 DOI: 10. 13374 /j. issn2095--9389. 2015. s1. 010; http: / /journals. ustb. edu. cn 基于数据挖掘的热轧带钢质量分析方法 李 扬,王 京,张勇军 北京科技大学冶金工程研究院,北京 100083 通信作者,E-mail: zhangyj@ ustb. edu. cn 摘 要 带钢热连轧是一个多阶段的生产过程,在工序繁多的加工过程中与产品质量直接相关的控制参数和目标参数近百 个. 如何找到控制参数和目标参数之间存在的信息加以利用,提高热轧带钢产品质量一直是科研人员和工程技术人员努力 的目标. 研究表明,利用数据挖掘方法结合热连轧生产的工业特点,提取潜在的、有用的、最终可理解的工艺知识,得到质量 缺陷与控制状态的对应关联关系,通过控制变量权值向量和数据挖掘高危关联状态集合综合分析,可以迅速对带钢质量问题 的产生原因进行定位,找出关键控制变量做出调整,减少经济损失,提高生产效率,为热轧带钢产品质量问题分析提供科学、 准确的思路. 关键词 数据挖掘; 因子分析; 故障逻辑分析; 关联分析; 质量分析 分类号 TG142. 71 Quality analysis method for hot strip based on data mining LI Yang,WANG Jing,ZHANG Yong-jun Engineering Research Institute,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail: zhangyj@ ustb. edu. cn ABSTRACT The hot rolling of strip is a multi-stage production process. There are about a hundred of control parameters and target parameters which are related to the quality of products directly in the multi-channel processes. It is the main development orientation for both the literal research and engineering practice to improve the quality of hot rolling products,by finding the information between the control parameters and target parameters,and making use of the information. It is investigated that combining data mining with the industrial features of hot rolling productions,the potentially,useful,ultimately understandable process knowledge can be extracted. The correspondence relationship between quality defects and control state can be got. Through a comprehensive analysis of control parameters weight vector and the set of high-risk relationships,the key control parameters can be find to improve. This method can reduce the economic losses,improve the production efficiency,and provide the scientific and accurate idea for the quality analysis of hot rolling strip production. KEY WORDS data mining; factor analysis; fault logic analysis; association analysis; quality analysis 收稿日期: 2015--01--06 带钢的热连轧具有多阶段生产过程的特点,工序 繁多的加工过程中与产品质量直接相关的控制参数和 目标参数近百个,并且工艺参数、原料参数与产品质量 是一种非线性的关系,且变量之间相互耦合,而且许多 控制参数和目标参数之间存在着许多的信息,这都给 产品质量分析带来一定的困难. 数据挖掘是 20 世纪末兴起的数据智能分析技术, 是指从数据库中提取潜在的、有用的、最终可理解的知 识的非平凡过程. 关联规则挖掘则是数据挖掘的一个 重要研究方向,其侧重于确定数据库中不同领域间的 联系,找出满足给定支持度和可信度的多个域之间的 依赖关系[1 - 3].
李扬等:基于数据挖掘的热轧带钢质量分析方法 ·57 将数据挖掘结合热连轧生产的工业特点,针对挖 表1关键控制观察变量 掘算法的计算速度、模型精度等相关指标要求做出特 Table 1 Key control observed variables 定的修改和优化.本文以带钢成品宽度质量指标为 变量名 字段名 编号 例,提出利用多维空间数据关联分析方法,在离散的状 精轧F7工作辊线速度 ROLLSPD6 必 态空间上对基于因子分析方法提取出的关键控制因素 R1粗轧1道次轧制力 RIFORCEO 进行关联规则挖掘,得到质量缺陷与控制状态的对应 R1粗轧4道次轧制力 RIFORCE3 令 关联关系,结合因子分析和故障逻辑分析方法,可以为 精轧F7轧辊入口温度 TEMPF6 61 热轧带钢产品质量问题分析提供新的思路 R1粗轧3道次工作辊线速度 ROLLSPEED2 21 1基于改进的因子分析的热轧带钢质量分 E1立辊3道次辊缝 EIGAP2 14 析方法 精轧3轧制力 FORCE2 42 R1粗轧3道次出口侧宽度 WIDGAGEVAL2 25 因子分析的基本思想是根据相关性大小把原始变 R1粗轧4道次工作辊线速度 ROLLSPEED3 22 量分组,使得同组内的变量之间相关性较高,而不同组 R1粗轧1道次工作辊线速度 ROLLSPEEDO 19 的变量间的相关性则较低④.每组变量代表一个基本 R1粗轧4道次出口侧宽度 WIDGAGEVAL3 结构,并用一个不可观测的综合变量表示,这个基本结 26 R1粗轧5道次工作辊线速度 ROLLSPEED4 构就称为公共因子.但对于治金工业现场控制过程来 3 说,这些公共因子并不能作为控制变量来供技术人员 头部SSC的实测宽度值 WIDRMHO 1 直观观察和调整,所以基于传统的因子分析方法,本文 (2)因子旋转. 提出了改进的因子分析方法,可以直观的得到影响宽 选用基于方差最大的正交旋转法,改变坐标轴的 度指标的主要控制观察变量,实现对状态空间矩阵 位置,重新分配各个因子所解释的方差的比例,使因子 降维 结构更简单,更容易解释 1.1状态空间数据降维方法 (3)最终因子解的解释 在针对宽度质量指标进行分析时,本文根据现场 得到最终因子解后,对因子进行测度,每个因子对 经验,选取粗轧各道次轧制力、轧辊辊缝、精轧各道次 应一个有意义的解释,给出因子对于每个采样点上的 轧制力等常规控制变量共64项,但是并不是所有的控 得分值,即因子值,即关键控制观察变量的综合得分 制因素的变化趋势都与实际的宽度指标变化趋势相 第k个因子的第j个控制观察变量在第i个采样点上 同,有些是呈现出了相反的趋势,有些则相关性不大 的值可以表示为: 对于那些相关性不大的控制变量,在数据挖掘中可以 予以去除,这个过程即称为状态空间数据降维. =∑ (2) 基于改进的因子分析的状态空间数据降维方法步 其中,x是第j个变量在第i个采样点上的值,lg入:是 骤为: 第k个因子的第j个控制观察变量的变量值系数.根 (1)提取主成分因子及数据降维 据得到的因子值,可以分别对各个采样点进行比较分 根据主成分分析法习,可以得出影响宽度质量 析,做更深入的分类和研究.同时,结合各个因子对采 指标的第l、第2,…,第p(p≤n)个主成分因子.而每 样点的解释程度,能够计算得出采样点的综合得分矩 个控制观察变量C,在第p个主成分因子M,上的载荷 阵F,以此对样本做出综合的排序和评价 L,可以通过下式求得: 1.2关键控制变量影响力评估 lg=p(C,M;)=√入eg 关键控制变量的影响力,即关键控制观察变量C (i=1,2,…p,j=1,2,,n). (1) (=1,2,…,n)对于最终宽度质量指标的影响权重@, Lx即为主成分因子的观察变量载荷矩阵,选取 在数值上等于第j个控制观察变量对第k个主成分因 第k行最大值的1lgI(k=1,2,…,P,j=1,2,…,n),即 子具有最显著载荷的绝对值与第k个主成分因子的贡 第个控制观察变量对第k个主成分因子具有最显著 献率入,的乘积,如下式所示: 载荷,可以将其视为第k个关键控制观察变量,通过这 0=1 lyA:l(k=1,2,…,p,j=1,2,…,n).(3) 种方法,可以得到所有关键控制观察变量(如表1 若第s个和第1个主成分因子的关键控制观察 所示) 变量相同,则该控制观察变量的权值使用下式可以 通过上述计算,可以对状态空间矩阵进行降维处 得到 理,控制观察变量的数量减少到13个 0=1lg入,+1g入I
李 扬等: 基于数据挖掘的热轧带钢质量分析方法 将数据挖掘结合热连轧生产的工业特点,针对挖 掘算法的计算速度、模型精度等相关指标要求做出特 定的修改和优化. 本文以带钢成品宽度质量指标为 例,提出利用多维空间数据关联分析方法,在离散的状 态空间上对基于因子分析方法提取出的关键控制因素 进行关联规则挖掘,得到质量缺陷与控制状态的对应 关联关系,结合因子分析和故障逻辑分析方法,可以为 热轧带钢产品质量问题分析提供新的思路. 1 基于改进的因子分析的热轧带钢质量分 析方法 因子分析的基本思想是根据相关性大小把原始变 量分组,使得同组内的变量之间相关性较高,而不同组 的变量间的相关性则较低[4]. 每组变量代表一个基本 结构,并用一个不可观测的综合变量表示,这个基本结 构就称为公共因子. 但对于冶金工业现场控制过程来 说,这些公共因子并不能作为控制变量来供技术人员 直观观察和调整,所以基于传统的因子分析方法,本文 提出了改进的因子分析方法,可以直观的得到影响宽 度指标的主要控制观察变量,实现对状态空间矩阵 降维. 1. 1 状态空间数据降维方法 在针对宽度质量指标进行分析时,本文根据现场 经验,选取粗轧各道次轧制力、轧辊辊缝、精轧各道次 轧制力等常规控制变量共 64 项,但是并不是所有的控 制因素的变化趋势都与实际的宽度指标变化趋势相 同,有些是呈现出了相反的趋势,有些则相关性不大. 对于那些相关性不大的控制变量,在数据挖掘中可以 予以去除,这个过程即称为状态空间数据降维. 基于改进的因子分析的状态空间数据降维方法步 骤为: ( 1) 提取主成分因子及数据降维. 根据主成分分析法[4 - 5],可以得出影响宽度质量 指标的第 1、第 2,…,第 p( p≤n) 个主成分因子. 而每 个控制观察变量 Cj 在第 p 个主成分因子 Mi 上的载荷 lij ,可以通过下式求得: lij = p( Cj ,Mi ) = 槡λieij ( i = 1,2,…,p,j = 1,2,…,n) . ( 1) Lp × n即为主成分因子的观察变量载荷矩阵,选取 第 k 行最大值的| lkj | ( k = 1,2,…,p,j = 1,2,…,n) ,即 第 j 个控制观察变量对第 k 个主成分因子具有最显著 载荷,可以将其视为第 k 个关键控制观察变量,通过这 种方法,可 以 得 到 所 有 关 键 控 制 观 察 变 量 ( 如 表 1 所示) . 通过上述计算,可以对状态空间矩阵进行降维处 理,控制观察变量的数量减少到 13 个. 表 1 关键控制观察变量 Table 1 Key control observed variables 变量名 字段名 编号 精轧 F7 工作辊线速度 ROLLSPD6 53 R1 粗轧 1 道次轧制力 R1FORCE0 8 R1 粗轧 4 道次轧制力 R1FORCE3 12 精轧 F7 轧辊入口温度 TEMPF6 61 R1 粗轧 3 道次工作辊线速度 ROLLSPEED2 21 E1 立辊 3 道次辊缝 E1GAP2 14 精轧 F3 轧制力 FORCE2 42 R1 粗轧 3 道次出口侧宽度 WIDGAGEVAL2 25 R1 粗轧 4 道次工作辊线速度 ROLLSPEED3 22 R1 粗轧 1 道次工作辊线速度 ROLLSPEED0 19 R1 粗轧 4 道次出口侧宽度 WIDGAGEVAL3 26 R1 粗轧 5 道次工作辊线速度 ROLLSPEED4 23 头部 SSC 的实测宽度值 WIDRMH0 1 ( 2) 因子旋转. 选用基于方差最大的正交旋转法,改变坐标轴的 位置,重新分配各个因子所解释的方差的比例,使因子 结构更简单,更容易解释. ( 3) 最终因子解的解释. 得到最终因子解后,对因子进行测度,每个因子对 应一个有意义的解释,给出因子对于每个采样点上的 得分值,即因子值,即关键控制观察变量的综合得分. 第 k 个因子的第 j 个控制观察变量在第 i 个采样点上 的值可以表示为: fji = ∑ k j lkjλk xji . ( 2) 其中,xji是第 j 个变量在第 i 个采样点上的值,lkjλk 是 第 k 个因子的第 j 个控制观察变量的变量值系数. 根 据得到的因子值,可以分别对各个采样点进行比较分 析,做更深入的分类和研究. 同时,结合各个因子对采 样点的解释程度,能够计算得出采样点的综合得分矩 阵 F,以此对样本做出综合的排序和评价. 1. 2 关键控制变量影响力评估 关键控制变量的影响力,即关键控制观察变量 Cj ( j = 1,2,…,n) 对于最终宽度质量指标的影响权重 ωj , 在数值上等于第 j 个控制观察变量对第 k 个主成分因 子具有最显著载荷的绝对值与第 k 个主成分因子的贡 献率 λk 的乘积,如下式所示: ωj = | lkjλk | ( k = 1,2,…,p,j = 1,2,…,n) . ( 3) 若第 s 个和第 t 个主成分因子的关键控制观察 变量相同,则该控制观察变量的权值使用下式可以 得到. ωj = | lsjλs + ltjλt | ·57·
·58· 工程科学学报,第37卷,增刊1 (s,l=1,2,…,p,j=1,2,…,n). (4) 序进行排序,即可以得到关键控制观察变量的权值向 之后,对仙进行归一化处理,按照从大到小的顺 量W(如表2所示) 表2关键控制观察变量及客观权值表 Table 2 The key control observed variables and objective weights table 变量名 字段名 编号 权值 精轧F7工作辊线速度 ROLLSPD6 0.3359 R1粗轧1道次轧制力 RIFORCEO 8 0.2316 R1粗轧4道次轧制力 RIFORCE3 0.1472 精轧7轧辊入口温度 TEMPF6 61 0.1041 R1粗轧3道次工作辊线速度 ROLLSPEED2 21 0.0387 E1立辊3道次辊缝 EIGAP2 14 0.0384 精轧F3轧制力 FORCE2 42 0.0219 R1粗轧3道次出口侧宽度 WIDGAGEVAL2 25 0.0203 R1粗轧4道次工作辊线速度 ROLLSPEED3 22 0.0202 R1粗轧1道次工作辊线速度 ROLLSPEEDO 0.0135 R1粗轧4道次出口侧宽度 WIDGAGEVAL3 26 0.0131 R1粗轧5道次工作辊线速度 ROLLSPEED4 23 0.0124 头部SSC的实测宽度值 WIDRMHO 1 0.0027 1.3热轧带钢宽度问题成因分析 但是,这些分析都是基于经验的并且很难针对不 影响带钢宽度质量指标的因素很多,如原材料的 同情况调整某个控制变量.本文从样本数据中,选取 尺寸、形状、钢种、加热温差、水印、立辊的零点漂移、立 宽度偏差最小的样本作为标准样本0703050,再分 辊辊形、轧机间张力及宽度控制模型6可.根据热连 别选取四条具有典型意义的超宽和拉窄问题带钢样 轧生产的现场经验,结合对样本数据的分析和总结,初 本0712020,1025040(图1),0710060,1107040(图 步得出宽度控制的问题关键表现为:(1)带钢宽度全 2),通过改进的因子分析方法,找到影响宽度质量指 长超宽或拉窄:(2)带钢头部和尾部超宽:(3)换规格 标的关键性控制观察变量, 时宽度波动大:(4)换辊初期轧制精度低,设定参数和 根据上文得到的综合得分矩阵F,这5块样本带 前一个轧辊周期差别大:(5)精轧张力控制不稳定导 钢0703050,0712020,1025040,0710060,1107040的关 致一部分带钢出现宽度拉窄 键观察变量因子值如表3所示 表3关键观察变量因子值 Table 3 Key observed variables factor values 变量D 0703050样本 0712020样本 1025040样本 0710060样本 1107040样本 53 -479.35 -489.65 -600.5 -478.02 -631.56 6051.3 6430.7 5937.7 6370.1 5669.7 12 5228.7 5095.1 4978.9 5171.1 5095.7 61 -7759.5 -8083.6 -7749.6 -8030 -7546.6 14 -370.29 -323.77 -286.92 -321.72 -310.35 5807.8 5813.1 5810.3 5833.6 5747.3 21 -574.96 -581.25 -633.39 -560.95 -643.12 25 -258.6 -503.68 -144.02 -368.48 -713.13 42 3633.8 3598.3 3738.1 3632.1 3806.2 19 -2717.4 -2739.6 -2675.3 -2749.9 -2651.5 日 -1401.5 -1387.7 -1381.9 -1403.3 -1399.1 26 -287.12 -299.48 -315.75 -292.9 -295.72 23 -3107.9 -3118.4 -3108.1 -3132.3 -3142.7 宽度偏差/mm 0.073553 16.9911 31.7316 -9.56086 -6.69176 注:宽度偏差为精轧出口侧宽度仪显示的偏差(热)值
工程科学学报,第 37 卷,增刊 1 ( s,t = 1,2,…,p,j = 1,2,…,n) . ( 4) 之后,对 ωj 进行归一化处理,按照从大到小的顺 序进行排序,即可以得到关键控制观察变量的权值向 量 Wk ( 如表 2 所示) . 表 2 关键控制观察变量及客观权值表 Table 2 The key control observed variables and objective weights table 变量名 字段名 编号 权值 精轧 F7 工作辊线速度 ROLLSPD6 53 0. 3359 R1 粗轧 1 道次轧制力 R1FORCE0 8 0. 2316 R1 粗轧 4 道次轧制力 R1FORCE3 12 0. 1472 精轧 F7 轧辊入口温度 TEMPF6 61 0. 1041 R1 粗轧 3 道次工作辊线速度 ROLLSPEED2 21 0. 0387 E1 立辊 3 道次辊缝 E1GAP2 14 0. 0384 精轧 F3 轧制力 FORCE2 42 0. 0219 R1 粗轧 3 道次出口侧宽度 WIDGAGEVAL2 25 0. 0203 R1 粗轧 4 道次工作辊线速度 ROLLSPEED3 22 0. 0202 R1 粗轧 1 道次工作辊线速度 ROLLSPEED0 19 0. 0135 R1 粗轧 4 道次出口侧宽度 WIDGAGEVAL3 26 0. 0131 R1 粗轧 5 道次工作辊线速度 ROLLSPEED4 23 0. 0124 头部 SSC 的实测宽度值 WIDRMH0 1 0. 0027 1. 3 热轧带钢宽度问题成因分析 影响带钢宽度质量指标的因素很多,如原材料的 尺寸、形状、钢种、加热温差、水印、立辊的零点漂移、立 辊辊形、轧机间张力及宽度控制模型[6 - 9]. 根据热连 轧生产的现场经验,结合对样本数据的分析和总结,初 步得出宽度控制的问题关键表现为: ( 1) 带钢宽度全 长超宽或拉窄; ( 2) 带钢头部和尾部超宽; ( 3) 换规格 时宽度波动大; ( 4) 换辊初期轧制精度低,设定参数和 前一个轧辊周期差别大; ( 5) 精轧张力控制不稳定导 致一部分带钢出现宽度拉窄. 但是,这些分析都是基于经验的并且很难针对不 同情况调整某个控制变量. 本文从样本数据中,选取 宽度偏差最小的样本作为标准样本———0703050,再分 别选取四条具有典型意义的超宽和拉窄问题带钢样 本———0712020,1025040( 图 1) ,0710060,1107040 ( 图 2) ,通过改进的因子分析方法,找到影响宽度质量指 标的关键性控制观察变量. 根据上文得到的综合得分矩阵 F,这 5 块样本带 钢 0703050,0712020,1025040,0710060,1107040 的关 键观察变量因子值如表 3 所示. 表 3 关键观察变量因子值 Table 3 Key observed variables factor values 变量 ID 0703050 样本 0712020 样本 1025040 样本 0710060 样本 1107040 样本 53 - 479. 35 - 489. 65 - 600. 5 - 478. 02 - 631. 56 8 6051. 3 6430. 7 5937. 7 6370. 1 5669. 7 12 5228. 7 5095. 1 4978. 9 5171. 1 5095. 7 61 - 7759. 5 - 8083. 6 - 7749. 6 - 8030 - 7546. 6 14 - 370. 29 - 323. 77 - 286. 92 - 321. 72 - 310. 35 1 5807. 8 5813. 1 5810. 3 5833. 6 5747. 3 21 - 574. 96 - 581. 25 - 633. 39 - 560. 95 - 643. 12 25 - 258. 6 - 503. 68 - 144. 02 - 368. 48 - 713. 13 42 3633. 8 3598. 3 3738. 1 3632. 1 3806. 2 19 - 2717. 4 - 2739. 6 - 2675. 3 - 2749. 9 - 2651. 5 22 - 1401. 5 - 1387. 7 - 1381. 9 - 1403. 3 - 1399. 1 26 - 287. 12 - 299. 48 - 315. 75 - 292. 9 - 295. 72 23 - 3107. 9 - 3118. 4 - 3108. 1 - 3132. 3 - 3142. 7 宽度偏差/mm 0. 073553 16. 9911 31. 7316 - 9. 56086 - 6. 69176 注: 宽度偏差为精轧出口侧宽度仪显示的偏差( 热) 值. ·58·
李扬等:基于数据挖掘的热轧带钢质量分析方法 ·59· 40 38 轧出口侧厚度仪表反馈的参数,其厚度实测值平均比 31.7 设定值偏小0.77692%,即超宽偏薄,符合因子分析得 30 316 出的结论 430431432 表4热轧带钢宽度误差成因分析 Table 4 Causes of hot strip width error analysis 10 0712020 1025040 0710060 1107040 变量D 样本 样本 样本 样本 53 -10.3 -121.15 1.33 -152.21 8 379.4 -113.6 318.8 -381.6 12 -133.6 -249.8 -57.6 -133 100 200300400500600 带钢样本数量 61 -324.1 9.9 -270.5 212.9 图1带钢超宽问题样本 14 46.52 83.37 48.57 59.94 Fig.1 Sample strips of wider than setting 1 5.3 2.5 25.8 -60.5 21 -6.29 -58.43 14.01 -68.16 25 -245.08 114.58 -109.88 -454.53 妇 -35.5 104.3 -1.7 172.4 19 -22.2 42.1 -32.5 65.9 22 13.8 19.6 -1.8 2.4 26 -12.36 -28.63 -5.78 -8.6 23 -10.5 -0.2 -24.4 -34.8 2 基于多维状态空间数据关联关系挖掘 490 492 135136137 在高维数据挖掘中,想要寻找变量之间的相互影 100 200300400 500 600 带钢样本数量 响的关系,关联分析是常用的方法,Apriori算法o-W 图2带钢拉窄间题样本 是所有关联规则挖掘算法的核心.在状态空间上利用 Fig.2 Sample strips of thinner than setting 控制变量数据与质量变量数据中产品号与顺序号的对 应关系来分析这些数据,找到容易导致质量缺陷的控 0703050号带钢的精轧出口侧偏差(热)值为 制状态集2.这样就可以知道控制变量在什么情 0.073553mm,即为标准样本,与其他具有宽度质量问 况下会容易产生质量的缺陷.若想得到控制变量与质 题的样本进行比较 量之间的因果关系,必须要先将控制变量与质量变量 4块问题带钢样本的因子值与标准样本的差值如 组合起来,固定某一个质量因素为关联关系的后件,将 表4所示 控制变量设定为前件,然后再进行关联规则分析 以0712020号带钢为例进行分析,精轧出口侧宽 2.1状态空间数据的离散化 度仪显示的偏差(热)值为16.9911mm,属于带钢全长 对于通过改进的因子分析得到的13个主要控制 超宽,可以看出,第8、61和25号控制观察变量得分和 观察变量的546组数据组成的状态空间矩阵整理,组 标准样本的得分偏差较大,具体代表精轧R1粗轧1道 成数据库D,将所对应的宽度误差值参考现场经验划 次轧制力、精轧F7轧辊入口温度和R1粗轧3道次出 分为六个等级,即类别合集C,(1≤j≤6),具体如表5 口侧宽度,其中两个指标都为粗轧控制区域指标,粗轧 所示. 第一道次负荷较大,压下量较大,如符合分配不合理, 表5宽度误差分档表 将对中间坯宽度指标产生影响;R1粗轧3道次出口侧 Table 5 Width error binning table 宽度这一指标影响得分较高也可以印证这一原因,而 范围/mm≤-10-10-5-5~00~55~10≥10 7轧辊入口温度得分较高,则意味着粗轧最后一个道 分档 LB LA MB MA HB HA 次的温度命中率偏低,导致实际情况不符合根据精轧 宽展模型和精轧二次预设定期望值,导致精轧第七道 对数据库中的数据进行模糊离散化处理,将表3 次压下量偏大,致使最终超宽严重,通过查询该带钢精 中各控制观察变量的连续数据转化为离散的状态.具
李 扬等: 基于数据挖掘的热轧带钢质量分析方法 图 1 带钢超宽问题样本 Fig. 1 Sample strips of wider than setting 图 2 带钢拉窄问题样本 Fig. 2 Sample strips of thinner than setting 0703050 号 带 钢 的 精 轧 出 口 侧 偏 差 ( 热) 值 为 0. 073553 mm,即为标准样本,与其他具有宽度质量问 题的样本进行比较. 4 块问题带钢样本的因子值与标准样本的差值如 表 4 所示. 以 0712020 号带钢为例进行分析,精轧出口侧宽 度仪显示的偏差( 热) 值为 16. 9911 mm,属于带钢全长 超宽,可以看出,第 8、61 和 25 号控制观察变量得分和 标准样本的得分偏差较大,具体代表精轧 R1 粗轧1 道 次轧制力、精轧 F7 轧辊入口温度和 R1 粗轧 3 道次出 口侧宽度,其中两个指标都为粗轧控制区域指标,粗轧 第一道次负荷较大,压下量较大,如符合分配不合理, 将对中间坯宽度指标产生影响; R1 粗轧 3 道次出口侧 宽度这一指标影响得分较高也可以印证这一原因,而 F7 轧辊入口温度得分较高,则意味着粗轧最后一个道 次的温度命中率偏低,导致实际情况不符合根据精轧 宽展模型和精轧二次预设定期望值,导致精轧第七道 次压下量偏大,致使最终超宽严重,通过查询该带钢精 轧出口侧厚度仪表反馈的参数,其厚度实测值平均比 设定值偏小 0. 77692% ,即超宽偏薄,符合因子分析得 出的结论. 表 4 热轧带钢宽度误差成因分析 Table 4 Causes of hot strip width error analysis 变量 ID 0712020 样本 1025040 样本 0710060 样本 1107040 样本 53 - 10. 3 - 121. 15 1. 33 - 152. 21 8 379. 4 - 113. 6 318. 8 - 381. 6 12 - 133. 6 - 249. 8 - 57. 6 - 133 61 - 324. 1 9. 9 - 270. 5 212. 9 14 46. 52 83. 37 48. 57 59. 94 1 5. 3 2. 5 25. 8 - 60. 5 21 - 6. 29 - 58. 43 14. 01 - 68. 16 25 - 245. 08 114. 58 - 109. 88 - 454. 53 42 - 35. 5 104. 3 - 1. 7 172. 4 19 - 22. 2 42. 1 - 32. 5 65. 9 22 13. 8 19. 6 - 1. 8 2. 4 26 - 12. 36 - 28. 63 - 5. 78 - 8. 6 23 - 10. 5 - 0. 2 - 24. 4 - 34. 8 2 基于多维状态空间数据关联关系挖掘 在高维数据挖掘中,想要寻找变量之间的相互影 响的关系,关联分析是常用的方法,Apriori 算法[10 - 11] 是所有关联规则挖掘算法的核心. 在状态空间上利用 控制变量数据与质量变量数据中产品号与顺序号的对 应关系来分析这些数据,找到容易导致质量缺陷的控 制状态集[12 - 14]. 这样就可以知道控制变量在什么情 况下会容易产生质量的缺陷. 若想得到控制变量与质 量之间的因果关系,必须要先将控制变量与质量变量 组合起来,固定某一个质量因素为关联关系的后件,将 控制变量设定为前件,然后再进行关联规则分析. 2. 1 状态空间数据的离散化 对于通过改进的因子分析得到的 13 个主要控制 观察变量的 546 组数据组成的状态空间矩阵整理,组 成数据库 D,将所对应的宽度误差值参考现场经验划 分为六个等级,即类别合集 Cj ( 1≤j≤6) ,具体如表 5 所示. 表 5 宽度误差分档表 Table 5 Width error binning table 范围/mm ≤ - 10 - 10 ~ - 5 - 5 ~ 0 0 ~ 5 5 ~ 10 ≥10 分档 LB LA MB MA HB HA 对数据库中的数据进行模糊离散化处理,将表 3 中各控制观察变量的连续数据转化为离散的状态. 具 ·59·
60· 工程科学学报,第37卷,增刊1 体方法如下: 点号 控制状态 质量状态 (1)选取每个控制观察变量b,对应的546组数 1 某控制状态 某质量状态 据,计算最大值与最小值的差值,即bnas-bn; 某控制状态 某质量状态 (2)将差值的19作为区间间隔,将连续的数据 离散化到b到b中间的九个区间,由低到高分别记 N 某控制状态 某质量状态 作:LC、LB、LA、MC、MB、MA、HC、HB、HA; (3)将所有的连续数据全部转化为了状态空间中 图3状态空间中状态链 Fig.3 State chain of state space 的状态,而加工工艺过程数据的变化过程,就转变成为 了状态空间中状态链的形式.图3表示的是经过预处 数据矩阵对每一项控制观察变量的状态进行单维 理之后的数据的形式.例如,0712020的精轧F7工作 空间数据子序列挖掘,然后对于每一个控制状态按 辊线速度,该条带钢的最终质量状态为HA,经过离散 照产生的质量的好坏程度再依次计数,可以发现, 化的状态链就可以表示为:53HBHA. 控制过程的数据主要是在某几个状态之中转换,只 通过上述步骤,离散化之后的控制状态与质量状 有少数的情况,会进入到其他的控制状态中,这是 态按照点号完全对应的匹配,而且由点号构成的链状 由于控制系统闭环的自适应控制调控的结果.表6 结构的顺序与加工工艺的顺序完全一致 所示的是宽度指标多维关联规则挖掘,最小支持度 2.2多维状态空间数据子序列挖掘 大于0.2,并且频繁次数较高(频繁次数≥4)的数 根据已经建立的离散化热连轧带钢状态空间 据分析结果 表6多维空间数据子序列挖掘结果 Table 6 Results of multi-dimensional spatial data subsequence mining 须繁次数 关联规则 6 12MBHB',14LCHB',19HCHB','1HCHB',26HAHB',53HAHB 12MBHB,14LCHB',1HCHB,26HAHB'.53HAHB',8MCHB 12LAMA,14MBMA',26HAMA,53HBMA',8MBMA 1MAMA,21MCMA.25MCMA,26HAMA.53HBMA 21HCMB',25HBMB',26HAMB,53HBMB',8MCMB 12MBHB,14LCHB,19HCHB,1HCHB',26HAHB 14LALA,26HALA,8MCLA 12MCHA,14LCHA,53HAHA 12LALA°,14LALA°,26HALA 从表7中可以发现,这些状态的支持度非常高,而 工艺流程对控制观察变量进行结构辨识,如图4. 且在这些状态下,发生质量异常的概率非常低,这些状 (2)利用层次分析法进行定量分析 态是最普遍的正常状态.对于宽度误差值来说,它们 a.递阶层次结构的建立. 的状态转移也都是主要在某些状态之间转移,有时候 目标层为宽度指标,准则层按照粗轧、精轧分为两 会转移到另外一些出现次数较少的状态中去.然而, 层,方案层为因子分析法确定的关键控制观察变量. 往往就是这些少数状态的情况下,在生产中常常会引 b.由递阶层次结构模型建立判断矩阵和权向量 发质量的缺陷,这里需要设定一个较低的支持度.由 在各层次元素中进行两两比较,构造出比较判断 于控制系统在带钢中部具有良好的稳定性,因此设定 矩阵C=(C)mx·其中C反映了专家认为指标S,比 最小支持度为0.02,缺陷最小置信度为50%.也就是 指标S,的重要程度的倾向性意见 说寻找那些已进入该状态并且至少有50%可能会引 以准则层为例,构成指标经过两两比较得到准则 起质量缺陷的控制状态 层判决矩阵: 经过对于状态的置信度的设置,得到容易引发质 (5) 量缺陷的控制状态的高危状态集(频繁次数≥3),如 表7所示 对每一个成对比较的矩阵,利用求和法判断矩阵 2.3关键控制变量影响力评估 最大特征根以及对应特征向量,准则层权向量为: (1)根据故障逻辑分析思想5-1a,按照生产线的 Wa=(0.66670.3333)T (6)
工程科学学报,第 37 卷,增刊 1 体方法如下: ( 1) 选取每个控制观察变量 bj 对应的 546 组数 据,计算最大值与最小值的差值,即 bmax - bmin ; ( 2) 将差值的 1 /9 作为区间间隔,将连续的数据 离散化到 bmin到 bmax中间的九个区间,由低到高分别记 作: LC、LB、LA、MC、MB、MA、HC、HB、HA; ( 3) 将所有的连续数据全部转化为了状态空间中 的状态,而加工工艺过程数据的变化过程,就转变成为 了状态空间中状态链的形式. 图 3 表示的是经过预处 理之后的数据的形式. 例如,0712020 的精轧 F7 工作 辊线速度,该条带钢的最终质量状态为 HA,经过离散 化的状态链就可以表示为: 53HBHA. 通过上述步骤,离散化之后的控制状态与质量状 态按照点号完全对应的匹配,而且由点号构成的链状 结构的顺序与加工工艺的顺序完全一致. 2. 2 多维状态空间数据子序列挖掘 根据已经建立的离散化热连轧带钢状态空间 点号 控制状态 质量状态 1 某控制状态 某质量状态 2 某控制状态 某质量状态 N 某控制状态 某质量状态 图 3 状态空间中状态链 Fig. 3 State chain of state space 数据矩阵对每一项控制观察变量的状态进行单维 空间数据子序列挖掘,然后对于每一个控制状态按 照产生的质量的好坏程度再依次计数,可 以 发 现, 控制过程的数据主要是在某几个状态之中转换,只 有少数的情 况,会进入到其他的控制状态中,这 是 由于控制系统闭环的自适应控制调控的结果. 表 6 所示的是宽度指标多维关联规则挖掘,最小支持度 大于 0. 2,并且频繁次数较高( 频 繁 次 数≥4 ) 的 数 据分析结果. 表 6 多维空间数据子序列挖掘结果 Table 6 Results of multi-dimensional spatial data subsequence mining 频繁次数 关联规则 6 '12MBHB','14LCHB','19HCHB','1HCHB','26HAHB','53HAHB' '12MBHB','14LCHB','1HCHB','26HAHB','53HAHB','8MCHB' 5 '12LAMA','14MBMA','26HAMA','53HBMA','8MBMA' '1MAMA','21MCMA','25MCMA','26HAMA','53HBMA' … '21HCMB','25HBMB','26HAMB','53HBMB','8MCMB' '12MBHB','14LCHB','19HCHB','1HCHB','26HAHB' 4 '14LALA','26HALA','8MCLA' '12MCHA','14LCHA','53HAHA' … '12LALA','14LALA','26HALA' 从表 7 中可以发现,这些状态的支持度非常高,而 且在这些状态下,发生质量异常的概率非常低,这些状 态是最普遍的正常状态. 对于宽度误差值来说,它们 的状态转移也都是主要在某些状态之间转移,有时候 会转移到另外一些出现次数较少的状态中去. 然而, 往往就是这些少数状态的情况下,在生产中常常会引 发质量的缺陷,这里需要设定一个较低的支持度. 由 于控制系统在带钢中部具有良好的稳定性,因此设定 最小支持度为 0. 02,缺陷最小置信度为 50% . 也就是 说寻找那些已进入该状态并且至少有 50% 可能会引 起质量缺陷的控制状态. 经过对于状态的置信度的设置,得到容易引发质 量缺陷的控制状态的高危状态集( 频繁次数≥3) ,如 表 7 所示. 2. 3 关键控制变量影响力评估 ( 1) 根据故障逻辑分析思想[15 - 16],按照生产线的 工艺流程对控制观察变量进行结构辨识,如图 4. ( 2) 利用层次分析法进行定量分析. a. 递阶层次结构的建立. 目标层为宽度指标,准则层按照粗轧、精轧分为两 层,方案层为因子分析法确定的关键控制观察变量. b. 由递阶层次结构模型建立判断矩阵和权向量. 在各层次元素中进行两两比较,构造出比较判断 矩阵 C = ( Cij ) m × n . 其中 Cij反映了专家认为指标 Si 比 指标 Sj 的重要程度的倾向性意见. 以准则层为例,构成指标经过两两比较得到准则 层判决矩阵: CStd = 1 4 /3 3 / [ ] 4 1 . ( 5) 对每一个成对比较的矩阵,利用求和法判断矩阵 最大特征根以及对应特征向量,准则层权向量为: WStd = ( 0. 6667 0. 3333) T . ( 6) ·60·
李扬等:基于数据挖掘的热轧带钢质量分析方法 ·61 表7引发质量缺陷的控制高危状态集 Table 7 High-risk state control sets which cause the quality defects 频繁次数 关联规则 5 19MALA',1MALA,26HALA,53HBLA,8MCLA 14LCHB.1HCHB',26HAHB,53HAHB',8MCHB 14LCHB',26HAHB',53HAHB',61MBHB',8MCHB 12LBLA,1MALA,26HALA,53HBLA,8MCLA(共20组) 4 26HALA,53HBLA,61MALA,8MCLA 12MBHB.14LCHB'1HCHB'.8MCHB 14LCHA,1HCHA,26HAHA,53HAHA" 14L.CHA,26HAHA,42MCHA,53HAHA(共113组) 12LALA,14LALA,26HALA 12LALA,19MALA°,26HALA 12MBHB,14LCHB',1HCHB 12MBHB,14LCHB,19HCHB(共243组) RIFORCEO E1GAP2的最大影响能力,结合专家经验,可以设定前 者对于后者的重要程度的倾向性意见为7. RIFORCE3 通过上述方法可以得到粗轧控制的判决矩阵为: ROLLSPEED2 Co.= 1 5327275131 EIGAP2 1/511/3151771/21/551 粗轧控制 WIDGAGEVAL2 1/3315751/3741 1/251/51731/3531 ROLLSPEED3 1771/71711/5117412 ROLLSPEEDO 121/71/5135 13651 1723311/31221/3 WIDGAGEVAL3 1/55171/571/61/2131/2 带钢宽度指标 ROLLSPEED4 1 1/51/431/41/51/21/311 1/3111213211 WIDRMHO (7) 权向量为: WIDRMHO Wz=(0.09540.11020.04360.27880.0960 精轧控制 WIDRMHO 0.06790.05440.03510.05570.0515 0.04200.02860.0408)T (8) WIDRMHO 精轧控制的判决矩阵为: 图4控制观察变量结构 r121/5 Fig.4 Structure of control observed variables Cz=1/211/4 (9) c.方案层判决矩阵确立和权值向量计算 L541 在本文中,方案层判决矩阵可以通过二维空间数 权向量为: 据子序列挖掘的挖掘结果结合专家认定来综合评价. Wz=(0.15610.23010.0424)T. (10) 以R1粗轧4道次轧制力(R1 FORCE3,12)和E1立辊 d.层次总排序. 3道次辊缝(E1GAP2,14)为例,二维空间数据子序列 依次沿递阶层次结构由上而下逐层计算,即可计 挖掘结果如表8所示 算出最底层因素(指标)相对于最高层(总目标)的相 可以看出R1 FORCE3和E1GAP2两个变量的相关 对重要性,即层次总排序.各指标的权重为: 性关系,其最大置信度代表着变量R1 FORCE3对变量 Waa=Wsu(1)×Wz' (11)
李 扬等: 基于数据挖掘的热轧带钢质量分析方法 表 7 引发质量缺陷的控制高危状态集 Table 7 High-risk state control sets which cause the quality defects 频繁次数 关联规则 5 '19MALA','1MALA','26HALA','53HBLA','8MCLA' '14LCHB','1HCHB','26HAHB','53HAHB','8MCHB' … '14LCHB','26HAHB','53HAHB','61MBHB','8MCHB' '12LBLA','1MALA','26HALA','53HBLA','8MCLA'( 共 20 组) 4 '26HALA','53HBLA','61MALA','8MCLA' '12MBHB','14LCHB','1HCHB','8MCHB' … '14LCHA','1HCHA','26HAHA','53HAHA' '14LCHA','26HAHA','42MCHA','53HAHA'( 共 113 组) 3 '12LALA','14LALA','26HALA' '12LALA','19MALA','26HALA' … '12MBHB','14LCHB','1HCHB' '12MBHB','14LCHB','19HCHB'( 共 243 组) 图 4 控制观察变量结构 Fig. 4 Structure of control observed variables c. 方案层判决矩阵确立和权值向量计算. 在本文中,方案层判决矩阵可以通过二维空间数 据子序列挖掘的挖掘结果结合专家认定来综合评价. 以 R1 粗轧 4 道次轧制力( R1FORCE3,12) 和 E1 立辊 3 道次辊缝( E1GAP2,14) 为例,二维空间数据子序列 挖掘结果如表 8 所示. 可以看出 R1FORCE3 和 E1GAP2 两个变量的相关 性关系,其最大置信度代表着变量 R1FORCE3 对变量 E1GAP2 的最大影响能力,结合专家经验,可以设定前 者对于后者的重要程度的倾向性意见为 7. 通过上述方法可以得到粗轧控制的判决矩阵为: CCZ = 1 5 3 2 7 2 7 5 1 3 1/5 1 1/3 1/5 1/7 7 1/2 1/5 5 1 1/3 3 1 5 7 5 1/3 7 4 1 1/2 5 1/5 1 7 3 1/3 5 3 1 1/7 7 1/7 1/7 1 1/5 1 1/7 4 1/2 1/2 1/7 1/5 1/3 5 1 3 6 5 1 1/7 2 3 3 1 1/3 1 2 2 1/3 1/5 5 1/7 1/5 7 1/6 1/2 1 3 1/2 1 1/5 1/4 3 1/4 1/5 1/2 1/3 1 1 1/ 3 1 1 1 2 1 3 2 1 1 . ( 7) 权向量为: WCZ = ( 0. 0954 0. 1102 0. 0436 0. 2788 0. 0960 0. 0679 0. 0544 0. 0351 0. 0557 0. 0515 0. 0420 0. 0286 0. 0408) T . ( 8) 精轧控制的判决矩阵为: CJZ = 1 2 1 /5 1 /2 1 1 /4 5 4 1 . ( 9) 权向量为: WJZ = ( 0. 1561 0. 2301 0. 0424) T . ( 10) d. 层次总排序. 依次沿递阶层次结构由上而下逐层计算,即可计 算出最底层因素( 指标) 相对于最高层( 总目标) 的相 对重要性,即层次总排序. 各指标的权重为: WCZZ = WStd ( 1) × WCZ, ( 11) ·61·
62· 工程科学学报,第37卷,增刊1 表8二维空间数据子序列挖掘结果 Table 8 Results of two-dimensional spatial data sequence mining 最小置信度 10% 20% 30% 40% 50% 60% MA-LC LA-LC MC-LC LB-MB LA-HB LB-HC (10.3%) (20.1%) (37.7%) (40.6%) (50.0%) (69.2%) MC-MA LA-MB MB-LC MA-HB (11.7%) (22.4%) (30.4%) (50.0%) LC-MB MC-HA LA-LA (12.7%) (25.0%) (36.5%) MC-MB LA-HA (18.2%) (25.0%) LC-HC (11.5%) 关联规则 LA-HC (19.2%) LB-HA (10.0%) LA-HA (15.0%) MB-HA (15.0%) HC-HA (10.0%) Wa=Wsa(2)×Wz, (12) W= ,(0<g<,会可小4 W:=w2 (13) ∑W,W 则主要控制变量的主观权值W2如表9所示 其中,W表示组合权重分配向量中的j个分量,W表 示客观权重分配向量中的j个分量,W,表示主观权重 3基于数据挖掘的带钢质量综合评估方法 分配向量中的j个分量,n表示评价对象系统的指标 基于数据挖掘的带钢质量综合评估方法的基础是 数,本文中n=13.得到的组合权值W如表10所示. 将前文中得到的主、客观权值向量组合起来.基于主 结合表7中有代表性质量问题的高次频繁集,可 客观权重乘积的归一化组合赋权法的计算公式为: 以得出: 表9主要控制观察变量及客观权值表 Table 9 Main control observation variables and objective weights table 变量名 字段名 编号 权值 精轧F7工作辊线速度 ROLLSPD6 53 0.1561 R1粗轧1道次轧制力 RIFORCEO 8 0.1102 R1粗轧4道次轧制力 R1FORCE3 白 0.0436 精轧7轧辊入口温度 TEMPF6 61 0.2301 R1粗轧3道次工作辊线速度 ROLLSPEED2 之 0.0960 E1立辊3道次辊缝 EIGAP2 14 0.0679 精轧F3轧制力 FORCE2 42 0.0424 R1粗轧3道次出口侧宽度 WIDGAGEVAL2 25 0.0351 R1粗轧4道次工作辊线速度 ROLLSPEED3 22 0.0557 R1粗轧1道次工作辊线速度 ROLLSPEEDO 19 0.0515 R1粗轧4道次出口侧宽度 WIDGAGEVAL3 云 0.0420 R1粗轧5道次工作辊线速度 ROLLSPEED4 23 0.0286 头部SSC的实测宽度值 WIDRMHO 1 0.0408
工程科学学报,第 37 卷,增刊 1 表 8 二维空间数据子序列挖掘结果 Table 8 Results of two-dimensional spatial data sequence mining 最小置信度 10% 20% 30% 40% 50% 60% 关联规则 MA--LC ( 10. 3% ) LA--LC ( 20. 1% ) MC--LC ( 37. 7% ) LB--MB ( 40. 6% ) LA--HB ( 50. 0% ) LB--HC ( 69. 2% ) MC--MA ( 11. 7% ) LA--MB ( 22. 4% ) MB--LC ( 30. 4% ) — MA--HB ( 50. 0% ) — LC--MB ( 12. 7% ) MC--HA ( 25. 0% ) LA--LA ( 36. 5% ) — — — MC--MB ( 18. 2% ) LA--HA ( 25. 0% ) — — — — LC--HC ( 11. 5% ) — — — — — LA--HC ( 19. 2% ) — — — — — LB--HA ( 10. 0% ) — — — — — LA--HA ( 15. 0% ) — — — — — MB--HA ( 15. 0% ) — — — — — HC--HA ( 10. 0% ) — — — — — WJZZ = WStd ( 2) × WJZ, ( 12) WZ = WCZZ [ ] WJZZ T . ( 13) 则主要控制变量的主观权值 WZ 如表 9 所示. 3 基于数据挖掘的带钢质量综合评估方法 基于数据挖掘的带钢质量综合评估方法的基础是 将前文中得到的主、客观权值向量组合起来. 基于主 客观权重乘积的归一化组合赋权法的计算公式为: Wj = Wzj Wkj ∑ n j = 1 Wzj Wkj ,( 0 < Wj < 1,∑ n j = 1 Wj ) = 1 . ( 14) 其中,Wj 表示组合权重分配向量中的 j 个分量,Wkj表 示客观权重分配向量中的 j 个分量,Wzj表示主观权重 分配向量中的 j 个分量,n 表示评价对象系统的指标 数,本文中 n = 13. 得到的组合权值 Wj 如表 10 所示. 结合表 7 中有代表性质量问题的高次频繁集,可 以得出: 表 9 主要控制观察变量及客观权值表 Table 9 Main control observation variables and objective weights table 变量名 字段名 编号 权值 精轧 F7 工作辊线速度 ROLLSPD6 53 0. 1561 R1 粗轧 1 道次轧制力 R1FORCE0 8 0. 1102 R1 粗轧 4 道次轧制力 R1FORCE3 12 0. 0436 精轧 F7 轧辊入口温度 TEMPF6 61 0. 2301 R1 粗轧 3 道次工作辊线速度 ROLLSPEED2 21 0. 0960 E1 立辊 3 道次辊缝 E1GAP2 14 0. 0679 精轧 F3 轧制力 FORCE2 42 0. 0424 R1 粗轧 3 道次出口侧宽度 WIDGAGEVAL2 25 0. 0351 R1 粗轧 4 道次工作辊线速度 ROLLSPEED3 22 0. 0557 R1 粗轧 1 道次工作辊线速度 ROLLSPEED0 19 0. 0515 R1 粗轧 4 道次出口侧宽度 WIDGAGEVAL3 26 0. 0420 R1 粗轧 5 道次工作辊线速度 ROLLSPEED4 23 0. 0286 头部 SSC 的实测宽度值 WIDRMH0 1 0. 0408 ·62·
李扬等:基于数据挖掘的热轧带钢质量分析方法 ·63* 表10主要控制观察变量组合权值表 Table 10 Main control observation variables and combination weights table 字段名 编号 主观权值 客观权值 组合权值 ROLLSPD6 53 0.1561 0.3359 0.4402 RIFORCEO 8 0.1102 0.2316 0.2143 RIFORCE3 12 0.0436 0.1472 0.0539 TEMPF6 61 0.2301 0.1041 0.2010 ROLLSPEED2 只 0.0960 0.0387 0.0312 EIGAP2 14 0.0679 0.0384 0.0219 FORCE2 知 0.0424 0.0219 0.0078 WIDGAGEVAL2 25 0.0351 0.0203 0.0060 ROLLSPEED3 22 0.0557 0.0202 0.0094 ROLLSPEEDO 19 0.0515 0.0135 0.0058 WIDGAGEVAL3 26 0.0420 0.0131 0.0046 ROLLSPEED4 23 0.0286 0.0124 0.0030 WIDRMHO 0.0408 0.0027 0.0009 (1)19MALA,1MALA,26HALA,53HBLA, (3)通过控制变量权值向量和数据挖掘高危关联 8MCLA(支持度为0.0769,置信度为52.9%) 状态集合综合分析,可以迅速对带钢质量问题的产生 该5次频繁项集在状态空间数据中重复了42次, 原因进行定位,找出关键控制变量做出调整,减少经济 ROLLSPEEDO,WIDRMHO,WIDGAGVAL2,ROLL- 损失,提高生产效率 SPD6,R1 FORCE0的值分别为MA,MA,HA,HB,MC 时,有52.9%的可能会导致宽度指标落在LA区间,即 参考文献 出现拉窄现象.根据表10可以得知,产生质量问题的 [Leung C K S.Hao B Y,Jiang F.Constrained frequent itemset 最关键因素应该是ROLLSPD6,R1 FORCEO两个控制 mining from uncertain data streams//Proceedings of the IEEE 变量,需要及时作出调整. 26th International Conference on Data Engineering Workshops.Pis- (2)14LCHB,26HAHB,53HAHB,61MBHB, cataway,NJ:IEEE,2010:120 8MCHB(支持度为0.0934,置信度为59.3%). 2] Agrawal R,Imielinski T,Swami A.Mining association rules be- 该6次频繁项集在状态空间数据中重复了28次, tween sets of items in large databases/Proceedings of the ACM EIGAP2,WIDGAGEVAL3,ROLLSPD6,TEMPF6, SIGMOD Conference on Management of Data.Washington,1993: 207 RIFORCEO的值分别为LC,HA,HA,MB,MC时,有 B]He Y Q,Lee Rubao,Huai Y,et al.A fast and space-efficient 59.3%的可能会导致宽度指标落在HB区间,即出现 data placement structure in Map Reduce-ased warehouse systems 超宽现象.根据表10可以得知,产生质量问题的最关 1/Proceedings of the 2011 IEEE 27th International Conference on 键因素应该是ROLLSPD6,R1 FORCEO,TEMPF6三个 Data Engineering (ICDE).Hannover,2011:119 控制变量,需要及时作出调整 4 La W D.SPSS Statistical Analysis.Beijing:Publishing House Of Electronics Industry,2010 4结论 (卢纹岱.SPSS统计分析.北京:电子工业出版社,2010) 5] Wu S,Wei Z B.Structure damage identification based on residual (1)通过改进的因子分析方法,找出与具体宽度 error of principal component.Journal of Highuay and Transporta- 质量维相关度比较大的控制变量维,从而在64个控制 tion Research and Development,2011,28(7):113 变量中得到了13个关键的影响变量,降低了数据的维 (吴森,韦灼彬.基于主成分分析残差的结构损伤识别方法.公 数,提高了数据挖掘的效率与准确率 路交通科技,2011,28(7):113) (2)通过改进的因子分析和故障逻辑分析,完成 6] Sun Y K.Modeling and Control of Hot Strip Mill.Beijing:Metal- 数据挖掘结果定性一定量转化的过程,提高了数据挖 lurgical Industry Press,2002 (孙一康.带钢热连轧的模型与控制.北京:治金工业出版社, 掘在治金质量控制领域开展定量分析的能力,将控制 2002) 变量影响能力以权重形式体现,为质量分析提供了科 7]Liu G P,Zuo Y H.Benxi steel hot strip mill 1700 mm width opti- 学、准确的思路 mized /2009 CS.M Anncal Meeting Proceedings.Beijing:Chi-
李 扬等: 基于数据挖掘的热轧带钢质量分析方法 表 10 主要控制观察变量组合权值表 Table 10 Main control observation variables and combination weights table 字段名 编号 主观权值 客观权值 组合权值 ROLLSPD6 53 0. 1561 0. 3359 0. 4402 R1FORCE0 8 0. 1102 0. 2316 0. 2143 R1FORCE3 12 0. 0436 0. 1472 0. 0539 TEMPF6 61 0. 2301 0. 1041 0. 2010 ROLLSPEED2 21 0. 0960 0. 0387 0. 0312 E1GAP2 14 0. 0679 0. 0384 0. 0219 FORCE2 42 0. 0424 0. 0219 0. 0078 WIDGAGEVAL2 25 0. 0351 0. 0203 0. 0060 ROLLSPEED3 22 0. 0557 0. 0202 0. 0094 ROLLSPEED0 19 0. 0515 0. 0135 0. 0058 WIDGAGEVAL3 26 0. 0420 0. 0131 0. 0046 ROLLSPEED4 23 0. 0286 0. 0124 0. 0030 WIDRMH0 1 0. 0408 0. 0027 0. 0009 ( 1 ) ' 19MALA',' 1MALA',' 26HALA',' 53HBLA', '8MCLA'( 支持度为 0. 0769,置信度为 52. 9% ) . 该 5 次频繁项集在状态空间数据中重复了 42 次, 当 ROLLSPEED0,WIDRMH0,WIDGAGVAL2,ROLLSPD6,R1FORCE0 的 值 分 别 为 MA,MA,HA,HB,MC 时,有 52. 9% 的可能会导致宽度指标落在 LA 区间,即 出现拉窄现象. 根据表 10 可以得知,产生质量问题的 最关键因素应该是 ROLLSPD6,R1FORCE0 两个控制 变量,需要及时作出调整. ( 2) '14LCHB','26HAHB','53HAHB','61MBHB', '8MCHB'( 支持度为 0. 0934,置信度为 59. 3% ) . 该 6 次频繁项集在状态空间数据中重复了 28 次, 当 E1GAP2,WIDGAGEVAL3,ROLLSPD6,TEMPF6, R1FORCE0 的 值 分 别 为 LC,HA,HA,MB,MC 时,有 59. 3% 的可能会导致宽度指标落在 HB 区间,即出现 超宽现象. 根据表 10 可以得知,产生质量问题的最关 键因素 应 该 是 ROLLSPD6,R1FORCE0,TEMPF6 三 个 控制变量,需要及时作出调整. 4 结论 ( 1) 通过改进的因子分析方法,找出与具体宽度 质量维相关度比较大的控制变量维,从而在 64 个控制 变量中得到了 13 个关键的影响变量,降低了数据的维 数,提高了数据挖掘的效率与准确率. ( 2) 通过改进的因子分析和故障逻辑分析,完成 数据挖掘结果定性—定量转化的过程,提高了数据挖 掘在冶金质量控制领域开展定量分析的能力,将控制 变量影响能力以权重形式体现,为质量分析提供了科 学、准确的思路. ( 3) 通过控制变量权值向量和数据挖掘高危关联 状态集合综合分析,可以迅速对带钢质量问题的产生 原因进行定位,找出关键控制变量做出调整,减少经济 损失,提高生产效率. 参 考 文 献 [1] Leung C K S,Hao B Y,Jiang F. Constrained frequent itemset mining from uncertain data streams / / Proceedings of the IEEE 26th International Conference on Data Engineering Workshops. Piscataway,NJ: IEEE,2010: 120 [2] Agrawal R,Imielinski T,Swami A. Mining association rules between sets of items in large databases / / Proceedings of the ACM SIGMOD Conference on Management of Data. Washington,1993: 207 [3] He Y Q,Lee Rubao,Huai Y,et al. A fast and space-efficient data placement structure in Map Reduce-based warehouse systems / / Proceedings of the 2011 IEEE 27th International Conference on Data Engineering ( ICDE) . Hannover,2011: 119 [4] Lu W D. SPSS Statistical Analysis. Beijing: Publishing House Of Electronics Industry,2010 ( 卢纹岱. SPSS 统计分析. 北京: 电子工业出版社,2010) [5] Wu S,Wei Z B. Structure damage identification based on residual error of principal component. Journal of Highway and Transportation Research and Development,2011,28( 7) : 113 ( 吴森,韦灼彬. 基于主成分分析残差的结构损伤识别方法. 公 路交通科技,2011,28( 7) : 113) [6] Sun Y K. Modeling and Control of Hot Strip Mill. Beijing: Metallurgical Industry Press,2002 ( 孙一康. 带钢热连轧的模型与控制. 北京: 冶金工业出版社, 2002) [7] Liu G P,Zuo Y H. Benxi steel hot strip mill 1700 mm width optimized / / 2009 CSM Anncal Meeting Proceedings. Beijing: Chi- ·63·
·64 工程科学学报,第37卷,增刊1 nese Metal Institute,2009:3 [12]Cui G X,Li L.Wang KK,et al.Research and improvement on (刘桂平,左远宏.本钢热连轧厂1700mm机组宽度控制优化 Apriori algorithm of association rule mining.Journal of Computer 与提高/1第七届(2009)中国钢铁年会论文集.北京:中国金 4 pplications,2010,30(11):2952 属学会,2009:3) (崔贯勋,李梁,王柯柯,等.关联规则挖掘中Apriori算法的 8]Huang Z Y,Zhu T,Zhang G M,et al.Study on parameters opti- 研究与改进.计算机应用,2010,30(11):2952) mization of rough rolling spread model for 1780mm hot strip.Chi- [13]Bian X Y,Zhang X L.Yu H.Real-time data stream analysis na Metallurgy,2008,18(5):24 and entire process quality monitoring based on plant information. (黄贞益,朱涛,张国民,等.1780mm热连轧粗轧宽展模型参 Journal of Computer Applications,2012,32(10):2939 数优化研究.中国治金,2008,18(5):24) (边小勇,张晓龙,余海.基于工厂信息的实时数据流分析与 Qiu H D.The optimization of model control on width of head and 全过程质量监控.计算机应用,2012,32(10):2939) tail of hot strip.Shanxi Metallurgy,2011 (3):17 14] Huang Z,Zhang X L,Bian X Y.Quality monitoring of steel (邱华东.热轧带钢头尾宽度模型控制优化.山西治金,2011 products based on real-ime data stream analysis.Journal of (3):17) Computer Applications,2012,32 (5)1470 [10]Liu W X,Chen J L,Qu S F,et al.The improved Apriori algo- (黄纵,张晓龙,边小勇.基于实时数据流分析的钢铁产品质 rithm.Computer Engineering and Applications,2011,47 (11): 量监测.计算机应用,2012,32(5):1470) 149 05] Backmann N,Kriegel H P,Schneider R,et al.The R*tree: (刘维晓,陈俊丽,屈世富,等.一种改进的Apriori算法.计算 an efficient and robust access method for points and rectangles// 机工程与应用,2011,47(11):149) Proceeding of the ACM SIGMOD Conference.Atlantic City, [11]Zhang Y T,Yu ZL,Zhang H X.The frequent item sets mining 1990:322 research in association rules.Computer Engineering and Applica- [16]Rao K D,Gopika V,Rao VV SS,et al.Dynamic fault tree ions,2011,47(3):139-41 analysis using monte carlo simulation in probabilistic safety as- (张云涛,于治楼,张化样.关联规则中频繁项集高效挖掘的 sessment.Reliability Engineering &System Safety,2009,94 研究.计算机工程与应用,2011,47(3):139) (4):872
工程科学学报,第 37 卷,增刊 1 nese Metal Institute,2009: 3 ( 刘桂平,左远宏. 本钢热连轧厂 1700 mm 机组宽度控制优化 与提高/ / 第七届( 2009) 中国钢铁年会论文集. 北京: 中国金 属学会,2009: 3) [8] Huang Z Y,Zhu T,Zhang G M,et al. Study on parameters optimization of rough rolling spread model for 1780 mm hot strip. China Metallurgy,2008,18( 5) : 24 ( 黄贞益,朱涛,张国民,等. 1780 mm 热连轧粗轧宽展模型参 数优化研究. 中国冶金,2008,18( 5) : 24) [9] Qiu H D. The optimization of model control on width of head and tail of hot strip. Shanxi Metallurgy,2011( 3) : 17 ( 邱华东. 热轧带钢头尾宽度模型控制优化. 山西冶金,2011 ( 3) : 17) [10] Liu W X,Chen J L,Qu S F,et al. The improved Apriori algorithm. Computer Engineering and Applications,2011,47 ( 11 ) : 149 ( 刘维晓,陈俊丽,屈世富,等. 一种改进的 Apriori 算法. 计算 机工程与应用,2011,47( 11) : 149) [11] Zhang Y T,Yu Z L,Zhang H X. The frequent item sets mining research in association rules. Computer Engineering and Applications,2011,47( 3) : 139-141 ( 张云涛,于治楼,张化祥. 关联规则中频繁项集高效挖掘的 研究. 计算机工程与应用,2011,47( 3) : 139) [12] Cui G X,Li L,Wang K K,et al. Research and improvement on Apriori algorithm of association rule mining. Journal of Computer Applications,2010,30( 11) : 2952 ( 崔贯勋,李梁,王柯柯,等. 关联规则挖掘中 Apriori 算法的 研究与改进. 计算机应用,2010,30( 11) : 2952) [13] Bian X Y,Zhang X L,Yu H. Real-time data stream analysis and entire process quality monitoring based on plant information. Journal of Computer Applications,2012,32( 10) : 2939 ( 边小勇,张晓龙,余海. 基于工厂信息的实时数据流分析与 全过程质量监控. 计算机应用,2012,32( 10) : 2939) [14] Huang Z,Zhang X L,Bian X Y. Quality monitoring of steel products based on real-time data stream analysis. Journal of Computer Applications,2012,32( 5) : 1470 ( 黄纵,张晓龙,边小勇. 基于实时数据流分析的钢铁产品质 量监测. 计算机应用,2012,32( 5) : 1470) [15] Backmann N,Kriegel H P,Schneider R,et al. The R* tree: an efficient and robust access method for points and rectangles/ / Proceeding of the ACM SIGMOD Conference. Atlantic City, 1990: 322 [16] Rao K D,Gopika V,Rao V V S S,et al. Dynamic fault tree analysis using monte carlo simulation in probabilistic safety assessment. Reliability Engineering & System Safety,2009,94 ( 4) : 872 ·64·