《工程科学学报》录用稿,https://doi.org/10.13374/i,issn2095-9389.2021.05.08.002©北京科技大学2020 工程科学学报DO: 机器学习在深冲钢质量自动判级中的应用 徐钢)2区,黎敏),徐金梧) 1)北京科技大学钢铁共性技术协同创新中心,北京1000832)苏州宝联重工有限公司,江苏苏州215131 ☒通信作者,E-mail:watermoon999@126.com 摘要在流程工业中,生产过程需根据客户对产品质量要求进行判级,以满足客户提出的产品量需求。目前,企 业主要采用“事后”抽检方式,但因无法对所有产品实现在线自动判级,常发生索赔和退货,导致我国钢铁企业每 年近100亿元损失。为了实现产品质量在线自动判级,提出基于高维数据非线性同等缩放与核简支集类边界确定相 结合的质量在线智能判级方法。首先,将高维的工艺参数通过非线性同等缩放算法变换城低维的数据集,并对缩放 后数据集进行聚类,分析工艺参数的类分布特征。然后,根据分类后样本的质量指标值分布,采用核简支集类边界 算法来确定不同产品质量级别的类边界。最后,依据已确定的类边界, 通过质量指标预测实现产品在线判级。通过深 冲钢(F钢)应用实例,证实该方法在训练阶段的在线自动判级准确率达到97.2%, 测试阶段的准确率为96%。 关键词机器学习:信息物理系统:深冲钢:产品质量:自动判级 分类号TP274 Application of Machine Learning inAutomatic Discrimination of Product Quality of Deep Drawn Steel XU Gang LI Min,XUJinwu 1)Collaborative Innovation Center of Steel Technology,University of Science and Technology Beijing,Beijing 100083,China 2)Suzhou Baolian Heavy Industry Co.Suzhod 215131.China Corresponding author,E-mail:watermoon 126.com ABSTRACT In process ies.the discrimination of final product quality must be implemented in manufacturing process.At present,the main method is "after spot test ward",but the method is no possibility to realize on-line automatic discrimination for all products thus often leading to customers'returned purchase and claims about the product quality,and annual economic loss of 10 billion Yuan in Chinese steel enterprises.To realize on-line automatic discrimination for all products,the on-ine preduct quality automatic discrimination method based on machine learning is proposed in this paper. Firstly,through the honlinear multi-dimensional parity scaling(MDPS),multi-dimensional process parameters are mapped into low-dimensional data set and the data set is clustered,and the distribution feature in the data set is analyzed.Then,the quality index values with the class labels determined by process parameter clustering are transformed into the low- dimensional map,and the diverse class margins are determined by means of support vector machine(SVM)with L2-soft margin.To simplify the class boundary,the method of kernel reduced set is used to reduce the number of support vectors and the actual class margins are determined by the reduced set.Finally,the quality indexes are predicted by means of machine learning algorithms,such as BPN(Back-Propagation Network)LSTM (Long Short-Team Memory)KPLS(Kernel Partial Least Squares).KNN(K-Nearest Neighbors)and the on-line automatic discrimination of product quality is realized through 收清日期: 盒演自:“十三五”国家科技支撑计划资助项目(2015BAF30B01)
工程科学学报 DOI: 机器学习在深冲钢质量自动判级中的应用1 徐 钢 1) 2),黎 敏 1) ,徐金梧 1) 1) 北京科技大学钢铁共性技术协同创新中心,北京 100083 2) 苏州宝联重工有限公司, 江苏苏州 215131 通信作者,E-mail: watermoon999@126.com 摘 要 在流程工业中,生产过程需根据客户对产品质量要求进行判级,以满足客户提出的产品质量需求。目前,企 业主要采用“事后”抽检方式,但因无法对所有产品实现在线自动判级,常发生索赔和退货,导致我国钢铁企业每 年近 100 亿元损失。为了实现产品质量在线自动判级,提出基于高维数据非线性同等缩放与核简支集类边界确定相 结合的质量在线智能判级方法。首先,将高维的工艺参数通过非线性同等缩放算法变换成低维的数据集,并对缩放 后数据集进行聚类,分析工艺参数的类分布特征。然后,根据分类后样本的质量指标值分布,采用核简支集类边界 算法来确定不同产品质量级别的类边界。最后,依据已确定的类边界,通过质量指标预测实现产品在线判级。通过深 冲钢(IF 钢)应用实例,证实该方法在训练阶段的在线自动判级准确率达到 97.2%,测试阶段的准确率为 96%。 关键词 机器学习;信息物理系统;深冲钢;产品质量;自动判级; 分类号 TP274 Application of Machine Learning in Automatic Discrimination of Product Quality of Deep Drawn Steel XU Gang1) , LI Min1) , XU Jinwu1) 1) Collaborative Innovation Center of Steel Technology, University of Science and Technology Beijing, Beijing 100083, China 2) Suzhou Baolian Heavy Industry Co. Suzhou, 215131, China Corresponding author, E-mail: watermoon999@126.com ABSTRACT In process industries, the discrimination of final product quality must be implemented in manufacturing process. At present, the main method is “after spot test ward”, but the method is no possibility to realize on-line automatic discrimination for all products, thus often leading to customers’ returned purchase and claims about the product quality, and annual economic loss of 10 billion Yuan in Chinese steel enterprises. To realize on-line automatic discrimination for all products, the on-line product quality automatic discrimination method based on machine learning is proposed in this paper. Firstly, through the nonlinear multi-dimensional parity scaling(MDPS), multi-dimensional process parameters are mapped into low-dimensional data set and the data set is clustered, and the distribution feature in the data set is analyzed. Then, the quality index values with the class labels determined by process parameter clustering are transformed into the lowdimensional map, and the diverse class margins are determined by means of support vector machine(SVM) with L2-soft margin. To simplify the class boundary, the method of kernel reduced set is used to reduce the number of support vectors and the actual class margins are determined by the reduced set. Finally, the quality indexes are predicted by means of machine learning algorithms, such as BPN(Back-Propagation Network)、LSTM(Long Short-Team Memory)、KPLS(Kernel Partial Least Squares)、KNN(K-Nearest Neighbors) and the on-line automatic discrimination of product quality is realized through 1收稿日期: 基金项目:“十三五”国家科技支撑计划资助项目(2015BAF30B01) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.05.08.002 ©北京科技大学 2020 录用稿件,非最终出版稿
the determined class margins and the predicted values of quality indexes.The industrial production data of Interstitial-Free (IF)steel is used to demonstrate that the accuracy of the on-line automatic discrimination of steel types is up to 97%in training stage,and up to 96%in testing stage KEY WORDS Machine Learning:Cyber-physical system;Deep drawn steel Product Quality:Automatically Discrimination 流程工业,如治金、化工等工业领域,产品在制造过程中涉及多个连续衔接的工序,为了确保 成品的最终质量,要求每道工序的工艺参数设定在工艺规范所确定的区间内。目前,企业对产品质 量管控的主要手段是通过制订合适的工艺规范,并采用“事后”抽样检测方式来判定产品的品质。 但是,这种依赖于生产经验制订的工艺规范及“事后”抽检的方式容易出现批量的产品质量判废, 或导致用户由于质量异议提出索赔和退货。中国钢铁企业每年仅质量判废和质量异议所造成的经济 损失近百亿元。因此,如何利用大数据分析和人工智能方法,实现产品质量在线动判级,提高产 品质量可靠性是当前企业亟待解决的关键问题。 以大数据分析、人工智能、物联网+、云计算为代表的新一代信息心技术已经成为企业突破增长 极限、保持稳定发展的重要途径。随着“工业4.0”时代的来临,制造技术正逐步从自动化、数字 化、网络化向智能化方向发展。作为工业4.0的重要策略一信息物理系统(Cyber-Physical System, CPS),由于其具有自主判断、自主决策、自主调控的能力,将CPS的核心技术一数字李生模型, 应用于流程工业的智能制造引起了业内的高度关注6-1。如何从海量的高维数据中提取出有价值的信 息和知识是目前机器学习、人工智能、大数据分析、数字攀生模型等主要研究课题。 由于工业生产数据中往往具有多元、强耦合、非线性的特征,因此在建立产品质量数字李生模型 时存在一些问题2)。本质上,产品质量数字李生模型是建立工艺装备所设定的工艺参数与产品质 量指标之间的对应关系4(,并根据各工序的实际艺参数值来预测产品质量指标区间,实现产品 质量在线智能判级和质量持续优化。目前、生要采用多元回归模型来建立质量预测模型,包括 偏最小二乘法、神经元网络等回归方法。近年来,机器学习方法已广泛应用于材料加工和材料研发领 域P-2刘。卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等深度学习方法也 用于材料研发和工业应用s2。 针对钢铁企业在产品质量在线自动判级中存在的问题,提出了基于高维数据非线性同等缩放与 核简支集类边界计算相结合的机器学习方法,实现大类钢种的质量在线智能分类和自动判级。通过 F钢中三类钢种的样本数据进标验证结果分析,证实方法的有效性和实时性。 1质量在线智能判级方法 质量在线智能判级方法是通过建立工艺参数与质量指标间的数字孪生模型,实现质量在线智能 判级。主要包括3个部分:1)从实际生产线上,收集不同类别样本的工艺参数及对应的质量指标数 据,并对训练本的工艺参数进行聚类,形成低维的聚类映射图:2)对不同工艺参数类所对应的 质量指标进行分类确定类边界并验证分类的准确性,然后建立工艺参数与质量指标间的数字孪生 模型:3)通过李生模型将待判级样本的工艺参数映射到已建立的低维聚类图中,寻找若干邻近点 的类别和预测的质量指标值来确定待检样本的所属类,实现产品质量的在线智能判级。 1.1非线性同等缩放的廉类算法 在实际生产数据中,工艺参数、质量指标间往往存在多重耦合,变量间的非线性特征不可避免。 近来年,基于核方法的非线性模式分析算法受到关注。核方法是通过非线性核函数来表示数据内在 的非线性结构特征,其中高斯核是核函数中最常用的表达形式。为了揭示高维数据中内在的非线性 低维的潜在结构,需要在高维数据空间中嵌入一个低维的子空间,并将样本数据映射到低维子空间 来观察数据内在的结构特征,这种方法也称为数据可视化6,2。数据可视化的目的是通过高维数据的
the determined class margins and the predicted values of quality indexes. The industrial production data of Interstitial-Free (IF) steel is used to demonstrate that the accuracy of the on-line automatic discrimination of steel types is up to 97% in training stage, and up to 96% in testing stage. KEY WORDS Machine Learning; Cyber-physical system; Deep drawn steel ; Product Quality; Automatically Discrimination ; 流程工业,如冶金、化工等工业领域,产品在制造过程中涉及多个连续衔接的工序,为了确保 成品的最终质量,要求每道工序的工艺参数设定在工艺规范所确定的区间内。目前,企业对产品质 量管控的主要手段是通过制订合适的工艺规范,并采用“事后”抽样检测方式来判定产品的品质。 但是,这种依赖于生产经验制订的工艺规范及“事后”抽检的方式容易出现批量的产品质量判废, 或导致用户由于质量异议提出索赔和退货。中国钢铁企业每年仅质量判废和质量异议所造成的经济 损失近百亿元。因此,如何利用大数据分析和人工智能方法,实现产品质量在线自动判级,提高产 品质量可靠性是当前企业亟待解决的关键问题。 以大数据分析、人工智能、物联网+、云计算为代表的新一代信息化技术已经成为企业突破增长 极限、保持稳定发展的重要途径[1-2]。随着“工业 4.0”时代的来临,制造技术正逐步从自动化、数字 化、网络化向智能化方向发展。作为工业 4.0 的重要策略—信息物理系统(Cyber-Physical System, CPS)[3-5],由于其具有自主判断、自主决策、自主调控的能力,将 CPS 的核心技术—数字孪生模型, 应用于流程工业的智能制造引起了业内的高度关注[6-8]。如何从海量的高维数据中提取出有价值的信 息和知识是目前机器学习、人工智能、大数据分析、数字孪生模型等主要研究课题[9-11]。 由于工业生产数据中往往具有多元、强耦合、非线性的特征,因此在建立产品质量数字孪生模型 时存在一些问题[12-13]。本质上,产品质量数字孪生模型是建立工艺装备所设定的工艺参数与产品质 量指标之间的对应关系[14-16],并根据各工序的实际工艺参数值来预测产品质量指标区间,实现产品 质量在线智能判级和质量持续优化[17-19]。目前,主要采用多元回归模型来建立质量预测模型,包括 偏最小二乘法、神经元网络等回归方法。近年来,机器学习方法已广泛应用于材料加工和材料研发领 域[20-24]。卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等深度学习方法也 用于材料研发和工业应用[25-28]。 针对钢铁企业在产品质量在线自动判级中存在的问题,提出了基于高维数据非线性同等缩放与 核简支集类边界计算相结合的机器学习方法,实现大类钢种的质量在线智能分类和自动判级。通过 IF 钢中三类钢种的样本数据进行验证结果分析,证实方法的有效性和实时性。 1 质量在线智能判级方法 质量在线智能判级方法是通过建立工艺参数与质量指标间的数字孪生模型,实现质量在线智能 判级。主要包括 3 个部分:1)从实际生产线上,收集不同类别样本的工艺参数及对应的质量指标数 据,并对训练样本的工艺参数进行聚类,形成低维的聚类映射图;2)对不同工艺参数类所对应的 质量指标进行分类,确定类边界并验证分类的准确性,然后建立工艺参数与质量指标间的数字孪生 模型;3)通过孪生模型将待判级样本的工艺参数映射到已建立的低维聚类图中,寻找若干邻近点 的类别和预测的质量指标值来确定待检样本的所属类,实现产品质量的在线智能判级。 1.1 非线性同等缩放的聚类算法 在实际生产数据中,工艺参数、质量指标间往往存在多重耦合,变量间的非线性特征不可避免。 近来年,基于核方法的非线性模式分析算法受到关注。核方法是通过非线性核函数来表示数据内在 的非线性结构特征,其中高斯核是核函数中最常用的表达形式。为了揭示高维数据中内在的非线性 低维的潜在结构,需要在高维数据空间中嵌入一个低维的子空间,并将样本数据映射到低维子空间 来观察数据内在的结构特征,这种方法也称为数据可视化[6,29]。数据可视化的目的是通过高维数据的 录用稿件,非最终出版稿
多维缩放算法将数据映射到2D或3D空间,并保持原始数据结构的基本特征不变。 经典的降维算法,如主成分分析(principal components analysis,PCA)和核主成分分析 (kernel principal components analysis,KPCA)在模式分析中已被广泛应用o-3。PCA是通过从协方 差矩阵中提取最大的几个特征向量组成的单位主方向,并将数据映射到互相正交的主方向上,从而 构成低维的数据主成分。KPCA是从核内积矩阵中求核主方向,计算特征空间中样本点在核主方向 上的投影,实现数据低维可视化,并消除数据噪声和非线性耦合。由于核方法能更好的表示非线性 特征,所以KPCA的多维缩放在处理复杂的数据结构时具有一定的优势。无论PCA、还是KPCA, 从概念上是将数据在低维子空间的表示形式与原始空间中数据之间残差的范数平方和最小化。但是, 这种通过这类高维数据进行缩放方法,容易造成复杂高维数据的内在结构特征在降维后出现畸变。 为了解决非线性数据在降维后易出现畸变问题,提出了新的数据降维方法。该方法将特征空间 的样本点间的平方距离与投影到低维子空间的平方距离的相关性最大化来实现非线性多维缩放。新 方法在对非线性数据多维同等缩放(multi-.dimensional parity scaling,MDPS)过程最大程度地使原 始空间中的样本点之间的距离与经过2D或3D缩放后样本点之间的距离保持同等缩放 给定由核定义的特征空间F中的一个样本集 S=[)b(x…x月 (1) 选择较小的1,如1=2,3,寻求原始数据X从s维特征空间投影到维空间x,使得 (x)-t(x)川≈(x)-(x)=1,2, (2) 其中,川表示模长,π是嵌入在特征空间F中1维低维学空间。 为了建立特征空间中样本对的距离与在低维空间中样本对的投影距离相关性最大化,即累积误 差E()最小化,可求解下面的优化问题 (3) z=1,t⊥js=1,2,1 ta⊥te,d,e=l,2,.,l (4) 其中j表示所有分量均为 1的列向量,ta,t。为t子空间中相互正交的单位向量。 式(3) 的优花问题还可以理解为另一种表达形式 E())) (5) 进一步分析可知
多维缩放算法将数据映射到 2D 或 3D 空间,并保持原始数据结构的基本特征不变。 经典的降维算法,如主成分分析(principal components analysis,PCA)和核主成分分析 (kernel principal components analysis,KPCA)在模式分析中已被广泛应用[30-31]。PCA 是通过从协方 差矩阵中提取最大的几个特征向量组成的单位主方向,并将数据映射到互相正交的主方向上,从而 构成低维的数据主成分。KPCA 是从核内积矩阵中求核主方向,计算特征空间中样本点在核主方向 上的投影,实现数据低维可视化,并消除数据噪声和非线性耦合。由于核方法能更好的表示非线性 特征,所以 KPCA 的多维缩放在处理复杂的数据结构时具有一定的优势。无论 PCA、还是 KPCA, 从概念上是将数据在低维子空间的表示形式与原始空间中数据之间残差的范数平方和最小化。但是, 这种通过这类高维数据进行缩放方法,容易造成复杂高维数据的内在结构特征在降维后出现畸变。 为了解决非线性数据在降维后易出现畸变问题,提出了新的数据降维方法。该方法将特征空间 的样本点间的平方距离与投影到低维子空间的平方距离的相关性最大化来实现非线性多维缩放。新 方法在对非线性数据多维同等缩放(multi-dimensional parity scaling, MDPS)过程中,最大程度地使原 始空间中的样本点之间的距离与经过 2D 或 3D 缩放后样本点之间的距离保持同等缩放。 给定由核定义的特征空间 F 中的一个样本集 T S ( ), ( ), , ( ) 1 2 x x x n (1) 选择较小的 l,如 l = 2,3,寻求原始数据 X 从 s 维特征空间投影到 l 维空间 τ,使得 ( ) ( ) ( ) ( ) , 1,2,..., i j i j x x x x ≈ i j n (2) 其中, . 表示模长,τ 是嵌入在特征空间 F 中 l 维低维子空间。 为了建立特征空间中样本对的距离与在低维空间中样本对的投影距离相关性最大化,即累积误 差 E(τ)最小化,可求解下面的优化问题 2 , 1 2 , 1 min ( ) ( ), ( ) ( ) ( ) ( , ) ( ) ( ) x x x x x x x x n i j i j i j n i j i j i j E K τ (3) 约束条件为: 2 1 s , , 1,2,... s j s l , , 1,2,..., d e d e l (4) 其中 j 表示所有分量均为 1 的列向量, d e 为 子空间中相互正交的单位向量。 式(3)的优化问题还可以理解为另一种表达形式 2 2 , 1 ( ) (1 ( ) ( ) ) ( ) ( ) n i j i j i j E x x x x (5) 进一步分析可知 录用稿件,非最终出版稿
k)-Gf-e-r i,j=l d=l )c》 (6) =222xP-立Grx,》 =2nl 由于x是子空间中相互正交的单位向量,因此式(3)可简化为: 会,--g-空, i,i=l i.jal =2tT Dt-2tT KT 稿 (7 =2t L(K) 其中,Da=之K为对角矩阵,L因=D-K为拉普拉斯矩阵。 式(7)的解可由拉普拉斯矩阵(的的特征值分解中求得中t为矩阵L()的特征向量。由 前两个最大特征值所张成的特征向量子空间可以实现高维数据的2D缩放。高维数据经非线性同等 缩放后的效果,将在下一章节中讨论。 1.2核简支桌分类算法 实现产品质量在线判级需要建立工艺参数与质指标之向映射关系,根据工艺参数聚类结果确 定类标记,并对带有标记的质量指标样本划定类边办人分类方法有基于概率分布的Byes算法、 Anderson算法:基于规则的决策树,如随机森林和Boosted树:基于距离的支持向量机、K-邻近分 类以及二次规划分类、逻辑回归以及神经元网貉深度学习等。 基于距离的分类算法可分为两种形式,硬间隔和软间隔分类算法。硬间隔分类采用线性(超平 面)判别函数,软间隔采用非线性(曲面)判别函数。由于工艺参数与质量指标间存在多重耦合, 类边界往往较复杂,因此宜用非线性判别函数,即采用软间隔分类器。引入间隔松弛向量,即允 许训练集中个别样本被错误分类,《软间隔支持向量机分类方法可转化为求如下最优解 典7容数 (8) >约束条件:f(《W,y,)》+b)≥?-,5≥0,IW=1。 其中,参数C为权衡系数,表示允许错误分类比例,当松弛向量飞的上标p为1时,表示一范 数软间隔(Lsof托margin),p为2表示二范数软间隔(L2-soft margin)。式(8)可以通过拉格朗 日函数求得权同量7和截距b,对偶解α,和类间隔'。类边界可由分布在边界两侧的支持向量来确 定,但若类间存在交叉重叠区域,支持向量的数目会显著增加,造成类边界划分的复杂性,并增加 在线自动判级的时间和准确率。 为了简化类边界判定函数,提出通过少量简支集(Reduced Set,RS)来确定类边界判定函数 的方法。设Y-y,2,ym}为支持向量集,nsY为支持向量个数,则基于支持向量的类判别函数 f0)=2ak0,)+b=w,》+b (9) = 由若干简支集向量来替代原来的支持向量集,则简支集的类判别函数 f()-2Bk(yi.y)+6=aK(y.)+b (10) -1
2 2 , 1 , 1 1 2 1 , 1 2 1 1 , 1 ( ) ( ) ( ) ( )) ( ) ( )) 2 ( ( ) ( ) ( )) 2 x x x x x x x x x ( ( - n n l i j d i d j i j i j d l n d i d j d i j l n n d i d i d j d i i j n nl (6) 由于 τ 是子空间中相互正交的单位向量,因此式(3)可简化为: 2 2 1 1 1 T T T 2 2 2 2 2 , , , K τ τ K K τ τ τ τ Dτ τ K τ τ L(K)τ n n n i j ij i ij i j i j i j i j ij (7) 其中, n ij j=1 D = K ii 为对角矩阵, L(K) = D - K 为拉普拉斯矩阵。 式(7)的解可由拉普拉斯矩阵 L(K)的特征值分解中求得,其中 为矩阵 L(K)的特征向量。由 前两个最大特征值所张成的特征向量子空间可以实现高维数据的 2D 缩放。高维数据经非线性同等 缩放后的效果,将在下一章节中讨论。 1.2 核简支集分类算法 实现产品质量在线判级需要建立工艺参数与质量指标之间映射关系,根据工艺参数聚类结果确 定类标记,并对带有标记的质量指标样本划定类边界。分类方法有基于概率分布的 Bayes 算法 、 Anderson 算法;基于规则的决策树,如随机森林和 Boosted 树;基于距离的支持向量机、K-邻近分 类以及二次规划分类、逻辑回归以及神经元网络、深度学习等。 基于距离的分类算法可分为两种形式,硬间隔和软间隔分类算法。硬间隔分类采用线性(超平 面)判别函数,软间隔采用非线性(曲面)判别函数[29]。由于工艺参数与质量指标间存在多重耦合, 类边界往往较复杂,因此宜用非线性判别函数,即采用软间隔分类器。引入间隔松弛向量 ξ,即允 许训练集中个别样本被错误分类,软间隔支持向量机分类方法可转化为求如下最优解 , , , min b C n p i γ ξ i w =1 γ ξ (8) 约束条件: ( , ( ) ) , i i i i f W y b γ ξ ξ , 2 W 1。 其中,参数 C 为权衡系数,表示允许错误分类比例,当松弛向量 ξ 的上标 p 为 1 时,表示一范 数软间隔(L1-soft margin),p 为 2 表示二范数软间隔(L2-soft margin)。式(8)可以通过拉格朗 日函数求得权向量 W 和截距 b,对偶解i 和类间隔 γ。类边界可由分布在边界两侧的支持向量来确 定,但若类间存在交叉重叠区域,支持向量的数目会显著增加,造成类边界划分的复杂性,并增加 在线自动判级的时间和准确率。 为了简化类边界判定函数,提出通过少量简支集(Reduced Set,RS)来确定类边界判定函数 的方法。设 1 2 , ..., , Y y y ynsv 为支持向量集,nsv 为支持向量个数,则基于支持向量的类判别函数 1 ( ) ( , ) , ( ) nsv i i i f k y y α y W y b b (9) 由若干简支集向量来替代原来的支持向量集,则简支集的类判别函数 1 * 1 1 ( ) ( , ) ( , ) RS l nsv i i i i i i f k y k y y β y b b α y (10) 录用稿件,非最终出版稿
其中,1表示简支集向量个数,1<nsw。式(10)优化解 (B,Y)=argmin (11) 式(ll)中,参数B,Y*优化解可以采用迭代贪婪算法(Iterative Greedy Algorithm)求得。如果采 用径向基核函数,式(11)可进一步简化为下面优化解 y-arg maxexp(-0.y /' (12) 其中,σ为核函数参数,n表示参与学习的部分支持向量个数。由于简支集分布在类边界曲线(或 曲面)上,因此可以实现正确、快捷的类判别。上面所讨论的利用简支集确定类边界的方法可简化质 量自动判别的过程,并为不同钢种的工艺规范的制定提供依据,具体应用在下面掌节中讨论。 为了验证方法的有效性,下面讨论应用实例。数据取自两个不同类的数据由于类间数据交叉 重叠,因此类边界较复杂,且支持向量较多。为了合理划分类边界,首先采用软间隔支持向量机, 求出76个支持向量,如图1所示。然后,取简支集的个数为10,从支芽向量集中随机抽取部分支持 向量组成10个子集,通过式(11)和式(12),求出各子集的简支集优化解。最后,通过函数拟合 方法求得类边界曲线,如图1所示。 1.2 reduced set 0.8 R N 0.6 support vecto 品 0.4 0.2 oo class 1 x class 2 class margin 025 -0.5 0 0.5 Variable 1 图1利用简支集确定类边界的例子 e of determined class boundaries using reduced sets 1.3质量在线评级与质指标预测 实现产品质量在线智能判级,首先需将待判样本通过同等缩放后投影到经过训练的工艺参数聚 类图上,并根锯映射点的位置选取距该点最近的K个训练集中的样本点作为参考样本集。然后,从 质量指标分类图找出这些参考样本集的类属性,采用K邻近分类法(KNN)确定待判样本的类 别。KNN算法的核心是,一个样本在特征空间中的K个邻近样本(参考样本)中的大多数属于某一 个类别,则认为该样本也属于这一类别。由于KNN方法对类域存在交叉、重叠的待分样本集来说具 有快捷、准确分类的特点,因此这种方法可以实现产品质量的在线快速判级。 此外,还可以通过非线性回归模型,如核偏最小二乘法、神经元网络、深度学习等方法预测待测 样本的产品质量指标值,并根据2.2节中讨论的产品质量指标的类边界,利用综合判定的方法来判 定待测样本的产品质量类别。 基于机器学习的产品质量自动判级过程,包括以下4个步骤: 1)数据采集与预处理:从实际生产线上采集主要工序的工艺参数和质量指标数据,并对样本 集中的数据进行清洗,剔除数据集中缺失数据、异常点等不规范数据:
其中,l1 表示简支集向量个数,l1<nsv。式(10)优化解 2 1 * 1 1 ( ) arg min ( ) ( ) l nsv i i i i i i y y * * β,Y β,Y β α (11) 式(11)中,参数 β,Y*优化解可以采用迭代贪婪算法(Iterative Greedy Algorithm)求得。如果采 用径向基核函数,式(11)可进一步简化为下面优化解 2 * 2 * 1 arg max exp(-0.5 / ) nn i i y i y y α y (12) 其中,σ 为核函数参数,nn 表示参与学习的部分支持向量个数。由于简支集分布在类边界曲线(或 曲面)上,因此可以实现正确、快捷的类判别。上面所讨论的利用简支集确定类边界的方法可简化质 量自动判别的过程,并为不同钢种的工艺规范的制定提供依据,具体应用在下面章节中讨论。 为了验证方法的有效性,下面讨论应用实例。数据取自两个不同类的数据,由于类间数据交叉 重叠,因此类边界较复杂,且支持向量较多。为了合理划分类边界,首先采用软间隔支持向量机, 求出 76 个支持向量,如图 1 所示。然后,取简支集的个数为 10,从支持向量集中随机抽取部分支持 向量组成 10 个子集,通过式(11)和式(12),求出各子集的简支集优化解。最后,通过函数拟合 方法求得类边界曲线,如图 1 所示。 -1.5 -1 -0.5 0 0.5 1 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 Variable 1 V ariable 2 class margin o class 1 x class 2 reduced set support vectors 图 1 利用简支集确定类边界的例子 Fig.1 Example of determined class boundaries using reduced sets 1.3 质量在线评级与质量指标预测 实现产品质量在线智能判级,首先需将待判样本通过同等缩放后投影到经过训练的工艺参数聚 类图上,并根据映射点的位置选取距该点最近的 K 个训练集中的样本点作为参考样本集。然后,从 质量指标分类图中找出这些参考样本集的类属性,采用 K-邻近分类法(KNN)确定待判样本的类 别。KNN 算法的核心是,一个样本在特征空间中的 K 个邻近样本(参考样本)中的大多数属于某一 个类别,则认为该样本也属于这一类别。由于 KNN 方法对类域存在交叉、重叠的待分样本集来说具 有快捷、准确分类的特点,因此这种方法可以实现产品质量的在线快速判级。 此外,还可以通过非线性回归模型,如核偏最小二乘法、神经元网络、深度学习等方法预测待测 样本的产品质量指标值,并根据 2.2 节中讨论的产品质量指标的类边界,利用综合判定的方法来判 定待测样本的产品质量类别。 基于机器学习的产品质量自动判级过程,包括以下 4 个步骤: 1) 数据采集与预处理:从实际生产线上采集主要工序的工艺参数和质量指标数据,并对样本 集中的数据进行清洗,剔除数据集中缺失数据、异常点等不规范数据; 录用稿件,非最终出版稿
2)工艺参数聚类分析:将采集的高维工艺参数采用多维同等缩放方法映射到低维空间中,通 过软间隔支持向量机实现工艺参数的低维空间的聚类并优化模型参数: 3)确定不同类的边界:将样本的质量指标值映射到质量分布图上,利用简支集分类器确定类 边界(不同产品类的边界),并根据边界曲线划定不同类的上、下限: 4)在线判级和性能预测:将待判样本的工艺参数通过同等缩放投影到低维映射图中,并选取 邻近的K个训练集中的样本点作为参考样本,采用K邻近分类法确定待判样本的类别:通过核回 归、BP网络、LSTM网络(Long Short-Team Memory)等方法预测产品质量指标值,并结合预测值 进行综合判定。 图2给出了基于机器学习的产品质量自动判级过程的流程图。在下章节中, 将讨论质量在线智 能判级和质量指标预测方法的工业应用实例。 Daesand Clustering of process parameters Set up a low dimension feature mapping using MDPS Determining of diverse class margins using reduced set ane up and down limites of quality indexes through class margins On line sampling On-line discrimination and quality predicting using K- process parameters means and machine leaming 图2产岛质量自动判级流程 Fig.2 Workflow for automatic discrimination of product quality 2工业应用实别 下面以汽车用钢为例,讨论运机器学习方法实现产品质量在线判级,以避免发生批量的质量 判废。汽车制造过程中,需要用到还同种类的钢材,其中主要构件的原料是深冲钢(F钢)。这类 钢种属同一大类钢种,其制造艺和过程参数基本一致,主要通过调整部分工艺参数,制造不同性 能的钢种。深冲钢在成形使用中需考虑其冲压性能、力学强度、抗冲击性能等质量要求。主要力学 性能指标包括:屈服强度抗拉强度、延伸率、塑性应变比等。深冲钢生产过程中主要涉及炼钢、热轧、 冷轧和热处理等工序不同工序需严格控制相应的工艺参数才能制造出客户所要求的产品质量。炼 钢工序应控制给炼过程中钢坯的主要成分:碳C、锰M、磷P、硫S等元素的质量分数:热轧工序: 加热炉出口温度,精轧入口温度、精轧出口温度、卷取温度等:冷轧工序:冷轧压下率;热处理工序: 加热平均温度、均热平均温度、快冷出口温度、时效出口温度、缓冷出口温度等。 为了分析不同等级汽车钢板在各制造过程中工艺参数的分布规律,从某钢铁企业实际生产线上 获取深冲钢系列的DC04、DC05和DC06三种牌号的汽车钢生产数据。主要成分和工艺参数名称及统 计量如表1所示。 表1主要工艺参数名称及统计值 Table 1 Major process parameters and statistics Parameter name Max Min Mean STDEV C(%) 0.0028 0.0011 0.0018 0.0004
2) 工艺参数聚类分析:将采集的高维工艺参数采用多维同等缩放方法映射到低维空间中,通 过软间隔支持向量机实现工艺参数的低维空间的聚类并优化模型参数; 3) 确定不同类的边界:将样本的质量指标值映射到质量分布图上,利用简支集分类器确定类 边界(不同产品类的边界),并根据边界曲线划定不同类的上、下限; 4) 在线判级和性能预测:将待判样本的工艺参数通过同等缩放投影到低维映射图中,并选取 邻近的 K 个训练集中的样本点作为参考样本,采用 K-邻近分类法确定待判样本的类别;通过核回 归、BP 网络、LSTM 网络(Long Short-Team Memory)等方法预测产品质量指标值,并结合预测值 进行综合判定。 图 2 给出了基于机器学习的产品质量自动判级过程的流程图。在下章节中,将讨论质量在线智 能判级和质量指标预测方法的工业应用实例。 Data collection and pretreatment Clustering of process parameters Set up a low dimension feature mapping using MDPS Determining of diverse class margins using reduced set and up and down limites of quality indexes through class margins On-line discrimination and quality predicting using Kmeans and machine learning On line sampling process parameters 图 2 产品质量自动判级流程 Fig.2 Workflow for automatic discrimination of product quality 2 工业应用实例 下面以汽车用钢为例,讨论运用机器学习方法实现产品质量在线判级,以避免发生批量的质量 判废。汽车制造过程中,需要用到不同种类的钢材,其中主要构件的原料是深冲钢(IF 钢)。这类 钢种属同一大类钢种,其制造工艺和过程参数基本一致,主要通过调整部分工艺参数,制造不同性 能的钢种。深冲钢在成形与使用中需考虑其冲压性能、力学强度、抗冲击性能等质量要求。主要力学 性能指标包括:屈服强度、抗拉强度、延伸率、塑性应变比等。深冲钢生产过程中主要涉及炼钢、热轧、 冷轧和热处理等工序,不同工序需严格控制相应的工艺参数才能制造出客户所要求的产品质量。炼 钢工序应控制冶炼过程中钢坯的主要成分:碳 C、锰 Mn、磷 P、硫 S 等元素的质量分数;热轧工序: 加热炉出口温度、精轧入口温度、精轧出口温度、卷取温度等;冷轧工序:冷轧压下率;热处理工序: 加热平均温度、均热平均温度、快冷出口温度、时效出口温度、缓冷出口温度等。 为了分析不同等级汽车钢板在各制造过程中工艺参数的分布规律,从某钢铁企业实际生产线上 获取深冲钢系列的 DC04、DC05 和 DC06 三种牌号的汽车钢生产数据。主要成分和工艺参数名称及统 计量如表 1 所示。 表 1 主要工艺参数名称及统计值 Table 1 Major process parameters and statistics Parameter name Max Min Mean STDEV C(%) 0.0028 0.0011 0.0018 0.0004 录用稿件,非最终出版稿
Mn(%) 0.160 0.09 0.1263 0.0154 P(%) 0.014 0.007 0.0099 0.0019 S(%) 0.0139 0.0061 0.00766 0.0019 Exit temperature of heating furnace 1277.30 1247.10 1263.04 5.998 C Entry temperature of finish rolling (C) 1083.94 1014.03 1039.08 9.804 Exit temperature of finish rolling (C) 928.46 898.68 917.17 4.167 Coiling temperature (C) 755.40 654.45 711.70 41.358 Cold-rolled reduction ratio(%) 82.90 65.50 80.49 4.139 heating temperature(C) 85427 786.96 821.91 12.498 Soaking temperature (C) 854.97 789.66 824.27 12.352 Fast-cooling exit temperature(C) 455.73 299.84 431.13 24.296 Aging exit temperature (C) 394.12 287.12 374.52 Slow-cooling exit temperature(C) 676.39 605.97 641.61 三种牌号汽车钢的主要性能指标的行业标准如表2所示,包括:屈服强度(MPa)、 抗拉强度 (MP)、延伸率(%)、塑性应变比等。通常,企业为了提高产品的场竞争力,往往制定比行业标准 更为严格的企业内部质量标准,如某钢铁企业内部标准也在表2中给出。下面按照上一章节所提出 的方法,讨论具体计算过程和分析结果。 表2汽车铜性标的行标/企业内标 Table 2 Industry/internal standard of performance index of Interstitial-Free steel Type Yield strength(MPa)Tensile strength(MPa) Elongation(%)Plastic strain ratio DC04 210/135-160 270-350/260-350 38/40-44 1.7/2.1 DC05 180/125-150 270-330/250-330 40/43-46 2.0/2.2 DC06 170/120-140 270-330/250-330 41/45-48 2.1/2.4 2.1数据采集与清洗 从实际生产线上采集三种牌得深冲钢的269个工艺参数和质量指标值。原始数据集中有24个工 艺参数,其中10个工艺参数余品力学性能无直接关系,因此选择14个相关的参数作为学习样本 集,其工艺参数的统计值在表1中列出。对工艺参数与质量指标作相关分析,发现14个变量中只 有8个变量的相关系数的绝对值较大,其他变量的相关系数的绝对值均小于0.3。相关系数低的原因, 1)该变量与质量指标简设有明显的关联:2)该工艺参数方差很小,对质量指标不会造成影响,如 元素S和P质拿数,加热炉出口温度等没有明显变化。选出的8个关键工艺参数包括,炼钢工序: 碳C、锰M质鼻分数:热轧工序:精轧入口温度、精轧出口温度、卷取温度:冷轧工序:冷轧压下 率:热处理工序:快冷出口温度、缓冷出口温度。 除了选择关键变量外,还需要对样本集中的数据进行清洗,剔除训练样本中存在缺失数据、异 常点等不规范的数据。采用常用的统计分析方法,对269个样本集进行清洗后,发现其中有21个样 本点存在数据缺失,因此剔除这21个样本点,只保留248个样本作为训练样本。 2.2工艺参数聚类分析 为了揭示高维、多重耦合的工艺参数中内在的分布特征,需将高维数据映射到低维子空间来观 察数据内在的结构特征,这种方法也称为数据可视化。分别采用PCA、KPCA和非线性多维同等缩放 算法(MDPS),对248个高维的训练样本数据进行降维,并对二维数据进行聚类,分析不同降维 算法的效果和聚类精度
Mn(%) 0.160 0.09 0.1263 0.0154 P(%) 0.014 0.007 0.0099 0.0019 S(%) 0.0139 0.0061 0.00766 0.0019 Exit temperature of heating furnace (°C) 1277.30 1247.10 1263.04 5.998 Entry temperature of finish rolling (°C) 1083.94 1014.03 1039.08 9.804 Exit temperature of finish rolling (°C) 928.46 898.68 917.17 4.167 Coiling temperature (°C) 755.40 654.45 711.70 41.358 Cold-rolled reduction ratio (%) 82.90 65.50 80.49 4.139 heating temperature(°C) 854.27 786.96 821.91 12.498 Soaking temperature (°C) 854.97 789.66 824.27 12.352 Fast-cooling exit temperature(°C) 455.73 299.84 431.13 24.296 Aging exit temperature (°C) 394.12 287.12 374.52 12.299 Slow-cooling exit temperature(°C) 676.39 605.97 641.61 11.280 三种牌号汽车钢的主要性能指标的行业标准如表 2 所示,包括:屈服强度(MPa)、抗拉强度 (MPa)、延伸率(%)、塑性应变比等。通常,企业为了提高产品的市场竞争力,往往制定比行业标准 更为严格的企业内部质量标准,如某钢铁企业内部标准也在表 2 中给出。下面按照上一章节所提出 的方法,讨论具体计算过程和分析结果。 表 2 汽车钢性能指标的行标/企业内标 Table 2 Industry /internal standard of performance index of Interstitial-Free steel Type Yield strength (MPa) Tensile strength(MPa) Elongation (%) Plastic strain ratio DC04 210/135-160 270-350/260-350 38/40-44 1.7/2.1 DC05 180/125-150 270-330/250-330 40/43-46 2.0/2.2 DC06 170/120-140 270-330/250-330 41/45-48 2.1/2.4 2.1 数据采集与清洗 从实际生产线上采集三种牌号深冲钢的 269 个工艺参数和质量指标值。原始数据集中有 24 个工 艺参数,其中 10 个工艺参数与产品力学性能无直接关系,因此选择 14 个相关的参数作为学习样本 集,其工艺参数的统计值已在表 1 中列出。对工艺参数与质量指标作相关分析,发现 14 个变量中只 有 8 个变量的相关系数的绝对值较大,其他变量的相关系数的绝对值均小于 0.3。相关系数低的原因, 1)该变量与质量指标间没有明显的关联;2)该工艺参数方差很小,对质量指标不会造成影响,如 元素 S 和 P 质量分数,加热炉出口温度等没有明显变化。选出的 8 个关键工艺参数包括,炼钢工序: 碳 C、锰 Mn 质量分数;热轧工序:精轧入口温度、精轧出口温度、卷取温度;冷轧工序:冷轧压下 率;热处理工序:快冷出口温度、缓冷出口温度。 除了选择关键变量外,还需要对样本集中的数据进行清洗,剔除训练样本中存在缺失数据、异 常点等不规范的数据。采用常用的统计分析方法,对 269 个样本集进行清洗后,发现其中有 21 个样 本点存在数据缺失,因此剔除这 21 个样本点,只保留 248 个样本作为训练样本。 2.2 工艺参数聚类分析 为了揭示高维、多重耦合的工艺参数中内在的分布特征,需将高维数据映射到低维子空间来观 察数据内在的结构特征,这种方法也称为数据可视化。分别采用 PCA、KPCA 和非线性多维同等缩放 算法(MDPS),对 248 个高维的训练样本数据进行降维,并对二维数据进行聚类,分析不同降维 算法的效果和聚类精度。 录用稿件,非最终出版稿
首先,需优化非线性多维同等缩放算法的核参数,图3给出了径向基核参数σ在0.1-6.0之间所 对应的累积误差。由于L)矩阵具有半正定特征,对应的特征值入=0,且≥≥…≥,所以 累积误差为负值。从图3中可以看出,当核参数σ取2.0时累积误差最小。图4分别给出两种不同方 法降维后,2D的映射图及聚类的结果。 Kernel parameter 图3核参数取不同值时累积误差分布图 Fig.3 Accumulated error with different kernel paramete 为了便于比较,这两种方法均将选出的8个关键变量经标准化处理后, 提取4个特征向量,并 将其中特征值最大的2个特征向量作为2D数据的主成分轴。 +class 1 o:calss 2 *class 3 t++ ++ feature vector 1 Feature vector 1 (a)线性PCA方法(using PCA) (b)非线性多维同等缩放方法(using MDPS) 图4两种不铜方法降维后的工艺参数聚类图 Fig.4The parameter distribution after reduction using PCA and MDPS 从图4中可以看出,采用线性PCA方法的聚类图中(图4a),不同工艺参数的类边界存在较 大的重叠区域,且同一类数锯分布较为分散,这将造成质量判级时误判。采用非线性同等缩放方法 获得的聚类图中(图4b)3类工艺参数的类边界清晰可分,类内样本相对集中。表3给出了用3 种不同降维方法(PCA KPCA和MDPS)并对降维数据进行K-均值聚类,关键工艺参数的类均值和类 内样本方差。 对不同类的训练样本的质量指标值的类间距离及类内方差数据进行对比分析,说明了非线性同 等缩放降维方法武子线性PCA和非线性KPCA方法,且与表2中给出的F钢的质量指标分类标准 基本上一致。通过这个实例分析说明,选择合适的聚类方法(如非线性同等缩放的聚类方法)对工 艺参数进行聚类,属同一类的工艺参数与其所属类的质量指标有密切的对应关系。通常,机器学习 方法在工业中的应用,其主要目的是建立工艺参数与质量指标间的映射关系,即建立工艺参数-产 品质量间的数字孪生模型,并通过数字李生模型对产品质量实现在线管控。 表3三种方法工艺数类中心/类内方数据 Table 3 Class center/mean square error of quality indexes using 3 methods Quality indexes Class1(DC06) Class2(DC05) Class3(DC04) Yield strength(MPa) CPA 134.85/8.04141.65/7.63 147.30/6.26
首先,需优化非线性多维同等缩放算法的核参数,图 3 给出了径向基核参数 σ 在 0.1-6.0 之间所 对应的累积误差。由于 L(K)矩阵具有半正定特征,对应的特征值 1 0 ,且 2 3 n ,所以 累积误差为负值。从图 3 中可以看出,当核参数 σ 取 2.0 时累积误差最小。图 4 分别给出两种不同方 法降维后,2D 的映射图及聚类的结果。 0 1 2 3 4 5 6 -160 -140 -120 -100 -80 -60 -40 -20 0 Kernel parameter Accumulated error 图 3 核参数取不同值时累积误差分布图 Fig.3 Accumulated error with different kernel parameter 为了便于比较,这两种方法均将选出的 8 个关键变量经标准化处理后,提取 4 个特征向量,并 将其中特征值最大的 2 个特征向量作为 2D 数据的主成分轴。 -5 -4 -3 -2 -1 0 1 2 3 -4 -3 -2 -1 0 1 2 3 4 5 6 feature vector 1 feature vector 2 +: class 1 o: calss 2 *: class 3 -1.5 -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 1.5 2 Feature vector 1 Feature vector 2 +: class 1 o: class 2 *: class 3 (a)线性 PCA 方法 ( using PCA) (b)非线性多维同等缩放方法(using MDPS) 图 4 两种不同方法降维后的工艺参数聚类图 Fig.4 The parameter distribution after reduction using PCA and MDPS 从图 4 中可以看出,采用线性 PCA 方法的聚类图中(图 4a),不同工艺参数的类边界存在较 大的重叠区域,且同一类数据分布较为分散,这将造成质量判级时误判。采用非线性同等缩放方法 获得的聚类图中(图 4b),3 类工艺参数的类边界清晰可分,类内样本相对集中。表 3 给出了用 3 种不同降维方法(PCA、KPCA 和 MDPS)并对降维数据进行 K-均值聚类,关键工艺参数的类均值和类 内样本方差。 对不同类的训练样本的质量指标值的类间距离及类内方差数据进行对比分析,说明了非线性同 等缩放降维方法优于线性 PCA 和非线性 KPCA 方法,且与表 2 中给出的 IF 钢的质量指标分类标准 基本上一致。通过这个实例分析说明,选择合适的聚类方法(如非线性同等缩放的聚类方法)对工 艺参数进行聚类,属同一类的工艺参数与其所属类的质量指标有密切的对应关系。通常,机器学习 方法在工业中的应用,其主要目的是建立工艺参数与质量指标间的映射关系,即建立工艺参数-产 品质量间的数字孪生模型,并通过数字孪生模型对产品质量实现在线管控。 表 3 三种方法工艺参数类中心/类内方差数据 Table 3 Class center / mean square error of quality indexes using 3 methods Quality indexes Class1(DC06) Class2(DC05) Class3(DC04) Yield strength (MPa) CPA 134.85/8.04 141.65/7.63 147.30/6.26 录用稿件,非最终出版稿
KCPA 127.53/5.55 138.83/7.77 143.37/8.26 MOPS 127.53/5.55 135.62/6.03 146.81/6.45 CPA 287.5/6.67 290.01/8.20 295.40/8.16 Tensile strength (MPa) KCPA 280.2/6.30 292.10/7.45 291.58/7.48 MOPS 280.2/6.30 289.71/5.64 293.7/8.31 CPA 45.73/1.94 44.88/2.32 44.26/2.52 Elongation (% KCPA 46.45/1.77 44.69/2.18 45.13/2.36 MOPS 46.45/1.77 45.54/1.99 44.44/2.42 CPA 2.93/0.200 2.83/0.218 2.74/0.200 Plastic strain ratio KCPA 3.02/0.148 2.87/0.194 2.81/0.231 DPS3.02/0.148 2.91/0.195 2.76/0.200 从表3中可以看出,类1与DC06,类2与DC05,类3与DC04钢种相对@3另处,从表3中还 可以看出,所有训练样本的抗拉强度、塑性应变比这两个指标都在行业和企业内标要求范围,但延 伸率、屈服强度对不同牌号有较大差异。 23产品质量在线判级和性能预测 质量在线智能判级需建立工艺参数与质量指标之间映射关系。賞先,对工艺参数进行聚类,确 定每个训练样本的类别,并给出训练样本的分类标记。然后,将标纪样本的质量指标值映射到质量 分布图上,并根据样本的标记类别划定不同产品类的边界。图5给出了248个训练样本中,采用2.2 节给出的非线性同等缩放降维和K-均值聚类后,标记样本的质量指标分布图。由于抗拉强度、塑性 应变比这两个指标所有样本均满足质量标准要求,因此在图中仅给出延伸率、屈服强度的质量指 标分布情况。在获得质量分布图后,可以采用式(8的软间隔支持向量机求出类边缘的支持向量集。 然后,由式(12)给出简支集分类器所确定的类边界。 O:class 3 s margin classs margin 用 50 Elongation(%) 图5标记样本的质量指标分布图 Fig.5 The quality indexes distribution of labeled samples 为了便子卖际工业应用,将图5中曲线边界简化为线性(矩形)边界,如图6所示。在图6中, 质量分布的类边界线划定了不同类的质量指标上下限。如果将工艺参数确定的质量类别与钢种标准 确定的类别作对比,可以看出:类1(钢种DC06)延伸率的下限为45%,屈服强度的上限为 135MPa:类2(钢种DC05)延伸率的下限为43%,屈服强度的上限为145MPa:类3(钢种 DC04)延伸率的下限为40%,屈服强度的上限为160MP。对照表2给出的汽车钢企业内部标准, 上述方法所确定的上下限与表2的内部标准是一致的。唯一的差异是DC06和DC05这两类钢种的屈 服强度的上限减少5MP,这比企业制定的内标还要严格,以确保产品质量的合格率。但是,有7个 属于类型2的样本在DC05控制限外(如图6所示),因此视为错误分类,整体分类的准确率为 97.2%。需要说明,由于钢种的质量标准上下限原因,如DC04的屈服强度范围为135
KCPA 127.53/5.55 138.83/7.77 143.37/8.26 MDPS 127.53/5.55 135.62/6.03 146.81/6.45 Tensile strength(MPa) CPA 287.5/6.67 290.01/8.20 295.40/8.16 KCPA 280.2/6.30 292.10/7.45 291.58/7.48 MDPS 280.2/6.30 289.71/5.64 293.7/8.31 Elongation (%) CPA 45.73/1.94 44.88/2.32 44.26/2.52 KCPA 46.45/1.77 44.69/2.18 45.13/2.36 MDPS 46.45/1.77 45.54/1.99 44.44/2.42 Plastic strain ratio CPA 2.93/0.200 2.83/0.218 2.74/0.200 KCPA 3.02/0.148 2.87/0.194 2.81/0.231 MDPS 3.02/0.148 2.91/0.195 2.76/0.200 从表 3 中可以看出,类 1 与 DC06,类 2 与 DC05,类 3 与 DC04 钢种相对应。另外,从表 3 中还 可以看出,所有训练样本的抗拉强度、塑性应变比这两个指标都在行业和企业内标要求范围,但延 伸率、屈服强度对不同牌号有较大差异。 2.3 产品质量在线判级和性能预测 质量在线智能判级需建立工艺参数与质量指标之间映射关系。首先,对工艺参数进行聚类,确 定每个训练样本的类别,并给出训练样本的分类标记。然后,将标记样本的质量指标值映射到质量 分布图上,并根据样本的标记类别划定不同产品类的边界。图 5 给出了 248 个训练样本中,采用 2.2 节给出的非线性同等缩放降维和 K-均值聚类后,标记样本的质量指标分布图。由于抗拉强度、塑性 应变比这两个指标所有样本均满足质量标准要求,因此在图 5 中仅给出延伸率、屈服强度的质量指 标分布情况。在获得质量分布图后,可以采用式(8)的软间隔支持向量机求出类边缘的支持向量集。 然后,由式(12)给出简支集分类器所确定的类边界。 40 42 44 46 48 50 52 54 115 120 125 130 135 140 145 150 155 160 165 Elongation(%) Yield strength(Mpa) classs margin class margin O : class 3 X : class 2 * : class 1 图 5 标记样本的质量指标分布图 Fig.5 The quality indexes distribution of labeled samples 为了便于实际工业应用,将图 5 中曲线边界简化为线性(矩形)边界,如图 6 所示。在图 6 中, 质量分布的类边界线划定了不同类的质量指标上下限。如果将工艺参数确定的质量类别与钢种标准 确定的类别作对比,可以看出:类 1(钢种 DC06)延伸率的下限为 45%,屈服强度的上限为 135MPa;类 2(钢种 DC05)延伸率的下限为 43%,屈服强度的上限为 145MPa;类 3(钢种 DC04)延伸率的下限为 40%,屈服强度的上限为 160MPa。对照表 2 给出的汽车钢企业内部标准, 上述方法所确定的上下限与表 2 的内部标准是一致的。唯一的差异是 DC06 和 DC05 这两类钢种的屈 服强度的上限减少 5MPa,这比企业制定的内标还要严格,以确保产品质量的合格率。但是,有 7 个 属于类型 2 的样本在 DC05 控制限外(如图 6 所示),因此视为错误分类,整体分类的准确率为 97.2% 。 需 要 说 明 , 由 于 钢 种 的 质 量 标 准 上 下 限 原 因 , 如 DC04 的 屈 服 强 度 范 围 为 135- 录用稿件,非最终出版稿
160MPa,DC05的屈服强度范围为125-150MPa,因此类1和类2的样本在DC04和DC05存在重叠 区域,但这并不表明由工艺参数所确定的类被误判。如,DC04中的个别样本点落在DC05区域,可 以被判定为DC05,因为这些样本满足DC05质量指标,同样这些样本也满足DC04质量标准,因此 不会引起客户异议。 oDC04 region DC05 region DC06 region Elongation(%) 图6三种钢种的质量指标的上下限 Fig.6 The up and down limits of quality indexes for 3 steel type 为了检验在线自动判级的准确性,表4给出采用不同判级和性能预测方法的计算结果。采用如 下6种方法: 1)BP网络:数据经过标准化处理后,输入到BP网绍,网络输入层为8个变量(工艺参数), 隐含层20个节点,输出层为4个变量(质量指标) 预侧质量指标值,并根据预测值对标图6的 上、下限范围对待测样本进行判级: 2)长短时记忆网络(LSTM):LSTM网络要拥于序列数据的预测和分类,本案例中采用 遗忘门、输入门、输出门以及2层隐含层和32个隐含节点建立全连接网络,通过预测质量指标值, 并根据预测值和质量指标的范围对待测样本进行判级: 3)核偏最小二乘法(KPLS):采用高斯核函数,通过非线性降维,取4个主成分,建立回 归方程来预测质量指标,并根据预测值和质量指标的范围对待测样本进行判级: 4)偏最小二乘法(PLS):采用传统的线性降维方法,取4个主成分建立回归方程来预测质 量指标值,并根据预测值对待测样本进行判级,过程与KPLS方法相似: 5)KNN+统计平均法:J工艺参数通过同等缩放投影到低维映射图中,并选取邻近的7个训练 集中的参考样本,计算参考样的质量指标的平均值来确定待测样本的类别: 6) 综合分类法Synthesis)通过对LSTB、BP与KPLS、KNN四种方法所确定类别进行综合评 判,将占多数的类别判定结果作为最终判定的类。 在这6种分级法中,BP网络、LSTM、核偏最小二乘法、偏最小二乘法属于全域分类法, KNN+统计平法属局域分类方法。全域分类是根据质量参数的整个分布域,建立分类模型。局域分 类将类域划分为若千子域,根据子区域内样本的属性来确定待测样本的所属类,如“KNN+统计平 均法”是采用K个最邻近样本的质量指标的统计平均值作为判据。 为了检验方法的有效性,从生产线另外采集100个样本的工艺参数与实测质量指标,通过前面 给出的方法对待测样本进行判级,结果如表4所示。从表4中可以看出,由于综合分类法集成了4 种算法的各自优点,综合分类法的判级准确率为96%。在4%的误差中,其中一半以上的错误判级是 将合格的产品误判为不合格产品。 表4不同判级和性能预测方法的计算结果 Table 4 Calculating results of discrimination and predicting quality index using different method BP LSTM KPLS PLS KNN Synthesis
160MPa,DC05 的屈服强度范围为 125-150MPa,因此类 1 和类 2 的样本在 DC04 和 DC05 存在重叠 区域,但这并不表明由工艺参数所确定的类被误判。如,DC04 中的个别样本点落在 DC05 区域,可 以被判定为 DC05,因为这些样本满足 DC05 质量指标,同样这些样本也满足 DC04 质量标准,因此 不会引起客户异议。 40 42 44 46 48 50 52 54 115 120 125 130 135 140 145 150 155 160 165 Elongation(%) Yield strength(Mpa) DC06 region DC05 region DC04 region Misclassification samples 图 6 三种钢种的质量指标的上下限 Fig.6 The up and down limits of quality indexes for 3 steel types 为了检验在线自动判级的准确性,表 4 给出采用不同判级和性能预测方法的计算结果。采用如 下 6 种方法: 1) BP 网络:数据经过标准化处理后,输入到 BP 网络,网络输入层为 8 个变量(工艺参数), 隐含层 20 个节点,输出层为 4 个变量(质量指标),预测质量指标值,并根据预测值对标图 6 的 上、下限范围对待测样本进行判级; 2) 长短时记忆网络(LSTM):LSTM 网络主要用于序列数据的预测和分类,本案例中采用 遗忘门、输入门、输出门以及 2 层隐含层和 32 个隐含节点建立全连接网络,通过预测质量指标值, 并根据预测值和质量指标的范围对待测样本进行判级; 3) 核偏最小二乘法(KPLS):采用高斯核函数,通过非线性降维,取 4 个主成分,建立回 归方程来预测质量指标,并根据预测值和质量指标的范围对待测样本进行判级; 4) 偏最小二乘法(PLS):采用传统的线性降维方法,取 4 个主成分建立回归方程来预测质 量指标值,并根据预测值对待测样本进行判级,过程与 KPLS 方法相似; 5) KNN+统计平均法:工艺参数通过同等缩放投影到低维映射图中,并选取邻近的 7 个训练 集中的参考样本,计算参考样本的质量指标的平均值来确定待测样本的类别; 6) 综合分类法(Synthesis):通过对 LSTB、BP 与 KPLS、KNN 四种方法所确定类别进行综合评 判,将占多数的类别判定结果作为最终判定的类。 在这 6 种分级方法中,BP 网络、LSTM、核偏最小二乘法、偏最小二乘法属于全域分类法, KNN+统计平均法属局域分类方法。全域分类是根据质量参数的整个分布域,建立分类模型。局域分 类将类域划分为若干子域,根据子区域内样本的属性来确定待测样本的所属类,如“KNN+统计平 均法”是采用 K 个最邻近样本的质量指标的统计平均值作为判据。 为了检验方法的有效性,从生产线另外采集 100 个样本的工艺参数与实测质量指标,通过前面 给出的方法对待测样本进行判级,结果如表 4 所示。从表 4 中可以看出,由于综合分类法集成了 4 种算法的各自优点,综合分类法的判级准确率为 96%。在 4%的误差中,其中一半以上的错误判级是 将合格的产品误判为不合格产品。 表 4 不同判级和性能预测方法的计算结果 Table 4 Calculating results of discrimination and predicting quality index using different method BP LSTM KPLS PLS KNN Synthesis 录用稿件,非最终出版稿