《工程科学学报》录用稿,https://doi.org/10.13374/i,issn2095-9389.2021.01.04.004©北京科技大学2020 工程科学学报DO: 基于改进降噪自编码器半监督学习模型的热轧带 钢水梁印识别算法1 陈兆宇,荆丰伟”,李杰”,郭强)☒ 1)北京科技大学高效轧制国家工程研究中心,北京100083 ☒通信作者,E-mail:guoqiang@nercar.ustb.edu.cn 摘要水梁印是板坯加热的一种常见问题,造成钢板尺寸和板形缺陷。针对水梁印识别困难臾工作量大问题,本文 提出一种基于改进降噪自编码器半监督学习模型的热轧带钢水梁印识别算法。该算法在降噪编码器(Denoising Auto-encoder,,DAE)的基础上对编码层的每一层添加随机噪声,在隐藏层后添加分类层,对数据添加伪标签,在 解码的同时进行分类训练,使得DE具有半监督学习能力。通过提取热轧带钢粗托出口温度数据中的温差特征,用 相应特征对模型进行训练。实验结果表明,算法能够准确识别出带钢的水梁印,在模型精确度上,与主流分类识别 模型对比,本文提出的模型在带标签样本数量较小时,分类精度相比其他模型高5.0%-10.0%:在带标签样本数量 较大时,提出的模型分类精度达到93.8%,现场能够根据模型的识别结果提高生产效率。 关键词热轧带钢;降噪自编码器:半监督学习:水梁印:加热炉 分类号TP273.5 Recognition Algorithm of Hot Rolled Strip Steel Water Beam Mark Based On Semi-Supervised Learning Model of Improved Denoising Auto-encoder CHEN Zhao-yu,JING Feng-wei LNJlie,GUO Qiang 1)National Engineering Research Center for Advanced Rolling Technology;University of Science and Technology Beijing,100083,China Corresponding author,E-mail guoqia ercar.ustb.edu.cn ABSTRACT Water beam mark is a common problem in slab heating,which causes quality defects on strip steel.In hot strip rolling.the heating quality of slab has an important influence on rolling stability and the quality of finished strip.The water beam mark eaused by heating process and heating equipment is a common defect in slab heating process.The existence of slab water beam imprint has great influence on the control precision of rolling force and the thickness of finished strip.At present,it is difficult to recognize the water beam mark and the workload is heavy in industry.In order to solve these problems,proposed a recognition algorithm of hot rolled strip steel water beam mark based on semi-supervised learning model of improved Denoising Auto-encoder.On the basis of DAE,random noise was added to each layer of the coding layer, a classification layer was added after the hidden layer and fake labels are added to training data.Ensure that decoding and classification training are carried out at the same time.These methods made the model own the ability of semi-supervised.In 1收稿日期:2021-01-04 基金项目:国家自然科学基金资助项目(51674028)
工程科学学报 DOI: 基于改进降噪自编码器半监督学习模型的热轧带 钢水梁印识别算法1 陈兆宇 1),荆丰伟 1),李 杰 1),郭 强 1) 1)北京科技大学高效轧制国家工程研究中心,北京 100083 通信作者,E-mail: guoqiang@nercar.ustb.edu.cn 摘 要 水梁印是板坯加热的一种常见问题,造成钢板尺寸和板形缺陷。针对水梁印识别困难且工作量大问题,本文 提出一种基于改进降噪自编码器半监督学习模型的热轧带钢水梁印识别算法。该算法在降噪自编码器(Denoising Auto-encoder, DAE)的基础上对编码层的每一层添加随机噪声,在隐藏层后添加分类层,并对数据添加伪标签,在 解码的同时进行分类训练,使得 DAE 具有半监督学习能力。通过提取热轧带钢粗轧出口温度数据中的温差特征,用 相应特征对模型进行训练。实验结果表明,算法能够准确识别出带钢的水梁印,在模型精确度上,与主流分类识别 模型对比,本文提出的模型在带标签样本数量较小时,分类精度相比其他模型高 5.0 %-10.0 %;在带标签样本数量 较大时,提出的模型分类精度达到 93.8 %,现场能够根据模型的识别结果提高生产效率。 关键词 热轧带钢;降噪自编码器;半监督学习;水梁印;加热炉 分类号 TP273.5 Recognition Algorithm of Hot Rolled Strip Steel Water Beam Mark Based On Semi-Supervised Learning Model of Improved Denoising Auto-encoder CHEN Zhao-yu1) , JING Feng-wei1) , LI Jie1) , GUO Qiang 1) 1)National Engineering Research Center for Advanced Rolling Technology; University of Science and Technology Beijing, 100083, China Corresponding author, E-mail: guoqiang@nercar.ustb.edu.cn ABSTRACT Water beam mark is a common problem in slab heating, which causes quality defects on strip steel. In hot strip rolling, the heating quality of slab has an important influence on rolling stability and the quality of finished strip. The water beam mark caused by heating process and heating equipment is a common defect in slab heating process. The existence of slab water beam imprint has great influence on the control precision of rolling force and the thickness of finished strip. At present, it is difficult to recognize the water beam mark and the workload is heavy in industry. In order to solve these problems, proposed a recognition algorithm of hot rolled strip steel water beam mark based on semi-supervised learning model of improved Denoising Auto-encoder. On the basis of DAE, random noise was added to each layer of the coding layer, a classification layer was added after the hidden layer and fake labels are added to training data. Ensure that decoding and classification training are carried out at the same time. These methods made the model own the ability of semi-supervised. In 1收稿日期:2021-01-04 基金项目:国家自然科学基金资助项目(51674028) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.01.04.004 ©北京科技大学 2020 录用稿件,非最终出版稿
this paper,by extracting the feature of temperature difference of strip temperature data at the outlet of roughing mill,this feature was used to train the model.The experimental results showed that the algorithm can accurately recognize the water beam mark of strip steel.And compared with other main stream classification models,the classification accuracy of proposed model is 5.0%-10.0 higher than other models when the number of tags proportions is small,and when the number of tags proportions is large,the accuracy of proposed model is up to 93.8%.According to the result,the production efficiency can be improved by this model KEY WORDS hot rolled strip;denoising auto-encoder,semi-supervised;water beam mark;furnace 近年来,随着带钢热连轧的不断发展,不同钢种、规格的带钢被投入到热连轧生产中。在带钢热 连轧中,板坯的加热质量对轧制稳定性、带钢成品质量有着重要影响,其中由于加热工艺与加热设 备等各方面问题所产生的水梁印是板坯加热过程常见缺陷。板坯水梁印的存在会对粗轧、精轧轧制力 的控制精度及带钢成品厚度等尺寸指标产生较大影响,因此各大钢铁厂对板述是夺存在水梁印的 快速准确识别工作愈加重视。 一般情况下,热连轧产线会配备2-3台步进式加热炉,在步进式如热处中,板坯的支撑和移动 通过炉内固定梁和移动梁的协同配合来完成。板坯在加热炉内的移动依靠加热炉底部可移动步进梁 做周期运动实现,通过顺序控制方式把板坯从装钢侧运到出钢侧、步进式加热炉板坯的运动方式如 图1-所示。移动梁运动形式有上升、前进、下降和后退,板坯在炉内根据移动梁的动作前进或者后 退以满足生产工艺需求山。 Slab Fixed Beam Slab Moving Beam Trajectory Moving Beam Moving Beam Fixed Beam (b) 图1步进式加热内部结构示意图:(a)加热炉左视图:(b)加热炉主视图 Fig.1 Internal structure diagram of walking beam furnace:(a)left view of heating furnace:(b)main view of heating furnace 板坯在加热炉内写固定梁上方垫块直接接触,垫块焊接在固定梁和活动梁内冷却水管上,而冷 却水管内不断通入循环水或汽水混合物进行冷却,导致垫块温度较低,同时在加热过程中固定梁本 身对板坯辐射传热具有遮蔽作用,这些原因导致板坯与垫块的接触处附近不能被很好地加热,加热 终了时在接触处及其附近的局部区域温度相对较低,颜色相对黯淡,形成水梁印。 水梁印在温度数据中显示为多个温度骤降的波谷,图2所示为存在水梁印的粗轧出口温度实测 值
this paper, by extracting the feature of temperature difference of strip temperature data at the outlet of roughing mill, this feature was used to train the model. The experimental results showed that the algorithm can accurately recognize the water beam mark of strip steel. And compared with other main stream classification models, the classification accuracy of proposed model is 5.0 % - 10.0 % higher than other models when the number of tags proportions is small, and when the number of tags proportions is large, the accuracy of proposed model is up to 93.8 %. According to the result, the production efficiency can be improved by this model. KEY WORDS hot rolled strip; denoising auto-encoder; semi-supervised; water beam mark; furnace 近年来,随着带钢热连轧的不断发展,不同钢种、规格的带钢被投入到热连轧生产中。在带钢热 连轧中,板坯的加热质量对轧制稳定性、带钢成品质量有着重要影响,其中由于加热工艺与加热设 备等各方面问题所产生的水梁印是板坯加热过程常见缺陷。板坯水梁印的存在会对粗轧、精轧轧制力 的控制精度及带钢成品厚度等尺寸指标产生较大影响,因此各大钢铁厂对于板坯是否存在水梁印的 快速准确识别工作愈加重视。 一般情况下,热连轧产线会配备 2-3 台步进式加热炉,在步进式加热炉中,板坯的支撑和移动 通过炉内固定梁和移动梁的协同配合来完成。板坯在加热炉内的移动依靠加热炉底部可移动步进梁 做周期运动实现,通过顺序控制方式把板坯从装钢侧运到出钢侧,步进式加热炉板坯的运动方式如 图 1-a 所示。移动梁运动形式有上升、前进、下降和后退,板坯在炉内根据移动梁的动作前进或者后 退以满足生产工艺需求[1]。 图 1 步进式加热炉内部结构示意图:(a)加热炉左视图;(b)加热炉主视图 Fig.1 Internal structure diagram of walking beam furnace:(a) left view of heating furnace; (b) main view of heating furnace 板坯在加热炉内与固定梁上方垫块直接接触,垫块焊接在固定梁和活动梁内冷却水管上,而冷 却水管内不断通入循环水或汽水混合物进行冷却,导致垫块温度较低,同时在加热过程中固定梁本 身对板坯辐射传热具有遮蔽作用,这些原因导致板坯与垫块的接触处附近不能被很好地加热,加热 终了时在接触处及其附近的局部区域温度相对较低,颜色相对黯淡,形成水梁印[2]。 水梁印在温度数据中显示为多个温度骤降的波谷,图 2 所示为存在水梁印的粗轧出口温度实测 值。 录用稿件,非最终出版稿
1060 1040 1020 1000 人 980 960 0 10 20 304050 60 Time/s 图2粗轧出口温度实测数据 Fig.2 Measured data of rough rolling delivery temperature 现代化带钢生产对板坯加热质量要求很高,板坯水梁印较重时, 短鲠高内骤降的温度会严重影 响了精轧入口温度采样,采样温度短时间内急剧波动30℃以上,进之发影响二级头部设定和自动 厚度控制系统(Automatic Gauge Control system,AGC)本体的控制精度, 造成很多产品缺陷和生 产故障。通过开发能够准确、快速、自动识别水梁印的算法,可为生产现场及时排除设备和生产故障 提供帮助,对提高轧制稳定性和产品质量具有重要意义 1水梁印识别算法现状 对于水梁印识别算法,学术界研究较少。在加热炉盈分,肖楠等根据步进式加热炉的过程机理 分析建立钢坯温度数学模型,主要针对水梁在高温段写低温段错开布置的水梁交错技术和添加水梁 垫块两个方法对水梁印的影响进行研究。根据建立的钢坯温度数学模型,对交错技术和不同种类垫 片在加热炉中的应用情况进行数学模拟,计算不同情况下的水梁印,证明卡式垫块对水梁印的改善 效果非常明显,并建议在水梁不交错的情况,采用交错垫块能大幅度降低水梁印,在水梁交错时不 采用垫块交错方式对改善水梁印有较好的效果):陈国锋等在传统钢坯温度数学模型基础上,进一 步研究了炉墙和喷嘴与钢坯之间的连离对水梁印计算的影响,根据钢坯到炉墙和喷嘴的距离计算得 到两个水梁印温度修正因子,衬钢坯温度模拟结果进行修正,提高了水梁印的识别精度仰;孙志斌 等根据水梁相关结构对钢坯温度数紫模拟进行进一步的细化,考虑到了垫块的锚固钉,垫块高度, 垫块底部气隙层厚度, 垫块中心洞等因素对水梁印的影响,进一步提高了水梁印识别精度。建 立数学模型的方法能在一定程度上对水梁印进行识别预测,但是由于采用的数学模型较为简单,对 加热炉的各种参数过杀依赖,对水梁印的识别精度有限。 在精轧部分,王强等通过收集精轧出口厚度数据或者精轧出口温度数据,将按时间分布的数据 转换为按带钢长度分布,对转换后的数据进行快速傅里叶变换,计算厚度或温度变动量的频率成分, 再根据加热炉水梁间距计算对应于该钢卷的水印可能存在的频率,当该频率附近一定范围内数据的 振幅超过指定的阈值时,即可判定水梁印的存在。计算水梁印振动频率的方法虽然同样能够检测 到水梁印的存在,但是由于加热炉到精轧的工序过多,带钢可能受到其他工序的影响,无法精确确 定水梁印的存在。 水梁印的识别工作主要有三个方面的问题。第一,从图2可得,水梁印特征变化较大,同一块 带钢中的水梁印特征都有较大差别,具体的识别工作大多需要依靠现场技术人员按照工作经验进行 主观判别,判别标准统一性差;第二,工业数据具有维数复杂、数据庞大的特点,需要采用人工离 线的方法在工业大数据中进行识别标定,其标定过程工作量巨大。第三,识别标准受到设备和工序 的影响较大,不同现场的识别标准往往存在较大差异
图 2 粗轧出口温度实测数据 Fig.2 Measured data of rough rolling delivery temperature 现代化带钢生产对板坯加热质量要求很高,板坯水梁印较重时,短距离内骤降的温度会严重影 响了精轧入口温度采样,采样温度短时间内急剧波动 30 ℃以上,进一步影响二级头部设定和自动 厚度控制系统(Automatic Gauge Control system,AGC)本体的控制精度,造成很多产品缺陷和生 产故障。通过开发能够准确、快速、自动识别水梁印的算法,可为生产现场及时排除设备和生产故障 提供帮助,对提高轧制稳定性和产品质量具有重要意义。 1 水梁印识别算法现状 对于水梁印识别算法,学术界研究较少。在加热炉部分,肖楠等根据步进式加热炉的过程机理 分析建立钢坯温度数学模型,主要针对水梁在高温段与低温段错开布置的水梁交错技术和添加水梁 垫块两个方法对水梁印的影响进行研究。根据建立的钢坯温度数学模型,对交错技术和不同种类垫 片在加热炉中的应用情况进行数学模拟,计算不同情况下的水梁印,证明卡式垫块对水梁印的改善 效果非常明显,并建议在水梁不交错的情况,采用交错垫块能大幅度降低水梁印,在水梁交错时不 采用垫块交错方式对改善水梁印有较好的效果[3];陈国锋等在传统钢坯温度数学模型基础上,进一 步研究了炉墙和喷嘴与钢坯之间的距离对水梁印计算的影响,根据钢坯到炉墙和喷嘴的距离计算得 到两个水梁印温度修正因子,对钢坯温度模拟结果进行修正,提高了水梁印的识别精度[4];孙志斌 等根据水梁相关结构对钢坯温度数学模拟进行进一步的细化,考虑到了垫块的锚固钉,垫块高度, 垫块底部气隙层厚度,垫块中心孔洞等因素对水梁印的影响,进一步提高了水梁印识别精度[5]。建 立数学模型的方法能在一定程度上对水梁印进行识别预测,但是由于采用的数学模型较为简单,对 加热炉的各种参数过于依赖,对水梁印的识别精度有限。 在精轧部分,王强等通过收集精轧出口厚度数据或者精轧出口温度数据,将按时间分布的数据 转换为按带钢长度分布,对转换后的数据进行快速傅里叶变换,计算厚度或温度变动量的频率成分 , 再根据加热炉水梁间距计算对应于该钢卷的水印可能存在的频率,当该频率附近一定范围内数据的 振幅超过指定的阈值时,即可判定水梁印的存在[6]。计算水梁印振动频率的方法虽然同样能够检测 到水梁印的存在,但是由于加热炉到精轧的工序过多,带钢可能受到其他工序的影响,无法精确确 定水梁印的存在。 水梁印的识别工作主要有三个方面的问题。第一,从图 2 可得,水梁印特征变化较大,同一块 带钢中的水梁印特征都有较大差别,具体的识别工作大多需要依靠现场技术人员按照工作经验进行 主观判别,判别标准统一性差;第二,工业数据具有维数复杂、数据庞大的特点,需要采用人工离 线的方法在工业大数据中进行识别标定,其标定过程工作量巨大。第三,识别标准受到设备和工序 的影响较大,不同现场的识别标准往往存在较大差异。 录用稿件,非最终出版稿
这三个问题中,标定工作量大是工程中最大的问题。传统算法需要大量的人工离线经验对具体 的算法进行识别指导,如果标定工作量不足,得到的识别算法准确率无法满足识别需求。 针对上述问题,在本研究中考虑神经网络相关模型。近些年来神经网络作为机器学习的重要分 支,因在数据处理方面呈现出显着的优势而飞速发展。它通过对模型进行训练,自动提取并不断优 化特征,可快速处理大量数据,拥有更好的性能和更高的精度,现在己有很多神经网络应用于热轧 的案例-山。但是目前的神经网络模型大多为有监督学习模型用于预测识别2),无监督模型6用于 特征提取,很少有专门处理含有少量标定样本的大量数据的半监督学习模型。 目前提出的半监督学习模型,如Ladder Network!)、类别生成对抗网络(Categorical Generative Adversarial Networks,.CAT-GAN)等,在图像识别领域有良好的表现,但是针对数据的半监督学 习却少有研究。 本研究提出一种基于改进降噪自编码器半监督学习模型(Imported Denoising Auto-encoder, Imported-D4E)的热轧带钢水梁印识别算法。通过半监督学习可以有效解决签数是少的问题,利 用少量标定样本和大量无标定样本同时对模型进行训练,使得模型在标签数量较④的情况下具备足 够的学习能力。 水梁印识别算法流程框图如图3所示,首先将采集到的水梁印相送数据进行数据预处理,数据 填充和数据滤波:然后进行特征提取,得到水梁印相关特征数据:进而对特征提取结果进行小样本 标定;之后将包含已标定小样本与大量无标定样本的数据同时对mported-DAE模型进行训练;最 后将训练好的模型作为识别模型进行水梁印识别。 Start Real-time data acquisition Data preprocessing Data filling Data filtering Feature extraction Sample calibration Trained model Model training Water beam mark recognition 录用 End 图3水梁印识别算法流程图 Fig.3 Flow chart of water beam seal recognition algorithm 2改进的降噪自编码器模型设计 2.1自编码器和降噪自编码器原理 自编码器(Auto-Encoder,,AE)是一种无监督模型,可以学习到输入数据的一种特征表示。该 模型的示意图如图4所示。具体来说,AE尝试着去学习一个恒等函数,这个函数包含两部分,编码 器和解码器,AE模型的目的是使得模型的输出值等于或者尽可能地接近于模型的输入值,即X输 入≈Y输出
这三个问题中,标定工作量大是工程中最大的问题。传统算法需要大量的人工离线经验对具体 的算法进行识别指导,如果标定工作量不足,得到的识别算法准确率无法满足识别需求。 针对上述问题,在本研究中考虑神经网络相关模型。近些年来神经网络作为机器学习的重要分 支,因在数据处理方面呈现出显着的优势而飞速发展。它通过对模型进行训练,自动提取并不断优 化特征,可快速处理大量数据,拥有更好的性能和更高的精度,现在已有很多神经网络应用于热轧 的案例[7-11]。但是目前的神经网络模型大多为有监督学习模型用于预测识别[12-15],无监督模型[16]用于 特征提取,很少有专门处理含有少量标定样本的大量数据的半监督学习模型。 目前提出的半监督学习模型,如 Ladder Network[17]、类别生成对抗网络(Categorical Generative Adversarial Networks, CAT-GAN[18])等,在图像识别领域有良好的表现,但是针对数据的半监督学 习却少有研究。 本研究提出一种基于改进降噪自编码器半监督学习模型( Imported Denoising Auto-encoder, Imported-DAE)的热轧带钢水梁印识别算法。通过半监督学习可以有效解决标签数量少的问题,利 用少量标定样本和大量无标定样本同时对模型进行训练,使得模型在标签数量较少的情况下具备足 够的学习能力。 水梁印识别算法流程框图如图 3 所示,首先将采集到的水梁印相关数据进行数据预处理,数据 填充和数据滤波;然后进行特征提取,得到水梁印相关特征数据;进而对特征提取结果进行小样本 标定;之后将包含已标定小样本与大量无标定样本的数据同时对 Imported-DAE 模型进行训练;最 后将训练好的模型作为识别模型进行水梁印识别。 图 3 水梁印识别算法流程图 Fig.3 Flow chart of water beam seal recognition algorithm 2 改进的降噪自编码器模型设计 2.1 自编码器和降噪自编码器原理 自编码器(Auto-Encoder, AE)[19]是一种无监督模型,可以学习到输入数据的一种特征表示。该 模型的示意图如图 4 所示。具体来说,AE 尝试着去学习一个恒等函数,这个函数包含两部分,编码 器和解码器,AE 模型的目的是使得模型的输出值等于或者尽可能地接近于模型的输入值,即 X 输 入 Y 输出。 录用稿件,非最终出版稿
在一个自编码器中,由于只有无标签数据,我们将输入信息输入一个编码器,就会得到一个底 层编码,之后再通过一个解码器,就会得到一个输出信息。通过不断的反向传播来最小化输入信息 和输出信息的误差对模型进行训练,使得输入和输出一样。由于中间层的底层编码能够通过解码器 无损的反编码出输入信息,所以底层编码是一个包含输入信息的所有特征信息且维数较小的输入信 息的另外一个表示,进而达到对输入信息特征提取的目的。 Input Output X2 H 及《以及局 图4自编码器模 AE的编码、解码过程可描述为: 编码过程: =(WX+b) (1) 解码过程: Y=a(W,H+b,) (2) 式中W,b为编码权重和偏置,W2,b为解码权重和偏置,O。为激活函数,目前比较常用 的有sigmoid、tanh、relu等,O,可以是与编码过程o。相同的激活函数,H是隐藏向量。AE的目 的就是要最小化X和Y之间的误差, 般采用均方误差来描述X和Y之间的距离,用每一次训练 的均方误差作为模型的损失函数 J=x(x,Y)=Σy-xE (3) m AE中的参数,即W, 通过对计算过程进行反向传播,最小化目标函数J来学习获得。 DAE20与AE有相同的网绍结构和学习目标,不同的是DAE在训练过程中主动为样本数据添 加随机噪声,如图5所示。 Input Output H Noise o- )
在一个自编码器中,由于只有无标签数据,我们将输入信息输入一个编码器,就会得到一个底 层编码,之后再通过一个解码器,就会得到一个输出信息。通过不断的反向传播来最小化 输入信息 和输出信息的误差对模型进行训练,使得输入和输出一样。由于中间层的底层编码能够通过解码器 无损的反编码出输入信息,所以底层编码是一个包含输入信息的所有特征信息且维数较小的输入信 息的另外一个表示,进而达到对输入信息特征提取的目的。 图 4 自编码器模型 Fig.4 AE model AE 的编码、解码过程可描述为: 编码过程: 1 1 ( ) H W X b e (1) 解码过程: 2 2 ( ) Y W H b d (2) 式中W1 , b1为编码权重和偏置,W2 ,b2 为解码权重和偏置, e 为激活函数,目前比较常用 的有sigmoid 、tanh 、relu 等, d 可以是与编码过程 e 相同的激活函数, H 是隐藏向量。AE 的目 的就是要最小化 X 和Y 之间的误差,一般采用均方误差来描述 X 和Y 之间的距离,用每一次训练 的均方误差作为模型的损失函数。 2 2 1 1 J L X Y Y X ( ( , )) m m (3) AE 中的参数,即W ,b ,通过对计算过程进行反向传播,最小化目标函数 J 来学习获得。 DAE[20]与 AE 有相同的网络结构和学习目标,不同的是 DAE 在训练过程中主动为样本数据添 加随机噪声,如图 5 所示。 录用稿件,非最终出版稿
图5降噪自编码器模型 Fig.5 DAE model DAE的主要目的是提高底层编码对包含噪音的输入信号的鲁棒性。对于训练好的AE模型来说, 如果输入的信息中含有一定量的噪声,最终得到的底层编码无法完整的反编译出输入的信息,既 AE模型本身学习到的输入数据的特征信息容易被噪声所影响。DAE模型通过人为对输入数据加入 一定量的噪声,模拟信息损失的情况,模型降低了对输入信号的依赖性,使得底层编码在学习到输 入的完整信息的同时具有一定的鲁棒性。 2.2改进的降噪自编码器模型 传统的DAE模型并不具备监督学习的能力,由于重构特性,DAE往往用于进行无监督学习、 特征提取或数据生成。本文基于DAE,对编码器模型进行改进,提出Imported-DAE模型。模型结构 如图6所示: Input Labeled error © @ Noise Noise 国 Reconstruction error 非最 图6改进的DAE结构示意图 Fig.6 Improved-DAE structure diagram 典型的无监督学习方法有AE和DAB%由于AE本身的功能是将输入信号转换为隐藏层表达, 使得在经过训练学习后AE的隐藏层能够学习到的输入数据的无损重构信息。所以学习到重构信息 是无监督学习主要目的。 有监督学习与无监督学的还同在于,有监督学习有明确的学习目的,通过对数据人为的附加 标签,可以根据标签对数锯进行分类,预测。根据附加的标签,有监督学习模型通过大量的学习, 网络隐藏层抛弃数据史的部分重构信息,有目的性的学习输入数据具有识别能力的数据特征。所以, 学习到识别特征是有监督学习的主要目的。 而半监督学习则需要同时达到有监督和无监督两种学习的目的,即模型能够同时学习到输入数 据的重构信息和识别特征。 为了使得半监督模型能够学习到具有识别特征的重构信息,本文提出的模型分两部分实现: 第一部分,对输入层和编码层同时加入噪声。DAE虽然也是无监督学习,但是DAE与AE相比, 具有一定的特殊性,由于在输入数据中加入了随机噪声,使得模型在学习过程中被迫降低对输入数 据的依赖性,通过训练调整权重,DAE的隐藏层降低了对重构数据的学习能力,提高了鲁棒性, 其结果是模型不仅能够重构输入数据的信息,同时能够对一定量的噪声进行过滤。按照DAE的原 理,在模型的输入层和编码层同时加入噪声,加大了模型对于噪声的过滤能力,进一步削弱了隐藏 层对重构信息的学习能力。 第二部分,在隐藏层后加入包含softmax激活函数的分类层,由于输入数据中包含部分的标签 信息,隐藏层为了满足标签信息的分类要求,被迫学习数据中的识别特征,进一步的削弱对重构信
图 5 降噪自编码器模型 Fig.5 DAE model DAE 的主要目的是提高底层编码对包含噪音的输入信号的鲁棒性。对于训练好的 AE 模型来说, 如果输入的信息中含有一定量的噪声,最终得到的底层编码无法完整的反编译出输入的信息,既 AE 模型本身学习到的输入数据的特征信息容易被噪声所影响。DAE 模型通过人为对输入数据加入 一定量的噪声,模拟信息损失的情况,模型降低了对输入信号的依赖性,使得底层编码在学习到输 入的完整信息的同时具有一定的鲁棒性。 2.2 改进的降噪自编码器模型 传统的 DAE 模型并不具备监督学习的能力,由于重构特性,DAE 往往用于进行无监督学习、 特征提取或数据生成。本文基于 DAE,对编码器模型进行改进,提出 Imported-DAE 模型。模型结构 如图 6 所示: 图 6 改进的 DAE 结构示意图 Fig.6 Improved-DAE structure diagram 典型的无监督学习方法有 AE 和 DAE,由于 AE 本身的功能是将输入信号转换为隐藏层表达, 使得在经过训练学习后 AE 的隐藏层能够学习到的输入数据的无损重构信息。所以学习到重构信息 是无监督学习主要目的。 有监督学习与无监督学习的不同在于,有监督学习有明确的学习目的,通过对数据人为的附加 标签,可以根据标签对数据进行分类,预测。根据附加的标签,有监督学习模型通过大量的学习, 网络隐藏层抛弃数据中的部分重构信息,有目的性的学习输入数据具有识别能力的数据特征。所以 , 学习到识别特征是有监督学习的主要目的。 而半监督学习则需要同时达到有监督和无监督两种学习的目的,即模型能够同时学习到输入数 据的重构信息和识别特征。 为了使得半监督模型能够学习到具有识别特征的重构信息,本文提出的模型分两部分实现: 第一部分,对输入层和编码层同时加入噪声。DAE 虽然也是无监督学习,但是 DAE 与 AE 相比, 具有一定的特殊性,由于在输入数据中加入了随机噪声,使得模型在学习过程中被迫降低对输入数 据的依赖性,通过训练调整权重,DAE 的隐藏层降低了对重构数据的学习能力,提高了鲁棒性, 其结果是模型不仅能够重构输入数据的信息,同时能够对一定量的噪声进行过滤[21]。按照 DAE 的原 理,在模型的输入层和编码层同时加入噪声,加大了模型对于噪声的过滤能力,进一步削弱了隐藏 层对重构信息的学习能力。 第二部分,在隐藏层后加入包含softmax 激活函数的分类层,由于输入数据中包含部分的标签 信息,隐藏层为了满足标签信息的分类要求,被迫学习数据中的识别特征,进一步的削弱对重构信 录用稿件,非最终出版稿
息的学习能力。 由于以上两步在模型训练过程中是同时进行的,在经过大量的训练后,模型隐藏层能够学习到 具有识别特征的重构信息。 模型训练过程如下: (1)编码过程 模型输入为原始数据Xpm,以图6模型为基准构建网络模型。在编码阶段,对模型输入数据 和编码层的每一层加入随机高斯噪声n,(i=0,1,2.1),得到每一层的有噪声输入: HO)=Xipu+no Z0=o.(W,H-+B,) (4) H0=Z0+n, H0=Z0 其中,n为对输入层输入的噪音,n,为对编码层输入的噪音,W,人B,为编码权重和偏置, G,为激活函数,采用®山作为激活函数,Z0为每层网络层的输出沃为每一层添加噪音后的 输出数据以及下一层的输入数据,H为网络的底层,不添加噪声 (2)解码过程和识别过程 模型输出分为两部分,解码过程的模型重构输出和识别过程的模型分类输出。 解码过程与传统编码器网络的解码层类似: [20-a,(w. H=Z i=1+1,1+2,,21 (5) 解码层的输入为编码层的底层输出H) b为解码权重和偏置,O,为激活函数,采 用relu作为激活函数,解码层最终输出为Yo 识别过程采用神经网络分类模型,在H0后接入一个包含softmax激活函数的神经网络作为分 类层: D=G,(MH()+N) (6) youpu =softmax(D) 式中M,N为神经网络权重和偏置,O,为激活函数,采用elu作为激活函数,神经网络 层输出层D经过一个sofa函数,最终输出为yop。 式中softmax函数如式所示: softmax(D)= eg (7) 其中D,表示第i个节点的输出值,C表示输出节点的个数,即分类类别个数,通过softmax函 数就可以将多分类的输出值转换为范围在[0,]且和为1的概率分布。 (3)损失函数计算 模型的损失分为重构损失和分类损失两个部分。 重构模型采用均方差损失函数(M$E),重构模型的任务是最小化输入样本和重构样本的均方 误差函数: Youpu=g(f(Xmpw)) (8)
息的学习能力。 由于以上两步在模型训练过程中是同时进行的,在经过大量的训练后,模型隐藏层能够学习到 具有识别特征的重构信息。 模型训练过程如下: (1)编码过程 模型输入为原始数据 Xinput ,以图 6 模型为基准构建网络模型。 在编码阶段,对模型输入数据 和编码层的每一层加入随机高斯噪声 ( 0,1,2... ) n i l i ,得到每一层的有噪声输入: (0) 0 ( ) ( 1) ( ) ( ) ( ) ( ) ( ) 1,2,..., input i i e i i i i i l l H X n Z W H B i l H Z n H Z (4) 其中, 0 n 为对输入层输入的噪音, i n 为对编码层输入的噪音,Wi , Bi 为编码权重和偏置, e 为激活函数,采用 relu 作为激活函数, ( )i Z 为每层网络层的输出, ( )i H 为每一层添加噪音后的 输出数据以及下一层的输入数据, ( )l H 为网络的底层,不添加噪声。 (2)解码过程和识别过程 模型输出分为两部分,解码过程的模型重构输出和识别过程的模型分类输出。 解码过程与传统编码器网络的解码层类似: ( ) ( 1) ( ) ( ) (2 ) ( ) 1, 2,...,2 i i d i i i i l output Z w H b H Z i l l l Y H (5) 解码层的输入为编码层的底层输出 ( )l H ,式中 wi ,bi 为解码权重和偏置, d 为激活函数,采 用 relu 作为激活函数,解码层最终输出为Youtput 。 识别过程采用神经网络分类模型,在 ( )l H 后接入一个包含softmax 激活函数的神经网络作为分 类层: ( ) ( ) softmax( ) l f output D MH N y D (6) 式中 M , N 为神经网络层权重和偏置, f 为激活函数,采用 relu 作为激活函数,神经网络 层输出层 D 经过一个softmax 函数,最终输出为 output y 。 式中softmax 函数如式所示: 1 softmax( ) i c D i C D c e D e (7) 其中 Di 表示第i 个节点的输出值,C 表示输出节点的个数,即分类类别个数,通过 softmax 函 数就可以将多分类的输出值转换为范围在[0,1] 且和为 1 的概率分布。 (3)损失函数计算 模型的损失分为重构损失和分类损失两个部分。 重构模型采用均方差损失函数(MSE),重构模型的任务是最小化输入样本和重构样本的均方 误差函数: 2 2 1 ( ( )) 1 output input N MSE input output i Y g f X Loss X Y N (8) 录用稿件,非最终出版稿
其中f(x)代表编码函数,g(x)表示解码函数,N表示样本数据数量,LOSSMSE表示均方误差 损 分类模型采用交叉熵损失函数(CEL),分类模型的任务是最小化带标签数据分类输出和分类 标签的交叉熵函数: Losa=-∑y.ml1og0ya)-∑(l-y)logl-ya) (9) 其中,y表示分类模型输出,ya表示数据标签,N表示样本数据数量,LOSSCEL表示交 叉熵损失。 模型的总损失函数LosS=LOSSMSE+LOSSCEL,通过反向模型的不断训练,最小化损失函数 得到最终训练好的模型。 3实验过程 通过国内某钢厂的采集的带钢的粗轧出口温度数据作为实验数据进行 乳出口温度数据 为模型输入。 3.1不同位置加入噪声对模型的影响 输入层和编码层加入的噪声是模型的重要部分,现通过实验对加X噪声对模型的影响进行测试。 对比不同位置加入噪声对模型的影响,以是否加入噪声作为标谁、对网络输入层和编码层加入 均值为0,方差为1的噪声测试模型在不同标签占比下的准确率,测试结果如表1所示: 表1不同位置添加噪音的精度结果 Table 1 Accuracy results of adding noise atdifferent layers Experiment condition 1% 2% 5% 10% 33% 50% Input layer no noise 73.25% 78.80% 79200% 86.00% 8920% 91.20% Encode layer no noise Input layer add noise 73.50% 80.00% 82.20% 88.60% 90.20% 92.00% Encode layer no noise Input layer no noise 67.50% 79.80% 80.40% 81.20% 87.20% 90.60% 91.60% Encode layer add noise Input layer add noise 75.75% 83.80% 83.20% 89.40% 91.60% 93.80% Encode layer add noise 从表二可得, 相比于其他 咖噪声的方法,在输入层和编码层同时加入噪声能够得到较高的模 型准确率。 3.2不同噪声对模型的影响 为验证不同的输入噪声对模型的影响,以输入噪声的均值和方差作为参数,对模型的输入层和 编码层分别进行测试, 对比不同噪声在不同标签占比下的模型准确率。实验过程如表2所示: 表2噪声实验流程 Table 2 Noise experiment process Experiment Input layer Input layer Encode layer Encode layer number mean variance mean variance (a) change 1 0 (b) 0 change 0 (c) 0 change 1 (d) 0 0 change 实验结果如图7所示:
其中 f x( ) 代表编码函数, g x( ) 表示解码函数, N 表示样本数据数量, LossMSE 表示均方误差 损失。 分类模型采用交叉熵损失函数(CEL),分类模型的任务是最小化带标签数据分类输出和分类 标签的交叉熵函数: 1 1 log( ) (1 )log(1 ) N N CEL output hat output hat i i Loss y y y y (9) 其中, output y 表示分类模型输出, hat y 表示数据标签, N 表示样本数据数量, LossCEL 表示交 叉熵损失。 模型的总损失函数 Loss Loss Loss Total MSE CEL ,通过反向模型的不断训练,最小化损失函数 得到最终训练好的模型。 3 实验过程 通过国内某钢厂的采集的带钢的粗轧出口温度数据作为实验数据进行实验,粗轧出口温度数据 为模型输入。 3.1 不同位置加入噪声对模型的影响 输入层和编码层加入的噪声是模型的重要部分,现通过实验对加入噪声对模型的影响进行测试。 对比不同位置加入噪声对模型的影响,以是否加入噪声作为标准,对网络输入层和编码层加入 均值为 0,方差为 1 的噪声测试模型在不同标签占比下的准确率,测试结果如表 1 所示: 表 1 不同位置添加噪音的精度结果 Table 1 Accuracy results of adding noise at different layers Experiment condition 1 % 2 % 5 % 6 % 10 % 33 % 50 % Input layer no noise Encode layer no noise 73.25 % 78.80 % 79.20 % 80.40 % 86.00 % 89.20 % 91.20 % Input layer add noise Encode layer no noise 73.50 % 80.00 % 82.00 % 82.20 % 88.60 % 90.20 % 92.00 % Input layer no noise Encode layer add noise 67.50 % 79.80 % 80.40 % 81.20 % 87.20 % 90.60 % 91.60 % Input layer add noise Encode layer add noise 75.75 % 81.20 % 83.80 % 83.20 % 89.40 % 91.60 % 93.80 % 从表二可得,相比于其他添加噪声的方法,在输入层和编码层同时加入噪声能够得到较高的模 型准确率。 3.2 不同噪声对模型的影响 为验证不同的输入噪声对模型的影响,以输入噪声的均值和方差作为参数,对模型的输入层和 编码层分别进行测试,对比不同噪声在不同标签占比下的模型准确率。实验过程如表 2 所示: 表 2 噪声实验流程 Table 2 Noise experiment process Experiment number Input layer mean Input layer variance Encode layer mean Encode layer variance (a) change 1 0 1 (b) 0 change 0 1 (c) 0 1 change 1 (d) 0 1 0 change 实验结果如图 7 所示: 录用稿件,非最终出版稿
100 Proportion=1% --Proportion=1% % *一Pr0p0 rtion=5% Proportion=5% +-Proportion=10% 90 -Proportion=10% 80 一Proportion=50% 日一ProD0rti0n=50% -Variance=1 80 40 0 0 56789101112131415 9101112131415 Mean value (a) 95 Proportion=1% Prooortion=5% *一Pr0p0ton=10% 终的版 0 70 ton10W o0=0 =1 0123456789101112131415 456789101112131415 Mean value Variance (c) (d) 图7噪声对模型准确率影响:(a)输入层只有均值变化:6)输入层只有方差变化:(c)编码层只有均值变化:(@编码层 只弃方差变化 Fig.7 Influence of noise on model accuracy:(a)only the mean value of input layer changes;(b)only the variance of input layer changes;(c)only the mean value ofencode layer changes,(d)only the variance of encode layer changes, 图7中(a),(b),(c),(d为输入层噪声均值,方差,编码层噪声均值,方差,分别对标签占比 为1%,5%,10%和50%四种数据情况的影响。 由图7可以看出,当加入噪声的均值方差在一定范围内变化时,对模型没有太大的影响,模型 准确率在相应范围内波动较这是因为当输入噪声较小时,模型通过不断的训练,能够较好的学 习到输入数据的深层特征,进提高整个模型的抗干扰性:但是随着噪声的均值方差进一步增大,输 入的原始数据逐渐失真,对于输入数据的特征提取能力大幅下降,使得模型的识别率逐渐降低。其 中,由于编码层处网络内部,噪声前后都有一定数量的网络参数,对于噪声的过滤能力较强,所 以在编码层提高噪声强度造成准确率降低的幅度较小,而输入层作为原始输入数据,对噪声敏感性 明显比编码层高, 实验结果表明,由于噪声在小范围内变动不影响模型准确率,但较大噪声的输入会极大影响模 型准确率,故输入层与编码层都采用均值为0,方差为1的高斯噪声作为输入噪声。 3.3模型对比 为了验证Improved-DAE模型的优势,将训练好的模型的编码层与分类层提取出来作为分类器。 以2节中的实验配置按照不同的标签占比,以分类精度为评价标准,与当前主要神经网络分类器模 型进行对比。BP(Back Propagation)神经网络、深度神经网络(Deep Back Propagation,.DBP)与深度置信 网络(Deep Belief Networks,.DBN)2m是传统分类模型,具有良好的识别稳定性,能够保证分类精度, 深度学习长短期记忆网络(Long Short--Term Memory,.LSTM)模型和卷积长短期记忆神经网络
图 7 噪声对模型准确率影响:(a)输入层只有均值变化;(b)输入层只有方差变化;(c)编码层只有均值变化;(d)编码层 只有方差变化 Fig.7 Influence of noise on model accuracy: (a) only the mean value of input layer changes; (b) only the variance of input layer changes; (c) only the mean value of encode layer changes; (d) only the variance of encode layer changes; 图 7 中(a),(b),(c),(d)为输入层噪声均值,方差,编码层噪声均值,方差,分别对标签占比 为 1 %,5 %,10 %和 50 %四种数据情况的影响。 由图 7 可以看出,当加入噪声的均值方差在一定范围内变化时,对模型没有太大的影响,模型 准确率在相应范围内波动较小,这是因为当输入噪声较小时,模型通过不断的训练,能够较好的学 习到输入数据的深层特征,并提高整个模型的抗干扰性;但是随着噪声的均值方差进一步增大,输 入的原始数据逐渐失真,对于输入数据的特征提取能力大幅下降,使得模型的识别率逐渐降低。其 中,由于编码层处于网络内部,噪声前后都有一定数量的网络参数,对于噪声的过滤能力较强,所 以在编码层提高噪声强度造成准确率降低的幅度较小,而输入层作为原始输入数据,对噪声敏感性 明显比编码层高。 实验结果表明,由于噪声在小范围内变动不影响模型准确率,但较大噪声的输入会极大影响模 型准确率,故输入层与编码层都采用均值为 0,方差为 1 的高斯噪声作为输入噪声。 3.3 模型对比 为了验证 Improved-DAE 模型的优势,将训练好的模型的编码层与分类层提取出来作为分类器。 以 2 节中的实验配置按照不同的标签占比,以分类精度为评价标准,与当前主要神经网络分类器模 型进行对比。BP(Back Propagation)神经网络、深度神经网络(Deep Back Propagation, DBP)与深度置信 网络(Deep Belief Networks, DBN)[22]是传统分类模型,具有良好的识别稳定性,能够保证分类精度, 深度学习长短期记忆网络(Long Short-Term Memory, LSTM) [23]模型和卷积长短期记忆神经网络 录用稿件,非最终出版稿
(Convolutional Neural Networks-Long Short Term Memory,CNN-LSTM)24-2模型是目前具有较高的分 类精度的算法,广泛应用于数据预测和数据分类。实验结果如下表3所示: 表3不同标签占比下不同神经网络分类精度 Table 3 Classification accuracy of different neural networks under different tag proportions Model 1% 2% 5% 6% 10% 33% 50% BP 64.20% 71.60% 77.80% 80.80% 89.40% 91.40% 92.00% DBP 69.80% 69.00% 75.60% 81.20% 84.20% 91.20% 92.60% DBN 65.40% 77.60% 77.20% 81.20% 89.40% 91.40% 91.60% LSTM 73.20% 74.60% 78.00% 84.80% 93.80% CNN-LSTM 78.80% 80.20% 87.40% 89.80% 94.40% Improved-DAE 75.75% 81.20% 83.60% 83.20% 89.70% 乳叹% 93.80% 深度学习LSTM模型和CNN+LSTM模型在标签占比只有1%和2%情况不并不具备分类能力。 结果显示,与其他分类模型相比,本文提出的改进降噪自编码器模型在标签占化较小的情况下,即 半监督条件下对数据的分类更加准确,相比其他算法, 识别准确率高5% 0%: 在标签数量增多 时,即监督条件下对数据的分类同样拥有较高的准确率,达到93.8Q%。 3.4现场实验 针对国内某2032热连轧生产线出现的批量厚度控制精度问题,用提出的模型对其成因进行实验。 该热轧产线出现的批量厚度控制精度问题,主要表现在 带钢头部厚度命中率过低,带钢本体厚 度波动较为明显。粗轧出口实测温度如图8所示, 精轧出 测厚度如图9所示: 1055 1050 1045 C 040 050 1035 1040 1030 s心得高件, 1025 1030 1020 1020 1015 101 1010 0 10152025 30 35 4045 Lenth /m (b) 轧出口温度数据:(a)带钢头部温度:(b)带钢全长温度 ugh rolling delivery temperature(a)temperature of strip head:(b)total strip temperature 5.2 Measured thickness -Measured thickness Setting thickness Setting thickness 515 5.1 25.05 5.05 4.95 4.95 20 40 60 100 0 50100150200250300350400450 Lenth /m Lenth /m a (b)
(Convolutional Neural Networks-Long Short Term Memory, CNN-LSTM) [24-27]模型是目前具有较高的分 类精度的算法,广泛应用于数据预测和数据分类。实验结果如下表 3 所示: 表 3 不同标签占比下不同神经网络分类精度 Table 3 Classification accuracy of different neural networks under different tag proportions Model 1 % 2 % 5 % 6 % 10 % 33 % 50 % BP 64.20 % 71.60 % 77.80 % 80.80 % 89.40 % 91.40 % 92.00 % DBP 69.80 % 69.00 % 75.60 % 81.20 % 84.20 % 91.20 % 92.60 % DBN 65.40 % 77.60 % 77.20 % 81.20 % 89.40 % 91.40 % 91.60 % LSTM _ _ 73.20 % 74.60 % 78.00 % 84.80 % 93.80 % CNN-LSTM _ _ 78.80 % 80.20 % 87.40 % 89.80 % 94.40 % Improved-DAE 75.75 % 81.20 % 83.60 % 83.20 % 89.70 % 91.60 % 93.80 % 深度学习 LSTM 模型和 CNN+LSTM 模型在标签占比只有 1 %和 2 %情况下并不具备分类能力。 结果显示,与其他分类模型相比,本文提出的改进降噪自编码器模型在标签占比较小的情况下,即 半监督条件下对数据的分类更加准确,相比其他算法,识别准确率高 5 %-10 %;在标签数量增多 时,即监督条件下对数据的分类同样拥有较高的准确率,达到 93.80 %。 3.4 现场实验 针对国内某 2032 热连轧生产线出现的批量厚度控制精度问题,用提出的模型对其成因进行实验。 该热轧产线出现的批量厚度控制精度问题,主要表现在带钢头部厚度命中率过低,带钢本体厚 度波动较为明显。粗轧出口实测温度如图 8 所示,精轧出口实测厚度如图 9 所示: 图 8 粗轧出口温度数据:(a)带钢头部温度;(b)带钢全长温度 Fig.8 Measured data of rough rolling delivery temperature(a) temperature of strip head; (b) total strip temperature 录用稿件,非最终出版稿