工程科学学报 Chinese Journal of Engineering 基于集成神经网络的剩余寿命预测 张永峰陆志强 Remaining useful life prediction based on an integrated neural network ZHANG Yong-feng.LU Zhi-qiang 引用本文: 张永峰.陆志强.基于集成神经网络的剩余寿命预测.工程科学学报,2020,42(10):1372-1380.doi:10.13374.issn2095- 9389.2019.10.10.005 ZHANG Yong-feng.LU Zhi-giang.Remaining useful life prediction based on an integrated neural network[J].Chinese Journal of Engineering,2020,42(10):1372-1380.doi10.13374j.issn2095-9389.2019.10.10.005 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2019.10.10.005 您可能感兴趣的其他文章 Articles you may be interested in 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019.41(10:1229 https:/doi.org10.13374.issn2095-9389.2019.03.27.002 BP神经网络F钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报.2017,394):511 https:1doi.org/10.13374j.issn2095-9389.2017.04.005 一种基于鲁棒随机向量函数链接网络的磨矿旷粒度集成建模方法 Grinding process particle size modeling method using robust RVFLN-based ensemble learning 工程科学学报.2019,41(1):67 https:1doi.org/10.13374.issn2095-9389.2019.01.007 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6:817 https:oi.org10.13374j.issn2095-9389.2019.06.014 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报.2017,398:1244 https:/1doi.org/10.13374.issn2095-9389.2017.08.015 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报.2019,41(3:401htps:/doi.org/10.13374issn2095-9389.2019.03.014
基于集成神经网络的剩余寿命预测 张永峰 陆志强 Remaining useful life prediction based on an integrated neural network ZHANG Yong-feng, LU Zhi-qiang 引用本文: 张永峰, 陆志强. 基于集成神经网络的剩余寿命预测[J]. 工程科学学报, 2020, 42(10): 1372-1380. doi: 10.13374/j.issn2095- 9389.2019.10.10.005 ZHANG Yong-feng, LU Zhi-qiang. Remaining useful life prediction based on an integrated neural network[J]. Chinese Journal of Engineering, 2020, 42(10): 1372-1380. doi: 10.13374/j.issn2095-9389.2019.10.10.005 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005 您可能感兴趣的其他文章 Articles you may be interested in 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 BP神经网络IF钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报. 2017, 39(4): 511 https://doi.org/10.13374/j.issn2095-9389.2017.04.005 一种基于鲁棒随机向量函数链接网络的磨矿粒度集成建模方法 Grinding process particle size modeling method using robust RVFLN-based ensemble learning 工程科学学报. 2019, 41(1): 67 https://doi.org/10.13374/j.issn2095-9389.2019.01.007 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报. 2017, 39(8): 1244 https://doi.org/10.13374/j.issn2095-9389.2017.08.015 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报. 2019, 41(3): 401 https://doi.org/10.13374/j.issn2095-9389.2019.03.014
工程科学学报.第42卷.第10期:1372-1380.2020年10月 Chinese Journal of Engineering,Vol.42,No.10:1372-1380,October 2020 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005;http://cje.ustb.edu.cn 基于集成神经网络的剩余寿命预测 张永峰,陆志强区 同济大学机械与能源工程学院.上海201804 ☒通信作者,E-mail:zhiqianglu@tongji.edu.cn 摘要针对机器或设备的剩余寿命(Remaining useful life,RUL)预测精度低的问题,提出基于一维卷积神经网络 (Convolutional neural network,CNN)和双向长短期记忆(Bidirectional long short-.term memory,BD-LSTM)的集成神经网络模型 为了更好地抽取时间序列上的特征,以及产生更多的训练样本,采用滑动窗口对数据进行处理,同时采用卡尔曼滤波对数据 进行降噪处理,将数据标准化以及设置RUL标签.与人工提取特征不同,利用一维CNN对数据进行特征提取,并舍弃了 CNN中的池化层.然后将提取到的高维特征输人到BD-LSTM进行回归预测,并采用Bagging的方式对此神经网络进行集成 来预测RUL.最后通过在NASA的数据集上验证该模型的有效性,以及相比于其他机器学习或者深度学习模型的优越性,实 验表明所提模型在RUL预测方面更加准确. 关键词卡尔曼滤波:剩余寿命预测:神经网络:深度学习:集成学习 分类号TP399 Remaining useful life prediction based on an integrated neural network ZHANG Yong-feng,LU Zhi-giang School of Mechanical Engineering,Tongji University,Shanghai 201804,China Corresponding author,E-mail:zhiqianglu@tongji.edu.cn ABSTRACT Unexpected failures and unscheduled maintenance activities of mechanical systems might incur considerable waste of resources and high investment costs.Thus,in recent years,prognostics and health management(PHM)has received a lot of attention because of its importance in maintenance cost reduction and machine fault prognostics.The remaining useful life (RUL)of machinery is defined as the length from the current time to the end of its useful life,which is the core technology of PHM.During the operation of machines and equipment,a large amount of data generated by different sensors in the system is collected using various methods.These data often characterize the health status of machinery to a certain extent.By applying the systematic approach to these data,valuable information for strategic decision-making can be obtained.However,traditional machine learning algorithms are usually not efficient enough to handle the complex and nonlinear characteristics of the system and deal with big data.With the rapid development of modern computational hardware and theory,deep learning algorithms show unique advantages in characterizing the system complexity and processing big data.Because of the low-accuracy prediction of the RUL of machines or equipment,a neural network integrating the one- dimensional convolutional neural network (1D CNN)and the bidirectional long short-term memory (BD-LSTM)was proposed.To extract the features of the time series and generate more training samples,the sliding window algorithm was used to process the data and the Kalman filter was applied to denoise the data.Then,the dataset was standardized and the RUL labels were set.Instead of artificial feature extraction,this study used ID CNN to extract features from the data and discarded the pooling layer of CNN.The extracted high- dimensional features were inputted into the BD-LSTM for regression prediction,and the neural network was integrated by bagging to predict the RUL.Finally,the effectiveness and superiority of the model compared with the machine or deep learning model were verified 收稿日期:2019-10-10 基金项目:国家自然科学基金资助项目(71171130.61273035)
基于集成神经网络的剩余寿命预测 张永峰,陆志强苣 同济大学机械与能源工程学院,上海 201804 苣通信作者,E-mail: zhiqianglu@tongji.edu.cn 摘 要 针对机器或设备的剩余寿命 (Remaining useful life, RUL)预测精度低的问题 ,提出基于一维卷积神经网络 (Convolutional neural network, CNN)和双向长短期记忆(Bidirectional long short-term memory, BD-LSTM)的集成神经网络模型. 为了更好地抽取时间序列上的特征,以及产生更多的训练样本,采用滑动窗口对数据进行处理,同时采用卡尔曼滤波对数据 进行降噪处理,将数据标准化以及设置 RUL 标签. 与人工提取特征不同,利用一维 CNN 对数据进行特征提取,并舍弃了 CNN 中的池化层. 然后将提取到的高维特征输入到 BD-LSTM 进行回归预测,并采用 Bagging 的方式对此神经网络进行集成 来预测 RUL. 最后通过在 NASA 的数据集上验证该模型的有效性,以及相比于其他机器学习或者深度学习模型的优越性,实 验表明所提模型在 RUL 预测方面更加准确. 关键词 卡尔曼滤波;剩余寿命预测;神经网络;深度学习;集成学习 分类号 TP399 Remaining useful life prediction based on an integrated neural network ZHANG Yong-feng,LU Zhi-qiang苣 School of Mechanical Engineering, Tongji University, Shanghai 201804, China 苣 Corresponding author, E-mail: zhiqianglu@tongji.edu.cn ABSTRACT Unexpected failures and unscheduled maintenance activities of mechanical systems might incur considerable waste of resources and high investment costs. Thus, in recent years, prognostics and health management (PHM) has received a lot of attention because of its importance in maintenance cost reduction and machine fault prognostics. The remaining useful life (RUL) of machinery is defined as the length from the current time to the end of its useful life, which is the core technology of PHM. During the operation of machines and equipment, a large amount of data generated by different sensors in the system is collected using various methods. These data often characterize the health status of machinery to a certain extent. By applying the systematic approach to these data, valuable information for strategic decision-making can be obtained. However, traditional machine learning algorithms are usually not efficient enough to handle the complex and nonlinear characteristics of the system and deal with big data. With the rapid development of modern computational hardware and theory, deep learning algorithms show unique advantages in characterizing the system complexity and processing big data. Because of the low-accuracy prediction of the RUL of machines or equipment, a neural network integrating the onedimensional convolutional neural network (1D CNN) and the bidirectional long short-term memory (BD-LSTM) was proposed. To extract the features of the time series and generate more training samples, the sliding window algorithm was used to process the data and the Kalman filter was applied to denoise the data. Then, the dataset was standardized and the RUL labels were set. Instead of artificial feature extraction, this study used 1D CNN to extract features from the data and discarded the pooling layer of CNN. The extracted highdimensional features were inputted into the BD-LSTM for regression prediction, and the neural network was integrated by bagging to predict the RUL. Finally, the effectiveness and superiority of the model compared with the machine or deep learning model were verified 收稿日期: 2019−10−10 基金项目: 国家自然科学基金资助项目 (71171130,61273035) 工程科学学报,第 42 卷,第 10 期:1372−1380,2020 年 10 月 Chinese Journal of Engineering, Vol. 42, No. 10: 1372−1380, October 2020 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005; http://cje.ustb.edu.cn
张永峰等:基于集成神经网络的剩余寿命预测 1373· using the National Aeronautics and Space Administration dataset.Results showed that the proposed model can more accurately predict the RUL than the machine or deep learning model KEY WORDS Kalman filter:remaining useful life prediction;neural network;deep learning;ensemble learning 机器与设备的健康管理与故障诊断一直工 与退化相关的权重来使所有学习器对RUL的预测 业界与学术界关注与研究的热点,而剩余寿命 权重之和更大.Heimest采用循环神经网络 预测(RUL)恰恰是设备健康管理与故障诊断 (Recurrent neural network,RNN)对设备的RUL进 (Prognostics and health management,PHM)的一个核 行了预测,并在竞赛中取得了不错的成绩.Babu 心技术山.并且,准确的RUL预测还可以为设备或 等刀采用深度卷积神经网络先通过原始数据进行 部件制定相应的维护策略提供重要的信息2-)已 卷积,池化等操作提取特征,而后进行RUL预测 经有多名学者提出了关于RUL预测的各种模型与 Yuan等s]提出了针对飞机发动机在复杂操作和 方法,主要分为2大类:基于物理模型的预测方 多重故障以及噪声干扰情况下的基于LSTM网络 法)和基于数据驱动)的预测方法.但是由于设 的RUL预测模型.Zhang等也提出了LSTM网 备和部件的结构日益复杂,再加上各种环境的影 络对锂电池的RUL做出预测.Ordóiez等2o提出 响,很难用物理模型去准确地预测RUL向.而且,随 了一种ARIMA和支持向量机(Support vector 着大数据时代的到来,我们获取机器的大量数据 machine,.SVM)相结合的对于飞机发动机的RUL进 日益简单,再加上计算机技术的不断发展,使用数 行预测的模型,并与VARMA(Vector auto-regressive 据驱动的模型去预测RUL已成为主流的方法了. moving average)模型进行了比较, Long等I7建立一个以遗传算法来优化的ARMA 上述文献中所提的大多RUL预测中,一般包 (Autoregressive moving average model)模型用来预 含3个步骤,一是对原始数据提取特征,二是建立 测RUL.Wu等提出了一种ARIMA(Autoregressive 设备健康曲线,三是进行RUL的预测P叫由于现 Integrated Moving Average model)模型预测未来的 代机器设备复杂度高,一般有多个传感器同时监 机器状态,从而实现故障诊断和UL预测,并且 测一个设备的健康状态,其监测数据维度较大,样 通过改进的预测策略和自动预测算法提高了其 本量大;传统的数据驱动RUL预测方法往往需要 准确度.Zhou与Huang提出了一种经验模态分 人工提取某些特征,再进行筛选和融合,而人工提 解和ARIMA模型的锂电池的RUL预测模型, 取特征需要一定的经验与知识,并且相同特征在 Tiano建立了一个人工神经网络(Artificial neural 不同设备RUL预测上差异可能较大,模型泛化性 networks.ANN)用来预测设备的RUL.该网络以设 能较差:目前许多基于数据驱动的RUL预测模型 备的役龄以及当前和过去的检测点的多状态检测 未考虑到传感器信号的时序相关特征,而忽略时 数据的为输入,以设备的生命周期百分比作为输 间点的时间关系可能丢失重要的信息,导致模型 出.Mosallam等uI提出了分两阶段来预测RUL: 预测性能降低.这些因素均导致了传统预测模型 先利用无监督方式筛选出蕴含大量退化信息的变 预测精度不高.针对以上问题,本文运用卷积神经 量,然后利用这些变量进行离线训练来建立不同 网络(Convolutional neural network,CNN)强大的特 的健康指标曲线:然后在线利用K近邻算法寻找 征提取能力,避免了人工提取特征,减少了人工工 与离线库中最相似的Hl来进行RUL预测.Khelif 作量与操作难度,提高了模型的泛化能力.CNN 等四通过支持向量回归直接对感应器和健康状态 一般用于处理图像数据,而本文采用的一维CNN 建立直接关系来预测RUL,减少了设备健康状态 常用于处理时间序列数据.相比于长短期记忆 曲线拟合与失效阈值设立的步骤.Miao等1利用 (Long short--term memory,LSTM)只能访问每个特 改进的粒子滤波器一无迹离子滤波器来预测锂电 定的时间步骤,双向LSTM不仅能实现数据的长 池的RUL.Tobon-Mejia等l提出了一种基于小波 期记忆,还能够从正反两个方向同时处理数据,为 包分解技术和混合高斯隐马尔科夫来预测RUL的 序列中数据提供过去和未来的信息,发现更多时 模型.Li等为了使RUL预测更加准确,提出了 间序列的特征,有助于提升RUL预测的准确度 一种考虑机器退化对于预测RUL的影响的集成学 而集成学习则是利用多个学习器结合来提升整体 习模型,该模型分配给每个学习器一个优化过的 的学习性能,在机器学习领域被广泛应用.因此
using the National Aeronautics and Space Administration dataset. Results showed that the proposed model can more accurately predict the RUL than the machine or deep learning model. KEY WORDS Kalman filter;remaining useful life prediction;neural network;deep learning;ensemble learning 机器与设备的健康管理与故障诊断一直工 业界与学术界关注与研究的热点,而剩余寿命 预测 ( RUL)恰恰是设备健康管理与故障诊断 (Prognostics and health management, PHM)的一个核 心技术[1] . 并且,准确的 RUL 预测还可以为设备或 部件制定相应的维护策略提供重要的信息[2−3] . 已 经有多名学者提出了关于 RUL 预测的各种模型与 方法,主要分为 2 大类:基于物理模型的预测方 法[4] 和基于数据驱动[5] 的预测方法. 但是由于设 备和部件的结构日益复杂,再加上各种环境的影 响,很难用物理模型去准确地预测 RUL[6] . 而且,随 着大数据时代的到来,我们获取机器的大量数据 日益简单,再加上计算机技术的不断发展,使用数 据驱动的模型去预测 RUL 已成为主流的方法了. Long 等[7] 建立一个以遗传算法来优化的 ARMA (Autoregressive moving average model)模型用来预 测RUL. Wu 等[8] 提出了一种ARIMA(Autoregressive Integrated Moving Average model)模型预测未来的 机器状态,从而实现故障诊断和 RUL 预测,并且 通过改进的预测策略和自动预测算法提高了其 准确度. Zhou 与 Huang[9] 提出了一种经验模态分 解 和 ARIMA 模 型 的 锂 电 池 的 RUL 预 测 模 型 . Tian[10] 建立了一个人工神经网络(Artificial neural networks, ANN)用来预测设备的 RUL. 该网络以设 备的役龄以及当前和过去的检测点的多状态检测 数据的为输入,以设备的生命周期百分比作为输 出. Mosallam 等[11] 提出了分两阶段来预测 RUL: 先利用无监督方式筛选出蕴含大量退化信息的变 量,然后利用这些变量进行离线训练来建立不同 的健康指标曲线:然后在线利用 K 近邻算法寻找 与离线库中最相似的 HI 来进行 RUL 预测. Khelif 等[12] 通过支持向量回归直接对感应器和健康状态 建立直接关系来预测 RUL,减少了设备健康状态 曲线拟合与失效阈值设立的步骤. Miao 等[13] 利用 改进的粒子滤波器—无迹离子滤波器来预测锂电 池的 RUL. Tobon-Mejia 等[14] 提出了一种基于小波 包分解技术和混合高斯隐马尔科夫来预测 RUL 的 模型. Li 等[15] 为了使 RUL 预测更加准确,提出了 一种考虑机器退化对于预测 RUL 的影响的集成学 习模型,该模型分配给每个学习器一个优化过的 与退化相关的权重来使所有学习器对 RUL 的预测 权 重 之 和 更 大 . Heimes[16] 采 用 循 环 神 经 网 络 (Recurrent neural network, RNN)对设备的 RUL 进 行了预测,并在竞赛中取得了不错的成绩. Babu 等[17] 采用深度卷积神经网络先通过原始数据进行 卷积,池化等操作提取特征,而后进行 RUL 预测. Yuan 等[18] 提出了针对飞机发动机在复杂操作和 多重故障以及噪声干扰情况下的基于 LSTM 网络 的 RUL 预测模型. Zhang 等[19] 也提出了 LSTM 网 络对锂电池的 RUL 做出预测. Ordóñez等[20] 提出 了 一 种 ARIMA 和 支 持 向 量 机 ( Support vector machine, SVM)相结合的对于飞机发动机的 RUL 进 行预测的模型,并与 VARMA(Vector auto-regressive moving average)模型进行了比较. 上述文献中所提的大多 RUL 预测中,一般包 含 3 个步骤,一是对原始数据提取特征,二是建立 设备健康曲线,三是进行 RUL 的预测[21] . 由于现 代机器设备复杂度高,一般有多个传感器同时监 测一个设备的健康状态,其监测数据维度较大,样 本量大;传统的数据驱动 RUL 预测方法往往需要 人工提取某些特征,再进行筛选和融合,而人工提 取特征需要一定的经验与知识,并且相同特征在 不同设备 RUL 预测上差异可能较大,模型泛化性 能较差;目前许多基于数据驱动的 RUL 预测模型 未考虑到传感器信号的时序相关特征,而忽略时 间点的时间关系可能丢失重要的信息,导致模型 预测性能降低. 这些因素均导致了传统预测模型 预测精度不高. 针对以上问题,本文运用卷积神经 网络(Convolutional neural network, CNN)强大的特 征提取能力,避免了人工提取特征,减少了人工工 作量与操作难度,提高了模型的泛化能力. CNN 一般用于处理图像数据,而本文采用的一维 CNN 常用于处理时间序列数据. 相比于长短期记忆 (Long short-term memory, LSTM)只能访问每个特 定的时间步骤,双向 LSTM 不仅能实现数据的长 期记忆,还能够从正反两个方向同时处理数据,为 序列中数据提供过去和未来的信息,发现更多时 间序列的特征,有助于提升 RUL 预测的准确度. 而集成学习则是利用多个学习器结合来提升整体 的学习性能,在机器学习领域被广泛应用. 因此, 张永峰等: 基于集成神经网络的剩余寿命预测 · 1373 ·
·1374 工程科学学报,第42卷,第10期 基于前人的研究基础上,本文提出一种集成一维CNN 以同时利用x到x和x到x的双向时间序列,可以 与双向LSTM的网络模型来对RUL进行预测. 更好地挖掘出时间序列的内部特征.双向LSTM 1模型算法描述 的结构如图3所示. 集成学习是一种重要的机器学习算法,主要 卷积神经网络作为深度学习的一种经典结构, 利用多个学习器的集成来解决分类或回归问题, 其已经在图像识别,物体检测,人脸识别,自然语 能够提升整体学习系统的准确性.但是集成学习 言处理等方面有巨大的发展与广泛的应用.本文 算法比较依赖数据集的特性以及产生差异性的方 所采用的是一维CNN结构,其常用于处理文本与 法.同样,CNN和双向LSTM也有一定的弊端,如 时间序列数据,一维CNN的卷积操作如图1所示. 需要调参数,需要大量样本来训练,其训练时间一 LSTM网络是RNN的一种特殊形式,是为了 般长于机器学习算法;CNN卷积层提取到的特征 解决RNN的长期依赖问题和训练过程会出现梯 物理含义不明确,且神经网络本身就是一种难以 度消失以及梯度爆炸等问题所提出的一种神经网 解释的“黑箱模型” 络结构22-2]其示意图如图2所示 双向LSTM以其独特结构:输入门,输出门, LSTM单元可用如下公式进行描述: 遗忘门以及双向输入结构,可将时间序列数据做 it=(Wi-Tht-1,x1+bi) (1) 自适应地回归预测,其在处理时序数据的性能优 f=(Wr.[h-1.x]+bf) (2) 于一般深度学习模型.考虑到用于剩余寿命预测 的传感器数据维度多,数量大,通过人工提取特征 o,=c(W。[h-l,xl+b) (3) 往往不准确,泛化能力差.而一维卷积神经网络通 C:=f *Ci-1+i;*tanh (We.[h-1,x;]+be) (4) 过多通道和多种非线性转换、方程的处理,具有自 ht =or tanh (C) (5) 适应提取时间序列上的特征,其多个卷积核也有 式中,x和h分别代表输入与输出;i,fi,o,C分别表 利于提取各种维度的时域特征.相比于直接应用 示输入门,遗忘门,输出门以及细胞状态的函数表 双向LSTM进行预测,通过将一维卷积神经自适 达式,W,和b分别对应的权重系数矩阵和偏置项; 应提取到的时域特征数据输入到双向LSTM网络 c是sigmoid激活函数,其输出值在0和1之间, 中,可剔除原始数据中的不必要信息,从而有利于 tanh代表双曲线正切激活函数.LSTM细胞的运作 提高双向LSTM的预测准确性.基于以上描述,本 过程是:首先输入上个细胞的h,-以及本细胞的x, 文构建的预测模型如图4所示,同时采用bagging 然后通过输入门,遗忘门,输出门三个门分别控制 的方式来获得不同数据组,并对不同结果求平均 输入,遗忘以及输出多少信息,最后更新本细胞的 值来得到最终的RUL. 状态以及输出h, 2实验数据处理与模型构建 对于输人X=(x,2,…,x),LSTM网络仅利用 前向输人数据,即x到x的时间序列,而对于x到 2.1数据介绍 x的反向时间序列并没有利用.而双向LSTM可 本篇文章所提的网络是在NASA公开数据集 Convolution kernel 1 Feature map I Convolution kernel 2 Feature map 2 000 Convolution kernel n Feature map n 图1一维CNN的操作示意图 Fig.1 Illustration of the one-dimensional convolutional neural network operation
基于前人的研究基础上,本文提出一种集成一维 CNN 与双向 LSTM 的网络模型来对 RUL 进行预测. 1 模型算法描述 卷积神经网络作为深度学习的一种经典结构, 其已经在图像识别,物体检测,人脸识别,自然语 言处理等方面有巨大的发展与广泛的应用. 本文 所采用的是一维 CNN 结构,其常用于处理文本与 时间序列数据,一维 CNN 的卷积操作如图 1 所示. LSTM 网络是 RNN 的一种特殊形式,是为了 解决 RNN 的长期依赖问题和训练过程会出现梯 度消失以及梯度爆炸等问题所提出的一种神经网 络结构[22−23] . 其示意图如图 2 所示. LSTM 单元可用如下公式进行描述: it = σ(Wi ·[ht−1, xt]+bi) (1) ft = σ ( Wf ·[ht−1, xt]+bf ) (2) ot = σ(Wo ·[ht−1, xt]+bo) (3) Ct = ft ∗Ct−1 +it ∗ tanh(Wc ·[ht−1, xt]+bc) (4) ht = ot ∗ tanh(Ct) (5) xt ht it , ft ,ot ,Ct W∗ b∗ σ ht−1 xt ht 式中, 和 分别代表输入与输出; 分别表 示输入门,遗忘门,输出门以及细胞状态的函数表 达式, 和 分别对应的权重系数矩阵和偏置项; 是 sigmoid 激活函数 ,其输出值在 0 和 1 之间 , tanh 代表双曲线正切激活函数. LSTM 细胞的运作 过程是:首先输入上个细胞的 以及本细胞的 , 然后通过输入门,遗忘门,输出门三个门分别控制 输入,遗忘以及输出多少信息,最后更新本细胞的 状态以及输出 . X = (x1, x2,··· , xt) x1 xt xt x1 对于输入 ,LSTM 网络仅利用 前向输入数据,即 到 的时间序列,而对于 到 的反向时间序列并没有利用. 而双向 LSTM 可 以同时利用x1 到xt和xt到x1 的双向时间序列,可以 更好地挖掘出时间序列的内部特征. 双向 LSTM 的结构如图 3 所示. 集成学习是一种重要的机器学习算法,主要 利用多个学习器的集成来解决分类或回归问题, 能够提升整体学习系统的准确性. 但是集成学习 算法比较依赖数据集的特性以及产生差异性的方 法. 同样,CNN 和双向 LSTM 也有一定的弊端,如 需要调参数,需要大量样本来训练,其训练时间一 般长于机器学习算法;CNN 卷积层提取到的特征 物理含义不明确,且神经网络本身就是一种难以 解释的“黑箱模型”. 双向 LSTM 以其独特结构:输入门,输出门, 遗忘门以及双向输入结构,可将时间序列数据做 自适应地回归预测,其在处理时序数据的性能优 于一般深度学习模型. 考虑到用于剩余寿命预测 的传感器数据维度多,数量大,通过人工提取特征 往往不准确,泛化能力差. 而一维卷积神经网络通 过多通道和多种非线性转换、方程的处理,具有自 适应提取时间序列上的特征,其多个卷积核也有 利于提取各种维度的时域特征. 相比于直接应用 双向 LSTM 进行预测,通过将一维卷积神经自适 应提取到的时域特征数据输入到双向 LSTM 网络 中,可剔除原始数据中的不必要信息,从而有利于 提高双向 LSTM 的预测准确性. 基于以上描述,本 文构建的预测模型如图 4 所示,同时采用 bagging 的方式来获得不同数据组,并对不同结果求平均 值来得到最终的 RUL. 2 实验数据处理与模型构建 2.1 数据介绍 本篇文章所提的网络是在 NASA 公开数据集 Convolution kernel 1 Feature map 1 Convolution kernel 2 Feature map 2 Convolution kernel n Feature map n 图 1 一维 CNN 的操作示意图 Fig.1 Illustration of the one-dimensional convolutional neural network operation · 1374 · 工程科学学报,第 42 卷,第 10 期
张永峰等:基于集成神经网络的剩余寿命预测 1375· Cr 中 个子数据集包含27维的数据,其中前3维表示发 tanh 动机的运行环境,后21维表示发动机上不同传感 器的数据记录(记为s1~s21).本文选取第一种型 tanh 号的发动机(FD0001)的数据进行验证.这个数据 集给出了训练集和测试集,其中,训练集的数据记 录了发动机从刚开始的健康状态一直到最后完全 失效时的一些数据,测试集则记录100台发动机 完全失效前的一部分数据.而我们的任务就是如 图2LSTM单元结构示意图 何更加准确地预测测试集中这100台发动机的剩 Fig.2 Diagram of the LSTM cell 余寿命 2.2数据的预处理 虽然训练集与测试集中共记录了21维发动机 STM 传感器的数据,但是其中有一部分传感器的方差 为0或者极小2也就是说,这部分数据对于发动 STM LSTM 机剩余寿命的预测不能起到作用.因此,本文只选 取其中的14维方差较大的传感器的数据作为原 h 始数据的输入. 由于传感器的数据中是带有噪声的,所以如 LSTM 果直接利用这些数据来进行预测的话,势必会使 SIM STM LSTM 得其特征不易被神经网络学习到.因此,有必要对 原始数据进行降噪处理,本文采用卡尔曼滤波对 原始数据进行降噪处理 接下来就是数据的标准化处理.数据标准化 图3双向LSTM操作示意图 Fig.3 Diagram of the bidirectional LSTM network 的处理方法常见的有2种:Max-min和Z-score.式 (6)和式(7)分别表示Max-min和Z-score标准化公 上验证的.该数据集被广泛用于测试寿命预测算 式.本文采取Z-score对每列的数据进行标准化 法或模型的有效性.本文所选的数据是一个航空 处理 发动机的退化过程的一些数据.该数据包含4种 Xi-Xmin (6) 不同型号的飞机发动机,构成了4个子数据集.每 Xnorm = Xmax-Xmin Output predicted RUL BD-LSTM layer Regression prediction Abstract feature extraction One-dimensional CNN Time series data 23456789.。 Pre-processing Acquiring data 图4模型框架 Fig.4 Model framework
上验证的. 该数据集被广泛用于测试寿命预测算 法或模型的有效性. 本文所选的数据是一个航空 发动机的退化过程的一些数据. 该数据包含 4 种 不同型号的飞机发动机,构成了 4 个子数据集. 每 个子数据集包含 27 维的数据,其中前 3 维表示发 动机的运行环境,后 21 维表示发动机上不同传感 器的数据记录(记为 s1~s21). 本文选取第一种型 号的发动机(FD0001)的数据进行验证. 这个数据 集给出了训练集和测试集,其中,训练集的数据记 录了发动机从刚开始的健康状态一直到最后完全 失效时的一些数据,测试集则记录 100 台发动机 完全失效前的一部分数据. 而我们的任务就是如 何更加准确地预测测试集中这 100 台发动机的剩 余寿命. 2.2 数据的预处理 虽然训练集与测试集中共记录了 21 维发动机 传感器的数据,但是其中有一部分传感器的方差 为 0 或者极小[20] . 也就是说,这部分数据对于发动 机剩余寿命的预测不能起到作用. 因此,本文只选 取其中的 14 维方差较大的传感器的数据作为原 始数据的输入. 由于传感器的数据中是带有噪声的,所以如 果直接利用这些数据来进行预测的话,势必会使 得其特征不易被神经网络学习到. 因此,有必要对 原始数据进行降噪处理,本文采用卡尔曼滤波对 原始数据进行降噪处理. 接下来就是数据的标准化处理. 数据标准化 的处理方法常见的有 2 种:Max-min 和 Z-score. 式 (6)和式(7)分别表示 Max-min 和 Z-score 标准化公 式. 本文采取 Z-score 对每列的数据进行标准化 处理. xnorm = xi − xmin xmax − xmin (6) Ct−1 Ct xt ht−1 ℎt ℎt i t ot σ σ tanh σ tanh 图 2 LSTM 单元结构示意图 Fig.2 Diagram of the LSTM cell LSTM LSTM …… LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM y1 x1 h1 y2 x2 h2 yt xt ht 图 3 双向 LSTM 操作示意图 Fig.3 Diagram of the bidirectional LSTM network Output predicted RUL BD-LSTM layer Time series data 1 2 3 4 5 6 7 8 9 . . . Acquiring data Regression prediction Abstract feature extraction One-dimensional CNN layer Pre-processing 图 4 模型框架 Fig.4 Model framework 张永峰等: 基于集成神经网络的剩余寿命预测 · 1375 ·
1376 工程科学学报,第42卷,第10期 homm-专L (7) 机的RUL的预测就是基于不同时间长度的传感器 的数据.选择一个合适大小的时间窗口,这将有利 然后是训练数据RUL标签的处理.一般的方 于我们更好地预测RUL.而且训练集也是基于一 法是将RUL处理成随时间的变化而线性衰减的 定大小的时间窗口来对其进行拆分,拆分成许多 对于RUL标签的设置,许多学者进行了大量的实 长度为时间窗口大小的重叠序列来进行训练.比 验,他们最后得到的结论是:对于一个系统的初期 如,时间窗口大小为30,发动机的总生命周期是 来说,其健康状况良好,不太容易从初期的数据来 100,那么1~30个周期组成第一组序列,2~31个 判断其剩余寿命,因此,他们认为,假设RUL在初 周期组成第二个序列…,71~100个周期组成最 期的一段时间内是不变的,而后开始线性衰退,这 后一个序列,这样总共组成71个训练序列.然后 样可以使得准确度有所上升6-.而对系统初期 以每个训练序列作为输入,输出则是每个训练序 的RUL常数的确定,不同的学者也有不同的结论 列的最后一个周期的RUL.这样使得当我们需要 本文也采用分段线性RUL,并设置130作为初期 预测某个时间节点的发动机的剩余寿命的时候, RUL的定值,如图5所示 我们仅需要一个长度为时间窗口大小的数据.但 多 Piece-wise RUL 是,如果时间窗口太小,则表现在时间序列上的特 140 --True RUL 征就不是很明显,如果时间窗口太大,则训练的样 120 本数量会大大减少.因此,选择一个合适的时间窗 100 口大小对剩余寿命的预测是十分重要的 预处理前后的数据如图6所示 60 2.3网络模型参数设置 40 本文采用集成一维CNN与双向LSTM结合的 20 神经网络模型.常见的集成学习方式有bagging 00 20 406080100120140160 boosting,stacking,其中boosting,stacking方式常用 Cycle 于串行学习器,即学习器之间存在着强依赖关系 图5不同的RUL标签对比 鉴于本文学习器之间不存在强依赖关系,所以采 Fig.5 Comparison of different RUL labels 用bagging生成多组数据的并行集成方式.Bagging 接下来就是时间窗口大小的选择.时间窗口 是通过对训练集随机采样来让不同学习器的训练 的选择是很有必要的,因为我们对测试集中发动 样本产生差异性,从而降低模型方差,达到提高模 523 (a) 644 b 14 521 心 520 64 50 100 150 200 100 150 200 Cycle Cycle (c) (d) 0 A -2 100 150 200 50 100 150 200 Cycle Cycle 图6预处理前后的传感器数据.(a,c)s12传感器:(b,d)s2传感器 Fig.6 Sensor data before and after preprocessing:(a,c)Sensor 12;(b,d)Sensor 2
xnorm = xi −µ σ (7) 然后是训练数据 RUL 标签的处理. 一般的方 法是将 RUL 处理成随时间的变化而线性衰减的. 对于 RUL 标签的设置,许多学者进行了大量的实 验,他们最后得到的结论是:对于一个系统的初期 来说,其健康状况良好,不太容易从初期的数据来 判断其剩余寿命. 因此,他们认为,假设 RUL 在初 期的一段时间内是不变的,而后开始线性衰退,这 样可以使得准确度有所上升[16−17] . 而对系统初期 的 RUL 常数的确定,不同的学者也有不同的结论. 本文也采用分段线性 RUL,并设置 130 作为初期 RUL 的定值,如图 5 所示. 接下来就是时间窗口大小的选择. 时间窗口 的选择是很有必要的,因为我们对测试集中发动 列······ 机的 RUL 的预测就是基于不同时间长度的传感器 的数据. 选择一个合适大小的时间窗口,这将有利 于我们更好地预测 RUL. 而且训练集也是基于一 定大小的时间窗口来对其进行拆分,拆分成许多 长度为时间窗口大小的重叠序列来进行训练. 比 如,时间窗口大小为 30,发动机的总生命周期是 100,那么 1~30 个周期组成第一组序列,2~31 个 周期组成第二个序 ,71~100 个周期组成最 后一个序列,这样总共组成 71 个训练序列. 然后 以每个训练序列作为输入,输出则是每个训练序 列的最后一个周期的 RUL. 这样使得当我们需要 预测某个时间节点的发动机的剩余寿命的时候, 我们仅需要一个长度为时间窗口大小的数据. 但 是,如果时间窗口太小,则表现在时间序列上的特 征就不是很明显,如果时间窗口太大,则训练的样 本数量会大大减少. 因此,选择一个合适的时间窗 口大小对剩余寿命的预测是十分重要的. 预处理前后的数据如图 6 所示. 2.3 网络模型参数设置 本文采用集成一维 CNN 与双向 LSTM 结合的 神经网络模型. 常见的集成学习方式有 bagging, boosting,stacking,其中 boosting, stacking 方式常用 于串行学习器,即学习器之间存在着强依赖关系. 鉴于本文学习器之间不存在强依赖关系,所以采 用 bagging 生成多组数据的并行集成方式. Bagging 是通过对训练集随机采样来让不同学习器的训练 样本产生差异性,从而降低模型方差,达到提高模 160 Piece-wise RUL 140 True RUL 120 100 80 60 40 20 0 0 20 40 60 80 100 120 140 160 Cycle RUL 图 5 不同的 RUL 标签对比 Fig.5 Comparison of different RUL labels 523 644 522 643 521 The value before pre-processing The value after pre-processing The value before pre-processing The value after pre-processing 520 642 0 50 100 150 200 Cycle 0 50 100 150 200 Cycle 0 50 100 150 200 Cycle 0 50 100 150 200 Cycle (a) (b) 1 (c) (d) 0 −1 −2 0 −2 2 图 6 预处理前后的传感器数据. (a,c)s12 传感器;(b,d) s2 传感器 Fig.6 Sensor data before and after preprocessing: (a,c) Sensor 12; (b,d) Sensor 2 · 1376 · 工程科学学报,第 42 卷,第 10 期
张永峰等:基于集成神经网络的剩余寿命预测 .1377 型预测效果.本文首先通过bagging的方式生成多 为了使双向LSTM更好地回归预测,一般采 组数据对,然后用基学习器对这些数据组的学习 用增加层数或增加每层神经元个数.因为本文的 分别得到各自的预测结果,最后通过求这些结果 训练样本与维数不是很大,所以采取固定的单层 平均值来得到RUL 双向LSTM,神经元数目最终确定为128.将一维 因为本数据选取的时间序列窗口大小最终为 CNN提取到的抽象特征进行处理来做回归预测 30,所以第一个卷积核的长度设置最大为30,最小 为了防止过拟合的产生,在双向LSTM层后接一 为1,本文设置为10.其中,在第一个卷积层,卷积 个Dropout函数,并设置其参数为0.5.该函数会随 核的数目是8,卷积神经网络中的卷积核数目一般 机地使一部分神经元无效,从而在一定程度上防 以2倍增加,即第二层为16,第三层为32,以此类 止过拟合的产生 推.为了保证训练的稳定性,CNN层的卷积核长 最后的输出层是一个神经元,其激活函数是 度逐步减少.另外,所有卷积核的滑动步长均设置 “Relu”函数,用来输出设备的RUL预测值.基 为1.对于卷积层数目的设置,训练前初始化卷积 学习器的网络结构如表1所示.本模型采用 层的权重呈均值为0,标准差为0.1的正态分布.训 RMSProp优化算法来训练该模型,学习率设为 练过程中卷积层的权值不断变化,因此可以查看 0.001.代价函数选择为“MSE”函数,并设置训练 训练后权值的变化情况来判断所需卷积层的数 批次大小为256.其中,激活函数、训练批次大小 目.图7为4个卷积层训练100次后的各卷积层权值 以及学习率值的设置,均采用测试效果较好时的 分布图,图8为不同卷积层数目对RMSE(Root-mean- 参数,其他参数均采用默认设置.网络结构的具 square error)的影响.可以看到第4层的权值分布 体参数设置需根据不同的数据集的特点来进行 接近于原始的正态分布,并且训练误差不再减少, 调整 说明该层对于训练模型的准确度贡献不高,因此 3 实验结果 设置卷积层的数目为3.所有卷积层的激活函数均 采用“Relu”函数.CNN中的池化操作一方面降低 3.1实验评价指标 了数据特征图的分辨率,简化了计算,但另一方面 对于本数据集,常见的评价指标有2个:Score 在一定程度上也使得原始数据的信息量减少.鉴 和RMSE.式(8)和式(9)分别表示Score和RMSE 于本文所使用的数据量不是特别大,本文在所提 的计算方式.其中,d,表示预测RUL与真实RUL 的网络结构中不使用池化层 的偏差 (b) 4 3 2 04 -0.2 0 0.2 0.4 04 -0.2 0 0.2 0.4 Convolution layer weight Convolution layer weight 6 (d) 4 3 2 0 0.4 -0.2 0 0.2 0.4 .4 -0.2 0 0.2 0.4 Convolution layer weight Convolution layer weight 图7卷积层权值分布.(a)第1个卷积层:(b)第2个卷积层:(c)第3个卷积层:(d)第4个卷积层 Fig.7 Convolutional layer weight distribution:(a)the first convolutional layer,(b)the second convolutional layer,(c)the third convolutional layer, (d)the fourth convolutional layer
型预测效果. 本文首先通过 bagging 的方式生成多 组数据对,然后用基学习器对这些数据组的学习 分别得到各自的预测结果,最后通过求这些结果 平均值来得到 RUL. 因为本数据选取的时间序列窗口大小最终为 30,所以第一个卷积核的长度设置最大为 30,最小 为 1,本文设置为 10. 其中,在第一个卷积层,卷积 核的数目是 8,卷积神经网络中的卷积核数目一般 以 2 倍增加,即第二层为 16,第三层为 32,以此类 推. 为了保证训练的稳定性,CNN 层的卷积核长 度逐步减少. 另外,所有卷积核的滑动步长均设置 为 1. 对于卷积层数目的设置,训练前初始化卷积 层的权重呈均值为 0,标准差为 0.1 的正态分布. 训 练过程中卷积层的权值不断变化,因此可以查看 训练后权值的变化情况来判断所需卷积层的数 目. 图 7 为 4 个卷积层训练 100 次后的各卷积层权值 分布图,图8 为不同卷积层数目对RMSE(Root–mean– square error)的影响. 可以看到第 4 层的权值分布 接近于原始的正态分布,并且训练误差不再减少, 说明该层对于训练模型的准确度贡献不高,因此 设置卷积层的数目为 3. 所有卷积层的激活函数均 采用“Relu”函数. CNN 中的池化操作一方面降低 了数据特征图的分辨率,简化了计算,但另一方面 在一定程度上也使得原始数据的信息量减少. 鉴 于本文所使用的数据量不是特别大,本文在所提 的网络结构中不使用池化层. 为了使双向 LSTM 更好地回归预测,一般采 用增加层数或增加每层神经元个数. 因为本文的 训练样本与维数不是很大,所以采取固定的单层 双向 LSTM,神经元数目最终确定为 128. 将一维 CNN 提取到的抽象特征进行处理来做回归预测. 为了防止过拟合的产生,在双向 LSTM 层后接一 个 Dropout 函数,并设置其参数为 0.5. 该函数会随 机地使一部分神经元无效,从而在一定程度上防 止过拟合的产生. 最后的输出层是一个神经元,其激活函数是 “Relu”函数 ,用来输出设备的 RUL 预测值. 基 学习器的网络结构如 表 1 所 示 . 本模型采 用 RMSProp 优化算法来训练该模型 ,学习率设 为 0.001. 代价函数选择为“MSE”函数,并设置训练 批次大小为 256. 其中,激活函数、训练批次大小 以及学习率值的设置,均采用测试效果较好时的 参数,其他参数均采用默认设置. 网络结构的具 体参数设置需根据不同的数据集的特点来进行 调整. 3 实验结果 3.1 实验评价指标 对于本数据集,常见的评价指标有 2 个:Score 和 RMSE. 式(8)和式(9)分别表示 Score 和 RMSE 的计算方式. 其中,di 表示预测 RUL 与真实 RUL 的偏差. 6 5 4 3 2 1 0 −0.4 −0.2 0 0.2 0.4 Convolution layer weight Relative frequency (a) 6 5 4 3 2 1 0 −0.4 −0.2 0 0.2 0.4 Convolution layer weight Relative frequency (b) 6 5 4 3 2 1 0 −0.4 −0.2 0 0.2 0.4 Convolution layer weight Relative frequency (c) 6 5 4 3 2 1 0 −0.4 −0.2 0 0.2 0.4 Convolution layer weight Relative frequency (d) 图 7 卷积层权值分布. (a)第 1 个卷积层;(b)第 2 个卷积层;(c)第 3 个卷积层;(d)第 4 个卷积层 Fig.7 Convolutional layer weight distribution: (a) the first convolutional layer; (b) the second convolutional layer; (c) the third convolutional layer; (d) the fourth convolutional layer 张永峰等: 基于集成神经网络的剩余寿命预测 · 1377 ·
.1378 工程科学学报,第42卷,第10期 18 数对于关于预测误差的函数图像如图9所示 3.2实验结果与评价 17 表2中编号1到8为其他文献中相同数据集 的结果,编号9和10是本文所做实验结果.从表 色6 中数据可以看出,本文所提的集成CNN+BD-LSTM 模型在评价指标RMSE和Score上均优于其他机 15 器学习和深度学习的方法与模型.9和10对比,说 明了基于CNN+BD-LSTM的集成模型是有利于准 14 3 确度的提升的.本文所提的集成CNN+BD-LSTM The number of convolution layers 进一步提高了RUL的预测精度,这主要得益于集 图8卷积层数目对RMSE的影响 成CNN+BD-LSTM有效地利用一维CNN强大的 Fig.8 Effect of the number of convolution layers on the root- 提取特征的能力,并利用BD-LSTM学习历史与未 mean-square error 来数据的依赖关系 60 -Score 表2各种方法结果的对比 50 -RMSE Table 2 Comparison of the results of various methods No. Method RMSE Score 1 MLP7 37.56 17972 SVRI7T 20.96 1381 CNNI7] 18.44 1286 10 4 RVRU7 23.80 1500 01 LSTMP4I 16.73 388 40 -20 0 20 40 Error value 6 KNRP5] 20.46 729 图9不同评价函数的对比 7 REPSI 17.91 479 Fig.9 Comparison of different evaluation functions BD-RNNE6I 18.07 N/A 9 CNN+BD-LSTM 15.10 344 表1基学习器网路层次表 10 Integrated CNN+BD-LSTM 14.47 311 Table 1 Network hierarchy table of the base learner Network structure Input shape Output shape 训练集中取1%的样本作为验证集,训练过程 Conv1D (30,14) (21,8) 中的MSE如图10所示.基于已经构造好的卷积 ConvID (21.8) (12,16) 层外,本文还分析了BD-LSTM层数的神经元的个 ConvlD (12,16) (10,32) 数对于模型评价指标的影响,如图11所示 BD-LSTM (10,32) (256) 5000 Dropout (256) (256) -Train data 4000 -Test data Output (256) (1) e音-1d<0 3000 Score= (8) e器-1d≥0) 2000 1000 RMSE (9) 10 1520 253035 Score评价函数对提前预测RUL的真实值比 Train epoch 滞后预测RUL的惩罚程度要小.这是因为在实际 图10训练过程的1oss变化 中,相比于滞后预测,我们宁愿提前预测以便及早 Fig.10 Loss changes during the training process 地发现问题以及采取措施.而RMSE对提前或者 从图中可以看到,当神经元个数较少(16~32) 滞后的RUL预测具有相同的惩罚.这2个评价函 时,其评价指标较大,这可能是因为其拟合能力不
Score = ∑n i=1 S i = e − di 13 −1(di < 0) e di 10 −1(di ⩾ 0) (8) RMSE = vt 1 n ∑n i=1 d 2 i (9) Score 评价函数对提前预测 RUL 的真实值比 滞后预测 RUL 的惩罚程度要小. 这是因为在实际 中,相比于滞后预测,我们宁愿提前预测以便及早 地发现问题以及采取措施. 而 RMSE 对提前或者 滞后的 RUL 预测具有相同的惩罚. 这 2 个评价函 数对于关于预测误差的函数图像如图 9 所示. 3.2 实验结果与评价 表 2 中编号 1 到 8 为其他文献中相同数据集 的结果,编号 9 和 10 是本文所做实验结果. 从表 中数据可以看出,本文所提的集成 CNN+BD-LSTM 模型在评价指标 RMSE 和 Score 上均优于其他机 器学习和深度学习的方法与模型. 9 和 10 对比,说 明了基于 CNN+BD-LSTM 的集成模型是有利于准 确度的提升的. 本文所提的集成 CNN+BD-LSTM 进一步提高了 RUL 的预测精度,这主要得益于集 成 CNN+BD-LSTM 有效地利用一维 CNN 强大的 提取特征的能力,并利用 BD-LSTM 学习历史与未 来数据的依赖关系. 训练集中取 1% 的样本作为验证集,训练过程 中的 MSE 如图 10 所示. 基于已经构造好的卷积 层外,本文还分析了 BD-LSTM 层数的神经元的个 数对于模型评价指标的影响,如图 11 所示. 从图中可以看到,当神经元个数较少(16~32) 时,其评价指标较大,这可能是因为其拟合能力不 表 1 基学习器网络层次表 Table 1 Network hierarchy table of the base learner Network structure Input shape Output shape Conv1D (30,14) (21,8) Conv1D (21,8) (12,16) Conv1D (12,16) (10,32) BD-LSTM (10,32) (256) Dropout (256) (256) Output (256) (1) 表 2 各种方法结果的对比 Table 2 Comparison of the results of various methods No. Method RMSE Score 1 MLP[17] 37.56 17972 2 SVR[17] 20.96 1381 3 CNN[17] 18.44 1286 4 RVR[17] 23.80 1500 5 LSTM[24] 16.73 388 6 KNR[25] 20.46 729 7 RF[25] 17.91 479 8 BD-RNN[26] 18.07 N/A 9 CNN+BD-LSTM 15.10 344 10 Integrated CNN+BD-LSTM 14.47 311 18 17 16 15 14 1 2 4 3 The number of convolution layers RMSE 图 8 卷积层数目对 RMSE 的影响 Fig.8 Effect of the number of convolution layers on the root – mean–square error 60 RMSE Score 50 40 0 0 30 20 10 −40 −20 20 40 Error value Evaluation metric value 图 9 不同评价函数的对比 Fig.9 Comparison of different evaluation functions 5000 Train data Test data 4000 3000 2000 1000 0 0 5 10 15 20 25 30 35 Train epoch MSE 图 10 训练过程的 loss 变化 Fig.10 Loss changes during the training process · 1378 · 工程科学学报,第 42 卷,第 10 期
张永峰等:基于集成神经网络的剩余寿命预测 1379· 14000 40 41.18 ■RMSE 4结论 11125 ■Score 12000 0104 30 10000 (I)本文提出了集成一维CNN和BD-LSTM相 8000 结合的神经网络模型来进行RUL预测.其中,一 20.03 6000 维CNN用于提取时间序列的特征,BD-LSTM用 15 14.47 16.02 4000 来回归预测,并采用bagging的方式对该网络进行 2000 集成.模型在NASA的数据集上进行验证,评价指 657 311 434 J0 标均优于其他机器学习或深度学习的模型,验证 16 32 64 128 256 The number of neurons 了一维CNN提取特征和集成算法模型的有效性 图11神经元个数对评价指标的影响 (2)更加准确的RUL预测将为设备或部件制 Fig.11 Influence of the number of neurons on the evaluation metric 定相应的维护策略提供重要而有效的信息,同时 也使得设备的故障诊断与健康管理更加方便和 足.而当神经元数目达到256时,相比于数目为128, 经济 运算时间增加,准确率也没有提升,这可能是由于 过拟合的原因.这说明了选择合适的神经元数目 参考文献 对模型尤为重要 [1] Uckun S,Goebel K,Lucas P J F.Standardizing research methods 在已建立的CNN的基础上,时间窗口大小对 for prognostics /2008 International Conference on Prognostics 评价指标的影响如图12所示 and Health Management.Denver,2008:1 [2] Tang D Y,Makis V,Jafari L,et al.Optimal maintenance policy 17.5 720 600 -RMSE and residual life estimation for a slowly degrading system subject 1539 15.0 14.4 500 436 to condition monitoring.Reliab Eng Syst Saf,2015,134:198 12.5 400 [3] Canizo M,Onieva E,Conde A,et al.Real-time predictive 300 maintenance for wind turbines using Big Data frameworks//2017 7.5 IEEE International Conference on Prognostics and Health 200 0 Management(ICPHM).Dallas,2017:70 2.5 100 [4] Lei Y G,Li N P,Gontarz S,et al.A model-based method for remaining useful life prediction of machinery.IEEE Trans Reliab 30 35 4045 50 55 60 2016,65(3):1314 Time window size [5] Si X S,Wang W B,Hu C H,et al.Remaining useful life 图12时间窗口大小对评价指标的影响 estimation-A review on the statistical data driven approaches. Fig.12 Influence of the time window size on the evaluation metric Eur J Oper Res,2011,213(1):1 从图中可以看出,相比于神经元个数,时间窗 [6]Liu Y C,Hu X F,Zhang W J.Remaining useful life prediction 口大小对评价指标的影响不是很大,测试集 based on health index similarity.Reliab Eng Syst Saf.2019,185: 100个样本的真实RUL与用本模型预测的RUL如 502 [7] 图13所示 Long Y W,Luo H W,Zhi Y,et al.Remaining useful life estimation of solder joints using an ARMA model optimized by 140 genetic algorithm /I2018 19th International Conference on 120 Electronic Packaging Technology (ICEPT).Shanghai,2018:1108 [8] Wu W,Hu J T,Zhang J L.Prognostics of machine health 100 condition using an improved ARIMA-based prediction method 80 2007 2nd IEEE Conference on Industrial Electronics and Applications.Harbin,2007:1062 [9] Zhou Y P,Huang M H.Lithium-ion batteries remaining useful life prediction based on a mixture of empirical mode decomposition -Predicted RUL and ARIMA model.Microelectron Reliab,2016,65:265 True RUL 20 40 60 80 100 [10]Tian Z G.An artificial neural network method for remaining useful Test engine number life prediction of equipment subject to condition monitoring.J 图13测试集真实RUL与预测RUL的对比 ntell Manuf,2012,23(2):227 Fig.13 Comparison of real and predicted RUL in the test set [11]Mosallam A,Medjaher K,Zerhouni N.Data-driven prognostic
足. 而当神经元数目达到 256 时,相比于数目为 128, 运算时间增加,准确率也没有提升,这可能是由于 过拟合的原因. 这说明了选择合适的神经元数目 对模型尤为重要. 在已建立的 CNN 的基础上,时间窗口大小对 评价指标的影响如图 12 所示. 从图中可以看出,相比于神经元个数,时间窗 口大小对评价指标的影响不是很大 . 测 试 集 100 个样本的真实 RUL 与用本模型预测的 RUL 如 图 13 所示. 4 结论 (1)本文提出了集成一维 CNN 和 BD-LSTM 相 结合的神经网络模型来进行 RUL 预测. 其中,一 维 CNN 用于提取时间序列的特征,BD-LSTM 用 来回归预测,并采用 bagging 的方式对该网络进行 集成. 模型在 NASA 的数据集上进行验证,评价指 标均优于其他机器学习或深度学习的模型,验证 了一维 CNN 提取特征和集成算法模型的有效性. (2)更加准确的 RUL 预测将为设备或部件制 定相应的维护策略提供重要而有效的信息,同时 也使得设备的故障诊断与健康管理更加方便和 经济. 参 考 文 献 Uckun S, Goebel K, Lucas P J F. Standardizing research methods for prognostics // 2008 International Conference on Prognostics and Health Management. Denver, 2008: 1 [1] Tang D Y, Makis V, Jafari L, et al. Optimal maintenance policy and residual life estimation for a slowly degrading system subject to condition monitoring. Reliab Eng Syst Saf, 2015, 134: 198 [2] Canizo M, Onieva E, Conde A, et al. Real-time predictive maintenance for wind turbines using Big Data frameworks // 2017 IEEE International Conference on Prognostics and Health Management (ICPHM). Dallas, 2017: 70 [3] Lei Y G, Li N P, Gontarz S, et al. A model-based method for remaining useful life prediction of machinery. IEEE Trans Reliab, 2016, 65(3): 1314 [4] Si X S, Wang W B, Hu C H, et al. Remaining useful life estimation – A review on the statistical data driven approaches. Eur J Oper Res, 2011, 213(1): 1 [5] Liu Y C, Hu X F, Zhang W J. Remaining useful life prediction based on health index similarity. Reliab Eng Syst Saf, 2019, 185: 502 [6] Long Y W, Luo H W, Zhi Y, et al. Remaining useful life estimation of solder joints using an ARMA model optimized by genetic algorithm // 2018 19th International Conference on Electronic Packaging Technology (ICEPT). Shanghai, 2018: 1108 [7] Wu W, Hu J T, Zhang J L. Prognostics of machine health condition using an improved ARIMA-based prediction method // 2007 2nd IEEE Conference on Industrial Electronics and Applications. Harbin, 2007: 1062 [8] Zhou Y P, Huang M H. Lithium-ion batteries remaining useful life prediction based on a mixture of empirical mode decomposition and ARIMA model. Microelectron Reliab, 2016, 65: 265 [9] Tian Z G. An artificial neural network method for remaining useful life prediction of equipment subject to condition monitoring. J Intell Manuf, 2012, 23(2): 227 [10] [11] Mosallam A, Medjaher K, Zerhouni N. Data-driven prognostic 41.18 40 35 30 25 20 15 10 5 0 11125 10104 41.88 20.03 14.47 16.02 651 311 434 16 32 64 128 256 0 14000 RMSE RMSE Score Score 12000 10000 8000 6000 4000 2000 The number of neurons 图 11 神经元个数对评价指标的影响 Fig.11 Influence of the number of neurons on the evaluation metric 600 17.26 RMSE Score 15.90 16.00 515 15.36 15.39 15.09 14.47 481 500 436 390 400 300 364 352 17.5 15.0 12.5 10.0 7.5 5.0 2.5 0 311 200 100 0 30 35 40 45 50 55 60 Time window size RMSE Score 图 12 时间窗口大小对评价指标的影响 Fig.12 Influence of the time window size on the evaluation metric RUL 140 120 100 60 80 40 20 0 0 20 40 80 100 60 Test engine number Predicted RUL True RUL 图 13 测试集真实 RUL 与预测 RUL 的对比 Fig.13 Comparison of real and predicted RUL in the test set 张永峰等: 基于集成神经网络的剩余寿命预测 · 1379 ·
·1380 工程科学学报,第42卷,第10期 method based on Bayesian approaches for direct remaining useful Beijing,2016:135 life prediction.JIntell Manuf,2016,27(5):1037 [19]Zhang Y Z,Xiong R.He H W,et al.Long short-term memory [12]Khelif R,Chebel-Morello B,Malinowski S,et al.Direct remaining recurrent neural network for remaining useful life prediction of useful life estimation based on support vector regression.IEEE lithium-ion batteries.IEEE Trans Veh Technol,2018,67(7):5695 Trans Ind Electron,2017,64(3):2276 [20]Ordonez C,Lasheras F S,Roca-Pardinas J,et al.A hybrid [13]MiaoQ,Xie L,Cui H J,et al.Remaining useful life prediction of ARIMA-SVM model for the study of the remaining useful life of lithium-ion battery with unscented particle filter technique. aircraft engines.JCompu Appl Math,2019,346:184 Microelectron Reliab,2013,53(6):805 [21]Guo L,Li N P,Jia F,et al.A recurrent neural network based health [14]Tobon-Mejia D A,Medjaher K,Zerhouni N,et al.A data-driven indicator for remaining useful life prediction of bearings. failure prognostics method based on mixture of Gaussians hidden Neurocompuing,2017,240:98 Markov models.IEEE Trans Reliab,2012,61(2):491 [22]Hochreiter S,Schmidhuber J.Long short-term memory.Neural [15]Li Z X,Wu D Z,Hu C,et al.An ensemble learning-based Comput,1997,9(8):1735 prognostic approach with degradation-dependent weights for [23]Wu Y T,Yuan M,Dong S P,et al.Remaining useful life remaining useful life prediction.Reliab Eng Syst Saf,2019,184: estimation of engineered systems using vanilla LSTM neural 110 networks.Neurocomputing,2018,275:167 [16]Heimes F O.Recurrent neural networks for remaining useful life [24]Zheng S,Ristovski K,Farahat A,et al.Long short-term memory estimation /2008 International Conference on Prognostics and network for remaining useful life estimation //2017 /EEE Health Management.Denver,2008:1 International Conference on Prognostics and Health Management [17]Babu G S,Zhao P L,Li X L.Deep convolutional neural network (ICPHM).Dallas,2017:88 based regression approach for estimation of remaining useful life / [25]Zhang C,Lim P,Qin A K,et al.Multiobjective deep belief International Conference on Database Systems for Advanced networks ensemble for remaining useful life estimation in Applications.Dallas,2016:214 prognostics.IEEE Trans Neural Networks Learn Syst,2017, [18]Yuan M,Wu Y T,Lin L.Fault diagnosis and remaining useful life 28(10):2306 estimation of aero engine using LSTM neural network /2016 [26]Zhang JJ,Wang P,Yan R Q,et al.Long short-term memory for IEEE International Conference on Aircraft Utility Systems(AUS). machine remaining life prediction./Manuf Syst,2018,48:78
method based on Bayesian approaches for direct remaining useful life prediction. J Intell Manuf, 2016, 27(5): 1037 Khelif R, Chebel-Morello B, Malinowski S, et al. Direct remaining useful life estimation based on support vector regression. IEEE Trans Ind Electron, 2017, 64(3): 2276 [12] Miao Q, Xie L, Cui H J, et al. Remaining useful life prediction of lithium-ion battery with unscented particle filter technique. Microelectron Reliab, 2013, 53(6): 805 [13] Tobon-Mejia D A, Medjaher K, Zerhouni N, et al. A data-driven failure prognostics method based on mixture of Gaussians hidden Markov models. IEEE Trans Reliab, 2012, 61(2): 491 [14] Li Z X, Wu D Z, Hu C, et al. An ensemble learning-based prognostic approach with degradation-dependent weights for remaining useful life prediction. Reliab Eng Syst Saf, 2019, 184: 110 [15] Heimes F O. Recurrent neural networks for remaining useful life estimation // 2008 International Conference on Prognostics and Health Management. Denver, 2008: 1 [16] Babu G S, Zhao P L, Li X L. Deep convolutional neural network based regression approach for estimation of remaining useful life // International Conference on Database Systems for Advanced Applications. Dallas, 2016: 214 [17] Yuan M, Wu Y T, Lin L. Fault diagnosis and remaining useful life estimation of aero engine using LSTM neural network // 2016 IEEE International Conference on Aircraft Utility Systems (AUS). [18] Beijing, 2016: 135 Zhang Y Z, Xiong R, He H W, et al. Long short-term memory recurrent neural network for remaining useful life prediction of lithium-ion batteries. IEEE Trans Veh Technol, 2018, 67(7): 5695 [19] Ordóñez C, Lasheras F S, Roca-Pardiñas J, et al. A hybrid ARIMA–SVM model for the study of the remaining useful life of aircraft engines. J Comput Appl Math, 2019, 346: 184 [20] Guo L, Li N P, Jia F, et al. A recurrent neural network based health indicator for remaining useful life prediction of bearings. Neurocomputing, 2017, 240: 98 [21] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Comput, 1997, 9(8): 1735 [22] Wu Y T, Yuan M, Dong S P, et al. Remaining useful life estimation of engineered systems using vanilla LSTM neural networks. Neurocomputing, 2018, 275: 167 [23] Zheng S, Ristovski K, Farahat A, et al. Long short-term memory network for remaining useful life estimation // 2017 IEEE International Conference on Prognostics and Health Management (ICPHM). Dallas, 2017: 88 [24] Zhang C, Lim P, Qin A K, et al. Multiobjective deep belief networks ensemble for remaining useful life estimation in prognostics. IEEE Trans Neural Networks Learn Syst, 2017, 28(10): 2306 [25] Zhang J J, Wang P, Yan R Q, et al. Long short-term memory for machine remaining life prediction. J Manuf Syst, 2018, 48: 78 [26] · 1380 · 工程科学学报,第 42 卷,第 10 期