第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Now.2021 D0:10.11992tis.202009020 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210831.1251.004html 基于AC-GAN数据重构的风电机组 主轴承温度监测方法 尹诗2,侯国莲2,胡晓东2,周继威 (1.中能电力科技开发有限公司,北京100034:2.华北电力大学控制与计算机工程学院,北京102206) 摘要:为更好地识别风电机组主轴承运行状态,提出了一种基于辅助分类生成对抗网络(auxiliary classifier generative adversarial networks,AC-GAN)的数据重构算法对风电机组主轴承温度进行监测。首先,利用采集与 监视控制系统(supervisory control and data acquisition,SCADA)时序数据建立基于轻型梯度增强学习器((light gradient boosting machine,LightGBM)的主轴承温度预测模型,并计算其残差特征。其次,利用统计过程控制 (statistical process control,SPC)方法对主轴承温度异常残差在控制线范围内进行筛选,并利用AC-GAN算法对 残差进行重构。最后,分别提取主轴承温度正常和异常的残差特征,建立基于自然梯度提升(natural gradient boosting,NGBoost)的主轴承状态监测模型。实验结果表明,该方法对主轴承运行状态判断准确度高达87.5% 能够有效地监测风电机组轴承类运行状态。 关键词:轻型梯度增强学习器;辅助分类生成对抗网络;自然梯度提升;风电机组;主轴承;状态监测;数据重 构;温度残差 中图分类号:TP8,TK83文献标志码:A文章编号:1673-4785(2021)06-1106-11 中文引用格式:尹诗,侯国莲,胡晓东,等.基于AC-GAN数据重构的风电机组主轴承温度监测方法机.智能系统学报,2021, 16(6):1106-1116. 英文引用格式:YIN Shi,.HOU Guolian,HU Xiaodong,.etal.Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction[J).CAAI transactions on intelligent systems,2021,16(6):1106-1116. Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction YIN Shi,HOU Guolian',HU Xiaodong',ZHOU Jiwei' (1.ZhongNeng Power-Tech Development Co.,LTD,Beijing 100034,China;2.College of Control and Computer Engineering,North China Electric Power University,Beijing 102206,China) Abstract:To better identify the operating status of the main bearing of wind turbines,a data reconstruction algorithm based on auxiliary classifier generative adversarial networks(AC-GAN)is proposed to monitor the temperature of the main bearing of the wind turbine.First,this work uses the time series data of the supervisory control and data acquisi- tion system to establish the wind turbine's main bearing temperature prediction model based on the light gradient boost- ing machine and calculates its residual characteristics.Second,the statistical process control(SPC)method is used to screen abnormal temperature residuals of the main bearing within the control line,and the AC-GAN algorithm is used to reconstruct the residual sequence.Finally,normal and abnormal temperature residual characteristics of the main bearing are extracted,and the main bearing status monitoring model based on the natural gradient boosting algorithm is estab- lished.Experimental results show that the accuracy of the method for judging the operating state of the main bearing is as high as 87.5%,for which the algorithm can effectively monitor the running state of wind turbine bearings. Keywords:light gradient boosting machine;auxiliary classifier generative adversarial networks;natural gradient boost- ing:wind turbines:main bearing:condition monitoring:data reconstruction:temperature residual 由于风电机组所处运行环境恶劣,受气象、 收稿日期:2020-09-15.网络出版日期:2021-08-31. 基金项目:国家自然科学基金项目(61973116). 设备老化等多种不确定因素的影响,容易出现性 通信作者:尹诗.E-mail:yinshi502@163.com 能与运行状态劣化,从而造成关键部件失效。风
DOI: 10.11992/tis.202009020 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210831.1251.004.html 基于 AC-GAN 数据重构的风电机组 主轴承温度监测方法 尹诗1,2,侯国莲2 ,胡晓东2 ,周继威1 (1. 中能电力科技开发有限公司,北京 100034; 2. 华北电力大学 控制与计算机工程学院,北京 102206) 摘 要:为更好地识别风电机组主轴承运行状态,提出了一种基于辅助分类生成对抗网络 (auxiliary classifier generative adversarial networks, AC-GAN) 的数据重构算法对风电机组主轴承温度进行监测。首先,利用采集与 监视控制系统 (supervisory control and data acquisition, SCADA) 时序数据建立基于轻型梯度增强学习器 (light gradient boosting machine, LightGBM) 的主轴承温度预测模型,并计算其残差特征。其次,利用统计过程控制 (statistical process control, SPC) 方法对主轴承温度异常残差在控制线范围内进行筛选,并利用 AC-GAN 算法对 残差进行重构。最后,分别提取主轴承温度正常和异常的残差特征,建立基于自然梯度提升 (natural gradient boosting, NGBoost) 的主轴承状态监测模型。实验结果表明,该方法对主轴承运行状态判断准确度高达 87.5%, 能够有效地监测风电机组轴承类运行状态。 关键词:轻型梯度增强学习器;辅助分类生成对抗网络;自然梯度提升;风电机组;主轴承;状态监测;数据重 构;温度残差 中图分类号:TP8; TK83 文献标志码:A 文章编号:1673−4785(2021)06−1106−11 中文引用格式:尹诗, 侯国莲, 胡晓东, 等. 基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 [J]. 智能系统学报, 2021, 16(6): 1106–1116. 英文引用格式:YIN Shi, HOU Guolian, HU Xiaodong, et al. Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1106–1116. Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction YIN Shi1,2 ,HOU Guolian2 ,HU Xiaodong2 ,ZHOU Jiwei1 (1. ZhongNeng Power-Tech Development Co., LTD, Beijing 100034, China; 2. College of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China) Abstract: To better identify the operating status of the main bearing of wind turbines, a data reconstruction algorithm based on auxiliary classifier generative adversarial networks (AC-GAN) is proposed to monitor the temperature of the main bearing of the wind turbine. First, this work uses the time series data of the supervisory control and data acquisition system to establish the wind turbine’s main bearing temperature prediction model based on the light gradient boosting machine and calculates its residual characteristics. Second, the statistical process control (SPC) method is used to screen abnormal temperature residuals of the main bearing within the control line, and the AC-GAN algorithm is used to reconstruct the residual sequence. Finally, normal and abnormal temperature residual characteristics of the main bearing are extracted, and the main bearing status monitoring model based on the natural gradient boosting algorithm is established. Experimental results show that the accuracy of the method for judging the operating state of the main bearing is as high as 87.5%, for which the algorithm can effectively monitor the running state of wind turbine bearings. Keywords: light gradient boosting machine; auxiliary classifier generative adversarial networks; natural gradient boosting; wind turbines; main bearing; condition monitoring; data reconstruction; temperature residual 由于风电机组所处运行环境恶劣,受气象、 设备老化等多种不确定因素的影响,容易出现性 能与运行状态劣化,从而造成关键部件失效。风 收稿日期:2020−09−15. 网络出版日期:2021−08−31. 基金项目:国家自然科学基金项目 (61973116). 通信作者:尹诗. E-mail:yinshi502@163.com. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1107· 电机组主轴承连接着轮毂与齿轮箱,作为重要的 象,提出了一种基于辅助分类生成对抗网络(aux- 机械传动部件之一,其可靠性要求较高,但主轴 iliary classifiergenerative adversarial networks,AC- 承内部结构和受力较复杂,且常常运行在重负 GAN)数据重构的风电机组主轴承状态监测方法 荷、强冲击的工作状态下,容易发生磨损、不对 对其运行状态进行监测。 中、不平衡等问题。风电机组主轴承一旦损坏, 受限于维修过程的复杂,其维修费用高、周期长, 1建模方法设计 严重影响风电场的经济效益。 温度是风电机组运行数据中较为重要的观测 风电机组故障诊断研究目前主要集中在振动 指标,具有很强的抗干扰性,不会轻易因环境或 信号分析法方法、SCADA数据分析方法、视频图 工况变化产生剧烈跳跃变化。正常情况下,轴承 像检测方法、润滑油检测方法、声发射信号检测 温度随着轴承开始运行缓慢上升,后续达到稳定 方法、应变传感信号检测方法等。数据挖掘方 运行状态。风电机组主轴承温度随着热容量、散 法能够在大量数据中发现隐含的知识或潜在规 热速度、转速和负载而发生变化。但机械传动设 律,因此近年来在各行业中具有广泛的研究和应 备在运行过程中产生的磨损、润滑不良、屏蔽不 用。随着数据挖掘算法的不断发展,一些算法逐 良等问题往往会导致温度数据异常,如果主轴承 渐被应用到故障预警和故障辨识中)。目前基于 长期在高温下运行,其运行寿命将会大大缩短, 数据挖掘的风电机组的状态监测研究主要基于采 甚至会引起更为严重的故障事故。因此,本文 集与监视控制系统(supervisory control and data ac- 重点分析风电机组主轴承温度参数的变化,监测 quisition,.SCADA)时序数据,利用相关智能学习 并实时掌握主轴承运行状态,发现其潜在隐患。 算法建立设备部件的正常运行模型,通过分析正 风电机组主轴承温度预测模型的准确度、泛化能 常模型预测值与实际观测值之间的残差进行状态 力以及状态决策模型的准确度决定着主轴承状态 监测。文献「4]利用深度置信网络建立发电机同 监测的精准度。建模流程如图1所示。 步定子故障预警模型,对残差设定故障阈值进行 首先,利用SCADA时序数据建立基于轻型 状态监测。文献[5]利用BOX-COX变换和相对 梯度增强学习器(light gradient boosting machine 熵对残差进行分析,对齿轮箱进行状态监测。文 LightGBM)的主轴承温度预测模型,定义模型预 献[6]利用数据分类重建和提取衰退指标的方法 测输出温度与实际观测温度之差为残差。相较于 对齿轮箱进行状态监测。文献[7将DS证据理论 其他算法,LightGBM算法无需通过计算所有样本 应用于SCADA警报分析对风电机组进行故障诊断。 信息增益,其内置的特征降维技术具有较高的预 文献[8]通过提取风电机组SCADA系统中的实 测精度和较快的训练速度,比较适合于工程实现。 际运行数据,采用双向递归神经网络建立风电机 其次,通过滑动窗口和统计过程控制(statist- 组运行预测模型,根据滑动窗口的实际值与实测 ical process control,.SPC)方法将异常主轴承残差 值之间的残差,利用莱特准则实现故障预警。 中的正常残差和异常残差进行有效区分。利用 以上方法对残差进行分析时需要人为设定故 AC-GAN辅助分类生成对抗网络生成与主轴承异 障预警阈值,所述方法适用于某一特定风电场, 常残差分布相似的残差数据集,用来替换异常主 其泛化性有待提升。文献[9]利用SCADA数据 轴承残差分布中的正常残差数据集。由于风电机 提出了基于工况辨识的Bi-RNN神经网络,建立 组异常主轴承的残差特征不全表征为异常状态,无 预警模型对风电机组主轴承运行状态进行监测, 法统一进行标记。因此,利用AC-GAN将温度残 该方法在故障决策方面引入随机森林算法避免人 差特征进行数据重构,得到异常主轴承下的残差 为设定故障阈值,但由于故障发生前SCADA数 特征,从根本上解决了异常样本数据的标记问题, 据不全是表征故障的数据,所建立的状态决策模 进而提高了后续主轴承状态决策模型的预测精度。 型精度有待提升。 最后,建立基于自然梯度提升(natural gradi- 上述研究在不同程度上对风电机组关键核心 ent boosting,.NGBoost)的状态决策模型对风电机 部件的状态监测和故障预警起到了推动作用,但 组主轴承状态进行判断。NGBoost算法利用自然 是普遍存在泛化性弱,故障决策受主观因素影 梯度进行概率预测,解决了传统状态决策方法中 响、缺乏理论支撑等问题,限制了状态监测模型 采用单一固定阈值或人为主观设定阈值进行风电 的工程实用性。 机组运行状态监测的问题,提高了状态决策模型 因此,本文以风电机组主轴承温度为研究对 的预测精度和泛化性
电机组主轴承连接着轮毂与齿轮箱,作为重要的 机械传动部件之一,其可靠性要求较高,但主轴 承内部结构和受力较复杂,且常常运行在重负 荷、强冲击的工作状态下,容易发生磨损、不对 中、不平衡等问题[1]。风电机组主轴承一旦损坏, 受限于维修过程的复杂,其维修费用高、周期长, 严重影响风电场的经济效益。 风电机组故障诊断研究目前主要集中在振动 信号分析法方法、SCADA 数据分析方法、视频图 像检测方法、润滑油检测方法、声发射信号检测 方法、应变传感信号检测方法等[2]。数据挖掘方 法能够在大量数据中发现隐含的知识或潜在规 律,因此近年来在各行业中具有广泛的研究和应 用。随着数据挖掘算法的不断发展,一些算法逐 渐被应用到故障预警和故障辨识中[3]。目前基于 数据挖掘的风电机组的状态监测研究主要基于采 集与监视控制系统 (supervisory control and data acquisition, SCADA) 时序数据,利用相关智能学习 算法建立设备部件的正常运行模型,通过分析正 常模型预测值与实际观测值之间的残差进行状态 监测。文献 [4] 利用深度置信网络建立发电机同 步定子故障预警模型,对残差设定故障阈值进行 状态监测。文献 [5] 利用 BOX-COX 变换和相对 熵对残差进行分析,对齿轮箱进行状态监测。文 献 [6] 利用数据分类重建和提取衰退指标的方法 对齿轮箱进行状态监测。文献 [7] 将 DS 证据理论 应用于 SCADA 警报分析对风电机组进行故障诊断。 文献 [8] 通过提取风电机组 SCADA 系统中的实 际运行数据,采用双向递归神经网络建立风电机 组运行预测模型,根据滑动窗口的实际值与实测 值之间的残差,利用莱特准则实现故障预警。 以上方法对残差进行分析时需要人为设定故 障预警阈值,所述方法适用于某一特定风电场, 其泛化性有待提升。文献 [9] 利用 SCADA 数据 提出了基于工况辨识的 Bi-RNN 神经网络,建立 预警模型对风电机组主轴承运行状态进行监测, 该方法在故障决策方面引入随机森林算法避免人 为设定故障阈值,但由于故障发生前 SCADA 数 据不全是表征故障的数据,所建立的状态决策模 型精度有待提升。 上述研究在不同程度上对风电机组关键核心 部件的状态监测和故障预警起到了推动作用,但 是普遍存在泛化性弱,故障决策受主观因素影 响、缺乏理论支撑等问题,限制了状态监测模型 的工程实用性。 因此,本文以风电机组主轴承温度为研究对 象,提出了一种基于辅助分类生成对抗网络 (auxiliary classifiergenerative adversarial networks, ACGAN) 数据重构的风电机组主轴承状态监测方法 对其运行状态进行监测。 1 建模方法设计 温度是风电机组运行数据中较为重要的观测 指标,具有很强的抗干扰性,不会轻易因环境或 工况变化产生剧烈跳跃变化。正常情况下,轴承 温度随着轴承开始运行缓慢上升,后续达到稳定 运行状态。风电机组主轴承温度随着热容量、散 热速度、转速和负载而发生变化。但机械传动设 备在运行过程中产生的磨损、润滑不良、屏蔽不 良等问题往往会导致温度数据异常,如果主轴承 长期在高温下运行,其运行寿命将会大大缩短, 甚至会引起更为严重的故障事故[10]。因此,本文 重点分析风电机组主轴承温度参数的变化,监测 并实时掌握主轴承运行状态,发现其潜在隐患。 风电机组主轴承温度预测模型的准确度、泛化能 力以及状态决策模型的准确度决定着主轴承状态 监测的精准度。建模流程如图 1 所示。 首先,利用 SCADA 时序数据建立基于轻型 梯度增强学习器 (light gradient boosting machine, LightGBM) 的主轴承温度预测模型,定义模型预 测输出温度与实际观测温度之差为残差。相较于 其他算法,LightGBM 算法无需通过计算所有样本 信息增益,其内置的特征降维技术具有较高的预 测精度和较快的训练速度,比较适合于工程实现。 其次,通过滑动窗口和统计过程控制 (statistical process control, SPC) 方法将异常主轴承残差 中的正常残差和异常残差进行有效区分。利用 AC-GAN 辅助分类生成对抗网络生成与主轴承异 常残差分布相似的残差数据集,用来替换异常主 轴承残差分布中的正常残差数据集。由于风电机 组异常主轴承的残差特征不全表征为异常状态,无 法统一进行标记。因此,利用 AC-GAN 将温度残 差特征进行数据重构,得到异常主轴承下的残差 特征,从根本上解决了异常样本数据的标记问题, 进而提高了后续主轴承状态决策模型的预测精度。 最后,建立基于自然梯度提升 (natural gradient boosting, NGBoost) 的状态决策模型对风电机 组主轴承状态进行判断。NGBoost 算法利用自然 梯度进行概率预测,解决了传统状态决策方法中 采用单一固定阈值或人为主观设定阈值进行风电 机组运行状态监测的问题,提高了状态决策模型 的预测精度和泛化性。 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1107·
·1108· 智能系统学报 第16卷 采集健康历史SCADA数据 呆集异常历史SCADA数据 采集SCADA实时数据 数据预处理 数据预处理 数据预处理 特征提取 特征提取 特征提取 使用LightGBM 预测模型预测 温度值 计算异常状态参数残差 计算健康状态参数残差 计算监测状态参数残差 使用SPC方法区分正常和异常残差 特征提取 特征提取 利用AC-GAN网络重构异常残差 特征提取 建立NGBoost故障决策模型 故障决策模型 预测结果 图1建模方法流程 Fig.1 Flow chart of the modeling method 2数据预处理 率小于或等于0的数据别除: 表1 SCADA数据示例 2.1 SCADA数据说明 Table 1 Examples of SCADA data 本文所采用的SCADA数据是河北某风电场 1.5MW双馈式风力发电机组的运行数据。该风 采样时刻 风速ms风向/() 发电机转有功功 速/rmin率W 电场的风电机组切入风速为3m/s,切出数据为 2019/3/120:38 3.47 1.81 1130.52 240.26 25m/s。SCADA数据每10min记录一条,为了消 2019/3/120:48 3.09 -3.91 1132.56 215.71 除偶发性的故障对主轴温度预测模型的影响,本 文共选取该风电场1.5MW机组共36台机组,包 2019/9/210:28 4.89 -1.51 1424.43 420.00 括23台主轴承正常机组,13台主轴承异常机组。 2019/9/210:38 4.85 -1.45 1461.12450.56 这36台风电机组生产厂家和型号相同,并且都是 3)采用统计学中的四分位原理山对每个子 同一个风电场的风电机组,因此所利用的风资源 工况区间的SCADA数据进行清洗。 和地理环境相似,能够表征该风电场的所有运行 为说明去除异常噪声数据的效果,本文对2.1 工况。SCADA时序数据包括时间、风速、风向、 节提到的风电机组历史SCADA数据进行了异常 有功功率、发电机转速、叶轮转速、偏航角度、环 噪声数据去除,如图2所示。图2(a)为该风电机 境温度、齿轮箱油温等百余个有效观测数据。表1 组历史SCADA数据过滤前的风速功率曲线图, 为部分SCADA有效数据。 图2(b)为过滤后的风速功率曲线图。 2.2数据清洗 2.3特征数据提取 由于风电机组本身和SCADA系统在运行过程 风电机组SCADA数据中并非所有的时序数 中掉电、传感器损坏、系统宕机、通信设备故障等 据均与风电机组主轴承温度相关,为提高风电机 因素造成SCADA数据中夹杂着很多异常噪声数 组主轴承温度预测模型精度,同时降低模型训练 据。在建模前首先对数据进行清洗,其过程如下: 时长,选取与风电机组主轴承运行状态相关的特 1)采用分区间方法按风速0.5m/s划分子工 征子集。传统的特征筛选方式为利用皮尔森相关 况区间; 系数或根据工程师相关经验进行确定,皮尔森相 2)将小于切入风速、大于切出风速、有功功 关系数对数据的要求必须服从正态分布,但风电
数据预处理 数据预处理 特征提取 特征提取 计算异常状态参数残差 计算健康状态参数残差 采集异常历史 SCADA 数据 特征提取 计算监测状态参数残差 数据预处理 特征提取 特征提取 特征提取 采集 SCADA 实时数据 预测结果 故障决策模型 采集健康历史 SCADA 数据 使用 LightGBM 预测模型预测 温度值 使用 SPC 方法区分正常和异常残差 利用 AC-GAN 网络重构异常残差 建立 NGBoost 故障决策模型 图 1 建模方法流程 Fig. 1 Flow chart of the modeling method 2 数据预处理 2.1 SCADA 数据说明 本文所采用的 SCADA 数据是河北某风电场 1.5 MW 双馈式风力发电机组的运行数据。该风 电场的风电机组切入风速为 3 m/s,切出数据为 25 m/s。SCADA 数据每 10 min 记录一条,为了消 除偶发性的故障对主轴温度预测模型的影响,本 文共选取该风电场 1.5 MW 机组共 36 台机组,包 括 23 台主轴承正常机组,13 台主轴承异常机组。 这 36 台风电机组生产厂家和型号相同,并且都是 同一个风电场的风电机组,因此所利用的风资源 和地理环境相似,能够表征该风电场的所有运行 工况。SCADA 时序数据包括时间、风速、风向、 有功功率、发电机转速、叶轮转速、偏航角度、环 境温度、齿轮箱油温等百余个有效观测数据。表 1 为部分 SCADA 有效数据。 2.2 数据清洗 由于风电机组本身和 SCADA 系统在运行过程 中掉电、传感器损坏、系统宕机、通信设备故障等 因素造成 SCADA 数据中夹杂着很多异常噪声数 据。在建模前首先对数据进行清洗,其过程如下: 1) 采用分区间方法按风速 0.5 m/s 划分子工 况区间; 2) 将小于切入风速、大于切出风速、有功功 率小于或等于 0 的数据剔除; 表 1 SCADA 数据示例 Table 1 Examples of SCADA data 采样时刻 风速/(m∙s−1) 风向/(°) 发电机转 速/(r·min−1) 有功功 率/kW 2019/3/1 20:38 3.47 1.81 1 130.52 240.26 2019/3/1 20:48 3.09 −3.91 1 132.56 215.71 2019/9/2 10:28 4.89 −1.51 1 424.43 420.00 2019/9/2 10:38 4.85 −1.45 1 461.12 450.56 3) 采用统计学中的四分位原理[11] 对每个子 工况区间的 SCADA 数据进行清洗。 为说明去除异常噪声数据的效果,本文对 2.1 节提到的风电机组历史 SCADA 数据进行了异常 噪声数据去除,如图 2 所示。图 2(a) 为该风电机 组历史 SCADA 数据过滤前的风速功率曲线图, 图 2(b) 为过滤后的风速功率曲线图。 2.3 特征数据提取 风电机组 SCADA 数据中并非所有的时序数 据均与风电机组主轴承温度相关,为提高风电机 组主轴承温度预测模型精度,同时降低模型训练 时长,选取与风电机组主轴承运行状态相关的特 征子集。传统的特征筛选方式为利用皮尔森相关 系数或根据工程师相关经验进行确定,皮尔森相 关系数对数据的要求必须服从正态分布,但风电 ·1108· 智 能 系 统 学 报 第 16 卷
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1109· 机组由于弃风、限电等运行工况的变化导致SCADA 表2斯皮尔曼相关性系数 数据并不符合正态分布,且皮尔森相关系数受到 Table 2 Spearman correlation coefficient 数据异常值的影响较大,仅适用于某些特定场合 选取的特征 斯皮尔曼相关性系数 下的风电场或风电机组。鉴于此,本文选取相关 发电机转速 0.880 系数收敛快、可解释性好且对数据分布没有特殊 叶轮转速 0.848 要求的斯皮尔曼相关性分析方法提取直接或者间 机舱温度 0.823 接反映风电机组主轴承温度特征的参数集),斯 有功功率 0.808 皮尔曼相关系数的计算步骤为: 环境温度 0.804 I)SCADA数据特征中主轴承温度定义为Y, 风速 0.780 风向 其他特征定义为X,将X:和Y列所对应的数据转 0.694 桨叶角度 0.648 换为各自列向量的排名,记为R(X)和R(Y)。 A相电流 0.532 2)两个列向量中对应数据RX)和R()之间 偏航角度 0.514 的差异d为 提取的特征数据中往往具有不同的量纲和量 d= IR(X)-R(Y) 纲单位,为了消除特征数据之间的量纲影响,将 两个列向量之间的相关性R为 数据归一化处理,计算公式为 6×d R.=1-N(N-1) =mcm Xmax-Xmin 式中:x为每一个SCADA特征数据;Xmean为特征 式中:i为每一列SCADA特征数据:N为SCADA 数据的均值;xmax为特征数据的最大值;xn为特 数据特征的长度。斯皮尔曼系数高于0.5时特征 征数据的最小值:x。为归一化以后的特征数据。 之间的相关性为强相关,因此,通过斯皮尔曼相 关性系数分析,得到SCADA数据中与主轴承温 3 基于LightGBM的风电机组主轴承 度相关性较高的特征,见表2所示。因此,选取发 温度预测 电机转速、叶轮转速、机舱温度等10个特征。 3.1 LightGBM算法 1600 1400 极限梯度提升(eXtreme gradient boosting,XG- 1200 Boost)算法是在自适应增强(adaptive boosting,ad- 1000 aBoost)算法和梯度提升迭代决策树(gradient 800 600 boosting decision tree,GBDT)算法基础上优化形成 400 的算法1,具有良好的预测精度和分类准确率,在 200 众多领域得到了广泛的应用。但XGBoost算法普 0 5 10 15 20 遍存在训练耗时长、内存占比大等缺点。针对这 风速/ms 些缺点,Ke等做了相应的改进,并在2017年提 (a)数据过滤前风速功率曲线 出了LightGBM算法。LightGBM算法无需计算 1600 所有样本信息增益,具有训练效率高、低内存、高 1400 准确率、并行化学习等优势,较适合于工程实践。 1200 LightGBM使用直方图算法替换了GBDT的 1000 预排序,能够在不损害准确率的前提下加快GB 800 600 DT模型的训练速度9。为保证结果准确性,算法 400 使用梯度单边采样技术过滤大部分小梯度数据, 200 在计算信息增益的时候只利用具有高梯度的数据 7.510.012.515.017.520.022.5 信息;为大幅度减少占用内存,采用独立特征合并 0 5.0 风速/(ms) 技术实现互斥特征的捆绑,减少样本特征数据。 (b)数据过滤后风速功率曲线 假设训练一个具有T棵树的LightGBM模 图2 SCADA数据过滤前后风功率对比图 型,给定数据集为D={(xyi=1,2…,n,∈R Fig.2 Contrast chart of the wind-power before and after y:∈R,其中给定的数据集共有n个样本,每个样 SCADA data filtering 本:对应m个特征和一个标签值y:。LightGBM
机组由于弃风、限电等运行工况的变化导致 SCADA 数据并不符合正态分布,且皮尔森相关系数受到 数据异常值的影响较大,仅适用于某些特定场合 下的风电场或风电机组。鉴于此,本文选取相关 系数收敛快、可解释性好且对数据分布没有特殊 要求的斯皮尔曼相关性分析方法提取直接或者间 接反映风电机组主轴承温度特征的参数集[12] ,斯 皮尔曼相关系数的计算步骤为: Y Xi Xi Y R(Xi) R(Y) 1)SCADA 数据特征中主轴承温度定义为 , 其他特征定义为 ,将 和 列所对应的数据转 换为各自列向量的排名,记为 和 。 R(Xi) R(Y) d 2) 两个列向量中对应数据 和 之间 的差异 为 d = ∑N i=1 |R(Xi)−R(Y)| 2 两个列向量之间的相关性 Rs为 Rs = 1− 6×d N(N2 −1) 式中: i 为每一列 SCADA 特征数据; N 为 SCADA 数据特征的长度。斯皮尔曼系数高于 0.5 时特征 之间的相关性为强相关,因此,通过斯皮尔曼相 关性系数分析,得到 SCADA 数据中与主轴承温 度相关性较高的特征,见表 2 所示。因此,选取发 电机转速、叶轮转速、机舱温度等 10 个特征。 5 10 15 20 风速/(m·s−1) (a) 数据过滤前风速功率曲线 0 200 400 600 800 1 000 1 200 1 400 1 600 功率/kW 0 200 400 600 800 1 000 1 200 1 400 1 600 功率/kW 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 风速/(m·s−1) (b) 数据过滤后风速功率曲线 图 2 SCADA 数据过滤前后风功率对比图 Fig. 2 Contrast chart of the wind-power before and after SCADA data filtering 表 2 斯皮尔曼相关性系数 Table 2 Spearman correlation coefficient 选取的特征 斯皮尔曼相关性系数 发电机转速 0.880 叶轮转速 0.848 机舱温度 0.823 有功功率 0.808 环境温度 0.804 风速 0.780 风向 0.694 桨叶角度 0.648 A相电流 0.532 偏航角度 0.514 提取的特征数据中往往具有不同的量纲和量 纲单位,为了消除特征数据之间的量纲影响,将 数据归一化处理,计算公式为 xn = x− xmean xmax − xmin x xmean xmax xmin xn 式中: 为每一个 SCADA 特征数据; 为特征 数据的均值; 为特征数据的最大值; 为特 征数据的最小值; 为归一化以后的特征数据。 3 基于 LightGBM 的风电机组主轴承 温度预测 3.1 LightGBM 算法 极限梯度提升 (eXtreme gradient boosting, XGBoost) 算法是在自适应增强 (adaptive boosting, adaBoost) 算法和梯度提升迭代决策树 (gradient boosting decision tree,GBDT) 算法基础上优化形成 的算法[13] ,具有良好的预测精度和分类准确率,在 众多领域得到了广泛的应用。但 XGBoost 算法普 遍存在训练耗时长、内存占比大等缺点。针对这 些缺点,Ke 等 [14] 做了相应的改进,并在 2017 年提 出了 LightGBM 算法。LightGBM 算法无需计算 所有样本信息增益,具有训练效率高、低内存、高 准确率、并行化学习等优势,较适合于工程实践。 LightGBM 使用直方图算法替换了 GBDT 的 预排序,能够在不损害准确率的前提下加快 GBDT 模型的训练速度[15]。为保证结果准确性,算法 使用梯度单边采样技术过滤大部分小梯度数据, 在计算信息增益的时候只利用具有高梯度的数据 信息;为大幅度减少占用内存,采用独立特征合并 技术实现互斥特征的捆绑,减少样本特征数据[16]。 T D = {(xi , yi)|i = 1,2,··· ,n, xi ∈ R m , yi ∈ R} n xi m yi 假设训练一个具有 棵树的 LightGBM 模 型,给定数据集为 ,其中给定的数据集共有 个样本,每个样 本 对应 个特征和一个标签值 。LightGBM 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1109·
·1110· 智能系统学报 第16卷 算法在迭代过程中,假设在前一轮迭代中得到的 式中:为第i个主轴承温度的真实测量值;产为 强学习器是-(x),损失函数为Ly,f-(x),为了 第i个主轴承温度的预测值:为主轴承温度的真 让本轮迭代的损失函数最小,本轮迭代的目的是找到 实测量值的均值。LightGBM算法在均方根误差 分类回归树模型的弱学习器,(x),如式(1)所示: RMSE、决定系数2指标和训练时间上均优于 L(y,f(x))=L(y,f-(x)+h(x)) (1) XGBoost算法和CatBoost算法。表4为Light- 利用损失函数负梯度拟合本轮损失函数近似 GBM、XGBoost和CatBoost这3种算法在测试集 值,从而拟合一个树模型。第1轮的第i个样本 样本中残差特征对比。LightGBM算法在测试集 的损失函数LO,f(x)》的负梯度”:为 上的残差最大值为0.129,残差均值为0.022,基于 4=-L0fc》 LightGBM的风电机组主轴承温度预测在测试集 df(x:)f( 上具有较高的预测精度。 利用(x,x)拟合一个CART回归树,进而得 到t棵回归树所对应的叶子节点的范围为R:, 表3 LightGBM、XGBoost和CatBoost建模性能比较 Table 3 LightGBM,XGBoost,and CatBoost modeling i=1,2,…,J。其中J为叶子节点的样本,当损失 performance comparison 函数最小时拟合叶子节点输出值c为 建模方法 RMSE 2 时间s cu=argmin >L(y.f-(x)+c) XGBoost 0.021 0.978 4.9 XER LightGBM 0.012 0.992 1.6 式中:c是损失函数最小化时的常数值;:∈R表 CatBoost 0.035 0.954 5.2 示样本:属于第t棵树下的第j个叶子节点。本 轮的决策树拟合函数为 表43种算法测试集残差特征对比 Table 4 Comparison of residual characteristics of three al- h(x)= clx:eR) gorithms in test data 人 建模方法 残差最大值 残差平均值 式中:Ix:∈R)是指示函数,当xeR时,指示函 XGBoost 0.209 0.035 数的值为1,反之为0刀。进而本轮最终得到的强 LightGBM 0.129 0.022 学习器的表达式为 CatBoost 0.186 0.030 f(x)=f-(x)+ 基于LightGBM算法的主轴承温度预测模型 在测试集上的残差见图3所示。 3.2温度预测模型建立 选用10台主轴承正常机组的历史SCADA数 出 其实值预测值一残差值 obtlibmlwtu 据共38955组,按上述方法进行预处理后得到共 0.6 四 25946组数据。将数据集80%作为训练集,数据 -0.2 集20%作为测试集。本文所有试验运行环境均 200040006000800010000 测试集采样点数量 为:操作系统为Windows100、python版本为3.7.1、 集成开发运行环境为anaconda3,LightGBM算法 图3主轴承温度模型测试集残差 Fig.3 Residual error of the main bearing temperature XGBoost算法和随机森林算法调用sklearn的 model in the test data API。后续使用的AC-GAN生成对抗神经网络调 用kears深度学习框架APL,NGBoost算法调用斯 4 基于AC-GAN的主轴承温度残差 坦福的NGBoost框架。 重构 对比分析LightGBM算法、XGBoost算法、 CatBoost(categorical boosting)算法在风电机组训 基于AC-GAN的主轴承温度残差重构方法具 练主轴承温度预测模型的精度,如表3所示。 体步骤为:首先,采用SPC方法将主轴承异常机 采用模型训练时间、均方根误差RMSE和决 组残差在控制范围内的正常残差数据剔除;其 定系数2指标对建模精度进行评价,计算公式为 次,将控制范围之外的异常残差数据作为训练数 据,采用AC-GAN生成对抗网络生成与真实数据 RMsE=2o,- 分布相似的数据替换被剔除的数据。 4.1基于SPC的残差特征提取 -1②-2叫 SPC方法最初主要用来监测生产产品中的质 量问题,如果生产过程中出现随机质量问题说明
ft−1(x) L(y, ft−1(x)) ht(x) 算法在迭代过程中,假设在前一轮迭代中得到的 强学习器是 ,损失函数为 ,为了 让本轮迭代的损失函数最小,本轮迭代的目的是找到 分类回归树模型的弱学习器 ,如式 (1) 所示: L(y, ft(x)) = L(y, ft−1(x) + ht(x)) (1) t i L(yi , f(xi)) rti 利用损失函数负梯度拟合本轮损失函数近似 值,从而拟合一个树模型。第 轮的第 个样本 的损失函数 的负梯度 为 rti = − ∂L(yi , ft−1(xi)) ∂ f(xi) f(x)=ft−1 (x) (xi , xti) t Rti i = 1,2,··· , J J ct j 利用 拟合一个 CART 回归树,进而得 到 棵回归树所对应的叶子节点的范围为 , 。其中 为叶子节点的样本,当损失 函数最小时拟合叶子节点输出值 为 ct j = argmin | {z } c ∑ xi∈Rt j L(yi , ft−1(xi)+c) c xi ∈ Rt j xi t j 式中: 是损失函数最小化时的常数值; 表 示样本 属于第 棵树下的第 个叶子节点。本 轮的决策树拟合函数为 ht(x) = ∑J j=1 ct jI(xi ∈ Rt j) 式中: I(xi ∈ Rt j) 是指示函数,当 xi ∈ Rt j 时,指示函 数的值为 1,反之为 0 [17]。进而本轮最终得到的强 学习器的表达式为 ft(x) = ft−1(x)+ ∑J j=1 ct jI, xi ∈ Rt j 3.2 温度预测模型建立 选用 10 台主轴承正常机组的历史 SCADA 数 据共 38 955 组,按上述方法进行预处理后得到共 25 946 组数据。将数据集 80% 作为训练集,数据 集 20% 作为测试集。本文所有试验运行环境均 为:操作系统为 Windows10、python 版本为 3.7.1、 集成开发运行环境为 anaconda3,LightGBM 算法、 XGBoost 算法和随机森林算法调用 sklearn 的 API。后续使用的 AC-GAN 生成对抗神经网络调 用 kears 深度学习框架 API,NGBoost 算法调用斯 坦福的 NGBoost 框架。 对比分析 LightGBM 算法、XGBoost 算法、 CatBoost(categorical boosting) 算法在风电机组训 练主轴承温度预测模型的精度,如表 3 所示。 r 2 采用模型训练时间、均方根误差 RMSE 和决 定系数 指标对建模精度进行评价,计算公式为 RMSE = vt 1 n ∑n i=1 (yi −yˆi) 2 r 2 = 1− ∑n i=1 (yi −yˆi) 2 / ∑n i=1 (yi −y¯) 2 yi i yˆi i y¯ r 2 式中: 为第 个主轴承温度的真实测量值; 为 第 个主轴承温度的预测值; 为主轴承温度的真 实测量值的均值。LightGBM 算法在均方根误差 RMSE、决定系数 指标和训练时间上均优于 XGBoost 算法和 CatBoost 算法。表 4 为 LightGBM、XGBoost 和 CatBoost 这 3 种算法在测试集 样本中残差特征对比。LightGBM 算法在测试集 上的残差最大值为 0.129,残差均值为 0.022,基于 LightGBM 的风电机组主轴承温度预测在测试集 上具有较高的预测精度。 表 3 LightGBM、XGBoost 和 CatBoost 建模性能比较 Table 3 LightGBM, XGBoost, and CatBoost modeling performance comparison 建模方法 RMSE r 2 时间/s XGBoost 0.021 0.978 4.9 LightGBM 0.012 0.992 1.6 CatBoost 0.035 0.954 5.2 表 4 3 种算法测试集残差特征对比 Table 4 Comparison of residual characteristics of three algorithms in test data 建模方法 残差最大值 残差平均值 XGBoost 0.209 0.035 LightGBM 0.129 0.022 CatBoost 0.186 0.030 基于 LightGBM 算法的主轴承温度预测模型 在测试集上的残差见图 3 所示。 0 2 000 4 000 6 000 8 000 10 000 测试集采样点数量 −0.2 0.6 残差值归一化 真实值 预测值 残差值 图 3 主轴承温度模型测试集残差 Fig. 3 Residual error of the main bearing temperature model in the test data 4 基于 AC-GAN 的主轴承温度残差 重构 基于 AC-GAN 的主轴承温度残差重构方法具 体步骤为:首先,采用 SPC 方法将主轴承异常机 组残差在控制范围内的正常残差数据剔除;其 次,将控制范围之外的异常残差数据作为训练数 据,采用 AC-GAN 生成对抗网络生成与真实数据 分布相似的数据替换被剔除的数据。 4.1 基于 SPC 的残差特征提取 SPC 方法最初主要用来监测生产产品中的质 量问题,如果生产过程中出现随机质量问题说明 ·1110· 智 能 系 统 学 报 第 16 卷
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1111· 此过程处于统计过程当中,如果出现故障问题说 率。由于X是真实数据,所以判别器判定概率 明此过程处于失控状态。 接近于1,Xe是经生成器生成的数据并经过判 假设某产品在生产过程中的质量特征没有显 别器判定是否真实。GAN的目标函数为 著的非正态因素,而是由很多随机原因导致,则 minmax V(D.G)=E[lnP(S realr)]+ 认为该质量特性服从正态分布。其质量特征X EflnP(S fake Xfake ) 服从均值为4,标准差为σ的正态分布,则概率密 目标函数包含生成器目标函数和判别器目标 度分布函数为 函数,其中生成器目标函数为 1 f(x)= e-x-/2a rV2 min V(G)=E[lnP(S=fakelXrake)] Pu-30≤x≤μ+3o)=fwdr=0.973 判别器的目标函数为 质量特征在[山-3σ,μ+3σ]的概率为0.9973, max V(D)=E[lnP(S reall) 则认为在该范围内的数据是可控的,范围之外为 E[lnP(S=fake lXiake)] 不可控。因此,本文主轴承异常机组温度残差中 GAN训练过程中,G和D二者交替训练,相 设定μ-3σ,μ+3σ]的范围,范围内的残差为正常 互博弈,最终使G生成的样本符合真实样本概率 残差,范围之外为异常残差,其中μ和σ为主轴 分布,达到纳什均衡。GAN在训练过程中无需先 承正常机组测试集温度残差的均值和标准差。利 验概率即能学习真实样本的分布,但同时GAN 用SPC方法可以提取主轴承异常机组残差中的 对初始参数极其敏感,输入G的随机噪声信号无 特征,将残差中正常残差进行剔除。 约束,导致生成数据概率分布与真实数据差异大, 由文献[20]研究得知,轴承类故障在发生故 训练过程难以收敛,使整个训练过程出现震荡, 障前一个月会有明显的劣化趋势,因此选取风电 发生模式崩遗1。为了解决上述问题,文献[23] 机组主轴承故障发生前一个月的SCADA数据进 提出了带标签辅助分类器的生成对抗网络AC 行试验。图4为某机组主轴承故障发生前一个月 GAN,在传统GAN基础上增加了噪声数据对应 的温度残差,红线为μ-3σ下控制线,蓝线为 的标签c,使用两者来生成Xe=G(c,z),判别器 μ+3σ上控制线,由图可知故障发生前并不是所 计算生成数据的概率分布PSX)和类标签上的 有的残差都超出控制线范围。采用AC-GAN生 概率分布P(cX)分别为 成对抗网络重构主轴承异常机组温度残差序列, (P(SIX)=D(X) 得到异常主轴承下的残差特征,解决异常样本数 P(cX)=D(X) 据的标记问题,进而提高了后续主轴承状态决策 式中:c={0,1,2,…,n以,n表示样本类数。真实样本 模型的预测精度。 数据标记为正常温度残差(c=0)和异常温度残 02r ,残差 一上控制线一下控制线 差(c=I),AC-GAN通过内部博弈,最终实现主轴 史0.1 承异常机组温度残差的重构。 0 -0.1 4.3基于AC-GAN的温度残差重构 -0.2 -0.3 AC-GAN生成器和判别器均采用RNN神经 -0.4 网络,输入层为32个神经单元,隐含层有3层神 1000 2000 3000 4000 异常机组残差点数量 经单元,输出层为1个神经单元,激活函数为sg moid,损伤函数为均方误差。AC-GAN生成对抗 图4某机组故障发生前一个月温度残差 Fig.4 Residual diagram of one month before a unit failure 网络的基本框架见图5。 4.2AC-GAN算法介绍 (鑒了 采样 生成对抗网络(generative adversarial networks,. x-Pdm (x) 判别 GAN是一种无监督学习方法,包含生成器G(gene 网络P 判别正确 rator)和判别器D(discriminator)两部分。 生成T 将噪声信号z映射到样本空间,通过生成器 网络G 采样 Z-P(E) G得到生成样本数据Xe=G(z将生成样本X做e 图5AC-GAN对抗神经网络生成残差的基本框架 或真实样本数据Xa输入判别器D进而判定概 Fig.5 Basic framework for the AC-GAN to generate resid. 率PSX)=D),表示判别样本X属于S的概 uals
此过程处于统计过程当中,如果出现故障问题说 明此过程处于失控状态[18]。 X µ σ 假设某产品在生产过程中的质量特征没有显 著的非正态因素,而是由很多随机原因导致,则 认为该质量特性服从正态分布[19]。其质量特征 服从均值为 ,标准差为 的正态分布,则概率密 度分布函数为 f(x) = 1 σ √ 2π e −(x−µ)/2σ 2 P(µ−3σ ⩽ x ⩽ µ+3σ) = w µ+3σ µ−3σ f(x)dx = 0.9973 [µ−3σ, µ+3σ] [µ−3σ, µ+3σ] µ σ 质量特征在 的概率为 0.997 3, 则认为在该范围内的数据是可控的,范围之外为 不可控。因此,本文主轴承异常机组温度残差中 设定 的范围,范围内的残差为正常 残差,范围之外为异常残差,其中 和 为主轴 承正常机组测试集温度残差的均值和标准差。利 用 SPC 方法可以提取主轴承异常机组残差中的 特征,将残差中正常残差进行剔除。 µ−3σ µ+3σ 由文献 [20] 研究得知,轴承类故障在发生故 障前一个月会有明显的劣化趋势,因此选取风电 机组主轴承故障发生前一个月的 SCADA 数据进 行试验。图 4 为某机组主轴承故障发生前一个月 的温度残差,红线为 下控制线,蓝线为 上控制线,由图可知故障发生前并不是所 有的残差都超出控制线范围。采用 AC-GAN 生 成对抗网络重构主轴承异常机组温度残差序列, 得到异常主轴承下的残差特征,解决异常样本数 据的标记问题,进而提高了后续主轴承状态决策 模型的预测精度。 0 1 000 2 000 3 000 4 000 异常机组残差点数量 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 残差值归一化 残差 上控制线 下控制线 图 4 某机组故障发生前一个月温度残差 Fig. 4 Residual diagram of one month before a unit failure 4.2 AC-GAN 算法介绍 生成对抗网络 (generative adversarial networks, GAN) 是一种无监督学习方法,包含生成器 G(generator) 和判别器 D(discriminator) 两部分。 z G Xfake = G(z) Xfake Xreal D P(S|X) = D(X) X S 将噪声信号 映射到样本空间,通过生成器 得到生成样本数据 ,将生成样本 或真实样本数据 输入判别器 进而判定概 率 ,表示判别样本 属于 的概 Xreal Xfake 率。由于 是真实数据,所以判别器判定概率 接近于 1, 是经生成器生成的数据并经过判 别器判定是否真实。GAN 的目标函数为 min G max D V(D,G) = E[lnP(S = real|Xreal )]+ E[lnP(S = fake |Xfake )] 目标函数包含生成器目标函数和判别器目标 函数,其中生成器目标函数为 min G V(G) = E[lnP(S = fake|Xfake )] 判别器的目标函数为 max D V(D) = E[lnP(S = real|Xreal )]+ E[lnP(S = fake|Xfake )] c Xfake = G(c,z) P(S|X) P(c |X) GAN 训练过程中,G 和 D 二者交替训练,相 互博弈,最终使 G 生成的样本符合真实样本概率 分布,达到纳什均衡。GAN 在训练过程中无需先 验概率即能学习真实样本的分布,但同时 GAN 对初始参数极其敏感,输入 G 的随机噪声信号无 约束,导致生成数据概率分布与真实数据差异大, 训练过程难以收敛,使整个训练过程出现震荡, 发生模式崩溃[21-22]。为了解决上述问题,文献 [23] 提出了带标签辅助分类器的生成对抗网络 ACGAN,在传统 GAN 基础上增加了噪声数据对应 的标签 ,使用两者来生成 ,判别器 计算生成数据的概率分布 和类标签上的 概率分布 分别为 { P(S|X) = D(X) P(c |X) = D(X) c = {0,1,2,··· ,n} n c = 0 c = 1 式中: , 表示样本类数。真实样本 数据标记为正常温度残差 ( ) 和异常温度残 差 ( ),AC-GAN 通过内部博弈,最终实现主轴 承异常机组温度残差的重构。 4.3 基于 AC-GAN 的温度残差重构 AC-GAN 生成器和判别器均采用 RNN 神经 网络,输入层为 32 个神经单元,隐含层有 3 层神 经单元,输出层为 1 个神经单元,激活函数为 sigmoid,损伤函数为均方误差。AC-GAN 生成对抗 网络的基本框架见图 5。 异常 残差 随机 信号 采样 采样 生成 网络 G 判别 网络 P x x~Pdata (x) 数据 判别正确 Z~P (z) Gθ (z) N Y 图 5 AC-GAN 对抗神经网络生成残差的基本框架 Fig. 5 Basic framework for the AC-GAN to generate residuals 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1111·
·1112· 智能系统学报 第16卷 温度残差重构具体步骤为: D:(OllP)=E,-0 n 2) =DKL(OlIP) 1)将主轴承发生故障前一个月的SCADA特 P(y) 征数据输入至基于LightGBM的主轴承温度预测 如果得分规则定义为CRPS(连续概率排位分 模型,计算得到一个月内的主轴承异常机组温度 数),则 残差。 C(0.y)=Fdz+[(1-FMDYdz 2)采用SPC控制图将主轴承异常机组残差 在控制范围内的正常温度残差数据剔除。 式中F为累计概率分布函数。本来定义CRPS为 3)定义控制线之外的残差数据为训练样本数 C)-(F-FPdz 据,采用AC-GAN算法生成与真实样本数据分布 式中:F(a)为真实的累计概率分布,当预测分布 相似的残差数据,用来重构剔除的正常温度残差 与真实分布完全一致时,CRPS为零。预测分布 2)中别除的正常温度残差。 过于集中,过于分散,或者偏离观测值太远时都 会导致CRPS增大。但是,真实概率分布未知,只 5基于NGBoost的主轴承运行状态 能通过一系列观察数据的累计分布来定义,故有 决策 C(0,y),对应的散度为 NGBoost算法由斯坦福吴恩达团队在2019 Dc(0.y)=E,-o[C(P.y)]-E,-o[C(Q.y)]= 年10月提出的,最初是用于预测不确定性估计的 J(F,(-F.(dx 天气预测和医疗保健等领域。该算法使用自然 CRPS对于真实概率,其值最小,散度非负,度 梯度的Boosting方法,这种方法可直接在输出空 量分布距离符合规则的定义要求。对于选择的得 间中得到全概率分布,用于预测量化不确定性。 分规则S(0,满足EVS()]=0,对L关于0求导有 NGBoost算法区别于其他Boosting算法是因为该 7S(0,y)+EV2S(0]=0 算法可以返回每个预测的概率分布,NGBoost通 最终的梯度为 过预测参数0,产生概率密度为Pox)的概率预 S(0,y)=(EV2S]))-17S(0) 测。NGBoost使用自然梯度来学习参数,使得优化 对于MF,有 问题不受参数化的影响,随后在GBM的框架下 L(0,y=E[-L(0,y)-1VS(0,y) 让每个基学习器去拟合自然梯度,最后经过放缩 对于CRPS,有 和加权组合,得到一个集成模型的参数,由此可 以学习最终条件分布参数,从而达到概率预测的 VC.)-2V,FOV,FMYdzVc.) 目的。NGBoost作为一种梯度提升算法,使用自 风电机组的主轴承温度残差同样是一种不确 然梯度(natural gradient)解决现有梯度提升方法 定估计,对主轴承状态监测实质也是一种故障发 难以处理的通用概率预测的技术难题,NGBoost 生不确定性的概率预测,因此可利用该算法建立 在不确定性估计和传统指标上的预测能力具有相 主轴承运行状态决策模型。 当大的优势。 为使降低故障决策中单点误报,获得较高的 对于自然梯度,首先定义得分规则为S,这个得 预测准确度,本文按天提取主轴承温度残差的最 分规则与概率分布P和输出值y相关,记为S(P,y)。 大值、最小值、均值、偏度、峰度、中位数、方差、 对于正确的概率分布,并期望取得最佳值,概率 标准差8个特征,将主轴承正常机组的温度残差 预测越准确,损失越小,故有 标签设置为0,主轴承异常机组重构的温度残差 E,-o[S(Q.y)]<E,-o[S(P.y)],YP.Q 标签设置为1。 式中:Q为正确的概率分布;P为预测的概率分 布。定义得分规则的散度: 6实例应用验证 Ds(OIP)=E,-o[S(P.y)]-E,-o[S(2.y)] 本实验所采用的SCADA数据为河北某风电 得分规则定义需要使得散度非负,并且能够测 场的历史数据。选取机组编号为07#、09#、23#、 量分布间的距离。如果得分规则定义为MF,则 31#、32#、41#、14#、11#、71#、81#,10台主轴承正 S=L(0,y)=-In Po(y) 常机组,选取编号为69#、37#、84#、88#、99#、 最大似然估计函数∑n(P》取得最大值, 15#、96#、86#、13#、70#的10台主轴承异常机组, 同时使得散度变为KL散度,即 共计20台机组。通过基于LightGBM的主轴承温
温度残差重构具体步骤为: 1) 将主轴承发生故障前一个月的 SCADA 特 征数据输入至基于 LightGBM 的主轴承温度预测 模型,计算得到一个月内的主轴承异常机组温度 残差。 2) 采用 SPC 控制图将主轴承异常机组残差 在控制范围内的正常温度残差数据剔除。 3) 定义控制线之外的残差数据为训练样本数 据,采用 AC-GAN 算法生成与真实样本数据分布 相似的残差数据,用来重构剔除的正常温度残差 2) 中剔除的正常温度残差。 5 基于 NGBoost 的主轴承运行状态 决策 Pθ(y|x) NGBoost 算法由斯坦福吴恩达团队在 2019 年 10 月提出的,最初是用于预测不确定性估计的 天气预测和医疗保健等领域[24]。该算法使用自然 梯度的 Boosting 方法,这种方法可直接在输出空 间中得到全概率分布,用于预测量化不确定性。 NGBoost 算法区别于其他 Boosting 算法是因为该 算法可以返回每个预测的概率分布,NGBoost 通 过预测参数 θ,产生概率密度为 的概率预 测。NGBoost 使用自然梯度来学习参数,使得优化 问题不受参数化的影响,随后在 GBM 的框架下 让每个基学习器去拟合自然梯度,最后经过放缩 和加权组合,得到一个集成模型的参数,由此可 以学习最终条件分布参数,从而达到概率预测的 目的。NGBoost 作为一种梯度提升算法,使用自 然梯度 (natural gradient) 解决现有梯度提升方法 难以处理的通用概率预测的技术难题,NGBoost 在不确定性估计和传统指标上的预测能力具有相 当大的优势[25]。 S P y S (P, y) 对于自然梯度,首先定义得分规则为 ,这个得 分规则与概率分布 和输出值 相关,记为 。 对于正确的概率分布,并期望取得最佳值,概率 预测越准确,损失越小,故有 Ey∼Q[S (Q, y)] ⩽ Ey∼Q[S (P, y)], ∀P,Q 式中: Q 为正确的概率分布; P 为预测的概率分 布。定义得分规则的散度: DS (Q||P) = Ey∼Q[S (P, y)]− Ey∼Q[S (Q, y)] 得分规则定义需要使得散度非负,并且能够测 量分布间的距离。如果得分规则定义为 MIF,则 S = L(θ, y) =∑−lnPθ(y) 最大似然估计函数 ln(Pθ(y)) 取得最大值, 同时使得散度变为 KL 散度,即 DL(Q||P) = Ey∼Q [ ln Q(y) P(y) ] = DKL(Q||P) 如果得分规则定义为 CRPS(连续概率排位分 数),则 C(θ, y) = w y −∞ Fθ(z) 2 dz+ w ∞ y (1− Fθ(z))2 dz 式中 F 为累计概率分布函数。本来定义 CRPS 为 C real(θ, y) = w ∞ −∞ (Fθ(z)−F Q θ (z))2 dz F Q θ (z) C(θ, y) 式中: 为真实的累计概率分布,当预测分布 与真实分布完全一致时,CRPS 为零。预测分布 过于集中,过于分散,或者偏离观测值太远时都 会导致 CRPS 增大。但是,真实概率分布未知,只 能通过一系列观察数据的累计分布来定义,故有 ,对应的散度为 DC(θ, y) = Ey∼Q[C(P, y)]− Ey∼Q[C(Q, y)] = w ∞ −∞ (Fθ(x)−FP(x))2 dx S (θ) E[∇S (θ)] = 0 L θ CRPS 对于真实概率,其值最小,散度非负,度 量分布距离符合规则的定义要求。对于选择的得 分规则 ,满足 ,对 关于 求导有 ∇S (θ, y)+E[∇ 2 S (θ)] = 0 最终的梯度为 ∇˜ S (θ, y) = (E[∇ 2 S ])−1∇S (θ) 对于 MIF,有 ∇˜ L(θ, y) = E[−∇2 θL(θ, y)]−1∇S (θ, y) 对于 CRPS,有 ∇˜C(θ, y) = [ 2 w ∞ −∞ ∇θFθ(z)∇θFθ(z) T dz ]−1 ∇C(θ, y) 风电机组的主轴承温度残差同样是一种不确 定估计,对主轴承状态监测实质也是一种故障发 生不确定性的概率预测,因此可利用该算法建立 主轴承运行状态决策模型。 为使降低故障决策中单点误报,获得较高的 预测准确度,本文按天提取主轴承温度残差的最 大值、最小值、均值、偏度、峰度、中位数、方差、 标准差 8 个特征,将主轴承正常机组的温度残差 标签设置为 0,主轴承异常机组重构的温度残差 标签设置为 1。 6 实例应用验证 本实验所采用的 SCADA 数据为河北某风电 场的历史数据。选取机组编号为 07#、09#、23#、 31#、32#、41#、14#、11#、71#、81#,10 台主轴承正 常机组,选取编号为 69#、37#、84#、88#、99#、 15#、96#、86#、13#、70#的 10 台主轴承异常机组, 共计 20 台机组。通过基于 LightGBM 的主轴承温 ·1112· 智 能 系 统 学 报 第 16 卷
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1113· 度预测模型计算各机组主轴承温度残差,对于异 数据。对比分析NGBoost、XGBoost和随机森林 常机组通过AC-GAN算法重构残差值。提取主 3种算法在残差重构前后测试样本中的准确性。 轴承正常机组和主轴承异常机组8个温度残差特 NGBoost算法在测试集上的准确为0.875,混 征作为状态决策模型输入,预测的主轴承正常或 淆矩阵见图6(a)。采用同样的特征提取方法提取 异常的概率值作为状态决策模型输出。由于主轴 没有经过残差重构的特征,在测试集上的准确度 承正常机组标签设置为0,异常机组标签设置为1, 为0.660,混淆矩阵见图6(b)。XGBoost算法在测 因此,输出概率在0.5以上可判断为异常状态,0.5 试集上的准确为0.843,混淆矩阵见图7(a)。采用 以下判断为正常状态。温度残差特征80%用于 同样的特征提取方法提取没有经过残差重构的特 训练状态决策模型,剩余20%用于测试模型的准 征,在测试集上的准确度为0.651,混淆矩阵见 确度。按上述流程提取残差特征后共得到938组 图7(b). 预测状态 预测状态 0.9 0.8 0.7 0 0.89 0.11 0.7 0 0.77 0.23 0.6 0.6 0.5 0.5 0.4 0.4 0.08 0.92 03 021 0.79 0.2 0.3 0.1 0 0 预测标签 预测标签 (a)重构后混淆矩阵(NGBoost) b)重构前混淆矩阵(NGBoost) 图6残差重构前后故障决策模型混淆矩阵NGB0ost算法) Fig.6 Confusion matrix of the fault decision model before and after residual reconstruction(NGBoost algorithm) 预测状态 预测状态 0.70 0.8 0.65 0.78 0.22 0.7 0 0.64 0.36 0.60 0.6 0.55 0.5 0.50 0.4 0.45 0.12 0.88 03 0.28 0.72 0.40 0.35 0.2 0.30 0 0 预测标签 预测标签 (a)重构后混淆矩阵(XGBoost) (b)重构前混淆矩阵(XGBoost)) 图7残差重构前后故障决策模型混淆矩阵(仅GBoost算法) Fig.7 Confusion matrix of the fault decision model before and after residual reconstruction(XGBoost algorithm) 随机森林算法在测试集上的准确为0.750,混 Boost算法和随机森林算法。而且NGBoost、XG- 淆矩阵见图8(a)。采用同样的特征提取方法提取 Boost和随机森林3种算法经过残差重构的状态 没有经过残差重构的特征,在测试集上的准确度 决策模型的准确度分别提高了21.5%、19.2%、 为0.642,混淆矩阵见图8(b)。 10.8%,说明基于AG-GAN的数据重构对风电机 实验结果表明:在同等条件下,NGBoost算法 组主轴承运行状态具有良好的预测准确度。 在风电机组主轴承状态决策模型中优于XG- 下一步,选取未参与模型训练和测试的6台
度预测模型计算各机组主轴承温度残差,对于异 常机组通过 AC-GAN 算法重构残差值。提取主 轴承正常机组和主轴承异常机组 8 个温度残差特 征作为状态决策模型输入,预测的主轴承正常或 异常的概率值作为状态决策模型输出。由于主轴 承正常机组标签设置为 0,异常机组标签设置为 1, 因此,输出概率在 0.5 以上可判断为异常状态,0.5 以下判断为正常状态。温度残差特征 80% 用于 训练状态决策模型,剩余 20% 用于测试模型的准 确度。按上述流程提取残差特征后共得到 938 组 数据。对比分析 NGBoost、XGBoost 和随机森林 3 种算法在残差重构前后测试样本中的准确性。 NGBoost 算法在测试集上的准确为 0.875,混 淆矩阵见图 6(a)。采用同样的特征提取方法提取 没有经过残差重构的特征,在测试集上的准确度 为 0.660,混淆矩阵见图 6(b)。XGBoost 算法在测 试集上的准确为 0.843,混淆矩阵见图 7(a)。采用 同样的特征提取方法提取没有经过残差重构的特 征,在测试集上的准确度为 0.651,混淆矩阵见 图 7(b)。 0.77 0.23 0.21 0.79 1 0 真实标签 0 1 预测标签 预测状态 0.3 0.4 0.5 0.6 0.7 (b) 重构前混淆矩阵 (NGBoost) 预测标签 (a) 重构后混淆矩阵 (NGBoost) 0 1 1 0 真实标签 预测状态 0.2 0.1 0.3 0.5 0.4 0.6 0.7 0.9 0.8 0.89 0.08 0.92 0.11 图 6 残差重构前后故障决策模型混淆矩阵 (NGBoost 算法) Fig. 6 Confusion matrix of the fault decision model before and after residual reconstruction(NGBoost algorithm) 0 1 预测标签 (b) 重构前混淆矩阵 (XGBoost) 0 1 预测标签 (a) 重构后混淆矩阵 (XGBoost) 1 0 真实标签 1 0 真实标签 0.64 0.72 0.36 0.28 预测状态 预测状态 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.78 0.88 0.22 0.12 0.2 0.3 0.4 0.5 0.6 0.7 0.8 图 7 残差重构前后故障决策模型混淆矩阵 (XGBoost 算法) Fig. 7 Confusion matrix of the fault decision model before and after residual reconstruction(XGBoost algorithm) 随机森林算法在测试集上的准确为 0.750,混 淆矩阵见图 8(a)。采用同样的特征提取方法提取 没有经过残差重构的特征,在测试集上的准确度 为 0.642,混淆矩阵见图 8(b)。 实验结果表明:在同等条件下,NGBoost 算法 在风电机组主轴承状态决策模型中优于 XGBoost 算法和随机森林算法。而且 NGBoost、XGBoost 和随机森林 3 种算法经过残差重构的状态 决策模型的准确度分别提高了 21.5%、19.2%、 10.8%,说明基于 AG-GAN 的数据重构对风电机 组主轴承运行状态具有良好的预测准确度。 下一步,选取未参与模型训练和测试的 6 台 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1113·
·1114· 智能系统学报 第16卷 机组用来验证基于残差重构和NGBoost算法下的 08#、65#、66#,主轴承异常机组编号为10#、85#、 准确性和泛化性。选取主轴承正常机组编号为 91#。 预测状态 预测状态 0.8 0.7 0.64 0.36 0.7 0 0.53 047 0.6 0.6 0.5 0.5 0.4 0.4 0.11 0.89 0.3 0.23 0.77 02 0.3 0 0 预测标签 预测标签 (a)重构后混淆矩阵(随机森林) 6)重构前混淆矩阵(随机森林) 图8残差重构前后故障决策模型混淆矩阵(随机森林算法) Fig.8 Confusion matrix of the fault decision model before and after residual reconstruction(random forest algorithm) 10#机组在2019年3月28号巡检时发现该机 表7异常机组未经过残差重构时的概率预测值 组主轴承振动过大,需要更换主轴承,选取2019 Table 7 Probability prediction value of the abnormal wind turbine without residual reconstruction 年3月1号到2019年3月30号的数据。85#机组 在2019年4月1号巡检时有异常响声,经厂家检 风机编号 预测为0(正常) 预测为1(异常) 查发现该机组主轴承电腐蚀严重,因振动导致平 10# 0.34 0.66 衡环境存在轻微开裂迹象,选取2019年3月8号 85# 0.43 0.57 到4月4号的数据。91#机组在2019年10月13号 91# 0.46 0.54 发生主轴承开裂故障,选取2019年9月16号到10 月16号的数据。正常机组随机选取一个月的数据。 表8异常机组经过残差重构时的概率预测值 对比分析表5、6,正常机组编号为08#的机组 Table 8 Probability prediction value of the abnormal wind turbine after residual reconstruction 在经过残差重构后预测的准确率提升了28%, 65#机组的准确率提升了3%,66#机组的准确率提 风机编号 预测为0(正常) 预测为1(异常) 升了1%。对比分析表7、8,异常机组编号为10# 10# 0.17 0.83 的机组在经过残差重构后预测的准确率提升了 85# 0.28 0.72 17%,85#机组的准确率提升了15%,91#机组的准 91# 0.39 0.61 确率提升了7%。 表5正常机组未经过残差重构时的概率预测值 7结束语 Table 5 Probability prediction value of the normal wind turbine without residual reconstruction 本文以风电机组主轴承为研究对象,针对状 风机编号 预测为0正常) 预测为1(异常) 态监测和故障预警中人为设定阈值的相关问题, 08# 0.64 0.36 提出了基于AC-GAN数据重构的风电机组主轴 65# 0.58 0.42 承状态监测方法,得到如下结论: 66# 0.64 0.36 1)采用LightGBM算法建立主轴承温度残差 表6正常机组经过残差重构时的概率预测值 预测模型,并将XGBoost算法、CatBoost算法与之 Table 6 Probability prediction value of the normal wind 对比分析,在同等条件下,LightGBM算法在主轴 turbine after residual reconstruction 承温度建模中综合性能优于XGBoost算法和Cat 风机编号 预测为0(正常) 预测为1(异常) Boost算法。 08# 0.92 0.08 2)采用滑动窗口提取主轴承异常机组残差,利 65# 0.61 0.39 用$PC方法对主轴承异常温度残差在控制线范 66# 0.65 0.35 围内进行筛选,并利用AC-GAN算法对残差序列
机组用来验证基于残差重构和 NGBoost 算法下的 准确性和泛化性。选取主轴承正常机组编号为 08#、65#、66#,主轴承异常机组编号为 10#、85#、 91#。 0 1 预测标签 (b) 重构前混淆矩阵 (随机森林) 0 1 预测标签 (a) 重构后混淆矩阵 (随机森林) 1 0 真实标签 1 0 真实标签 0.53 0.77 0.47 0.23 预测状态 预测状态 0.3 0.4 0.5 0.6 0.7 0.2 0.3 0.5 0.4 0.6 0.7 0.8 0.64 0.11 0.89 0.36 图 8 残差重构前后故障决策模型混淆矩阵 (随机森林算法) Fig. 8 Confusion matrix of the fault decision model before and after residual reconstruction (random forest algorithm) 10#机组在 2019 年 3 月 28 号巡检时发现该机 组主轴承振动过大,需要更换主轴承,选取 2019 年 3 月 1 号到 2019 年 3 月 30 号的数据。85#机组 在 2019 年 4 月 1 号巡检时有异常响声,经厂家检 查发现该机组主轴承电腐蚀严重,因振动导致平 衡环境存在轻微开裂迹象,选取 2019 年 3 月 8 号 到 4 月 4 号的数据。91#机组在 2019 年 10 月 13 号 发生主轴承开裂故障,选取 2019 年 9 月 16 号到 10 月 16 号的数据。正常机组随机选取一个月的数据。 对比分析表 5、6,正常机组编号为 08#的机组 在经过残差重构后预测的准确率提升了 28%, 65#机组的准确率提升了 3%,66#机组的准确率提 升了 1%。对比分析表 7、8,异常机组编号为 10# 的机组在经过残差重构后预测的准确率提升了 17%,85#机组的准确率提升了 15%,91#机组的准 确率提升了 7%。 表 5 正常机组未经过残差重构时的概率预测值 Table 5 Probability prediction value of the normal wind turbine without residual reconstruction 风机编号 预测为0(正常) 预测为1(异常) 08# 0.64 0.36 65# 0.58 0.42 66# 0.64 0.36 表 6 正常机组经过残差重构时的概率预测值 Table 6 Probability prediction value of the normal wind turbine after residual reconstruction 风机编号 预测为0(正常) 预测为1(异常) 08# 0.92 0.08 65# 0.61 0.39 66# 0.65 0.35 表 7 异常机组未经过残差重构时的概率预测值 Table 7 Probability prediction value of the abnormal wind turbine without residual reconstruction 风机编号 预测为0(正常) 预测为1(异常) 10# 0.34 0.66 85# 0.43 0.57 91# 0.46 0.54 表 8 异常机组经过残差重构时的概率预测值 Table 8 Probability prediction value of the abnormal wind turbine after residual reconstruction 风机编号 预测为0(正常) 预测为1(异常) 10# 0.17 0.83 85# 0.28 0.72 91# 0.39 0.61 7 结束语 本文以风电机组主轴承为研究对象,针对状 态监测和故障预警中人为设定阈值的相关问题, 提出了基于 AC-GAN 数据重构的风电机组主轴 承状态监测方法,得到如下结论: 1) 采用 LightGBM 算法建立主轴承温度残差 预测模型,并将 XGBoost 算法、CatBoost 算法与之 对比分析,在同等条件下,LightGBM 算法在主轴 承温度建模中综合性能优于 XGBoost 算法和 CatBoost 算法。 2) 采用滑动窗口提取主轴承异常机组残差,利 用 SPC 方法对主轴承异常温度残差在控制线范 围内进行筛选,并利用 AC-GAN 算法对残差序列 ·1114· 智 能 系 统 学 报 第 16 卷
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1115· 进行重构,解决了人为设定阈值的相关问题,提 [7]QIU Yingning,FENG Yanhui,INFIELD D.Fault dia- 升了主轴承异常和正常数据标签标注的准确率。 gnosis of wind turbine with SCADA alarms based multi- 3)在同等条件下,NGBoost算法在风电机组 dimensional information processing method[J].Renew- 主轴承状态决策模型中优于XGBoost算法和随机 able energy,2020,145:1923-1931. [8]LIANG Tao,QIAN Siqi,MENG Zhaochao,et al.Early 森林算法。而且,NGBoost、XGBoost和随机森林 fault warning of wind turbine based on BRNN and large 3种算法经过残差重构的状态决策模型的准确度 sliding window[J].Journal of intelligent&fuzzy systems, 分别提高了21.5%、19.2%、10.8%,选择6台机组 2020,38(3):3389-3401. 进行测试分析(3台主轴承正常机组,3台主轴承 [9]尹诗,侯国莲,于晓东,等.基于Bi-RNN的风电机组主 异常机组),均能够判断正确。基于NGBoost的状 轴承温度预警方法研究[].郑州大学学报(工学版), 态决策模型的平均准确率从60.5%(无残差序列重 2019,40(5):4450 构)提升至72.3%(利用残差数据重构)。 YIN Shi,HOU Guolian,YU Xiaodong,et al.Research on temperature prediction method for main bearing of wind 参考文献: turbine based on Bi-RNN[J].Journal of Zhengzhou Uni- versity (engineering science edition),2019,40(5):44-50. [1]曾军,陈艳峰,杨苹,等.大型风力发电机组故障诊断综 [10]陈雪峰,郭艳婕,许才彬,等.风电装备故障诊断与健 述.电网技术,2018,42(3):849-860 康监测研究综述J.中国机械工程,2020,31(2): ZENG Jun,CHEN Yanfeng,YANG Ping,et al.Review 175-189 of fault diagnosis methods of large-scale wind turbines[J] CHEN Xuefeng,GUO Yanjie,XU Caibin,et al.Review Power system technology,2018,42(3):849-860. of fault diagnosis and health monitoring for wind power [2]金晓航,孙毅,单继宏,等.风力发电机组故障诊断与预 equipment[J].China mechanical engineering,2020 测技术研究综述[J].仪器仪表学报,2017,38(5): 31(2):175-189. 1041-1053 [11]沈小军,付雪姣,周冲成,等.风电机组风速-功率异常 JIN Xiaohang,SUN Yi,SHAN Jihong,et al.Fault dia- 运行数据特征及清洗方法[J].电工技术学报,2018, gnosis and prognosis for wind turbines:an overview[J]. 33(14):3353-3361. Chinese journal of scientific instrument,2017,38(5): SHEN Xiaojun,FU Xuejiao,ZHOU Chongcheng,et al. 1041-1053 Characteristics of outliers in wind speed-power opera- [3]刘帅.基于实时监测数据挖掘的风电机组故障预警方 tion data of wind turbines and its cleaning method[]. 法研究D].北京:华北电力大学(北京),2019. Transactions of China electrotechnical society,2018. LIU Shuai.Research on fault warning method of wind 33(14):3353-3361. turbine based on real-time monitoring data mining[D]. [12]贾科,杨哲,魏超,等.基于斯皮尔曼等级相关系数的 Beijing:North China Electric Power University (Beijing) 新能源送出线路纵联保护円.电力系统自动化,2020 2019. 4415):103-111. [4]李俊卿,李斯璇,陈雅婷,等.同步发电机定子故障预警 JIA Ke,YANG Zhe,WEI Chao,et al.Pilot protection 模型[).电力科学与工程,2020,36(5):7-14 based on spearman rank correlation coefficient for trans- LI Junqing,LI Sixuan,CHEN Yating,et al.Synchronous mission line connected to renewable energy source[J]. generator stator fault prediction model[J].Electric power Automation of electric power systems,2020,44(15): science and engineering,2020,36(5):7-14. 103-111. [5]王梓齐,刘长良.基于Box-Cox变换和相对嫡残差分析 [13]CHEN Tianqi,GUESTRIN C.XGBoost:a scalable tree 的风电机组齿轮箱状态监测].中国电机工程学报 boosting system[C]//22nd ACM SIGKDD International 2020,40(13:4210-4218 Conference on Knowledge Discovery and Data Mining. WANG Ziqi,LIU Changliang.Wind turbine gearbox con- San Francisco,USA,2016:785-794. dition monitoring based on Box-Cox transformation and [14]KE Guolin,MENG Qi,FINLEY T,et al.LightGBM:a relative entropy residual analysis[].Proceedings of the highly efficient gradient boosting decision tree[Cl//Pro- CSEE,2020,40(13):4210-4218. ceedings of the 31st International Conference on Neural [6]刘帅,刘长良,甄成刚.基于数据分类重建的风电机组 Information Processing Systems.Long Beach,USA 故障预警方法.仪器仪表学报,2019,40(8):1-11. 2017:3149-3157. LIU Shuai,LIU Changliang,ZHEN Chenggang.Fault [15]黄伟,李阳.基于MCS-MIFS与LightGBM的燃气轮 warning method for wind turbine based on classified data 机功率预测方法[.电力科学与工程,2020,36(5): reconstruction[J].Chinese journal of scientific instrument, 23-31. 2019,40(8):1-11. HUANG Wei,LI Yang.Gas turbine power forecasting
进行重构,解决了人为设定阈值的相关问题,提 升了主轴承异常和正常数据标签标注的准确率。 3) 在同等条件下,NGBoost 算法在风电机组 主轴承状态决策模型中优于 XGBoost 算法和随机 森林算法。而且,NGBoost、XGBoost 和随机森林 3 种算法经过残差重构的状态决策模型的准确度 分别提高了 21.5%、19.2%、10.8%,选择 6 台机组 进行测试分析 (3 台主轴承正常机组,3 台主轴承 异常机组),均能够判断正确。基于 NGBoost 的状 态决策模型的平均准确率从 60.5%(无残差序列重 构) 提升至 72.3%(利用残差数据重构)。 参考文献: 曾军, 陈艳峰, 杨苹, 等. 大型风力发电机组故障诊断综 述 [J]. 电网技术, 2018, 42(3): 849–860. ZENG Jun, CHEN Yanfeng, YANG Ping, et al. Review of fault diagnosis methods of large-scale wind turbines[J]. Power system technology, 2018, 42(3): 849–860. [1] 金晓航, 孙毅, 单继宏, 等. 风力发电机组故障诊断与预 测技术研究综述 [J]. 仪器仪表学报, 2017, 38(5): 1041–1053. JIN Xiaohang, SUN Yi, SHAN Jihong, et al. Fault diagnosis and prognosis for wind turbines: an overview[J]. Chinese journal of scientific instrument, 2017, 38(5): 1041–1053. [2] 刘帅. 基于实时监测数据挖掘的风电机组故障预警方 法研究 [D]. 北京: 华北电力大学 (北京), 2019. LIU Shuai. Research on fault warning method of wind turbine based on real-time monitoring data mining[D]. Beijing: North China Electric Power University (Beijing), 2019. [3] 李俊卿, 李斯璇, 陈雅婷, 等. 同步发电机定子故障预警 模型 [J]. 电力科学与工程, 2020, 36(5): 7–14. LI Junqing, LI Sixuan, CHEN Yating, et al. Synchronous generator stator fault prediction model[J]. Electric power science and engineering, 2020, 36(5): 7–14. [4] 王梓齐, 刘长良. 基于 Box-Cox 变换和相对熵残差分析 的风电机组齿轮箱状态监测 [J]. 中国电机工程学报, 2020, 40(13): 4210–4218. WANG Ziqi, LIU Changliang. Wind turbine gearbox condition monitoring based on Box-Cox transformation and relative entropy residual analysis[J]. Proceedings of the CSEE, 2020, 40(13): 4210–4218. [5] 刘帅, 刘长良, 甄成刚. 基于数据分类重建的风电机组 故障预警方法 [J]. 仪器仪表学报, 2019, 40(8): 1–11. LIU Shuai, LIU Changliang, ZHEN Chenggang. Fault warning method for wind turbine based on classified data reconstruction[J]. Chinese journal of scientific instrument, 2019, 40(8): 1–11. [6] QIU Yingning, FENG Yanhui, INFIELD D. Fault diagnosis of wind turbine with SCADA alarms based multidimensional information processing method[J]. Renewable energy, 2020, 145: 1923–1931. [7] LIANG Tao, QIAN Siqi, MENG Zhaochao, et al. Early fault warning of wind turbine based on BRNN and large sliding window[J]. Journal of intelligent & fuzzy systems, 2020, 38(3): 3389–3401. [8] 尹诗, 侯国莲, 于晓东, 等. 基于 Bi-RNN 的风电机组主 轴承温度预警方法研究 [J]. 郑州大学学报(工学版), 2019, 40(5): 44–50. YIN Shi, HOU Guolian, YU Xiaodong, et al. Research on temperature prediction method for main bearing of wind turbine based on Bi-RNN[J]. Journal of Zhengzhou University (engineering science edition), 2019, 40(5): 44–50. [9] 陈雪峰, 郭艳婕, 许才彬, 等. 风电装备故障诊断与健 康监测研究综述 [J]. 中国机械工程, 2020, 31(2): 175–189. CHEN Xuefeng, GUO Yanjie, XU Caibin, et al. Review of fault diagnosis and health monitoring for wind power equipment[J]. China mechanical engineering, 2020, 31(2): 175–189. [10] 沈小军, 付雪姣, 周冲成, 等. 风电机组风速−功率异常 运行数据特征及清洗方法 [J]. 电工技术学报, 2018, 33(14): 3353–3361. SHEN Xiaojun, FU Xuejiao, ZHOU Chongcheng, et al. Characteristics of outliers in wind speed-power operation data of wind turbines and its cleaning method[J]. Transactions of China electrotechnical society, 2018, 33(14): 3353–3361. [11] 贾科, 杨哲, 魏超, 等. 基于斯皮尔曼等级相关系数的 新能源送出线路纵联保护 [J]. 电力系统自动化, 2020, 44(15): 103–111. JIA Ke, YANG Zhe, WEI Chao, et al. Pilot protection based on spearman rank correlation coefficient for transmission line connected to renewable energy source[J]. Automation of electric power systems, 2020, 44(15): 103–111. [12] CHEN Tianqi, GUESTRIN C. XGBoost: a scalable tree boosting system[C]//22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2016: 785−794. [13] KE Guolin, MENG Qi, FINLEY T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 3149−3157. [14] 黄伟, 李阳. 基于 MCS-MIFS 与 LightGBM 的燃气轮 机功率预测方法 [J]. 电力科学与工程, 2020, 36(5): 23–31. HUANG Wei, LI Yang. Gas turbine power forecasting [15] 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1115·