正在加载图片...
·1110· 智能系统学报 第16卷 算法在迭代过程中,假设在前一轮迭代中得到的 式中:为第i个主轴承温度的真实测量值;产为 强学习器是-(x),损失函数为Ly,f-(x),为了 第i个主轴承温度的预测值:为主轴承温度的真 让本轮迭代的损失函数最小,本轮迭代的目的是找到 实测量值的均值。LightGBM算法在均方根误差 分类回归树模型的弱学习器,(x),如式(1)所示: RMSE、决定系数2指标和训练时间上均优于 L(y,f(x))=L(y,f-(x)+h(x)) (1) XGBoost算法和CatBoost算法。表4为Light- 利用损失函数负梯度拟合本轮损失函数近似 GBM、XGBoost和CatBoost这3种算法在测试集 值,从而拟合一个树模型。第1轮的第i个样本 样本中残差特征对比。LightGBM算法在测试集 的损失函数LO,f(x)》的负梯度”:为 上的残差最大值为0.129,残差均值为0.022,基于 4=-L0fc》 LightGBM的风电机组主轴承温度预测在测试集 df(x:)f( 上具有较高的预测精度。 利用(x,x)拟合一个CART回归树,进而得 到t棵回归树所对应的叶子节点的范围为R:, 表3 LightGBM、XGBoost和CatBoost建模性能比较 Table 3 LightGBM,XGBoost,and CatBoost modeling i=1,2,…,J。其中J为叶子节点的样本,当损失 performance comparison 函数最小时拟合叶子节点输出值c为 建模方法 RMSE 2 时间s cu=argmin >L(y.f-(x)+c) XGBoost 0.021 0.978 4.9 XER LightGBM 0.012 0.992 1.6 式中:c是损失函数最小化时的常数值;:∈R表 CatBoost 0.035 0.954 5.2 示样本:属于第t棵树下的第j个叶子节点。本 轮的决策树拟合函数为 表43种算法测试集残差特征对比 Table 4 Comparison of residual characteristics of three al- h(x)= clx:eR) gorithms in test data 人 建模方法 残差最大值 残差平均值 式中:Ix:∈R)是指示函数,当xeR时,指示函 XGBoost 0.209 0.035 数的值为1,反之为0刀。进而本轮最终得到的强 LightGBM 0.129 0.022 学习器的表达式为 CatBoost 0.186 0.030 f(x)=f-(x)+ 基于LightGBM算法的主轴承温度预测模型 在测试集上的残差见图3所示。 3.2温度预测模型建立 选用10台主轴承正常机组的历史SCADA数 出 其实值预测值一残差值 obtlibmlwtu 据共38955组,按上述方法进行预处理后得到共 0.6 四 25946组数据。将数据集80%作为训练集,数据 -0.2 集20%作为测试集。本文所有试验运行环境均 200040006000800010000 测试集采样点数量 为:操作系统为Windows100、python版本为3.7.1、 集成开发运行环境为anaconda3,LightGBM算法 图3主轴承温度模型测试集残差 Fig.3 Residual error of the main bearing temperature XGBoost算法和随机森林算法调用sklearn的 model in the test data API。后续使用的AC-GAN生成对抗神经网络调 用kears深度学习框架APL,NGBoost算法调用斯 4 基于AC-GAN的主轴承温度残差 坦福的NGBoost框架。 重构 对比分析LightGBM算法、XGBoost算法、 CatBoost(categorical boosting)算法在风电机组训 基于AC-GAN的主轴承温度残差重构方法具 练主轴承温度预测模型的精度,如表3所示。 体步骤为:首先,采用SPC方法将主轴承异常机 采用模型训练时间、均方根误差RMSE和决 组残差在控制范围内的正常残差数据剔除;其 定系数2指标对建模精度进行评价,计算公式为 次,将控制范围之外的异常残差数据作为训练数 据,采用AC-GAN生成对抗网络生成与真实数据 RMsE=2o,- 分布相似的数据替换被剔除的数据。 4.1基于SPC的残差特征提取 -1②-2叫 SPC方法最初主要用来监测生产产品中的质 量问题,如果生产过程中出现随机质量问题说明ft−1(x) L(y, ft−1(x)) ht(x) 算法在迭代过程中,假设在前一轮迭代中得到的 强学习器是 ,损失函数为 ,为了 让本轮迭代的损失函数最小,本轮迭代的目的是找到 分类回归树模型的弱学习器 ,如式 (1) 所示: L(y, ft(x)) = L(y, ft−1(x) + ht(x)) (1) t i L(yi , f(xi)) rti 利用损失函数负梯度拟合本轮损失函数近似 值,从而拟合一个树模型。第 轮的第 个样本 的损失函数 的负梯度 为 rti = − ∂L(yi , ft−1(xi)) ∂ f(xi) f(x)=ft−1 (x) (xi , xti) t Rti i = 1,2,··· , J J ct j 利用 拟合一个 CART 回归树,进而得 到 棵回归树所对应的叶子节点的范围为 , 。其中 为叶子节点的样本,当损失 函数最小时拟合叶子节点输出值 为 ct j = argmin | {z } c ∑ xi∈Rt j L(yi , ft−1(xi)+c) c xi ∈ Rt j xi t j 式中: 是损失函数最小化时的常数值; 表 示样本 属于第 棵树下的第 个叶子节点。本 轮的决策树拟合函数为 ht(x) = ∑J j=1 ct jI(xi ∈ Rt j) 式中: I(xi ∈ Rt j) 是指示函数,当 xi ∈ Rt j 时,指示函 数的值为 1,反之为 0 [17]。进而本轮最终得到的强 学习器的表达式为 ft(x) = ft−1(x)+ ∑J j=1 ct jI, xi ∈ Rt j 3.2 温度预测模型建立 选用 10 台主轴承正常机组的历史 SCADA 数 据共 38 955 组,按上述方法进行预处理后得到共 25 946 组数据。将数据集 80% 作为训练集,数据 集 20% 作为测试集。本文所有试验运行环境均 为:操作系统为 Windows10、python 版本为 3.7.1、 集成开发运行环境为 anaconda3,LightGBM 算法、 XGBoost 算法和随机森林算法调用 sklearn 的 API。后续使用的 AC-GAN 生成对抗神经网络调 用 kears 深度学习框架 API,NGBoost 算法调用斯 坦福的 NGBoost 框架。 对比分析 LightGBM 算法、XGBoost 算法、 CatBoost(categorical boosting) 算法在风电机组训 练主轴承温度预测模型的精度,如表 3 所示。 r 2 采用模型训练时间、均方根误差 RMSE 和决 定系数 指标对建模精度进行评价,计算公式为 RMSE = vt 1 n ∑n i=1 (yi −yˆi) 2 r 2 = 1−   ∑n i=1 (yi −yˆi) 2   /   ∑n i=1 (yi −y¯) 2   yi i yˆi i y¯ r 2 式中: 为第 个主轴承温度的真实测量值; 为 第 个主轴承温度的预测值; 为主轴承温度的真 实测量值的均值。LightGBM 算法在均方根误差 RMSE、决定系数 指标和训练时间上均优于 XGBoost 算法和 CatBoost 算法。表 4 为 Light￾GBM、XGBoost 和 CatBoost 这 3 种算法在测试集 样本中残差特征对比。LightGBM 算法在测试集 上的残差最大值为 0.129,残差均值为 0.022,基于 LightGBM 的风电机组主轴承温度预测在测试集 上具有较高的预测精度。 表 3 LightGBM、XGBoost 和 CatBoost 建模性能比较 Table 3 LightGBM, XGBoost, and CatBoost modeling performance comparison 建模方法 RMSE r 2 时间/s XGBoost 0.021 0.978 4.9 LightGBM 0.012 0.992 1.6 CatBoost 0.035 0.954 5.2 表 4 3 种算法测试集残差特征对比 Table 4 Comparison of residual characteristics of three al￾gorithms in test data 建模方法 残差最大值 残差平均值 XGBoost 0.209 0.035 LightGBM 0.129 0.022 CatBoost 0.186 0.030 基于 LightGBM 算法的主轴承温度预测模型 在测试集上的残差见图 3 所示。 0 2 000 4 000 6 000 8 000 10 000 测试集采样点数量 −0.2 0.6 残差值归一化 真实值 预测值 残差值 图 3 主轴承温度模型测试集残差 Fig. 3 Residual error of the main bearing temperature model in the test data 4 基于 AC-GAN 的主轴承温度残差 重构 基于 AC-GAN 的主轴承温度残差重构方法具 体步骤为:首先,采用 SPC 方法将主轴承异常机 组残差在控制范围内的正常残差数据剔除;其 次,将控制范围之外的异常残差数据作为训练数 据,采用 AC-GAN 生成对抗网络生成与真实数据 分布相似的数据替换被剔除的数据。 4.1 基于 SPC 的残差特征提取 SPC 方法最初主要用来监测生产产品中的质 量问题,如果生产过程中出现随机质量问题说明 ·1110· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有