【智能系统】基于互信息的多块iki近邻故障监测及诊断

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：4.5MB

第16卷第4期智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202007035 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20210412.1514.013html 基于互信息的多块k近邻故障监测及诊断郑静2，熊伟丽2 (1.江南大学轻工过程先进控制教育部重点实验室，江苏无锡214122,2.江南大学物联网工程学院，江苏无锡214122) 摘要：由于传统的k近邻故障监测不考虑过程的局部信息，只建立一个全局模型，因此提出一种基于互信息的多块k近邻故障监测方法。首先，考虑建模数据的非线性和非高斯等特性，基于变量间的互信息进行子块构建：然后，利用k近邻方法对每个子块进行建模与监测，子块中的k近邻模型反映了更多的过程局部特征：最后，将所有子块的监测结果通过贝叶斯推断方法进行融合，并采用基于马氏距离的故障诊断方法辨识故障源。通过对田纳西-伊斯曼过程和高炉炼铁过程中的应用仿真，监测结果表明所提方法的可行性和有效性。关键词：互信息；多块建模；k近邻；过程监控；故障检测；贝叶斯推断；故障诊断；马氏距离中图分类号：TP277文献标志码：A文章编号：1673-4785(2021)04-0717-12 中文引用格式：郑静，熊伟丽.基于互信息的多块k近邻故障监测及诊断.智能系统学报，2021,16(4)：717-728 英文引用格式：ZHENGJing,.XIONG Weili..Multiblock k-nearest neighbor fault monitoring and diagnosis based on mutual in- formation[Jl.CAAI transactions on intelligent systems,2021,16(4):717-728. Multiblock k-nearest neighbor fault monitoring and diagnosis based on mutual information ZHENG Jing2,XIONG Weili2 (1.China Key Laboratory of Advanced Process Control for Light Industry Ministry of Education,Jiangnan University,Wuxi 214122, China:2.School of the Internet of Things Engineering,Jiangnan University,Wuxi 214122,China) Abstract:The traditional k-nearest neighbor (kNN)fault monitoring does not take into account the process of local in- formation and only builds a global model.Thus,a multi-block kNN fault monitoring algorithm based on mutual inform- ation is proposed.First,with the nonlinear and non-Gaussian characteristics of the modeled data taken into considera- tion,subblocks are constructed based on mutual information between variables.Then,the kNN algorithm is used to model and monitor each subblock,in which the kNN model reflects more local characteristics of the process.Lastly,the monitoring results of all subblocks are fused by the Bayesian inference method,and a fault diagnosis method based on Mahalanobis distance is used to identify the source of faults.Through the application simulation in the Tennessee East- man process and the blast furnace ironmaking process,the monitoring results show the feasibility and effectiveness of the proposed method. Keywords:mutual information;multi-block modeling;k-nearest neighbor;process monitoring;fault detection; Bayesian inference;fault diagnosis;Mahalanobis distance 随着新型传感器、数据采集设备和系统的迅 PCA)和k近邻方法(k-nearest neighbor,,kNN)是较速发展，一些先进工业过程积累了丰富的过程数为基础的方法，得到了大量的研究和应用。据，使得多元统计过程监控(multivariate statistical 作为一种降维技术，PCA通过将数据投影到 process monitoring,MSPM)技术不断进步l-1。其低维空间以有效地处理高维和线性相关的数据，中的主成分分析(principal component analysis, 通过建立主元子空间和残差子空间的统计量进行收稿日期：2020-07-22.网络出版日期：2021-04-12. 过程监控。但是，对于具有非线性和非高斯特性基金项目：国家自然科学基金项目(61773182)：国家重点研发计划子课题(2018YFC1603705-03). 的过程数据，PCA方法可能无法进行有效的监通信作者：熊伟丽.E-mail:greenpre(@163.com 测。He等⑧提出基于k近邻规则的故障监测算

DOI: 10.11992/tis.202007035 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210412.1514.013.html 基于互信息的多块 k 近邻故障监测及诊断郑静1,2，熊伟丽1,2 （1. 江南大学轻工过程先进控制教育部重点实验室，江苏无锡 214122; 2. 江南大学物联网工程学院，江苏无锡 214122）摘要：由于传统的 k 近邻故障监测不考虑过程的局部信息，只建立一个全局模型，因此提出一种基于互信息的多块 k 近邻故障监测方法。首先，考虑建模数据的非线性和非高斯等特性，基于变量间的互信息进行子块构建；然后，利用 k 近邻方法对每个子块进行建模与监测，子块中的 k 近邻模型反映了更多的过程局部特征；最后，将所有子块的监测结果通过贝叶斯推断方法进行融合，并采用基于马氏距离的故障诊断方法辨识故障源。通过对田纳西−伊斯曼过程和高炉炼铁过程中的应用仿真，监测结果表明所提方法的可行性和有效性。关键词：互信息；多块建模；k 近邻；过程监控；故障检测；贝叶斯推断；故障诊断；马氏距离中图分类号：TP277 文献标志码：A 文章编号：1673−4785(2021)04−0717−12 中文引用格式：郑静, 熊伟丽. 基于互信息的多块 k 近邻故障监测及诊断 [J]. 智能系统学报, 2021, 16(4): 717–728. 英文引用格式：ZHENG Jing, XIONG Weili. Multiblock k-nearest neighbor fault monitoring and diagnosis based on mutual information[J]. CAAI transactions on intelligent systems, 2021, 16(4): 717–728. Multiblock k-nearest neighbor fault monitoring and diagnosis based on mutual information ZHENG Jing1,2 ，XIONG Weili1,2 (1. China Key Laboratory of Advanced Process Control for Light Industry Ministry of Education, Jiangnan University, Wuxi 214122, China; 2. School of the Internet of Things Engineering, Jiangnan University, Wuxi 214122, China) Abstract: The traditional k-nearest neighbor (kNN) fault monitoring does not take into account the process of local information and only builds a global model. Thus, a multi-block kNN fault monitoring algorithm based on mutual information is proposed. First, with the nonlinear and non-Gaussian characteristics of the modeled data taken into consideration, subblocks are constructed based on mutual information between variables. Then, the kNN algorithm is used to model and monitor each subblock, in which the kNN model reflects more local characteristics of the process. Lastly, the monitoring results of all subblocks are fused by the Bayesian inference method, and a fault diagnosis method based on Mahalanobis distance is used to identify the source of faults. Through the application simulation in the Tennessee Eastman process and the blast furnace ironmaking process, the monitoring results show the feasibility and effectiveness of the proposed method. Keywords: mutual information; multi-block modeling; k-nearest neighbor; process monitoring; fault detection; Bayesian inference; fault diagnosis; Mahalanobis distance 随着新型传感器、数据采集设备和系统的迅速发展，一些先进工业过程积累了丰富的过程数据，使得多元统计过程监控 (multivariate statistical process monitoring, MSPM) 技术不断进步[1-3]。其中的主成分分析 (principal component analysis, PCA) 和 k 近邻方法 (k-nearest neighbor, kNN) 是较为基础的方法，得到了大量的研究和应用[4-7]。作为一种降维技术，PCA 通过将数据投影到低维空间以有效地处理高维和线性相关的数据，通过建立主元子空间和残差子空间的统计量进行过程监控。但是，对于具有非线性和非高斯特性的过程数据，PCA 方法可能无法进行有效的监测。He 等 [8] 提出基于 k 近邻规则的故障监测算收稿日期：2020−07−22. 网络出版日期：2021−04−12. 基金项目：国家自然科学基金项目 (61773182)；国家重点研发计划子课题 (2018YFC1603705-03). 通信作者：熊伟丽. E-mail：greenpre@163.com. 第 16 卷第 4 期智能系统学报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021

·718· 智能系统学报第16卷法，该算法不局限于线性和高斯数据，使用局部多个子块，对每个子块建立相应的kNN模型，并近邻距离度量样本相似度，根据故障样本和正常利用核密度估计方法求出控制限，最后利用贝叶样本的相似度不同实现故障监测。但是由于每一斯推断将各子块的监测结果融合，使得整体的监个样本都需要计算与其他样本的距离，计算量明显测效果更为直观。本文进一步采用基于马氏距离增大。为此，学者们提出了许多改进的kNN故障的故障诊断方法，通过计算样本中各变量与其均监测算法。例如：文献[9]利用改进K-means聚类值的马氏距离，找出引发故障的源变量并对其隔将原始建模数据分成多个类，对每个类分别建立离。利用田纳西-斯曼(Tennessee Eastmann, kNN监测模型，大大缩短故障检测时间；文献[IO] TE)和实际高炉炼铁过程数据，对所提方法进行提出将动态PCA和kNN相结合的故障诊断方法，了仿真，并与几种传统监测方法进行了对比，验先建立主元模型，再利用kNN获取样本的k个近证了本文方法的性能。邻，明显提高了故障的报警率；文献[I1]针对kNN 模型不能及时更新的问题，提出了一种特征空间 1相关算法介绍自适应k近邻故障检测方法，有效提高模型实时监测的能力；文献[12]考虑到多模态过程数据具 1.1kNN算法有多中心、方差差异大等特点，通过构造标准距 k近邻算法是数据挖掘和数据分类中最常用离，实现了kNN方法对多模态数据的有效监测。的方法之一，传统kNN算法通过寻找k个近邻样由于现代工业过程具有多个操作单元、变量本，采用投票的方法确定待测样本的类别。基于关系复杂等特点，全局建模策略无法更加准确地 kNN的故障监测，其基本思想是通过计算近邻距离对过程建模，多块建模策略成为有效的解决方度量样本间的相似度，若样本点与训练集中前k个案。Macgrego等l首次提出了多块投影方法，为近邻样本距离的平方和大于正常样本的相应距离每个子块以及整个过程建立监测模型。文献[14] 平方和，则该样本点被定义为故障点。监测过程采用Jarque-Bera(J-B)检测方法并利用变量间的包括模型建立和故障检测两步，具体描述如下： Hellinger距离获得高斯和非高斯子块，然后分别 1)建立模型采用不同的方法进行建模，并对每个子块的统计首先在训练集中，寻找每个样本x的前k个量进行加权得到总的联合指标实现在线监控：文近邻样本，记做T(x,k)={x,x,…,,…,},其中，献[15]将整个过程划分成多个子块单元，然后在每表示样本：的第j个近邻样本。然后，计算每个子块单元内分别进行相对变换独立主元分析处个样本：与其k个近邻样本的欧式距离平方和作理，实现故障排查和识别：Ge等提出分布式PCA 为统计量，如式(1)所示，其中，表示样本x与的全流程过程监控方法，利用过程变量在主元方它的第j个近邻样本的欧氏距离平方。接着，根向上的贡献度划分子块，有效地提高了监控效果。据置信度α确定训练模型的控制限D:。在信息论领域里，互信息(mutual information, D=∑d,G=l-x (1) M)是一种相对成熟的统计分析技术，可以通过信息嫡度量两个随机变量之间的依赖性，并且这式中：D表示样本x的统计量。种度量不局限于数据线性关系的假设条件1例 2)在线故障检测已经在数据分析与建模领域得到了比较多的应首先，在训练集中寻找待测样本x的前k个用。文献[20]利用变量间的互信息定义数据的相近邻。然后，计算x与其k个近邻样本的欧式距关性矩阵，为过程数据建立更为精确的描述模离平方和，记做D。最后，比较D与D的大小，型。文献[21]利用互信息矩阵之和替代传统主成若D≥D2,则判定为故障点，反之为正常点。分分析中的协方差矩阵，计算其特征向量与特征 12 互信息值，得到较主成分分析更好的降维效果。文献22] 在概率论和信息论领域，互信息是一种非常利用高维k近邻互信息方法，有效解决建模过程实用的信息度量方法。它可以度量两个随机变量中的特征选择问题。相互依赖的程度，表示出两个变量共享的信息，综上所述，为了更加充分地对复杂过程变量反映两个变量的相关性2，这种度量同样适用于之间的关系进行描述，并提取过程的局部特征，非线性相关的变量。对于密切相关的变量，它们利用多块建模策略，提出一种基于互信息的k近拥有较大的互信息。令随机变量X和Y的联合邻故障监测算法。该算法在计算训练集样本间的概率分布及边缘概率分布分别为p(x,y)、p(x)和互信息基础上，根据互信息值的大小将变量分成 py),其中x∈X,y∈Y,X的熵定义如式(2)所示

法，该算法不局限于线性和高斯数据，使用局部近邻距离度量样本相似度，根据故障样本和正常样本的相似度不同实现故障监测。但是由于每一个样本都需要计算与其他样本的距离，计算量明显增大。为此，学者们提出了许多改进的 kNN 故障监测算法。例如：文献 [9] 利用改进 K-means 聚类将原始建模数据分成多个类，对每个类分别建立 kNN 监测模型，大大缩短故障检测时间；文献 [10] 提出将动态 PCA 和 kNN 相结合的故障诊断方法，先建立主元模型，再利用 kNN 获取样本的 k 个近邻，明显提高了故障的报警率；文献 [11] 针对 kNN 模型不能及时更新的问题，提出了一种特征空间自适应 k 近邻故障检测方法，有效提高模型实时监测的能力；文献 [12] 考虑到多模态过程数据具有多中心、方差差异大等特点，通过构造标准距离，实现了 kNN 方法对多模态数据的有效监测。由于现代工业过程具有多个操作单元、变量关系复杂等特点，全局建模策略无法更加准确地对过程建模，多块建模策略成为有效的解决方案。Macgrego 等 [13] 首次提出了多块投影方法，为每个子块以及整个过程建立监测模型。文献 [14] 采用 Jarque-Bera(J-B) 检测方法并利用变量间的 Hellinger 距离获得高斯和非高斯子块，然后分别采用不同的方法进行建模，并对每个子块的统计量进行加权得到总的联合指标实现在线监控；文献 [15] 将整个过程划分成多个子块单元，然后在每个子块单元内分别进行相对变换独立主元分析处理，实现故障排查和识别；Ge 等 [16] 提出分布式 PCA 的全流程过程监控方法，利用过程变量在主元方向上的贡献度划分子块，有效地提高了监控效果。在信息论领域里，互信息 (mutual information, MI) 是一种相对成熟的统计分析技术，可以通过信息熵度量两个随机变量之间的依赖性，并且这种度量不局限于数据线性关系的假设条件[17-19] ，已经在数据分析与建模领域得到了比较多的应用。文献 [20] 利用变量间的互信息定义数据的相关性矩阵，为过程数据建立更为精确的描述模型。文献 [21] 利用互信息矩阵之和替代传统主成分分析中的协方差矩阵，计算其特征向量与特征值，得到较主成分分析更好的降维效果。文献 [22] 利用高维 k 近邻互信息方法，有效解决建模过程中的特征选择问题。综上所述，为了更加充分地对复杂过程变量之间的关系进行描述，并提取过程的局部特征，利用多块建模策略，提出一种基于互信息的 k 近邻故障监测算法。该算法在计算训练集样本间的互信息基础上，根据互信息值的大小将变量分成多个子块，对每个子块建立相应的 kNN 模型，并利用核密度估计方法求出控制限，最后利用贝叶斯推断将各子块的监测结果融合，使得整体的监测效果更为直观。本文进一步采用基于马氏距离的故障诊断方法，通过计算样本中各变量与其均值的马氏距离，找出引发故障的源变量并对其隔离。利用田纳西−斯曼 (Tennessee Eastmann, TE) 和实际高炉炼铁过程数据，对所提方法进行了仿真，并与几种传统监测方法进行了对比，验证了本文方法的性能。 1 相关算法介绍 1.1 kNN 算法 k 近邻算法是数据挖掘和数据分类中最常用的方法之一，传统 kNN 算法通过寻找 k 个近邻样本，采用投票的方法确定待测样本的类别。基于 kNN 的故障监测，其基本思想是通过计算近邻距离度量样本间的相似度，若样本点与训练集中前 k 个近邻样本距离的平方和大于正常样本的相应距离平方和，则该样本点被定义为故障点。监测过程包括模型建立和故障检测两步，具体描述如下： 1) 建立模型 xi T(xi , k) = {x 1 i , x 2 i ,··· , x j i ,··· , x k i } x j i xi xi d 2 i j xi D 2 α 首先在训练集中，寻找每个样本的前 k 个近邻样本，记做，其中，表示样本的第 j 个近邻样本。然后，计算每个样本与其 k 个近邻样本的欧式距离平方和作为统计量，如式 (1) 所示，其中，表示样本与它的第 j 个近邻样本的欧氏距离平方。接着，根据置信度 α 确定训练模型的控制限。 D 2 i = ∑k j=1 d 2 i j, d 2 i j = xi − x j i 2 (1) D 2 式中： i 表示样本 xi 的统计量。 2) 在线故障检测 x x D 2 x D 2 x D 2 α D 2 x ⩾ D 2 α 首先，在训练集中寻找待测样本的前 k 个近邻。然后，计算与其 k 个近邻样本的欧式距离平方和，记做。最后，比较与的大小，若，则判定为故障点，反之为正常点。 1.2 互信息 X Y p(x，y) p(x) p(y) x ∈ X y ∈ Y X 在概率论和信息论领域，互信息是一种非常实用的信息度量方法。它可以度量两个随机变量相互依赖的程度，表示出两个变量共享的信息，反映两个变量的相关性[21] ，这种度量同样适用于非线性相关的变量。对于密切相关的变量，它们拥有较大的互信息。令随机变量和的联合概率分布及边缘概率分布分别为、和，其中，，的熵定义如式 (2) 所示。 ·718· 智能系统学报第 16 卷

第4期郑静，等：基于互信息的多块k近邻故障监测及诊断 ·719· H(X)= >p(x)logp(x) (2) 性、非线性共存，高斯、非高斯混合分布，传统的 PCA与kNN方法往往从全局的角度出发，系统的联合嫡为本质特征无法得到充分的展示。因此，首先对变 H(X.Y)=- p(x.y)logp(x.y) (3) 量进行MI计算，将互信息大的多个变量放在一起组成子块，使得子块内的变量拥有更多相同的则变量X和Y之间的互信息可以定义为信息，最大化地反映变量的一个或者多个局部特 1x:)=∑∑p(x.y)log p(x,y) (4) 征，同时也大大降低了监控过程的复杂度，从而 JEY IEX p(x)p(y) 有效地提高系统的监控效果。若X和y相互独立，则X不对Y提供任何信息，此时互信息值最小，结果为0。反之，两个变对于训练集X∈Rxm,:∈X,x∈X,计算变量 :与变量x之间的互信息，即量间的相关性越高，互信息值越大。 l=I(x,xi=1,2,…,mj=1,2,…,m） (5) 2 基于互信息的多块建模kNN故障若1≥1山，则把变量x与变量。放到相同的监测及诊断子块中。，一般根据经验获得，本文结合互信息针状图为了更好地划分变量，：取1.31w,其中Iw 2.1基于互信息的分块策略是，的中值。本文所采用的多块建模方法如图1 在实际的工业过程中，变量之间大多是线所示。变量子集子块模型1 子块1监测结果变量间互信息计算变量子集2 分块建模子块模型2 分块监测子块2监测结果决策融合原始数据集最终监测结果变量子集B 子块模型B 子块B监测结果图1本文所采用的多块建模方法 Fig.1 Multi-block modeling method in this paper 2.2故障监测及诊断 PD(xiesb)=PD:(xiestN)Pp:(N)+Pp:(xestF)PD(F) 针对划分好的子块，建立kNN监测模型。寻 (8) 找各子块中样本的k近邻样本集，记做式中：xb表示第b个子块中的测试样本。条件 T(xb,k)={x,x,…,x点b=1,2,…,B) (6) 概率Po(iesto N)和P(xebF)可定义如式（⑨）所示。其中x表示第b个子块中的变量x,点表示样本 Pp:(xtesN)=e-DiD (9) xb的第k个近邻样本。 PD:(xtsF)=e-DiID 然后计算每个子块中样本与其k近邻样本的其中，“N”和“F”分别代表“normal'和“fault'”,即欧式距离平方和作为子块统计量，即D=∑，正常样本和故障样本。PN)为正常样本的先验概率，由置信度a决定，则PoF)为1-a;D2new为其中D表示第b个子块的统计量。新样本在第b个子块中的统计量；D%m是第b个通过核密度估计法(kernel density estimation, 子块中由核密度估计方法估计得出的统计量的控 KDE)估计每个统计量的概率密度，再绘制累加制限。最终，融合的BC统计量即为待测样本发概率密度图，根据置信度确定每个块中统计量的生故障的概率，如式(10)所示。控制限。由于子块数目较多且产生多个监测结果，无法得到一个直观的最终决策，因此，采用贝叶斯融合策略2，将正常事件和故障事件与贝叶 Po:(iestbF)PD(Flxest (10) 斯推断相结合，从概率的角度将所有子块的统计量组合成一个新的统计量来得到最终的监测结果。在贝叶斯推断(bayesian inference,.B)中，测 BIC统计量的控制限由1-α确定（本文α取试样本xem在第b个子块中的D2统计量的故障 0.01),当BIC的值大于1-a时，判断发生故障：否条件概率可以表示为则，过程正常。 Pr(F)=Po-(toF)P(F) 当检测到故障后，需要找出引发故障的源变 (7) Pp:(Xtestb) 量并对其进行分离。计算数据样本中各变量与其

H(X) = − ∑ x∈X p(x)logp(x) (2) 联合熵为 H(X,Y) = − ∑ x∈X ∑ y∈Y p(x, y)log p(x, y) (3) 则变量 X 和 Y 之间的互信息可以定义为 I(X;Y) = ∑ y∈Y ∑ x∈X p(x, y)log p(x, y) p(x)p(y) (4) 若 X 和 Y 相互独立，则 X 不对 Y 提供任何信息，此时互信息值最小，结果为 0。反之，两个变量间的相关性越高，互信息值越大。 2 基于互信息的多块建模 kNN 故障监测及诊断 2.1 基于互信息的分块策略在实际的工业过程中，变量之间大多是线性、非线性共存，高斯、非高斯混合分布，传统的 PCA 与 kNN 方法往往从全局的角度出发，系统的本质特征无法得到充分的展示。因此，首先对变量进行 MI 计算，将互信息大的多个变量放在一起组成子块，使得子块内的变量拥有更多相同的信息，最大化地反映变量的一个或者多个局部特征，同时也大大降低了监控过程的复杂度，从而有效地提高系统的监控效果。 X ∈ R n×m xi ∈ X xj ∈ X xi xj Ii j 对于训练集，，，计算变量与变量之间的互信息，即 Ii j = I(xi , xj)(i = 1,2,··· ,m; j = 1,2,··· ,m) (5) Ii j ⩾ Ii,l xj xi Ii,l Ii,l 1.3IiM IiM Ii j 若，则把变量与变量放到相同的子块中。一般根据经验获得，本文结合互信息针状图为了更好地划分变量，取，其中是的中值。本文所采用的多块建模方法如图 1 所示。原始数据集变量间互信息计算变量子集 1 变量子集 2 变量子集 B ... 分块建模子块模型 1 子块模型 2 ... 子块模型 B 分块监测子块 1 监测结果子块 2 监测结果 ... 子块 B 监测结果最终监测结果决策融合图 1 本文所采用的多块建模方法 Fig. 1 Multi-block modeling method in this paper 2.2 故障监测及诊断针对划分好的子块，建立 kNN 监测模型。寻找各子块中样本的 k 近邻样本集，记做 T(xib, k) = {x 1 ib, x 2 ib,··· , x k ib}(b = 1,2,··· ,B) (6) xib xi x k ib xib 其中表示第 b 个子块中的变量，表示样本的第 k 个近邻样本。 D 2 ib = ∑k j=1 d 2 ib j D 2 ib 然后计算每个子块中样本与其 k 近邻样本的欧式距离平方和作为子块统计量，即，其中表示第 b 个子块的统计量。通过核密度估计法 (kernel density estimation, KDE) 估计每个统计量的概率密度，再绘制累加概率密度图，根据置信度确定每个块中统计量的控制限。由于子块数目较多且产生多个监测结果，无法得到一个直观的最终决策，因此，采用贝叶斯融合策略[23] ，将正常事件和故障事件与贝叶斯推断相结合，从概率的角度将所有子块的统计量组合成一个新的统计量来得到最终的监测结果。 xtest D 2 在贝叶斯推断 (bayesian inference, BI) 中，测试样本在第 b 个子块中的统计量的故障条件概率可以表示为 PD2 (F|xtest,b) = PD2 (xtest,b|F)PD2 (F) PD2 (xtest,b) (7) PD2 (xtest,b) = PD2 (xtest,b|N)PD2 (N)+ PD2 (xtest,b|F)PD2 (F) (8) xtest,b PD2 (xtest,b|N) PD2 (xtest,b|F) 式中：表示第 b 个子块中的测试样本。条件概率和可定义如式 (9) 所示。 PD2 (xtest,b|N) = e −D 2 b,new /D 2 b,lim PD2 (xtest,b|F) = e −D 2 b,lim/D 2 b,new (9) PD2 (N) α PD2 (F) 1−α D 2 b,new D 2 b,lim 其中，“N”和“F”分别代表“normal”和“fault”，即正常样本和故障样本。为正常样本的先验概率，由置信度决定，则为；为新样本在第 b 个子块中的统计量；是第 b 个子块中由核密度估计方法估计得出的统计量的控制限。最终，融合的 BIC 统计量即为待测样本发生故障的概率，如式 (10) 所示。 BICD2 = ∑B b=1    PD2 (xtest,b|F)PD2 (F|xtest,b) ∑B j=1 PD2 (xtest, j |F)    (10) 1−α α 1−α BIC 统计量的控制限由确定 (本文取 0.01)，当 BIC 的值大于时，判断发生故障；否则，过程正常。当检测到故障后，需要找出引发故障的源变量并对其进行分离。计算数据样本中各变量与其第 4 期郑静，等：基于互信息的多块 k 近邻故障监测及诊断 ·719·

·720· 智能系统学报第16卷均值的马氏距离7，即加权计算数据样本中各变变量数目多，且变量与变量之间的关系复杂。主量相较于其均值的偏移量，偏移量越大，说明该要分为12个操作变量，41个测量变量，21个预设变量对于故障贡献越大。该方法可以有效辨识引定的故障。本文选取22个过程测量变量和11个发故障的源变量，即发生故障的根本原因。操作变量（不包括搅动速度）用于监测方法建模 2.3基于M-MBkNN故障监测算法流程和监测性能测试，具体变量描述见文献[16]。对于基于互信息的多块kNN故障监测算法流程每种故障，训练集用于训练建立模型，测试集用来如图2所示，具体步骤描述如下。检验模型监测性能。训练集和测试集均采用960 个样本，测试集中故障从第161个样本点引入。离线建模在线建模为了建立多块模型，对选取的过程变量和操原始正常数据集测试样本· 作变量进行互信息的计算并进行分块，分块结果标准化处理标准化处理如表1所示。图3分别展示了变量18、变量19、变量31与其他32个变量间的互信息，图中的虚计算变量之间的变量分块互信息并分块线表示为13倍互信息中值，互信息超过虚线的计算测试样本在每个变量即为与该变量具有较大互信息的变量。因此子块1子块2子块B 模型的监测统计量将变量18、变量19和变量31放到相同的子块通过贝叶斯推断，中。图4分别展示了变量10、变量17、变量28、模型1模型习模型B 获得BIC统计量变量33与其他32个变量间的互信息，因此将它计算每个子块们组成一个子块。超过 N 模型的控制限、控制限表1TE过程子块的划分融合后BIC统计 Y Table 1 Blocks division in the TE process 量的控制限发生故障子块编号变量 (故障隔离) X1,X25 2 X12,X29 图2基于MI-MBkNN的故障监测流程 3 X15,X30 Fig.2 Fault monitoring flowchart based on MI-MBkNN g X18,X19,X31 1)获取正常训练数据，并对其进行标准化处理； J X10,X17,X28,X33 2)计算两两变量间互信息，根据2.1节所述 6 X,X13,X16,X20,X27 方法对变量进行分块，得到各个子块； X2,X3,X4,X5,X6,X8,Xg,X11: X14,X21,X22,X23,X24,X26,X32 3)对每个子块分别建立kNN模型，利用核密度估计方法确定各自的故障控制限； 4)对于新来的测试样本，同样对其进行标准化处理和分块处理； 5)对每个子块进行kNN故障监测，获得每个子块的监测结果； 6)通过贝叶斯推断方法，利用式(10)将各个子块的统计量组合成为一个新的BIC统计量，并 10 根据置信度确定控制限，当BIC超过控制限时则 15 20 25 30 35 变量序号判断发生了故障，否则正常； (a)变量18 7)监测到故障后计算数据样本中各变量与其均值的马氏距离，确定故障变量及故障块，分离出对故障影响最大的变量。 3仿真实验 3.1TE过程仿真 TE仿真平台是基于实际工业过程的仿真平 10 1520 2530 35 台，它由反应器、冷凝器、压缩机、分离器和汽变量序号提塔5个主要操作单元组成42。该过程包含的 (b)变量19

均值的马氏距离[17] ，即加权计算数据样本中各变量相较于其均值的偏移量，偏移量越大，说明该变量对于故障贡献越大。该方法可以有效辨识引发故障的源变量，即发生故障的根本原因。 2.3 基于 MI-MBkNN 故障监测算法流程基于互信息的多块 kNN 故障监测算法流程如图 2 所示，具体步骤描述如下。原始正常数据集标准化处理离线建模计算变量之间的互信息并分块子块 1 子块 2 子块 B 模型 1 模型 2 模型 B 计算每个子块模型的控制限融合后 BIC 统计量的控制限测试样本在线建模计算测试样本在每个模型的监测统计量通过贝叶斯推断，获得 BIC 统计量变量分块超过控制限标准化处理 Y N 发生故障故障隔离 ... ... 图 2 基于 MI-MBkNN 的故障监测流程 Fig. 2 Fault monitoring flowchart based on MI-MBkNN 1) 获取正常训练数据，并对其进行标准化处理； 2) 计算两两变量间互信息，根据 2.1 节所述方法对变量进行分块，得到各个子块； 3) 对每个子块分别建立 kNN 模型，利用核密度估计方法确定各自的故障控制限； 4) 对于新来的测试样本，同样对其进行标准化处理和分块处理； 5) 对每个子块进行 kNN 故障监测，获得每个子块的监测结果； 6) 通过贝叶斯推断方法，利用式 (10) 将各个子块的统计量组合成为一个新的 BIC 统计量，并根据置信度确定控制限，当 BIC 超过控制限时则判断发生了故障，否则正常； 7) 监测到故障后计算数据样本中各变量与其均值的马氏距离，确定故障变量及故障块，分离出对故障影响最大的变量。 3 仿真实验 3.1 TE 过程仿真 TE 仿真平台是基于实际工业过程的仿真平台，它由反应器、冷凝器、压缩机、分离器和汽提塔 5 个主要操作单元组成[24-25]。该过程包含的变量数目多，且变量与变量之间的关系复杂。主要分为 12 个操作变量，41 个测量变量，21 个预设定的故障。本文选取 22 个过程测量变量和 11 个操作变量 (不包括搅动速度) 用于监测方法建模和监测性能测试，具体变量描述见文献 [16]。对于每种故障，训练集用于训练建立模型，测试集用来检验模型监测性能。训练集和测试集均采用 960 个样本，测试集中故障从第 161 个样本点引入。为了建立多块模型，对选取的过程变量和操作变量进行互信息的计算并进行分块，分块结果如表 1 所示。图 3 分别展示了变量 18、变量 19、变量 31 与其他 32 个变量间的互信息，图中的虚线表示为 1.3 倍互信息中值，互信息超过虚线的变量即为与该变量具有较大互信息的变量。因此将变量 18、变量 19 和变量 31 放到相同的子块中。图 4 分别展示了变量 10、变量 17、变量 28、变量 33 与其他 32 个变量间的互信息，因此将它们组成一个子块。表 1 TE 过程子块的划分 Table 1 Blocks division in the TE process 子块编号变量 1 x1, x25 2 x12, x29 3 x15, x30 4 x18, x19, x31 5 x10, x17, x28, x33 6 x7, x13, x16, x20, x27 7 x2, x3, x4, x5, x6, x8, x9, x11, x14, x21, x22, x23, x24, x26, x32 3 5 7 0 1 互信息变量序号 5 10 15 20 25 30 35 (a) 变量 18 3 5 7 0 1 互信息 (b) 变量 19 变量序号 5 10 15 20 25 30 35 ·720· 智能系统学报第 16 卷

第4期郑静，等：基于互信息的多块k近邻故障监测及诊断 ·721· 表2给出了7个子块对21种故障的报警率、平均报警率和平均误报率。从报警率来看， o.o 对于大多数故障类型，子块7的监测结果要优于有 3 其他6个子块。子块5的平均报警率很低，但是对于某些故障（如故障5），子块5的报警率达 96%,对整个的监测起到了关键的作用。对于不 5 101520 25 30 同的故障，由于某些子块拥有较高的报警率和较变量序号 (c)变量31 低的误报率，使得最终融合的BIC统计量表现了良好的监测性能。从对21种故障的监测结果来图3子块4中各变量间的互信息 Fig.3 Mutual information between variables in block 4 看，对于大部分故障，融合后的监测性能有了明显的提高。 7 6 表2TE过程各故障报警率 5 Table 2 Alarm rates of TE process 有故障子块 3 BIC 编号 1 2 3 4 5 67 0.9890 00.9700.1030.3730.980.998 101520 25 30 35 0.0540 00.8980.9860.7290.9510.986 变量序号 (a)变量10 0.00300.0010.0030.0080.0290.0110.033 0.00300 00.0080.01910.994 5 0.0900 00.1960.9600.2300.1940.951 6 10 00.9660.9440.9960.9901 0.2080 00.3110.1530.41511 0.58000.0030.7200.7210.9360.8390.976 10 15202530 35 变量序号 0.003000.0010.0090.0230.0130.021 (b)变量17 0.0790 00.7150.0040.3480.1410.758 11 0.00500.0010.0200.0110.0460.7350.660 12 0.44600.0040.8790.4200.9160.9680.991 0.448000.9330.5740.8750.8900.949 14 0.00500.00100.0030.00411 10 1520 25 30 35 0.013000.0340.0030.0740.0100.089 变量序号 (c)变量28 16 0.0190 00.8010.0050.1800.0700.804 公 0.010000.0730.0110.1030.9430.900 18 0.828000.8810.8590.8800.8960.899 有 19 0.00800.0010.0110.0040.5410.1050.468 20 0.01800.0030.0500.0080.6510.1140.630 21 0.003000.4900.0030.3760.3340.449 10 1520 25 30 35 平均故障变量序号 0.22900.0010.4260.2760.4160.5800.741 (d)变量33 报警率平均故障图4子块5中各变量间的互信息 0.0020.0010 0.0020.0050.0170.0030.017 误报率 Fig.4 Mutual information between variables in block 5

(c) 变量 31 3 5 7 0 1 互信息变量序号 5 10 15 20 25 30 35 图 3 子块 4 中各变量间的互信息 Fig. 3 Mutual information between variables in block 4 3 2 5 4 7 6 0 1 互信息变量序号 5 10 15 20 25 30 35 3 5 7 0 1 互信息变量序号 5 10 15 20 25 30 35 3 5 7 0 1 互信息变量序号 5 10 15 20 25 30 35 (a) 变量 10 (b) 变量 17 (c) 变量 28 3 5 7 0 1 互信息 (d) 变量 33 变量序号 5 10 15 20 25 30 35 图 4 子块 5 中各变量间的互信息 Fig. 4 Mutual information between variables in block 5 表 2 给出了 7 个子块对 21 种故障的报警率、平均报警率和平均误报率。从报警率来看，对于大多数故障类型，子块 7 的监测结果要优于其他 6 个子块。子块 5 的平均报警率很低，但是对于某些故障 (如故障 5)，子块 5 的报警率达 96%，对整个的监测起到了关键的作用。对于不同的故障，由于某些子块拥有较高的报警率和较低的误报率，使得最终融合的 BIC 统计量表现了良好的监测性能。从对 21 种故障的监测结果来看，对于大部分故障，融合后的监测性能有了明显的提高。表 2 TE 过程各故障报警率 Table 2 Alarm rates of TE process 故障编号子块 BIC 1 2 3 4 5 6 7 1 0.989 0 0 0.970 0.103 0.373 0.98 0.998 2 0.054 0 0 0.898 0.986 0.729 0.951 0.986 3 0.003 0 0.001 0.003 0.008 0.029 0.011 0.033 4 0.003 0 0 0 0.008 0.019 1 0.994 5 0.090 0 0 0.196 0.960 0.230 0.194 0.951 6 1 0 0 0.966 0.944 0.996 0.990 1 7 0.208 0 0 0.311 0.153 0.415 1 1 8 0.580 0 0.003 0.720 0.721 0.936 0.839 0.976 9 0.003 0 0 0.001 0.009 0.023 0.013 0.021 10 0.079 0 0 0.715 0.004 0.348 0.141 0.758 11 0.005 0 0.001 0.020 0.011 0.046 0.735 0.660 12 0.446 0 0.004 0.879 0.420 0.916 0.968 0.991 13 0.448 0 0 0.933 0.574 0.875 0.890 0.949 14 0.005 0 0.001 0 0.003 0.004 1 1 15 0.013 0 0 0.034 0.003 0.074 0.010 0.089 16 0.019 0 0 0.801 0.005 0.180 0.070 0.804 17 0.010 0 0 0.073 0.011 0.103 0.943 0.900 18 0.828 0 0 0.881 0.859 0.880 0.896 0.899 19 0.008 0 0.001 0.011 0.004 0.541 0.105 0.468 20 0.018 0 0.003 0.050 0.008 0.651 0.114 0.630 21 0.003 0 0 0.490 0.003 0.376 0.334 0.449 平均故障报警率 0.229 0 0.001 0.426 0.276 0.416 0.580 0.741 平均故障误报率 0.002 0.001 0 0.002 0.005 0.017 0.003 0.017 第 4 期郑静，等：基于互信息的多块 k 近邻故障监测及诊断 ·721·

·722· 智能系统学报第16卷表3给出了TE过程21种故障在不同监测的情况，导致故障的漏报。由于该故障是局部故方法下的报警率和误报率，主要方法包括传统障，因此很难在全局模型中检测到，为了更好地 PCA、SVDD、kNN和本文提出的MI-MBkNN。从找出故障的原因，图6给出了数据样本在第161 仿真结果可以看出，对于绝大多数故障类型，M 个样本点（故障最开始处）的各变量与其均值中 MBkNN能取得优越于其他3种方法的监测结果，心的马氏距离。尤其是对故障5、故障10、故障16、故障19的监 200 测。图5以故障5为例展示了详细的监测过程与结果。 100 表3几种现有的监测方法性能比较 200 4006008001000 Table 3 Comparison of some state of monitoring methods 测试样本序号报警率 (a)PCA-T2 故障编码 PCA SVDD kNN MI-MBKNN 60 40 0.999 0.993 0.996 0.998 0.984 0.983 0.983 0.986 家 200 4006008001000 2 0.026 0.036 0.013 0.033 测试样本序号 1 0.791 0.975 0.994 (b)PCA-SPE 0.243 0.275 0.260 0.951 1.2 6 1.0 7 1 1 0.8 0.969 0.975 0.976 0.976 0.6 9 0.018 0.03 0.020 0.021 10 0.299 0.449 0.418 0.758 0. 0 200 400600 8001000 11 0.749 0.599 0.683 0.660 测试样本序号白 0.984 0.986 0.989 0.991 (c)SVDD 13 0.953 0.944 0.946 0.949 25 14 1 20 15 0.030 0.061 0.029 0.089 16 0.274 0.284 0.289 0.804 17 0.954 0.878 0.919 0.900 *林味 18 0.901 0.898 0.896 0.899 19 0.125 200 4006008001000 0.046 0.099 0.468 测试样本序号 20 0.498 0.459 0.495 0.630 (d)kNN 21 0.473 0.419 0.425 0.449 0.8 平均报警率。0.642 0.624 0.639 0.741 平均误报率0.0041.756 0.006 0.017 0.4 TE过程中的故障5涉及冷凝器冷却水入口温度的变化，当故障发生时，从冷凝器到气/液分离器的出口流量增加，使温度升高。使用传统 200 400 600 800 1000 PCA、kNN、SVDD方法和本文提出的MI-MB- 测试样本序号 kNN的监测结果如图5所示。从图5(a)(d)可以 (e)MI-MBKNN 发现，在故障开始时就可以检测出故障，但是在图5故障5监测结果大约350个样本的时候，统计量出现低于控制限 Fig.5 Monitoring result of fault 5

表 3 给出了 TE 过程 21 种故障在不同监测方法下的报警率和误报率，主要方法包括传统 PCA、SVDD、kNN 和本文提出的 MI-MBkNN。从仿真结果可以看出，对于绝大多数故障类型，MIMBkNN 能取得优越于其他 3 种方法的监测结果，尤其是对故障 5、故障 10、故障 16、故障 19 的监测。图 5 以故障 5 为例展示了详细的监测过程与结果。表 3 几种现有的监测方法性能比较 Table 3 Comparison of some state of monitoring methods 故障编码报警率 PCA SVDD kNN MI-MBkNN 1 0.999 0.993 0.996 0.998 2 0.984 0.983 0.983 0.986 3 0.026 0.036 0.013 0.033 4 1 0.791 0.975 0.994 5 0.243 0.275 0.260 0.951 6 1 1 1 1 7 1 1 1 1 8 0.969 0.975 0.976 0.976 9 0.018 0.03 0.020 0.021 10 0.299 0.449 0.418 0.758 11 0.749 0.599 0.683 0.660 12 0.984 0.986 0.989 0.991 13 0.953 0.944 0.946 0.949 14 1 1 1 1 15 0.030 0.061 0.029 0.089 16 0.274 0.284 0.289 0.804 17 0.954 0.878 0.919 0.900 18 0.901 0.898 0.896 0.899 19 0.125 0.046 0.099 0.468 20 0.498 0.459 0.495 0.630 21 0.473 0.419 0.425 0.449 平均报警率 0.642 0.624 0.639 0.741 平均误报率 0.004 1.756 0.006 0.017 TE 过程中的故障 5 涉及冷凝器冷却水入口温度的变化，当故障发生时，从冷凝器到气/液分离器的出口流量增加，使温度升高。使用传统 PCA、kNN、SVDD 方法和本文提出的 MI-MBkNN 的监测结果如图 5 所示。从图 5(a)~(d) 可以发现，在故障开始时就可以检测出故障，但是在大约 350 个样本的时候，统计量出现低于控制限的情况，导致故障的漏报。由于该故障是局部故障，因此很难在全局模型中检测到，为了更好地找出故障的原因，图 6 给出了数据样本在第 161 个样本点 (故障最开始处) 的各变量与其均值中心的马氏距离。 0 200 400 600 800 1 000 0 200 400 600 800 1 000 100 200 60 40 20 测试样本序号测试样本序号 SPE DIST T 2 (b) PCA-SPE (a) PCA-T 2 0.2 0.4 0.6 0.8 1.0 1.2 0 200 400 600 800 1 000 测试样本序号 (c) SVDD D2 0 200 400 600 800 1 000 5 10 15 20 25 测试样本序号 (d) kNN 0 200 400 600 800 1 000 0.2 0.4 0.6 0.8 测试样本序号 BICD 2 (e) MI-MBkNN 图 5 故障 5 监测结果 Fig. 5 Monitoring result of fault 5 ·722· 智能系统学报第 16 卷

第4期郑静，等：基于互信息的多块k近邻故障监测及诊断 ·723· 吃对故障16的监测结果，传统kNN方法在统计量上只能从450-500样本和790-840样本之间做到 30 相对持续的报警，而本文监测方法从故障引入点处开始就能做到大范围的持续报警。 10 6 0 10 20 30 变量序号 (a)kNN 43 50 40 10 20 变量序号 20 (a)kNN 10 6 10 20 30 变量序号 (b)MI-MBKNN 3 图6第161样本点故障5的变量识别结果 Fig.6 Variables identification results of fault 5 on the 1 161th point 20 30 可以看出这两个模型都能正确识别变量在过变量序号程中的变化，如分离器冷却水出口温度的变化 (b)MI-MBkNN (变量22)，反应器温度（变量9），产品分离器温度图7第400样本点故障5的变量识别结果 (变量11)和反应器冷却水流量（变量32）。但是 Fig.7 Variables identification results of fault 5 on the 400th point 在350个样本点后，从图7（第400个样本点）可以看出，kNN无法识别出冷凝器冷却水流量的变化 100 (变量33)，但是MI-MBkNN模型可以成功识别， 50 因此MI-MBkNN对故障5表现出了优越的监测效果。 200 400600 800 1000 测试样本序号故障10是流2(C进料)中温度的随机变化， (a)PCA-T2 从图8中可以看出350~650样本，传统的监测方 30 法很难监测到故障，但是M-MBkNN却能很好地检测出来。为了更好地找出引发故障的源变量，图9(a) 200 400600 8001000 和(b)分别给出了使用kNN和MI-MBkNN方法测试样本序号时数据样本在第400样本点处的各变量与其均值 (b)PCA-SPE 中心的马氏距离，可以发现M-MBkNN在寻找故 12 障源变量方面提供更重要的指导，即汽提塔温度 (变量18)，汽提塔蒸汽流量（变量19），汽提塔蒸汽阀的变量（变量31）是引起故障10的原因，因此子块4的监测效果明显优于其他子块。通过贝叶斯融合后，使得整体的监测效果得到了很高的提升。因此本文提出的方法对故障10的监测效果优 200 400600 800 1000 于其他几种传统的监测方法。图10对比了测试样本序号 PCA、kNN、本文方法的子块4和MI-BkNN的 (c)kNN

0 10 20 30 10 20 30 40 50 变量序号马氏距离 10 20 30 0 10 20 30 40 50 变量序号马氏距离 (a) kNN (b) MI-MBkNN 图 6 第 161 样本点故障 5 的变量识别结果 Fig. 6 Variables identification results of fault 5 on the 161th point 可以看出这两个模型都能正确识别变量在过程中的变化，如分离器冷却水出口温度的变化 (变量 22)，反应器温度 (变量 9)，产品分离器温度 (变量 11) 和反应器冷却水流量 (变量 32)。但是在 350 个样本点后，从图 7(第 400 个样本点) 可以看出，kNN 无法识别出冷凝器冷却水流量的变化 (变量 33)，但是 MI-MBkNN 模型可以成功识别，因此 MI-MBkNN 对故障 5 表现出了优越的监测效果。故障 10 是流 2(C 进料) 中温度的随机变化，从图 8 中可以看出 350~650 样本，传统的监测方法很难监测到故障，但是 MI-MBkNN 却能很好地检测出来。为了更好地找出引发故障的源变量，图 9(a) 和 (b) 分别给出了使用 kNN 和 MI-MBkNN 方法时数据样本在第 400 样本点处的各变量与其均值中心的马氏距离，可以发现 MI-MBkNN 在寻找故障源变量方面提供更重要的指导，即汽提塔温度 (变量 18)，汽提塔蒸汽流量 (变量 19)，汽提塔蒸汽阀的变量 (变量 31) 是引起故障 10 的原因，因此子块 4 的监测效果明显优于其他子块。通过贝叶斯融合后，使得整体的监测效果得到了很高的提升。因此本文提出的方法对故障 10 的监测效果优于其他几种传统的监测方法。图 1 0 对比了 PCA、kNN、本文方法的子块 4 和 MI-MBkNN 的对故障 16 的监测结果，传统 kNN 方法在统计量上只能从 450~500 样本和 790~840 样本之间做到相对持续的报警，而本文监测方法从故障引入点处开始就能做到大范围的持续报警。 0 10 20 30 1 2 3 4 5 6 7 变量序号马氏距离 0 10 20 30 1 2 3 4 5 6 7 变量序号马氏距离 (a) kNN (b) MI-MBkNN 图 7 第 400 样本点故障 5 的变量识别结果 Fig. 7 Variables identification results of fault 5 on the 400th point 0 200 800 1 000 50 100 T 2 200 400 400 600 600 0 800 1 000 10 20 30 测试样本序号 SPE 0 200 400 600 800 1 000 2 4 6 8 10 12 测试样本序号 D2 (c) kNN 测试样本序号 (a) PCA-T 2 (b) PCA-SPE 第 4 期郑静，等：基于互信息的多块 k 近邻故障监测及诊断 ·723·

第4期郑静，等：基于互信息的多块k近邻故障监测及诊断 ·725· 10 6000 4000 2000 d 1000 2000 3000 4000 测试样本序号 (a)变量1 1200 1100 10 20 1000 变量序号 900 (a)kNN 0 1000 2000 3000 4000 测试样本序号 (b)变量2 400 bmt 3200 6 4 0 1000 2000 3000 4000 测试样本序号 (c)变量3 300 10 20 30 变量序号 200 (b)MI-MBKNN 100 0 1000 2000 3000 4000 图11变量识别结果测试样本序号 Fig.11 Variables identification results (d)变量4 15 3.2高炉炼铁实际过程应用 10 为了达到高炉炼铁过程节能降耗的目的，必 5 须保证铁水的生产质量和产量。当气体流动不稳 0 100020003000 4000 定时会影响碳的燃烧，最终导致炉腹架空，产生测试样本序号悬挂故障。若没有及时检测出悬挂故障，将会导 (e)变量5 致热应力和内部的气体压力过大，使得顶部结构 30 20 受到严重的破损。本节考虑了实际情况中悬挂故 10 障的存在，采集正常工况下的8个过程变量的2000 0 1000 2000 3000 4000 个样本作为训练样本，同时采集了悬挂故障下的测试样本序号 1900个样本作为测试样本。在悬挂故障下，炉内 (①变量6 30 的温度和压力增加，炉顶的一氧化碳和二氧化碳浓度上升，氢气的浓度下降。为了更好地表现变量的特性，表4给出了8个过程变量的描述，图12 1000 20003000 4000 给出了8个变量的变化曲线图，其中前2000个样测试样本序号本为正常样本，后1900个样本为故障样本。 (g)变量7 表4悬挂故障监测中选择的过程变量 Table 4 Process variables selected for monitoring of the hanging fault 1000 2000 3000 4000 过程变量变量描述过程变量变量描述测试样本序号 (h)变量8 41 风量富氧量风温炉顶煤气C02含量图12高炉过程各变量曲线图 iz Fig.12 Curves of Blast furnace process variable U3 风压 M 炉顶煤气C0含量 la 炉顶压力炉顶煤气H2含量利用上述所提分块方法将8个变量分成两个子块，子块1为山、，子块2为、山4、、6

10 20 30 0 2 4 6 8 10 变量序号马氏距离 (a) kNN 0 10 20 30 2 4 6 8 10 变量序号马氏距离 (b) MI-MBkNN 图 11 变量识别结果 Fig. 11 Variables identification results 3.2 高炉炼铁实际过程应用为了达到高炉炼铁过程节能降耗的目的，必须保证铁水的生产质量和产量。当气体流动不稳定时会影响碳的燃烧，最终导致炉腹架空，产生悬挂故障。若没有及时检测出悬挂故障，将会导致热应力和内部的气体压力过大，使得顶部结构受到严重的破损。本节考虑了实际情况中悬挂故障的存在，采集正常工况下的 8 个过程变量的 2 000 个样本作为训练样本，同时采集了悬挂故障下的 1 900 个样本作为测试样本。在悬挂故障下，炉内的温度和压力增加，炉顶的一氧化碳和二氧化碳浓度上升，氢气的浓度下降。为了更好地表现变量的特性，表 4 给出了 8 个过程变量的描述，图 12 给出了 8 个变量的变化曲线图，其中前 2 000 个样本为正常样本，后 1 900 个样本为故障样本。表 4 悬挂故障监测中选择的过程变量 Table 4 Process variables selected for monitoring of the hanging fault 过程变量变量描述过程变量变量描述 u1 风量 u5 富氧量 u2 风温 u6 炉顶煤气CO2含量 u3 风压 u7 炉顶煤气CO含量 u4 炉顶压力 u8 炉顶煤气H2含量 0 1 000 2 000 3 000 4 000 2 000 4 000 6 000 (a) 变量 1 (b) 变量 2 0 1 000 2 000 3 000 4 000 900 1 000 1 100 1 200 u1 u2 测试样本序号测试样本序号 (c) 变量 3 0 1 000 2 000 3 000 4 000 200 400 (d) 变量 4 0 1 000 2 000 3 000 4 000 100 200 300 (e) 变量 5 0 1 000 2 000 3 000 4 000 5 10 15 (f) 变量 6 0 1 000 2 000 3 000 4 000 10 20 30 (g) 变量 7 0 1 000 2 000 3 000 4 000 10 20 30 (h) 变量 8 0 1 000 2 000 3 000 4 000 2 4 u3 u4 u5 u6 u7 u8 测试样本序号测试样本序号测试样本序号测试样本序号测试样本序号测试样本序号图 12 高炉过程各变量曲线图 Fig. 12 Curves of Blast furnace process variable u1 u3 u2 u4 u5 u6 u7 利用上述所提分块方法将 8 个变量分成两个子块，子块 1 为、，子块 2 为、、、、、第 4 期郑静，等：基于互信息的多块 k 近邻故障监测及诊断 ·725·

·726· 智能系统学报第16卷 s,图13给出了子块1中各变量间的互信息。 15 表5给出了不同监测方法的监测结果，图14展示了子块1和子块2的监测结果。可以看出子块2在 2200样本点后可以达到持续报警，其监测效果明显好于子块1，结合图15给出的故障诊断结果，可以看出变量4和变量8是引起故障的主要原因，由于本文所提方法对变量进行了合理分块， 1000 20003000 4000 把结构相似且对故障最为敏感的变量放在同一个测试样本序号 (b)子块2 子块中，使得整体的监测性能得到了提升，再次验证本文所提方法的有效性和优越性。图14高炉过程子块1和子块2的监测性能比较 Fig.14 Comparison of monitoring performance of blockl and block2 in blast furnace process 30. 25 15 345 变量序号 (a)变量1 345 变量序号 (a)kNN 25 34567 变量序号 15 (b)变量3 图13高炉过程子块1变量间的互信息 Fig.13 Mutual information between variables in blast fur- 23456 nace process block 1 变量序号 (b)MI-MBkNN 表5不同方法的监测性能比较图15高炉过程变量识别结果 Table 5 Comparison of monitoring performance of two Fig.15 Variables identification results of the blast furnace methods in blast furnace process process 性能 PCA kNN MI-MBkNN 报警率 0.941 0.935 0.970 4 结束语误报率 0.018 0.001 0 本文提出了一种基于互信息的多块k近邻故障监测方法，使用互信息对过程变量进行划分， 35 并在每个子块中建立基于kNN的故障监测模型，所提方法反映了过程的更多局部特征，所以更易于故障的监测和诊断。将所提方法应用于TE过 15 程和实际高炉炼铁过程中，均取得了比较好的监测效果。本文所提方法是一种完全基于数据驱动的监测方法，可以考虑将其与先验知识或专家经 0 1000 2000 3000 4000 验相结合，并且可以考虑变量间关系的更多细测试样本序号节，提出其他分块方法，是本文进一步研究的工 (a)子块1 作之一

u8，图 13 给出了子块 1 中各变量间的互信息。表 5 给出了不同监测方法的监测结果，图 14 展示了子块 1 和子块 2 的监测结果。可以看出子块 2 在 2 200 样本点后可以达到持续报警，其监测效果明显好于子块 1，结合图 15 给出的故障诊断结果，可以看出变量 4 和变量 8 是引起故障的主要原因，由于本文所提方法对变量进行了合理分块，把结构相似且对故障最为敏感的变量放在同一个子块中，使得整体的监测性能得到了提升，再次验证本文所提方法的有效性和优越性。 0 1 2 3 4 5 6 7 8 1 3 5 7 (a) 变量 1 互信息变量序号 0 1 2 3 4 5 6 7 8 1 3 5 7 互信息变量序号 (b) 变量 3 图 13 高炉过程子块 1 变量间的互信息 Fig. 13 Mutual information between variables in blast furnace process block 1 表 5 不同方法的监测性能比较 Table 5 Comparison of monitoring performance of two methods in blast furnace process 性能 PCA kNN MI-MBkNN 报警率 0.941 0.935 0.970 误报率 0.018 0.001 0 0 1 000 2 000 3 000 4 000 5 15 25 35 D2 测试样本序号 (a) 子块 1 D2 0 1 000 2 000 3 000 4 000 5 10 15 测试样本序号 (b) 子块 2 图 14 高炉过程子块 1 和子块 2 的监测性能比较 Fig. 14 Comparison of monitoring performance of block1 and block2 in blast furnace process 1 2 3 4 5 6 7 8 0 5 10 15 20 25 30 变量序号马氏距离 (a) kNN 0 5 10 15 20 25 30 马氏距离 1 2 3 4 5 6 7 8 变量序号 (b) MI-MBkNN 图 15 高炉过程变量识别结果 Fig. 15 Variables identification results of the blast furnace process 4 结束语本文提出了一种基于互信息的多块 k 近邻故障监测方法，使用互信息对过程变量进行划分，并在每个子块中建立基于 kNN 的故障监测模型，所提方法反映了过程的更多局部特征，所以更易于故障的监测和诊断。将所提方法应用于 TE 过程和实际高炉炼铁过程中，均取得了比较好的监测效果。本文所提方法是一种完全基于数据驱动的监测方法，可以考虑将其与先验知识或专家经验相结合，并且可以考虑变量间关系的更多细节，提出其他分块方法，是本文进一步研究的工作之一。 ·726· 智能系统学报第 16 卷

点击下载完整版文档（PDF格式）

共12页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录