工程科学学报,第39卷.第10期:1552-1558,2017年10月 Chinese Journal of Engineering,Vol.39,No.10:1552-1558,October 2017 DOI:10.13374/j.issn2095-9389.2017.10.014;http://journals.ustb.edu.cn 基于软超球体的高维非线性数据异常点识别算法 徐 钢2),张晓彤)四,黎敏2),徐金梧2) 1)北京科技大学计算机与通讯工程学院,北京1000832)钢铁共性技术协同创新中心,北京100083 ☒通讯作者,E-mail:ZXT@ies.usth.edu.cn 摘要在治金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数 据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中 确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免 出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点 识别算法对于高维的非线性数据具有良好的检测能力. 关键词软超球体;高维非线性数据:异常点识别:核映射 分类号TG277 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlin- ear data XU Gang2),ZHANG Xiao-tong,LI Min2),XU Jin-wu 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 100083,China 2)Collaborative Innovation Center of Steel Technology,Beijing 100083,China Corresponding author,E-mail:ZXT@ies.ustb.edu.en ABSTRACT In process industries,such as metallurgy and chemistry,real procedure parameters usually possess high-dimensional nonlinear features.To solve the problem of outlier detection in complex high-dimensional data,the concept of a soft hyper-sphere is in- troduced in this paper.An original data set is projected into a high-dimensional feature space using a nonlinear kernel function,and the boundary of the soft hyper-sphere is determined within this feature space.To avoid a mass product quality incident,location infor- mation on the testing samples,which are projected into the feature space,is used to decide whether they are outliers.As an applied example,practical procedure data obtained from a type of auto steel product were tested.The results verify that the proposed outlier detection algorithm based on a soft hyper-sphere has a better ability for outlier detection in high-dimensional nonlinear data than tradi- onal methods. KEY WORDS soft hyper-sphere;high dimension nonlinear data;outlier detection algorithm;Kernel mapping 在实际工业生产中,经常需要确定工艺参数在什用,它改变了通常采用的“事后”质量抽检的方式,在 么范围内产品质量是可控的,即需要确定过程参数的过程参数设定过程中就能判定出产品质量是否在可控 控制范围.当工艺参数(也包括原料参数)在该范围 区范围内,避免了出现大量的质量判废.异常点(oui- 内,可以认为所设定的过程参数能满足产品质量要求, er)检测[-]的目的就是根据所确定的边界来判断过程 反之,则可能出现质量异常.这种通过实际生产数据 参数的设定值是否会造成产品质量异常.异常点检测 来确定产品质量可控区的方法在工业生产中非常有 方法还常用于在质量追溯过程中,判断出现质量异常 收稿日期:2016-07-07 基金项目:国家高技术研究发展计划(863计划)资助项目(2014AA041801-2)
工程科学学报,第 39 卷,第 10 期:1552鄄鄄1558,2017 年 10 月 Chinese Journal of Engineering, Vol. 39, No. 10: 1552鄄鄄1558, October 2017 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2017. 10. 014; http: / / journals. ustb. edu. cn 基于软超球体的高维非线性数据异常点识别算法 徐 钢1,2) , 张晓彤1) 苣 , 黎 敏2) , 徐金梧2) 1) 北京科技大学计算机与通讯工程学院, 北京 100083 2) 钢铁共性技术协同创新中心, 北京 100083 苣通讯作者, E鄄mail: ZXT@ ies. ustb. edu. cn 摘 要 在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征. 为了解决这类高维复杂数 据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中 确定软超球体的边界. 通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免 出现批量的产品质量问题. 以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点 识别算法对于高维的非线性数据具有良好的检测能力. 关键词 软超球体; 高维非线性数据; 异常点识别; 核映射 分类号 TG277 An outlier detection algorithm based on a soft hyper鄄sphere for high dimension nonlin鄄 ear data XU Gang 1,2) , ZHANG Xiao鄄tong 1) 苣 , LI Min 2) , XU Jin鄄wu 2) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Collaborative Innovation Center of Steel Technology, Beijing 100083, China 苣Corresponding author, E鄄mail: ZXT@ ies. ustb. edu. cn ABSTRACT In process industries, such as metallurgy and chemistry, real procedure parameters usually possess high鄄dimensional nonlinear features. To solve the problem of outlier detection in complex high鄄dimensional data, the concept of a soft hyper鄄sphere is in鄄 troduced in this paper. An original data set is projected into a high鄄dimensional feature space using a nonlinear kernel function, and the boundary of the soft hyper鄄sphere is determined within this feature space. To avoid a mass product quality incident, location infor鄄 mation on the testing samples, which are projected into the feature space, is used to decide whether they are outliers. As an applied example, practical procedure data obtained from a type of auto steel product were tested. The results verify that the proposed outlier detection algorithm based on a soft hyper鄄sphere has a better ability for outlier detection in high鄄dimensional nonlinear data than tradi鄄 onal methods. KEY WORDS soft hyper鄄sphere; high dimension nonlinear data; outlier detection algorithm; Kernel mapping 收稿日期: 2016鄄鄄07鄄鄄07 基金项目: 国家高技术研究发展计划(863 计划)资助项目(2014AA041801鄄鄄2) 在实际工业生产中,经常需要确定工艺参数在什 么范围内产品质量是可控的,即需要确定过程参数的 控制范围. 当工艺参数(也包括原料参数) 在该范围 内,可以认为所设定的过程参数能满足产品质量要求, 反之,则可能出现质量异常. 这种通过实际生产数据 来确定产品质量可控区的方法在工业生产中非常有 用,它改变了通常采用的“事后冶质量抽检的方式,在 过程参数设定过程中就能判定出产品质量是否在可控 区范围内,避免了出现大量的质量判废. 异常点(outli鄄 er)检测[1鄄鄄2]的目的就是根据所确定的边界来判断过程 参数的设定值是否会造成产品质量异常. 异常点检测 方法还常用于在质量追溯过程中,判断出现质量异常
徐钢等:基于软超球体的高维非线性数据异常点识别算法 ·1553· 的原因34 下面分别从硬超球体、线性软超球体和非线性软超球 传统的统计过程控制(statistical process control, 体三个方面来讨论单一类的分类问题 SP℃)方法主要是通过过程参数和质量指标的统计规 1.1硬超球体 律来控制引起产品质量变化的各种因素,避免产品质 假设给定一个数据集S={x1,x2,…,x},其中x 量出现异常.目前,企业中大多采用6σ方法对单变量 为p维的数据向量,需确定该数据集的边界,即求解包 进行统计过程控制,以保证每个单独变量在设定的控 含该数据集的最小封闭超球体.数据集中的每个样本 制限内.但是,在实际的工业生产过程中,往往存在各 点与超椭球体的中心C的距离均应小于球体的半径 种高度相关的过程变量,单变量统计过程控制忽略了 r,如图1所示. 变量间的相关性,因此难以准确判别生产过程中的复 Feature 2 杂行为.多变量统计过程控制(multivariate statistical 半径r process control,MSPC)综合考虑各变量间的相关关 系,可实现多变量生产过程的质量监控[) XX 随着统计数据降维技术的发展,多变量统计控制 XX X 图的研究应用出现了新的趋势,过程控制的对象从基 X球心C XX Feature 1 于距离的统计量,转向了一些基于统计降维方法所构 XX XX 建的综合变量.根据统计降维的原理,Jacksont6]提出 十 了基于主成分分析(principal component analysis,PCA) 方法的多变量统计控制图,随后Wold等[)提出了基于 图1最小封闭超球体示意图 偏最小二乘法(partial least squares,PLS)的多变量统 Fig.1 Minimum hyper-sphere diagram 计控制图.但是,无论主成分分析还是偏最小二乘法 的多变量统计控制图都有一个假设前提:所有变量服 最小封闭超球体可以转化为如下的优化问题 从多变量正态分布(multivariate normality,MVN).在 minr2 (1) 这个假设条件下,对于一个稳定的生产过程,正常样本 约束条件为: 点分布在高维空间中的某个超椭球体内:一旦样本点 Ix-CI2=(x-C)T(x:-C)≤2, 超出超椭球体的边界,可以认为该生产过程出现了异 i=1,2,…,n. 常.多变量统计控制图(如Hotelling控制图)的本质是 对上式的约束条件附加拉格朗日乘子α,≥0,对 通过历史数据来确定高维空间中这个超椭球的位置和 应的拉格朗日函数为 大小.其中,超椭球的位置主要取决于各变量的均值 大小和变量间的相关性,而超椭球的大小则主要取决 L(C,r,a)=2+ a,[(x,-C2-1.(2) 于变量的方差. 分别对C和r求偏导且令导数值为0,求得优化 虽然,通过确定超椭球边界的方法能够较好的解 决服从多变量正态分布的异常点识别问题,但是在实 解最终可以得到: 名x=C,名g=1由于 际工业生产过程中,尤其对于治金和化工这类复杂流 程工业,生产数据中往往存在非线性特征,数据分布在 会a=,式(2)也可以表示为另一种形式: 软性的超球体内,即超球体的边界是一组复杂的超曲 面.对于这类复杂的数据结构,采用传统的超椭球边 c,)=f+会a[-c9-f]= 界的方法来判别异常点会造成大量的误判.本文针对 -0 工业生产中常见的这类非线性数据结构,引入了软超 球体的概念,通过非线性核函数将原始数据映射到高 豆a医)- a,,K(x,x.(3) 1j-1 维的特征空间中,并在特征空间中来确定软超球体的 其中,K(x,x)表示变量的内积,令w(a)= 边界,解决复杂数据的异常点检测难题.通过某类汽 车用钢制造过程中的工业应用实例证明了新方法的有 三asK)-名 ak(x,x),式(2)转化为 效性 求下面优化解 1异常点检测方法 maxo(a), (4) 异常点检测方法主要是通过实际生产数据来确定 g=1,a≥0,i=1,2,…,m 过程参数可控区的边界,也称为单一类的分类问题[劉 由式(4)可以求得最小超球体的半径r和球心C
徐 钢等: 基于软超球体的高维非线性数据异常点识别算法 的原因[3鄄鄄4] . 传统的统计过程控制( statistical process control, SPC)方法主要是通过过程参数和质量指标的统计规 律来控制引起产品质量变化的各种因素,避免产品质 量出现异常. 目前,企业中大多采用 6滓 方法对单变量 进行统计过程控制,以保证每个单独变量在设定的控 制限内. 但是,在实际的工业生产过程中,往往存在各 种高度相关的过程变量,单变量统计过程控制忽略了 变量间的相关性,因此难以准确判别生产过程中的复 杂行为. 多变量统计过程控制 ( multivariate statistical process control, MSPC) 综合考虑各变量间的相关关 系,可实现多变量生产过程的质量监控[5] . 随着统计数据降维技术的发展,多变量统计控制 图的研究应用出现了新的趋势,过程控制的对象从基 于距离的统计量,转向了一些基于统计降维方法所构 建的综合变量. 根据统计降维的原理,Jackson [6] 提出 了基于主成分分析(principal component analysis,PCA) 方法的多变量统计控制图,随后 Wold 等[7]提出了基于 偏最小二乘法( partial least squares, PLS) 的多变量统 计控制图. 但是,无论主成分分析还是偏最小二乘法 的多变量统计控制图都有一个假设前提:所有变量服 从多变量正态分布( multivariate normality, MVN). 在 这个假设条件下,对于一个稳定的生产过程,正常样本 点分布在高维空间中的某个超椭球体内;一旦样本点 超出超椭球体的边界,可以认为该生产过程出现了异 常. 多变量统计控制图(如 Hotelling 控制图)的本质是 通过历史数据来确定高维空间中这个超椭球的位置和 大小. 其中,超椭球的位置主要取决于各变量的均值 大小和变量间的相关性,而超椭球的大小则主要取决 于变量的方差. 虽然,通过确定超椭球边界的方法能够较好的解 决服从多变量正态分布的异常点识别问题,但是在实 际工业生产过程中,尤其对于冶金和化工这类复杂流 程工业,生产数据中往往存在非线性特征,数据分布在 软性的超球体内,即超球体的边界是一组复杂的超曲 面. 对于这类复杂的数据结构,采用传统的超椭球边 界的方法来判别异常点会造成大量的误判. 本文针对 工业生产中常见的这类非线性数据结构,引入了软超 球体的概念,通过非线性核函数将原始数据映射到高 维的特征空间中,并在特征空间中来确定软超球体的 边界,解决复杂数据的异常点检测难题. 通过某类汽 车用钢制造过程中的工业应用实例证明了新方法的有 效性. 1 异常点检测方法 异常点检测方法主要是通过实际生产数据来确定 过程参数可控区的边界,也称为单一类的分类问题[8] . 下面分别从硬超球体、线性软超球体和非线性软超球 体三个方面来讨论单一类的分类问题. 1郾 1 硬超球体 假设给定一个数据集 S = { x1 ,x2 ,…,xn },其中 xi 为 p 维的数据向量,需确定该数据集的边界,即求解包 含该数据集的最小封闭超球体. 数据集中的每个样本 点与超椭球体的中心 C 的距离均应小于球体的半径 r,如图 1 所示. 图 1 最小封闭超球体示意图 Fig. 1 Minimum hyper鄄sphere diagram 最小封闭超球体可以转化为如下的优化问题 min C,r r 2 . (1) 约束条件为: 椰xi - C椰2 = (xi - C) T (xi - C)臆r 2 , i = 1,2,…,n. 对上式的约束条件附加拉格朗日乘子 琢i逸0,对 应的拉格朗日函数为 L(C,r,琢) = r 2 + 移 n i = 1 琢i[(xi - C) 2 - r 2 ]. (2) 分别对 C 和 r 求偏导且令导数值为 0,求得优化 解. 最终可以得到: 移 n i = 1 琢ixi = C, 移 n i = 1 琢i = 1. 由于 移 n i = 1 琢i r 2 = r 2 ,式(2)也可以表示为另一种形式[8鄄鄄9] : L(C,r,琢) = r 2 + 移 n i = 1 琢i[(xi - C) 2 - r 2 ] = 移 n i = 1 琢i(xi - C) 2 = 移 n i = 1 琢i资(xi,xi) - 移 n i = 1 移 n j = 1 琢i琢j资(xi,xj). (3) 其中, 资 ( xi, xj ) 表 示 变 量 的 内 积, 令 棕 ( 琢 ) = 移 n i = 1 琢i资(xi,xi) - 移 n i = 1 移 n j = 1 琢i琢j资( xi,xj ),式(2) 转化为 求下面优化解 max 琢 棕(琢), 移 n i = 1 琢i = 1, 琢i逸0, i = 1,2,…,n. (4) 由式(4)可以求得最小超球体的半径 r 和球心 C, ·1553·
·1554· 工程科学学报,第39卷,第10期 r=√a(a), 在控制半径最大化与控制松弛变量之间做出权衡.常 C点 数A的选择与第一类错误和第二类错误有关[],通常 (5) A可以取0.1或0.05. 其中,α是由式(4)求得的最优解 同样,引入拉格朗日乘子a≥0,B≥0,对应的拉 对待测的检测点x,可以由下式来判断该检测点 格朗日函数为 是否正常 )=H[k(x,)-2axx,)+D] (Ca,)=+45-2B+ 含[I-C-- (8) (6) 分别对式(8)求C,「,:的偏导,且令导数值为0, 其中,H(x)表示Heaviside函数.当k(x,r)- 求得下面的优化解 2三心)+]小>0,)=1,则该检测点被 ⊙(C,.a2=2a,(x,-C)=0, ac 判为异常点 pCga且=2-三u)=0,o) 1.2线性软超球体 上面所讨论的最小封闭超球体实质上是一种硬球 8L(C,&,2=A-a,-B=0. 0: 体,球体的最小半径为离球心最远的样本点的距离. 这意味着,如果样本中有少数样本点偏离了其他样本, 从面得到三=C, 0=1A=4-a30,a≤ 球体的最小半径将会扩大.这时异常点的检测存在一 A把这些约束条件代入式(8),有 定的风险,即:扩大球体的最小半径会将异常点判为正 常点,如图2所示.在实际工业生产中,由于异常点 以c,a-+4gi+会a[l-cI- 与正常点的部分边界有可能是交叉重叠的,因此需 要考虑允许有少数正常的样本点被划在边界外.通 户--豆陆=三ax-C-c= 常,将包含绝大部分样本点的封闭超球体称为封闭 ,(10) 软超球体9-o],它是在硬球体的基础上对边界作了松 含a()-名aa 弛处理. 同样,令a(a)=豆a)-名三a4( Feature 2 x),式(7)转化为求下面优化解 △表示异常点 X表示可控点 maxo(a), X XX XX ∑a=l,0≤a,≤A=l/m,y=1/hn XX Feature 1 lξ川,= 5,i=12,…,m (11) 由式(11)可以求得最小超球体的半径r和球心C 图2扩大球体的最小半径会将异常点判为正常点 Fig.2 Outliers are regarded as normal samples when the minimum r= radius of the hyper-sphere increases 7 K(xix)- 之x(xx)+】 aiak(x), 封闭软超球体的求解过程与式(2)相似,引入松 台 弛变量 cgo (12) 专=忘(C,r,x)=(Ix-C2-r2), 其中a是由式(11)求得的最优解 封闭软超球体的优化解为 对待检测的样本点x,可以由下式来判断该检测 minr+A‖ξl (7) 点是否正常 约束条件为: Ix,-C‖2=(x:-C)(x,-C)≤2+专, )=(-2宫g+D小 5≥0,i=1,2,…,n. D= 中,=∑,式(7)中的4为一常数,其值 ()) 其中,y为惩罚因子.当f(x)=1,则该检测点被判为
工程科学学报,第 39 卷,第 10 期 r = 棕(琢 * ), C = 移 n i = 1 琢 * i xi . (5) 其中,琢 * i 是由式(4)求得的最优解. 对待测的检测点 x,可以由下式来判断该检测点 是否正常 f(x) = H [ 资(x,x) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] , D = 移 n i = 1 移 n j = 1 琢 * i 琢 * j 资(xi,xj) - r 2 . (6) 其中, H ( x ) 表 示 Heaviside 函 数. 当 [ 资 ( x, x ) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] > 0 , f( x) = 1,则该检测点被 判为异常点. 1郾 2 线性软超球体 上面所讨论的最小封闭超球体实质上是一种硬球 体,球体的最小半径为离球心最远的样本点的距离. 这意味着,如果样本中有少数样本点偏离了其他样本, 球体的最小半径将会扩大. 这时异常点的检测存在一 定的风险,即:扩大球体的最小半径会将异常点判为正 常点,如图 2 所示. 在实际工业生产中,由于异常点 与正常点的部分边界有可能是交叉重叠的,因此需 要考虑允许有少数正常的样本点被划在边界外. 通 常,将包含绝大部分样本点的封闭超球体称为封闭 软超球体[9鄄鄄10] ,它是在硬球体的基础上对边界作了松 弛处理. 图 2 扩大球体的最小半径会将异常点判为正常点 Fig. 2 Outliers are regarded as normal samples when the minimum radius of the hyper鄄sphere increases 封闭软超球体的求解过程与式(2) 相似,引入松 弛变量 孜i = 孜i(C,r,xi) = (椰xi - C椰2 - r 2 ) + . 封闭软超球体的优化解为 min C,r,孜 r 2 + A 椰孜椰1 . (7) 约束条件为: 椰xi - C椰2 = (xi - C) T (xi - C)臆r 2 + 孜i, 孜i逸0, i = 1,2,…,n. 其中椰孜椰1 = 移 n i = 1 孜i,式(7) 中的 A 为一常数,其值需 在控制半径最大化与控制松弛变量之间做出权衡. 常 数 A 的选择与第一类错误和第二类错误有关[5] ,通常 A 可以取 0郾 1 或 0郾 05. 同样,引入拉格朗日乘子 琢i逸0, 茁i逸0,对应的拉 格朗日函数为 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i - 移 n i = 1 茁i 孜i + 移 n i = 1 琢i[椰xi - C椰2 - r 2 - 孜i]. (8) 分别对式(8)求 C,r,孜i 的偏导,且令导数值为 0, 求得下面的优化解 鄣 L(C,r,琢,孜) 鄣 C = 2移 n i = 1 琢i(xi - C) = 0, 鄣 L(C,r,琢,孜) 鄣 r = 2r ( 1 - 移 n i = 1 琢i ) = 0, 鄣 L(C,r,琢,孜) 鄣 孜i = A - 琢i - 茁i = 0 ì î í ï ï ï ï ï ï . (9) 从而得到 移 n i = 1 琢ixi = C, 移 n i = 1 琢i = 1,茁i = A - 琢i逸0,琢i臆 A 把这些约束条件代入式(8),有 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i + 移 n i = 1 琢i[椰xi - C椰2 - r 2 - 孜i] - 移 n i = 1 茁i 孜i = 移 n i = 1 琢i掖xi - C,xi - C业 = 移 n i = 1 琢i资(xi,xi) - 移 n i,j = 1 琢i琢j资(xi,xj). (10) 同样,令 棕( 琢) = 移 n i = 1 琢i资( xi,xi ) - 移 n i = 1 移 n j = 1 琢i琢j资( xi, xj),式(7)转化为求下面优化解 max 琢 棕(琢), 移 n i = 1 琢i = 1, 0 臆 琢i 臆 A = 1 / 酌n,酌 = 1 / An, 椰孜椰1 = 移 n i = 1 孜i, i = 1,2,…,n. (11) 由式(11)可以求得最小超球体的半径 r 和球心 C r = 资(xi,xi) - 移 n i =1 琢 * i 资(xi,xj) + 移 n i =1 移 n j =1 琢 * i 琢 * j 资(xi,xj) , C = 移 n i = 1 琢 * i xi . (12) 其中 琢 * i 是由式(11)求得的最优解. 对待检测的样本点 x,可以由下式来判断该检测 点是否正常 f(x) = H [ 资(x,x) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] , D = 移 n i = 1 移 n j = 1 琢 * i 琢 * j 资(xi,xj) - r 2 - 酌. (13) 其中,酌 为惩罚因子. 当 f( x) = 1,则该检测点被判为 ·1554·
徐钢等:基于软超球体的高维非线性数据异常点识别算法 ·1555· 异常点 差别主要是选择线性核函数还是非线性核函数,而求 1.3非线性软超球体 解的过程与第二节所讨论的方法是一致的 前面所讨论的方法属于线性的映射方法.当数据 常用的核函数有: 集中存在非线性的复杂边界时,这种线性的表达形式 (1)线性核函数. 对于非线性的数据结构会造成大量的误判,如图3所 k(x,z)=xz. (17) 示.下面讨论非线性的数据结构的封闭超球体求解 (2)多项式核函数. 方法. k(x,z)=(x'z+c)4 (18) Feature2◆ 其中,c和d均为常数 △表示异常点 X表示可控点 (3)高斯核函数(径向基核函数) k(x,z)=exp ‖x-z川2 (19) Feature 1 其中,0为大于0的常数 (4)Sigmoid(S形的)核函数. k(x,z)=tanh (Box'z+B). (20) 其中,B。>0,B,0.这意味着,实际 ∑a,(x)-C,(x,)-C)= 应用中只需边界附近α:>0的点作为异常点的判别依 ∑K(x,x)-∑aaK(x) 据.这些位于边界的点称为支持向量(support vector). (16) 由支持向量所确定的边界在本质上与前面讨论的非线 上式与式(10)不同之处在于,式(10)是采用线性 性超球体的边界是相同的,不同之处在于异常点的识 核函数,因而只能解决简单边界问题.而式(16)采用 别时只需考虑少数几个与支持向量相对应的样本点x 的是非线性核函数来解决复杂非线性边界问题.两者 和α·因此,支持向量简化了异常点的识别过程,提高
徐 钢等: 基于软超球体的高维非线性数据异常点识别算法 异常点. 1郾 3 非线性软超球体 前面所讨论的方法属于线性的映射方法. 当数据 集中存在非线性的复杂边界时,这种线性的表达形式 对于非线性的数据结构会造成大量的误判,如图 3 所 示. 下面讨论非线性的数据结构的封闭超球体求解 方法. 图 3 对于非线性的数据可能造成误判 Fig. 3 Nonlinear data may result in erroneous judgment 设 X 是一个 R p 的紧凑子集,k(x,z)是 X 伊 X 上的 一个连续的实值对称函数. 如果存在一个从原始 X 空 间到高维特征空间 F 的映射 准:x寅准(x),对所有坌x, z沂X 都有 k(x,z) = 掖准(x),准(z)业 = 准 (x) T准(z). (14) 则称 k(x,z)为定义在 X 伊 X 上的核函数. 根据 Mercer 定理,如果核矩阵 K 是一个半正定矩 阵,则 k(x,z) = 掖准(x),准(z)业是一个有效核[11] ,因而 核函数 k(x,z)等价于高维特征空间中映射点 准( x)和 准(z)的内积. 这意味着,可以通过非线性核函数将原 始空间上的数据集映射到高维的特征空间中,采用映 射点 准(x)和 准( z)的内积(对偶形式)来求解非线性 情况下的封闭超球体. 根据式(7)的方式来建立特征 空间中封闭超球体的优化解. min C,r,孜 r 2 + A 椰孜椰1 . 约束条件为: 椰准(xi) - C椰2 = (准(xi) - C) T (准(xi) - C)臆r 2 + 孜i 孜i逸0, i = 1,2,…,n. (15) 拉格朗日函数为 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i + 移 n i = 1 琢i[椰准(xi) - C椰2 - r 2 - 孜i] - 移 n i = 1 茁i 孜i = 移 n i = 1 琢i掖准(xi) - C,准(xi) - C业 = 移 n i = 1 琢i资(xi,xi) - 移 n i,j = 1 琢i琢j资(xi,xj). (16) 上式与式(10)不同之处在于,式(10)是采用线性 核函数,因而只能解决简单边界问题. 而式(16)采用 的是非线性核函数来解决复杂非线性边界问题. 两者 差别主要是选择线性核函数还是非线性核函数,而求 解的过程与第二节所讨论的方法是一致的. 常用的核函数有: (1)线性核函数. k(x,z) = x T z. (17) (2)多项式核函数. k(x,z) = (x T z + c) d . (18) 其中,c 和 d 均为常数. (3)高斯核函数(径向基核函数). k(x,z) = exp ( - 椰x - z椰2 ) 滓 . (19) 其中,滓 为大于 0 的常数. (4)Sigmoid(S 形的)核函数. k(x,z) = tanh (茁0 x T z + 茁1 ). (20) 其中,茁0 > 0,茁1 0. 这意味着,实际 应用中只需边界附近 琢i > 0 的点作为异常点的判别依 据. 这些位于边界的点称为支持向量(support vector). 由支持向量所确定的边界在本质上与前面讨论的非线 性超球体的边界是相同的,不同之处在于异常点的识 别时只需考虑少数几个与支持向量相对应的样本点 xi 和 琢i . 因此,支持向量简化了异常点的识别过程,提高 ·1555·
·1556· 工程科学学报,第39卷,第10期 香蕉数据集 确定训练数据集 选定核参数o和参数v 寻找如下优化问题的解 goia∑ak,时∑ag, t立ea10sa< -2 0 2468 选择,使得0ka<品 X 计算出超球体半径r、球心C: 图4核参数σ取不同值时2维数据的边界限 ey-2on2og9 Fig.4 Boundary of two-dimensional data with different kemel values C) 了在线识别系统的实时性.基于支持向量的异常点检 测方法为 输人待检测样本,求得判别结果 =lkx-2会ai)+D小 f国=.-2∑a#立au-y D= 宫宫%)-f-y2) f(x)=1 否 过程异常 其中,x表示待检测点,g表示支持向量的个数,x表 是 示支持向量,α表示支持向量对应的权重系数.实际 过程正常 上,在判别式(21)中与待检测点x有关的项只有 图5基于支持向量的异常点检测流程图 ∑a广K(x,),从高斯核函数的定义k(x,x)=l, Fig.5 Flowchart of outlier detection based on the support vector 余的其他项都是根据历史数据集求得的常量.基于支 原始数据库 持向量的异常点检测方法的流程图如图5所示 在实际工业应用中,可以通过采集满足质量要求 的样本集作为历史数据,按照前面讨论的方法确定非 线性软超球体的边界,并从中选择出支持向量x和 对应的权重系数a.通过判别函数可以在线判断待 检测样本点是否为异常点,一旦发现过程参数的设定 值超出了边界,系统将给予警示,从而避免发生批量的 产品质量判废 0 3应用实例分析 Feature 1 图62维仿真数据的分布图及软边界 为了验证基于软边界的异常点检验方法的有效 Fig.6 Distribution graph and soft boundary of two-dimensional simu- 性,分别对2维仿真数据和实际工业数据进行分析与 lation data 验证.图6表示从2维仿真数据得到的50个样本点的 性,从实际生产数据中采集F钢中不同等级汽车板在 分布图,采用基于支持向量的封闭超球体方法对样本 各生产工序中的15个主要工艺参数,包括钢中主要成 进行边界划定,参数σ值为3,A取值0.1,支持向量的 分、热轧、冷轧和退火过程中关键工艺参数.主要工艺 个数为6.通过式(21)计算结果发现:有4个点的 参数名称及统计量如表1如示. (x)=1,这些点被判为异常点,在图6中可以看出这 通过采集F汽车用钢中3个主要系列钢种 4个点在边界线外部.通过上面仿真数据可以证明采 DC03、DC04和DC05的实际生产数据作为历史数据 用核函数的非线性软边界确定方法能较好的处理复杂 集,并采用基于核函数的非线性软边界确定方法求得 边界问题 支持向量x,和对应的权重系数α,最小超球体半径 但在实际工业应用中,过程数据中通常具有高维、 r,且遴选出36个支持向量.然后,按照图5所示的流 强耦合、非线性等特征.为了验证所提出方法的有效 程,分别从炼钢、热轧、冷轧和退火工序中采集待检测
工程科学学报,第 39 卷,第 10 期 图 4 核参数 滓 取不同值时 2 维数据的边界限 Fig. 4 Boundary of two鄄dimensional data with different kernel values 了在线识别系统的实时性. 基于支持向量的异常点检 测方法为 f(x) = H [ 资(x,x) - 2 移 q i = 1 琢 * i 资(x,x * i ) + D ] , D = 移 q i = 1 移 q j = 1 琢 * i 琢 * j 资(x * i ,x * j ) - r 2 - 酌. (21) 其中,x 表示待检测点,q 表示支持向量的个数,x * i 表 示支持向量,琢 * i 表示支持向量对应的权重系数. 实际 上,在判别式 ( 21 ) 中与待检测点 x 有关的项只有 移 q i = 1 琢 * i 资(x,x * i ),从高斯核函数的定义 资( x,x) = 1,剩 余的其他项都是根据历史数据集求得的常量. 基于支 持向量的异常点检测方法的流程图如图 5 所示. 在实际工业应用中,可以通过采集满足质量要求 的样本集作为历史数据,按照前面讨论的方法确定非 线性软超球体的边界,并从中选择出支持向量 x * i 和 对应的权重系数 琢 * i . 通过判别函数可以在线判断待 检测样本点是否为异常点,一旦发现过程参数的设定 值超出了边界,系统将给予警示,从而避免发生批量的 产品质量判废. 3 应用实例分析 为了验证基于软边界的异常点检验方法的有效 性,分别对 2 维仿真数据和实际工业数据进行分析与 验证. 图6 表示从2 维仿真数据得到的50 个样本点的 分布图,采用基于支持向量的封闭超球体方法对样本 进行边界划定,参数 滓 值为 3,A 取值 0郾 1,支持向量的 个数为 6. 通过式(21) 计算结果发现:有 4 个点的 f(x) = 1,这些点被判为异常点,在图 6 中可以看出这 4 个点在边界线外部. 通过上面仿真数据可以证明采 用核函数的非线性软边界确定方法能较好的处理复杂 边界问题. 但在实际工业应用中,过程数据中通常具有高维、 强耦合、非线性等特征. 为了验证所提出方法的有效 图 5 基于支持向量的异常点检测流程图 Fig. 5 Flowchart of outlier detection based on the support vector 图 6 2 维仿真数据的分布图及软边界 Fig. 6 Distribution graph and soft boundary of two鄄dimensional simu鄄 lation data 性,从实际生产数据中采集 IF 钢中不同等级汽车板在 各生产工序中的 15 个主要工艺参数,包括钢中主要成 分、热轧、冷轧和退火过程中关键工艺参数. 主要工艺 参数名称及统计量如表 1 如示. 通过采 集 IF 汽 车 用 钢 中 3 个 主 要 系 列 钢 种 DC03、DC04 和 DC05 的实际生产数据作为历史数据 集,并采用基于核函数的非线性软边界确定方法求得 支持向量 x * i 和对应的权重系数 琢 * i ,最小超球体半径 r,且遴选出 36 个支持向量. 然后,按照图 5 所示的流 程,分别从炼钢、热轧、冷轧和退火工序中采集待检测 ·1556·
徐钢等:基于软超球体的高维非线性数据异常点识别算法 ·1557· 表1主要工艺参数名称及统计量 Table 1 Main process parameters and statistics 连退加热连退均热连退快冷连退时效连退缓玲冷轧 热轧加热热轧精轧人口精轧出口卷取 C质量如质量P质量S质量 参数平均平均出口平均出口平均出口平均压下 炉出口厚度/ 温度/温度/ 温度/ 分数/%分数/%分数/%分数/% 温度/℃温度/℃温度/℃温度/℃温度/℃率/% 温度/代mm 风 最大值842.5 854.9 455.7 394.1 665.4 82.9 0.0025 0.160 0.014 0.0139 1277.3 5.00 1076.4 927.2 753.4 最小值790.9797.6 398.6297.1614.977.8 0.00110.1000.007 0.00241247.13.501014.1 912.5654.5 平均值823.6825.9436.3374.9642.181.90.00170.1260.0100.0071263.44.281039.1917.9712.6 的关键工艺参数,对169个样本点进行异常点识别,结 样本点被判为异常点的主要原因是由于个别工艺参数 果如图7所示.从图中可以看出,有5个样本点处于 超出了边界点:而第138样本点是由于个别工艺参数 边界限的上方,这些点存在不同程度的异常现象. 接近最大值(或最小值),且变量之间相关性不符合统 13r 计规律,因而被判为异常点.根据多元统计理论,仅从 N0.125+ 单个变量是否超出最大值(或最小值)来判断工艺参 1.1 数是否异常是不够的,还应综合考虑变量间的相关性 是否满足统计规律才能准确判断是否为异常点.从统 1.0 No.138+ 计规律得知,C和Mn的含量偏高会引起汽车钢的力 学强度提高,这2个变量与力学强度是正相关的:而连 No.164+ No.5 监控限 No.168 退快冷出口平均温度、连退缓冷出口平均温度和卷取 0.r + +++ 温度与力学强度是负相关的.在正常生产过程中,如 0.6 果钢中C和Mn的含量偏高,应适当提高连退炉和热 0.5t 七韩 +也十 轧卷取温度值,而第138号样本点的工艺参数的设定 十+ 0.4620406080100120140160180 值作了相反的调整,从而工艺参数的设定值被判为 样本编号 异常 图7实际工业数据异常点识别结果 为了与传统的Hotelling方法做比较,选显著性水 Fig.7 Result of outlier detection in real industrial data 平a=0.01,控制限UCLT2=26.4809,计算结果如图 由于多变量间存在多重耦合关系,出现工艺参数 8所示. 异常的原因是多方面的,包括某些工艺参数超过了临 No.1251 T2 70 T2超限样本 界值,或者是工艺参数间的相关性不符合统计规律 60No.5 99%控制限 在图7中,第5号样本点的工艺参数中,压下率仅为 50 40 、0.6 No.49 No.122 Nu.138No.168 65.5%,低于最小值.第125号样本点的工艺参数中, 0136 .166 30 No.20No.42 连退快冷出口平均温度仅为351℃,连退时效出口平 20H 均温度为287.1℃,均低于最小值.进一步分析得知, 10 连退快冷出口平均温度的标准方差σ为13.7℃,351 20 40 6080100120140160 样本点序号 ℃远超出了-3w范围(436.3℃-41.1℃=395.2℃ 图8P2统计图(=0.01) 远大于351℃):同样,连退时效出口平均温度也远低 Fig.8 72 statistical chart (a=0.01) 于-3σ范围,因此该点被判为异常点.第138号样本 点的工艺参数中,连退快冷出口平均温度为351℃,连 从图8中可以看出,共有13个样本点超出了控制 退缓冷出口平均温度为606℃,卷取温度为659℃,这 限,分别为第4、5、20、42、49、67、122、125、136、138、 3个温度值均低于或接近最小值:而2个主要的成分C 164、166和168样本点.其中,第5、125、138、164和 和Mn的质量分数分别为0.021%.和0.16%,都高于 168样本点与非线性软边界方法所确定的异常点是一 平均值,接近或达到最高值.第164号样本点工艺参 致的,剩余的8个样本点存在差异.造成差异的主要 数中,连退均热平均温度为843℃,热轧加热炉出口温 原因在于:Hotelling方法要求变量服从多变量正态分 度为1273℃,均接近最大值.第168号样本点工艺参 布假设,而实际生产过程中的参数往往并不完全满足 数中,精轧入口温度为1084℃,超过了最高值,卷取温 这一假设前提.以第67样本点被误判为例,该样本点 度为657℃,接近最小值 的压下率为82%,接近最大值:而热轧厚度为3.5mm, 从上面分析结果中可以看出,第5、125、164、168 精轧出口温度为912℃,这两个参数均达到了最小值
徐 钢等: 基于软超球体的高维非线性数据异常点识别算法 表 1 主要工艺参数名称及统计量 Table 1 Main process parameters and statistics 参数 连退加热 平均 温度/ 益 连退均热 平均 温度/ 益 连退快冷 出口平均 温度/ 益 连退时效 出口平均 温度/ 益 连退缓冷 出口平均 温度/ 益 冷轧 压下 率/ % C 质量 分数/ % Mn 质量 分数/ % P 质量 分数/ % S 质量 分数/ % 热轧加热 炉出口 温度/ 益 热轧 厚度/ mm 精轧入口 温度/ 益 精轧出口 温度/ 益 卷取 温度/ 益 最大值 842郾 5 854郾 9 455郾 7 394郾 1 665郾 4 82郾 9 0郾 0025 0郾 160 0郾 014 0郾 0139 1277郾 3 5郾 00 1076郾 4 927郾 2 753郾 4 最小值 790郾 9 797郾 6 398郾 6 297郾 1 614郾 9 77郾 8 0郾 0011 0郾 100 0郾 007 0郾 0024 1247郾 1 3郾 50 1014郾 1 912郾 5 654郾 5 平均值 823郾 6 825郾 9 436郾 3 374郾 9 642郾 1 81郾 9 0郾 0017 0郾 126 0郾 010 0郾 0077 1263郾 4 4郾 28 1039郾 1 917郾 9 712郾 6 的关键工艺参数,对 169 个样本点进行异常点识别,结 果如图 7 所示. 从图中可以看出,有 5 个样本点处于 边界限的上方,这些点存在不同程度的异常现象. 图 7 实际工业数据异常点识别结果 Fig. 7 Result of outlier detection in real industrial data 由于多变量间存在多重耦合关系,出现工艺参数 异常的原因是多方面的,包括某些工艺参数超过了临 界值,或者是工艺参数间的相关性不符合统计规律. 在图 7 中,第 5 号样本点的工艺参数中,压下率仅为 65郾 5% ,低于最小值. 第 125 号样本点的工艺参数中, 连退快冷出口平均温度仅为 351 益 ,连退时效出口平 均温度为 287郾 1 益 ,均低于最小值. 进一步分析得知, 连退快冷出口平均温度的标准方差 滓 为 13郾 7 益 ,351 益远超出了 - 3滓 范围(436郾 3 益 - 41郾 1 益 = 395郾 2 益 远大于 351 益 );同样,连退时效出口平均温度也远低 于 - 3滓 范围,因此该点被判为异常点. 第 138 号样本 点的工艺参数中,连退快冷出口平均温度为 351 益 ,连 退缓冷出口平均温度为 606 益 ,卷取温度为 659 益 ,这 3 个温度值均低于或接近最小值;而 2 个主要的成分 C 和 Mn 的质量分数分别为 0郾 021% 和 0郾 16% ,都高于 平均值,接近或达到最高值. 第 164 号样本点工艺参 数中,连退均热平均温度为 843 益 ,热轧加热炉出口温 度为 1273 益 ,均接近最大值. 第 168 号样本点工艺参 数中,精轧入口温度为 1084 益 ,超过了最高值,卷取温 度为 657 益 ,接近最小值. 从上面分析结果中可以看出,第 5、125、164、168 样本点被判为异常点的主要原因是由于个别工艺参数 超出了边界点;而第 138 样本点是由于个别工艺参数 接近最大值(或最小值),且变量之间相关性不符合统 计规律,因而被判为异常点. 根据多元统计理论,仅从 单个变量是否超出最大值(或最小值) 来判断工艺参 数是否异常是不够的,还应综合考虑变量间的相关性 是否满足统计规律才能准确判断是否为异常点. 从统 计规律得知,C 和 Mn 的含量偏高会引起汽车钢的力 学强度提高,这 2 个变量与力学强度是正相关的;而连 退快冷出口平均温度、连退缓冷出口平均温度和卷取 温度与力学强度是负相关的. 在正常生产过程中,如 果钢中 C 和 Mn 的含量偏高,应适当提高连退炉和热 轧卷取温度值,而第 138 号样本点的工艺参数的设定 值作了相反的调整,从而工艺参数的设定值被判为 异常. 为了与传统的 Hotelling 方法做比较,选显著性水 平 琢 = 0郾 01,控制限 UCL_T 2 = 26郾 4809,计算结果如图 8 所示. 图 8 T 2 统计图(琢 = 0郾 01) Fig. 8 T 2 statistical chart (琢 = 0郾 01) 从图 8 中可以看出,共有 13 个样本点超出了控制 限,分别为第 4、5、20、42、49、67、122、125、136、138、 164、166 和 168 样本点. 其中,第 5、125、138、164 和 168 样本点与非线性软边界方法所确定的异常点是一 致的,剩余的 8 个样本点存在差异. 造成差异的主要 原因在于:Hotelling 方法要求变量服从多变量正态分 布假设,而实际生产过程中的参数往往并不完全满足 这一假设前提. 以第 67 样本点被误判为例,该样本点 的压下率为 82% ,接近最大值;而热轧厚度为 3郾 5 mm, 精轧出口温度为 912 益 ,这两个参数均达到了最小值. ·1557·
·1558· 工程科学学报,第39卷,第10期 查看第67号样本点的材料性能指标可以发现,该样本 于:该方法对控制参数间相关性检验很敏感.事实上, 点符合质量要求,说明利用Hotelling方法对该样本点 当样本点位于软超球体的“凹面”的外部时(如图4所 造成了误判.出现这类误判的原因是:Hotelling方法 示),容易出现这类异常点,这时单个变量没有超界, 属于硬球体,而核函数方法所确定的边界属于软球 但样本点却在超软球体的边界外. 体.这种现象可以从图4中两种不同方法所确定的 边界来解释,椭圆边界(硬球体)将部分正常样本点 参考文献 划在边界外,而曲线边界(软球体)更精准地划分了 [1]Zimek A,Schubert E,Kriegel H P.A survey on unsupervised 类的边界.这也进一步证实非线性软边界方法能更 outlier detection in high-dimensional numerical data.Statist Anal 准确地判别高维非线性复杂数据的质量异常点,减 Data Min ASA Data Sci,2012,5(5):363 [2]Guo J H,Huang W,Williams B M.Real time traffic flow outlier 少误判率 detection using short-term traffic conditional variance prediction. 4结论 Transport Res C Emerg Technol,2015,50:160 [3]Tang MZ,Wang Y B.Yang C H.Modified support vector data 通常冶金和化工领域的生产过程数据具有非线性 description for fault diagnosis.Control Decision,2011,26(7): 结构特征,本文针对这类复杂数据异常点识别方法,引 967 入了软超球体的概念并采用非线性核函数将原始数据 (唐明珠,王岳斌,阳春华。一种改进的支持向量数据描述故 映射到高维的特征空间,在特征空间中来确定软超球 障诊断方法.控制与决策,2011,26(7):967) 体的边界,解决了复杂数据的异常点检测难题.本文 [4]Xu J,Shi D Y,Zhang Y J,et al.Model of IDS based on SVDD and cluster algorithm.Control Decision,2010,25(3):441 主要结论: (徐品,石端银,张亚江,等.基于聚类和SVDD的一类人侵 (1)由于流程工业的过程控制参数之间往往存在 检测模型控制与决策,2010,25(3):441) 多重耦合,数据集中不可避免地存在非线性问题.处 [5]Xu J W,et al.Quality Control Theory and Method of Metallurgi- 理这类复杂数据结构时可以采用非线性封闭超球体的 cal Production Process.Beijing:Metallurgical Industry Press, 边界确定方法,对实际生产数据进行统计过程控制,在 2015 (徐金梧,等.治金生产过程质量监控理论与方法.北京:冶 线检测过程控制参数是否为异常点,从而避免批量的 金工业出版社,2015) 产品质量判废.在确定非线性封闭超球体的边界时, [6]Johnson J E.A User's Guide to Principal Components.New York: 历史数据集的建立和核函数的选择会影响异常点检测 John Wiley Sons Ine,1991 的精准性和鲁棒性.在确定历史数据集时,需针对不 [7]Wold S,Martens H,Wold H.The multivariate calibration prob- 同的应用对象选择合适的数据采集范围并对数据进行 lem in chemistry solved by the PLS method.Matrix Pencils, 清洗,选择关键的过程参数作为检测对象,以提高检测 1983,973:286 过程的实时性和准确性, [8]Tax D M J.One-Class Classification Dissertation ]Dutch:Delft University of Technology,2001 (2)在非线性封闭超球体的边界确定过程中,通 [9]Liu B,Xiao Y,Cao L,et al.SVDD-based outlier detection on 常采用高斯核函数,还可以采用其他复杂的组合式核 uncertain data.Knoul Inform Syst,2013,34(3):597 函数.高斯核参数σ的选择非常重要,取值过大或过 [10]Sakla W,Chan A,Ji J,et al.An SVDD-based algorithm for tar- 小都可能造成超球体的边界限的改变,同时也会影响 get detection in hyperspectral imagery.IEEE Geosci Remote Sens 到支持向量的个数.当核参数σ取值较大时,高次项 Lett,2011,8(2):384 会迅速衰减:当核参数σ取值较小时,高次项的影响 [11]Shawe-Taylor J,Cristianini N.Kernel Methods for Pattern Analy- 将更加突出,但容易造成过拟合 sis.England:Cambridge University Press,2004 [12]Rosipal R,Trejo L J.Kernel partial least squares regression in (3)由于多变量间存在多重耦合关系,出现过程 reproducing Kemel Hillbert space.Mach Learn Res,2001,2: 参数异常的原因是多方面的,包括某些过程参数超出 97 了临界值,或者是过程参数间的相关性不符合统计规 f13]Bach F R,Jordan M I.Kemnel independent component analysis 律.采用非线性软超球体的边界的方法另一个优点在 J Mach Learn Res,2002,3:1
工程科学学报,第 39 卷,第 10 期 查看第 67 号样本点的材料性能指标可以发现,该样本 点符合质量要求,说明利用 Hotelling 方法对该样本点 造成了误判. 出现这类误判的原因是:Hotelling 方法 属于硬球体,而核函数方法所确定的边界属于软球 体. 这种现象可以从图 4 中两种不同方法所确定的 边界来解释,椭圆边界(硬球体) 将部分正常样本点 划在边界外,而曲线边界(软球体) 更精准地划分了 类的边界. 这也进一步证实非线性软边界方法能更 准确地判别高维非线性复杂数据的质量异常点,减 少误判率. 4 结论 通常冶金和化工领域的生产过程数据具有非线性 结构特征,本文针对这类复杂数据异常点识别方法,引 入了软超球体的概念并采用非线性核函数将原始数据 映射到高维的特征空间,在特征空间中来确定软超球 体的边界,解决了复杂数据的异常点检测难题. 本文 主要结论: (1)由于流程工业的过程控制参数之间往往存在 多重耦合,数据集中不可避免地存在非线性问题. 处 理这类复杂数据结构时可以采用非线性封闭超球体的 边界确定方法,对实际生产数据进行统计过程控制,在 线检测过程控制参数是否为异常点,从而避免批量的 产品质量判废. 在确定非线性封闭超球体的边界时, 历史数据集的建立和核函数的选择会影响异常点检测 的精准性和鲁棒性. 在确定历史数据集时,需针对不 同的应用对象选择合适的数据采集范围并对数据进行 清洗,选择关键的过程参数作为检测对象,以提高检测 过程的实时性和准确性. (2)在非线性封闭超球体的边界确定过程中,通 常采用高斯核函数,还可以采用其他复杂的组合式核 函数. 高斯核参数 滓 的选择非常重要,取值过大或过 小都可能造成超球体的边界限的改变,同时也会影响 到支持向量的个数. 当核参数 滓 取值较大时,高次项 会迅速衰减;当核参数 滓 取值较小时,高次项的影响 将更加突出,但容易造成过拟合. (3)由于多变量间存在多重耦合关系,出现过程 参数异常的原因是多方面的,包括某些过程参数超出 了临界值,或者是过程参数间的相关性不符合统计规 律. 采用非线性软超球体的边界的方法另一个优点在 于:该方法对控制参数间相关性检验很敏感. 事实上, 当样本点位于软超球体的“凹面冶的外部时(如图 4 所 示),容易出现这类异常点,这时单个变量没有超界, 但样本点却在超软球体的边界外. 参 考 文 献 [1] Zimek A, Schubert E, Kriegel H P. A survey on unsupervised outlier detection in high鄄dimensional numerical data. Statist Anal Data Min ASA Data Sci, 2012, 5(5): 363 [2] Guo J H, Huang W, Williams B M. Real time traffic flow outlier detection using short鄄term traffic conditional variance prediction. Transport Res C Emerg Technol, 2015, 50: 160 [3] Tang M Z, Wang Y B, Yang C H. Modified support vector data description for fault diagnosis. Control Decision, 2011, 26 (7 ): 967 (唐明珠, 王岳斌, 阳春华. 一种改进的支持向量数据描述故 障诊断方法. 控制与决策, 2011, 26(7): 967) [4] Xu J, Shi D Y, Zhang Y J, et al. Model of IDS based on SVDD and cluster algorithm. Control Decision, 2010, 25(3): 441 (徐晶, 石端银, 张亚江, 等. 基于聚类和 SVDD 的一类入侵 检测模型控制与决策, 2010, 25(3):441) [5] Xu J W, et al. Quality Control Theory and Method of Metallurgi鄄 cal Production Process. Beijing: Metallurgical Industry Press, 2015 (徐金梧, 等. 冶金生产过程质量监控理论与方法. 北京: 冶 金工业出版社, 2015) [6] Johnson J E. A User蒺s Guide to Principal Components. New York: John Wiley & Sons Inc, 1991 [7] Wold S, Martens H, Wold H. The multivariate calibration prob鄄 lem in chemistry solved by the PLS method. Matrix Pencils, 1983, 973: 286 [8] Tax D M J. One鄄Class Classification [Dissertation]. Dutch: Delft University of Technology, 2001 [9] Liu B, Xiao Y, Cao L, et al. SVDD鄄based outlier detection on uncertain data. Knowl Inform Syst, 2013, 34(3): 597 [10] Sakla W, Chan A, Ji J, et al. An SVDD鄄based algorithm for tar鄄 get detection in hyperspectral imagery. IEEE Geosci Remote Sens Lett, 2011, 8(2): 384 [11] Shawe鄄Taylor J, Cristianini N. Kernel Methods for Pattern Analy鄄 sis. England: Cambridge University Press, 2004 [12] Rosipal R, Trejo L J. Kernel partial least squares regression in reproducing Kernel Hillbert space. J Mach Learn Res, 2001, 2: 97 [13] Bach F R, Jordan M I. Kernel independent component analysis. J Mach Learn Res, 2002, 3: 1 ·1558·