基于软超球体的高维非线性数据异常点识别算法

在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力.

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：2.27MB

工程科学学报，第39卷.第10期：1552-1558,2017年10月 Chinese Journal of Engineering,Vol.39,No.10:1552-1558,October 2017 DOI:10.13374/j.issn2095-9389.2017.10.014;http://journals.ustb.edu.cn 基于软超球体的高维非线性数据异常点识别算法徐钢2)，张晓彤)四，黎敏2)，徐金梧2) 1)北京科技大学计算机与通讯工程学院，北京1000832)钢铁共性技术协同创新中心，北京100083 ☒通讯作者，E-mail:ZXT@ies.usth.edu.cn 摘要在治金、化工等流程型工业领域，生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题，本文引入了软超球体的概念，采用非线性核函数将原始数据映射到高维的特征空间，并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点，从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例，对实际生产数据进行检测，证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力. 关键词软超球体；高维非线性数据：异常点识别：核映射分类号TG277 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlin- ear data XU Gang2),ZHANG Xiao-tong,LI Min2),XU Jin-wu 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 100083,China 2)Collaborative Innovation Center of Steel Technology,Beijing 100083,China Corresponding author,E-mail:ZXT@ies.ustb.edu.en ABSTRACT In process industries,such as metallurgy and chemistry,real procedure parameters usually possess high-dimensional nonlinear features.To solve the problem of outlier detection in complex high-dimensional data,the concept of a soft hyper-sphere is in- troduced in this paper.An original data set is projected into a high-dimensional feature space using a nonlinear kernel function,and the boundary of the soft hyper-sphere is determined within this feature space.To avoid a mass product quality incident,location infor- mation on the testing samples,which are projected into the feature space,is used to decide whether they are outliers.As an applied example,practical procedure data obtained from a type of auto steel product were tested.The results verify that the proposed outlier detection algorithm based on a soft hyper-sphere has a better ability for outlier detection in high-dimensional nonlinear data than tradi- onal methods. KEY WORDS soft hyper-sphere;high dimension nonlinear data;outlier detection algorithm;Kernel mapping 在实际工业生产中，经常需要确定工艺参数在什用，它改变了通常采用的“事后”质量抽检的方式，在么范围内产品质量是可控的，即需要确定过程参数的过程参数设定过程中就能判定出产品质量是否在可控控制范围.当工艺参数（也包括原料参数）在该范围区范围内，避免了出现大量的质量判废.异常点(oui- 内，可以认为所设定的过程参数能满足产品质量要求， er)检测[-]的目的就是根据所确定的边界来判断过程反之，则可能出现质量异常.这种通过实际生产数据参数的设定值是否会造成产品质量异常.异常点检测来确定产品质量可控区的方法在工业生产中非常有方法还常用于在质量追溯过程中，判断出现质量异常收稿日期：2016-07-07 基金项目：国家高技术研究发展计划(863计划)资助项目(2014AA041801-2)

工程科学学报,第 39 卷,第 10 期:1552鄄鄄1558,2017 年 10 月 Chinese Journal of Engineering, Vol. 39, No. 10: 1552鄄鄄1558, October 2017 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2017. 10. 014; http: / / journals. ustb. edu. cn 基于软超球体的高维非线性数据异常点识别算法徐钢1,2) , 张晓彤1) 苣 , 黎敏2) , 徐金梧2) 1) 北京科技大学计算机与通讯工程学院, 北京 100083 2) 钢铁共性技术协同创新中心, 北京 100083 苣通讯作者, E鄄mail: ZXT@ ies. ustb. edu. cn 摘要在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征. 为了解决这类高维复杂数据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中确定软超球体的边界. 通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免出现批量的产品质量问题. 以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力. 关键词软超球体; 高维非线性数据; 异常点识别; 核映射分类号 TG277 An outlier detection algorithm based on a soft hyper鄄sphere for high dimension nonlin鄄 ear data XU Gang 1,2) , ZHANG Xiao鄄tong 1) 苣 , LI Min 2) , XU Jin鄄wu 2) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Collaborative Innovation Center of Steel Technology, Beijing 100083, China 苣Corresponding author, E鄄mail: ZXT@ ies. ustb. edu. cn ABSTRACT In process industries, such as metallurgy and chemistry, real procedure parameters usually possess high鄄dimensional nonlinear features. To solve the problem of outlier detection in complex high鄄dimensional data, the concept of a soft hyper鄄sphere is in鄄 troduced in this paper. An original data set is projected into a high鄄dimensional feature space using a nonlinear kernel function, and the boundary of the soft hyper鄄sphere is determined within this feature space. To avoid a mass product quality incident, location infor鄄 mation on the testing samples, which are projected into the feature space, is used to decide whether they are outliers. As an applied example, practical procedure data obtained from a type of auto steel product were tested. The results verify that the proposed outlier detection algorithm based on a soft hyper鄄sphere has a better ability for outlier detection in high鄄dimensional nonlinear data than tradi鄄 onal methods. KEY WORDS soft hyper鄄sphere; high dimension nonlinear data; outlier detection algorithm; Kernel mapping 收稿日期: 2016鄄鄄07鄄鄄07 基金项目: 国家高技术研究发展计划(863 计划)资助项目(2014AA041801鄄鄄2) 在实际工业生产中,经常需要确定工艺参数在什么范围内产品质量是可控的,即需要确定过程参数的控制范围. 当工艺参数(也包括原料参数) 在该范围内,可以认为所设定的过程参数能满足产品质量要求, 反之,则可能出现质量异常. 这种通过实际生产数据来确定产品质量可控区的方法在工业生产中非常有用,它改变了通常采用的“事后冶质量抽检的方式,在过程参数设定过程中就能判定出产品质量是否在可控区范围内,避免了出现大量的质量判废. 异常点(outli鄄 er)检测[1鄄鄄2]的目的就是根据所确定的边界来判断过程参数的设定值是否会造成产品质量异常. 异常点检测方法还常用于在质量追溯过程中,判断出现质量异常

徐钢等：基于软超球体的高维非线性数据异常点识别算法 ·1553· 的原因34 下面分别从硬超球体、线性软超球体和非线性软超球传统的统计过程控制(statistical process control, 体三个方面来讨论单一类的分类问题 SP℃)方法主要是通过过程参数和质量指标的统计规 1.1硬超球体律来控制引起产品质量变化的各种因素，避免产品质假设给定一个数据集S={x1,x2,…,x},其中x 量出现异常.目前，企业中大多采用6σ方法对单变量为p维的数据向量，需确定该数据集的边界，即求解包进行统计过程控制，以保证每个单独变量在设定的控含该数据集的最小封闭超球体.数据集中的每个样本制限内.但是，在实际的工业生产过程中，往往存在各点与超椭球体的中心C的距离均应小于球体的半径种高度相关的过程变量，单变量统计过程控制忽略了 r,如图1所示. 变量间的相关性，因此难以准确判别生产过程中的复 Feature 2 杂行为.多变量统计过程控制(multivariate statistical 半径r process control,MSPC)综合考虑各变量间的相关关系，可实现多变量生产过程的质量监控[) XX 随着统计数据降维技术的发展，多变量统计控制 XX X 图的研究应用出现了新的趋势，过程控制的对象从基 X球心C XX Feature 1 于距离的统计量，转向了一些基于统计降维方法所构 XX XX 建的综合变量.根据统计降维的原理，Jacksont6]提出十了基于主成分分析(principal component analysis,PCA) 方法的多变量统计控制图，随后Wold等[)提出了基于图1最小封闭超球体示意图偏最小二乘法(partial least squares,PLS)的多变量统 Fig.1 Minimum hyper-sphere diagram 计控制图.但是，无论主成分分析还是偏最小二乘法的多变量统计控制图都有一个假设前提：所有变量服最小封闭超球体可以转化为如下的优化问题从多变量正态分布(multivariate normality,MVN).在 minr2 (1) 这个假设条件下，对于一个稳定的生产过程，正常样本约束条件为：点分布在高维空间中的某个超椭球体内：一旦样本点 Ix-CI2=(x-C)T(x:-C)≤2，超出超椭球体的边界，可以认为该生产过程出现了异 i=1,2,…,n. 常.多变量统计控制图（如Hotelling控制图）的本质是对上式的约束条件附加拉格朗日乘子α，≥0，对通过历史数据来确定高维空间中这个超椭球的位置和应的拉格朗日函数为大小.其中，超椭球的位置主要取决于各变量的均值大小和变量间的相关性，而超椭球的大小则主要取决 L(C,r,a)=2+ a,[(x,-C2-1.(2) 于变量的方差. 分别对C和r求偏导且令导数值为0，求得优化虽然，通过确定超椭球边界的方法能够较好的解决服从多变量正态分布的异常点识别问题，但是在实解最终可以得到：名x=C,名g=1由于际工业生产过程中，尤其对于治金和化工这类复杂流程工业，生产数据中往往存在非线性特征，数据分布在会a=,式(2)也可以表示为另一种形式：软性的超球体内，即超球体的边界是一组复杂的超曲面.对于这类复杂的数据结构，采用传统的超椭球边 c,)=f+会a[-c9-f]= 界的方法来判别异常点会造成大量的误判.本文针对 -0 工业生产中常见的这类非线性数据结构，引入了软超球体的概念，通过非线性核函数将原始数据映射到高豆a医)- a,,K(x,x.(3) 1j-1 维的特征空间中，并在特征空间中来确定软超球体的其中，K(x,x)表示变量的内积，令w(a)= 边界，解决复杂数据的异常点检测难题.通过某类汽车用钢制造过程中的工业应用实例证明了新方法的有三asK)-名 ak(x,x),式(2)转化为效性求下面优化解 1异常点检测方法 maxo(a), (4) 异常点检测方法主要是通过实际生产数据来确定 g=1,a≥0，i=1,2,…,m 过程参数可控区的边界，也称为单一类的分类问题[劉由式(4)可以求得最小超球体的半径r和球心C

徐钢等: 基于软超球体的高维非线性数据异常点识别算法的原因[3鄄鄄4] . 传统的统计过程控制( statistical process control, SPC)方法主要是通过过程参数和质量指标的统计规律来控制引起产品质量变化的各种因素,避免产品质量出现异常. 目前,企业中大多采用 6滓方法对单变量进行统计过程控制,以保证每个单独变量在设定的控制限内. 但是,在实际的工业生产过程中,往往存在各种高度相关的过程变量,单变量统计过程控制忽略了变量间的相关性,因此难以准确判别生产过程中的复杂行为. 多变量统计过程控制 ( multivariate statistical process control, MSPC) 综合考虑各变量间的相关关系,可实现多变量生产过程的质量监控[5] . 随着统计数据降维技术的发展,多变量统计控制图的研究应用出现了新的趋势,过程控制的对象从基于距离的统计量,转向了一些基于统计降维方法所构建的综合变量. 根据统计降维的原理,Jackson [6] 提出了基于主成分分析(principal component analysis,PCA) 方法的多变量统计控制图,随后 Wold 等[7]提出了基于偏最小二乘法( partial least squares, PLS) 的多变量统计控制图. 但是,无论主成分分析还是偏最小二乘法的多变量统计控制图都有一个假设前提:所有变量服从多变量正态分布( multivariate normality, MVN). 在这个假设条件下,对于一个稳定的生产过程,正常样本点分布在高维空间中的某个超椭球体内;一旦样本点超出超椭球体的边界,可以认为该生产过程出现了异常. 多变量统计控制图(如 Hotelling 控制图)的本质是通过历史数据来确定高维空间中这个超椭球的位置和大小. 其中,超椭球的位置主要取决于各变量的均值大小和变量间的相关性,而超椭球的大小则主要取决于变量的方差. 虽然,通过确定超椭球边界的方法能够较好的解决服从多变量正态分布的异常点识别问题,但是在实际工业生产过程中,尤其对于冶金和化工这类复杂流程工业,生产数据中往往存在非线性特征,数据分布在软性的超球体内,即超球体的边界是一组复杂的超曲面. 对于这类复杂的数据结构,采用传统的超椭球边界的方法来判别异常点会造成大量的误判. 本文针对工业生产中常见的这类非线性数据结构,引入了软超球体的概念,通过非线性核函数将原始数据映射到高维的特征空间中,并在特征空间中来确定软超球体的边界,解决复杂数据的异常点检测难题. 通过某类汽车用钢制造过程中的工业应用实例证明了新方法的有效性. 1 异常点检测方法异常点检测方法主要是通过实际生产数据来确定过程参数可控区的边界,也称为单一类的分类问题[8] . 下面分别从硬超球体、线性软超球体和非线性软超球体三个方面来讨论单一类的分类问题. 1郾 1 硬超球体假设给定一个数据集 S = { x1 ,x2 ,…,xn },其中 xi 为 p 维的数据向量,需确定该数据集的边界,即求解包含该数据集的最小封闭超球体. 数据集中的每个样本点与超椭球体的中心 C 的距离均应小于球体的半径 r,如图 1 所示. 图 1 最小封闭超球体示意图 Fig. 1 Minimum hyper鄄sphere diagram 最小封闭超球体可以转化为如下的优化问题 min C,r r 2 . (1) 约束条件为: 椰xi - C椰2 = (xi - C) T (xi - C)臆r 2 , i = 1,2,…,n. 对上式的约束条件附加拉格朗日乘子琢i逸0,对应的拉格朗日函数为 L(C,r,琢) = r 2 + 移 n i = 1 琢i[(xi - C) 2 - r 2 ]. (2) 分别对 C 和 r 求偏导且令导数值为 0,求得优化解. 最终可以得到: 移 n i = 1 琢ixi = C, 移 n i = 1 琢i = 1. 由于移 n i = 1 琢i r 2 = r 2 ,式(2)也可以表示为另一种形式[8鄄鄄9] : L(C,r,琢) = r 2 + 移 n i = 1 琢i[(xi - C) 2 - r 2 ] = 移 n i = 1 琢i(xi - C) 2 = 移 n i = 1 琢i资(xi,xi) - 移 n i = 1 移 n j = 1 琢i琢j资(xi,xj). (3) 其中, 资 ( xi, xj ) 表示变量的内积, 令棕 ( 琢 ) = 移 n i = 1 琢i资(xi,xi) - 移 n i = 1 移 n j = 1 琢i琢j资( xi,xj ),式(2) 转化为求下面优化解 max 琢棕(琢), 移 n i = 1 琢i = 1, 琢i逸0, i = 1,2,…,n. (4) 由式(4)可以求得最小超球体的半径 r 和球心 C, ·1553·

·1554· 工程科学学报，第39卷，第10期 r=√a(a), 在控制半径最大化与控制松弛变量之间做出权衡.常 C点数A的选择与第一类错误和第二类错误有关[]，通常 (5) A可以取0.1或0.05. 其中，α是由式(4)求得的最优解同样，引入拉格朗日乘子a≥0，B≥0，对应的拉对待测的检测点x,可以由下式来判断该检测点格朗日函数为是否正常 )=H[k(x,)-2axx,)+D] (Ca,)=+45-2B+ 含[I-C-- (8) (6) 分别对式(8)求C,「，：的偏导，且令导数值为0，其中，H(x)表示Heaviside函数.当k(x,r)- 求得下面的优化解 2三心)+]小>0，)=1，则该检测点被 ⊙(C,.a2=2a,(x,-C)=0, ac 判为异常点 pCga且=2-三u)=0,o) 1.2线性软超球体上面所讨论的最小封闭超球体实质上是一种硬球 8L(C,&,2=A-a,-B=0. 0: 体，球体的最小半径为离球心最远的样本点的距离. 这意味着，如果样本中有少数样本点偏离了其他样本，从面得到三=C, 0=1A=4-a30,a≤ 球体的最小半径将会扩大.这时异常点的检测存在一 A把这些约束条件代入式(8)，有定的风险，即：扩大球体的最小半径会将异常点判为正常点，如图2所示.在实际工业生产中，由于异常点以c,a-+4gi+会a[l-cI- 与正常点的部分边界有可能是交叉重叠的，因此需要考虑允许有少数正常的样本点被划在边界外.通户--豆陆=三ax-C-c= 常，将包含绝大部分样本点的封闭超球体称为封闭 ,(10) 软超球体9-o],它是在硬球体的基础上对边界作了松含a()-名aa 弛处理. 同样，令a(a)=豆a)-名三a4( Feature 2 x),式(7)转化为求下面优化解 △表示异常点 X表示可控点 maxo(a), X XX XX ∑a=l,0≤a,≤A=l/m,y=1/hn XX Feature 1 lξ川，= 5,i=12,…,m (11) 由式(11)可以求得最小超球体的半径r和球心C 图2扩大球体的最小半径会将异常点判为正常点 Fig.2 Outliers are regarded as normal samples when the minimum r= radius of the hyper-sphere increases 7 K(xix)- 之x(xx)+】 aiak(x), 封闭软超球体的求解过程与式(2)相似，引入松台弛变量 cgo (12) 专=忘(C,r,x)=(Ix-C2-r2), 其中a是由式(11)求得的最优解封闭软超球体的优化解为对待检测的样本点x,可以由下式来判断该检测 minr+A‖ξl (7) 点是否正常约束条件为： Ix,-C‖2=(x:-C)(x,-C)≤2+专， )=(-2宫g+D小 5≥0，i=1,2,…,n. D= 中，=∑，式(7)中的4为一常数，其值 ()）其中，y为惩罚因子.当f(x)=1,则该检测点被判为

工程科学学报,第 39 卷,第 10 期 r = 棕(琢 * ), C = 移 n i = 1 琢 * i xi . (5) 其中,琢 * i 是由式(4)求得的最优解. 对待测的检测点 x,可以由下式来判断该检测点是否正常 f(x) = H [ 资(x,x) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] , D = 移 n i = 1 移 n j = 1 琢 * i 琢 * j 资(xi,xj) - r 2 . (6) 其中, H ( x ) 表示 Heaviside 函数. 当 [ 资 ( x, x ) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] > 0 , f( x) = 1,则该检测点被判为异常点. 1郾 2 线性软超球体上面所讨论的最小封闭超球体实质上是一种硬球体,球体的最小半径为离球心最远的样本点的距离. 这意味着,如果样本中有少数样本点偏离了其他样本, 球体的最小半径将会扩大. 这时异常点的检测存在一定的风险,即:扩大球体的最小半径会将异常点判为正常点,如图 2 所示. 在实际工业生产中,由于异常点与正常点的部分边界有可能是交叉重叠的,因此需要考虑允许有少数正常的样本点被划在边界外. 通常,将包含绝大部分样本点的封闭超球体称为封闭软超球体[9鄄鄄10] ,它是在硬球体的基础上对边界作了松弛处理. 图 2 扩大球体的最小半径会将异常点判为正常点 Fig. 2 Outliers are regarded as normal samples when the minimum radius of the hyper鄄sphere increases 封闭软超球体的求解过程与式(2) 相似,引入松弛变量孜i = 孜i(C,r,xi) = (椰xi - C椰2 - r 2 ) + . 封闭软超球体的优化解为 min C,r,孜 r 2 + A 椰孜椰1 . (7) 约束条件为: 椰xi - C椰2 = (xi - C) T (xi - C)臆r 2 + 孜i, 孜i逸0, i = 1,2,…,n. 其中椰孜椰1 = 移 n i = 1 孜i,式(7) 中的 A 为一常数,其值需在控制半径最大化与控制松弛变量之间做出权衡. 常数 A 的选择与第一类错误和第二类错误有关[5] ,通常 A 可以取 0郾 1 或 0郾 05. 同样,引入拉格朗日乘子琢i逸0, 茁i逸0,对应的拉格朗日函数为 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i - 移 n i = 1 茁i 孜i + 移 n i = 1 琢i[椰xi - C椰2 - r 2 - 孜i]. (8) 分别对式(8)求 C,r,孜i 的偏导,且令导数值为 0, 求得下面的优化解鄣 L(C,r,琢,孜) 鄣 C = 2移 n i = 1 琢i(xi - C) = 0, 鄣 L(C,r,琢,孜) 鄣 r = 2r ( 1 - 移 n i = 1 琢i ) = 0, 鄣 L(C,r,琢,孜) 鄣孜i = A - 琢i - 茁i = 0 ì î í ï ï ï ï ï ï . (9) 从而得到移 n i = 1 琢ixi = C, 移 n i = 1 琢i = 1,茁i = A - 琢i逸0,琢i臆 A 把这些约束条件代入式(8),有 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i + 移 n i = 1 琢i[椰xi - C椰2 - r 2 - 孜i] - 移 n i = 1 茁i 孜i = 移 n i = 1 琢i掖xi - C,xi - C业 = 移 n i = 1 琢i资(xi,xi) - 移 n i,j = 1 琢i琢j资(xi,xj). (10) 同样,令棕( 琢) = 移 n i = 1 琢i资( xi,xi ) - 移 n i = 1 移 n j = 1 琢i琢j资( xi, xj),式(7)转化为求下面优化解 max 琢棕(琢), 移 n i = 1 琢i = 1, 0 臆琢i 臆 A = 1 / 酌n,酌 = 1 / An, 椰孜椰1 = 移 n i = 1 孜i, i = 1,2,…,n. (11) 由式(11)可以求得最小超球体的半径 r 和球心 C r = 资(xi,xi) - 移 n i =1 琢 * i 资(xi,xj) + 移 n i =1 移 n j =1 琢 * i 琢 * j 资(xi,xj) , C = 移 n i = 1 琢 * i xi . (12) 其中琢 * i 是由式(11)求得的最优解. 对待检测的样本点 x,可以由下式来判断该检测点是否正常 f(x) = H [ 资(x,x) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] , D = 移 n i = 1 移 n j = 1 琢 * i 琢 * j 资(xi,xj) - r 2 - 酌. (13) 其中,酌为惩罚因子. 当 f( x) = 1,则该检测点被判为 ·1554·

徐钢等: 基于软超球体的高维非线性数据异常点识别算法异常点. 1郾 3 非线性软超球体前面所讨论的方法属于线性的映射方法. 当数据集中存在非线性的复杂边界时,这种线性的表达形式对于非线性的数据结构会造成大量的误判,如图 3 所示. 下面讨论非线性的数据结构的封闭超球体求解方法. 图 3 对于非线性的数据可能造成误判 Fig. 3 Nonlinear data may result in erroneous judgment 设 X 是一个 R p 的紧凑子集,k(x,z)是 X 伊 X 上的一个连续的实值对称函数. 如果存在一个从原始 X 空间到高维特征空间 F 的映射准:x寅准(x),对所有坌x, z沂X 都有 k(x,z) = 掖准(x),准(z)业 = 准 (x) T准(z). (14) 则称 k(x,z)为定义在 X 伊 X 上的核函数. 根据 Mercer 定理,如果核矩阵 K 是一个半正定矩阵,则 k(x,z) = 掖准(x),准(z)业是一个有效核[11] ,因而核函数 k(x,z)等价于高维特征空间中映射点准( x)和准(z)的内积. 这意味着,可以通过非线性核函数将原始空间上的数据集映射到高维的特征空间中,采用映射点准(x)和准( z)的内积(对偶形式)来求解非线性情况下的封闭超球体. 根据式(7)的方式来建立特征空间中封闭超球体的优化解. min C,r,孜 r 2 + A 椰孜椰1 . 约束条件为: 椰准(xi) - C椰2 = (准(xi) - C) T (准(xi) - C)臆r 2 + 孜i 孜i逸0, i = 1,2,…,n. (15) 拉格朗日函数为 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i + 移 n i = 1 琢i[椰准(xi) - C椰2 - r 2 - 孜i] - 移 n i = 1 茁i 孜i = 移 n i = 1 琢i掖准(xi) - C,准(xi) - C业 = 移 n i = 1 琢i资(xi,xi) - 移 n i,j = 1 琢i琢j资(xi,xj). (16) 上式与式(10)不同之处在于,式(10)是采用线性核函数,因而只能解决简单边界问题. 而式(16)采用的是非线性核函数来解决复杂非线性边界问题. 两者差别主要是选择线性核函数还是非线性核函数,而求解的过程与第二节所讨论的方法是一致的. 常用的核函数有: (1)线性核函数. k(x,z) = x T z. (17) (2)多项式核函数. k(x,z) = (x T z + c) d . (18) 其中,c 和 d 均为常数. (3)高斯核函数(径向基核函数). k(x,z) = exp ( - 椰x - z椰2 ) 滓 . (19) 其中,滓为大于 0 的常数. (4)Sigmoid(S 形的)核函数. k(x,z) = tanh (茁0 x T z + 茁1 ). (20) 其中,茁0 > 0,茁1 0. 这意味着,实际应用中只需边界附近琢i > 0 的点作为异常点的判别依据. 这些位于边界的点称为支持向量(support vector). 由支持向量所确定的边界在本质上与前面讨论的非线性超球体的边界是相同的,不同之处在于异常点的识别时只需考虑少数几个与支持向量相对应的样本点 xi 和琢i . 因此,支持向量简化了异常点的识别过程,提高 ·1555·

·1556· 工程科学学报，第39卷，第10期香蕉数据集确定训练数据集选定核参数o和参数v 寻找如下优化问题的解 goia∑ak,时∑ag, t立ea10sa< -2 0 2468 选择，使得0ka<品 X 计算出超球体半径r、球心C: 图4核参数σ取不同值时2维数据的边界限 ey-2on2og9 Fig.4 Boundary of two-dimensional data with different kemel values C) 了在线识别系统的实时性.基于支持向量的异常点检测方法为输人待检测样本，求得判别结果 =lkx-2会ai)+D小 f国=.-2∑a#立au-y D= 宫宫%)-f-y2) f(x)=1 否过程异常其中，x表示待检测点，g表示支持向量的个数，x表是示支持向量，α表示支持向量对应的权重系数.实际过程正常上，在判别式(21)中与待检测点x有关的项只有图5基于支持向量的异常点检测流程图 ∑a广K(x,),从高斯核函数的定义k(x,x)=l, Fig.5 Flowchart of outlier detection based on the support vector 余的其他项都是根据历史数据集求得的常量.基于支原始数据库持向量的异常点检测方法的流程图如图5所示在实际工业应用中，可以通过采集满足质量要求的样本集作为历史数据，按照前面讨论的方法确定非线性软超球体的边界，并从中选择出支持向量x和对应的权重系数a.通过判别函数可以在线判断待检测样本点是否为异常点，一旦发现过程参数的设定值超出了边界，系统将给予警示，从而避免发生批量的产品质量判废 0 3应用实例分析 Feature 1 图62维仿真数据的分布图及软边界为了验证基于软边界的异常点检验方法的有效 Fig.6 Distribution graph and soft boundary of two-dimensional simu- 性，分别对2维仿真数据和实际工业数据进行分析与 lation data 验证.图6表示从2维仿真数据得到的50个样本点的性，从实际生产数据中采集F钢中不同等级汽车板在分布图，采用基于支持向量的封闭超球体方法对样本各生产工序中的15个主要工艺参数，包括钢中主要成进行边界划定，参数σ值为3，A取值0.1，支持向量的分、热轧、冷轧和退火过程中关键工艺参数.主要工艺个数为6.通过式(21)计算结果发现：有4个点的参数名称及统计量如表1如示. (x)=1,这些点被判为异常点，在图6中可以看出这通过采集F汽车用钢中3个主要系列钢种 4个点在边界线外部.通过上面仿真数据可以证明采 DC03、DC04和DC05的实际生产数据作为历史数据用核函数的非线性软边界确定方法能较好的处理复杂集，并采用基于核函数的非线性软边界确定方法求得边界问题支持向量x,和对应的权重系数α，最小超球体半径但在实际工业应用中，过程数据中通常具有高维、 r,且遴选出36个支持向量.然后，按照图5所示的流强耦合、非线性等特征.为了验证所提出方法的有效程，分别从炼钢、热轧、冷轧和退火工序中采集待检测

工程科学学报,第 39 卷,第 10 期图 4 核参数滓取不同值时 2 维数据的边界限 Fig. 4 Boundary of two鄄dimensional data with different kernel values 了在线识别系统的实时性. 基于支持向量的异常点检测方法为 f(x) = H [ 资(x,x) - 2 移 q i = 1 琢 * i 资(x,x * i ) + D ] , D = 移 q i = 1 移 q j = 1 琢 * i 琢 * j 资(x * i ,x * j ) - r 2 - 酌. (21) 其中,x 表示待检测点,q 表示支持向量的个数,x * i 表示支持向量,琢 * i 表示支持向量对应的权重系数. 实际上,在判别式 ( 21 ) 中与待检测点 x 有关的项只有移 q i = 1 琢 * i 资(x,x * i ),从高斯核函数的定义资( x,x) = 1,剩余的其他项都是根据历史数据集求得的常量. 基于支持向量的异常点检测方法的流程图如图 5 所示. 在实际工业应用中,可以通过采集满足质量要求的样本集作为历史数据,按照前面讨论的方法确定非线性软超球体的边界,并从中选择出支持向量 x * i 和对应的权重系数琢 * i . 通过判别函数可以在线判断待检测样本点是否为异常点,一旦发现过程参数的设定值超出了边界,系统将给予警示,从而避免发生批量的产品质量判废. 3 应用实例分析为了验证基于软边界的异常点检验方法的有效性,分别对 2 维仿真数据和实际工业数据进行分析与验证. 图6 表示从2 维仿真数据得到的50 个样本点的分布图,采用基于支持向量的封闭超球体方法对样本进行边界划定,参数滓值为 3,A 取值 0郾 1,支持向量的个数为 6. 通过式(21) 计算结果发现:有 4 个点的 f(x) = 1,这些点被判为异常点,在图 6 中可以看出这 4 个点在边界线外部. 通过上面仿真数据可以证明采用核函数的非线性软边界确定方法能较好的处理复杂边界问题. 但在实际工业应用中,过程数据中通常具有高维、强耦合、非线性等特征. 为了验证所提出方法的有效图 5 基于支持向量的异常点检测流程图 Fig. 5 Flowchart of outlier detection based on the support vector 图 6 2 维仿真数据的分布图及软边界 Fig. 6 Distribution graph and soft boundary of two鄄dimensional simu鄄 lation data 性,从实际生产数据中采集 IF 钢中不同等级汽车板在各生产工序中的 15 个主要工艺参数,包括钢中主要成分、热轧、冷轧和退火过程中关键工艺参数. 主要工艺参数名称及统计量如表 1 如示. 通过采集 IF 汽车用钢中 3 个主要系列钢种 DC03、DC04 和 DC05 的实际生产数据作为历史数据集,并采用基于核函数的非线性软边界确定方法求得支持向量 x * i 和对应的权重系数琢 * i ,最小超球体半径 r,且遴选出 36 个支持向量. 然后,按照图 5 所示的流程,分别从炼钢、热轧、冷轧和退火工序中采集待检测 ·1556·

徐钢等：基于软超球体的高维非线性数据异常点识别算法 ·1557· 表1主要工艺参数名称及统计量 Table 1 Main process parameters and statistics 连退加热连退均热连退快冷连退时效连退缓玲冷轧热轧加热热轧精轧人口精轧出口卷取 C质量如质量P质量S质量参数平均平均出口平均出口平均出口平均压下炉出口厚度/ 温度/温度/ 温度/ 分数/%分数/%分数/%分数/% 温度/℃温度/℃温度/℃温度/℃温度/℃率/% 温度/代mm 风最大值842.5 854.9 455.7 394.1 665.4 82.9 0.0025 0.160 0.014 0.0139 1277.3 5.00 1076.4 927.2 753.4 最小值790.9797.6 398.6297.1614.977.8 0.00110.1000.007 0.00241247.13.501014.1 912.5654.5 平均值823.6825.9436.3374.9642.181.90.00170.1260.0100.0071263.44.281039.1917.9712.6 的关键工艺参数，对169个样本点进行异常点识别，结样本点被判为异常点的主要原因是由于个别工艺参数果如图7所示.从图中可以看出，有5个样本点处于超出了边界点：而第138样本点是由于个别工艺参数边界限的上方，这些点存在不同程度的异常现象. 接近最大值（或最小值），且变量之间相关性不符合统 13r 计规律，因而被判为异常点.根据多元统计理论，仅从 N0.125+ 单个变量是否超出最大值（或最小值）来判断工艺参 1.1 数是否异常是不够的，还应综合考虑变量间的相关性是否满足统计规律才能准确判断是否为异常点.从统 1.0 No.138+ 计规律得知，C和Mn的含量偏高会引起汽车钢的力学强度提高，这2个变量与力学强度是正相关的：而连 No.164+ No.5 监控限 No.168 退快冷出口平均温度、连退缓冷出口平均温度和卷取 0.r + +++ 温度与力学强度是负相关的.在正常生产过程中，如 0.6 果钢中C和Mn的含量偏高，应适当提高连退炉和热 0.5t 七韩 +也十轧卷取温度值，而第138号样本点的工艺参数的设定十+ 0.4620406080100120140160180 值作了相反的调整，从而工艺参数的设定值被判为样本编号异常图7实际工业数据异常点识别结果为了与传统的Hotelling方法做比较，选显著性水 Fig.7 Result of outlier detection in real industrial data 平a=0.01,控制限UCLT2=26.4809,计算结果如图由于多变量间存在多重耦合关系，出现工艺参数 8所示. 异常的原因是多方面的，包括某些工艺参数超过了临 No.1251 T2 70 T2超限样本界值，或者是工艺参数间的相关性不符合统计规律 60No.5 99%控制限在图7中，第5号样本点的工艺参数中，压下率仅为 50 40 、0.6 No.49 No.122 Nu.138No.168 65.5%,低于最小值.第125号样本点的工艺参数中， 0136 .166 30 No.20No.42 连退快冷出口平均温度仅为351℃，连退时效出口平 20H 均温度为287.1℃，均低于最小值.进一步分析得知， 10 连退快冷出口平均温度的标准方差σ为13.7℃，351 20 40 6080100120140160 样本点序号 ℃远超出了-3w范围(436.3℃-41.1℃=395.2℃ 图8P2统计图(=0.01) 远大于351℃)：同样，连退时效出口平均温度也远低 Fig.8 72 statistical chart (a=0.01) 于-3σ范围，因此该点被判为异常点.第138号样本点的工艺参数中，连退快冷出口平均温度为351℃，连从图8中可以看出，共有13个样本点超出了控制退缓冷出口平均温度为606℃，卷取温度为659℃，这限，分别为第4、5、20、42、49、67、122、125、136、138、 3个温度值均低于或接近最小值：而2个主要的成分C 164、166和168样本点.其中，第5、125、138、164和和Mn的质量分数分别为0.021%.和0.16%，都高于 168样本点与非线性软边界方法所确定的异常点是一平均值，接近或达到最高值.第164号样本点工艺参致的，剩余的8个样本点存在差异.造成差异的主要数中，连退均热平均温度为843℃，热轧加热炉出口温原因在于：Hotelling方法要求变量服从多变量正态分度为1273℃，均接近最大值.第168号样本点工艺参布假设，而实际生产过程中的参数往往并不完全满足数中，精轧入口温度为1084℃，超过了最高值，卷取温这一假设前提.以第67样本点被误判为例，该样本点度为657℃，接近最小值的压下率为82%，接近最大值：而热轧厚度为3.5mm, 从上面分析结果中可以看出，第5、125、164、168 精轧出口温度为912℃，这两个参数均达到了最小值

徐钢等: 基于软超球体的高维非线性数据异常点识别算法表 1 主要工艺参数名称及统计量 Table 1 Main process parameters and statistics 参数连退加热平均温度/ 益连退均热平均温度/ 益连退快冷出口平均温度/ 益连退时效出口平均温度/ 益连退缓冷出口平均温度/ 益冷轧压下率/ % C 质量分数/ % Mn 质量分数/ % P 质量分数/ % S 质量分数/ % 热轧加热炉出口温度/ 益热轧厚度/ mm 精轧入口温度/ 益精轧出口温度/ 益卷取温度/ 益最大值 842郾 5 854郾 9 455郾 7 394郾 1 665郾 4 82郾 9 0郾 0025 0郾 160 0郾 014 0郾 0139 1277郾 3 5郾 00 1076郾 4 927郾 2 753郾 4 最小值 790郾 9 797郾 6 398郾 6 297郾 1 614郾 9 77郾 8 0郾 0011 0郾 100 0郾 007 0郾 0024 1247郾 1 3郾 50 1014郾 1 912郾 5 654郾 5 平均值 823郾 6 825郾 9 436郾 3 374郾 9 642郾 1 81郾 9 0郾 0017 0郾 126 0郾 010 0郾 0077 1263郾 4 4郾 28 1039郾 1 917郾 9 712郾 6 的关键工艺参数,对 169 个样本点进行异常点识别,结果如图 7 所示. 从图中可以看出,有 5 个样本点处于边界限的上方,这些点存在不同程度的异常现象. 图 7 实际工业数据异常点识别结果 Fig. 7 Result of outlier detection in real industrial data 由于多变量间存在多重耦合关系,出现工艺参数异常的原因是多方面的,包括某些工艺参数超过了临界值,或者是工艺参数间的相关性不符合统计规律. 在图 7 中,第 5 号样本点的工艺参数中,压下率仅为 65郾 5% ,低于最小值. 第 125 号样本点的工艺参数中, 连退快冷出口平均温度仅为 351 益 ,连退时效出口平均温度为 287郾 1 益 ,均低于最小值. 进一步分析得知, 连退快冷出口平均温度的标准方差滓为 13郾 7 益 ,351 益远超出了 - 3滓范围(436郾 3 益 - 41郾 1 益 = 395郾 2 益远大于 351 益 );同样,连退时效出口平均温度也远低于 - 3滓范围,因此该点被判为异常点. 第 138 号样本点的工艺参数中,连退快冷出口平均温度为 351 益 ,连退缓冷出口平均温度为 606 益 ,卷取温度为 659 益 ,这 3 个温度值均低于或接近最小值;而 2 个主要的成分 C 和 Mn 的质量分数分别为 0郾 021% 和 0郾 16% ,都高于平均值,接近或达到最高值. 第 164 号样本点工艺参数中,连退均热平均温度为 843 益 ,热轧加热炉出口温度为 1273 益 ,均接近最大值. 第 168 号样本点工艺参数中,精轧入口温度为 1084 益 ,超过了最高值,卷取温度为 657 益 ,接近最小值. 从上面分析结果中可以看出,第 5、125、164、168 样本点被判为异常点的主要原因是由于个别工艺参数超出了边界点;而第 138 样本点是由于个别工艺参数接近最大值(或最小值),且变量之间相关性不符合统计规律,因而被判为异常点. 根据多元统计理论,仅从单个变量是否超出最大值(或最小值) 来判断工艺参数是否异常是不够的,还应综合考虑变量间的相关性是否满足统计规律才能准确判断是否为异常点. 从统计规律得知,C 和 Mn 的含量偏高会引起汽车钢的力学强度提高,这 2 个变量与力学强度是正相关的;而连退快冷出口平均温度、连退缓冷出口平均温度和卷取温度与力学强度是负相关的. 在正常生产过程中,如果钢中 C 和 Mn 的含量偏高,应适当提高连退炉和热轧卷取温度值,而第 138 号样本点的工艺参数的设定值作了相反的调整,从而工艺参数的设定值被判为异常. 为了与传统的 Hotelling 方法做比较,选显著性水平琢 = 0郾 01,控制限 UCL_T 2 = 26郾 4809,计算结果如图 8 所示. 图 8 T 2 统计图(琢 = 0郾 01) Fig. 8 T 2 statistical chart (琢 = 0郾 01) 从图 8 中可以看出,共有 13 个样本点超出了控制限,分别为第 4、5、20、42、49、67、122、125、136、138、 164、166 和 168 样本点. 其中,第 5、125、138、164 和 168 样本点与非线性软边界方法所确定的异常点是一致的,剩余的 8 个样本点存在差异. 造成差异的主要原因在于:Hotelling 方法要求变量服从多变量正态分布假设,而实际生产过程中的参数往往并不完全满足这一假设前提. 以第 67 样本点被误判为例,该样本点的压下率为 82% ,接近最大值;而热轧厚度为 3郾 5 mm, 精轧出口温度为 912 益 ,这两个参数均达到了最小值. ·1557·

·1558· 工程科学学报，第39卷，第10期查看第67号样本点的材料性能指标可以发现，该样本于：该方法对控制参数间相关性检验很敏感.事实上，点符合质量要求，说明利用Hotelling方法对该样本点当样本点位于软超球体的“凹面”的外部时（如图4所造成了误判.出现这类误判的原因是：Hotelling方法示)，容易出现这类异常点，这时单个变量没有超界，属于硬球体，而核函数方法所确定的边界属于软球但样本点却在超软球体的边界外. 体.这种现象可以从图4中两种不同方法所确定的边界来解释，椭圆边界（硬球体）将部分正常样本点参考文献划在边界外，而曲线边界（软球体）更精准地划分了 [1]Zimek A,Schubert E,Kriegel H P.A survey on unsupervised 类的边界.这也进一步证实非线性软边界方法能更 outlier detection in high-dimensional numerical data.Statist Anal 准确地判别高维非线性复杂数据的质量异常点，减 Data Min ASA Data Sci,2012,5(5):363 [2]Guo J H,Huang W,Williams B M.Real time traffic flow outlier 少误判率 detection using short-term traffic conditional variance prediction. 4结论 Transport Res C Emerg Technol,2015,50:160 [3]Tang MZ,Wang Y B.Yang C H.Modified support vector data 通常冶金和化工领域的生产过程数据具有非线性 description for fault diagnosis.Control Decision,2011,26(7): 结构特征，本文针对这类复杂数据异常点识别方法，引 967 入了软超球体的概念并采用非线性核函数将原始数据 (唐明珠，王岳斌，阳春华。一种改进的支持向量数据描述故映射到高维的特征空间，在特征空间中来确定软超球障诊断方法.控制与决策，2011,26(7)：967) 体的边界，解决了复杂数据的异常点检测难题.本文 [4]Xu J,Shi D Y,Zhang Y J,et al.Model of IDS based on SVDD and cluster algorithm.Control Decision,2010,25(3):441 主要结论： (徐品，石端银，张亚江，等.基于聚类和SVDD的一类人侵 (1)由于流程工业的过程控制参数之间往往存在检测模型控制与决策，2010,25(3)：441) 多重耦合，数据集中不可避免地存在非线性问题.处 [5]Xu J W,et al.Quality Control Theory and Method of Metallurgi- 理这类复杂数据结构时可以采用非线性封闭超球体的 cal Production Process.Beijing:Metallurgical Industry Press, 边界确定方法，对实际生产数据进行统计过程控制，在 2015 (徐金梧，等.治金生产过程质量监控理论与方法.北京：冶线检测过程控制参数是否为异常点，从而避免批量的金工业出版社，2015) 产品质量判废.在确定非线性封闭超球体的边界时， [6]Johnson J E.A User's Guide to Principal Components.New York: 历史数据集的建立和核函数的选择会影响异常点检测 John Wiley Sons Ine,1991 的精准性和鲁棒性.在确定历史数据集时，需针对不 [7]Wold S,Martens H,Wold H.The multivariate calibration prob- 同的应用对象选择合适的数据采集范围并对数据进行 lem in chemistry solved by the PLS method.Matrix Pencils, 清洗，选择关键的过程参数作为检测对象，以提高检测 1983,973:286 过程的实时性和准确性， [8]Tax D M J.One-Class Classification Dissertation ]Dutch:Delft University of Technology,2001 (2)在非线性封闭超球体的边界确定过程中，通 [9]Liu B,Xiao Y,Cao L,et al.SVDD-based outlier detection on 常采用高斯核函数，还可以采用其他复杂的组合式核 uncertain data.Knoul Inform Syst,2013,34(3):597 函数.高斯核参数σ的选择非常重要，取值过大或过 [10]Sakla W,Chan A,Ji J,et al.An SVDD-based algorithm for tar- 小都可能造成超球体的边界限的改变，同时也会影响 get detection in hyperspectral imagery.IEEE Geosci Remote Sens 到支持向量的个数.当核参数σ取值较大时，高次项 Lett,2011,8(2):384 会迅速衰减：当核参数σ取值较小时，高次项的影响 [11]Shawe-Taylor J,Cristianini N.Kernel Methods for Pattern Analy- 将更加突出，但容易造成过拟合 sis.England:Cambridge University Press,2004 [12]Rosipal R,Trejo L J.Kernel partial least squares regression in (3)由于多变量间存在多重耦合关系，出现过程 reproducing Kemel Hillbert space.Mach Learn Res,2001,2: 参数异常的原因是多方面的，包括某些过程参数超出 97 了临界值，或者是过程参数间的相关性不符合统计规 f13]Bach F R,Jordan M I.Kemnel independent component analysis 律.采用非线性软超球体的边界的方法另一个优点在 J Mach Learn Res,2002,3:1

工程科学学报,第 39 卷,第 10 期查看第 67 号样本点的材料性能指标可以发现,该样本点符合质量要求,说明利用 Hotelling 方法对该样本点造成了误判. 出现这类误判的原因是:Hotelling 方法属于硬球体,而核函数方法所确定的边界属于软球体. 这种现象可以从图 4 中两种不同方法所确定的边界来解释,椭圆边界(硬球体) 将部分正常样本点划在边界外,而曲线边界(软球体) 更精准地划分了类的边界. 这也进一步证实非线性软边界方法能更准确地判别高维非线性复杂数据的质量异常点,减少误判率. 4 结论通常冶金和化工领域的生产过程数据具有非线性结构特征,本文针对这类复杂数据异常点识别方法,引入了软超球体的概念并采用非线性核函数将原始数据映射到高维的特征空间,在特征空间中来确定软超球体的边界,解决了复杂数据的异常点检测难题. 本文主要结论: (1)由于流程工业的过程控制参数之间往往存在多重耦合,数据集中不可避免地存在非线性问题. 处理这类复杂数据结构时可以采用非线性封闭超球体的边界确定方法,对实际生产数据进行统计过程控制,在线检测过程控制参数是否为异常点,从而避免批量的产品质量判废. 在确定非线性封闭超球体的边界时, 历史数据集的建立和核函数的选择会影响异常点检测的精准性和鲁棒性. 在确定历史数据集时,需针对不同的应用对象选择合适的数据采集范围并对数据进行清洗,选择关键的过程参数作为检测对象,以提高检测过程的实时性和准确性. (2)在非线性封闭超球体的边界确定过程中,通常采用高斯核函数,还可以采用其他复杂的组合式核函数. 高斯核参数滓的选择非常重要,取值过大或过小都可能造成超球体的边界限的改变,同时也会影响到支持向量的个数. 当核参数滓取值较大时,高次项会迅速衰减;当核参数滓取值较小时,高次项的影响将更加突出,但容易造成过拟合. (3)由于多变量间存在多重耦合关系,出现过程参数异常的原因是多方面的,包括某些过程参数超出了临界值,或者是过程参数间的相关性不符合统计规律. 采用非线性软超球体的边界的方法另一个优点在于:该方法对控制参数间相关性检验很敏感. 事实上, 当样本点位于软超球体的“凹面冶的外部时(如图 4 所示),容易出现这类异常点,这时单个变量没有超界, 但样本点却在超软球体的边界外. 参考文献 [1] Zimek A, Schubert E, Kriegel H P. A survey on unsupervised outlier detection in high鄄dimensional numerical data. Statist Anal Data Min ASA Data Sci, 2012, 5(5): 363 [2] Guo J H, Huang W, Williams B M. Real time traffic flow outlier detection using short鄄term traffic conditional variance prediction. Transport Res C Emerg Technol, 2015, 50: 160 [3] Tang M Z, Wang Y B, Yang C H. Modified support vector data description for fault diagnosis. Control Decision, 2011, 26 (7 ): 967 (唐明珠, 王岳斌, 阳春华. 一种改进的支持向量数据描述故障诊断方法. 控制与决策, 2011, 26(7): 967) [4] Xu J, Shi D Y, Zhang Y J, et al. Model of IDS based on SVDD and cluster algorithm. Control Decision, 2010, 25(3): 441 (徐晶, 石端银, 张亚江, 等. 基于聚类和 SVDD 的一类入侵检测模型控制与决策, 2010, 25(3):441) [5] Xu J W, et al. Quality Control Theory and Method of Metallurgi鄄 cal Production Process. Beijing: Metallurgical Industry Press, 2015 (徐金梧, 等. 冶金生产过程质量监控理论与方法. 北京: 冶金工业出版社, 2015) [6] Johnson J E. A User蒺s Guide to Principal Components. New York: John Wiley & Sons Inc, 1991 [7] Wold S, Martens H, Wold H. The multivariate calibration prob鄄 lem in chemistry solved by the PLS method. Matrix Pencils, 1983, 973: 286 [8] Tax D M J. One鄄Class Classification [Dissertation]. Dutch: Delft University of Technology, 2001 [9] Liu B, Xiao Y, Cao L, et al. SVDD鄄based outlier detection on uncertain data. Knowl Inform Syst, 2013, 34(3): 597 [10] Sakla W, Chan A, Ji J, et al. An SVDD鄄based algorithm for tar鄄 get detection in hyperspectral imagery. IEEE Geosci Remote Sens Lett, 2011, 8(2): 384 [11] Shawe鄄Taylor J, Cristianini N. Kernel Methods for Pattern Analy鄄 sis. England: Cambridge University Press, 2004 [12] Rosipal R, Trejo L J. Kernel partial least squares regression in reproducing Kernel Hillbert space. J Mach Learn Res, 2001, 2: 97 [13] Bach F R, Jordan M I. Kernel independent component analysis. J Mach Learn Res, 2002, 3: 1 ·1558·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录