VO I . 2 7 N o . 1 徐正光等 : 基于主成分分析

正在加载图片...

Vol.27 No.1 徐正光等：基于主成分分析的核Fisher判别方法在油水识别中的应用 127 下發 (5) 交集部分用Fisher线性判别方法即可以将他们很根据Tracy等人证明的统计量：好的区分开来，交集部分才是要处理的重点. 二F-F%A-) 核Fisher判别方法是通过非线性变换p将原 (6) 特征空间X映射到新的特征空间F,从而在F空式中F(m,n一m)为F分布，根据检验水平a的不同间内应用Fisher线性判别的方法.Fisher:线性判别可由F分布临界值表查得.当方法要求寻找一个线性的投影方向，这可以通过 7乃产积-mn-w (7) 最大化下面目标函数得到时，可以认为在95%的检验水平上，第i个样本点 w)-@S.w wS.w (9) 对成分，，，的贡献过大，即该样本点严重偏式中，w为待求投影方向：S,为类间离散度矩阵，离数据集重心，可将该样本点视为奇异点. S.=(m1一m2)'(m1-m2) (10) 1.2寻找交集 S。为样本类内离散度矩阵，剔除了奇异点后的两类样本集分别记为 (11) X,Y”,样本点个数分别为N,N.假设两类样本集 S。=三r-m,x-m）分布如图1所示. m,为各类样本均值向量： m-7xa1,2) (12) ,为第类样本点个数，且1=1+1.最大化目标函数，式(12)可得： 14 ▣ ▣ )=S(m1一m2) (13) 根据式(12)新的特征空间F内目标函数相应的变图1交集样本点分布示意图为： Fig.I Distribution of samples in intersection wo)=ggu。 (14) wS0. 这里】，Ⅱ两部分是线性可分的，可以很容易 S和5S为别为F中相应的类间离散度矩阵和类内地将他们区分开来，关键是Ⅲ部分，落在该区域离散度矩阵，显然如果F维数很高甚至是无穷维的样本集是两类的交集.显然交集的处理将影响的，直接求解是不可能的.为此，核Fisher判别方整个分类的结果，为此，我们考察落在区域样法应用点积运算解决原始问题，引入Mereer核：本的特点. K(,y)=x)y) (15) 设4为落在皿区域的某个样本点，不妨设式中()为引入的非线性变换.据再生核理论网 u∈X,对新的数据集Z=YU{w),从奇异点的角度仙可表示为：来看，因为4落在交集内，并没有严重偏离新数 w=Σax) (16) 据集Z的重心，因此4不可以视为Z的奇异点. a,为待定系数.将式(16)代入式(14)并用x,)代根据前文所述剔除奇异点的方法，在新的数据集替其中的点积运算经过适当的推导可得，最大化 Z上提取主成分，并计算样本点“的累计贡献目标函数(14)即相当于最大化下式率，设为T?.因为u不是Z的奇异点，因此F检验 J-(a)-a'Ma aTa (17) 不通过，即：式中， a=(a,",a) (18) Tmn-1) ,nn-mFs(m,n-m） (8) M,T分别为系数矩阵，求法如下：这里n=N+1,m为所提取的成分个数. M=(M,-M)(M-M2)r (19) 根据上述思路对每个y,∈Y”,考虑新的数据集 M-含K.W (20) Z=XU},判断y,是否是新数据集的奇异点，同式中，i=1,2j=1,2,,W 样对？内的每个样本点x作同样的处理，判断该 T=T+T: (21) 样本点是否为新数据集的奇异点.通过这种方法 T=KK-N(MM),i=1,2 (22) 选取的所有非奇异点的样本集即为交集其中，K,为核函数矩阵， 1.3在交集内应用核Fisher判别方法倒 (K)=K(x,) (23) 通过前面两步，既剔除了奇异点，又将所有式中，1,2；户1,2，，N;k1,2,…,N:x表示第i类第样本点分为两部分：交集和非交集部分，对于非 k个样本点，VO I . 2 7 N o . 1 徐正光等 : 基于主成分分析的核 Fi s h er 判别方法在油水识别中的应用 1 27 1 票疏 = . 一一一二干乙一犷 n一 1护 1战 ( 5 ) 根据 Tr ac y 等人证明的统计量 : n , ( n 一 m ) m ( n , 一 l ) 刀~ 刀翻 (m , n 一。 ) ( 6 ) 式中凡 ( m , n 一 m ) 为F 分布 , 根据检验水平 a 的不同可由F 分布临界值表查得 . 当 , _ m ( 叮 2一 l 、一 1沪之戒求甜认。 , (m , n 一脚 ) ( 7 ) 时 , 可以认为在 95 % 的检验水平上 , 第 i 个样本点对成分 lt , ` , … , ` 的贡献过大 , 即该样本点严重偏离数据集重心 , 可将该样本点视为奇异点 . 1 .2 寻找交集剔除了奇异点后的两类样本集分别记为双 ’Y , 样本点个数分别为凡 , 从 . 假设两类样本集分布如图 l 所示 . 交集部分用 iF s h e r 线性判别方法即可以将他们很好的区分开来 , 交集部分才是要处理的重点 . 核 iF s he r 判别方法是通过非线性变换 p 将原特征空间 X 映射到新的特征空间 F , 从而在 F 空间内应用 iF s h er 线性判别的方法 . iF s h er 线性判别方法要求寻找一个线性的投影方向 , 这可以通过最大化下面目标函数得到 : 、、口汉田 J L口 ) = 勺口下币 J 万。一田 ( 9 ) 式中 , o, 为待求投影方向 ; 况为类间离散度矩阵 . 况 “ (m , 一 m Z ) T伽 , 一 m Z ) ( 10 ) 凡为样本类内离散度矩阵 , 凡 = Z 艺 (x 一 m J取一脚 1 ) ( 1 1) m ,为各类样本均值向量 : m , 一资x5 ` 乙为第 i 类样本点个数 , 数 , 式 ( 12) 可得 : 卜 1 , 2 ) 且 l = l 、 + 人 ( 12 ) 最大化目标函图 1 交集样本点分布示意图 iF g · 1 D is t ir b u iOt n o f s a m P I e s i n in et sr e e it o n 山 = 凡 , (m l 一 m Z ) ( 13 ) 根据式 ( 12 ) 新的特征空间 F 内目标函数相应的变为 : 成口刁= 仍派货。。 . 二义。 , ( 14 ) 这里 I , n 两部分是线性可分的 , 可以很容易地将他们区分开来 , 关键是 m 部分 , 落在该区域的样本集是两类的交集 . 显然交集的处理将影响整个分类的结果 . 为此 , 我们考察落在 m 区域样本的特点 . 设 u 为落在 n l 区域的某个样本点 , 不妨设 u E X 护, 对新的数据集 Z = r u {u} , 从奇异点的角度来看 , 因为 u 落在交集内 , 并没有严重偏离新数据集 Z 的重心 , 因此 u 不可以视为 Z 的奇异点 . 根据前文所述剔除奇异点的方法 , 在新的数据集 Z 上提取主成分 , 并计算样本点 u 的累计贡献率 , 设为对 . 因为 u 不是 Z 的奇异点 , 因此 F 检验不通过 , 即 : 一州( n Z一 1) 一 1 `气硕牙石了 “ 仍 Lm , n 一 m ) (石) 这里 n = N 乏十 1 , m 为所提取的成分个数 . 根据上述思路对每个笋 E r , 考虑新的数据集 Z 二刃u 伙} , 判穷沙 , 是否是新数据集的奇异点 , 同样对矛内的每个样本点戈作同样的处理 , 判断该样本点是否为新数据集的奇异点 . 通过这种方法选取的所有非奇异点的样本集即为交集 . 1 . 3 在交集内应用核 iF s h e r 判别方法`21 通过前面两步 , 既剔除了奇异点 , 又将所有样本点分为两部分 : 交集和非交集部分 . 对于非酣和义为别为 F 中相应的类间离散度矩阵和类内离散度矩阵 . 显然如果 F 维数很高甚至是无穷维的 , 直接求解是不可能的 . 为此 , 核 iF s he r 判别方法应用点积运算解决原始问题 , 引入 M er e r 核`5 , : 犬〔叽力二必认)劝 0 ) (1 5) 式中必 ( · ) 为引入的非线性变换 . 据再生核理论 ’ 2J 仍 , 可表示为 : 。。二乏久必《斌) ( 16 ) 氏为待定系数 . 将式 ( 16) 代入式 ( 14) 并用犬飞卑 ,力代替其中的点积运算经过适当的推导可得 , 最大化目标函数 ( 14) 即相当于最大化下式 a T向ar J 厂互a , = ~ 一不篇言一 a , a 式中 , a 二 a( l , … , a,) M, T分别为系数矩阵 , 求法如下 : M 二 (Ml 一从) (Ml 一从) T 、一糕、 , “ 式中 , i = l , 2 ; j 二 l , 2 , … , N T 二不十界不二瓦可一茂(鱿研) , i 二 1 , 2 其中 , 式为核函数矩阵 , (Kt 无 * 二州为 , 动式中 , 卜 1 , ;2 =j 1 , 2 , … , ;N =k 1 , 2 , … 万; 减表示第 k 个样本点 . ( 17) ( 1 8) ( 19 ) ( 2 0 ) ( 2 1) ( 2 2 ) ( 2 3) i 类第

<<向上翻页向下翻页>>

点击下载：基于主成分分析的核Fisher判别方法在油水识别中的应用