正在加载图片...
Vol.27 No.1 徐正光等:基于主成分分析的核Fisher判别方法在油水识别中的应用 127 下發 (5) 交集部分用Fisher线性判别方法即可以将他们很 根据Tracy等人证明的统计量: 好的区分开来,交集部分才是要处理的重点. 二F-F%A-) 核Fisher判别方法是通过非线性变换p将原 (6) 特征空间X映射到新的特征空间F,从而在F空 式中F(m,n一m)为F分布,根据检验水平a的不同 间内应用Fisher线性判别的方法.Fisher:线性判别 可由F分布临界值表查得.当 方法要求寻找一个线性的投影方向,这可以通过 7乃产积-mn-w (7) 最大化下面目标函数得到 时,可以认为在95%的检验水平上,第i个样本点 w)-@S.w wS.w (9) 对成分,,,的贡献过大,即该样本点严重偏 式中,w为待求投影方向:S,为类间离散度矩阵, 离数据集重心,可将该样本点视为奇异点. S.=(m1一m2)'(m1-m2) (10) 1.2寻找交集 S。为样本类内离散度矩阵, 剔除了奇异点后的两类样本集分别记为 (11) X,Y”,样本点个数分别为N,N.假设两类样本集 S。=三r-m,x-m) 分布如图1所示. m,为各类样本均值向量: m-7xa1,2) (12) ,为第类样本点个数,且1=1+1.最大化目标函 数,式(12)可得: 14 ▣ ▣ )=S(m1一m2) (13) 根据式(12)新的特征空间F内目标函数相应的变 图1交集样本点分布示意图 为: Fig.I Distribution of samples in intersection wo)=ggu。 (14) wS0. 这里】,Ⅱ两部分是线性可分的,可以很容易 S和5S为别为F中相应的类间离散度矩阵和类内 地将他们区分开来,关键是Ⅲ部分,落在该区域 离散度矩阵,显然如果F维数很高甚至是无穷维 的样本集是两类的交集.显然交集的处理将影响 的,直接求解是不可能的.为此,核Fisher判别方 整个分类的结果,为此,我们考察落在区域样 法应用点积运算解决原始问题,引入Mereer核: 本的特点. K(,y)=x)y) (15) 设4为落在皿区域的某个样本点,不妨设 式中()为引入的非线性变换.据再生核理论网 u∈X,对新的数据集Z=YU{w),从奇异点的角度 仙可表示为: 来看,因为4落在交集内,并没有严重偏离新数 w=Σax) (16) 据集Z的重心,因此4不可以视为Z的奇异点. a,为待定系数.将式(16)代入式(14)并用x,)代 根据前文所述剔除奇异点的方法,在新的数据集 替其中的点积运算经过适当的推导可得,最大化 Z上提取主成分,并计算样本点“的累计贡献 目标函数(14)即相当于最大化下式 率,设为T?.因为u不是Z的奇异点,因此F检验 J-(a)-a'Ma aTa (17) 不通过,即: 式中, a=(a,",a) (18) Tmn-1) ,nn-mFs(m,n-m) (8) M,T分别为系数矩阵,求法如下: 这里n=N+1,m为所提取的成分个数. M=(M,-M)(M-M2)r (19) 根据上述思路对每个y,∈Y”,考虑新的数据集 M-含K.W (20) Z=XU},判断y,是否是新数据集的奇异点,同 式中,i=1,2j=1,2,,W 样对?内的每个样本点x作同样的处理,判断该 T=T+T: (21) 样本点是否为新数据集的奇异点.通过这种方法 T=KK-N(MM),i=1,2 (22) 选取的所有非奇异点的样本集即为交集 其中,K,为核函数矩阵, 1.3在交集内应用核Fisher判别方法倒 (K)=K(x,) (23) 通过前面两步,既剔除了奇异点,又将所有 式中,1,2;户1,2,,N;k1,2,…,N:x表示第i类第 样本点分为两部分:交集和非交集部分,对于非 k个样本点,VO I . 2 7 N o . 1 徐 正光等 : 基 于主成 分分析 的核 Fi s h er 判 别 方法在 油水识 别 中的应 用 1 27 1 票 疏 = . 一一一二干 乙一犷 n一 1护 1战 ( 5 ) 根 据 Tr ac y 等 人证 明 的统 计量 : n , ( n 一 m ) m ( n , 一 l ) 刀~ 刀 翻 (m , n 一 。 ) ( 6 ) 式 中凡 ( m , n 一 m ) 为F 分布 , 根 据检 验 水平 a 的不 同 可 由F 分布 临 界值表 查 得 . 当 , _ m ( 叮 2一 l 、 一 1沪之 戒求甜 认 。 , (m , n 一 脚 ) ( 7 ) 时 , 可 以认 为在 95 % 的检 验水 平上 , 第 i 个 样本 点 对 成分 lt , ` , … , ` 的贡献 过 大 , 即该样 本 点严 重偏 离 数据 集重 心 , 可 将 该样 本 点视 为奇 异 点 . 1 .2 寻找 交 集 剔 除 了 奇 异 点 后 的 两 类 样 本 集 分 别 记 为 双 ’Y , 样 本 点 个数 分别 为凡 , 从 . 假 设 两类 样本集 分 布如 图 l 所 示 . 交集 部分用 iF s h e r 线 性判 别 方法 即可 以将他 们很 好 的 区 分开 来 , 交 集 部分才 是 要 处理 的重 点 . 核 iF s he r 判 别方 法 是通 过非 线性 变 换 p 将 原 特征 空 间 X 映射 到新 的特 征 空 间 F , 从而在 F 空 间 内应用 iF s h er 线性 判 别 的方法 . iF s h er 线 性判 别 方 法要 求寻 找一个 线 性的投 影方 向 , 这可 以通过 最 大 化下 面 目标 函 数 得到 : 、 、 口汉田 J L口 ) = 勺 口 下币 J 万 。一田 ( 9 ) 式 中 , o, 为 待 求投 影方 向 ; 况 为类 间离 散度 矩 阵 . 况 “ (m , 一 m Z ) T伽 , 一 m Z ) ( 10 ) 凡为样 本 类 内离 散度 矩 阵 , 凡 = Z 艺 (x 一 m J取 一 脚 1 ) ( 1 1) m ,为各 类 样本 均值 向量 : m , 一 资x5 ` 乙为第 i 类样 本 点个 数 , 数 , 式 ( 12) 可得 : 卜 1 , 2 ) 且 l = l 、 + 人 ( 12 ) 最 大化 目标 函 图 1 交集 样本 点分布 示 意图 iF g · 1 D is t ir b u iOt n o f s a m P I e s i n in et sr e e it o n 山 = 凡 , (m l 一 m Z ) ( 13 ) 根据 式 ( 12 ) 新 的特 征 空间 F 内 目标 函数相 应 的变 为 : 成口刁= 仍派货。 。 . 二义。 , ( 14 ) 这里 I , n 两 部分 是线 性 可分 的 , 可 以很 容 易 地将 他们 区分开 来 , 关 键 是 m 部 分 , 落在 该 区域 的样本 集 是两类 的交 集 . 显然 交集 的处 理将 影 响 整 个 分类 的 结果 . 为此 , 我 们 考察 落在 m 区 域样 本 的特 点 . 设 u 为落 在 n l 区 域 的某 个样 本 点 , 不妨 设 u E X 护, 对 新 的数据 集 Z = r u {u} , 从 奇异 点 的角度 来看 , 因为 u 落在 交集 内 , 并没 有严 重偏 离新数 据集 Z 的重 心 , 因 此 u 不可 以视 为 Z 的奇 异 点 . 根据前 文所 述剔 除奇 异 点的方 法 , 在新 的数 据集 Z 上 提 取 主 成 分 , 并 计算 样 本 点 u 的 累计 贡 献 率 , 设为 对 . 因 为 u 不 是 Z 的奇 异 点 , 因此 F 检 验 不通 过 , 即 : 一 州( n Z一 1) 一 1 `气 硕牙石了 “ 仍 Lm , n 一 m ) (石) 这 里 n = N 乏十 1 , m 为所 提取 的成分 个 数 . 根 据上 述 思路 对每 个笋 E r , 考 虑新 的 数据集 Z 二刃u 伙} , 判 穷沙 , 是 否是 新数 据 集 的奇 异 点 , 同 样对矛 内的每 个样 本 点戈 作 同样 的 处理 , 判 断 该 样本点是否 为新 数据 集 的奇异 点 . 通过 这种 方法 选取 的所 有 非奇 异 点 的样本 集 即为 交集 . 1 . 3 在 交集 内应 用 核 iF s h e r 判别方 法`21 通 过前 面 两步 , 既剔 除 了奇异 点 , 又 将所 有 样 本 点分 为 两部 分 : 交 集和 非 交集 部 分 . 对 于非 酣和义 为别 为 F 中相应 的类 间离 散度矩 阵和类 内 离散 度矩 阵 . 显然 如 果 F 维数 很 高甚至 是 无 穷维 的 , 直接 求解 是 不可 能的 . 为 此 , 核 iF s he r 判别 方 法应 用 点积 运算 解 决原始 问题 , 引入 M er e r 核`5 , : 犬〔 叽 力二 必认)劝 0 ) (1 5) 式 中 必 ( · ) 为引 入 的非线 性 变换 . 据再 生核 理 论 ’ 2J 仍 , 可 表 示 为 : 。 。 二 乏久 必《斌) ( 16 ) 氏 为待 定 系数 . 将 式 ( 16) 代 入式 ( 14) 并用犬飞卑 ,力 代 替 其 中的 点积运 算经过 适 当 的推 导可 得 , 最大化 目标 函 数 ( 14) 即相 当 于最 大化 下 式 a T向ar J 厂互a , = ~ 一不篇言一 a , a 式 中 , a 二 a( l , … , a,) M, T分 别为 系数 矩 阵 , 求法 如 下 : M 二 (Ml 一 从) (Ml 一从) T 、 一 糕、 , “ 式 中 , i = l , 2 ; j 二 l , 2 , … , N T 二 不十界 不二 瓦可 一茂(鱿研) , i 二 1 , 2 其 中 , 式为 核 函数矩 阵 , (Kt 无 * 二 州为 , 动 式 中 , 卜 1 , ;2 =j 1 , 2 , … , ;N =k 1 , 2 , … 万; 减表 示第 k 个样本 点 . ( 17) ( 1 8) ( 19 ) ( 2 0 ) ( 2 1) ( 2 2 ) ( 2 3) i 类第
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有