D0I:10.13374/j.issn1001-053x.2005.01.032 第27卷第1期 北京科技大学学报 Vol.27 No.1 2005年2月 Journal of University of Science and Technology Beijing Feb.2005 基于主成分分析的核Fisher判别方法 在油水识别中的应用 徐正光”王淑盛”刘冀伟”王志良”史立峰) 1)北京科技大学信息工程学院,北京1000832)建筑材料工业信息中心,北京100835 摘要根据测井数据结构复杂和交集严重的特点,将主成分分析思想应用到剔除奇异点和 寻找两类样本的交集中,并在交集中应用核Fisher判别方法,进行油水判别,弥补了Fisher线 性判别方法的不足.通过将主成分分析和核Fisher判别方法这两种理论有机的结合起来,提 高了利用测井数据识别油水层的鉴别能力,实际应用中证明了本方法的实用性和有效性, 关键字主成分分析:奇异点:核 分类号TP29 在油井探测数据中存在两个显著的特点:一 信息量远大于其他样本点提供的信息量,说明这 是数据中存在大量的奇异点,影响模式识别应用 个样本点严重偏离数据集的重心,这正是要寻找 的精度:二是不同类别的样本点之间在分布上存 的奇异点,此做法的目的是剔除奇异点和寻找交 在交集.奇异点远离样本集聚的中心,使得样本 叉集,而主成分分析基本思想不变,具体应用中 集方差加大,也就是说奇异点对数据集信息量的 略作变化,具体方法如下. 贡献率过大,从而影响了分类算法的准确性,降 设Xn×p)为标准化后的p维数据集,p个观 低了识别精度.由于地层的延续性以及油层、水 测量x,x,…,x,构成p维样本点,n为样本点个数 层在物理上的相似性使得两类样本点在分布上 (1)主成分提取. 存在交集,严重地影响到分类算法的准确性,进 ①计算标准化数据矩阵X的协方差矩阵V, 而影响识别精度.鉴于这一实际问题,本文采用 V=1XX (1) 1 主成分分析的思想剔除奇异点寻找交集,在交集 求V的特征值入,i=1,2,,p,并按入,的大小排列, 中利用核Fisher判别方法识别油水层,并将此方 取前m个特征值,≥2之…之入,并计算对应的特 法应用到辽河油田测井数据的含油性分类中,取 征向量a,a2,,4a. 得了满意的结果, ②求第h个主成分,有: 1实现方法 4=Xaa=乞aw,h=l,2,3,… (2) 1 11剔除奇异点 式中,ay是主轴a的第j个分量, 主成分分析是一种统计相关分析技术,在保 ③计算累积方差贡献率, 证信息损失最小的前提下,对原变量空间 EVar(F)=1 (3) x,,,x,进行平移和旋转变换,使得新坐标系的 根据累积方差贡献率大小确定主成分的个数m. 原点与样本点集合的重心重合,新坐标系的第一 (2)剔除奇异.定义第i个样本点对第h主成 轴、第一轴…分别对应数据变异的第一大方向、 分的贡献率为Tm: 第二大方向…,如果把目光放到样本点空间,在 T=m-1) (4) 某个主轴上数据的变异信息是各个样本点在这 式中,n为样本点个数;t为第i个样本点在第h 个方向上:提供信息的总和,若某个样本点提供的 成分上投影的坐标值:s=Var(t.)为第h主成分 收稿日期:2003-10-24修回日期:200404-10 的方差.测算第i个样本点对各成分的累积贡献 基金项目:国家1五攻关项目No.2001BA605A-08-05) 率T: 作者简介:徐正光(1959一,男,副教授,傅士
第 2 7 卷 第 1 期 2 0 0 5 年 2 月 北 京 科 技 大 学 学 报 JO u r n a l o f U n iv e rs i ty o f s e ie n c e a n d 孔c h n o l o gy B e ij i n g V b l . 2 7 N o . l F e b . 2 0 0 5 基 于主成分分析的核 Fi sh er 判别方法 在油水识别 中的应用 徐正 光 ” 王 淑 盛 ” 刘 冀伟 ` , 王 志 良 ” 史 立 峰 ” 川匕京 科技大 学信息 工 程 学院 , 北京 10 0 0 83 2 ) 建筑 材料 工 业信 息 中心 , 北京 10 0 83 5 摘 要 根据 测井 数据 结构 复杂和 交集 严重 的特 点 , 将 主成 分分 析思想 应用 到剔 除奇 异 点和 寻找两类 样本 的交 集 中 , 并在 交集 中应用 核 iF s h er 判别 方法 , 进 行 油水 判别 , 弥补 了 iF hs er 线 性 判别 方法 的不足 . 通过 将主 成分 分析和 核 iF s h er 判别 方法 这两 种理 论有机 的结合起 来 , 提 高 了利用 测井 数据 识别 油水层 的鉴 别能 力 , 实 际 应用 中证 明 了本方 法 的实用 性和 有效 性 . 关键 字 主成 分分 析 ; 奇 异点 : 核 分 类 号 T P 2 9 在油 井探 测数 据 中存 在两 个显 著 的特 点 : 一 是 数据 中存 在大量 的奇 异 点 , 影 响模 式识 别应 用 的精度 ; 三 是不 同 类别 的样 本 点之 间在分 布上 存 在 交集 . 奇异 点远 离 样本 集 聚的 中心 , 使得 样 本 集 方差加 大 , 也就 是说 奇异 点对 数据 集信 息量 的 贡献率 过 大 , 从 而影 响 了分类 算 法 的准确 性 , 降 低 了 识 别精 度 . 由 于 地 层 的延 续 性 以及油 层 、 水 层 在物 理 上 的 相似 性 使得 两 类 样 本 点在 分 布 上 存 在交 集 , 严 重地 影 响到 分类 算 法 的准确 性 , 进 而 影 响识别 精 度 . 鉴 于这 一 实际 问题 , 本文 采 用 主 成分 分析 的思 想 剔 除奇异 点寻 找交 集 , 在交 集 中利用 核 iF s h er 判 别方 法 识别 油水 层 , 并将 此 方 法应 用到 辽 河 油 田 测井 数据 的含 油性 分类 中 , 取 得 了满 意 的结 果 . 信 息量远 大 于其他 样 本点提 供 的信 息量 , 说 明这 个样 本点 严重 偏离 数据 集 的重心 , 这 正 是要 寻找 的奇 异 点 . 此 做法 的 目的 是剔 除奇异 点和寻 找交 叉集 , 而 主成 分 分析 基本 思 想 不变 , 具体 应 用 中 略作 变化 , 具 体方 法 如下 . 设X( n xP ) 为 标 准 化 后 的 p 维 数 据 集 , p 个 观 测量x , , 燕 , … ,鸽 , 构 成尸维样 本 点 , n 为样本 点个数 , ( l) 主 成 分提 取 . ① 计算 标 准化 数据 矩 阵 X 的 协方 差 矩阵 V , F = 」脚 ( l ) 求 F 的特 征值 又 ; , i 二 1 , 2 , … , P , 并 按又 , 的大 小排 列 , 取前 m 个特 征 值 , 之 1七瓜沙 二 之 又, , 并计 算对 应 的特 征 向量 a , , a , , ` ’ ` , a 。 ’ ② 求第 h 个主 成 分武 , 有 : 1 实现 方 法 1 . 1 剔除 奇异 点 主 成 分 分析 是一 种统 计相 关 分析 技术 , 在 保 证 信 息 损 失 最 小 的 前 提 下 , 对 原 变 量 空 间 x l , 长 , … , 戈进行 平移和 旋 转变换 , 使 得新坐 标系 的 原点与样 本 点 集合 的重心 重合 , 新 坐标系 的第 一 轴 、 第 二轴 … … 分别对 应数 据变 异 的第一大 方 向 、 第 二 大方 向 · … … 如果把 目光放到 样本 点空 间 , 在 某 个 主 轴 上 数 据 的变 异 信 息 是各 个 样本 点 在 这 个 方 向 仁提供 信息 的总 和 , 若某 个样 本点提 供 的 收稿 日期 : 2 00 3 一 I住 一 24 修 回 日期 : 2 0 0 4刁今10 基金 项 目 : 国 家 十五 攻 关项 目 ( N 仓 20 01 B A 6 05 A 一 0 8 一 0 5) 作者 简介 : 徐正 光 ( 19 59 一) , 男 , 副教授 , 博 士 汽= Xa 、 = 艺a 匆xj , h = 1 , 2 , 3 , … ( 2 ) 式 中 , 内是 主轴 ah 的第厂个 分 量 . ③ 计算 累积 方 差贡 献 率 . 艺V州E ) = 艺凡 尸 1 得 1 ( 3) 根据 累 积 方差 贡献 率 大 小确 定主 成 分 的个 数 m . (2 ) 易g除 奇异 . 定 义第 i 个样 本 点对 第 h 主 成 分 几 的 贡献 率 为 此 l1[ : _ 瑞 ( n 一 l )减 ( 4 ) 式 中 , n 为样 本 点个 数 ; 八 、 为第 i 个样 本 点在 第 h 成分 上 投影 的坐 标 值 ; 式= V州*)t 为第 h 主 成分 的方 差 . 测算 第 i 个 样本 点 对各 成 分 的累 积 贡献 率厂 : DOI: 10. 13374 /j . issn1001 -053x. 2005. 01. 032
Vol.27 No.1 徐正光等:基于主成分分析的核Fisher判别方法在油水识别中的应用 127 下發 (5) 交集部分用Fisher线性判别方法即可以将他们很 根据Tracy等人证明的统计量: 好的区分开来,交集部分才是要处理的重点. 二F-F%A-) 核Fisher判别方法是通过非线性变换p将原 (6) 特征空间X映射到新的特征空间F,从而在F空 式中F(m,n一m)为F分布,根据检验水平a的不同 间内应用Fisher线性判别的方法.Fisher:线性判别 可由F分布临界值表查得.当 方法要求寻找一个线性的投影方向,这可以通过 7乃产积-mn-w (7) 最大化下面目标函数得到 时,可以认为在95%的检验水平上,第i个样本点 w)-@S.w wS.w (9) 对成分,,,的贡献过大,即该样本点严重偏 式中,w为待求投影方向:S,为类间离散度矩阵, 离数据集重心,可将该样本点视为奇异点. S.=(m1一m2)'(m1-m2) (10) 1.2寻找交集 S。为样本类内离散度矩阵, 剔除了奇异点后的两类样本集分别记为 (11) X,Y”,样本点个数分别为N,N.假设两类样本集 S。=三r-m,x-m) 分布如图1所示. m,为各类样本均值向量: m-7xa1,2) (12) ,为第类样本点个数,且1=1+1.最大化目标函 数,式(12)可得: 14 ▣ ▣ )=S(m1一m2) (13) 根据式(12)新的特征空间F内目标函数相应的变 图1交集样本点分布示意图 为: Fig.I Distribution of samples in intersection wo)=ggu。 (14) wS0. 这里】,Ⅱ两部分是线性可分的,可以很容易 S和5S为别为F中相应的类间离散度矩阵和类内 地将他们区分开来,关键是Ⅲ部分,落在该区域 离散度矩阵,显然如果F维数很高甚至是无穷维 的样本集是两类的交集.显然交集的处理将影响 的,直接求解是不可能的.为此,核Fisher判别方 整个分类的结果,为此,我们考察落在区域样 法应用点积运算解决原始问题,引入Mereer核: 本的特点. K(,y)=x)y) (15) 设4为落在皿区域的某个样本点,不妨设 式中()为引入的非线性变换.据再生核理论网 u∈X,对新的数据集Z=YU{w),从奇异点的角度 仙可表示为: 来看,因为4落在交集内,并没有严重偏离新数 w=Σax) (16) 据集Z的重心,因此4不可以视为Z的奇异点. a,为待定系数.将式(16)代入式(14)并用x,)代 根据前文所述剔除奇异点的方法,在新的数据集 替其中的点积运算经过适当的推导可得,最大化 Z上提取主成分,并计算样本点“的累计贡献 目标函数(14)即相当于最大化下式 率,设为T?.因为u不是Z的奇异点,因此F检验 J-(a)-a'Ma aTa (17) 不通过,即: 式中, a=(a,",a) (18) Tmn-1) ,nn-mFs(m,n-m) (8) M,T分别为系数矩阵,求法如下: 这里n=N+1,m为所提取的成分个数. M=(M,-M)(M-M2)r (19) 根据上述思路对每个y,∈Y”,考虑新的数据集 M-含K.W (20) Z=XU},判断y,是否是新数据集的奇异点,同 式中,i=1,2j=1,2,,W 样对?内的每个样本点x作同样的处理,判断该 T=T+T: (21) 样本点是否为新数据集的奇异点.通过这种方法 T=KK-N(MM),i=1,2 (22) 选取的所有非奇异点的样本集即为交集 其中,K,为核函数矩阵, 1.3在交集内应用核Fisher判别方法倒 (K)=K(x,) (23) 通过前面两步,既剔除了奇异点,又将所有 式中,1,2;户1,2,,N;k1,2,…,N:x表示第i类第 样本点分为两部分:交集和非交集部分,对于非 k个样本点
VO I . 2 7 N o . 1 徐 正光等 : 基 于主成 分分析 的核 Fi s h er 判 别 方法在 油水识 别 中的应 用 1 27 1 票 疏 = . 一一一二干 乙一犷 n一 1护 1战 ( 5 ) 根 据 Tr ac y 等 人证 明 的统 计量 : n , ( n 一 m ) m ( n , 一 l ) 刀~ 刀 翻 (m , n 一 。 ) ( 6 ) 式 中凡 ( m , n 一 m ) 为F 分布 , 根 据检 验 水平 a 的不 同 可 由F 分布 临 界值表 查 得 . 当 , _ m ( 叮 2一 l 、 一 1沪之 戒求甜 认 。 , (m , n 一 脚 ) ( 7 ) 时 , 可 以认 为在 95 % 的检 验水 平上 , 第 i 个 样本 点 对 成分 lt , ` , … , ` 的贡献 过 大 , 即该样 本 点严 重偏 离 数据 集重 心 , 可 将 该样 本 点视 为奇 异 点 . 1 .2 寻找 交 集 剔 除 了 奇 异 点 后 的 两 类 样 本 集 分 别 记 为 双 ’Y , 样 本 点 个数 分别 为凡 , 从 . 假 设 两类 样本集 分 布如 图 l 所 示 . 交集 部分用 iF s h e r 线 性判 别 方法 即可 以将他 们很 好 的 区 分开 来 , 交 集 部分才 是 要 处理 的重 点 . 核 iF s he r 判 别方 法 是通 过非 线性 变 换 p 将 原 特征 空 间 X 映射 到新 的特 征 空 间 F , 从而在 F 空 间 内应用 iF s h er 线性 判 别 的方法 . iF s h er 线 性判 别 方 法要 求寻 找一个 线 性的投 影方 向 , 这可 以通过 最 大 化下 面 目标 函 数 得到 : 、 、 口汉田 J L口 ) = 勺 口 下币 J 万 。一田 ( 9 ) 式 中 , o, 为 待 求投 影方 向 ; 况 为类 间离 散度 矩 阵 . 况 “ (m , 一 m Z ) T伽 , 一 m Z ) ( 10 ) 凡为样 本 类 内离 散度 矩 阵 , 凡 = Z 艺 (x 一 m J取 一 脚 1 ) ( 1 1) m ,为各 类 样本 均值 向量 : m , 一 资x5 ` 乙为第 i 类样 本 点个 数 , 数 , 式 ( 12) 可得 : 卜 1 , 2 ) 且 l = l 、 + 人 ( 12 ) 最 大化 目标 函 图 1 交集 样本 点分布 示 意图 iF g · 1 D is t ir b u iOt n o f s a m P I e s i n in et sr e e it o n 山 = 凡 , (m l 一 m Z ) ( 13 ) 根据 式 ( 12 ) 新 的特 征 空间 F 内 目标 函数相 应 的变 为 : 成口刁= 仍派货。 。 . 二义。 , ( 14 ) 这里 I , n 两 部分 是线 性 可分 的 , 可 以很 容 易 地将 他们 区分开 来 , 关 键 是 m 部 分 , 落在 该 区域 的样本 集 是两类 的交 集 . 显然 交集 的处 理将 影 响 整 个 分类 的 结果 . 为此 , 我 们 考察 落在 m 区 域样 本 的特 点 . 设 u 为落 在 n l 区 域 的某 个样 本 点 , 不妨 设 u E X 护, 对 新 的数据 集 Z = r u {u} , 从 奇异 点 的角度 来看 , 因为 u 落在 交集 内 , 并没 有严 重偏 离新数 据集 Z 的重 心 , 因 此 u 不可 以视 为 Z 的奇 异 点 . 根据前 文所 述剔 除奇 异 点的方 法 , 在新 的数 据集 Z 上 提 取 主 成 分 , 并 计算 样 本 点 u 的 累计 贡 献 率 , 设为 对 . 因 为 u 不 是 Z 的奇 异 点 , 因此 F 检 验 不通 过 , 即 : 一 州( n Z一 1) 一 1 `气 硕牙石了 “ 仍 Lm , n 一 m ) (石) 这 里 n = N 乏十 1 , m 为所 提取 的成分 个 数 . 根 据上 述 思路 对每 个笋 E r , 考 虑新 的 数据集 Z 二刃u 伙} , 判 穷沙 , 是 否是 新数 据 集 的奇 异 点 , 同 样对矛 内的每 个样 本 点戈 作 同样 的 处理 , 判 断 该 样本点是否 为新 数据 集 的奇异 点 . 通过 这种 方法 选取 的所 有 非奇 异 点 的样本 集 即为 交集 . 1 . 3 在 交集 内应 用 核 iF s h e r 判别方 法`21 通 过前 面 两步 , 既剔 除 了奇异 点 , 又 将所 有 样 本 点分 为 两部 分 : 交 集和 非 交集 部 分 . 对 于非 酣和义 为别 为 F 中相应 的类 间离 散度矩 阵和类 内 离散 度矩 阵 . 显然 如 果 F 维数 很 高甚至 是 无 穷维 的 , 直接 求解 是 不可 能的 . 为 此 , 核 iF s he r 判别 方 法应 用 点积 运算 解 决原始 问题 , 引入 M er e r 核`5 , : 犬〔 叽 力二 必认)劝 0 ) (1 5) 式 中 必 ( · ) 为引 入 的非线 性 变换 . 据再 生核 理 论 ’ 2J 仍 , 可 表 示 为 : 。 。 二 乏久 必《斌) ( 16 ) 氏 为待 定 系数 . 将 式 ( 16) 代 入式 ( 14) 并用犬飞卑 ,力 代 替 其 中的 点积运 算经过 适 当 的推 导可 得 , 最大化 目标 函 数 ( 14) 即相 当 于最 大化 下 式 a T向ar J 厂互a , = ~ 一不篇言一 a , a 式 中 , a 二 a( l , … , a,) M, T分 别为 系数 矩 阵 , 求法 如 下 : M 二 (Ml 一 从) (Ml 一从) T 、 一 糕、 , “ 式 中 , i = l , 2 ; j 二 l , 2 , … , N T 二 不十界 不二 瓦可 一茂(鱿研) , i 二 1 , 2 其 中 , 式为 核 函数矩 阵 , (Kt 无 * 二 州为 , 动 式 中 , 卜 1 , ;2 =j 1 , 2 , … , ;N =k 1 , 2 , … 万; 减表 示第 k 个样本 点 . ( 17) ( 1 8) ( 19 ) ( 2 0 ) ( 2 1) ( 2 2 ) ( 2 3) i 类第
·128· 北京科技大学学报 2005年第1期 根据·义Rayleigh商并忽酪比例因子得a=数、多项式核函数和两层神经网络Sigmoidal核函 T(M,-M),特征空间F中任一点在Fisher判定最 数,经过比较对照,在这里选用的是多项式核函 优方向上的投影为w'(x)=∑aKx,x).选取适当 数Kx,x)=(x'x+1Y,其中p取1. =1 的阅值b,可得在新的特征空间F中Fisher判别函 (3)式(23)中阙值b的求取.在这里可以令b- aM+M,在有些文献中曾也用到b= 1 数为: gx)=∑aKx,x+b (24) Ta'M+hM)求得. 1.4方法说明 每次从全部样本集中随机取出部分样本作 应用本方法时首先通过上述介绍的剔除奇 为训练集,用来建立判别准则,再随机取出部分 异点方法剔除整个样本集奇异点,进而应用选择 样本作为测试集,依照上述过程分别做了5次实 交集的方法将剔除奇异点后的样本集分为交集 验,训练集样本点个数和测试集样本点个数都分 部分和非交集部分,在交集部分应用核Fisher判 别为400,600,1000,1400,2000时,其核Fisher判 别方法建立判别函数,而在非交集部分利用传统 别方法识别率分别为99.23%,99.83%,96.98%, Fisher判别方法建立判别函数. 98.73%,95.97%.从中可以看出使用本方法识别 油水层,识别准确率都在95%以上,取得的满意 2应用实例 的效果, 将这种方法应用于解决某油田一研究区的 3结语 油水层识别问题.在18口井的部分井段进行了 试油,取得了4条测井曲线,分别为深侧向电阻 采用主成分分析的思路剔除奇异点,对原始 (RT)、微侧向电阻(RXO)、声波时差(AC)和自然电 信息去伪存真,使测井数据更能反映地质真实特 位(SP).整个过程分为训练过程和判别过程.训 征:通过选取交集作单独处理,进一步增强分类 练过程应用本文所介绍的方法,旨在剔除奇异 器的识别能力,该方法对两类的交集部分采用核 点,选择交集:判别过程中对个待识别样本点 Fisher非线性判别方法,弥补了Fisher线性判别 首先判断它是否落在交集内,如果是则将它代入 方法的不足,并在油水识别实验中取得了满意的 训练过程中建立起来的核Fisher判别函数进行分 效果 类判别,否则应用Fisher判别方法进行分类判别. 参考文献 另外有儿点细节值得注意: (1)各测井曲线单位不统一,为了消除量纲的 】王惠文,偏最小二乘回归分析及其应用,北京:国防工业 出版社,1999.130一184 影响,首先对数据集进行了标准化处理,即: L2)李应,焦李成.基于Fisher判别分析的目标识别.西安电子 x=4x(1,2,,6户1,2,3,4) (25) 科技大学学报,2003,302):167 其中,=三,为第/列的平均值:Wa阳为 [3]Cortes C.Vapnik V N.Support vector networks.Machine Learning.1995,203):273 第列的样本方差、 [4]Tou J T.Gonzadez R C.Pattern Recognition Principle Reading: Addison-Wesley,1974 (2)核函数的选取,常用的核函数有高斯核函 Application of kernel Fisher method based on primary factor analysis to recogni- tion problem between oil layer and water layer XU Zhengguang".WANG Shusheng",LIU Jiwei,WANG Zhiliang",SHI Lifeng" 1)Information Engineering School.University of Science and Technology Beijing,Beijing 100083,China 2)Information Center of Building Material Industry,Beijing 100835,China ABSTRACT The idea of primary component analysis was applied to eliminating the singular point and selecting the intersection of raw log data sets according to the characteristics of raw log data.Then kernel Fisher method was used in the intersection,which remedy the shortcoming of linear differentiate methods.By combining the two meth- od,primary component analysis and kernel Fisher,the differentiate capability was improved and the practicability is testified in application. KEY WORDS primary factor analysis;singular point;kernel Fisher
北 京 科 技 大 学 学 报 2 0 5年 第 1期 根 据 广 义 R ya eil hg 商 并忽 略 比 例 因子 得 a 二 r ’ (抓一 从 ) , 特征 空 间 F 中任 一点 在 iF s h er 判 定 最 优 方 向上 的投 影 为` T中伽) 一 冬 a 月不 , x ) · 选 取适 当 的闽值 b , 可得 在 新 的特 征 空 间 F 中 iF s he r 判别 函 数 为 : 尔无) = 芝a 月奔 潇, x) +b ( 2 4 ) 1 .4 方法 说 明 应 用 本 方 法 时 首先 通 过 上 述 介 绍 的剔 除奇 异 点方法剔 除整 个样 本集 奇异 点 , 进而 应用 选择 交 集 的方 法将 剔 除 奇 异 点后 的 样 本集 分 为 交集 部分 和 非交集 部分 , 在交 集 部分 应用 核 iF s h e r 判 别方 法建 立判 别 函数 , 而 在 非交集 部分 利用 传统 iF hs er 判 别方 法建 立判 别 函 数 . 2 应 用 实 例 将这 种 方 法 应 用 于 解 决某 油 田 一 研 究 区 的 油 水层 识 别 问题 . 在 18 口 井 的部 分井 段进 行 了 试 油 , 取得 了 4 条测 井 曲线 , 分别 为深 侧 向 电阻 (RT ) 、 微 侧 向 电阻 (R X O ) 、 声 波 时差 (A C )和 自然 电 位 ( S )P . 整 个过 程 分为 训练 过程 和 判 别过程 . 训 练 过 程应 用 本 文所 介绍 的 方法 , 旨在 剔 除奇 异 点 , 选择 交 集 : 判别 过 程 中对 一 个 待识 别 样本 点 首 先判 断它 是 否落在 交集 内 , 如果 是则 将它代 入 训练 过程 中建立 起来 的核 iF hs er 判 别 函 数进 行分 类 判 别 , 否 则应 用 iF s he r 判 别 方法进 行 分类判 别 . 另外 有儿 点细 节 值得 注 意 : ( 1) 各 测井 曲线 单位 不统 一 为 了消除量 纲 的 影 响 , 首先 对数 据 集进 行 了标准 化 处 理 , 即 : 式一 罕 (拼 ` , 2 , 一 `; 、 ` , 2 , 3 , 4 ) ( 2 5 ) 其 中 , 、 一 令熟 , 为 第、列 的平 均值 ; =sj 万藏刁 为 第Z歹d的样 本 方差 、 (2 ) 核 函数 的选 取 . 常用 的核 函 数 有高 斯核 函 数 、 多项 式 核函 数 和两 层神 经 网 络 iS gm io da l 核 函 数 . 经 过 比较 对 照 , 在 这里 选 用 的是 多项 式 核 函 数 川义 百, x) = (x ` x 汁 1丫 , 其 中P 取 1 . ( 3) 式 ( 23 ) 中 闽值 b 的求 取 , 在这 里 可 以令 b = 一 静 T ( , + 二 ) , 在 有 些 文 献 中 曾 也 用 到。 - 一 静呱 , 十、二 ) 求 得 . 每 次 从 全 部样 本集 中 随机 取 出部 分 样 本 作 为训 练集 , 用 来建 立判 别准 则 , 再 随机 取 出部 分 样 本 作为 测 试集 , 依照 上述 过程 分 别做 了 5 次实 验 , 训练 集样 本 点个数 和测 试集 样本 点 个数都 分 别 为 4 0 0 , 60 0 , 1 0 0 0 , 1 4 0 0 , 2 0 0 0 时 , 其 核 F i s h e r 判 别方 法 识 别率 分 别 为 9 .2 3% , 9 . 83 % , % . 98 % , 98 . 73 % , 95 . 97 % . 从 中可 以看 出使用 本 方 法 识别 油水 层 , 识 别准 确 率都 在 9 5% 以上 , 取得 的满 意 的 效果 . 3 结 语 采用 主成 分 分析 的 思路 剔除 奇 异 点 , 对 原 始 信息去伪 存 真 , 使测 井数 据更 能反 映地 质真 实特 征 ; 通过 选取 交 集 作单 独 处理 , 进 一 步 增 强分类 器 的识 别 能力 . 该方 法对 两类 的 交集 部分采 用 核 F i s h e r 非线 性判 别 方法 , 弥补 了 F i s h e r 线性 判 别 方 法 的不足 , 并在 油水识 别 实验 中取 得 了 满意 的 效 果 . 参 考 文 献 【1 王 惠文 . 偏最 小二 乘 回归分析 及其 应用 . 北京 : 国防 工 业 出版 社 , 19 9 9 13 0 ~一 1 84 2[] 李应 , 焦李 成 . 基 于 iF hs er 判 别分 析的 目标 识别 . 西安 电 子 科技 大 学学报 , 2 0 0 3 , 30 ( 2 ) : 16 7 [ 31 C o zte s C , 喃p n 止 V N . s u P p o rt v e e t o r n e tw ork s . M a e 七恤e L e a rn i n g , 19 9 5 , 20 ( 3 ) : 2 73 [4 ] oT u J T, G o n aZ d e z R C . p at enr R e e o gn i ti o n P r i n e iP l e R e ad ign : A d d i s o n一 认七s lcy, 19 7 4 PA P li e a ti o n o f k e nr e l Fi s h er m e ht o d b a s e d o n P r im a yr af e t o r an a l y s i s t o er c o g n i - t i o n P r o b l e m b e wt e e n 0 11 lay e r an d w aet r lay er 刃乙 ) hZ e 刀皮洲 an g ` ) , 恻刃 G hS us he gn l) , LI U J iw iel 气恻刃G hZ il ia gn l) , S阴 L 诉心 , l ) I n fo mr at i o n Egn in e e r l ll g S e h o o l , U n i v眺ity o f s e i en c e an d eT c hn o l o gy B e ij in g , B e ij in g l 0 0 0 8 3 , C h i n a 2 ) I n of rm at i o n C e n t e r o f B u il d吨 劫a t e r i a l I n d u s tly, B e ij in g 10 0 8 3 5 , C h in a A B S T RA C T hT e ide a o f P n m娜 e o m Pon ent an ly s i s w as a p P l i e d t o e l而i n at ign ht e s in g u 1ar P o iin an d s e l e c t ign ht e i in e r s e e t i o n o f ar w l o g dat a s e t s a e c o dr ign t o ht e e h ar e t e ir s t i e s o f r a w l o g d a ta . hT e n k e me I Fi s h e r m het o d w a s u s e d i n ht e i n t e r s e e t i o n , hw i e h er m e街 t h e s h o rt e o m i n g o f line ar d i fe r e n t i aet m e t h 0 ds . B y c o m b i n i n g het wt o m het - o d , Pir m ayr e o mP o ne nt an a ly s i s 阳 d ke me l F i s he ’r het id 月七r e n ti at e e aP ab iliyt aws I m P r o v e d an d het Par e t i c ab i li ty 1 5 t e s it if e d i n ap P l i e at i o n . K E Y W O R D S P ir m a yr af e t o r an a l y s i s : s in g u lar P o iin : ke m e l F i s h e r