正在加载图片...
第1期 张多,等:基于支持向量机和有序聚类的岩层识别 ·99· 之间的对应关系。其根据有限的样本信息在模型的 aL =0→w= 复杂性(即对特定训练样本的学习精度)和学习能 aw ay9(x:) =1 力(即无错误识别任意样本的能力)之间寻求最佳 aL 折衷,以获得最好的分类能力。目前,该算法被 =0→∑ay:=0 (2) ab 广泛应用于文本分类、图像分类、基因分析、字符识 aL 别、人脸识别等领域。相对于许多传统的分类 a0 =0→a:[y.(w·p(x:)+b)-1]=0 器,如参数估计和神经网络,它不仅有完善的理论支 根据式(1)和式(2)的约束条件,可转化成对偶 持,而且表现出良好的分类性能和推广能力,是一种 问题为 专门针对有限样本分类的方法。SVM在很大程度 max 上解决了非线性、高维数以及局部极值等问题。 ,-号Σa,4K(x i=1 近年来,更多的研究者开始致力于支持向量机对岩 a≥0,i=1,2,…,n 层识别的研究。宋延杰等[6选取大庆油田中7口 井的探井曲线资料作为样本数据,并依据先验经验, a-0 i=1 人为选取部分样本数据作为训练集,然后利用学习 这是一个二次函数极值问题,故存在惟一解。 后的支持向量机预测岩层。赵军等)利用P油田 若a:为最优解,则有 18口井的解释结果,筛选出训练集和测试集,验证 w·=∑ay,e(x) 支持向量机在岩层识别中的有效性。文政等劉利 用同地区5口井的样本数据对支持向量机进行训 式中:a:是不为零的样本,称为支持向量。b°是分 练,并对剩余样本进行预测验证。然而,上述研究没 类阈值,可由约束条件a:[y.(w·p(x:)+b)-1]= 有给出提取训练样本的具体方法,训练样本的选取 0求解。 解得上述问题后可得到二分类最优分类函数为 依赖于先验经验或周边已知分层情况井的数据样 本。为了克服支持向量机方法在岩层识别问题中的 fx)=sgn(∑aiy,K(E,x)+6) 这种弊端,本文提出了一种基于有序聚类的支持向 i-l 式中:K(x,x)为核函数。 量机算法对岩层进行识别。 1.2有序聚类算法 1 相关理论 有序聚类算法是多元统计分析中针对有序样本 的一种统计分类方法。其基本思想是:首先将待分 1.1支持向量机 类的n个样本看作1类,然后根据离差平方和类内 支持向量机的基本思想是寻找一个超平面,将 最小以及类间最大准则分为2类、3类…一直到 属于2个不同类别的样本无误地分开,且分类间隙 所需的k类为止。 要最大。对于非线性问题,可以通过非线性映射p: 假设每个样本有m个特征指标,则n个样本形 R'→H把数据从原空间(R)映射到某个高维空 成的数据矩阵如下: 间(H)里,在变换空间求最优分类面。 X11 x12 +31m 对于非线性样本集: X21 22 44 T={(x1,y1),(x2,y2),…,(x.yn)} X=(xg)nxm= 式中:x:∈R为N维向量,y:∈{1,-1}。在高维 Xnl Xn2 空间中,则存在最优分类面: 式中:元素x,表示第i个样本第j个特征指标值。 (9(x),w)+b=0 首先利用这些特征指标值计算层内变差矩阵 满足条件: D=(dg)nxa,其中: mino(w)=2(w·w) 4=Σke-01,1≤i≤j≤n g=i B y:(p(x),w)+b≥1,i=1,2,…,n(1) 式(1)是凸二次优化问题,引入拉格朗日函数: 6=[/G-i+1)]2eB=1,2,…,m 在三 wba=IwP-含awpx)+b》-l 然后记b(n,k)是有序样本分为k层的某一种 方法,则其层内离差平方和为L[b(n,k)]。当 式中:a:≥0为拉格朗日乘子。为求L(w,b,a)的 L[b(n,)]越小,即各层间的离差平方和越小,分 最小值,分别对wb、a求偏导,得 层就越合理。要使L[b(n,k)]达到极小值的分法,之间的对应关系。 其根据有限的样本信息在模型的 复杂性(即对特定训练样本的学习精度)和学习能 力(即无错误识别任意样本的能力)之间寻求最佳 折衷,以获得最好的分类能力[10] 。 目前,该算法被 广泛应用于文本分类、图像分类、基因分析、字符识 别、人脸识别等领域[11] 。 相对于许多传统的分类 器,如参数估计和神经网络,它不仅有完善的理论支 持,而且表现出良好的分类性能和推广能力,是一种 专门针对有限样本分类的方法。 SVM 在很大程度 上解决了非线性、高维数以及局部极值等问题[12] 。 近年来,更多的研究者开始致力于支持向量机对岩 层识别的研究。 宋延杰等[6] 选取大庆油田中 7 口 井的探井曲线资料作为样本数据,并依据先验经验, 人为选取部分样本数据作为训练集,然后利用学习 后的支持向量机预测岩层。 赵军等[7] 利用 P 油田 18 口井的解释结果,筛选出训练集和测试集,验证 支持向量机在岩层识别中的有效性。 文政等[8] 利 用同地区 5 口井的样本数据对支持向量机进行训 练,并对剩余样本进行预测验证。 然而,上述研究没 有给出提取训练样本的具体方法,训练样本的选取 依赖于先验经验或周边已知分层情况井的数据样 本。 为了克服支持向量机方法在岩层识别问题中的 这种弊端,本文提出了一种基于有序聚类的支持向 量机算法对岩层进行识别。 1 相关理论 1.1 支持向量机 支持向量机的基本思想是寻找一个超平面,将 属于 2 个不同类别的样本无误地分开,且分类间隙 要最大。 对于非线性问题,可以通过非线性映射 φ: R N → H 把数据从原空间 (R N ) 映射到某个高维空 间 (H) 里,在变换空间求最优分类面。 对于非线性样本集: T = {(x1 ,y1 ),(x2 ,y2 ),…,(xn ,yn )} 式中: xi ∈ R N 为 N 维向量, yi ∈ {1, - 1} 。 在高维 空间中,则存在最优分类面: (φ(x),w) + b = 0 满足条件: min φ(w) = 1 2 (w·w) yi(φ(xi),w) + b ≥ 1, i = 1,2,…,n (1) 式(1)是凸二次优化问题,引入拉格朗日函数: L(w,b,a) = 1 2 ‖w‖2 -∑ n i = 1 ai[yi(w·φ(xi) + b) - 1] 式中: ai ≥ 0 为拉格朗日乘子。 为求 L(w,b,a) 的 最小值,分别对 w、b、a 求偏导,得 ∂L ∂w = 0⇒w = ∑ n i = 1 ai yiφ(xi) ∂L ∂b = 0⇒∑ n i = 1 ai yi = 0 ∂L ∂ai = 0⇒ai[yi(w·φ(xi) + b) - 1] = 0 ì î í ï ï ï ï ï ï ïï (2) 根据式(1)和式(2)的约束条件,可转化成对偶 问题为 max∑ n i = 1 ai - 1 2 ∑ n i,j = 1 aiaj yi yjK(xi·xj), ai ≥ 0,i = 1,2,…,n ∑ n i = 1 ai yi = 0 ì î í ï ï ï ï ï ï 这是一个二次函数极值问题,故存在惟一解。 若 a ∗ i 为最优解,则有 w ∗ = ∑ n i = 1 a ∗ i yiφ(xi) 式中: a ∗ i 是不为零的样本,称为支持向量。 b ∗ 是分 类阈值,可由约束条件 ai[yi(w·φ(xi) + b) - 1] = 0 求解。 解得上述问题后可得到二分类最优分类函数为 f(x) = sgn(∑ n i = 1 a ∗ i yiK(xi,x) + b ∗ ) 式中: K(xi,x) 为核函数。 1.2 有序聚类算法 有序聚类算法是多元统计分析中针对有序样本 的一种统计分类方法。 其基本思想是:首先将待分 类的 n 个样本看作 1 类,然后根据离差平方和类内 最小以及类间最大准则分为 2 类、3 类……一直到 所需的 k 类为止。 假设每个样本有 m 个特征指标,则 n 个样本形 成的数据矩阵如下: X = (xij)n×m = x11 x12 … x1m x21 x22 … x2m ︙ ︙ ︙ ︙ xn1 xn2 … xnm é ë ê ê ê ê ê ù û ú ú ú ú ú 式中:元素 xij 表示第 i 个样本第 j 个特征指标值。 首先利用这些特征指标值计算层内变差矩阵 D = (dij)n×n , 其中: dij = ∑ j α = i∑ m β xαβ - xβ [ (i,j) ] 2 ,1 ≤ i ≤ j ≤ n xβ (i,j) = [1 / (j - i + 1) ] ∑ j α = i xαβ ,β = 1,2,…,m 然后记 b(n,k) 是有序样本分为 k 层的某一种 方法, 则 其 层 内 离 差 平 方 和 为 L [b (n,k) ] 。 当 L [b (n,k) ] 越小,即各层间的离差平方和越小,分 层就越合理。 要使 L [b (n,k) ] 达到极小值的分法, 第 1 期 张多,等:基于支持向量机和有序聚类的岩层识别 ·99·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有