· 838 · 北京科技大学学报第 3_中国高校课件下载中心

正在加载图片...

·838 北京科技大学学报第35卷是近年发展起来的一种新的数据挖掘方法，并且约束条件为：被认为是针对小样本的分类、回归问题的最佳方 -f(x)≤e+5, 法4-司.矿体品位空间插值问题可看作是对采样品 f(r)-≤e+, (4) 位数据及其各个影响属性间复杂的非线性函数关系 E,5≥0. 的逼近问题，因此可考虑将支持向量机方法应用到矿体品位空间插值问题的研究中6-). 式(3)中，e为一正常数，f(x)-l<e时不计入然而，在支持向量机方法的实际应用中，关于误差，f(x)-l>e时误差计为f(x)-hl-e. 参数的选取问题目前主要是靠经验或者反复试验，通过采用拉格朗日乘数法，引入核函数其选取具有一定的主观性和随意性，一定程度上影 K(z,x)及拉格朗日乘子a:和aj,得到优化问响了支持向量机模型的推广能力，因此有必要探寻题的对偶形式：一种较为合理的参数寻优方法.本文在分析支持向量机各参数对其性能影响的基础上，采用遗传算法 max W(a,a)=-1 ∑(a-a)(a-a)K(c,x)- i,=1 (genetic algorithm,GA)对支持向量机进行参数寻优.利用遗传算法的全局搜索能力，将支持向量 (5) 机参数选取进行自动优化确定，为解决支持向量机 (+i)+(-oi). i=1 参数选取问题提供了有效途径.因此本文主要研究其中：基于遗传算法参数优化的支持向量机（以下简称为 w=∑ai-a4)(r), (6) GA-SVM矿体品位插值问题. i=1 0≤ai,a≤C,i=1,2,…,l. (7) 1支持向量机且对于任何i=1,2,…,l,a×a=0. 1.1支持向量机回归模型从而，构造的决策函数为支持向量机是Vapnik等提出的统计学习方法倒.与传统统计学方法相比，统计学习着重研究 fx)=∑ai-a)K(z,x)+b. (8) i=l 有限样本情况下的统计规律和学习方法.支持向量机的核心是支持向量，其基本思想是升维和线性化. 其中b按下式计算：通过非线性映射，把样本空间映射到一个高维特征 b=-e- 空间，然后求取最优线性分类面，寻求最优回归超 ∑a-aK(e,,a∈(0，C):(⑨ i= 平面问题转化为求解一个二次凸规划问题，来求得全局最优解9-10. b=h+e-∑(a-a)K(z,x),a∈(0，C).(10) 由于本文的矿体品位空间插值是回归问题，可 i=1 采用e-SVR(support vector regression,SVR)算法来式(8)便是采用支持向量机回归方法最终确定实现.e-SVR回归原理为如下. 的非线性回归函数.通过支持向量或采用平均值方给定训练集x1=z,x,xT∈R3,∈R,其法计算出b值，便可将其应用到矿体品位插值问题中i=1,2,…,l,构造回归函数为中 1.2支持向量机参数对模型性能的影响 f(x)=wo(x)+b. (1) 在支持向量机回归方法中，有三个关键的参支持向量机求解问题的关键是寻找最小，等价于数，即惩罚系数C、不敏感系数ε和核函数参数 σ.这三个参数的选择效果直接影响支持向量机性求最小化，因此可以将求解最小w的问题表示成凸优化问题：能，因此需要寻找合适的参数值，以使支持向量机具有更好的推广能力叫. min: (2) (1)惩罚参数C可使模型复杂度和训练误差之间达到一种折中.参数C的选取一般视具体问题而考虑到拟合误差情况，引入惩罚因子C以及松弛因定.当参数C取值趋小时，对样本数据中超出不敏子、，此凸优化问题即为最小化：感带的样本惩罚也趋小，同时训练误差变大，系统 1 的推广能力变差，出现“欠学习”现象；当C取值 Ru,)=2“w+C∑&+). (3) 趋大时，则出现“过学习”现象· 838 · 北京科技大学学报第 35 卷是近年发展起来的一种新的数据挖掘方法，并且被认为是针对小样本的分类、回归问题的最佳方法[4−5] . 矿体品位空间插值问题可看作是对采样品位数据及其各个影响属性间复杂的非线性函数关系的逼近问题，因此可考虑将支持向量机方法应用到矿体品位空间插值问题的研究中[6−7] . 然而，在支持向量机方法的实际应用中，关于参数的选取问题目前主要是靠经验或者反复试验，其选取具有一定的主观性和随意性，一定程度上影响了支持向量机模型的推广能力，因此有必要探寻一种较为合理的参数寻优方法. 本文在分析支持向量机各参数对其性能影响的基础上，采用遗传算法 (genetic algorithm, GA) 对支持向量机进行参数寻优. 利用遗传算法的全局搜索能力，将支持向量机参数选取进行自动优化确定，为解决支持向量机参数选取问题提供了有效途径. 因此本文主要研究基于遗传算法参数优化的支持向量机 (以下简称为 GA-SVM) 矿体品位插值问题. 1 支持向量机 1.1 支持向量机回归模型支持向量机是 Vapnik 等提出的统计学习方法[8] . 与传统统计学方法相比，统计学习着重研究有限样本情况下的统计规律和学习方法. 支持向量机的核心是支持向量，其基本思想是升维和线性化. 通过非线性映射，把样本空间映射到一个高维特征空间，然后求取最优线性分类面，寻求最优回归超平面问题转化为求解一个二次凸规划问题，来求得全局最优解[9−10] . 由于本文的矿体品位空间插值是回归问题，可采用 ε-SVR (support vector regression, SVR) 算法来实现. ε- SVR 回归原理为如下. 给定训练集 xi = [x 1 i , x2 i , x3 i ] T ∈ R3 , yi ∈ R，其中 i = 1, 2, · · · , l，构造回归函数为 f(x) = ωφ(x) + b. (1) 支持向量机求解问题的关键是寻找最小 ω，等价于求最小化 kωk 2，因此可以将求解最小 ω 的问题表示成凸优化问题： min : 1 2 kωk 2 . (2) 考虑到拟合误差情况，引入惩罚因子 C 以及松弛因子 ξi、ξ ∗ i ，此凸优化问题即为最小化： R(ω, ξ, ξ∗ ) = 1 2 ω · ω + C X l i=1 (ξi + ξ ∗ i ). (3) 约束条件为：    yi − f(xi) 6 ε + ξi , f(xi) − yi 6 ε + ξ ∗ i , ξi , ξ∗ i > 0. (4) 式 (3) 中，ε 为一正常数，|f(xi) − yi | < ε 时不计入误差，|f(xi) − yi | > ε 时误差计为 |f(xi) − yi | − ε. 通过采用拉格朗日乘数法，引入核函数 K(xi , xj ) 及拉格朗日乘子 αi 和 αj，得到优化问题的对偶形式： max : W(α, α∗ ) = − 1 2 X l i,j=1 (αi − α ∗ i )(αj−α ∗ j )K(xi , xj )− ε X l i=1 (αi + α ∗ i ) +X l i=1 yi(αi − α ∗ i ). (5) 其中： ω = X l i=1 (αi − α ∗ i )φ(xi), (6) 0 6 αi , α∗ i 6 C, i = 1, 2, · · · , l. (7) 且对于任何 i=1,2,· · ·，l, αi × α ∗ i = 0. 从而，构造的决策函数为 f(x) = X l i=1 (αi − α ∗ i )K(x, xi) + b. (8) 其中 b 按下式计算： b = yi − ε − X l i=1 (αi − α ∗ i )K(x, xi), αi ∈ (0, C); (9) b = yi + ε − X l i=1 (αi − α ∗ i )K(x, xi), αi ∈ (0, C). (10) 式 (8) 便是采用支持向量机回归方法最终确定的非线性回归函数. 通过支持向量或采用平均值方法计算出 b 值，便可将其应用到矿体品位插值问题中. 1.2 支持向量机参数对模型性能的影响在支持向量机回归方法中，有三个关键的参数，即惩罚系数 C、不敏感系数 ε 和核函数参数 σ. 这三个参数的选择效果直接影响支持向量机性能，因此需要寻找合适的参数值，以使支持向量机具有更好的推广能力[11] . (1) 惩罚参数 C 可使模型复杂度和训练误差之间达到一种折中. 参数 C 的选取一般视具体问题而定. 当参数 C 取值趋小时，对样本数据中超出不敏感带的样本惩罚也趋小，同时训练误差变大，系统的推广能力变差，出现 “欠学习” 现象；当 C 取值趋大时，则出现 “过学习” 现象

<<向上翻页向下翻页>>

点击下载：基于遗传算法优化的支持向量机品位插值模型