正在加载图片...
·838 北京科技大学学报 第35卷 是近年发展起来的一种新的数据挖掘方法,并且 约束条件为: 被认为是针对小样本的分类、回归问题的最佳方 -f(x)≤e+5, 法4-司.矿体品位空间插值问题可看作是对采样品 f(r)-≤e+, (4) 位数据及其各个影响属性间复杂的非线性函数关系 E,5≥0. 的逼近问题,因此可考虑将支持向量机方法应用到 矿体品位空间插值问题的研究中6-). 式(3)中,e为一正常数,f(x)-l<e时不计入 然而,在支持向量机方法的实际应用中,关于 误差,f(x)-l>e时误差计为f(x)-hl-e. 参数的选取问题目前主要是靠经验或者反复试验, 通过采用拉格朗日乘数法,引入核函数 其选取具有一定的主观性和随意性,一定程度上影 K(z,x)及拉格朗日乘子a:和aj,得到优化问 响了支持向量机模型的推广能力,因此有必要探寻 题的对偶形式: 一种较为合理的参数寻优方法.本文在分析支持向 量机各参数对其性能影响的基础上,采用遗传算法 max W(a,a)=-1 ∑(a-a)(a-a)K(c,x)- i,=1 (genetic algorithm,GA)对支持向量机进行参数寻 优.利用遗传算法的全局搜索能力,将支持向量 (5) 机参数选取进行自动优化确定,为解决支持向量机 (+i)+(-oi). i=1 参数选取问题提供了有效途径.因此本文主要研究 其中: 基于遗传算法参数优化的支持向量机(以下简称为 w=∑ai-a4)(r), (6) GA-SVM矿体品位插值问题. i=1 0≤ai,a≤C,i=1,2,…,l. (7) 1支持向量机 且对于任何i=1,2,…,l,a×a=0. 1.1支持向量机回归模型 从而,构造的决策函数为 支持向量机是Vapnik等提出的统计学习方 法倒.与传统统计学方法相比,统计学习着重研究 fx)=∑ai-a)K(z,x)+b. (8) i=l 有限样本情况下的统计规律和学习方法.支持向量 机的核心是支持向量,其基本思想是升维和线性化. 其中b按下式计算: 通过非线性映射,把样本空间映射到一个高维特征 b=-e- 空间,然后求取最优线性分类面,寻求最优回归超 ∑a-aK(e,,a∈(0,C):(⑨ i= 平面问题转化为求解一个二次凸规划问题,来求得 全局最优解9-10. b=h+e-∑(a-a)K(z,x),a∈(0,C).(10) 由于本文的矿体品位空间插值是回归问题,可 i=1 采用e-SVR(support vector regression,SVR)算法来 式(8)便是采用支持向量机回归方法最终确定 实现.e-SVR回归原理为如下. 的非线性回归函数.通过支持向量或采用平均值方 给定训练集x1=z,x,xT∈R3,∈R,其 法计算出b值,便可将其应用到矿体品位插值问题 中i=1,2,…,l,构造回归函数为 中 1.2支持向量机参数对模型性能的影响 f(x)=wo(x)+b. (1) 在支持向量机回归方法中,有三个关键的参 支持向量机求解问题的关键是寻找最小,等价于 数,即惩罚系数C、不敏感系数ε和核函数参数 σ.这三个参数的选择效果直接影响支持向量机性 求最小化,因此可以将求解最小w的问题表 示成凸优化问题: 能,因此需要寻找合适的参数值,以使支持向量机 具有更好的推广能力叫. min: (2) (1)惩罚参数C可使模型复杂度和训练误差之 间达到一种折中.参数C的选取一般视具体问题而 考虑到拟合误差情况,引入惩罚因子C以及松弛因 定.当参数C取值趋小时,对样本数据中超出不敏 子、,此凸优化问题即为最小化: 感带的样本惩罚也趋小,同时训练误差变大,系统 1 的推广能力变差,出现“欠学习”现象;当C取值 Ru,)=2“w+C∑&+). (3) 趋大时,则出现“过学习”现象· 838 · 北 京 科 技 大 学 学 报 第 35 卷 是近年发展起来的一种新的数据挖掘方法,并且 被认为是针对小样本的分类、回归问题的最佳方 法[4−5] . 矿体品位空间插值问题可看作是对采样品 位数据及其各个影响属性间复杂的非线性函数关系 的逼近问题,因此可考虑将支持向量机方法应用到 矿体品位空间插值问题的研究中[6−7] . 然而,在支持向量机方法的实际应用中,关于 参数的选取问题目前主要是靠经验或者反复试验, 其选取具有一定的主观性和随意性,一定程度上影 响了支持向量机模型的推广能力,因此有必要探寻 一种较为合理的参数寻优方法. 本文在分析支持向 量机各参数对其性能影响的基础上,采用遗传算法 (genetic algorithm, GA) 对支持向量机进行参数寻 优. 利用遗传算法的全局搜索能力,将支持向量 机参数选取进行自动优化确定,为解决支持向量机 参数选取问题提供了有效途径. 因此本文主要研究 基于遗传算法参数优化的支持向量机 (以下简称为 GA-SVM) 矿体品位插值问题. 1 支持向量机 1.1 支持向量机回归模型 支持向量机是 Vapnik 等提出的统计学习方 法[8] . 与传统统计学方法相比,统计学习着重研究 有限样本情况下的统计规律和学习方法. 支持向量 机的核心是支持向量,其基本思想是升维和线性化. 通过非线性映射,把样本空间映射到一个高维特征 空间,然后求取最优线性分类面,寻求最优回归超 平面问题转化为求解一个二次凸规划问题,来求得 全局最优解[9−10] . 由于本文的矿体品位空间插值是回归问题,可 采用 ε-SVR (support vector regression, SVR) 算法来 实现. ε- SVR 回归原理为如下. 给定训练集 xi = [x 1 i , x2 i , x3 i ] T ∈ R3 , yi ∈ R,其 中 i = 1, 2, · · · , l,构造回归函数为 f(x) = ωφ(x) + b. (1) 支持向量机求解问题的关键是寻找最小 ω,等价于 求最小化 kωk 2,因此可以将求解最小 ω 的问题表 示成凸优化问题: min : 1 2 kωk 2 . (2) 考虑到拟合误差情况,引入惩罚因子 C 以及松弛因 子 ξi、ξ ∗ i ,此凸优化问题即为最小化: R(ω, ξ, ξ∗ ) = 1 2 ω · ω + C X l i=1 (ξi + ξ ∗ i ). (3) 约束条件为:    yi − f(xi) 6 ε + ξi , f(xi) − yi 6 ε + ξ ∗ i , ξi , ξ∗ i > 0. (4) 式 (3) 中,ε 为一正常数,|f(xi) − yi | < ε 时不计入 误差,|f(xi) − yi | > ε 时误差计为 |f(xi) − yi | − ε. 通 过 采 用 拉 格 朗 日 乘 数 法 , 引 入 核 函 数 K(xi , xj ) 及拉格朗日乘子 αi 和 αj,得到优化问 题的对偶形式: max : W(α, α∗ ) = − 1 2 X l i,j=1 (αi − α ∗ i )(αj−α ∗ j )K(xi , xj )− ε X l i=1 (αi + α ∗ i ) +X l i=1 yi(αi − α ∗ i ). (5) 其中: ω = X l i=1 (αi − α ∗ i )φ(xi), (6) 0 6 αi , α∗ i 6 C, i = 1, 2, · · · , l. (7) 且对于任何 i=1,2,· · ·,l, αi × α ∗ i = 0. 从而,构造的决策函数为 f(x) = X l i=1 (αi − α ∗ i )K(x, xi) + b. (8) 其中 b 按下式计算: b = yi − ε − X l i=1 (αi − α ∗ i )K(x, xi), αi ∈ (0, C); (9) b = yi + ε − X l i=1 (αi − α ∗ i )K(x, xi), αi ∈ (0, C). (10) 式 (8) 便是采用支持向量机回归方法最终确定 的非线性回归函数. 通过支持向量或采用平均值方 法计算出 b 值,便可将其应用到矿体品位插值问题 中. 1.2 支持向量机参数对模型性能的影响 在支持向量机回归方法中,有三个关键的参 数,即惩罚系数 C、不敏感系数 ε 和核函数参数 σ. 这三个参数的选择效果直接影响支持向量机性 能,因此需要寻找合适的参数值,以使支持向量机 具有更好的推广能力[11] . (1) 惩罚参数 C 可使模型复杂度和训练误差之 间达到一种折中. 参数 C 的选取一般视具体问题而 定. 当参数 C 取值趋小时,对样本数据中超出不敏 感带的样本惩罚也趋小,同时训练误差变大,系统 的推广能力变差,出现 “欠学习” 现象;当 C 取值 趋大时,则出现 “过学习” 现象
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有