正在加载图片...
第5期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·685 预警的目的。传统的水质评估方法主要有单因子评 SVM方法适用于小样本分类问题,并具有全局最优 价法[)、加权均值指数法和内梅罗污染指数分析 性能和较好的泛化能力,因而在模式分类5]和预测 法[)等。由于这些方法在水质评估中存在很多缺 分析6]等方面得到了广泛应用。 陷,往往导致评估结果与实际水质状况差距较大,因 SVM的基本理论是从二分类的问题提出的。 此很难满足水质评估的实际要求。如单因子指数法 设样本集{x,y:},xeR,i=1,2,…,n,其中n为样 只能反映各个水质参数的污染程度,不能反映水资 本个数:d为样本向量x:的维数;y:∈{-1,1},代表 源整体污染状况,评估精度极低。加权均值指数法 分类类别。如果数据为线性可分的,则存在超平面 克服了参数多少不同的影响,但权值的确定存在不 将2组数据分开,如图1所示。 合理和主观性。内梅罗指数法只考虑单因子污染指 数的平均值和最高值,过分强调最大浓度污染因子 对水资源的影响,忽视了某些浓度小而危害大的污 染因子,对水资源水质评价灵敏性不够高,难以区分 x-=0 水资源污染程度的差别。因而,人们在评价水资源 wx-b=1 污染状况时,试图寻找可以考虑多种水质指标且客 观反映水质污染状况的方法。于是基于启发式的各 种智能方法被广泛应用于水质评估领域,如基于主 成分分析的方法[4]、基于信息熵的方法[6)、基于聚 类的方法[)和人工神经网络方法[&)等。这些方法 多是基于统计学理论,要求被研究的样本规模充分 大,而在实际问题中往往无法满足,导致了水质评估 性能不能令人满意。支持向量机(support vector ma- 图1最优超平面示意图 chine,SVM)方法与传统智能方法相比,不是仅仅以 Fig.1 Sketch diagram of optimal hyperplane 经验风险最小化为目标,而是以结构风险最小化为 目标,仅以经验风险最小为约束条件,因此SVM方 设超平面为 w·x-b=0 法特别适合于小样本分类,并具有全局寻优和泛化 能力强等优点[)]。目前已有一些学者采用SVM方 式中:x是超平面上的点,w是超平面的法向量,b是 法进行水质污染预测与评价[314),并且取得了很好 截距。显然,这样的超平面有无穷多,而希望找到距 效果。但由于传统SVM算法的参数选取多是依赖 离2类样本点最远的那个,即所谓的“最优超平 面”。分别约束2类点中距离该平面最近的点(支 经验或人工反复尝试,通常很难选择到最佳的参数 组合,存在分类效果因人而异、参数选择时间长等缺 持向量)满足w·x-b=1和w·x-b=-1,于是求解 最优超平面问题转化为如下有约束优化问题: 点,这在一定程度上限制了其应用和发展。 本文SVM的参数选择过程中引入遗传算法 min‖w‖2,s.ty:(w·x:-b)≥1i=1,2,…,N (genetic algorithms,GA),利用其较强的全局搜索能 式中:N为样本总个数。通过一系列求解,最终可以 力进行参数优化,建立了一种进化SVM模型,并将 得到最优超平面为 所提出的模型应用于水质评估。为验证方法的有效 f)=∑ay.x·x)+b 性,将该模型分别应用于松花江松原段、松花江哈尔 滨段、黄河甘肃段和吉林桦甸关门位子水库的真实 式中:a,为引入的Lagrange乘子。进一步,通过引入 数据上进行测试。实验结果表明,建立的进化SVM 软间隔概念,即在约束条件中加入松弛因子,可允许 水质评估模型在分类精度和泛化能力上较经典 少量样本被错分,于是上述优化问题变为 SVM方法和BP神经网络方法都有所提高。 min2+c∑专, 1进化SVM方法 s.ty:(w·x:-b)≥1-专i=1,2,…,N 式中:专:为需优化的松弛因子,C是常量,为惩罚因 1.1SVM方法 子。另一方面,当样本为非线性可分时,假定有某一 SVM方法是20世纪90年代由Vapnik提出的, 高维空间,当样本由原始低维空间映射到该高维空 是建立在统计学习理论基础上的一种新方法[。 间(映射函数为Y=(X))后样本为线性可分,则可 其优化目标为结构风险最小化,能依靠有限样本信 以在高维空间中求解得到最优超平面,即 息实现模型复杂性和学习能力之间最佳折中。由于预警的目的。 传统的水质评估方法主要有单因子评 价法[1] 、加权均值指数法[2] 和内梅罗污染指数分析 法[3]等。 由于这些方法在水质评估中存在很多缺 陷,往往导致评估结果与实际水质状况差距较大,因 此很难满足水质评估的实际要求。 如单因子指数法 只能反映各个水质参数的污染程度,不能反映水资 源整体污染状况,评估精度极低。 加权均值指数法 克服了参数多少不同的影响,但权值的确定存在不 合理和主观性。 内梅罗指数法只考虑单因子污染指 数的平均值和最高值,过分强调最大浓度污染因子 对水资源的影响,忽视了某些浓度小而危害大的污 染因子,对水资源水质评价灵敏性不够高,难以区分 水资源污染程度的差别。 因而,人们在评价水资源 污染状况时,试图寻找可以考虑多种水质指标且客 观反映水质污染状况的方法。 于是基于启发式的各 种智能方法被广泛应用于水质评估领域,如基于主 成分分析的方法[4⁃5] 、基于信息熵的方法[6] 、基于聚 类的方法[7]和人工神经网络方法[8⁃11]等。 这些方法 多是基于统计学理论,要求被研究的样本规模充分 大,而在实际问题中往往无法满足,导致了水质评估 性能不能令人满意。 支持向量机(support vector ma⁃ chine,SVM )方法与传统智能方法相比,不是仅仅以 经验风险最小化为目标,而是以结构风险最小化为 目标,仅以经验风险最小为约束条件,因此 SVM 方 法特别适合于小样本分类,并具有全局寻优和泛化 能力强等优点[12] 。 目前已有一些学者采用 SVM 方 法进行水质污染预测与评价[13⁃14] ,并且取得了很好 效果。 但由于传统 SVM 算法的参数选取多是依赖 经验或人工反复尝试,通常很难选择到最佳的参数 组合,存在分类效果因人而异、参数选择时间长等缺 点,这在一定程度上限制了其应用和发展。 本文 SVM 的参数选择过程中引入遗传算法 (genetic algorithms, GA),利用其较强的全局搜索能 力进行参数优化,建立了一种进化 SVM 模型,并将 所提出的模型应用于水质评估。 为验证方法的有效 性,将该模型分别应用于松花江松原段、松花江哈尔 滨段、黄河甘肃段和吉林桦甸关门砬子水库的真实 数据上进行测试。 实验结果表明,建立的进化 SVM 水质评估模型在分类精度和泛化能力上较经典 SVM 方法和 BP 神经网络方法都有所提高。 1 进化 SVM 方法 1.1 SVM 方法 SVM 方法是 20 世纪 90 年代由 Vapnik 提出的, 是建立在统计学习理论基础上的一种新方法[12] 。 其优化目标为结构风险最小化,能依靠有限样本信 息实现模型复杂性和学习能力之间最佳折中。 由于 SVM 方法适用于小样本分类问题,并具有全局最优 性能和较好的泛化能力,因而在模式分类[15] 和预测 分析[16]等方面得到了广泛应用。 SVM 的基本理论是从二分类的问题提出的。 设样本集{xi,yi},x ÎR d ,i = 1, 2,…,n, 其中 n 为样 本个数;d 为样本向量 xi 的维数;yi Î{ -1, 1},代表 分类类别。 如果数据为线性可分的,则存在超平面 将 2 组数据分开,如图 1 所示。 图 1 最优超平面示意图 Fig.1 Sketch diagram of optimal hyperplane 设超平面为 w·x - b = 0 式中:x 是超平面上的点,w 是超平面的法向量,b 是 截距。 显然,这样的超平面有无穷多,而希望找到距 离 2 类样本点最远的那个,即所谓的“ 最优超平 面”。 分别约束 2 类点中距离该平面最近的点(支 持向量)满足 w·x-b = 1 和 w·x-b = -1,于是求解 最优超平面问题转化为如下有约束优化问题: min w,b ‖w‖2 ,s.t.yi w·xi ( - b) ≥ 1 i = 1,2,…,N 式中:N 为样本总个数。 通过一系列求解,最终可以 得到最优超平面为 f(x) = ∑ n i = 1 αi yi (xi·x) + b 式中:ai为引入的 Lagrange 乘子。 进一步,通过引入 软间隔概念,即在约束条件中加入松弛因子,可允许 少量样本被错分,于是上述优化问题变为 min w,b ‖w‖2 + C∑i ξi, s.t.yi w·xi ( - b) ≥ 1 - ξi i = 1,2,…,N 式中:ξi 为需优化的松弛因子,C 是常量,为惩罚因 子。 另一方面,当样本为非线性可分时,假定有某一 高维空间,当样本由原始低维空间映射到该高维空 间(映射函数为 Y = Φ(X))后样本为线性可分,则可 以在高维空间中求解得到最优超平面,即 第 5 期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·685·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有