第10卷第5期 智能系统学报 Vol.10 No.5 2015年10月 CAAI Transactions on Intelligent Systems 0ct.2015 D0I:10.11992/is.201410018 网s络出版t地址:htp:/ww.cmki.net/kcms/detail/23.1538.tp.20150930.1556.022.html 进化支持向量机模型及其在水质评估中的应用 钱云2,梁艳春1,翟天放,刘洪志4,时小虎 (1.吉林大学计算机科学与技术学院,吉林长春130012:2.北华大学电气信息工程学院,吉林吉林132021:3.吉 林省水利科学研究院,吉林长春130022:4.吉林省计算中心吉林省计算机技术研究所,吉林长春130012) 摘要:水质评估模型是进行水质规划、环境水污染控制和环境管理的有效工具。利用遗传算法(G)对支持向量 机(SVM)分类算法的径向基核函数参数σ和错分惩罚因子C进行组合优化,建立进化支持向量机模型,并将该模型 应用于水质评估中。将该模型分别应用于松花江松原段、松花江哈尔滨段、黄河甘肃段和吉林桦甸关门位子水库的 真实数据上进行测试。实验结果表明,提出的进化支持向量机水质评估模型在分类精度和泛化能力上较经典SVM 方法都有所提高,表明了该方法的有效性。 关键词:水质评估模型:支持向量机(SVM):遗传算法(GA):径向基核函数:惩罚因子 中图分类号:TP391.4文献标志码:A文章编号:1673.4785(2015)05-0684-06 中文引用格式:钱云,梁艳春,程天放,等.进化支持向量机模型及其在水质评估中的应用[J].智能系统学报,2015,10(5):684-689. 英文引用格式:QIAN Yun,LIANG Yanchun,ZHAI Tianfang,etal.Evolutionary support vector machine model and its application in water quality assessment[J].CAAI Transactions on Intelligent Systems,2015,10(5):684-689. Evolutionary support vector machine model and its application in water quality assessment QIAN Yun'.2,LIANG Yanchun',ZHAI Tianfang,LIU Hongzhi,SHI Xiaohu' (1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.College of Electrical and Information Engineering,Beihua University,Jilin 132021,China:3.Jilin Water Resources Research Institute,Changchun 130022,China; 4.Computing Center of Jilin Province,Computer Technology Research Institute of Jilin Province,Changchun 130012,China) Abstract:A water quality assessment model is an effective tool for water quality planning,environmental water pol- lution control and environment management.In this paper,an evolutionary support vector machine (SVM)model is developed by using genetic algorithm (GA)to combine and optimize the radial basis kernel function parameter o and error penalty factor C of a SVM algorithm.This model is then extended to water quality assessment.To test the effectiveness of the proposed method,it is applied to a simulation on real data of the Songyuan and Harbin sections of the Songhua River,the Gansu section of the Yellow River,and the Jilin Huadian Guanmenlizi water reservoir. Simulation results show that,compared with the classical SVM method,the classification accuracy and generaliza- tion ability of the evolutionary support vector machine model for water quality assessment are improved. Keywords:water quality assessment model;support vector machine (SVM);genetic algorithms(GA);radial ba- sis kernel function;penalty factor 水是工业的血液、农业的命脉,随着世界人口的 来越大。2006年我国检测的7大水系的197条河 不断增长和经济的飞速发展,人类对水资源的需求 流的408个断面中,I类至Ⅲ类水质断面占46%, 量不断增加,工业废水和生活废水的排量与日俱增, V、V类占28%,超V类占26%,地表水资源污染十 对受纳水体的环境质量造成严重威胁,治理压力越 分严重。 水质评估是以水域水质监测指标为基础,按照 收稿日期:201410-14.网络出版日期:2015-09-30. 基金项目:吉林省科技发展计划项目(20130206003SF). 一定的评估标准对水环境水质进行评估,能够准确 通信作者:时小虎.E-mail:shixh@jm.edu.cm 反映水域水质状况和水体污染情况,达到提前预测
第 10 卷第 5 期 智 能 系 统 学 报 Vol.10 №.5 2015 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2015 DOI:10.11992 / tis.201410018 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.tp.20150930.1556.022.html 进化支持向量机模型及其在水质评估中的应用 钱云1, 2 ,梁艳春1 ,翟天放3 ,刘洪志4 ,时小虎1 (1. 吉林大学 计算机科学与技术学院,吉林 长春 130012; 2. 北华大学 电气信息工程学院,吉林 吉林 132021; 3. 吉 林省水利科学研究院,吉林 长春 130022; 4. 吉林省计算中心 吉林省计算机技术研究所,吉林 长春 130012) 摘 要:水质评估模型是进行水质规划、环境水污染控制和环境管理的有效工具。 利用遗传算法(GA)对支持向量 机(SVM)分类算法的径向基核函数参数 σ 和错分惩罚因子 C 进行组合优化,建立进化支持向量机模型,并将该模型 应用于水质评估中。 将该模型分别应用于松花江松原段、松花江哈尔滨段、黄河甘肃段和吉林桦甸关门砬子水库的 真实数据上进行测试。 实验结果表明,提出的进化支持向量机水质评估模型在分类精度和泛化能力上较经典 SVM 方法都有所提高,表明了该方法的有效性。 关键词:水质评估模型;支持向量机(SVM);遗传算法(GA);径向基核函数;惩罚因子 中图分类号:TP391.4 文献标志码:A 文章编号:1673⁃4785(2015)05⁃0684⁃06 中文引用格式:钱云,梁艳春,翟天放,等. 进化支持向量机模型及其在水质评估中的应用[J]. 智能系统学报, 2015, 10(5): 684⁃689. 英文引用格式:QIAN Yun, LIANG Yanchun, ZHAI Tianfang, et al. Evolutionary support vector machine model and its application in water quality assessment[J]. CAAI Transactions on Intelligent Systems, 2015, 10(5): 684⁃689. Evolutionary support vector machine model and its application in water quality assessment QIAN Yun 1, 2 , LIANG Yanchun 1 , ZHAI Tianfang 3 , LIU Hongzhi 4 , SHI Xiaohu 1 ( 1. College of Computer Science and Technology, Jilin University, Changchun 130012, China; 2. College of Electrical and Information Engineering, Beihua University, Jilin 132021, China; 3. Jilin Water Resources Research Institute, Changchun 130022, China; 4. Computing Center of Jilin Province, Computer Technology Research Institute of Jilin Province, Changchun 130012, China) Abstract:A water quality assessment model is an effective tool for water quality planning, environmental water pol⁃ lution control and environment management. In this paper, an evolutionary support vector machine (SVM) model is developed by using genetic algorithm (GA) to combine and optimize the radial basis kernel function parameter σ and error penalty factor C of a SVM algorithm. This model is then extended to water quality assessment. To test the effectiveness of the proposed method, it is applied to a simulation on real data of the Songyuan and Harbin sections of the Songhua River, the Gansu section of the Yellow River, and the Jilin Huadian Guanmenlizi water reservoir. Simulation results show that, compared with the classical SVM method, the classification accuracy and generaliza⁃ tion ability of the evolutionary support vector machine model for water quality assessment are improved. Keywords:water quality assessment model; support vector machine (SVM); genetic algorithms (GA); radial ba⁃ sis kernel function; penalty factor 收稿日期:2014⁃10⁃14. 网络出版日期:2015⁃09⁃30. 基金项目:吉林省科技发展计划项目(20130206003SF). 通信作者:时小虎. E⁃mail:shixh@ jlu.edu.cn. 水是工业的血液、农业的命脉,随着世界人口的 不断增长和经济的飞速发展,人类对水资源的需求 量不断增加,工业废水和生活废水的排量与日俱增, 对受纳水体的环境质量造成严重威胁,治理压力越 来越大。 2006 年我国检测的 7 大水系的 197 条河 流的 408 个断面中,Ⅰ类至Ⅲ类水质断面占 46%, Ⅳ、Ⅴ类占 28%,超Ⅴ类占 26%,地表水资源污染十 分严重。 水质评估是以水域水质监测指标为基础,按照 一定的评估标准对水环境水质进行评估,能够准确 反映水域水质状况和水体污染情况,达到提前预测
第5期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·685 预警的目的。传统的水质评估方法主要有单因子评 SVM方法适用于小样本分类问题,并具有全局最优 价法[)、加权均值指数法和内梅罗污染指数分析 性能和较好的泛化能力,因而在模式分类5]和预测 法[)等。由于这些方法在水质评估中存在很多缺 分析6]等方面得到了广泛应用。 陷,往往导致评估结果与实际水质状况差距较大,因 SVM的基本理论是从二分类的问题提出的。 此很难满足水质评估的实际要求。如单因子指数法 设样本集{x,y:},xeR,i=1,2,…,n,其中n为样 只能反映各个水质参数的污染程度,不能反映水资 本个数:d为样本向量x:的维数;y:∈{-1,1},代表 源整体污染状况,评估精度极低。加权均值指数法 分类类别。如果数据为线性可分的,则存在超平面 克服了参数多少不同的影响,但权值的确定存在不 将2组数据分开,如图1所示。 合理和主观性。内梅罗指数法只考虑单因子污染指 数的平均值和最高值,过分强调最大浓度污染因子 对水资源的影响,忽视了某些浓度小而危害大的污 染因子,对水资源水质评价灵敏性不够高,难以区分 x-=0 水资源污染程度的差别。因而,人们在评价水资源 wx-b=1 污染状况时,试图寻找可以考虑多种水质指标且客 观反映水质污染状况的方法。于是基于启发式的各 种智能方法被广泛应用于水质评估领域,如基于主 成分分析的方法[4]、基于信息熵的方法[6)、基于聚 类的方法[)和人工神经网络方法[&)等。这些方法 多是基于统计学理论,要求被研究的样本规模充分 大,而在实际问题中往往无法满足,导致了水质评估 性能不能令人满意。支持向量机(support vector ma- 图1最优超平面示意图 chine,SVM)方法与传统智能方法相比,不是仅仅以 Fig.1 Sketch diagram of optimal hyperplane 经验风险最小化为目标,而是以结构风险最小化为 目标,仅以经验风险最小为约束条件,因此SVM方 设超平面为 w·x-b=0 法特别适合于小样本分类,并具有全局寻优和泛化 能力强等优点[)]。目前已有一些学者采用SVM方 式中:x是超平面上的点,w是超平面的法向量,b是 法进行水质污染预测与评价[314),并且取得了很好 截距。显然,这样的超平面有无穷多,而希望找到距 效果。但由于传统SVM算法的参数选取多是依赖 离2类样本点最远的那个,即所谓的“最优超平 面”。分别约束2类点中距离该平面最近的点(支 经验或人工反复尝试,通常很难选择到最佳的参数 组合,存在分类效果因人而异、参数选择时间长等缺 持向量)满足w·x-b=1和w·x-b=-1,于是求解 最优超平面问题转化为如下有约束优化问题: 点,这在一定程度上限制了其应用和发展。 本文SVM的参数选择过程中引入遗传算法 min‖w‖2,s.ty:(w·x:-b)≥1i=1,2,…,N (genetic algorithms,GA),利用其较强的全局搜索能 式中:N为样本总个数。通过一系列求解,最终可以 力进行参数优化,建立了一种进化SVM模型,并将 得到最优超平面为 所提出的模型应用于水质评估。为验证方法的有效 f)=∑ay.x·x)+b 性,将该模型分别应用于松花江松原段、松花江哈尔 滨段、黄河甘肃段和吉林桦甸关门位子水库的真实 式中:a,为引入的Lagrange乘子。进一步,通过引入 数据上进行测试。实验结果表明,建立的进化SVM 软间隔概念,即在约束条件中加入松弛因子,可允许 水质评估模型在分类精度和泛化能力上较经典 少量样本被错分,于是上述优化问题变为 SVM方法和BP神经网络方法都有所提高。 min2+c∑专, 1进化SVM方法 s.ty:(w·x:-b)≥1-专i=1,2,…,N 式中:专:为需优化的松弛因子,C是常量,为惩罚因 1.1SVM方法 子。另一方面,当样本为非线性可分时,假定有某一 SVM方法是20世纪90年代由Vapnik提出的, 高维空间,当样本由原始低维空间映射到该高维空 是建立在统计学习理论基础上的一种新方法[。 间(映射函数为Y=(X))后样本为线性可分,则可 其优化目标为结构风险最小化,能依靠有限样本信 以在高维空间中求解得到最优超平面,即 息实现模型复杂性和学习能力之间最佳折中。由于
预警的目的。 传统的水质评估方法主要有单因子评 价法[1] 、加权均值指数法[2] 和内梅罗污染指数分析 法[3]等。 由于这些方法在水质评估中存在很多缺 陷,往往导致评估结果与实际水质状况差距较大,因 此很难满足水质评估的实际要求。 如单因子指数法 只能反映各个水质参数的污染程度,不能反映水资 源整体污染状况,评估精度极低。 加权均值指数法 克服了参数多少不同的影响,但权值的确定存在不 合理和主观性。 内梅罗指数法只考虑单因子污染指 数的平均值和最高值,过分强调最大浓度污染因子 对水资源的影响,忽视了某些浓度小而危害大的污 染因子,对水资源水质评价灵敏性不够高,难以区分 水资源污染程度的差别。 因而,人们在评价水资源 污染状况时,试图寻找可以考虑多种水质指标且客 观反映水质污染状况的方法。 于是基于启发式的各 种智能方法被广泛应用于水质评估领域,如基于主 成分分析的方法[4⁃5] 、基于信息熵的方法[6] 、基于聚 类的方法[7]和人工神经网络方法[8⁃11]等。 这些方法 多是基于统计学理论,要求被研究的样本规模充分 大,而在实际问题中往往无法满足,导致了水质评估 性能不能令人满意。 支持向量机(support vector ma⁃ chine,SVM )方法与传统智能方法相比,不是仅仅以 经验风险最小化为目标,而是以结构风险最小化为 目标,仅以经验风险最小为约束条件,因此 SVM 方 法特别适合于小样本分类,并具有全局寻优和泛化 能力强等优点[12] 。 目前已有一些学者采用 SVM 方 法进行水质污染预测与评价[13⁃14] ,并且取得了很好 效果。 但由于传统 SVM 算法的参数选取多是依赖 经验或人工反复尝试,通常很难选择到最佳的参数 组合,存在分类效果因人而异、参数选择时间长等缺 点,这在一定程度上限制了其应用和发展。 本文 SVM 的参数选择过程中引入遗传算法 (genetic algorithms, GA),利用其较强的全局搜索能 力进行参数优化,建立了一种进化 SVM 模型,并将 所提出的模型应用于水质评估。 为验证方法的有效 性,将该模型分别应用于松花江松原段、松花江哈尔 滨段、黄河甘肃段和吉林桦甸关门砬子水库的真实 数据上进行测试。 实验结果表明,建立的进化 SVM 水质评估模型在分类精度和泛化能力上较经典 SVM 方法和 BP 神经网络方法都有所提高。 1 进化 SVM 方法 1.1 SVM 方法 SVM 方法是 20 世纪 90 年代由 Vapnik 提出的, 是建立在统计学习理论基础上的一种新方法[12] 。 其优化目标为结构风险最小化,能依靠有限样本信 息实现模型复杂性和学习能力之间最佳折中。 由于 SVM 方法适用于小样本分类问题,并具有全局最优 性能和较好的泛化能力,因而在模式分类[15] 和预测 分析[16]等方面得到了广泛应用。 SVM 的基本理论是从二分类的问题提出的。 设样本集{xi,yi},x ÎR d ,i = 1, 2,…,n, 其中 n 为样 本个数;d 为样本向量 xi 的维数;yi Î{ -1, 1},代表 分类类别。 如果数据为线性可分的,则存在超平面 将 2 组数据分开,如图 1 所示。 图 1 最优超平面示意图 Fig.1 Sketch diagram of optimal hyperplane 设超平面为 w·x - b = 0 式中:x 是超平面上的点,w 是超平面的法向量,b 是 截距。 显然,这样的超平面有无穷多,而希望找到距 离 2 类样本点最远的那个,即所谓的“ 最优超平 面”。 分别约束 2 类点中距离该平面最近的点(支 持向量)满足 w·x-b = 1 和 w·x-b = -1,于是求解 最优超平面问题转化为如下有约束优化问题: min w,b ‖w‖2 ,s.t.yi w·xi ( - b) ≥ 1 i = 1,2,…,N 式中:N 为样本总个数。 通过一系列求解,最终可以 得到最优超平面为 f(x) = ∑ n i = 1 αi yi (xi·x) + b 式中:ai为引入的 Lagrange 乘子。 进一步,通过引入 软间隔概念,即在约束条件中加入松弛因子,可允许 少量样本被错分,于是上述优化问题变为 min w,b ‖w‖2 + C∑i ξi, s.t.yi w·xi ( - b) ≥ 1 - ξi i = 1,2,…,N 式中:ξi 为需优化的松弛因子,C 是常量,为惩罚因 子。 另一方面,当样本为非线性可分时,假定有某一 高维空间,当样本由原始低维空间映射到该高维空 间(映射函数为 Y = Φ(X))后样本为线性可分,则可 以在高维空间中求解得到最优超平面,即 第 5 期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·685·
686 智能系统学报 第10卷 x)=三a((x)D(x)+b 4)交叉和变异操作。在选择操作中用于繁殖 下一代的个体中,对2个不同染色体相同位置上的 为避免低维空间到高维空间映射的复杂运算, 基因以交叉概率P。进行交换,从而产生新的染色 用低维空间的核函数代替高维空间中的内积运算, 体。变异算子以一定的变异概率Pm随机改变字符 即若有K(x,y)=Φ(x)·(y),得到的超平面为 串某个位置上的值,随机将二进制编码基因串某个 Rx)=ao.k(x.x)+b 位置0变为1,或将1变为0。交叉概率P。和变异概 率pm按照文献[17]的算法进行选择,使p。和pm能 在SVM中,核函数的选取对算法的效果有重要 够随适应度自动改变。 影响,常用的核函数类型主要有线性核函数、多项式 算法的流程如图3所示。 核函数、径向基核函数和Sigmoid核函数等,其中最 为常用的是径向基核函数,其形式为 参数初始化 种群初始化 K(x,y)=exp lx-y t 2o2 变异操作 解码(C,o 1.2进化SVM模型 惩罚系数C和核函数中的参数,如径向基中的 交叉操作 SVM训练、 宽度σ的选取是SVM算法中较为关键的问题。但 验证 是如何选取最佳的SVM参数一直没有一个统一的 方法,这在很大程度上限制了它的实际应用。本文 选择操作 适应度计算 采用GA方法进行SVM的参数选取,即惩罚系数C 和径向基函数宽度σ的选取。主要过程如下: 是否满定 1)编码。在对SVM2个参数的组合进行优化 终止条件 时,RBF核函数参数σ和惩罚因子C取值范围采用 y 二进制编码,编码分别为m1位和m2位的二进制 输出最优C,o 得到进化SVM 串,将m,+m2位二进制编码组合就得到个体染色体 基因串,个体染色体基因串结构如图2所示。 结束 图3进化SVM流程 Fig.3 Flowchart of evolutionary SVM RBF核函数宽度a 惩罚因子C 2 实验结果及分析 图2染色体结构 2.1 实验数据 Fig.2 Structure of chromosome 本文的实验数据来自松花江松原段、松花江哈 2)适应度评价函数。本文采用5折交叉验证 尔滨段、黄河甘肃段和吉林桦甸关门位子水库日常 法进行训练,即将训练样本分成5份,每次随机选择 水质监测数据,主要水质监测项目有pH、溶解氧 4份进行训练,另外1份用作验证集。GA的适应度 (dissolved oxygen,DO)、高锰酸盐指数(permanga- 通过验证集的误差进行定义,即 nate index,.PI)、化学需氧量(chemical oxygen de- F(σ,C)= mand,COD)、生化需氧量(biochemical oxygen de- 0y:-fx:)2+E mand,BOD)、氨氮、总磷(total phosphorus,TP)、总 氮(total phosphorus,TN)、挥发酚(volatile phenol, 式中:E是一个比较小的数,防止分母为零。 VP)、石油类和大肠种群等。剔出由于各种原因造 3)选择操作。本文采用基于排序的选择方案, 成的缺失数据,其样本数、监测位置和监测项目详细 按照适应度值对种群内的全部P个个体进行排序, 第ⅱ个个体被选择的概率为 信息如表1所示。其中松花江松原段选择2002年 至2006年连续5年的每年丰水期、平水期和枯水期 P:=c(1-c)- 3个时段的水质监测数据:松花江哈尔滨段选择 式中:c为排序第1的个体的选择概率,其选择需 2012年2月至10月连续9个月的4个断面、2个监 满足 测点,每月1次的水质监测数据:黄河甘肃段选择 2010年全年18个监测断面,每月1次的水质监测
f(x) = ∑ n i = 1 αi yi (Φ(xi)·Φ(x) ) + b 为避免低维空间到高维空间映射的复杂运算, 用低维空间的核函数代替高维空间中的内积运算, 即若有 K(x, y)= Φ(x)·Φ(y),得到的超平面为 f(x) = ∑ n i = 1 αi yiK(xi,x) + b 在 SVM 中,核函数的选取对算法的效果有重要 影响,常用的核函数类型主要有线性核函数、多项式 核函数、径向基核函数和 Sigmoid 核函数等,其中最 为常用的是径向基核函数,其形式为 K(x,y) = exp - ‖x - y‖2 2σ 2 æ è ç ö ø ÷ 1.2 进化 SVM 模型 惩罚系数 C 和核函数中的参数,如径向基中的 宽度 σ 的选取是 SVM 算法中较为关键的问题。 但 是如何选取最佳的 SVM 参数一直没有一个统一的 方法,这在很大程度上限制了它的实际应用。 本文 采用 GA 方法进行 SVM 的参数选取,即惩罚系数 C 和径向基函数宽度 σ 的选取。 主要过程如下: 1)编码。 在对 SVM 2 个参数的组合进行优化 时,RBF 核函数参数 σ 和惩罚因子 C 取值范围采用 二进制编码,编码分别为 m1 位和 m2 位的二进制 串,将 m1 +m2 位二进制编码组合就得到个体染色体 基因串,个体染色体基因串结构如图 2 所示。 图 2 染色体结构 Fig.2 Structure of chromosome 2)适应度评价函数。 本文采用 5 折交叉验证 法进行训练,即将训练样本分成 5 份,每次随机选择 4 份进行训练,另外 1 份用作验证集。 GA 的适应度 通过验证集的误差进行定义,即 F(σ,C) = 1 ∑ m i = 1 yi ( - f(xi) ) 2 + ε 式中:ε 是一个比较小的数,防止分母为零。 3)选择操作。 本文采用基于排序的选择方案, 按照适应度值对种群内的全部 P 个个体进行排序, 第 i 个个体被选择的概率为 pi = c(1 - c) i-1 式中:c 为排序第 1 的个体的选择概率,其选择需 满足 ∑ P i = 1 pi = ∑ P i = 1 c (1 - c) i-1 = 1 4)交叉和变异操作。 在选择操作中用于繁殖 下一代的个体中,对 2 个不同染色体相同位置上的 基因以交叉概率 pc 进行交换,从而产生新的染色 体。 变异算子以一定的变异概率 pm 随机改变字符 串某个位置上的值,随机将二进制编码基因串某个 位置 0 变为 1,或将 1 变为 0。 交叉概率 pc 和变异概 率 pm 按照文献[17]的算法进行选择,使 pc 和 pm 能 够随适应度自动改变。 算法的流程如图 3 所示。 图 3 进化 SVM 流程 Fig.3 Flowchart of evolutionary SVM 2 实验结果及分析 2.1 实验数据 本文的实验数据来自松花江松原段、松花江哈 尔滨段、黄河甘肃段和吉林桦甸关门砬子水库日常 水质监测数据,主要水质监测项目有 pH、溶解氧 (dissolved oxygen, DO)、高锰酸盐指数( permanga⁃ nate index, PI)、化学需氧量( chemical oxygen de⁃ mand, COD)、生化需氧量( biochemical oxygen de⁃ mand, BOD)、氨氮、总磷(total phosphorus, TP)、总 氮( total phosphorus, TN)、挥发酚( volatile phenol, VP)、石油类和大肠种群等。 剔出由于各种原因造 成的缺失数据,其样本数、监测位置和监测项目详细 信息如表 1 所示。 其中松花江松原段选择 2002 年 至 2006 年连续 5 年的每年丰水期、平水期和枯水期 3 个时段的水质监测数据;松花江哈尔滨段选择 2012 年 2 月至 10 月连续 9 个月的 4 个断面、2 个监 测点,每月 1 次的水质监测数据;黄河甘肃段选择 2010 年全年 18 个监测断面,每月 1 次的水质监测 ·686· 智 能 系 统 学 报 第 10 卷
第5期 钱云,等:进化支持向量机模型及其在水质评估中的应用 687. 数据:吉林桦甸关门位子水库选择2014年7月到 100 2015年8月每天6次水质监测数据。水质评价执 95 行地面水环境质量标准GB3838-2002,水质级别执 90 行5级标准8) 85 表1实验数据详细信息 80 75 Table 1 The detailed information of the experimental data 70 最佳适应度 数据 65 。一平均适应度 样本数 监测位置 监测项目 来源 松花江 松原牧场、西大嘴子、COD、BOD、氨氮、 0102030405060708090100 45 进化代数 松原段 泔水缸 VP、石油类 图5松花江黑龙江段GA适应度曲线 三家子、二水源、水泥pHDO、PI、COD Fig.5 GA fitness curves on Heilongjiang section,Song- 松花江 57 厂、大亮子、金河湾湿BOD、氨氨、TP hua River 哈尔滨段 地、呼兰河口 TN、粪大肠菌群 94.0. 扶河桥、包兰桥、什川 93.5 桥、靖远桥、五佛寺、 93.0 德高桥、地沟桥、折 92.5 黄河 161桥、曳湖峡、玉井、洮 COD、氨氨、TP 20 甘肃段 VP、粪大肠菌群 园桥、涅水桥、桦林、 915引 伯阳桥、葡萄园、平镇 91.0 +一最佳适应度 桥、拦洪坝、宁县桥头 90.5 。一平均适应度 90.0l 桦甸关 0102030405060708090100 DO、PI、氨氮、TP 门位子2142桦甸关门位子水库 进化代数 TN 水库 图6黄河甘肃段GA适应度曲线 2.2进化SVM的参数选择 Fig.6 GA fitness curves on Gansu section,Yellow River 本文选取每组数据源中2/3的数据作为训练样 本,1/3的数据作为测试样本,训练过程采用5折交 100.1 叉验证。水质监测指标作为输入向量,水质级别作 100.0 为输出向量,核函数选用常用的RBF函数。采用 99.9 99.8 1.2节提出的方法对SVM的参数进行寻优,4个数据 99.1 集的进化代数与适应度关系曲线分别如图4~7所 产 99.6 示,当惩罚因子C、RBF核函数参数σ和交叉确认 99.5 ·最佳适应度 准确率分别取表2中的数值时,SVM分类精度和泛 99.4 ·平均适应度 化能力最佳。 90 9.36102030405060708090100 进化代数 85 图7桦甸关门砬子水库GA适应度曲线 80 Fig.7 GA fitness curves on HuaDian Guanmenlazi dam 75 g70 表2最佳参数 最佳适应度 Table 2 The optimal parameters e一平均适应度 60 数据来源 C 6 交叉确认准确率/% 0102030405060708090100 松花江松原段 2.54933.3049 88.8889 进化代数 松花江哈尔滨段1.4001 3.2153 96.7742 图4松花江松原段GA适应度曲线 黄河甘肃段 2.2851289.5982 93.8144 Fig.4 GA fitness curves on Songyuan section,Songhua River 桦甸关门位子水库0.16297558.6299 100
数据;吉林桦甸关门砬子水库选择 2014 年 7 月到 2015 年 8 月每天 6 次水质监测数据。 水质评价执 行地面水环境质量标准 GB3838⁃2002,水质级别执 行 5 级标准[18] 。 表 1 实验数据详细信息 Table 1 The detailed information of the experimental data 数据 来源 样本数 监测位置 监测项目 松花江 松原段 45 松原牧场、西大嘴子、 泔水缸 COD、 BOD、 氨 氮、 VP、石油类 松花江 哈尔滨段 57 三家子、二水源、水泥 厂、大亮子、金河湾湿 地、呼兰河口 pH、 DO、 PI、 COD、 BOD、 氨 氮、 TP、 TN、粪大肠菌群 黄河 甘肃段 161 扶河桥、包兰桥、什川 桥、靖远桥、 五佛 寺、 德高 桥、 地 沟 桥、 折 桥、曳湖峡、 玉井、 洮 园桥、 涅水桥、 桦 林、 伯阳桥、葡萄园、平镇 桥、拦洪坝、宁县桥头 COD、 氨 氮、 TP、 VP、粪大肠菌群 桦甸关 门砬子 水库 2 142 桦甸关门砬子水库 DO、 PI、 氨 氮、 TP、 TN 2.2 进化 SVM 的参数选择 本文选取每组数据源中 2 / 3 的数据作为训练样 本,1 / 3 的数据作为测试样本,训练过程采用 5 折交 叉验证。 水质监测指标作为输入向量,水质级别作 为输出向量,核函数选用常用的 RBF 函数。 采用 1.2节提出的方法对 SVM 的参数进行寻优,4 个数据 集的进化代数与适应度关系曲线分别如图 4 ~ 7 所 示,当惩罚因子 C、RBF 核函数参数 σ 和交叉确认 准确率分别取表 2 中的数值时,SVM 分类精度和泛 化能力最佳。 图 4 松花江松原段 GA 适应度曲线 Fig.4 GA fitness curves on Songyuan section, Songhua River 图 5 松花江黑龙江段 GA 适应度曲线 Fig.5 GA fitness curves on Heilongjiang section,Song⁃ hua River 图 6 黄河甘肃段 GA 适应度曲线 Fig.6 GA fitness curves on Gansu section,Yellow River 图 7 桦甸关门砬子水库 GA 适应度曲线 Fig.7 GA fitness curves on HuaDian Guanmenlazi dam 表 2 最佳参数 Table 2 The optimal parameters 数据来源 C σ 交叉确认准确率/ % 松花江松原段 2.549 3 3.304 9 88.888 9 松花江哈尔滨段 1.400 1 3.215 3 96.774 2 黄河甘肃段 2.285 1 289.598 2 93.814 4 桦甸关门砬子水库 0.162 975 58.629 9 100 第 5 期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·687·
·688 智能系统学报 第10卷 2.3水质评价结果 ronmental Pollution Control,1999,21(S):67-68,71. 为验证本文方法的有效性,将其结果与经典 [4]张召跃,王海燕,朱灵峰,等.主成分分析法在水节霉 SVM的结果进行了比较。经典SVM选择目前被广 生长水体水质评价中的应用J].环境工程学报,2011, 泛使用的台湾大学林智仁教授开发的免费软件包 5(5):1035-1040. LIBSVM进行计算。算法中的主要参数均采用默 ZHANG Zhaoyue,WANG Haiyan,ZHU Lingfeng,et al. Application of principal component analysis in quality evalu- 认值,即惩罚因子C=1,RBF核函数参数σ取样本 ation of water body with Leptomitus lacreus growth[J].Chi- 数据属性数的倒数。进化SVM算法中的惩罚因子 nese Journal of Environmental Engineering,2011,5(5): C和RBF核函数参数σ按表2取值。水质评估结 1035-1040. 果如表3所示。由表3可以看出,进化SVM水质评 [5]李凤超,刘存歧,管越强,等.应用多元分析方法评价 价模型的识别精度较经典SVM水质评价模型分别 白洋淀水质现状[J].河北大学学报:自然科学版。 提高16.7%、12.5%、33.3%和6.7%,较BP神经网络 2006,26(4):405-410. 方法分别提高7.7%、0%、1.7%和40.9%,这说明本 LI Fengchao,LIU Cunqi,GUAN Yueqiang,et al.Evalua- 文方法具有良好的分类精度和泛化性能。 ting current water quality of Baiyangdian Lake by using multi-variate analysis[J].Journal of Hebei University:Nat- 表3水质评价结果 ural Science Edition,2006,26(4):405-410. Table 3 The results of water quality assessment 0 [6]LIU L,ZHOU J Z,AN X L,et al.Using fuzzy theory and 松花江松 松花江 黄河 桦甸关门 方法 information entropy for water quality assessment in Three 原段 哈尔滨段 甘肃段位子水库 Gorges region,China[J].Expert Systems with Applica- BP 72.22 tions,2010,37(3):2517-2521. 85.71 92.19 67.04 [7]张萌,倪乐意,谢平,等.基于聚类和多重评价法的河 经典SVM 66.67 76.19 70.31 88.52 流质量评价研究[J].环境科学与技术,2009,32(12): 进化SVM 77.78 85.71 93.75 94.44 178-185. ZHANG Meng,NI Leyi,XIE Ping,et al.Water quality as- 3 结束语 sessment of a large river based on multiple assessment meth- od and cluster analysis[J].Environmental Science Tech- 本文建立的进化SVM模型采用的对SVM的惩 nology,2009,32(12):178-185. 罚因子C和RBF核函数参数σ进行参数优化,对比 [8]WEN C G,LEE C S.A neural network approach to multiob- 经典SVM方法具有一定的优势。将其应用于水质 jective optimization for water quality management in a river 评估问题中,实验结果表明该方法可获得较传统算 basin[J].Water Resources Research,1998,34(3):427- 法更好的精度。本文为水质综合评估提供了一条新 436. 途径,对及时掌握流域水污染状况和水文特征具有 [9]黄胜伟,董曼玲.自适应变步长BP神经网络在水质评 重要意义。 价中的应用J].水利学报,2002,(10):119-123. HUANG Shengwei,DONG Manling.Application of adaptive 参考文献: variable step size BP network to evaluate water quality[J]. Journal of Hydraulic Engineering,2002,(10):119-123. [1]朱灵峰,王燕,王阳阳,等.基于单因子指数法的海浪 [I0]罗定贵,王学军,郭青.基于MATLAB实现的ANN方 河水质评价[J].江苏农业科学,2012,40(3):326-327. 法在地下水质评价中的应用[J].北京大学学报:自然 ZHU Lingfeng,WANG Yan,WANG Yangyang,et al.Wa- 科学版,2004,40(2):296-302. ter quality assessment of Hailang River using single factor LUO Dinggui,WANG Xuejun,GUO Qing.The application index method[J].Journal of Jiangsu Agricultural Sciences, of ANN realized by MATLAB to underground water quality 2012,40(3):326-327. assessment[].Acta Scientiarum Naturalium Universitatis [2]张龙江.水质评价的模糊综合评判一加权平均复合模 Pekinensis.2004,40(2):296-302. 型应用[J].环境工程,2001,19(6):53-55 [11]曹艳龙,汪西莉,周兆永.基于BP神经网络的渭河水 ZHANG Longjiang.Application of fuzzy comprehensive 质评价方法[J].计算机工程与设计,2008,29(22): judgement and weighted average models to water quality as- 5910-5912.5916. sessment[J].Environmental Engineering,2001,19(6): CAO Yanlong,WANG Xili,ZHOU Zhaoyong.Water qual- 53-55. ity assessment method of Wei river based on BP neural net- [3]钱天鸣,余波.内梅罗污染指数在运河水质评价中的应 work[J].Computer Engineering and Design,2008,29 用[J].环境污染与防治,1999,21(增刊):67-68,71. (22):5910-5912,5916. QIAN Tianming,YU Bo.Application of the canal water [12]VAPNIK V.The nature of statistical learning theory [M]. quality evaluation using Nemerow pollution index[J].Envi- New York:Springer Verlag,1995:267-290
2.3 水质评价结果 为验证本文方法的有效性,将其结果与经典 SVM 的结果进行了比较。 经典 SVM 选择目前被广 泛使用的台湾大学林智仁教授开发的免费软件包 LIBSVM [19]进行计算。 算法中的主要参数均采用默 认值,即惩罚因子 C = 1,RBF 核函数参数 σ 取样本 数据属性数的倒数。 进化 SVM 算法中的惩罚因子 C 和 RBF 核函数参数 σ 按表 2 取值。 水质评估结 果如表 3 所示。 由表 3 可以看出,进化 SVM 水质评 价模型的识别精度较经典 SVM 水质评价模型分别 提高 16.7%、12.5%、 33.3%和 6.7%,较 BP 神经网络 方法分别提高 7.7%、0%、1.7%和 40.9%,这说明本 文方法具有良好的分类精度和泛化性能。 表 3 水质评价结果 Table 3 The results of water quality assessment % 方法 松花江松 原段 松花江 哈尔滨段 黄河 甘肃段 桦甸关门 砬子水库 BP 72.22 85.71 92.19 67.04 经典 SVM 66.67 76.19 70.31 88.52 进化 SVM 77.78 85.71 93.75 94.44 3 结束语 本文建立的进化 SVM 模型采用的对 SVM 的惩 罚因子 C 和 RBF 核函数参数 σ 进行参数优化,对比 经典 SVM 方法具有一定的优势。 将其应用于水质 评估问题中,实验结果表明该方法可获得较传统算 法更好的精度。 本文为水质综合评估提供了一条新 途径,对及时掌握流域水污染状况和水文特征具有 重要意义。 参考文献: [1]朱灵峰, 王燕, 王阳阳, 等. 基于单因子指数法的海浪 河水质评价[J]. 江苏农业科学, 2012, 40(3): 326⁃327. ZHU Lingfeng, WANG Yan, WANG Yangyang, et al. Wa⁃ ter quality assessment of Hailang River using single factor index method[J]. Journal of Jiangsu Agricultural Sciences, 2012, 40(3): 326⁃327. [2]张龙江. 水质评价的模糊综合评判———加权平均复合模 型应用[J]. 环境工程, 2001, 19(6): 53⁃55. ZHANG Longjiang. Application of fuzzy comprehensive judgement and weighted average models to water quality as⁃ sessment[ J]. Environmental Engineering, 2001, 19 ( 6): 53⁃55. [3]钱天鸣, 余波. 内梅罗污染指数在运河水质评价中的应 用[J]. 环境污染与防治, 1999, 21(增刊): 67⁃68, 71. QIAN Tianming, YU Bo. Application of the canal water quality evaluation using Nemerow pollution index[ J]. Envi⁃ ronmental Pollution & Control, 1999, 21(S): 67⁃68, 71. [4]张召跃, 王海燕, 朱灵峰, 等. 主成分分析法在水节霉 生长水体水质评价中的应用[ J]. 环境工程学报, 2011, 5(5): 1035⁃1040. ZHANG Zhaoyue, WANG Haiyan, ZHU Lingfeng, et al. Application of principal component analysis in quality evalu⁃ ation of water body with Leptomitus lacreus growth[J]. Chi⁃ nese Journal of Environmental Engineering, 2011, 5 ( 5): 1035⁃1040. [5]李凤超, 刘存歧, 管越强, 等. 应用多元分析方法评价 白洋淀水质现状 [ J]. 河北大学学报: 自然科学版, 2006, 26(4): 405⁃410. LI Fengchao, LIU Cunqi, GUAN Yueqiang, et al. Evalua⁃ ting current water quality of Baiyangdian Lake by using multi⁃variate analysis[J]. Journal of Hebei University: Nat⁃ ural Science Edition, 2006, 26(4): 405⁃410. [6]LIU L, ZHOU J Z, AN X L, et al. Using fuzzy theory and information entropy for water quality assessment in Three Gorges region, China [ J ]. Expert Systems with Applica⁃ tions, 2010, 37(3): 2517⁃2521. [7]张萌, 倪乐意, 谢平, 等. 基于聚类和多重评价法的河 流质量评价研究[ J]. 环境科学与技术, 2009, 32(12): 178⁃185. ZHANG Meng, NI Leyi, XIE Ping, et al. Water quality as⁃ sessment of a large river based on multiple assessment meth⁃ od and cluster analysis[J]. Environmental Science & Tech⁃ nology, 2009, 32(12): 178⁃185. [8]WEN C G, LEE C S. A neural network approach to multiob⁃ jective optimization for water quality management in a river basin[J]. Water Resources Research, 1998, 34(3): 427⁃ 436. [9]黄胜伟, 董曼玲. 自适应变步长 BP 神经网络在水质评 价中的应用[J]. 水利学报, 2002, (10): 119⁃123. HUANG Shengwei, DONG Manling. Application of adaptive variable step size BP network to evaluate water quality[ J]. Journal of Hydraulic Engineering, 2002, (10): 119⁃123. [10]罗定贵, 王学军, 郭青. 基于 MATLAB 实现的 ANN 方 法在地下水质评价中的应用[ J]. 北京大学学报: 自然 科学版, 2004, 40(2): 296⁃302. LUO Dinggui, WANG Xuejun, GUO Qing. The application of ANN realized by MATLAB to underground water quality assessment[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2004, 40(2): 296⁃302. [11]曹艳龙, 汪西莉, 周兆永. 基于 BP 神经网络的渭河水 质评价方法[ J]. 计算机工程与设计, 2008, 29( 22): 5910⁃5912, 5916. CAO Yanlong, WANG Xili, ZHOU Zhaoyong. Water qual⁃ ity assessment method of Wei river based on BP neural net⁃ work[ J]. Computer Engineering and Design, 2008, 29 (22): 5910⁃5912, 5916. [12]VAPNIK V. The nature of statistical learning theory[M]. New York: Springer Verlag, 1995: 267⁃290. ·688· 智 能 系 统 学 报 第 10 卷
第5期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·689· [13]XIANG Y R,JIANG L Z.Water quality prediction using [19]CHANG CC,LIN C J.LIBSVM:a library for support vee- LS-SVM with particle swarm optimization[Cl//Second In- tor machines[J].ACM Transactions on Intelligent Systems ternational Workshop Discovery and Data Mining.Moscow, and Technology,2011,2(3):27. Rus3ia,2009:901-904. 作者简介: [14]SINGH K P,BASANT N,GUPTA S.Support vector ma- 钱云,女,1972年生,副教授,主要 chines in water quality management[].Analytica Chimica 研究方向为智能计算及应用。发表学 Acta,2011,703(2):152-162. 术论文10余篇,其中被SCI检索2篇。 [15]张艳秋,王蔚.利用遗传算法优化的支持向量机垃圾邮 件分类[J].计算机应用,2009,29(10):2755-2757. ZHANG Yanqiu,WANG Wei.E-mail classification by SVM optimized with genetic algorithm[].Journal of Com- puter Applications,2009.29(10):2755-2757. 梁艳春,男,1953年生,教授。主要 [16]SAINI L M,AGGARWAL S K,KUMAR A.Parameter op- 研究方向为智能计算、文本挖掘、生物 timisation using genetic algorithm for support vector ma- 信息学。发表学术论文300余篇,其中 chine-based price-forecasting model in National electricity 被SCI检索100余篇。 market[J].IET Generation,Transmission Distribution, 2010,4(1):36-49. [17]SRINIVAS M,PATNAIK L M.Adaptive probabilities of crossover and mutation in genetic algorithm[J].IEEE 翟天放,男,1980年生,工程师,主 Transactions on Systems Man and Cybernetics,1994,24 要研究方向为水利信息化。 (4):656-667. [18]中国环境科学研究院.GB3838_2002地表水环境质量 标准[S].北京:中国环境科学出版社,2002. China Environmental Science Research Institute.GB3838_ 2002 The surface water environment quality standard[S]. Beijing:China Environmental Science Press,2002. 第二届大数据、物联网以及智能国际会议 The Second International Conference on Big-data,Internet of things, and Zero-size Intelligence You are invited to participate in the Second International Conference on Big-data,Internet of things,and Zero-size intelligence (BIZ2016)that will be held in Manchester,United Kingdom,on July 26-28,2016.The event will be held over three days,with presen- tations delivered by researchers from the international community,including presentations from keynote speakers and state-of-the-art lec- tures Important Dates: Submission Deadline:June 26,2016 Notification of Acceptance:July 5,2016 or 4 weeks from the submission date Camera Ready Submission:Open until July 16,2016 Registration Deadline:Open until July 16,2016 Conference Dates:July 26-28,2016 Website:http://sdiwc.net/conferences/biz2016/
[13]XIANG Y R, JIANG L Z. Water quality prediction using LS⁃SVM with particle swarm optimization[C] / / Second In⁃ ternational Workshop Discovery and Data Mining. Moscow, Russia, 2009: 901⁃904. [14]SINGH K P, BASANT N, GUPTA S. Support vector ma⁃ chines in water quality management[J]. Analytica Chimica Acta, 2011, 703(2): 152⁃162. [15]张艳秋, 王蔚. 利用遗传算法优化的支持向量机垃圾邮 件分类[J]. 计算机应用, 2009, 29(10): 2755⁃2757. ZHANG Yanqiu, WANG Wei. E⁃mail classification by SVM optimized with genetic algorithm[J]. Journal of Com⁃ puter Applications, 2009, 29(10): 2755⁃2757. [16]SAINI L M, AGGARWAL S K, KUMAR A. Parameter op⁃ timisation using genetic algorithm for support vector ma⁃ chine⁃based price⁃forecasting model in National electricity market[J]. IET Generation, Transmission & Distribution, 2010, 4(1): 36⁃49. [17] SRINIVAS M, PATNAIK L M. Adaptive probabilities of crossover and mutation in genetic algorithm [ J ]. IEEE Transactions on Systems Man and Cybernetics, 1994, 24 (4): 656⁃667. [18]中国环境科学研究院. GB3838_2002 地表水环境质量 标准[S]. 北京: 中国环境科学出版社, 2002. China Environmental Science Research Institute. GB3838_ 2002 The surface water environment quality standard[ S]. Beijing: China Environmental Science Press, 2002. [19]CHANG C C, LIN C J. LIBSVM: a library for support vec⁃ tor machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3):27. 作者简介: 钱云,女,1972 年生,副教授,主要 研究方向为智能计算及应用。 发表学 术论文 10 余篇,其中被 SCI 检索 2 篇。 梁艳春,男,1953 年生,教授。 主要 研究方向为智能计算、文本挖掘、生物 信息学。 发表学术论文 300 余篇,其中 被 SCI 检索 100 余篇。 翟天放,男,1980 年生,工程师,主 要研究方向为水利信息化。 第二届大数据、物联网以及智能国际会议 The Second International Conference on Big⁃data, Internet of things, and Zero⁃size Intelligence You are invited to participate in the Second International Conference on Big⁃data, Internet of things, and Zero⁃size intelligence (BIZ2016) that will be held in Manchester, United Kingdom, on July 26⁃28, 2016. The event will be held over three days, with presen⁃ tations delivered by researchers from the international community, including presentations from keynote speakers and state⁃of⁃the⁃art lec⁃ tures. Important Dates: Submission Deadline: June 26, 2016 Notification of Acceptance: July 5, 2016 or 4 weeks from the submission date Camera Ready Submission: Open until July 16, 2016 Registration Deadline: Open until July 16, 2016 Conference Dates: July 26⁃28, 2016 Website: http:/ / sdiwc.net / conferences/ biz2016/ 第 5 期 钱云,等:进化支持向量机模型及其在水质评估中的应用 ·689·