ｆ（ｘ）＝ ∑ ｎｉ＝１ αｉｙｉ (Φ（ｘｉ）·Φ（

正在加载图片...

686 智能系统学报第10卷 x)=三a((x)D(x)+b 4)交叉和变异操作。在选择操作中用于繁殖下一代的个体中，对2个不同染色体相同位置上的为避免低维空间到高维空间映射的复杂运算，基因以交叉概率P。进行交换，从而产生新的染色用低维空间的核函数代替高维空间中的内积运算，体。变异算子以一定的变异概率Pm随机改变字符即若有K(x,y)=Φ(x)·(y),得到的超平面为串某个位置上的值，随机将二进制编码基因串某个 Rx)=ao.k(x.x)+b 位置0变为1，或将1变为0。交叉概率P。和变异概率pm按照文献[17]的算法进行选择，使p。和pm能在SVM中，核函数的选取对算法的效果有重要够随适应度自动改变。影响，常用的核函数类型主要有线性核函数、多项式算法的流程如图3所示。核函数、径向基核函数和Sigmoid核函数等，其中最为常用的是径向基核函数，其形式为参数初始化种群初始化 K(x,y)=exp lx-y t 2o2 变异操作解码(C,o 1.2进化SVM模型惩罚系数C和核函数中的参数，如径向基中的交叉操作 SVM训练、宽度σ的选取是SVM算法中较为关键的问题。但验证是如何选取最佳的SVM参数一直没有一个统一的方法，这在很大程度上限制了它的实际应用。本文选择操作适应度计算采用GA方法进行SVM的参数选取，即惩罚系数C 和径向基函数宽度σ的选取。主要过程如下：是否满定 1)编码。在对SVM2个参数的组合进行优化终止条件时，RBF核函数参数σ和惩罚因子C取值范围采用 y 二进制编码，编码分别为m1位和m2位的二进制输出最优C,o 得到进化SVM 串，将m,+m2位二进制编码组合就得到个体染色体基因串，个体染色体基因串结构如图2所示。结束图3进化SVM流程 Fig.3 Flowchart of evolutionary SVM RBF核函数宽度a 惩罚因子C 2 实验结果及分析图2染色体结构 2.1 实验数据 Fig.2 Structure of chromosome 本文的实验数据来自松花江松原段、松花江哈 2)适应度评价函数。本文采用5折交叉验证尔滨段、黄河甘肃段和吉林桦甸关门位子水库日常法进行训练，即将训练样本分成5份，每次随机选择水质监测数据，主要水质监测项目有pH、溶解氧 4份进行训练，另外1份用作验证集。GA的适应度 (dissolved oxygen,DO)、高锰酸盐指数(permanga- 通过验证集的误差进行定义，即 nate index,.PI)、化学需氧量(chemical oxygen de- F(σ，C)= mand,COD)、生化需氧量(biochemical oxygen de- 0y:-fx:)2+E mand,BOD)、氨氮、总磷(total phosphorus,TP)、总氮(total phosphorus,TN)、挥发酚(volatile phenol, 式中：E是一个比较小的数，防止分母为零。 VP)、石油类和大肠种群等。剔出由于各种原因造 3)选择操作。本文采用基于排序的选择方案，成的缺失数据，其样本数、监测位置和监测项目详细按照适应度值对种群内的全部P个个体进行排序，第ⅱ个个体被选择的概率为信息如表1所示。其中松花江松原段选择2002年至2006年连续5年的每年丰水期、平水期和枯水期 P:=c(1-c)- 3个时段的水质监测数据：松花江哈尔滨段选择式中：c为排序第1的个体的选择概率，其选择需 2012年2月至10月连续9个月的4个断面、2个监满足测点，每月1次的水质监测数据：黄河甘肃段选择 2010年全年18个监测断面，每月1次的水质监测ｆ（ｘ）＝ ∑ ｎｉ＝１ αｉｙｉ (Φ（ｘｉ）·Φ（ｘ） ) ＋ｂ为避免低维空间到高维空间映射的复杂运算，用低维空间的核函数代替高维空间中的内积运算，即若有Ｋ（ｘ，ｙ）＝ Φ（ｘ）·Φ（ｙ），得到的超平面为ｆ（ｘ）＝ ∑ ｎｉ＝１ αｉｙｉＫ（ｘｉ，ｘ）＋ｂ在ＳＶＭ中，核函数的选取对算法的效果有重要影响，常用的核函数类型主要有线性核函数、多项式核函数、径向基核函数和Ｓｉｇｍｏｉｄ核函数等，其中最为常用的是径向基核函数，其形式为Ｋ（ｘ，ｙ）＝ｅｘｐ－ ‖ｘ－ｙ‖２２σ ２ æ è ç ö ø ÷ １．２进化ＳＶＭ模型惩罚系数Ｃ和核函数中的参数，如径向基中的宽度 σ 的选取是ＳＶＭ算法中较为关键的问题。但是如何选取最佳的ＳＶＭ参数一直没有一个统一的方法，这在很大程度上限制了它的实际应用。本文采用ＧＡ方法进行ＳＶＭ的参数选取，即惩罚系数Ｃ和径向基函数宽度 σ 的选取。主要过程如下：１）编码。在对ＳＶＭ２个参数的组合进行优化时，ＲＢＦ核函数参数 σ 和惩罚因子Ｃ取值范围采用二进制编码，编码分别为ｍ１位和ｍ２位的二进制串，将ｍ１＋ｍ２位二进制编码组合就得到个体染色体基因串，个体染色体基因串结构如图２所示。图２染色体结构Ｆｉｇ．２Ｓｔｒｕｃｔｕｒｅｏｆｃｈｒｏｍｏｓｏｍｅ２）适应度评价函数。本文采用５折交叉验证法进行训练，即将训练样本分成５份，每次随机选择４份进行训练，另外１份用作验证集。ＧＡ的适应度通过验证集的误差进行定义，即Ｆ（σ，Ｃ）＝１ ∑ ｍｉ＝１ｙｉ ( －ｆ（ｘｉ） ) ２＋ ε 式中：ε 是一个比较小的数，防止分母为零。３）选择操作。本文采用基于排序的选择方案，按照适应度值对种群内的全部Ｐ个个体进行排序，第ｉ个个体被选择的概率为ｐｉ＝ｃ（１－ｃ）ｉ－１式中：ｃ为排序第１的个体的选择概率，其选择需满足 ∑ Ｐｉ＝１ｐｉ＝ ∑ Ｐｉ＝１ｃ（１－ｃ）ｉ－１＝１４）交叉和变异操作。在选择操作中用于繁殖下一代的个体中，对２个不同染色体相同位置上的基因以交叉概率ｐｃ进行交换，从而产生新的染色体。变异算子以一定的变异概率ｐｍ随机改变字符串某个位置上的值，随机将二进制编码基因串某个位置０变为１，或将１变为０。交叉概率ｐｃ和变异概率ｐｍ按照文献［１７］的算法进行选择，使ｐｃ和ｐｍ能够随适应度自动改变。算法的流程如图３所示。图３进化ＳＶＭ流程Ｆｉｇ．３ＦｌｏｗｃｈａｒｔｏｆｅｖｏｌｕｔｉｏｎａｒｙＳＶＭ２实验结果及分析２．１实验数据本文的实验数据来自松花江松原段、松花江哈尔滨段、黄河甘肃段和吉林桦甸关门砬子水库日常水质监测数据，主要水质监测项目有ｐＨ、溶解氧（ｄｉｓｓｏｌｖｅｄｏｘｙｇｅｎ，ＤＯ）、高锰酸盐指数（ｐｅｒｍａｎｇａ⁃ ｎａｔｅｉｎｄｅｘ，ＰＩ）、化学需氧量（ｃｈｅｍｉｃａｌｏｘｙｇｅｎｄｅ⁃ ｍａｎｄ，ＣＯＤ）、生化需氧量（ｂｉｏｃｈｅｍｉｃａｌｏｘｙｇｅｎｄｅ⁃ ｍａｎｄ，ＢＯＤ）、氨氮、总磷（ｔｏｔａｌｐｈｏｓｐｈｏｒｕｓ，ＴＰ）、总氮（ｔｏｔａｌｐｈｏｓｐｈｏｒｕｓ，ＴＮ）、挥发酚（ｖｏｌａｔｉｌｅｐｈｅｎｏｌ，ＶＰ）、石油类和大肠种群等。剔出由于各种原因造成的缺失数据，其样本数、监测位置和监测项目详细信息如表１所示。其中松花江松原段选择２００２年至２００６年连续５年的每年丰水期、平水期和枯水期３个时段的水质监测数据；松花江哈尔滨段选择２０１２年２月至１０月连续９个月的４个断面、２个监测点，每月１次的水质监测数据；黄河甘肃段选择２０１０年全年１８个监测断面，每月１次的水质监测 ·６８６· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：机器学习：进化支持向量机模型及其在水质评估中的应用编辑部