正在加载图片...
686 智能系统学报 第10卷 x)=三a((x)D(x)+b 4)交叉和变异操作。在选择操作中用于繁殖 下一代的个体中,对2个不同染色体相同位置上的 为避免低维空间到高维空间映射的复杂运算, 基因以交叉概率P。进行交换,从而产生新的染色 用低维空间的核函数代替高维空间中的内积运算, 体。变异算子以一定的变异概率Pm随机改变字符 即若有K(x,y)=Φ(x)·(y),得到的超平面为 串某个位置上的值,随机将二进制编码基因串某个 Rx)=ao.k(x.x)+b 位置0变为1,或将1变为0。交叉概率P。和变异概 率pm按照文献[17]的算法进行选择,使p。和pm能 在SVM中,核函数的选取对算法的效果有重要 够随适应度自动改变。 影响,常用的核函数类型主要有线性核函数、多项式 算法的流程如图3所示。 核函数、径向基核函数和Sigmoid核函数等,其中最 为常用的是径向基核函数,其形式为 参数初始化 种群初始化 K(x,y)=exp lx-y t 2o2 变异操作 解码(C,o 1.2进化SVM模型 惩罚系数C和核函数中的参数,如径向基中的 交叉操作 SVM训练、 宽度σ的选取是SVM算法中较为关键的问题。但 验证 是如何选取最佳的SVM参数一直没有一个统一的 方法,这在很大程度上限制了它的实际应用。本文 选择操作 适应度计算 采用GA方法进行SVM的参数选取,即惩罚系数C 和径向基函数宽度σ的选取。主要过程如下: 是否满定 1)编码。在对SVM2个参数的组合进行优化 终止条件 时,RBF核函数参数σ和惩罚因子C取值范围采用 y 二进制编码,编码分别为m1位和m2位的二进制 输出最优C,o 得到进化SVM 串,将m,+m2位二进制编码组合就得到个体染色体 基因串,个体染色体基因串结构如图2所示。 结束 图3进化SVM流程 Fig.3 Flowchart of evolutionary SVM RBF核函数宽度a 惩罚因子C 2 实验结果及分析 图2染色体结构 2.1 实验数据 Fig.2 Structure of chromosome 本文的实验数据来自松花江松原段、松花江哈 2)适应度评价函数。本文采用5折交叉验证 尔滨段、黄河甘肃段和吉林桦甸关门位子水库日常 法进行训练,即将训练样本分成5份,每次随机选择 水质监测数据,主要水质监测项目有pH、溶解氧 4份进行训练,另外1份用作验证集。GA的适应度 (dissolved oxygen,DO)、高锰酸盐指数(permanga- 通过验证集的误差进行定义,即 nate index,.PI)、化学需氧量(chemical oxygen de- F(σ,C)= mand,COD)、生化需氧量(biochemical oxygen de- 0y:-fx:)2+E mand,BOD)、氨氮、总磷(total phosphorus,TP)、总 氮(total phosphorus,TN)、挥发酚(volatile phenol, 式中:E是一个比较小的数,防止分母为零。 VP)、石油类和大肠种群等。剔出由于各种原因造 3)选择操作。本文采用基于排序的选择方案, 成的缺失数据,其样本数、监测位置和监测项目详细 按照适应度值对种群内的全部P个个体进行排序, 第ⅱ个个体被选择的概率为 信息如表1所示。其中松花江松原段选择2002年 至2006年连续5年的每年丰水期、平水期和枯水期 P:=c(1-c)- 3个时段的水质监测数据:松花江哈尔滨段选择 式中:c为排序第1的个体的选择概率,其选择需 2012年2月至10月连续9个月的4个断面、2个监 满足 测点,每月1次的水质监测数据:黄河甘肃段选择 2010年全年18个监测断面,每月1次的水质监测f(x) = ∑ n i = 1 αi yi (Φ(xi)·Φ(x) ) + b 为避免低维空间到高维空间映射的复杂运算, 用低维空间的核函数代替高维空间中的内积运算, 即若有 K(x, y)= Φ(x)·Φ(y),得到的超平面为 f(x) = ∑ n i = 1 αi yiK(xi,x) + b 在 SVM 中,核函数的选取对算法的效果有重要 影响,常用的核函数类型主要有线性核函数、多项式 核函数、径向基核函数和 Sigmoid 核函数等,其中最 为常用的是径向基核函数,其形式为 K(x,y) = exp - ‖x - y‖2 2σ 2 æ è ç ö ø ÷ 1.2 进化 SVM 模型 惩罚系数 C 和核函数中的参数,如径向基中的 宽度 σ 的选取是 SVM 算法中较为关键的问题。 但 是如何选取最佳的 SVM 参数一直没有一个统一的 方法,这在很大程度上限制了它的实际应用。 本文 采用 GA 方法进行 SVM 的参数选取,即惩罚系数 C 和径向基函数宽度 σ 的选取。 主要过程如下: 1)编码。 在对 SVM 2 个参数的组合进行优化 时,RBF 核函数参数 σ 和惩罚因子 C 取值范围采用 二进制编码,编码分别为 m1 位和 m2 位的二进制 串,将 m1 +m2 位二进制编码组合就得到个体染色体 基因串,个体染色体基因串结构如图 2 所示。 图 2 染色体结构 Fig.2 Structure of chromosome 2)适应度评价函数。 本文采用 5 折交叉验证 法进行训练,即将训练样本分成 5 份,每次随机选择 4 份进行训练,另外 1 份用作验证集。 GA 的适应度 通过验证集的误差进行定义,即 F(σ,C) = 1 ∑ m i = 1 yi ( - f(xi) ) 2 + ε 式中:ε 是一个比较小的数,防止分母为零。 3)选择操作。 本文采用基于排序的选择方案, 按照适应度值对种群内的全部 P 个个体进行排序, 第 i 个个体被选择的概率为 pi = c(1 - c) i-1 式中:c 为排序第 1 的个体的选择概率,其选择需 满足 ∑ P i = 1 pi = ∑ P i = 1 c (1 - c) i-1 = 1 4)交叉和变异操作。 在选择操作中用于繁殖 下一代的个体中,对 2 个不同染色体相同位置上的 基因以交叉概率 pc 进行交换,从而产生新的染色 体。 变异算子以一定的变异概率 pm 随机改变字符 串某个位置上的值,随机将二进制编码基因串某个 位置 0 变为 1,或将 1 变为 0。 交叉概率 pc 和变异概 率 pm 按照文献[17]的算法进行选择,使 pc 和 pm 能 够随适应度自动改变。 算法的流程如图 3 所示。 图 3 进化 SVM 流程 Fig.3 Flowchart of evolutionary SVM 2 实验结果及分析 2.1 实验数据 本文的实验数据来自松花江松原段、松花江哈 尔滨段、黄河甘肃段和吉林桦甸关门砬子水库日常 水质监测数据,主要水质监测项目有 pH、溶解氧 (dissolved oxygen, DO)、高锰酸盐指数( permanga⁃ nate index, PI)、化学需氧量( chemical oxygen de⁃ mand, COD)、生化需氧量( biochemical oxygen de⁃ mand, BOD)、氨氮、总磷(total phosphorus, TP)、总 氮( total phosphorus, TN)、挥发酚( volatile phenol, VP)、石油类和大肠种群等。 剔出由于各种原因造 成的缺失数据,其样本数、监测位置和监测项目详细 信息如表 1 所示。 其中松花江松原段选择 2002 年 至 2006 年连续 5 年的每年丰水期、平水期和枯水期 3 个时段的水质监测数据;松花江哈尔滨段选择 2012 年 2 月至 10 月连续 9 个月的 4 个断面、2 个监 测点,每月 1 次的水质监测数据;黄河甘肃段选择 2010 年全年 18 个监测断面,每月 1 次的水质监测 ·686· 智 能 系 统 学 报 第 10 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有