第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905025 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190719.1413.002.html 基于人工鱼群算法的孪生支持向量机 李景灿2,丁世飞2 (1.中国矿业大学计算机科学与技术学院江苏徐州221116;2.矿山数字化教育部工程研究中心,江苏徐州 221116) 摘要:孪生支持向量机(twin support vector machine,.TWSVM是在支持向量机的基础上产生的机器学习算法, 具有训练速度快、分类性能优越等优点。但是孪生支持向量机无法很好地处理参数选择问题,不合适的参数会 降低分类能力。人工鱼群算法(artificial fish swarm algorithm,AFSA)是一种群智能优化算法,具有较强的全局寻 优能力和并行处理能力。本文将李生支持向量机与人工鱼群算法结合,来解决孪生支持向量机的参数选择问 题。首先将李生支持向量机的参数作为人工鱼的位置信息,同时将分类准确率作为目标函数,然后通过人工鱼 的觅食、聚群、追尾和随机行为来更新位置和最优解,最后迭代结束时得到最优参数和最优分类准确率。该算 法在训练过程中自动确定孪生支持向量机的参数,避免了参数选择的盲目性,提高了孪生支持向量机的分类性能。 关键词:李生支持向量机:人工鱼群算法;模式分类;参数优化:准确率:群体智能:二次规划;并行处理;全局优化 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2019)06-1121-06 中文引用格式:李景灿,丁世飞.基于人工鱼群算法的李生支持向量机J.智能系统学报,2019,14(6):1121-1126. 英文引用格式:LI Jingcan,DING Shifei..Twin support vector machine based on artificial fish swarm algorithmJ.CAAI transac- tions on intelligent systems,2019,14(6):1121-1126. Twin support vector machine based on artificial fish swarm algorithm LI Jingcan,DING Shifei2 (1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;2.Mine Di- gitization Engineering Research Center of Minstry of Education of the People's Republic of China,Xuzhou 221116,China) Abstract:Twin support vector machine(TWSVM)is a machine learning algorithm based on the support vector ma- chine.It has the advantages of fast training speed and superior classification performance.However,the algorithm can- not handle the parameter selection problem effectively,and the inappropriate parameters will reduce the classification ability.The artificial fish swarm algorithm(AFSA)is a group intelligent optimization algorithm with a strong global op- timization ability and parallel processing capability.In this paper,TWSVM and AFSA are combined to solve the para- meter selection problem of the TWSVM.First,the parameters of the support vector machine are taken as the position in- formation of the artificial fish,and the classification accuracy is taken as the objective function.Then,the position and the optimal solution are updated by the artificial fish's preying,swarming,following,and random behavior.At the end of the iterations,the optimal parameters and the optimal classification accuracy are obtained.The algorithm automatic- ally determines the parameters of the TWSVM in the training process,avoiding the blindness of parameter selection,and improves the classification performance of the TWSVM Keywords:twin support vector machine;artificial fish swarm algorithm;pattern classification;parameter optimization; accuracy;swarm intelligence;quadratic programming;parallel processing,global optimization 支持向量机(support vector machine,.SVM)) 收稿日期:2019-05-13.网络出版日期:2019-07-22 是一种基于统计学习理论的VC维和结构风险最 基金项目:国家自然科学基金项目(61672522,61379101). 通信作者:丁世飞.E-mail:dingsf@cumt.edu.cn. 小化原理的机器学习方法,由Cortes和Vapik
DOI: 10.11992/tis.201905025 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190719.1413.002.html 基于人工鱼群算法的孪生支持向量机 李景灿1,2,丁世飞1,2 (1. 中国矿业大学 计算机科学与技术学院 江苏 徐州 221116; 2. 矿山数字化教育部工程研究中心,江苏 徐州 221116) 摘 要:孪生支持向量机 (twin support vector machine, TWSVM) 是在支持向量机的基础上产生的机器学习算法, 具有训练速度快、分类性能优越等优点。但是孪生支持向量机无法很好地处理参数选择问题,不合适的参数会 降低分类能力。人工鱼群算法 (artificial fish swarm algorithm, AFSA) 是一种群智能优化算法,具有较强的全局寻 优能力和并行处理能力。本文将孪生支持向量机与人工鱼群算法结合,来解决孪生支持向量机的参数选择问 题。首先将孪生支持向量机的参数作为人工鱼的位置信息,同时将分类准确率作为目标函数,然后通过人工鱼 的觅食、聚群、追尾和随机行为来更新位置和最优解,最后迭代结束时得到最优参数和最优分类准确率。该算 法在训练过程中自动确定孪生支持向量机的参数,避免了参数选择的盲目性,提高了孪生支持向量机的分类性能。 关键词:孪生支持向量机;人工鱼群算法;模式分类;参数优化;准确率;群体智能;二次规划;并行处理;全局优化 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2019)06−1121−06 中文引用格式:李景灿, 丁世飞. 基于人工鱼群算法的孪生支持向量机 [J]. 智能系统学报, 2019, 14(6): 1121–1126. 英文引用格式:LI Jingcan, DING Shifei. Twin support vector machine based on artificial fish swarm algorithm[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1121–1126. Twin support vector machine based on artificial fish swarm algorithm LI Jingcan1,2 ,DING Shifei1,2 (1. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China; 2. Mine Digitization Engineering Research Center of Minstry of Education of the People's Republic of China, Xuzhou 221116, China) Abstract: Twin support vector machine (TWSVM) is a machine learning algorithm based on the support vector machine. It has the advantages of fast training speed and superior classification performance. However, the algorithm cannot handle the parameter selection problem effectively, and the inappropriate parameters will reduce the classification ability. The artificial fish swarm algorithm (AFSA) is a group intelligent optimization algorithm with a strong global optimization ability and parallel processing capability. In this paper, TWSVM and AFSA are combined to solve the parameter selection problem of the TWSVM. First, the parameters of the support vector machine are taken as the position information of the artificial fish, and the classification accuracy is taken as the objective function. Then, the position and the optimal solution are updated by the artificial fish’s preying, swarming, following, and random behavior. At the end of the iterations, the optimal parameters and the optimal classification accuracy are obtained. The algorithm automatically determines the parameters of the TWSVM in the training process, avoiding the blindness of parameter selection, and improves the classification performance of the TWSVM Keywords: twin support vector machine; artificial fish swarm algorithm; pattern classification; parameter optimization; accuracy; swarm intelligence; quadratic programming; parallel processing; global optimization 支持向量机 (support vector machine, SVM) [1] 是一种基于统计学习理论的 VC 维和结构风险最 小化原理的机器学习方法,由 Cortes 和 Vapik[2] 收稿日期:2019−05−13. 网络出版日期:2019−07−22. 基金项目:国家自然科学基金项目 (61672522,61379101). 通信作者:丁世飞. E-mail:dingsf@cumt.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
·1122· 智能系统学报 第14卷 于1995年提出。其在解决小样本、非线性和高维 A∈Rm表示+1类的训练样本,B∈Rm表示 模式识别问题中有许多优势,目前已被应用到很 -1类的训练样本。TWSVM的训练过程是要在 多领域,例如文本分类、时间序列分析、模式识别 R”中找到两个非平行的超平面: 和图像处理等B刀。为了提高支持向量机的性能, K(xT,CT)w1+b1=0,K(xT,C)w2+b2=0(1) 学者们提出了许多改进算法。例如最小二乘支持 其中K为核函数,C=[A;B]代表所有的训练样本, 向量机⑧1、近似支持向量机例和基于广义特征值 w:(i=1,2)是分类超平面的法向量,b.(i=1,2)为 的近似支持向量机0等。2007年,基于广义特征 偏置。 值近似支持向量机的思想,Jayadeva等]提出了 通过求解下面两个二次规划问题可以得到这 李生支持向量机。和SVM不同,TWSVM是生成 两个超平面: 两个非平行的分类超平面,使得其中一个超平面 尽量接近一类样本,并且尽可能的远离另一类样 (.c o (2) 本。TWSVM211将单个大型二次规划问题转化 s.l.-(K(B,C)w1+e2b)≥e2-52,52≥0 为两个较小的二次规划问题,明显缩短了运行时 间。虽然孪生支持向量机的发展时间较短,但由 K(B.CTw+eb+ce6 (3) 于其坚实的理论基础和出色的性能表现,已经成 s.t(K(A,C)w2+e1b2)≥e1-5i,51≥0 为机器学习领域的一个研究热点。许多学者对 其中c1和c2是惩罚参数,e1和e2是两个全1列向 TWSVM的研究做出了贡献,并取得了很多成 量,5和2是松弛变量。 果。例如光滑李生支持向量机、最小二乘李生 测试样本离哪个超平面近,就属于哪一类 支持向量机1刀、模糊孪生支持向量机和投影 别,若 李生支持向量机920等。 K(x".CT)w,+b=minK(x".CTw;+b (4) 尽管近年来对TWSVM的研究在算法改进及 则x属于第r类,其中r∈{1,2。 其应用方面取得了很大的进展,但是仍有不足之 1.2人工鱼群算法 处,其中之一就是TWSVM无法很好地处理参数 人工鱼群算法是一种基于群体智能的优化算 选择问题。参数对分类结果有很大的影响,一个 法,其灵感来自于鱼群行为。在AFSA中,每条人 好的参数将直接提升TWSVM的性能。网格搜索P四 工鱼(artificial fish,AF)根据其当前状态和周围环 是最普遍的参数选择方法,但是这种方法很耗 境状态调整其行为。在每次迭代过程中,人工鱼 时。Dig等a采用粒子群算法和量子粒子群算 通过觅食、聚群、追尾和随机这4种行为来更新 法对TWSVM的参数进行优化。Zhai等I24 自己。 将粒子群算法与局部搜索算法结合,提出了一种 假设X:=(,2,…,x)是人工鱼AF,的当前状 混合粒子群算法来优化小波孪生支持向量机的参 态;Y=f(X)是X,的适应度函数;Visual是人工 数。随后,Sartakhti等2将最小二乘孪生支持向 鱼的视野范围;try_number是觅食行为的最大尝 量机与模拟退火算法结合来提高分类准确率。 试次数;6是拥挤度因子;Step表示人工鱼移动的 人工鱼群算法(artificial fish swarm algorithm, 步长;n表示视野内的人工鱼数目。对于人工鱼 AFSA)2是一种基于动物行为的群体智能优化算 AF,其视野内的一个随机状态X可以用式(⑤)来 法。该算法具有收敛速度快、灵活性强、容错性 表示,其中Rand0是介于0和1之前的随机数。 强、准确率高等优点。本文将人工鱼群算法与孪 当满足更新条件时,AF,用式(6)更新其状态。 生支持向量机进行结合,以分类准确率作为适应 X =X;+Visual.Rand() (5) 度值,来对惩罚参数和核参数进行优化,提高算 X=X+ X-X (6) 法的有效性。 X-XI Step.RandO 人工鱼的4种行为描述如下: 1相关理论 1)觅食行为:AF,用式(⑤)在其视野范围内随 1.1孪生支持向量机 机选择一个状态X,。如果在求极大值问题中, 假设在n维实空间R”中有m个训练样本,其 YY,它们之间可以转 中属于+1类的有m1个,属于-1类的有m2个。令 换),则根据式(6)向X移动一步。否则,再重新
于 1995 年提出。其在解决小样本、非线性和高维 模式识别问题中有许多优势,目前已被应用到很 多领域,例如文本分类、时间序列分析、模式识别 和图像处理等[3-7]。为了提高支持向量机的性能, 学者们提出了许多改进算法。例如最小二乘支持 向量机[8] 、近似支持向量机[9] 和基于广义特征值 的近似支持向量机[10] 等。2007 年,基于广义特征 值近似支持向量机的思想,Jayadeva 等 [11] 提出了 孪生支持向量机。和 SVM 不同,TWSVM 是生成 两个非平行的分类超平面,使得其中一个超平面 尽量接近一类样本,并且尽可能的远离另一类样 本。TWSVM[12-13] 将单个大型二次规划问题转化 为两个较小的二次规划问题,明显缩短了运行时 间。虽然孪生支持向量机的发展时间较短,但由 于其坚实的理论基础和出色的性能表现,已经成 为机器学习领域的一个研究热点。许多学者对 TWSVM 的研究做出了贡献,并取得了很多成 果。例如光滑孪生支持向量机[14] 、最小二乘孪生 支持向量机[15-17] 、模糊孪生支持向量机[18] 和投影 孪生支持向量机[19-20] 等。 尽管近年来对 TWSVM 的研究在算法改进及 其应用方面取得了很大的进展,但是仍有不足之 处,其中之一就是 TWSVM 无法很好地处理参数 选择问题。参数对分类结果有很大的影响,一个 好的参数将直接提升 TWSVM 的性能。网格搜索[21] 是最普遍的参数选择方法,但是这种方法很耗 时。Ding 等 [22-23] 采用粒子群算法和量子粒子群算 法 对 TWSVM 的参数进行优化。 Zha i 等 [ 2 4 ] 将粒子群算法与局部搜索算法结合,提出了一种 混合粒子群算法来优化小波孪生支持向量机的参 数。随后,Sartakhti 等 [25] 将最小二乘孪生支持向 量机与模拟退火算法结合来提高分类准确率。 人工鱼群算法 (artificial fish swarm algorithm, AFSA)[26] 是一种基于动物行为的群体智能优化算 法。该算法具有收敛速度快、灵活性强、容错性 强、准确率高等优点。本文将人工鱼群算法与孪 生支持向量机进行结合,以分类准确率作为适应 度值,来对惩罚参数和核参数进行优化,提高算 法的有效性。 1 相关理论 1.1 孪生支持向量机 假设在 n 维实空间 R n 中有 m 个训练样本,其 中属于+1 类的有 m1 个,属于−1 类的有 m2 个。令 A ∈ R m1×n B ∈ R 表 示 m2×n +1 类的训练样本, 表 示 −1 类的训练样本。TWSVM 的训练过程是要在 R n 中找到两个非平行的超平面: K(x T ,C T )w1 +b1 = 0,K(x T ,C T )w2 +b2= 0 (1) wi(i = 1,2) bi(i = 1,2) 其中 K 为核函数, C=[A;B] 代表所有的训练样本, 是分类超平面的法向量, 为 偏置。 通过求解下面两个二次规划问题可以得到这 两个超平面: min w1 ,b1 ,ξ1 1 2 K(A,C T )w1 +e1b1 2 +c1e T 2 ξ2 s.t. −(K(B,C T )w1 +e2b1) ⩾ e2 −ξ2,ξ2 ⩾ 0 (2) min w2 ,b2 ,ξ2 1 2 K(B,C T )w2 +e2b2 2 +c2e T 1 ξ1 s.t. (K(A,C T )w2 +e1b2) ⩾ e1 −ξ1,ξ1 ⩾ 0 (3) ξ1 ξ2 其中 c1 和 c2 是惩罚参数,e1 和 e2 是两个全 1 列向 量, 和 是松弛变量。 测试样本离哪个超平面近,就属于哪一类 别,若 K(x T ,C T )wr +br = min i=1,2 K(x T ,C T )wi +bi (4) 则 x 属于第 r 类,其中 r ∈ {1,2}。 1.2 人工鱼群算法 人工鱼群算法是一种基于群体智能的优化算 法,其灵感来自于鱼群行为。在 AFSA 中,每条人 工鱼 (artificial fish, AF) 根据其当前状态和周围环 境状态调整其行为。在每次迭代过程中,人工鱼 通过觅食、聚群、追尾和随机这 4 种行为来更新 自己。 Xi = (x1, x2,··· , xn) Yi = f(Xi) Xi δ Xj Rand() 假设 是人工鱼 AFi 的当前状 态; 是 的适应度函数;Visual 是人工 鱼的视野范围;try_number 是觅食行为的最大尝 试次数; 是拥挤度因子; Step 表示人工鱼移动的 步长; nf 表示视野内的人工鱼数目。对于人工鱼 AFi,其视野内的一个随机状态 可以用式 (5) 来 表示,其中 是介于 0 和 1 之前的随机数。 当满足更新条件时,AFi 用式 (6) 更新其状态。 Xj = Xi +Visual·Rand() (5) X t+1 i = X t i + Xj − X t i Xj − X t i ∥ Step ·Rand() (6) 人工鱼的 4 种行为描述如下: Xj Yi Yj Xj 1) 觅食行为:AFi 用式 (5) 在其视野范围内随 机选择一个状态 。如果在求极大值问题中, (在求极小值时为 ,它们之间可以转 换),则根据式 (6) 向 移动一步。否则,再重新 ·1122· 智 能 系 统 学 报 第 14 卷
第6期 李景灿,等:基于人工鱼群算法的李生支持向量机 ·1123· 随机选择状态X,判断是否满足要求Y:Y且Y/m>6.Y,表明伙伴中心有更 初始化鱼群 多食物且不拥挤,则根据式(6)向X移动一步, 否则执行觅食行为。 将人工鱼代入TWSVM,计算 人工鱼的适应值 3)追尾行为:假设X。是视野范围内找到的最 好位置,如果Y/mr>6Y,表明位置X有更多食 循环每条鱼 物且不拥挤,则根据式(6)向X。的方向前进一 步,否则执行觅食行为。 尝试聚群行为 尝试追尾行为 4)随机行为:AF,在其视野范围内随机选择 一个位置,然后向该方向移动一步,它是觅食行 个体是否得到 为的一个缺省行为。 改善 以上4种行为在不同条件下会相互转换,人 N 工鱼会选择合适的行为以找到更优解的位置。 执行觅食行为 2AFSA-TWSVM算法 比较执行完聚 个体是否得 群行为和追尾 AFSA-TWSVM的核心思想是通过AFSA找 到改善 行为的人工鱼 到TWSVM的最优参数。人工鱼AF,的位置 适应值大小, IN 选择更优行为 X=(x1,2,·x)对应TWSVM的一组参数,该位 执行 是否达到最 N 置是一个向量,其维数代表参数的个数。AFSA- 大尝试次数 TWSVM的目标函数是TWSVM的分类准确率, Y AFSA找到的最佳位置就是TWSVM的最佳参数。 执行随机行为」 AFSA-TWSVM的算法步骤如下: 1)初始化设置,包括人工鱼群规模N、最大 计算每条鱼的新适应值 并更新最优解 迭代次数K、每个人工鱼的初始位置、步长Step、 t 视野Visual、尝试次数ty_number、拥挤度因子6 和TWSVM的参数上下限。 是否达到最大 迭代次数 2)以人工鱼的位置为参数计算孪生支持向量 机的分类准确率,将分类准确率作为日标函数进 y 结束 行寻优。得到每个人工鱼的适应度值,并记录全 局最优的人工鱼的位置。 图1AFSA-TWSVM流程图 Fig.1 The flowchart of AFSA-WTWSVM 3)每个人工鱼都执行聚群行为和追尾行为, 并判断个体是否得到改善。如果得到改善,则选 3实验结果及分析 择一个更优行为执行,否则执行觅食行为。 4)执行人工鱼选择的行为,更新每条人工鱼 为了验证基于人工鱼群算法的孪生支持向量 的位置。 机的有效性,选取UCI机器学习数据库中的8个 5)更新全局最优人工鱼的状态。 常用数据集来进行测试,数据集的基本特征如表1 6)判断是否达到最大迭代次数,如果是则输 所示。为了得到更可靠的测试结果,本文使用十 出最优解和对应的参数组合,否则迭代次数加1, 折交叉验证方法。实验在Matlab环境下实现,硬 并跳转到2)。 件配置为Windows10操作系统,4GB内存,250GB AFSA-TWSVM的流程图如图1所示,通过 硬盘,i5-2400和3.1GHz主频CPU的计算机
随机选择状态 Xj ,判断是否满足要求 Yi Yi Yc/nf > δ ·Yi Xc 2) 聚群行为:假设 是视野范围内的中心位 置,如果 且 ,表明伙伴中心有更 多食物且不拥挤,则根据式 (6) 向 移动一步, 否则执行觅食行为。 Xb Yb/nf > δ ·Yi Xb Xb 3) 追尾行为:假设 是视野范围内找到的最 好位置,如果 ,表明位置 有更多食 物且不拥挤,则根据式 (6) 向 的方向前进一 步,否则执行觅食行为。 4) 随机行为:AFi 在其视野范围内随机选择 一个位置,然后向该方向移动一步,它是觅食行 为的一个缺省行为。 以上 4 种行为在不同条件下会相互转换,人 工鱼会选择合适的行为以找到更优解的位置。 2 AFSA-TWSVM 算法 Xi = (x1, x2,··· , xn) AFSA-TWSVM 的核心思想是通过 AFSA 找 到 TWSVM 的最优参数。人工鱼 AFi 的位置 对应 TWSVM 的一组参数,该位 置是一个向量,其维数代表参数的个数。AFSATWSVM 的目标函数是 TWSVM 的分类准确率, AFSA 找到的最佳位置就是 TWSVM 的最佳参数。 AFSA-TWSVM 的算法步骤如下: N K Step Visual try_number δ 1) 初始化设置,包括人工鱼群规模 、最大 迭代次数 、每个人工鱼的初始位置、步长 、 视野 、尝试次数 、拥挤度因子 和 TWSVM 的参数上下限。 2) 以人工鱼的位置为参数计算孪生支持向量 机的分类准确率,将分类准确率作为目标函数进 行寻优。得到每个人工鱼的适应度值,并记录全 局最优的人工鱼的位置。 3) 每个人工鱼都执行聚群行为和追尾行为, 并判断个体是否得到改善。如果得到改善,则选 择一个更优行为执行,否则执行觅食行为。 4) 执行人工鱼选择的行为,更新每条人工鱼 的位置。 5) 更新全局最优人工鱼的状态。 6) 判断是否达到最大迭代次数,如果是则输 出最优解和对应的参数组合,否则迭代次数加 1, 并跳转到 2) 。 AFSA-TWSVM 的流程图如图 1 所示,通过 这个流程图可以直观地看出本文所提出算法的 过程。 开始 初始化鱼群 将人工鱼代入TWSVM,计算 人工鱼的适应值 循环每条鱼 尝试聚群行为 尝试追尾行为 个体是否得到 改善 执行觅食行为 个体是否得 到改善 执行随机行为 计算每条鱼的新适应值 并更新最优解 是否达到最大 迭代次数 结束 是否达到最 大尝试次数 Y N 比较执行完聚 群行为和追尾 行为的人工鱼 适应值大小, 选择更优行为 执行 N Y Y N Y N 图 1 AFSA-TWSVM 流程图 Fig. 1 The flowchart of AFSA-WTWSVM 3 实验结果及分析 为了验证基于人工鱼群算法的孪生支持向量 机的有效性,选取 UCI 机器学习数据库中的 8 个 常用数据集来进行测试,数据集的基本特征如表 1 所示。为了得到更可靠的测试结果,本文使用十 折交叉验证方法。实验在 Matlab 环境下实现,硬 件配置为 Windows 10 操作系统,4 GB 内存,250 GB 硬盘,i5-2400 和 3.1 GHz 主频 CPU 的计算机。 第 6 期 李景灿,等:基于人工鱼群算法的孪生支持向量机 ·1123·
·1124· 智能系统学报 第14卷 表1实验数据集的特征 表2各算法在不同数据集上的分类准确率 Table 1 Data feature of the datasets Table 2 Classification Accuracy of Different Algorithms 数据集 样本数 on Different Datasets 特征数 准确率±标准差% Sonar 208 60 数据集AFSA- PSO-Gird- Haberman 306 3 TWSVM TWSVM TWSVMTWSVM Heart-c 303 13 Sonar 94.73±3.3491.83±3.7288.42±7.8086.64±7.31 WPBC 198 34 Haberman80.70肚3.7280.34±6.1479.40±4.0373.62±4.61 Statlog 270 13 Heart-c85.09±7.3884.46±5.8084.09±7.7779.82±4.90 Votes 435 16 WPBC 84.86±3.1182.27±6.5482.39±7.0578.65±8.81 Ionosphere 351 34 Statlog83.70±5.7984.81±5.6082.96±6.6779.26±6.02 Liver 345 6 Votes95.62±2.1894.72±3.9494.23±3.4793.54±3.73 1 onosphere96.88±2.3296.01±3.4396.54±3.8094.31±4.21 在实验中,选取未优化参数的孪生支持向 Liver 78.00±5.4278.25±5.2977.92±9.4673.90±6.24 量、基于网格搜索的孪生支持向量机(Grid-TWS- Mean acc 87.45 86.59 85.75 82.47 VM)和基于粒子群算法的孪生支持向量机(PSO- W-T-L 6-0-2 8-0-0 8-0-0 TWSVM)作为对比实验,与AFSA-TWSVM进行 比较。由于Gauss径向基函数具有较好的适应 性,故选取该函数作为核函数进行实验。 表3不同数据集上的运行时间 Table 3 Running time on different data sets min 孪生支持向量机的惩罚参数c1、c3和高斯核 函数相关参数R(R=1/σ2)的取值范围为(0,10]。 数据集 AFSA-TWSVM PSO-TWSVM Gird-TWSVM 人工鱼群算法的最大尝试次数ty_number为5,视 Sonar 34.01 15.13 20.97 野Visual为0.5,步长Step为0.l,拥挤度因子6为 Haberman 40.03 18.76 27.83 0.618。粒子群算法中速度上界为1,速度下界为 Heart-c 73.47 21.01 26.10 -1,学习因子1和2都为2。AFSA和PS0的种 WPBC 34.07 19.98 23.07 群规模N为10,最大迭代次数为50。 Statlog 30.17 18.47 33.86 表2给出了4种算法的十折交叉验证的平均 Votes 105.05 46.03 45.69 分类准确率和标准差,表3给出了在不同数据集 Ionosphere 79.21 30.91 35.84 上的运行时间,图2是分类准确率效果图。为了 Liver 82.42 25.27 30.99 更好地体现算法的优越性,用加粗数字代表特定 数据集下的最高分类准确率。同时,Mean acc给 100 出了所有算法的平均准确率,“W-T-L”(win-tie- 95 Gird-TWSVM loss)比较了AFSA-TWSVM与其他算法性能。从 FIWSVM 90 中可以看到,本文所提出的AFSA-TWSVM在大 多数数据集中都获得了最佳分类准确率,并且平 85 均分类准确率也是最好的。因此可以得出结论, 80 与传统的分类算法相比,AFSA-TWSVM具有更 好的分类性能。这是因为AFSA具有较好的全局 搜索能力,能避免自己过早地陷入局部最优,从 Sonar Haberman Heart-c WPBC Statlog Votes lonosphere Liver 而能更精确地找到参数。由于有更好的参数 数据集 选择,AFSA-TWSVM提高了TWSVM的分类准 图2实验结果 确率。 Fig.2 The effect diagram of experimental results
表 1 实验数据集的特征 Table 1 Data feature of the datasets 数据集 样本数 特征数 Sonar 208 60 Haberman 306 3 Heart-c 303 13 WPBC 198 34 Statlog 270 13 Votes 435 16 Ionosphere 351 34 Liver 345 6 在实验中,选取未优化参数的孪生支持向 量、基于网格搜索的孪生支持向量机 (Grid-TWSVM) 和基于粒子群算法的孪生支持向量机 (PSOTWSVM) 作为对比实验,与 AFSA-TWSVM 进行 比较。由于 Gauss 径向基函数具有较好的适应 性,故选取该函数作为核函数进行实验。 c1 c2 R(R = 1/σ2 ) try_number Visual Step δ η1 η2 N 孪生支持向量机的惩罚参数 、 和高斯核 函数相关参数 的取值范围为 (0,10]。 人工鱼群算法的最大尝试次数 为 5,视 野 为 0.5,步长 为 0.1,拥挤度因子 为 0.618。粒子群算法中速度上界为 1,速度下界为 −1,学习因子 和 都为 2。AFSA 和 PSO 的种 群规模 为 10,最大迭代次数为 50。 表 2 给出了 4 种算法的十折交叉验证的平均 分类准确率和标准差,表 3 给出了在不同数据集 上的运行时间,图 2 是分类准确率效果图。为了 更好地体现算法的优越性,用加粗数字代表特定 数据集下的最高分类准确率。同时,Mean acc 给 出了所有算法的平均准确率,“W-T-L” (win-tieloss) 比较了 AFSA-TWSVM 与其他算法性能。从 中可以看到,本文所提出的 AFSA-TWSVM 在大 多数数据集中都获得了最佳分类准确率,并且平 均分类准确率也是最好的。因此可以得出结论, 与传统的分类算法相比,AFSA-TWSVM 具有更 好的分类性能。这是因为 AFSA 具有较好的全局 搜索能力,能避免自己过早地陷入局部最优,从 而能更精确地找到参数。由于有更好的参数 选择,AFSA-TWSVM 提高了 TWSVM 的分类准 确率。 表 2 各算法在不同数据集上的分类准确率 Table 2 Classification Accuracy of Different Algorithms on Different Datasets 数据集 准确率±标准差 /% AFSATWSVM PSOTWSVM GirdTWSVM TWSVM Sonar 94.73±3.34 91.83±3.72 88.42±7.80 86.64±7.31 Haberman 80.70±3.72 80.34±6.14 79.40±4.03 73.62±4.61 Heart-c 85.09±7.38 84.46±5.80 84.09±7.77 79.82±4.90 WPBC 84.86±3.11 82.27±6.54 82.39±7.05 78.65±8.81 Statlog 83.70±5.79 84.81±5.60 82.96±6.67 79.26±6.02 Votes 95.62±2.18 94.72±3.94 94.23±3.47 93.54±3.73 Ionosphere 96.88±2.32 96.01±3.43 96.54±3.80 94.31±4.21 Liver 78.00±5.42 78.25±5.29 77.92±9.46 73.90±6.24 Mean acc 87.45 86.59 85.75 82.47 W-T-L 6-0-2 8-0-0 8-0-0 表 3 不同数据集上的运行时间 Table 3 Running time on different data sets min 数据集 AFSA-TWSVM PSO-TWSVM Gird-TWSVM Sonar 34.01 15.13 20.97 Haberman 40.03 18.76 27.83 Heart-c 73.47 21.01 26.10 WPBC 34.07 19.98 23.07 Statlog 30.17 18.47 33.86 Votes 105.05 46.03 45.69 Ionosphere 79.21 30.91 35.84 Liver 82.42 25.27 30.99 Sonar Haberman Heart-c WPBC Statlog Votes Ionosphere Liver 数据集 70 75 80 85 90 95 100 准确率/% AFSA-TWSVM PSO-TWSVM Gird-TWSVM TWSVM 图 2 实验结果 Fig. 2 The effect diagram of experimental results ·1124· 智 能 系 统 学 报 第 14 卷
第6期 李景灿,等:基于人工鱼群算法的李生支持向量机 ·1125· 4结束语 77-86 [10]MANGASARIAN OL,WILD E W.Multisurface proxi- 与传统的分类算法相比,TWSVM有许多特 mal support vector machine classification via generalized 有的优势,但也存在着一些不足。本文针对 eigenvalues[J].IEEE transactions on pattern analysis and TWSVM参数难以设置的问题,提出了一种基于 machine intelligence,2006,28(1):69-74. 人工鱼群算法的孪生支持向量机(AFSA-TWS- [11]JAYADEVA,KHEMCHANDANI R,CHANDRA S VM),利用AFSA优化参数,避免了参数选择的盲 Twin support vector machines for pattern classification[J]. 目性。通过选取UCI数据集进行实验,与TWS- IEEE transactions on pattern analysis and machine intel- VM、Gid-TWSVM和PSO-TWSVM相比,AFSA- ligence,2007,29(5):905-910. TWSVM有更好的分类性能。但是不足之处在 [12]HUANG Huajuan,WEI Xiuxi,ZHOU Yongquan.Twin support vector machines:a survey[J].Neurocomputing. 于,人工鱼群算法寻优速度较慢,如何进一步提 2018.300:34-43. 高算法的寻优速度是下一步需要研究的问题。 [13]丁世飞.孪生支持向量机:理论、算法与拓展M.北京 参考文献: 科学出版社,2017:16-31. DING Shifei.Twin support vector machine:theory,algo- [1]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综 rithm and extension[M].Beijing:Science Press,2017: 述[J.电子科技大学学报,2011,40(1):1-10. 16-31. DING Shifei,QI Bingjuan,TAN Hongyan.An overview [14]KUMAR M A,GOPAL M.Application of smoothing on theory and algorithm of support vector machines[J]. technique on twin support vector machines[J].Pattern re- Journal of University of Electronic Science and Technol- cognition letters,2008.29(13):1842-1848. ogy of China,2011,40(1):1-10. [15]KUMAR M A,GOPAL M.Least squares twin support [2]CORTES C,VAPNIK V.Support-vector networks[J].Ma- vector machines for pattern classification[J].Expert sys- chine learning,1995,20(3):273-297. tems with applications,2009,36(4):7535-7543 [3]CHEN Zhensong,QI Zhiquan,WANG Bo,et al.Learning [16]KUMAR M A,KHEMCHANDANI R,Gopal M,et al. with label proportions based on nonparallel support vector Knowledge based Least Squares Twin support vector ma- machines[J].Knowledge-based systems,2017,119: chines[J].Information sciences,2010,180(23): 126-141 4606-4618. [4]CHEN Zhenyu,FAN Zhiping.Distributed customer be-ha- [17]MIR A,NASIRI J A.KNN-based least squares twin sup- vior prediction using multiplex data:a collaborative MK- port vector machine for pattern classification[J].Applied SVM approach[J].Knowledge-based systems,2012,35: intelligence,2018,48(12):4551-4564. 111-119. [18]CHEN Sugen,WU Xiaojun.A new fuzzy twin support [5]MORAES R,VALIATI J F,NETO W P G.Docu-ment- vector machine for pattern classification[J].International level sentiment classification:an empirical compar-ison journal of machine learning and cybernetics,2018,9(9): between SVM and ANN[J].Expert systems with ap- 1553-1564 plications..2013,40(2):621-633. [19]CHEN Xiaobo,YANG Jian,YE Qiaolin,et al.Recursive [6]ZHANG Xiekai,DING Shifei,XUE Yu.An improved projection twin support vector machine via within-class multiple birth support vector machine for pattern classi-fic- variance minimization[J].Pattern recognition,2011, ation[J].Neurocomputing,2017,225:119-128. 4410/11):2643-2655. [7]DING Shifei.ZHANG Xiekai,AN Yuexuan,et al. [20]XIE Xiaomin.Improvement on projection twin support Weighted linear loss multiple birth support vector machine vector machine[J].Neural computing and applications, based on information granulation for multi-class classifica- 2018,30(2:371-387. tion[J].Pattern recognition,2017,67:32-46. [21]XU Zongben,DAI Mingwei,MENG Deyu.Fast and effi- [8]SUYKENS J A K,VANDEWALLE J.Least squares sup- cient strategies for model selection of Gaussian support port vector machine classifiers[J].Neural processing let- vector machine[J].IEEE transactions on systems,man, ters,1999,9(3:293-300 and cybernetics,part B(cybernetics),2009,39(5): [9]FUNG G,MANGASARIAN O L.Proximal support vec- 1292-1307 tor machine classifiers[C]//Proceedings of the 7th ACM [22]DING Shifei,YU Junzhao,HUANG Huajuan,et al.Twin SIGKDD International Conference on Knowledge Dis-cov- support vector machines based on particle swarm optimi- ery and Data Mining.San Francisco,California,2001: zation[J].Journal of computers,2013,8(9):2296-2303
4 结束语 与传统的分类算法相比,TWSVM 有许多特 有的优势,但也存在着一些不足。本文针 对 TWSVM 参数难以设置的问题,提出了一种基于 人工鱼群算法的孪生支持向量机 (AFSA-TWSVM),利用 AFSA 优化参数,避免了参数选择的盲 目性。通过选取 UCI 数据集进行实验,与 TWSVM、Grid-TWSVM 和 PSO-TWSVM 相比,AFSATWSVM 有更好的分类性能。但是不足之处在 于,人工鱼群算法寻优速度较慢,如何进一步提 高算法的寻优速度是下一步需要研究的问题。 参考文献: 丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综 述 [J]. 电子科技大学学报, 2011, 40(1): 1–10. DING Shifei, QI Bingjuan, TAN Hongyan. An overview on theory and algorithm of support vector machines[J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1): 1–10. [1] CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273–297. [2] CHEN Zhensong, QI Zhiquan, WANG Bo, et al. Learning with label proportions based on nonparallel support vector machines[J]. Knowledge-based systems, 2017, 119: 126–141. [3] CHEN Zhenyu, FAN Zhiping. Distributed customer be-havior prediction using multiplex data: a collaborative MKSVM approach[J]. Knowledge-based systems, 2012, 35: 111–119. [4] MORAES R, VALIATI J F, NETO W P G. Docu-mentlevel sentiment classification: an empirical compar-ison between SVM and ANN[J]. Expert systems with applications, 2013, 40(2): 621–633. [5] ZHANG Xiekai, DING Shifei, XUE Yu. An improved multiple birth support vector machine for pattern classi-fication[J]. Neurocomputing, 2017, 225: 119–128. [6] DING Shifei, ZHANG Xiekai, AN Yuexuan, et al. Weighted linear loss multiple birth support vector machine based on information granulation for multi-class classification[J]. Pattern recognition, 2017, 67: 32–46. [7] SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural processing letters, 1999, 9(3): 293–300. [8] FUNG G, MANGASARIAN O L. Proximal support vector machine classifiers[C]//Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Dis-covery and Data Mining. San Francisco, California, 2001: [9] 77–86. MANGASARIAN O L, WILD E W. Multisurface proximal support vector machine classification via generalized eigenvalues[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(1): 69–74. [10] JAYADEVA, KHEMCHANDANI R, CHANDRA S. Twin support vector machines for pattern classification[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(5): 905–910. [11] HUANG Huajuan, WEI Xiuxi, ZHOU Yongquan. Twin support vector machines: a survey[J]. Neurocomputing, 2018, 300: 34–43. [12] 丁世飞. 孪生支持向量机: 理论、算法与拓展 [M]. 北京: 科学出版社, 2017: 16-31. DING Shifei. Twin support vector machine: theory, algorithm and extension[M]. Beijing: Science Press, 2017: 16–31. [13] KUMAR M A, GOPAL M. Application of smoothing technique on twin support vector machines[J]. Pattern recognition letters, 2008, 29(13): 1842–1848. [14] KUMAR M A, GOPAL M. Least squares twin support vector machines for pattern classification[J]. Expert systems with applications, 2009, 36(4): 7535–7543. [15] KUMAR M A, KHEMCHANDANI R, Gopal M, et al. Knowledge based Least Squares Twin support vector machines[J]. Information sciences, 2010, 180(23): 4606–4618. [16] MIR A, NASIRI J A. KNN-based least squares twin support vector machine for pattern classification[J]. Applied intelligence, 2018, 48(12): 4551–4564. [17] CHEN Sugen, WU Xiaojun. A new fuzzy twin support vector machine for pattern classification[J]. International journal of machine learning and cybernetics, 2018, 9(9): 1553–1564. [18] CHEN Xiaobo, YANG Jian, YE Qiaolin, et al. Recursive projection twin support vector machine via within-class variance minimization[J]. Pattern recognition, 2011, 44(10/11): 2643–2655. [19] XIE Xiaomin. Improvement on projection twin support vector machine[J]. Neural computing and applications, 2018, 30(2): 371–387. [20] XU Zongben, DAI Mingwei, MENG Deyu. Fast and efficient strategies for model selection of Gaussian support vector machine[J]. IEEE transactions on systems, man, and cybernetics, part B (cybernetics), 2009, 39(5): 1292–1307. [21] DING Shifei, YU Junzhao, HUANG Huajuan, et al. Twin support vector machines based on particle swarm optimization[J]. Journal of computers, 2013, 8(9): 2296–2303. [22] 第 6 期 李景灿,等:基于人工鱼群算法的孪生支持向量机 ·1125·
·1126· 智能系统学报 第14卷 [23]DING Shifei,WU Fulin,NIE Ru,et al.Twin support vec- rithm[J].Systems engineering-theory practice,2002. tor machines based on quantum particle swarm opti-miza- 22(11):32-38. tion[J].Journal of software,2013,8(7):1743-1750. [24]ZHAI Shijun,PAN Juan,LUO Hongwei,et al.A new 作者简介: 李景灿,男,1995年生,硕士研究 sense-through-foliage target recognition method based on 生,主要研究方向为支持向量机和机 hybrid particle swarm optimization-based wavelet twin 器学习。 support vector machine[J].Measurement,2016,80: 58-70. [25]SARTAKHTI J S,AFRABANDPEY H.SARAEE M. Simulated annealing least squares twin support vector ma- chine(SA-LSTSVM)for pattern classification[J].Soft computing,.2017,21(15):4361-4373. 丁世飞,男,1963年生,教授,博 士生导师,主要研究方向为人工智能 [26]李晓磊,邵之江,钱积新.一种基于动物自治体的寻优 机器学习、模式识别、数据挖掘。主持 模式:鱼群算法).系统工程理论与实践,2002,22(11): 国家重点基础研究计划(973计划)课 32-38. 题1项、国家自然科学基金面上项目 LI Xiaolei,SHAO Zhijiang,QIAN Jixin.An optimizing 2项。出版专著4部,发表学术论文 method based on autonomous animats:fish-swarm algo- 200余篇
DING Shifei, WU Fulin, NIE Ru, et al. Twin support vector machines based on quantum particle swarm opti-mization[J]. Journal of software, 2013, 8(7): 1743–1750. [23] ZHAI Shijun, PAN Juan, LUO Hongwei, et al. A new sense-through-foliage target recognition method based on hybrid particle swarm optimization-based wavelet twin support vector machine[J]. Measurement, 2016, 80: 58–70. [24] SARTAKHTI J S, AFRABANDPEY H, SARAEE M. Simulated annealing least squares twin support vector machine (SA-LSTSVM) for pattern classification[J]. Soft computing, 2017, 21(15): 4361–4373. [25] 李晓磊, 邵之江, 钱积新. 一种基于动物自治体的寻优 模式: 鱼群算法 [J]. 系统工程理论与实践, 2002, 22(11): 32–38. LI Xiaolei, SHAO Zhijiang, QIAN Jixin. An optimizing method based on autonomous animats: fish-swarm algo- [26] rithm[J]. Systems engineering-theory & practice, 2002, 22(11): 32–38. 作者简介: 李景灿,男,1995 年生,硕士研究 生,主要研究方向为支持向量机和机 器学习。 丁世飞,男,1963 年生,教授,博 士生导师,主要研究方向为人工智能、 机器学习、模式识别、数据挖掘。主持 国家重点基础研究计划 (973 计划) 课 题 1 项、国家自然科学基金面上项目 2 项。出版专著 4 部,发表学术论文 200 余篇。 ·1126· 智 能 系 统 学 报 第 14 卷