第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201904048 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190904.1734.002.html 基于模糊核聚类粒化的粒度支持向量机 黄华娟,韦修喜,周永权2 (1.广西民族大学信息科学与工程学院,广西南宁530006,2.广西民族大学广西高校复杂系统与智能计算重 点实验室,广西南宁530006) 摘要:针对传统的粒度支持向量机(granular support vector machine,GSVM)将训练样本在原空间粒化后再映射 到核空间,导致数据与原空间的分布不一致,从而降低GSVM的泛化能力的问题,本文提出了一种基于模糊核 聚类粒化的粒度支持向量机学习算法(fuzzy kemel cluster granular support vector machine,FKC-GSVM)。FKC-GS- VM通过利用模糊核聚类直接在核空间对数据进行粒的划分和支持向量粒的选取,在相同的核空间中进行支 持向量粒的GSVM训练。在UCI数据集和NDC大数据上的实验表明:与其他几个算法相比,FKC-GSVM在更 短的时间内获得了精度更高的解。 关键词:模糊核聚类:粒化:支持向量机:粒度支持向量机:原空间:核空间:支持向量:聚类 中图分类号:TP18文献标志码:A文章编号:1673-4785(2019)06-1271-07 中文引用格式:黄华娟,韦修喜,周永权.基于模糊核聚类粒化的粒度支持向量机J小.智能系统学报,2019,14(6): 1271-1277. 英文引用格式:HUANG Huajuan,.WEI Xiuxi,.ZHOU Yongquan..Granular support vector machine based on fuz四y kernel cluster- ing granulation[J].CAAI transactions on intelligent systems,2019,14(6):1271-1277. Granular support vector machine based on fuzzy kernel clustering granulation HUANG Huajuan',WEI Xiuxi',ZHOU Yongquan'2 (1.College of Information Science and Engineering,Guangxi University for Nationalities,Nanning 530006,China;2.Guangxi High- er School Key Laboratory of Complex Systems and Intelligent Computing,Guangxi University for Nationalities,Nanning 530006, China) Abstract:For the traditional granular support vector machine(GSVM),the training samples are granulated in the origin- al space and then mapped to the kernel space.However,this method will lead to the inconsistent distribution of the data between the original space and the kernel space,thereby reducing the generalization of GSVM.To solve this problem,a granular support vector machine based on fuzzy kernel cluster is proposed.Here,the training data are directly granu- lated,and support vector particles are selected in kernel space.The support vector particles are then trained in the same kernel space by the GSVM.Finally,experiments on UCI data sets and NDC big data sets show that FKC-GSVM achieves more accurate solutions in a shorter time than other algorithms. Keywords:fuzzy kernel cluster;granulation;support vector machine;granular support vector machine;original space; kernel space;support vector,clustering 收稿日期:2019-04-18.网络出版日期:2019-09-05. 支持向量机(support vector machine,SVM) 基金项目:国家自然科学基金资助项目(61662005):广西自然 科学基金项目(2018JA170121):广西高校中青年教 自1995年由Vapnik提出以来就受到理论研究和 师科研基础能力提升项目(2019KY0195). 通信作者:韦修喜.E-mail:weixiuxi(@163.com. 工程应用2方面的重视,是机器学习的一个研究
DOI: 10.11992/tis.201904048 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190904.1734.002.html 基于模糊核聚类粒化的粒度支持向量机 黄华娟1 ,韦修喜1 ,周永权1,2 (1. 广西民族大学 信息科学与工程学院,广西 南宁 530006; 2. 广西民族大学 广西高校复杂系统与智能计算重 点实验室,广西 南宁 530006) 摘 要:针对传统的粒度支持向量机 (granular support vector machine, GSVM) 将训练样本在原空间粒化后再映射 到核空间,导致数据与原空间的分布不一致,从而降低 GSVM 的泛化能力的问题,本文提出了一种基于模糊核 聚类粒化的粒度支持向量机学习算法 (fuzzy kernel cluster granular support vector machine, FKC-GSVM)。FKC-GSVM 通过利用模糊核聚类直接在核空间对数据进行粒的划分和支持向量粒的选取,在相同的核空间中进行支 持向量粒的 GSVM 训练。在 UCI 数据集和 NDC 大数据上的实验表明:与其他几个算法相比,FKC-GSVM 在更 短的时间内获得了精度更高的解。 关键词:模糊核聚类;粒化;支持向量机;粒度支持向量机;原空间;核空间;支持向量;聚类 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)06−1271−07 中文引用格式:黄华娟, 韦修喜, 周永权. 基于模糊核聚类粒化的粒度支持向量机 [J]. 智能系统学报, 2019, 14(6): 1271–1277. 英文引用格式:HUANG Huajuan, WEI Xiuxi, ZHOU Yongquan. Granular support vector machine based on fuzzy kernel clustering granulation[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1271–1277. Granular support vector machine based on fuzzy kernel clustering granulation HUANG Huajuan1 ,WEI Xiuxi1 ,ZHOU Yongquan1,2 (1. College of Information Science and Engineering, Guangxi University for Nationalities, Nanning 530006, China; 2. Guangxi Higher School Key Laboratory of Complex Systems and Intelligent Computing, Guangxi University for Nationalities, Nanning 530006, China) Abstract: For the traditional granular support vector machine (GSVM), the training samples are granulated in the original space and then mapped to the kernel space. However, this method will lead to the inconsistent distribution of the data between the original space and the kernel space, thereby reducing the generalization of GSVM. To solve this problem, a granular support vector machine based on fuzzy kernel cluster is proposed. Here, the training data are directly granulated, and support vector particles are selected in kernel space. The support vector particles are then trained in the same kernel space by the GSVM. Finally, experiments on UCI data sets and NDC big data sets show that FKC-GSVM achieves more accurate solutions in a shorter time than other algorithms. Keywords: fuzzy kernel cluster; granulation; support vector machine; granular support vector machine; original space; kernel space; support vector; clustering 支持向量机 (support vector machine, SVM) 自 1995 年由 Vapnik 提出以来就受到理论研究和 工程应用 2 方面的重视,是机器学习的一个研究 收稿日期:2019−04−18. 网络出版日期:2019−09−05. 基金项目:国家自然科学基金资助项目 (61662005);广西自然 科学基金项目 (2018JJA170121);广西高校中青年教 师科研基础能力提升项目 (2019KY0195). 通信作者:韦修喜. E-mail:weixiuxi@163.com. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
·1272· 智能系统学报 第14卷 方向和热点,已经成功应用到很多领域中。 X={X,Y),i=1,2,…,0 SVM的基本算法是一个含有不等式约束条件的 其中: 二次规划(quadratic programming problem,QPP)问 l,+1 Xl+h+…++ 题,然而,如果直接求解QPP问题,当数据集较大 x1,+2 X1+h4+++2 …,X= 时,算法的效率将会下降,所需内存量也会增大。 Xh+l 因此,如何克服SVM在处理大规模数据集时的 X,+h++-+4 则在GSVM中,最优化问题变为: 效率低下问题,一直是学者们研究的热点。 1 为了更好地解决大规模样本的分类问题,基 min.b亏w2 (1) 于粒度计算理论911和统计学习理论的思想, S.t. Y(w:X)+b)≥1,j=1,2,…,l Tang等于2004年首次提出粒度支持向量机(gran- 将上述问题根据最优化理论转化为其对偶问题: ular support vector machine,.GSVM)这个术语。GS max W(a)=max- VM的总体思想是在原始空间将数据集进行划 ∑∑auYY/Xx)+∑a 人 分,得到数据粒。然后提取出有用的数据粒,并 对其进行SVM训练a。与传统支持向量机相 S.t. ∑a=0. 0≤a≤C 比,GSVM学习机制具有以下优点:针对大样本 解得最优解a=[aa2'…a,计算最优权值向 数据,通过数据粒化和对有用粒子(支持向量粒) 的提取,别除了无用冗余的样本,减少了样本数 量w=ayx,和最优偏置公=y-乃4xX. 人 量,提高了训练效率。然而,Tang只是给出了 i∈{lg>0。因此得到最优分类超平面(w)+b=0, GSVM学习模型的一些设想,没有给出具体的学 而最优分类函数为: 习算法。2009年,张鑫]在Tang提出的GS- f(x)=sgn((wX)+b]= VM思想的基础上,构建了一个粒度支持向量机 的模型,并对其学习机制进行了探讨。此后,许 gm∑yX,X》+b,reR (3) 多学者对支持向量机和粒度计算相结合的具体模 当数据集是线性不可分时,GSVM不是在原 型进行了研究,比如模糊支持向量机)、粗糙集 始空间构造最优分类面,而是映射到高维特征空 支持向量机、决策树支持向量机和商空间支 间,然后再进行构造,具体为: 持向量机等。但这些模型的共同点都是在原 将X从R:变换到Φ: 始空间直接划分数据集,然后再映射到高维空间 X一(X)=[(X)中2(X)…Φ(X 进行SVM学习。然而,这种做法很有可能丢失 以特征向量(X)代替输入向量X,则可以得 了大量包含有用信息的数据粒,其学习算法的性 到最优分类函数为: 能会受到影响。为此,本文采用模糊核聚类的方 f(X)=sgn(wD(X)+b)= 法将样本直接在核空间进行粒的划分和提取,然 sgn∑ayX)o)+b) (4) 后在相同的核空间进行GSVM训练,这样保证了 =1 数据分布的一致性,提高了算法的泛化能力。最 利用核函数来求解向量的内积,则最优分类 后,在标准UCI数据集和NDC大数据上的实验结 函数变为: 果表明,本文算法是可行的且效果更好。 f(X)=sgn(w(X)+b)= (5) 1粒度支持向量机 sg(∑axkK,+b 张鑫1在Tang提出的GSVM思想的基础 其中,k(X,)为粒度核函数。当a>0,根据以上 上,构建了一个粒度支持向量机的模型。 分析,可知X:是支持向量。显然地,式(5)的形式 设给定数据集为X={x,),i=1,2,…,n,n 和SVM的最优分类函数很一致,确保了最优解 为样本的个数;y为:所属类的标签。采用粒度 的唯一性。 划分的方法(聚类、粗糙集、关联规则等)划分X, 2基于模糊核聚类粒化的粒度支持 若数据集有1个类,则将X分成1个粒,表示为: 向量机 (X1,Y),(X2,Y2,…,(X,Y),…,(X,Y) 若每个粒包含1:个点,Y表示第i个粒的类 2.1问题的提出 别,则有: 在研究中发现,只有支持向量才对SVM的训
方向和热点,已经成功应用到很多领域中[ 1 - 3 ]。 SVM 的基本算法是一个含有不等式约束条件的 二次规划 (quadratic programming problem, QPP) 问 题,然而,如果直接求解 QPP 问题,当数据集较大 时,算法的效率将会下降,所需内存量也会增大[4-8]。 因此,如何克服 SVM 在处理大规模数据集时的 效率低下问题,一直是学者们研究的热点。 为了更好地解决大规模样本的分类问题,基 于粒度计算理论[ 9 - 1 0 ] 和统计学习理论的思想, Tang 等于 2004 年首次提出粒度支持向量机 (granular support vector machine, GSVM) 这个术语。GSVM 的总体思想是在原始空间将数据集进行划 分,得到数据粒。然后提取出有用的数据粒,并 对其进行 SVM 训练 [11-12]。与传统支持向量机相 比,GSVM 学习机制具有以下优点:针对大样本 数据,通过数据粒化和对有用粒子 (支持向量粒) 的提取,剔除了无用冗余的样本,减少了样本数 量,提高了训练效率。然而,Tang 只是给出了 GSVM 学习模型的一些设想,没有给出具体的学 习算法。2009 年,张鑫[ 1 3 ] 在 Tang 提出的 GSVM 思想的基础上,构建了一个粒度支持向量机 的模型,并对其学习机制进行了探讨。此后,许 多学者对支持向量机和粒度计算相结合的具体模 型进行了研究,比如模糊支持向量机[13] 、粗糙集 支持向量机[14] 、决策树支持向量机[15]和商空间支 持向量机[16] 等。但这些模型的共同点都是在原 始空间直接划分数据集,然后再映射到高维空间 进行 SVM 学习。然而,这种做法很有可能丢失 了大量包含有用信息的数据粒,其学习算法的性 能会受到影响。为此,本文采用模糊核聚类的方 法将样本直接在核空间进行粒的划分和提取,然 后在相同的核空间进行 GSVM 训练,这样保证了 数据分布的一致性,提高了算法的泛化能力。最 后,在标准 UCI 数据集和 NDC大数据上的实验结 果表明,本文算法是可行的且效果更好。 1 粒度支持向量机 张鑫[17] 在 Tang 提出的 GSVM 思想的基础 上,构建了一个粒度支持向量机的模型。 X = {(xi , yi),i = 1,2,··· ,n} n yi xi X l X l 设给定数据集为 , 为样本的个数; 为 所属类的标签。采用粒度 划分的方法 (聚类、粗糙集、关联规则等) 划分 , 若数据集有 个类,则将 分成 个粒,表示为: (X1 ,Y1),(X2 ,Y2),··· ,(Xi ,Yi),··· ,(Xl ,Yl) li Yi 若每个粒包含 个点, 表示第 i 个粒的类 别,则有: X = {(Xi ,Yi),i = 1,2,··· ,l} 其中: X1 = x1 x2 . . . xl1 ,X2 = xl1+1 xl1+2 . . . xl1+l2 ,··· ,Xl = xl1+l2+···+ll−1+1 xl1+l2+···+ll−1+2 . . . xl1+l2+···+ll−1+ll 则在 GSVM 中,最优化问题变为: minw,b 1 2 w 2 s.t. Yj((w· Xj)+b) ⩾ 1, j = 1,2,··· ,l (1) 将上述问题根据最优化理论转化为其对偶问题: max a W(a) = max a − 1 2 ∑l i=1 ∑l j=1 aiajYiYj(XiXj)+ ∑l i=1 ai s.t. ∑l i=1 aiYi = 0, 0 ⩽ ai ⩽ C (2) a ∗ = [a1 ∗ a2 ∗ ··· al ∗ ] T w ∗ = ∑l j=1 aj ∗ yjXj b ∗ = yi − ∑l j=1 yja ∗ j (XjXi) i ∈ {i|a ∗ i > 0} (w ∗X)+b ∗ = 0 解得最优解 ,计算最优权值向 量 和最优偏置 , 。因此得到最优分类超平面 , 而最优分类函数为: f(x) =sgn{(w ∗X)+b ∗ } = sgn{( ∑l j=1 a ∗ j yj(XjXi))+b ∗ },X ∈ R n (3) 当数据集是线性不可分时,GSVM 不是在原 始空间构造最优分类面,而是映射到高维特征空 间,然后再进行构造,具体为: X R 将 从 n 变换到 Φ: X→− Φ(X) = [Φ1(X)Φ2(X) ··· Φl(X)]T 以特征向量 Φ(X) 代替输入向量 X ,则可以得 到最优分类函数为: f(X) =sgn(wΦ(X)+b) = sgn(∑l i=1 aiyiΦ(Xi)Φ(X)+b) (4) 利用核函数来求解向量的内积,则最优分类 函数变为: f(X) =sgn(wΦ(X)+b) = sgn(∑l i=1 aiyik(Xi ,X)+b) (5) k(Xi ,X) ai > 0 Xi 其中, 为粒度核函数。当 ,根据以上 分析,可知 是支持向量。显然地,式 (5) 的形式 和 SVM 的最优分类函数很一致,确保了最优解 的唯一性。 2 基于模糊核聚类粒化的粒度支持 向量机 2.1 问题的提出 在研究中发现,只有支持向量才对 SVM 的训 ·1272· 智 能 系 统 学 报 第 14 卷
第6期 黄华娟,等:基于模糊核聚类粒化的粒度支持向量机 ·1273· 练起积极作用,它们是非常重要的,对于SVM是 量粒,它们决定了分类超平面。并且从中可以看 不可或缺的,而其余的非支持向量对于分类超平 出,对于每一类,离类中心越远的点,就越有可能 面是不起作用的,甚至可能产生负面影响,比如 是支持向量粒。并且,从图1中还可以看出,落在 增加了核矩阵的容量,降低了SVM的效率。GS- 每一个环上的样本,它们离类中心的距离差不多 VM也存在同样的问题,只有支持向量粒才对 相等。离类中心越远的环就越有可能含有多的 GSVM的训练起决定性作用。可以通过理论证明 支持向量粒。基于这个思想,本文先把样本映射 来说明这个观点的正确性。 到核空间,按类标签的个数进行粗粒划分,确保 定理1粒度支持向量机的训练过程和训练 相同标签的样本都在同一个粗粒中。然后,对于 结果与非支持向量粒无关。 每一个粗粒,采用模糊聚类的方法进行粒化,具 证明定义I,w={ia>0)和1asv={a=0)分别 有相同隶属度的样本归为一个粒,进行细粒划 为支持向量粒和非支持向量粒对应样本序号的索 分。每一个细粒就对应图1中的一个环,从图中 引集,支持向量粒的个数记为!。引入只优化支 可以看出,离粗粒中心越远的环,越靠近分类超 持向量粒对应样本的问题 平面,其是支持向量粒的可能性越大。而离粗粒 中心越远的环,其隶属度越小。因此,给定一个 1 maxg(a)=max- ∑∑aa,Yxx)+a 阈值,当细粒的隶属度小于给定的阈值,就说明 2 (6) 其处于粗粒的边缘,是支持向量粒,进而提取出 S.t. ∑ay=0,0≤ag(a)。由于a是式(2)的最优解,也即 是式(6)的可行解,同样,d也是式(2)的可行解。 由于a是式(2)的最优解,可得w(a)>w(a)。又 图1支持向量分布图 因为 Fig.1 The distribution of support vectors w(a)=max- dwA+2a= 2.3 模糊核聚类 模糊核聚类(fuzzy kernel cluster,FKC)的主要 1 ∑∑ddyy k(X.X)+∑a=ga max2 思想是先将数据集映射到高维空间,然后直接在高 人 维空间进行模糊聚类。而一般的聚类算法是直接 ∑∑ddyyA(X.X)+∑a= 在原始空间进行聚类划分。与其他的聚类算法相 w(a')=max-22 比,模糊核聚类引入了非线性映射,能够在更大程 度上提取到有用的特征,聚类的效果会更好。 1夕 max-2 aay,kX,x)+∑a=ga 设原空间样本集为X=(x1,,…,w),x∈R4 11 1 j=1,2,…,N。核非线性映射为0:x→0(x,在本 可得w(a')=g(a)>g(a)=w(a),即w(a')>w(a), 文中,采用Euclid距离作为距离测量方法,由此得 这与a是式(2)的最优解得出的w(a)>w(a')相 到模糊核C-均值聚类: 矛盾。定理1得证。注:a是r维向量,代入w的 J=(X,U,V)= 时候拓展为I维向量。 要想迅速地得到支持向量粒,节省粒化的时 ∑立-o 间,首先了解支持向量的特征,文献[13]对其特 征做了归纳总结。 (7) 1)现实中,支持向量一般都是稀疏地聚集在 2立0-2,+ 训练数据集的边缘。 2立g.M.2sc<N 2)根据第一个特征,则每个类中心附近的数 1=】 据不会是支持向量,即,离支持向量机超平面较 式中:C是事先确定的簇数;m∈(1,o)是模糊加权 近的数据比较可能是支持向量,这就为支持向量 指数,对聚类的模糊程度有重要的调节作用;”为 的选取提供了快速的获取方法。 第i类的类中心;()为该中心在相应核空间中 2.2问题分析 的像。 图1中,红色部分的数据是GSVM的支持向 按模糊C均值优化方法,隶属度设计为
练起积极作用,它们是非常重要的,对于 SVM 是 不可或缺的,而其余的非支持向量对于分类超平 面是不起作用的,甚至可能产生负面影响,比如 增加了核矩阵的容量,降低了 SVM 的效率。GSVM 也存在同样的问题,只有支持向量粒才对 GSVM 的训练起决定性作用。可以通过理论证明 来说明这个观点的正确性。 定理 1 粒度支持向量机的训练过程和训练 结果与非支持向量粒无关。 Isv = {i|al > 0} Insv = {i|al = 0} l ′ 证明 定义 和 分别 为支持向量粒和非支持向量粒对应样本序号的索 引集,支持向量粒的个数记为 。引入只优化支 持向量粒对应样本的问题 max a g(a) = max a − 1 2 l ∑′ i=1 l ∑′ j=1 aiajYiYj(XiXj)+ l ∑′ i=1 ai s.t. ∑l i=1 aiYi = 0, 0 ⩽ ai ⩽ C, i = 1,2,··· , l ′ ∈ Isv (6) a ′ g(a ′ ) > g(a ∗ ) a ∗ a ∗ a ′ a ∗ w(a ∗ ) > w(a ′ ) 要证明定理 1,只需要证明式 (2) 和式 (6) 同 解。用反正法,假设式 (6) 存在一个最优解 使 得 。由于 是式 (2) 的最优解,也即 是式 (6) 的可行解,同样, 也是式 (2) 的可行解。 由于 是式 (2) 的最优解,可得 。又 因为 w(a ′ ) = max− a 1 2 ∑l i=1 ∑l j=1 a ′ ia ′ j yiyjk(Xi ,Xj)+ ∑l i=1 a ′= max a − 1 2 l ∑′ i=1 l ∑′ j=1 a ′ ia ′ j yiyjk(Xi ,Xj)+ l ∑′ i=1 a ′ = g(a ′ ) w(a ∗ ) = max− a 1 2 ∑l i=1 ∑l j=1 a ∗ i a ∗ j yiyjk(Xi ,Xj)+ ∑l i=1 a ∗= max a − 1 2 l ∑′ i=1 l ∑′ j=1 a ∗ i a ∗ j yiyjk(Xi ,Xj)+ l ∑′ i=1 a ∗ = g(a ∗ ) w(a ′ ) = g(a ′ ) > g(a ∗ ) = w(a ∗ ) w(a ′ ) > w(a ∗ ) a ∗ w(a ∗ ) > w(a ′ ) a ′ l ′ w l 可 得 , 即 , 这与 是式 (2) 的最优解得出的 相 矛盾。定理 1 得证。注: 是 维向量,代入 的 时候拓展为 维向量。 要想迅速地得到支持向量粒,节省粒化的时 间,首先了解支持向量的特征,文献 [13] 对其特 征做了归纳总结。 1) 现实中,支持向量一般都是稀疏地聚集在 训练数据集的边缘。 2) 根据第一个特征,则每个类中心附近的数 据不会是支持向量,即,离支持向量机超平面较 近的数据比较可能是支持向量,这就为支持向量 的选取提供了快速的获取方法。 2.2 问题分析 图 1 中,红色部分的数据是 GSVM 的支持向 量粒,它们决定了分类超平面。并且从中可以看 出,对于每一类,离类中心越远的点,就越有可能 是支持向量粒。并且,从图 1 中还可以看出,落在 每一个环上的样本,它们离类中心的距离差不多 相等。 离类中心越远的环就越有可能含有多的 支持向量粒。基于这个思想,本文先把样本映射 到核空间,按类标签的个数进行粗粒划分,确保 相同标签的样本都在同一个粗粒中。 然后,对于 每一个粗粒,采用模糊聚类的方法进行粒化,具 有相同隶属度的样本归为一个粒,进行细粒划 分。 每一个细粒就对应图 1 中的一个环,从图中 可以看出,离粗粒中心越远的环,越靠近分类超 平面,其是支持向量粒的可能性越大。而离粗粒 中心越远的环,其隶属度越小。因此,给定一个 阈值,当细粒的隶属度小于给定的阈值,就说明 其处于粗粒的边缘,是支持向量粒,进而提取出 支持向量粒. 图 1 支持向量分布图 Fig. 1 The distribution of support vectors 2.3 模糊核聚类 模糊核聚类 (fuzzy kernel cluster, FKC) 的主要 思想是先将数据集映射到高维空间,然后直接在高 维空间进行模糊聚类。而一般的聚类算法是直接 在原始空间进行聚类划分。与其他的聚类算法相 比,模糊核聚类引入了非线性映射,能够在更大程 度上提取到有用的特征,聚类的效果会更好。 X = (x1, x2,··· , xN) xj ∈ R d j = 1,2,··· ,N Ø : x → Ø(x) C 设原空间样本集为 , , 。 核非线性映射为 ,在本 文中,采用 Euclid 距离作为距离测量方法,由此得 到模糊核 -均值聚类: Jm =(X,U,V) = ∑C i=1 ∑N j=1 u m i j Ø(xj)−Ø(vi) 2 = ∑C i=1 ∑N j=1 u m i j[k(xj , xj)−2k(xj , vi)+k(vi , vi)] = ∑C i=1 ∑N j=1 u m i jd 2 Ki j(xj , vi), 2 ⩽ C < N (7) C m ∈ (1,∞) vi i ϕ(vi) 式中: 是事先确定的簇数; 是模糊加权 指数,对聚类的模糊程度有重要的调节作用; 为 第 类的类中心; 为该中心在相应核空间中 的像。 按模糊 - C 均值优化方法,隶属度设计为 第 6 期 黄华娟,等:基于模糊核聚类粒化的粒度支持向量机 ·1273·
·1274· 智能系统学报 第14卷 [1/dx,- 支持向量粒;在核空间对支持向量粒进行SVM (8) 训练。具体的算法步骤如下: 之d成,wa- 1)粗粒划分:以类标签个数1为粒子个数,对 且有 训练样本进行粗粒的划分,得到1个粒子; 2)细粒划分:采用模糊核聚类分别对1个粒 Gom 子进行细粒划分,计算每个粒子的隶属度; 0)= 妇1 i=1,2,…,C (9) 3)支持向量粒的提取:给定一个阈值,当一 N 个粒子的隶属度小于给定的阈值,提取这个粒子 (支持向量粒),提取出来的支持向量粒组成了一 为了最小化目标函数,需要计算k(x,)和 个新的训练集; k(,),由k(x,x)=可得: 4)支持向量集的训练:在新的训练样本集上 进行GSVM训练; ∑,x) 5)泛化能力的测试:利用测试集测试泛化 k(x,)== (10) 能力。 2.5FKC-GSVM算法性能分析 下面,从2个方面对FKC-GSVM的算法性能 uuk(xgx,) 进行分析: k(,)== k=1s=1 (11) 1)FKC-GSVM的收敛性分析 与SVM相比,FKC-GSVM采用核空间代替 原始空间进行粒化,提取出支持向量粒后在相同 把式(9)(11)代入式(7),可以求出模糊核C- 的核空间进行GSVM训练,其训练的核心思想依 均值聚类的目标函数值。 然是采用支持向量来构造分类超平面,这与标准 模糊核C-均值聚类的算法步骤如下: 支持向量机相同。既然标准支持向量机是收敛 1)初始化参数:s、m、T和C; 的,则FKC-GSVM也是收敛的。但是由于FKC- 2)对训练数据集进行预处理: GSVM别除了大量对训练不起积极作用的非支持 3)设置(i=1,2,…,C)的初始值; 向量,直接采用支持向量来训练,所以它的收敛 4)计算隶属度(i=1,2,…,C:j=1,2,…,N) 速度要快于标准支持向量机。 5)计算新的kx,)和kv,v,更新隶属度 2)FKC-GSVM的泛化能力分析 为; 评价一个学习器性能好坏的重要指标是其是 6)若max,-i<s或迭代次数等于预定送 否具有较强的泛化能力。众所周知,由于SVM 代次数T则算法停止,否则转到4)。 采用结构风险最小(SRM)归纳原则,因此,与其 2.4FKC-GSVM的算法步骤 他学习机器相比,SVM的泛化能力是很突出的。 目前,已有的粒度支持向量机算法模型大都 同样,FKC-GSVM也执行了SRM归纳原则,并且 是直接在原始空间对数据集进行粒化和提取,然 直接在核空间选取支持向量,确保了数据的一致 后映射到核空间进行SVM的训练。然而,不同 性,具有更好的泛化性能。 空间的转换,很有可能丢失了数据集的有用信 息,降低学习器的性能。为了避免因数据在不同 3实验结果及分析 空间分布不一致而导致泛化能力不高的问题,本 文采用模糊核聚类的方法直接在核空间对数据集 3.1UCI数据集上的实验 进行粒化、提取和SVM的训练。基于以上思想, 为了验证FKC-GSVM的学习性能,本文在 本文提出了基于模糊核聚类粒化的粒度支持向量 Matlab7.11的环境下对5个常用的UCI数据集进 (fuzzy kernel cluster granular support vector ma- 行实验,这5个数据集的描述如表1所示。在实验 chine,FKC-GSVM。FKC-GSVM算法包括3部 中,采用的核函数为高斯核函数,并且采用交叉验 分:采用模糊核聚类进行粒度的划分;设定阈值, 证方法选取惩罚参数C和核参数σ,聚类数c设为 当每个粒子的隶属度大于规定的阈值时,认为这 20。影响算法表现的主要因素是阈值k的设定,为 个粒子为非支持向量粒,丢弃,而剩余的粒子为 此,对不同的阈值对算法的影响进行了分析
ui j = [1/d 2 Ki j(xj , vi)]1/(m−1) ∑C j=1 [1/d 2 Ki j(xj , vi)]1/(m−1) (8) 且有 Ø(vi) = ∑N k=1 u m ikØ(xk) ∑N k=1 u m ik , i = 1,2,··· ,C (9) k(xj , vi) k(vi , vi) k(xi , xj) = 为了最小化目标函数,需要计算 和 ,由 可得: k(xj , vi) == ∑N k=1 u m ikk(xk , xj) ∑N k=1 u m ik (10) k(vi , vi) == ∑N k=1 ∑N s=1 u m iku m is k(xk , xs) ∑N k=1 u m ik 2 (11) 把式 (9)~(11) 代入式 (7),可以求出模糊核 - C 均值聚类的目标函数值。 模糊核 - C 均值聚类的算法步骤如下: 1) 初始化参数: 、 、 ε m T 和 C ; 2) 对训练数据集进行预处理; 3) 设置 vi(i = 1,2,··· ,C) 的初始值; 4) 计算隶属度 ui j(i = 1,2,··· ,C; j = 1,2,··· ,N) ; k(xj , vi) k(vi , vi) ui j uˆi j 5) 计算新的 和 ,更新隶属度 为 ; max j,i ui j −uˆi j < ε T 6) 若 或迭代次数等于预定迭 代次数 则算法停止,否则转到 4)。 2.4 FKC-GSVM 的算法步骤 目前,已有的粒度支持向量机算法模型大都 是直接在原始空间对数据集进行粒化和提取,然 后映射到核空间进行 SVM 的训练。然而,不同 空间的转换,很有可能丢失了数据集的有用信 息,降低学习器的性能。为了避免因数据在不同 空间分布不一致而导致泛化能力不高的问题,本 文采用模糊核聚类的方法直接在核空间对数据集 进行粒化、提取和 SVM 的训练。基于以上思想, 本文提出了基于模糊核聚类粒化的粒度支持向量 机 (fuzzy kernel cluster granular support vector machine, FKC-GSVM)。FKC-GSVM 算法包括 3 部 分:采用模糊核聚类进行粒度的划分;设定阈值, 当每个粒子的隶属度大于规定的阈值时,认为这 个粒子为非支持向量粒,丢弃,而剩余的粒子为 支持向量粒;在核空间对支持向量粒进行 SVM 训练。具体的算法步骤如下: l l 1) 粗粒划分:以类标签个数 为粒子个数,对 训练样本进行粗粒的划分,得到 个粒子; 2) 细粒划分:采用模糊核聚类分别对 l 个粒 子进行细粒划分,计算每个粒子的隶属度; 3) 支持向量粒的提取:给定一个阈值,当一 个粒子的隶属度小于给定的阈值,提取这个粒子 (支持向量粒),提取出来的支持向量粒组成了一 个新的训练集; 4) 支持向量集的训练:在新的训练样本集上 进行 GSVM 训练; 5) 泛化能力的测试:利用测试集测试泛化 能力。 2.5 FKC-GSVM 算法性能分析 下面,从 2 个方面对 FKC-GSVM 的算法性能 进行分析: 1) FKC-GSVM 的收敛性分析 与 SVM 相比,FKC-GSVM 采用核空间代替 原始空间进行粒化,提取出支持向量粒后在相同 的核空间进行 GSVM 训练,其训练的核心思想依 然是采用支持向量来构造分类超平面,这与标准 支持向量机相同。既然标准支持向量机是收敛 的,则 FKC-GSVM 也是收敛的。但是由于 FKCGSVM 剔除了大量对训练不起积极作用的非支持 向量,直接采用支持向量来训练,所以它的收敛 速度要快于标准支持向量机。 2) FKC-GSVM 的泛化能力分析 评价一个学习器性能好坏的重要指标是其是 否具有较强的泛化能力。众所周知,由于 SVM 采用结构风险最小 (SRM) 归纳原则,因此,与其 他学习机器相比,SVM 的泛化能力是很突出的。 同样,FKC-GSVM 也执行了 SRM 归纳原则,并且 直接在核空间选取支持向量,确保了数据的一致 性,具有更好的泛化性能。 3 实验结果及分析 3.1 UCI 数据集上的实验 C σ c k 为了验证 FKC-GSVM 的学习性能,本文在 Matlab7.11 的环境下对 5 个常用的 UCI 数据集进 行实验,这 5 个数据集的描述如表 1 所示。在实验 中,采用的核函数为高斯核函数,并且采用交叉验 证方法选取惩罚参数 和核参数 ,聚类数 设为 20。影响算法表现的主要因素是阈值 的设定,为 此,对不同的阈值对算法的影响进行了分析。 ·1274· 智 能 系 统 学 报 第 14 卷
第6期 黄华娟,等:基于模糊核聚类粒化的粒度支持向量机 ·1275· 表1实验采用的数据集 Table 1 Datasets used in experiments 数据集Abalone Contraceptive Method Choice Pen-Based Recognition of Hand-written Digits NDC-10k NDC-11 #训练集3177 1000 6280 10000 100000 #测试集 1000 473 3498 1000 10000 维度 8 9 6 32 32 为了比较数据集在原空间粒化和在核空间粒 测试,测试结果如表2所示。为了更直观地看出 化的不同效果,本文采用基于模糊聚类的粒度支 FKC-GSVM在不同阈值条件下的分类效果,给出 持向量机(FCM-GSVM)、基于模糊核聚类的粒度 了Contraceptive Method Choice数据集在不同阈值 支持向量机(FKC-GSVM)和粒度支持向量机(GS 条件下采用FKC-GSVM分类的效果图,如图2~ VM)等3种算法对5个典型的UCI数据集进行了 图5所示。 表2FCM-GSVM与FKC-GSVM测试结果比较 Table 2 Comparison of test results between FCM-GSVM and FKC-GSVM % 数据集 算法 阈值k 0.9 0.85 0.8 0.75 GSVM 80.1 75.6 76.7 65.6 Abalone FCM-GSVM 82.9 79.1 75.9 68.8 FKC-GSVM 94.8 85.4 79.2 75.9 GSVM 82.1 76.4 78.4 64.9 Contraceptive Method Choice FCM-GSVM 85.4 82.7 79.3 69.8 FKC-GSVM 91.6 87.2 85.6 81.5 GSVM 81.2 77.1 70.2 63.8 Pen-Based Recognition of Handwritten Digits FCM-GSVM 84.6 80.6 75.6 70.3 FKC-GSVM 90.7 83.3 80.4 72.9 GSVM 85.2 82.1 79.7 69.3 NDC-10k FCM-GSVM 86.5 83.8 81.4 79.6 FKC-GSVM 89.6 86.1 84.6 82.3 GSVM 80.2 72.4 73.5 66.6 NDC-11 FCM-GSVM 83.7 79.3 76.9 72.9 FKC-GSVM 86.5 83.8 82.3 79.2 FCM-GSVM和GSVM是在原空间进行粒度 说,只要在能接受的分类效果的范围内,选取合 划分和支持向量粒的提取,然后把支持向量粒映 适的阈值,采用FKC-GSVM就能快速地得到需要 射到高维空间进行分类,而FKC-GSVM是直接在 的分类效果。图2~5是Contraceptive Method Cho- 核空间进行粒度划分和支持向量粒的提取,然后 ice数据集在不同阈值条件下采用FKC-GSVM分 在相同的核空间进行分类。从表2的测试结果可 类的效果图,从这几个图中可以很直观地看出, 以看出,由于FCM-GSVM和GSVM可能导致数 FKC-GSVM的分类效果还是比较令人满意的。 据在原空间和核空间分布不一致,在相同的阈值 3.0t 条件下,其分类效果要比FKC-GSVM的分类效果 28 。实际测试集分类 差,这说明FKC-GSVM的泛化能力比FCM-GS- 6 ·预测测试集分类 2.4 VM的泛化能力强。 2.2 为了分析在不同阈值条件下FKC-GSVM的 蓝2.0 1.8 泛化性能,本文给出了0.9、0.85、0.8、0.75四个不 梁16 同阈值条件下的实验。从表2可以看出,阈值越 .4 1.2 小,FKC-GSVM的分类效果越差,这是因为阈值 1.0 0 50100150200250300350400450500 越小,选取的支持向量粒就越少,这一过程可能 测试样本数/个 丢失了一些支持向量,影响了分类效果。但是阈 图2FKC-GSVM在阈值为0.9条件下的分类效果 值越小,大大压缩了训练样本集,算法训练的速 Fig.2 The classification results of FKC-GSVM under the 度得到了很大的提高。因此,对于大规模样本来 threshold 0.9
表 1 实验采用的数据集 Table 1 Datasets used in experiments 数据集 Abalone Contraceptive Method Choice Pen-Based Recognition of Hand-written Digits NDC-10k NDC-1l #训练集 3 177 1 000 6 280 10 000 100 000 #测试集 1 000 473 3 498 1 000 10 000 维度 8 9 16 32 32 为了比较数据集在原空间粒化和在核空间粒 化的不同效果,本文采用基于模糊聚类的粒度支 持向量机 (FCM-GSVM)、基于模糊核聚类的粒度 支持向量机 (FKC-GSVM) 和粒度支持向量机 (GSVM) 等 3 种算法对 5 个典型的 UCI 数据集进行了 测试,测试结果如表 2 所示。为了更直观地看出 FKC-GSVM 在不同阈值条件下的分类效果,给出 了 Contraceptive Method Choice 数据集在不同阈值 条件下采用 FKC-GSVM 分类的效果图,如图 2~ 图 5 所示。 表 2 FCM-GSVM 与 FKC-GSVM 测试结果比较 Table 2 Comparison of test results between FCM-GSVM and FKC-GSVM % 数据集 算法 阈值 k 0.9 0.85 0.8 0.75 Abalone GSVM 80.1 75.6 76.7 65.6 FCM-GSVM 82.9 79.1 75.9 68.8 FKC-GSVM 94.8 85.4 79.2 75.9 Contraceptive Method Choice GSVM 82.1 76.4 78.4 64.9 FCM-GSVM 85.4 82.7 79.3 69.8 FKC-GSVM 91.6 87.2 85.6 81.5 Pen-Based Recognition of Handwritten Digits GSVM 81.2 77.1 70.2 63.8 FCM-GSVM 84.6 80.6 75.6 70.3 FKC-GSVM 90.7 83.3 80.4 72.9 NDC-10k GSVM 85.2 82.1 79.7 69.3 FCM-GSVM 86.5 83.8 81.4 79.6 FKC-GSVM 89.6 86.1 84.6 82.3 NDC-1l GSVM 80.2 72.4 73.5 66.6 FCM-GSVM 83.7 79.3 76.9 72.9 FKC-GSVM 86.5 83.8 82.3 79.2 FCM-GSVM 和 GSVM 是在原空间进行粒度 划分和支持向量粒的提取,然后把支持向量粒映 射到高维空间进行分类,而 FKC-GSVM 是直接在 核空间进行粒度划分和支持向量粒的提取,然后 在相同的核空间进行分类。从表 2 的测试结果可 以看出,由于 FCM-GSVM 和 GSVM 可能导致数 据在原空间和核空间分布不一致,在相同的阈值 条件下,其分类效果要比 FKC-GSVM 的分类效果 差,这说明 FKC-GSVM 的泛化能力比 FCM-GSVM 的泛化能力强。 为了分析在不同阈值条件下 FKC-GSVM 的 泛化性能,本文给出了 0.9、0.85、0.8、0.75 四个不 同阈值条件下的实验。从表 2 可以看出,阈值越 小,FKC-GSVM 的分类效果越差,这是因为阈值 越小,选取的支持向量粒就越少,这一过程可能 丢失了一些支持向量,影响了分类效果。但是阈 值越小,大大压缩了训练样本集,算法训练的速 度得到了很大的提高。因此,对于大规模样本来 说,只要在能接受的分类效果的范围内,选取合 适的阈值,采用 FKC-GSVM 就能快速地得到需要 的分类效果。图 2~5 是 Contraceptive Method Choice 数据集在不同阈值条件下采用 FKC-GSVM 分 类的效果图,从这几个图中可以很直观地看出, FKC-GSVM 的分类效果还是比较令人满意的。 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个 测试样本数/个 实际测试集分类 预测测试集分类 图 2 FKC-GSVM 在阈值为 0.9 条件下的分类效果 Fig. 2 The classification results of FKC-GSVM under the threshold 0.9 第 6 期 黄华娟,等:基于模糊核聚类粒化的粒度支持向量机 ·1275·
·1276· 智能系统学报 第14卷 3.0+ 范围内采用网格搜索算法进行选择。表4显示的 2.8 。实际测试集分类 2.6 +预测测试集分类 是FKC-GSVM和TWSVM两种算法的运行结果。 2.4 表3实验采用的NDC数据集 Table 3 NDC datasets used in experiments 2.0wx4 水亲名 数据集 训练集 测试集 维度 NDC-3L 300000 30000 32 1.4 1.2 NDC-5L 500000 50000 32 1. NDC-IM 1000000 100000 32 050100150200250300350400450500 NDCI 5000 5000 100 测试样本数/个 NDC2 5000 5000 1000 图3FKC-GSVM在阈值为0.85条件下的分类效果 Fig.3 The classification results of FKC-GSVM under the 表42种算法对NDC数据集的测试结果 threshold 0.85 Table 4 Comparison of two algorithms on NDC datasets 3.0 +44 FKC-GSVM TWSVM 2.8 。实际测试集分类 数据集 训练正测试正CPU时训练正测试正CPU时 2.6 ◆预测测试集分类 确率/%确率/%间s确率/%确率%间s 2.4 NDC-31 82.1278.562.8979.5478.7623.10 轴22 NDC-5179.6578.085.13178.8477.1290.35 NDC-1m82.1280.2750.734 梁16 NDC189.6886.311.15286.7284,5219.574 1.4 NDC2 90.6786.9560.364 1.2 “_”表示训练时间过高,实验无法进行 1.0 050100150200250300350400450500 测试样本数/个 从表3中可以看出,本实验测试的对象为 图4FKC-GSVM在阈值为0.8条件下的分类效果 5种数据集,NDC-3L的训练样本数为300000个, Fig.4 The classification results of FKC-GSVM under the 而NDC-1m的样本增加到了1000000个,同样, threshold 0.8 测试样本也从30000增加到了100000,特征数都 3.0++4 是32维。这3个数据集主要是为了测试算法在 2.8 。实际测试集分类 处理维度一样而数据量不断增加时候的学习性 2.6 ◆预测测试集分类 能。为了进一步测试学习算法处理高维样本的性 2.4 始2.2 能,NDC1和NDC2这2个数据集的维数分别是 2.0 100和1000,设置他们的训练样本量和测试样本 1.8 16 量都一样,都是5000。 实验结果如表4所示,从中可以看出,当数据 1.4 1.2 集为NDC-lm时,由于训练时间过高,采用TWS 1. 050100150200250300350400450500 VM算法无法将实验进行下去。然而,FKC-GS- 测试样本数/个 VM在处理NDC-lm数据集时能够在合理的运行 图5 FKC-GSVM在阈值为0.75条件下的分类效果 时间内得到较满意的精度解,这表明了FKC-GS Fig.5 The classification results of FKC-GSVM under the VM在处理大数据时是具有优势的。同样,在处 threshold 0.75 理NDC1和NDC2这2个高维数据集时,从表4 3.2NDC大数据集上的实验 可以明显看出,FKC-GSVM处理高维数据的效果 为了测试FKC-GSVM处理大数据集的性能, 也是不错的。实验结果充分说明了FKC-GS- 在实验中,采用的数据集是NDC大数据集2o,是 VM的学习能力比TWSVM的强,更适合于处理 大数据集。 由David Musicant'sNDC数据产生器产生的, NDC数据集的描述如表3所示。在实验中,FKC- 4结束语 GSVM的测试结果将与现在比较流行的孪生支持 GSVM是将训练样本在原空间粒化后再映射 向量机(twin support vector machines,.TWSVM)的 到核空间,这将导致数据与原空间的分布不一 测试结果从测试精度和运行时间2方面进行对 致,从而降低了GSVM的泛化能力。为了解决这 比。其中,FKC-GSVM的运行环境、参数设置方 个问题,本文提出了一种基于模糊核聚类粒化的 法和实验3.1一样,阈值k=0.9;TWSVM的惩罚 粒度支持向量机方法(FKC-GSVM)。FKC-GS 参数和核参数的选取都是从{2,2,…,2)这个 VM通过利用模糊核聚类直接在核空间对数据进
3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个 测试样本数/个 实际测试集分类 预测测试集分类 图 3 FKC-GSVM 在阈值为 0.85 条件下的分类效果 Fig. 3 The classification results of FKC-GSVM under the threshold 0.85 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个 测试样本数/个 实际测试集分类 预测测试集分类 图 4 FKC-GSVM 在阈值为 0.8 条件下的分类效果 Fig. 4 The classification results of FKC-GSVM under the threshold 0.8 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个 测试样本数/个 实际测试集分类 预测测试集分类 图 5 FKC-GSVM 在阈值为 0.75 条件下的分类效果 Fig. 5 The classification results of FKC-GSVM under the threshold 0.75 3.2 NDC 大数据集上的实验 k = 0.9 {2 −8 ,2 −7 ,··· ,2 7 } 为了测试 FKC-GSVM 处理大数据集的性能, 在实验中,采用的数据集是 NDC 大数据集 [20],是 由 David Musicant’s NDC 数据产生器产生的, NDC 数据集的描述如表 3 所示。在实验中,FKCGSVM 的测试结果将与现在比较流行的孪生支持 向量机 (twin support vector machines, TWSVM) 的 测试结果[20] 从测试精度和运行时间 2 方面进行对 比。其中,FKC-GSVM 的运行环境、参数设置方 法和实验 3.1 一样,阈值 ;TWSVM 的惩罚 参数和核参数的选取都是从 这个 范围内采用网格搜索算法进行选择。表 4 显示的 是 FKC-GSVM 和 TWSVM 两种算法的运行结果。 表 3 实验采用的 NDC 数据集 Table 3 NDC datasets used in experiments 数据集 训练集 测试集 维度 NDC-3L 300 000 30 000 32 NDC-5L 500 000 50 000 32 NDC-1M 1 000 000 100 000 32 NDC1 5 000 5 000 100 NDC2 5 000 5 000 1 000 表 4 2 种算法对 NDC 数据集的测试结果 Table 4 Comparison of two algorithms on NDC datasets 数据集 FKC-GSVM TWSVM 训练正 确率/% 测试正 确率/% CPU时 间/s 训练正 确率/% 测试正 确率/% CPU时 间/s NDC-3l 82.12 78.56 2.89 79.54 78.76 23.10 NDC-5l 79.65 78.08 5.131 78.84 77.12 90.35 NDC-1m 82.12 80.27 50.734 − − − NDC1 89.68 86.31 1.152 86.72 84,52 19.574 NDC2 90.67 86.95 60.364 − − − “−”表示训练时间过高,实验无法进行 从表 3 中可以看出,本实验测试的对象为 5 种数据集,NDC-3L 的训练样本数为 300 000 个, 而 NDC-1m 的样本增加到了 1 000 000 个,同样, 测试样本也从 30 000 增加到了 100 000,特征数都 是 32 维。这 3 个数据集主要是为了测试算法在 处理维度一样而数据量不断增加时候的学习性 能。为了进一步测试学习算法处理高维样本的性 能,NDC1 和 NDC2 这 2 个数据集的维数分别是 100 和 1 000,设置他们的训练样本量和测试样本 量都一样,都是 5 000。 实验结果如表 4 所示,从中可以看出,当数据 集为 NDC-1m 时,由于训练时间过高,采用 TWSVM 算法无法将实验进行下去。然而,FKC-GSVM 在处理 NDC-1m 数据集时能够在合理的运行 时间内得到较满意的精度解,这表明了 FKC-GSVM 在处理大数据时是具有优势的。同样,在处 理 NDC1 和 NDC2 这 2 个高维数据集时,从表 4 可以明显看出,FKC-GSVM 处理高维数据的效果 也是不错的。实验结果充分说明了 FKC-GSVM 的学习能力比 TWSVM 的强,更适合于处理 大数据集。 4 结束语 GSVM 是将训练样本在原空间粒化后再映射 到核空间,这将导致数据与原空间的分布不一 致,从而降低了 GSVM 的泛化能力。为了解决这 个问题,本文提出了一种基于模糊核聚类粒化的 粒度支持向量机方法 (FKC-GSVM)。FKC-GSVM 通过利用模糊核聚类直接在核空间对数据进 ·1276· 智 能 系 统 学 报 第 14 卷
第6期 黄华娟,等:基于模糊核聚类粒化的粒度支持向量机 ·1277· 行粒的划分和支持向量粒的选取,然后在相同的 [11]李涛,刘学臣,张帅,等.基于混合编程模型的支持向量 核空间中进行支持向量粒的GSVM训练,在标准 机训练并行化.计算机研究与发展,2015,52(5): 数据集的实验说明了FKC-GSVM算法的有效 1098-1108 性。但是阈值参数的选取仍具有一定的随意性, LI Tao,LIU Xuechen,ZHANG Shuai,et al.Parallel sup- port vector machine training with hybrid programming 影响了FKC-GSVM的性能。如何自适应地调整 model[J].Journal of computer research and development, 合适的阈值,将是下一步要研究的工作内容。 2015,52(5):1098-1108. [12]丁世飞,黄华娟.最小二乘李生参数化不敏感支持向量 参考文献: 回归机.软件学报,2017,28(12:3146-3155 DING Shifei,HUANG Huajuan.Least squares twin para- [1]VAPNIK V N.The nature of statistical learning theory [M]. metric insensitive support vector regression[J].Journal of New York:Springer-Verlag,1995. software,.2017,28(12:3146-3155 [2]丁世飞,张健,张谢锴,等.多分类孪生支持向量机研究 [13]张鑫.粒度支持向量机学习方法研究D].太原:山西大 进展.软件学报,2018,29(1):89-108 学,2009 DING Shifei.ZHANG Jian,ZHANG Xiekai,et al.Survey ZHANG Xin.Research on granular support vector ma- on multi class twin support vector machines[J].Journal of chine learning method[D].Taiyuan:Shangxi University, software,2018.291):89-108. 2009. [3]AN Yuexuan,DING Shifei,SHI Songhui,et al.Discrete [14]DING Shifei,AN Yuexuan,ZHANG Xiekai,et al.Wave space reinforcement learning algorithm based on support let twin support vector machines based on glowworm vector machine classification[J.Pattern recognition letters. swarm optimization[J].Neurocomputing,2017,225: 2018.111:30-35. 157-163. [4]谢娟英,谢维信.基于特征子集区分度与支持向量机的 [15]KUMAR M A,GOPAL M.Application of smoothing 特征选择算法).计算机学报,2014,37(8):1704-1718. technique on twin support vector machines[J].Pattern re- XIE Juanying,XIE Weixin.Several feature selection al- cognition letters,2008,29(13):1842-1848. gorithms based on the discernibility of a feature subset and [16]黄华娟.孪生支持向量机关键问题的研究[D].徐州:中 国矿业大学,2014. support vector machines[J].Chinese journal of computers, HUANG Huajuan.Research on the key problems of twin 2014,37(8):17041718 support vector machines[D].Xuzhou:China University of [5]YAO YY.Granular computing:basic issues and possible Mining and Technology,2014. solution[Cl//Proceedings of the 5th Joint Conference on In- formation Sciences.Atlantic City,USA,2000:186-189. [17刀郭虎升,王文剑,张鑫.基于粒度核的支持向量机学习 [6]DING Shifei,XU Li,ZHU Hong,et al.Research and pro- 算法[C]W第三届中国粒计算联合会议.河北,石家庄, gress of cluster algorithms based on granular computing[J]. 2009.95-97:155 International journal of digital content technology and its 作者简介: applications,2010,4(5):96-104. [7]TANG Yuchun,JIN Bo,SUN Yi,et al.Granular support 黄华娟,女,1984生,副教授,博 vector machines for medical binary classification prob- 士,主要研究方向为机器学习与数据 lems[C]//Proceedings of 2004 IEEE Symposium on Com- 挖掘。主持国家自然科学基金项目 putational Intelligence in Bioinformatics and Computation- 广西自然科学基金项目各1项。发表 al Biology.La Jolla,CA,USA,2004:73-78. 学术论文20余篇。 [8]TANG Yuchun,JIN Bo,ZHANG Yanqing.Granular sup- port vector machines with association rules mining for pro- tein homology prediction[J].Artificial intelligence in medi- 韦修喜,男,1980生,讲师,主要 cine,2005,35(1/2):121-134 [9]冯昌,廖士中.随机傅里叶特征空间中高斯核支持向量 研究方向为人工智能。主持广西高校 中青年教师科研基础能力提升项目 机模型选择[J].计算机研究与发展,2016,53(9) 1971-1978 1项。发表学术论文10余篇。 FENG Chang,LIAO Shizhong.Model selection for Gaus- sian kernel support vector machines in random Fourier fea- ture space[J].Journal of computer research and develop- ment,2016.53(9):1971-1978. 周永权,男,1962年生,教授,博 [10]段丹青,陈松乔,杨卫军,等.使用粗糙集和支持向量机 检测入侵【J].小型微型计算机系统,2008,29(4): 土,主要研究方向为计算智能。主持 627-630. 国家自然科学基金项目3项。发表学 DUAN Danqing.CHEN Songqiao,YANG Weiping,et al. 术论文100余篇。 Detect intrusion using rough set and support vector ma- chine[J].Journal of Chinese computer systems,2008, 29(4):627-630
行粒的划分和支持向量粒的选取,然后在相同的 核空间中进行支持向量粒的 GSVM 训练,在标准 数据集的实验说明了 FKC-GSVM 算法的有效 性。但是阈值参数的选取仍具有一定的随意性, 影响了 FKC-GSVM 的性能。如何自适应地调整 合适的阈值,将是下一步要研究的工作内容。 参考文献: VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995. [1] 丁世飞, 张健, 张谢锴, 等. 多分类孪生支持向量机研究 进展 [J]. 软件学报, 2018, 29(1): 89–108. DING Shifei, ZHANG Jian, ZHANG Xiekai, et al. Survey on multi class twin support vector machines[J]. Journal of software, 2018, 29(1): 89–108. [2] AN Yuexuan, DING Shifei, SHI Songhui, et al. Discrete space reinforcement learning algorithm based on support vector machine classification[J]. Pattern recognition letters, 2018, 111: 30–35. [3] 谢娟英, 谢维信. 基于特征子集区分度与支持向量机的 特征选择算法 [J]. 计算机学报, 2014, 37(8): 1704–1718. XIE Juanying, XIE Weixin. Several feature selection algorithms based on the discernibility of a feature subset and support vector machines[J]. Chinese journal of computers, 2014, 37(8): 1704–1718. [4] YAO Y Y. Granular computing: basic issues and possible solution[C]//Proceedings of the 5th Joint Conference on Information Sciences. Atlantic City, USA, 2000: 186–189. [5] DING Shifei, XU Li, ZHU Hong, et al. Research and progress of cluster algorithms based on granular computing[J]. International journal of digital content technology and its applications, 2010, 4(5): 96–104. [6] TANG Yuchun, JIN Bo, SUN Yi, et al. Granular support vector machines for medical binary classification problems[C]//Proceedings of 2004 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology. La Jolla, CA, USA, 2004: 73–78. [7] TANG Yuchun, JIN Bo, ZHANG Yanqing. Granular support vector machines with association rules mining for protein homology prediction[J]. Artificial intelligence in medicine, 2005, 35(1/2): 121–134. [8] 冯昌, 廖士中. 随机傅里叶特征空间中高斯核支持向量 机模型选择 [J]. 计算机研究与发展, 2016, 53(9): 1971–1978. FENG Chang, LIAO Shizhong. Model selection for Gaussian kernel support vector machines in random Fourier feature space[J]. Journal of computer research and development, 2016, 53(9): 1971–1978. [9] 段丹青, 陈松乔, 杨卫军, 等. 使用粗糙集和支持向量机 检测入侵 [J]. 小型微型计算机系统, 2008, 29(4): 627–630. DUAN Danqing, CHEN Songqiao, YANG Weiping, et al. Detect intrusion using rough set and support vector machine[J]. Journal of Chinese computer systems, 2008, 29(4): 627–630. [10] 李涛, 刘学臣, 张帅, 等. 基于混合编程模型的支持向量 机训练并行化 [J]. 计算机研究与发展, 2015, 52(5): 1098–1108. LI Tao, LIU Xuechen, ZHANG Shuai, et al. Parallel support vector machine training with hybrid programming model[J]. Journal of computer research and development, 2015, 52(5): 1098–1108. [11] 丁世飞, 黄华娟. 最小二乘孪生参数化不敏感支持向量 回归机 [J]. 软件学报, 2017, 28(12): 3146–3155. DING Shifei, HUANG Huajuan. Least squares twin parametric insensitive support vector regression[J]. Journal of software, 2017, 28(12): 3146–3155. [12] 张鑫. 粒度支持向量机学习方法研究 [D]. 太原: 山西大 学, 2009. ZHANG Xin. Research on granular support vector machine learning method[D]. Taiyuan: Shangxi University, 2009. [13] DING Shifei, AN Yuexuan, ZHANG Xiekai, et al. Wavelet twin support vector machines based on glowworm swarm optimization[J]. Neurocomputing, 2017, 225: 157–163. [14] KUMAR M A, GOPAL M. Application of smoothing technique on twin support vector machines[J]. Pattern recognition letters, 2008, 29(13): 1842–1848. [15] 黄华娟. 孪生支持向量机关键问题的研究 [D]. 徐州: 中 国矿业大学, 2014. HUANG Huajuan. Research on the key problems of twin support vector machines[D]. Xuzhou: China University of Mining and Technology, 2014. [16] 郭虎升, 王文剑, 张鑫. 基于粒度核的支持向量机学习 算法 [C]// 第三届中国粒计算联合会议. 河北,石家庄, 2009.95−97:155. [17] 作者简介: 黄华娟,女,1984 生,副教授,博 士,主要研究方向为机器学习与数据 挖掘。主持国家自然科学基金项目、 广西自然科学基金项目各 1 项。发表 学术论文 20 余篇。 韦修喜,男,1980 生,讲师,主要 研究方向为人工智能。主持广西高校 中青年教师科研基础能力提升项目 1 项。发表学术论文 10 余篇。 周永权,男,1962 年生,教授,博 士,主要研究方向为计算智能。主持 国家自然科学基金项目 3 项。发表学 术论文 100 余篇。 第 6 期 黄华娟,等:基于模糊核聚类粒化的粒度支持向量机 ·1277·