【机器学习】基于模糊核聚类粒化的粒度支持向量机

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：992.87KB

第14卷第6期智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201904048 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190904.1734.002.html 基于模糊核聚类粒化的粒度支持向量机黄华娟，韦修喜，周永权2 (1.广西民族大学信息科学与工程学院，广西南宁530006,2.广西民族大学广西高校复杂系统与智能计算重点实验室，广西南宁530006) 摘要：针对传统的粒度支持向量机(granular support vector machine,GSVM)将训练样本在原空间粒化后再映射到核空间，导致数据与原空间的分布不一致，从而降低GSVM的泛化能力的问题，本文提出了一种基于模糊核聚类粒化的粒度支持向量机学习算法(fuzzy kemel cluster granular support vector machine,FKC-GSVM)。FKC-GS- VM通过利用模糊核聚类直接在核空间对数据进行粒的划分和支持向量粒的选取，在相同的核空间中进行支持向量粒的GSVM训练。在UCI数据集和NDC大数据上的实验表明：与其他几个算法相比，FKC-GSVM在更短的时间内获得了精度更高的解。关键词：模糊核聚类：粒化：支持向量机：粒度支持向量机：原空间：核空间：支持向量：聚类中图分类号：TP18文献标志码：A文章编号：1673-4785(2019)06-1271-07 中文引用格式：黄华娟，韦修喜，周永权.基于模糊核聚类粒化的粒度支持向量机J小.智能系统学报，2019,14(6)： 1271-1277. 英文引用格式：HUANG Huajuan,.WEI Xiuxi,.ZHOU Yongquan..Granular support vector machine based on fuz四y kernel cluster- ing granulation[J].CAAI transactions on intelligent systems,2019,14(6):1271-1277. Granular support vector machine based on fuzzy kernel clustering granulation HUANG Huajuan',WEI Xiuxi',ZHOU Yongquan'2 (1.College of Information Science and Engineering,Guangxi University for Nationalities,Nanning 530006,China;2.Guangxi High- er School Key Laboratory of Complex Systems and Intelligent Computing,Guangxi University for Nationalities,Nanning 530006, China) Abstract:For the traditional granular support vector machine(GSVM),the training samples are granulated in the origin- al space and then mapped to the kernel space.However,this method will lead to the inconsistent distribution of the data between the original space and the kernel space,thereby reducing the generalization of GSVM.To solve this problem,a granular support vector machine based on fuzzy kernel cluster is proposed.Here,the training data are directly granu- lated,and support vector particles are selected in kernel space.The support vector particles are then trained in the same kernel space by the GSVM.Finally,experiments on UCI data sets and NDC big data sets show that FKC-GSVM achieves more accurate solutions in a shorter time than other algorithms. Keywords:fuzzy kernel cluster;granulation;support vector machine;granular support vector machine;original space; kernel space;support vector,clustering 收稿日期：2019-04-18.网络出版日期：2019-09-05. 支持向量机(support vector machine,SVM) 基金项目：国家自然科学基金资助项目(61662005)：广西自然科学基金项目(2018JA170121):广西高校中青年教自1995年由Vapnik提出以来就受到理论研究和师科研基础能力提升项目(2019KY0195). 通信作者：韦修喜.E-mail:weixiuxi(@163.com. 工程应用2方面的重视，是机器学习的一个研究

DOI: 10.11992/tis.201904048 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190904.1734.002.html 基于模糊核聚类粒化的粒度支持向量机黄华娟1 ，韦修喜1 ，周永权1,2 （1. 广西民族大学信息科学与工程学院，广西南宁 530006; 2. 广西民族大学广西高校复杂系统与智能计算重点实验室，广西南宁 530006）摘要：针对传统的粒度支持向量机 (granular support vector machine, GSVM) 将训练样本在原空间粒化后再映射到核空间，导致数据与原空间的分布不一致，从而降低 GSVM 的泛化能力的问题，本文提出了一种基于模糊核聚类粒化的粒度支持向量机学习算法 (fuzzy kernel cluster granular support vector machine, FKC-GSVM)。FKC-GSVM 通过利用模糊核聚类直接在核空间对数据进行粒的划分和支持向量粒的选取，在相同的核空间中进行支持向量粒的 GSVM 训练。在 UCI 数据集和 NDC 大数据上的实验表明：与其他几个算法相比，FKC-GSVM 在更短的时间内获得了精度更高的解。关键词：模糊核聚类；粒化；支持向量机；粒度支持向量机；原空间；核空间；支持向量；聚类中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2019)06−1271−07 中文引用格式：黄华娟, 韦修喜, 周永权. 基于模糊核聚类粒化的粒度支持向量机 [J]. 智能系统学报, 2019, 14(6): 1271–1277. 英文引用格式：HUANG Huajuan, WEI Xiuxi, ZHOU Yongquan. Granular support vector machine based on fuzzy kernel clustering granulation[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1271–1277. Granular support vector machine based on fuzzy kernel clustering granulation HUANG Huajuan1 ，WEI Xiuxi1 ，ZHOU Yongquan1,2 (1. College of Information Science and Engineering, Guangxi University for Nationalities, Nanning 530006, China; 2. Guangxi Higher School Key Laboratory of Complex Systems and Intelligent Computing, Guangxi University for Nationalities, Nanning 530006, China) Abstract: For the traditional granular support vector machine (GSVM), the training samples are granulated in the original space and then mapped to the kernel space. However, this method will lead to the inconsistent distribution of the data between the original space and the kernel space, thereby reducing the generalization of GSVM. To solve this problem, a granular support vector machine based on fuzzy kernel cluster is proposed. Here, the training data are directly granulated, and support vector particles are selected in kernel space. The support vector particles are then trained in the same kernel space by the GSVM. Finally, experiments on UCI data sets and NDC big data sets show that FKC-GSVM achieves more accurate solutions in a shorter time than other algorithms. Keywords: fuzzy kernel cluster; granulation; support vector machine; granular support vector machine; original space; kernel space; support vector; clustering 支持向量机 (support vector machine, SVM) 自 1995 年由 Vapnik 提出以来就受到理论研究和工程应用 2 方面的重视，是机器学习的一个研究收稿日期：2019−04−18. 网络出版日期：2019−09−05. 基金项目：国家自然科学基金资助项目 (61662005)；广西自然科学基金项目 (2018JJA170121)；广西高校中青年教师科研基础能力提升项目 (2019KY0195). 通信作者：韦修喜. E-mail：weixiuxi@163.com. 第 14 卷第 6 期智能系统学报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019

·1272· 智能系统学报第14卷方向和热点，已经成功应用到很多领域中。 X={X,Y),i=1,2,…,0 SVM的基本算法是一个含有不等式约束条件的其中：二次规划(quadratic programming problem,QPP)问 l,+1 Xl+h+…++ 题，然而，如果直接求解QPP问题，当数据集较大 x1,+2 X1+h4+++2 …,X= 时，算法的效率将会下降，所需内存量也会增大。 Xh+l 因此，如何克服SVM在处理大规模数据集时的 X,+h++-+4 则在GSVM中，最优化问题变为：效率低下问题，一直是学者们研究的热点。 1 为了更好地解决大规模样本的分类问题，基 min.b亏w2 (1) 于粒度计算理论911和统计学习理论的思想， S.t. Y(w:X)+b)≥1，j=1,2,…,l Tang等于2004年首次提出粒度支持向量机(gran- 将上述问题根据最优化理论转化为其对偶问题： ular support vector machine,.GSVM)这个术语。GS max W(a)=max- VM的总体思想是在原始空间将数据集进行划 ∑∑auYY/Xx)+∑a 人分，得到数据粒。然后提取出有用的数据粒，并对其进行SVM训练a。与传统支持向量机相 S.t. ∑a=0. 0≤a≤C 比，GSVM学习机制具有以下优点：针对大样本解得最优解a=[aa2'…a,计算最优权值向数据，通过数据粒化和对有用粒子（支持向量粒）的提取，别除了无用冗余的样本，减少了样本数量w=ayx,和最优偏置公=y-乃4xX. 人量，提高了训练效率。然而，Tang只是给出了 i∈{lg>0。因此得到最优分类超平面(w)+b=0, GSVM学习模型的一些设想，没有给出具体的学而最优分类函数为：习算法。2009年，张鑫]在Tang提出的GS- f(x)=sgn((wX)+b]= VM思想的基础上，构建了一个粒度支持向量机的模型，并对其学习机制进行了探讨。此后，许 gm∑yX,X》+b,reR (3) 多学者对支持向量机和粒度计算相结合的具体模当数据集是线性不可分时，GSVM不是在原型进行了研究，比如模糊支持向量机)、粗糙集始空间构造最优分类面，而是映射到高维特征空支持向量机、决策树支持向量机和商空间支间，然后再进行构造，具体为：持向量机等。但这些模型的共同点都是在原将X从R:变换到Φ：始空间直接划分数据集，然后再映射到高维空间 X一(X)=[(X)中2(X)…Φ(X 进行SVM学习。然而，这种做法很有可能丢失以特征向量(X)代替输入向量X,则可以得了大量包含有用信息的数据粒，其学习算法的性到最优分类函数为：能会受到影响。为此，本文采用模糊核聚类的方 f(X)=sgn(wD(X)+b)= 法将样本直接在核空间进行粒的划分和提取，然 sgn∑ayX)o)+b) (4) 后在相同的核空间进行GSVM训练，这样保证了 =1 数据分布的一致性，提高了算法的泛化能力。最利用核函数来求解向量的内积，则最优分类后，在标准UCI数据集和NDC大数据上的实验结函数变为：果表明，本文算法是可行的且效果更好。 f(X)=sgn(w(X)+b)= (5) 1粒度支持向量机 sg(∑axkK,+b 张鑫1在Tang提出的GSVM思想的基础其中，k(X,)为粒度核函数。当a>0,根据以上上，构建了一个粒度支持向量机的模型。分析，可知X:是支持向量。显然地，式(5)的形式设给定数据集为X={x,),i=1,2,…,n,n 和SVM的最优分类函数很一致，确保了最优解为样本的个数；y为：所属类的标签。采用粒度的唯一性。划分的方法（聚类、粗糙集、关联规则等）划分X, 2基于模糊核聚类粒化的粒度支持若数据集有1个类，则将X分成1个粒，表示为：向量机 (X1,Y),(X2,Y2,…,(X,Y),…,(X,Y) 若每个粒包含1：个点，Y表示第i个粒的类 2.1问题的提出别，则有：在研究中发现，只有支持向量才对SVM的训

方向和热点，已经成功应用到很多领域中[ 1 - 3 ]。 SVM 的基本算法是一个含有不等式约束条件的二次规划 (quadratic programming problem, QPP) 问题，然而，如果直接求解 QPP 问题，当数据集较大时，算法的效率将会下降，所需内存量也会增大[4-8]。因此，如何克服 SVM 在处理大规模数据集时的效率低下问题，一直是学者们研究的热点。为了更好地解决大规模样本的分类问题，基于粒度计算理论[ 9 - 1 0 ] 和统计学习理论的思想， Tang 等于 2004 年首次提出粒度支持向量机 (granular support vector machine, GSVM) 这个术语。GSVM 的总体思想是在原始空间将数据集进行划分，得到数据粒。然后提取出有用的数据粒，并对其进行 SVM 训练 [11-12]。与传统支持向量机相比，GSVM 学习机制具有以下优点：针对大样本数据，通过数据粒化和对有用粒子 (支持向量粒) 的提取，剔除了无用冗余的样本，减少了样本数量，提高了训练效率。然而，Tang 只是给出了 GSVM 学习模型的一些设想，没有给出具体的学习算法。2009 年，张鑫[ 1 3 ] 在 Tang 提出的 GSVM 思想的基础上，构建了一个粒度支持向量机的模型，并对其学习机制进行了探讨。此后，许多学者对支持向量机和粒度计算相结合的具体模型进行了研究，比如模糊支持向量机[13] 、粗糙集支持向量机[14] 、决策树支持向量机[15]和商空间支持向量机[16] 等。但这些模型的共同点都是在原始空间直接划分数据集，然后再映射到高维空间进行 SVM 学习。然而，这种做法很有可能丢失了大量包含有用信息的数据粒，其学习算法的性能会受到影响。为此，本文采用模糊核聚类的方法将样本直接在核空间进行粒的划分和提取，然后在相同的核空间进行 GSVM 训练，这样保证了数据分布的一致性，提高了算法的泛化能力。最后，在标准 UCI 数据集和 NDC大数据上的实验结果表明，本文算法是可行的且效果更好。 1 粒度支持向量机张鑫[17] 在 Tang 提出的 GSVM 思想的基础上，构建了一个粒度支持向量机的模型。 X = {(xi , yi),i = 1,2,··· ,n} n yi xi X l X l 设给定数据集为，为样本的个数；为所属类的标签。采用粒度划分的方法 (聚类、粗糙集、关联规则等) 划分，若数据集有个类，则将分成个粒，表示为： (X1 ,Y1),(X2 ,Y2),··· ,(Xi ,Yi),··· ,(Xl ,Yl) li Yi 若每个粒包含个点，表示第 i 个粒的类别，则有： X = {(Xi ,Yi),i = 1,2,··· ,l} 其中： X1 =    x1 x2 . . . xl1    ,X2 =    xl1+1 xl1+2 . . . xl1+l2    ,··· ,Xl =    xl1+l2+···+ll−1+1 xl1+l2+···+ll−1+2 . . . xl1+l2+···+ll−1+ll    则在 GSVM 中，最优化问题变为： minw,b 1 2 w 2 s.t. Yj((w· Xj)+b) ⩾ 1, j = 1,2,··· ,l (1) 将上述问题根据最优化理论转化为其对偶问题： max a W(a) = max a − 1 2 ∑l i=1 ∑l j=1 aiajYiYj(XiXj)+ ∑l i=1 ai s.t. ∑l i=1 aiYi = 0, 0 ⩽ ai ⩽ C (2) a ∗ = [a1 ∗ a2 ∗ ··· al ∗ ] T w ∗ = ∑l j=1 aj ∗ yjXj b ∗ = yi − ∑l j=1 yja ∗ j (XjXi) i ∈ {i|a ∗ i > 0} (w ∗X)+b ∗ = 0 解得最优解，计算最优权值向量和最优偏置，。因此得到最优分类超平面，而最优分类函数为： f(x) =sgn{(w ∗X)+b ∗ } = sgn{( ∑l j=1 a ∗ j yj(XjXi))+b ∗ },X ∈ R n (3) 当数据集是线性不可分时，GSVM 不是在原始空间构造最优分类面，而是映射到高维特征空间，然后再进行构造，具体为： X R 将从 n 变换到 Φ： X→− Φ(X) = [Φ1(X)Φ2(X) ··· Φl(X)]T 以特征向量 Φ(X) 代替输入向量 X ，则可以得到最优分类函数为： f(X) =sgn(wΦ(X)+b) = sgn(∑l i=1 aiyiΦ(Xi)Φ(X)+b) (4) 利用核函数来求解向量的内积，则最优分类函数变为： f(X) =sgn(wΦ(X)+b) = sgn(∑l i=1 aiyik(Xi ,X)+b) (5) k(Xi ,X) ai > 0 Xi 其中，为粒度核函数。当，根据以上分析，可知是支持向量。显然地，式 (5) 的形式和 SVM 的最优分类函数很一致，确保了最优解的唯一性。 2 基于模糊核聚类粒化的粒度支持向量机 2.1 问题的提出在研究中发现，只有支持向量才对 SVM 的训 ·1272· 智能系统学报第 14 卷

第6期黄华娟，等：基于模糊核聚类粒化的粒度支持向量机 ·1273· 练起积极作用，它们是非常重要的，对于SVM是量粒，它们决定了分类超平面。并且从中可以看不可或缺的，而其余的非支持向量对于分类超平出，对于每一类，离类中心越远的点，就越有可能面是不起作用的，甚至可能产生负面影响，比如是支持向量粒。并且，从图1中还可以看出，落在增加了核矩阵的容量，降低了SVM的效率。GS- 每一个环上的样本，它们离类中心的距离差不多 VM也存在同样的问题，只有支持向量粒才对相等。离类中心越远的环就越有可能含有多的 GSVM的训练起决定性作用。可以通过理论证明支持向量粒。基于这个思想，本文先把样本映射来说明这个观点的正确性。到核空间，按类标签的个数进行粗粒划分，确保定理1粒度支持向量机的训练过程和训练相同标签的样本都在同一个粗粒中。然后，对于结果与非支持向量粒无关。每一个粗粒，采用模糊聚类的方法进行粒化，具证明定义I,w={ia>0)和1asv={a=0)分别有相同隶属度的样本归为一个粒，进行细粒划为支持向量粒和非支持向量粒对应样本序号的索分。每一个细粒就对应图1中的一个环，从图中引集，支持向量粒的个数记为！。引入只优化支可以看出，离粗粒中心越远的环，越靠近分类超持向量粒对应样本的问题平面，其是支持向量粒的可能性越大。而离粗粒中心越远的环，其隶属度越小。因此，给定一个 1 maxg(a)=max- ∑∑aa,Yxx)+a 阈值，当细粒的隶属度小于给定的阈值，就说明 2 (6) 其处于粗粒的边缘，是支持向量粒，进而提取出 S.t. ∑ay=0,0≤ag(a)。由于a是式(2)的最优解，也即是式(6)的可行解，同样，d也是式(2)的可行解。由于a是式(2)的最优解，可得w(a)>w(a)。又图1支持向量分布图因为 Fig.1 The distribution of support vectors w(a)=max- dwA+2a= 2.3 模糊核聚类模糊核聚类(fuzzy kernel cluster,FKC)的主要 1 ∑∑ddyy k(X.X)+∑a=ga max2 思想是先将数据集映射到高维空间，然后直接在高人维空间进行模糊聚类。而一般的聚类算法是直接 ∑∑ddyyA(X.X)+∑a= 在原始空间进行聚类划分。与其他的聚类算法相 w(a')=max-22 比，模糊核聚类引入了非线性映射，能够在更大程度上提取到有用的特征，聚类的效果会更好。 1夕 max-2 aay,kX,x)+∑a=ga 设原空间样本集为X=(x1,,…,w),x∈R4 11 1 j=1,2,…,N。核非线性映射为0：x→0(x,在本可得w(a')=g(a)>g(a)=w(a),即w(a')>w(a), 文中，采用Euclid距离作为距离测量方法，由此得这与a是式(2)的最优解得出的w(a)>w(a')相到模糊核C-均值聚类：矛盾。定理1得证。注：a是r维向量，代入w的 J=(X,U,V)= 时候拓展为I维向量。要想迅速地得到支持向量粒，节省粒化的时 ∑立-o 间，首先了解支持向量的特征，文献[13]对其特征做了归纳总结。 (7) 1)现实中，支持向量一般都是稀疏地聚集在 2立0-2，+ 训练数据集的边缘。 2立g.M.2sc<N 2)根据第一个特征，则每个类中心附近的数 1=】据不会是支持向量，即，离支持向量机超平面较式中：C是事先确定的簇数；m∈(1，o)是模糊加权近的数据比较可能是支持向量，这就为支持向量指数，对聚类的模糊程度有重要的调节作用；”为的选取提供了快速的获取方法。第i类的类中心；()为该中心在相应核空间中 2.2问题分析的像。图1中，红色部分的数据是GSVM的支持向按模糊C均值优化方法，隶属度设计为

练起积极作用，它们是非常重要的，对于 SVM 是不可或缺的，而其余的非支持向量对于分类超平面是不起作用的，甚至可能产生负面影响，比如增加了核矩阵的容量，降低了 SVM 的效率。GSVM 也存在同样的问题，只有支持向量粒才对 GSVM 的训练起决定性作用。可以通过理论证明来说明这个观点的正确性。定理 1 粒度支持向量机的训练过程和训练结果与非支持向量粒无关。 Isv = {i|al > 0} Insv = {i|al = 0} l ′ 证明定义和分别为支持向量粒和非支持向量粒对应样本序号的索引集，支持向量粒的个数记为。引入只优化支持向量粒对应样本的问题 max a g(a) = max a − 1 2 l ∑′ i=1 l ∑′ j=1 aiajYiYj(XiXj)+ l ∑′ i=1 ai s.t. ∑l i=1 aiYi = 0, 0 ⩽ ai ⩽ C, i = 1,2,··· , l ′ ∈ Isv (6) a ′ g(a ′ ) > g(a ∗ ) a ∗ a ∗ a ′ a ∗ w(a ∗ ) > w(a ′ ) 要证明定理 1，只需要证明式 (2) 和式 (6) 同解。用反正法，假设式 (6) 存在一个最优解使得。由于是式 (2) 的最优解，也即是式 (6) 的可行解，同样，也是式 (2) 的可行解。由于是式 (2) 的最优解，可得。又因为 w(a ′ ) = max− a 1 2 ∑l i=1 ∑l j=1 a ′ ia ′ j yiyjk(Xi ,Xj)+ ∑l i=1 a ′= max a − 1 2 l ∑′ i=1 l ∑′ j=1 a ′ ia ′ j yiyjk(Xi ,Xj)+ l ∑′ i=1 a ′ = g(a ′ ) w(a ∗ ) = max− a 1 2 ∑l i=1 ∑l j=1 a ∗ i a ∗ j yiyjk(Xi ,Xj)+ ∑l i=1 a ∗= max a − 1 2 l ∑′ i=1 l ∑′ j=1 a ∗ i a ∗ j yiyjk(Xi ,Xj)+ l ∑′ i=1 a ∗ = g(a ∗ ) w(a ′ ) = g(a ′ ) > g(a ∗ ) = w(a ∗ ) w(a ′ ) > w(a ∗ ) a ∗ w(a ∗ ) > w(a ′ ) a ′ l ′ w l 可得，即，这与是式 (2) 的最优解得出的相矛盾。定理 1 得证。注：是维向量，代入的时候拓展为维向量。要想迅速地得到支持向量粒，节省粒化的时间，首先了解支持向量的特征，文献 [13] 对其特征做了归纳总结。 1) 现实中，支持向量一般都是稀疏地聚集在训练数据集的边缘。 2) 根据第一个特征，则每个类中心附近的数据不会是支持向量，即，离支持向量机超平面较近的数据比较可能是支持向量，这就为支持向量的选取提供了快速的获取方法。 2.2 问题分析图 1 中，红色部分的数据是 GSVM 的支持向量粒，它们决定了分类超平面。并且从中可以看出，对于每一类，离类中心越远的点，就越有可能是支持向量粒。并且，从图 1 中还可以看出，落在每一个环上的样本，它们离类中心的距离差不多相等。离类中心越远的环就越有可能含有多的支持向量粒。基于这个思想，本文先把样本映射到核空间，按类标签的个数进行粗粒划分，确保相同标签的样本都在同一个粗粒中。然后，对于每一个粗粒，采用模糊聚类的方法进行粒化，具有相同隶属度的样本归为一个粒，进行细粒划分。每一个细粒就对应图 1 中的一个环，从图中可以看出，离粗粒中心越远的环，越靠近分类超平面，其是支持向量粒的可能性越大。而离粗粒中心越远的环，其隶属度越小。因此，给定一个阈值，当细粒的隶属度小于给定的阈值，就说明其处于粗粒的边缘，是支持向量粒，进而提取出支持向量粒. 图 1 支持向量分布图 Fig. 1 The distribution of support vectors 2.3 模糊核聚类模糊核聚类 (fuzzy kernel cluster, FKC) 的主要思想是先将数据集映射到高维空间，然后直接在高维空间进行模糊聚类。而一般的聚类算法是直接在原始空间进行聚类划分。与其他的聚类算法相比，模糊核聚类引入了非线性映射，能够在更大程度上提取到有用的特征，聚类的效果会更好。 X = (x1, x2,··· , xN) xj ∈ R d j = 1,2,··· ,N Ø : x → Ø(x) C 设原空间样本集为，，。核非线性映射为，在本文中，采用 Euclid 距离作为距离测量方法，由此得到模糊核 -均值聚类： Jm =(X,U,V) = ∑C i=1 ∑N j=1 u m i j Ø(xj)−Ø(vi) 2 = ∑C i=1 ∑N j=1 u m i j[k(xj , xj)−2k(xj , vi)+k(vi , vi)] = ∑C i=1 ∑N j=1 u m i jd 2 Ki j(xj , vi), 2 ⩽ C < N (7) C m ∈ (1,∞) vi i ϕ(vi) 式中：是事先确定的簇数；是模糊加权指数，对聚类的模糊程度有重要的调节作用；为第类的类中心；为该中心在相应核空间中的像。按模糊 - C 均值优化方法，隶属度设计为第 6 期黄华娟，等：基于模糊核聚类粒化的粒度支持向量机 ·1273·

·1274· 智能系统学报第14卷 [1/dx,- 支持向量粒；在核空间对支持向量粒进行SVM (8) 训练。具体的算法步骤如下：之d成，wa- 1)粗粒划分：以类标签个数1为粒子个数，对且有训练样本进行粗粒的划分，得到1个粒子； 2)细粒划分：采用模糊核聚类分别对1个粒 Gom 子进行细粒划分，计算每个粒子的隶属度； 0）= 妇1 i=1,2,…,C (9) 3)支持向量粒的提取：给定一个阈值，当一 N 个粒子的隶属度小于给定的阈值，提取这个粒子 (支持向量粒)，提取出来的支持向量粒组成了一为了最小化目标函数，需要计算k(x,)和个新的训练集； k(,),由k(x,x)=可得： 4)支持向量集的训练：在新的训练样本集上进行GSVM训练； ∑，x) 5)泛化能力的测试：利用测试集测试泛化 k(x,)== (10) 能力。 2.5FKC-GSVM算法性能分析下面，从2个方面对FKC-GSVM的算法性能 uuk(xgx,) 进行分析： k(,)== k=1s=1 (11) 1)FKC-GSVM的收敛性分析与SVM相比，FKC-GSVM采用核空间代替原始空间进行粒化，提取出支持向量粒后在相同把式(9)(11)代入式(7)，可以求出模糊核C- 的核空间进行GSVM训练，其训练的核心思想依均值聚类的目标函数值。然是采用支持向量来构造分类超平面，这与标准模糊核C-均值聚类的算法步骤如下：支持向量机相同。既然标准支持向量机是收敛 1)初始化参数：s、m、T和C; 的，则FKC-GSVM也是收敛的。但是由于FKC- 2)对训练数据集进行预处理： GSVM别除了大量对训练不起积极作用的非支持 3)设置(i=1,2,…,C)的初始值；向量，直接采用支持向量来训练，所以它的收敛 4)计算隶属度(i=1,2,…,C:j=1,2,…,N) 速度要快于标准支持向量机。 5)计算新的kx,)和kv,v,更新隶属度 2)FKC-GSVM的泛化能力分析为；评价一个学习器性能好坏的重要指标是其是 6)若max,-i<s或迭代次数等于预定送否具有较强的泛化能力。众所周知，由于SVM 代次数T则算法停止，否则转到4)。采用结构风险最小(SRM)归纳原则，因此，与其 2.4FKC-GSVM的算法步骤他学习机器相比，SVM的泛化能力是很突出的。目前，已有的粒度支持向量机算法模型大都同样，FKC-GSVM也执行了SRM归纳原则，并且是直接在原始空间对数据集进行粒化和提取，然直接在核空间选取支持向量，确保了数据的一致后映射到核空间进行SVM的训练。然而，不同性，具有更好的泛化性能。空间的转换，很有可能丢失了数据集的有用信息，降低学习器的性能。为了避免因数据在不同 3实验结果及分析空间分布不一致而导致泛化能力不高的问题，本文采用模糊核聚类的方法直接在核空间对数据集 3.1UCI数据集上的实验进行粒化、提取和SVM的训练。基于以上思想，为了验证FKC-GSVM的学习性能，本文在本文提出了基于模糊核聚类粒化的粒度支持向量 Matlab7.11的环境下对5个常用的UCI数据集进 (fuzzy kernel cluster granular support vector ma- 行实验，这5个数据集的描述如表1所示。在实验 chine,FKC-GSVM。FKC-GSVM算法包括3部中，采用的核函数为高斯核函数，并且采用交叉验分：采用模糊核聚类进行粒度的划分；设定阈值，证方法选取惩罚参数C和核参数σ，聚类数c设为当每个粒子的隶属度大于规定的阈值时，认为这 20。影响算法表现的主要因素是阈值k的设定，为个粒子为非支持向量粒，丢弃，而剩余的粒子为此，对不同的阈值对算法的影响进行了分析

ui j = [1/d 2 Ki j(xj , vi)]1/(m−1) ∑C j=1 [1/d 2 Ki j(xj , vi)]1/(m−1) (8) 且有 Ø(vi) = ∑N k=1 u m ikØ(xk) ∑N k=1 u m ik , i = 1,2,··· ,C (9) k(xj , vi) k(vi , vi) k(xi , xj) = 为了最小化目标函数，需要计算和，由可得： k(xj , vi) == ∑N k=1 u m ikk(xk , xj) ∑N k=1 u m ik (10) k(vi , vi) == ∑N k=1 ∑N s=1 u m iku m is k(xk , xs)   ∑N k=1 u m ik   2 (11) 把式 (9)~(11) 代入式 (7)，可以求出模糊核 - C 均值聚类的目标函数值。模糊核 - C 均值聚类的算法步骤如下： 1) 初始化参数：、、 ε m T 和 C ； 2) 对训练数据集进行预处理； 3) 设置 vi(i = 1,2,··· ,C) 的初始值； 4) 计算隶属度 ui j(i = 1,2,··· ,C; j = 1,2,··· ,N) ； k(xj , vi) k(vi , vi) ui j uˆi j 5) 计算新的和，更新隶属度为； max j,i ui j −uˆi j < ε T 6) 若或迭代次数等于预定迭代次数则算法停止，否则转到 4)。 2.4 FKC-GSVM 的算法步骤目前，已有的粒度支持向量机算法模型大都是直接在原始空间对数据集进行粒化和提取，然后映射到核空间进行 SVM 的训练。然而，不同空间的转换，很有可能丢失了数据集的有用信息，降低学习器的性能。为了避免因数据在不同空间分布不一致而导致泛化能力不高的问题，本文采用模糊核聚类的方法直接在核空间对数据集进行粒化、提取和 SVM 的训练。基于以上思想，本文提出了基于模糊核聚类粒化的粒度支持向量机 (fuzzy kernel cluster granular support vector machine, FKC-GSVM)。FKC-GSVM 算法包括 3 部分：采用模糊核聚类进行粒度的划分；设定阈值，当每个粒子的隶属度大于规定的阈值时，认为这个粒子为非支持向量粒，丢弃，而剩余的粒子为支持向量粒；在核空间对支持向量粒进行 SVM 训练。具体的算法步骤如下： l l 1) 粗粒划分：以类标签个数为粒子个数，对训练样本进行粗粒的划分，得到个粒子； 2) 细粒划分：采用模糊核聚类分别对 l 个粒子进行细粒划分，计算每个粒子的隶属度； 3) 支持向量粒的提取：给定一个阈值，当一个粒子的隶属度小于给定的阈值，提取这个粒子 (支持向量粒)，提取出来的支持向量粒组成了一个新的训练集； 4) 支持向量集的训练：在新的训练样本集上进行 GSVM 训练； 5) 泛化能力的测试：利用测试集测试泛化能力。 2.5 FKC-GSVM 算法性能分析下面，从 2 个方面对 FKC-GSVM 的算法性能进行分析： 1) FKC-GSVM 的收敛性分析与 SVM 相比，FKC-GSVM 采用核空间代替原始空间进行粒化，提取出支持向量粒后在相同的核空间进行 GSVM 训练，其训练的核心思想依然是采用支持向量来构造分类超平面，这与标准支持向量机相同。既然标准支持向量机是收敛的，则 FKC-GSVM 也是收敛的。但是由于 FKCGSVM 剔除了大量对训练不起积极作用的非支持向量，直接采用支持向量来训练，所以它的收敛速度要快于标准支持向量机。 2) FKC-GSVM 的泛化能力分析评价一个学习器性能好坏的重要指标是其是否具有较强的泛化能力。众所周知，由于 SVM 采用结构风险最小 (SRM) 归纳原则，因此，与其他学习机器相比，SVM 的泛化能力是很突出的。同样，FKC-GSVM 也执行了 SRM 归纳原则，并且直接在核空间选取支持向量，确保了数据的一致性，具有更好的泛化性能。 3 实验结果及分析 3.1 UCI 数据集上的实验 C σ c k 为了验证 FKC-GSVM 的学习性能，本文在 Matlab7.11 的环境下对 5 个常用的 UCI 数据集进行实验，这 5 个数据集的描述如表 1 所示。在实验中，采用的核函数为高斯核函数，并且采用交叉验证方法选取惩罚参数和核参数，聚类数设为 20。影响算法表现的主要因素是阈值的设定，为此，对不同的阈值对算法的影响进行了分析。 ·1274· 智能系统学报第 14 卷

第6期黄华娟，等：基于模糊核聚类粒化的粒度支持向量机 ·1275· 表1实验采用的数据集 Table 1 Datasets used in experiments 数据集Abalone Contraceptive Method Choice Pen-Based Recognition of Hand-written Digits NDC-10k NDC-11 #训练集3177 1000 6280 10000 100000 #测试集 1000 473 3498 1000 10000 维度 8 9 6 32 32 为了比较数据集在原空间粒化和在核空间粒测试，测试结果如表2所示。为了更直观地看出化的不同效果，本文采用基于模糊聚类的粒度支 FKC-GSVM在不同阈值条件下的分类效果，给出持向量机(FCM-GSVM)、基于模糊核聚类的粒度了Contraceptive Method Choice数据集在不同阈值支持向量机(FKC-GSVM)和粒度支持向量机(GS 条件下采用FKC-GSVM分类的效果图，如图2~ VM)等3种算法对5个典型的UCI数据集进行了图5所示。表2FCM-GSVM与FKC-GSVM测试结果比较 Table 2 Comparison of test results between FCM-GSVM and FKC-GSVM % 数据集算法阈值k 0.9 0.85 0.8 0.75 GSVM 80.1 75.6 76.7 65.6 Abalone FCM-GSVM 82.9 79.1 75.9 68.8 FKC-GSVM 94.8 85.4 79.2 75.9 GSVM 82.1 76.4 78.4 64.9 Contraceptive Method Choice FCM-GSVM 85.4 82.7 79.3 69.8 FKC-GSVM 91.6 87.2 85.6 81.5 GSVM 81.2 77.1 70.2 63.8 Pen-Based Recognition of Handwritten Digits FCM-GSVM 84.6 80.6 75.6 70.3 FKC-GSVM 90.7 83.3 80.4 72.9 GSVM 85.2 82.1 79.7 69.3 NDC-10k FCM-GSVM 86.5 83.8 81.4 79.6 FKC-GSVM 89.6 86.1 84.6 82.3 GSVM 80.2 72.4 73.5 66.6 NDC-11 FCM-GSVM 83.7 79.3 76.9 72.9 FKC-GSVM 86.5 83.8 82.3 79.2 FCM-GSVM和GSVM是在原空间进行粒度说，只要在能接受的分类效果的范围内，选取合划分和支持向量粒的提取，然后把支持向量粒映适的阈值，采用FKC-GSVM就能快速地得到需要射到高维空间进行分类，而FKC-GSVM是直接在的分类效果。图2~5是Contraceptive Method Cho- 核空间进行粒度划分和支持向量粒的提取，然后 ice数据集在不同阈值条件下采用FKC-GSVM分在相同的核空间进行分类。从表2的测试结果可类的效果图，从这几个图中可以很直观地看出，以看出，由于FCM-GSVM和GSVM可能导致数 FKC-GSVM的分类效果还是比较令人满意的。据在原空间和核空间分布不一致，在相同的阈值 3.0t 条件下，其分类效果要比FKC-GSVM的分类效果 28 。实际测试集分类差，这说明FKC-GSVM的泛化能力比FCM-GS- 6 ·预测测试集分类 2.4 VM的泛化能力强。 2.2 为了分析在不同阈值条件下FKC-GSVM的蓝2.0 1.8 泛化性能，本文给出了0.9、0.85、0.8、0.75四个不梁16 同阈值条件下的实验。从表2可以看出，阈值越 .4 1.2 小，FKC-GSVM的分类效果越差，这是因为阈值 1.0 0 50100150200250300350400450500 越小，选取的支持向量粒就越少，这一过程可能测试样本数/个丢失了一些支持向量，影响了分类效果。但是阈图2FKC-GSVM在阈值为0.9条件下的分类效果值越小，大大压缩了训练样本集，算法训练的速 Fig.2 The classification results of FKC-GSVM under the 度得到了很大的提高。因此，对于大规模样本来 threshold 0.9

表 1 实验采用的数据集 Table 1 Datasets used in experiments 数据集 Abalone Contraceptive Method Choice Pen-Based Recognition of Hand-written Digits NDC-10k NDC-1l #训练集 3 177 1 000 6 280 10 000 100 000 #测试集 1 000 473 3 498 1 000 10 000 维度 8 9 16 32 32 为了比较数据集在原空间粒化和在核空间粒化的不同效果，本文采用基于模糊聚类的粒度支持向量机 (FCM-GSVM)、基于模糊核聚类的粒度支持向量机 (FKC-GSVM) 和粒度支持向量机 (GSVM) 等 3 种算法对 5 个典型的 UCI 数据集进行了测试，测试结果如表 2 所示。为了更直观地看出 FKC-GSVM 在不同阈值条件下的分类效果，给出了 Contraceptive Method Choice 数据集在不同阈值条件下采用 FKC-GSVM 分类的效果图，如图 2~ 图 5 所示。表 2 FCM-GSVM 与 FKC-GSVM 测试结果比较 Table 2 Comparison of test results between FCM-GSVM and FKC-GSVM % 数据集算法阈值 k 0.9 0.85 0.8 0.75 Abalone GSVM 80.1 75.6 76.7 65.6 FCM-GSVM 82.9 79.1 75.9 68.8 FKC-GSVM 94.8 85.4 79.2 75.9 Contraceptive Method Choice GSVM 82.1 76.4 78.4 64.9 FCM-GSVM 85.4 82.7 79.3 69.8 FKC-GSVM 91.6 87.2 85.6 81.5 Pen-Based Recognition of Handwritten Digits GSVM 81.2 77.1 70.2 63.8 FCM-GSVM 84.6 80.6 75.6 70.3 FKC-GSVM 90.7 83.3 80.4 72.9 NDC-10k GSVM 85.2 82.1 79.7 69.3 FCM-GSVM 86.5 83.8 81.4 79.6 FKC-GSVM 89.6 86.1 84.6 82.3 NDC-1l GSVM 80.2 72.4 73.5 66.6 FCM-GSVM 83.7 79.3 76.9 72.9 FKC-GSVM 86.5 83.8 82.3 79.2 FCM-GSVM 和 GSVM 是在原空间进行粒度划分和支持向量粒的提取，然后把支持向量粒映射到高维空间进行分类，而 FKC-GSVM 是直接在核空间进行粒度划分和支持向量粒的提取，然后在相同的核空间进行分类。从表 2 的测试结果可以看出，由于 FCM-GSVM 和 GSVM 可能导致数据在原空间和核空间分布不一致，在相同的阈值条件下，其分类效果要比 FKC-GSVM 的分类效果差，这说明 FKC-GSVM 的泛化能力比 FCM-GSVM 的泛化能力强。为了分析在不同阈值条件下 FKC-GSVM 的泛化性能，本文给出了 0.9、0.85、0.8、0.75 四个不同阈值条件下的实验。从表 2 可以看出，阈值越小，FKC-GSVM 的分类效果越差，这是因为阈值越小，选取的支持向量粒就越少，这一过程可能丢失了一些支持向量，影响了分类效果。但是阈值越小，大大压缩了训练样本集，算法训练的速度得到了很大的提高。因此，对于大规模样本来说，只要在能接受的分类效果的范围内，选取合适的阈值，采用 FKC-GSVM 就能快速地得到需要的分类效果。图 2~5 是 Contraceptive Method Choice 数据集在不同阈值条件下采用 FKC-GSVM 分类的效果图，从这几个图中可以很直观地看出， FKC-GSVM 的分类效果还是比较令人满意的。 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个测试样本数/个实际测试集分类预测测试集分类图 2 FKC-GSVM 在阈值为 0.9 条件下的分类效果 Fig. 2 The classification results of FKC-GSVM under the threshold 0.9 第 6 期黄华娟，等：基于模糊核聚类粒化的粒度支持向量机 ·1275·

·1276· 智能系统学报第14卷 3.0+ 范围内采用网格搜索算法进行选择。表4显示的 2.8 。实际测试集分类 2.6 +预测测试集分类是FKC-GSVM和TWSVM两种算法的运行结果。 2.4 表3实验采用的NDC数据集 Table 3 NDC datasets used in experiments 2.0wx4 水亲名数据集训练集测试集维度 NDC-3L 300000 30000 32 1.4 1.2 NDC-5L 500000 50000 32 1. NDC-IM 1000000 100000 32 050100150200250300350400450500 NDCI 5000 5000 100 测试样本数/个 NDC2 5000 5000 1000 图3FKC-GSVM在阈值为0.85条件下的分类效果 Fig.3 The classification results of FKC-GSVM under the 表42种算法对NDC数据集的测试结果 threshold 0.85 Table 4 Comparison of two algorithms on NDC datasets 3.0 +44 FKC-GSVM TWSVM 2.8 。实际测试集分类数据集训练正测试正CPU时训练正测试正CPU时 2.6 ◆预测测试集分类确率/%确率/%间s确率/%确率%间s 2.4 NDC-31 82.1278.562.8979.5478.7623.10 轴22 NDC-5179.6578.085.13178.8477.1290.35 NDC-1m82.1280.2750.734 梁16 NDC189.6886.311.15286.7284,5219.574 1.4 NDC2 90.6786.9560.364 1.2 “_”表示训练时间过高，实验无法进行 1.0 050100150200250300350400450500 测试样本数/个从表3中可以看出，本实验测试的对象为图4FKC-GSVM在阈值为0.8条件下的分类效果 5种数据集，NDC-3L的训练样本数为300000个， Fig.4 The classification results of FKC-GSVM under the 而NDC-1m的样本增加到了1000000个，同样， threshold 0.8 测试样本也从30000增加到了100000，特征数都 3.0++4 是32维。这3个数据集主要是为了测试算法在 2.8 。实际测试集分类处理维度一样而数据量不断增加时候的学习性 2.6 ◆预测测试集分类能。为了进一步测试学习算法处理高维样本的性 2.4 始2.2 能，NDC1和NDC2这2个数据集的维数分别是 2.0 100和1000，设置他们的训练样本量和测试样本 1.8 16 量都一样，都是5000。实验结果如表4所示，从中可以看出，当数据 1.4 1.2 集为NDC-lm时，由于训练时间过高，采用TWS 1. 050100150200250300350400450500 VM算法无法将实验进行下去。然而，FKC-GS- 测试样本数/个 VM在处理NDC-lm数据集时能够在合理的运行图5 FKC-GSVM在阈值为0.75条件下的分类效果时间内得到较满意的精度解，这表明了FKC-GS Fig.5 The classification results of FKC-GSVM under the VM在处理大数据时是具有优势的。同样，在处 threshold 0.75 理NDC1和NDC2这2个高维数据集时，从表4 3.2NDC大数据集上的实验可以明显看出，FKC-GSVM处理高维数据的效果为了测试FKC-GSVM处理大数据集的性能，也是不错的。实验结果充分说明了FKC-GS- 在实验中，采用的数据集是NDC大数据集2o,是 VM的学习能力比TWSVM的强，更适合于处理大数据集。由David Musicant'sNDC数据产生器产生的， NDC数据集的描述如表3所示。在实验中，FKC- 4结束语 GSVM的测试结果将与现在比较流行的孪生支持 GSVM是将训练样本在原空间粒化后再映射向量机(twin support vector machines,.TWSVM)的到核空间，这将导致数据与原空间的分布不一测试结果从测试精度和运行时间2方面进行对致，从而降低了GSVM的泛化能力。为了解决这比。其中，FKC-GSVM的运行环境、参数设置方个问题，本文提出了一种基于模糊核聚类粒化的法和实验3.1一样，阈值k=0.9;TWSVM的惩罚粒度支持向量机方法(FKC-GSVM)。FKC-GS 参数和核参数的选取都是从{2,2，…，2)这个 VM通过利用模糊核聚类直接在核空间对数据进

3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个测试样本数/个实际测试集分类预测测试集分类图 3 FKC-GSVM 在阈值为 0.85 条件下的分类效果 Fig. 3 The classification results of FKC-GSVM under the threshold 0.85 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个测试样本数/个实际测试集分类预测测试集分类图 4 FKC-GSVM 在阈值为 0.8 条件下的分类效果 Fig. 4 The classification results of FKC-GSVM under the threshold 0.8 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0 50 100 150 200 250 300 350 400 450 500 类别标签/个测试样本数/个实际测试集分类预测测试集分类图 5 FKC-GSVM 在阈值为 0.75 条件下的分类效果 Fig. 5 The classification results of FKC-GSVM under the threshold 0.75 3.2 NDC 大数据集上的实验 k = 0.9 {2 −8 ,2 −7 ,··· ,2 7 } 为了测试 FKC-GSVM 处理大数据集的性能，在实验中，采用的数据集是 NDC 大数据集 [20]，是由 David Musicant’s NDC 数据产生器产生的， NDC 数据集的描述如表 3 所示。在实验中，FKCGSVM 的测试结果将与现在比较流行的孪生支持向量机 (twin support vector machines, TWSVM) 的测试结果[20] 从测试精度和运行时间 2 方面进行对比。其中，FKC-GSVM 的运行环境、参数设置方法和实验 3.1 一样，阈值；TWSVM 的惩罚参数和核参数的选取都是从这个范围内采用网格搜索算法进行选择。表 4 显示的是 FKC-GSVM 和 TWSVM 两种算法的运行结果。表 3 实验采用的 NDC 数据集 Table 3 NDC datasets used in experiments 数据集训练集测试集维度 NDC-3L 300 000 30 000 32 NDC-5L 500 000 50 000 32 NDC-1M 1 000 000 100 000 32 NDC1 5 000 5 000 100 NDC2 5 000 5 000 1 000 表 4 2 种算法对 NDC 数据集的测试结果 Table 4 Comparison of two algorithms on NDC datasets 数据集 FKC-GSVM TWSVM 训练正确率/% 测试正确率/% CPU时间/s 训练正确率/% 测试正确率/% CPU时间/s NDC-3l 82.12 78.56 2.89 79.54 78.76 23.10 NDC-5l 79.65 78.08 5.131 78.84 77.12 90.35 NDC-1m 82.12 80.27 50.734 − − − NDC1 89.68 86.31 1.152 86.72 84,52 19.574 NDC2 90.67 86.95 60.364 − − − “−”表示训练时间过高，实验无法进行从表 3 中可以看出，本实验测试的对象为 5 种数据集，NDC-3L 的训练样本数为 300 000 个，而 NDC-1m 的样本增加到了 1 000 000 个，同样，测试样本也从 30 000 增加到了 100 000，特征数都是 32 维。这 3 个数据集主要是为了测试算法在处理维度一样而数据量不断增加时候的学习性能。为了进一步测试学习算法处理高维样本的性能，NDC1 和 NDC2 这 2 个数据集的维数分别是 100 和 1 000，设置他们的训练样本量和测试样本量都一样，都是 5 000。实验结果如表 4 所示，从中可以看出，当数据集为 NDC-1m 时，由于训练时间过高，采用 TWSVM 算法无法将实验进行下去。然而，FKC-GSVM 在处理 NDC-1m 数据集时能够在合理的运行时间内得到较满意的精度解，这表明了 FKC-GSVM 在处理大数据时是具有优势的。同样，在处理 NDC1 和 NDC2 这 2 个高维数据集时，从表 4 可以明显看出，FKC-GSVM 处理高维数据的效果也是不错的。实验结果充分说明了 FKC-GSVM 的学习能力比 TWSVM 的强，更适合于处理大数据集。 4 结束语 GSVM 是将训练样本在原空间粒化后再映射到核空间，这将导致数据与原空间的分布不一致，从而降低了 GSVM 的泛化能力。为了解决这个问题，本文提出了一种基于模糊核聚类粒化的粒度支持向量机方法 (FKC-GSVM)。FKC-GSVM 通过利用模糊核聚类直接在核空间对数据进 ·1276· 智能系统学报第 14 卷

第6期黄华娟，等：基于模糊核聚类粒化的粒度支持向量机 ·1277· 行粒的划分和支持向量粒的选取，然后在相同的 [11]李涛，刘学臣，张帅，等.基于混合编程模型的支持向量核空间中进行支持向量粒的GSVM训练，在标准机训练并行化.计算机研究与发展，2015,52(5)：数据集的实验说明了FKC-GSVM算法的有效 1098-1108 性。但是阈值参数的选取仍具有一定的随意性， LI Tao,LIU Xuechen,ZHANG Shuai,et al.Parallel sup- port vector machine training with hybrid programming 影响了FKC-GSVM的性能。如何自适应地调整 model[J].Journal of computer research and development, 合适的阈值，将是下一步要研究的工作内容。 2015,52(5):1098-1108. [12]丁世飞，黄华娟.最小二乘李生参数化不敏感支持向量参考文献：回归机.软件学报，2017,28(12：3146-3155 DING Shifei,HUANG Huajuan.Least squares twin para- [1]VAPNIK V N.The nature of statistical learning theory [M]. metric insensitive support vector regression[J].Journal of New York:Springer-Verlag,1995. software,.2017,28(12:3146-3155 [2]丁世飞，张健，张谢锴，等.多分类孪生支持向量机研究 [13]张鑫.粒度支持向量机学习方法研究D].太原：山西大进展.软件学报，2018,29(1)：89-108 学，2009 DING Shifei.ZHANG Jian,ZHANG Xiekai,et al.Survey ZHANG Xin.Research on granular support vector ma- on multi class twin support vector machines[J].Journal of chine learning method[D].Taiyuan:Shangxi University, software,2018.291):89-108. 2009. [3]AN Yuexuan,DING Shifei,SHI Songhui,et al.Discrete [14]DING Shifei,AN Yuexuan,ZHANG Xiekai,et al.Wave space reinforcement learning algorithm based on support let twin support vector machines based on glowworm vector machine classification[J.Pattern recognition letters. swarm optimization[J].Neurocomputing,2017,225: 2018.111:30-35. 157-163. [4]谢娟英，谢维信.基于特征子集区分度与支持向量机的 [15]KUMAR M A,GOPAL M.Application of smoothing 特征选择算法).计算机学报，2014,37(8)：1704-1718. technique on twin support vector machines[J].Pattern re- XIE Juanying,XIE Weixin.Several feature selection al- cognition letters,2008,29(13):1842-1848. gorithms based on the discernibility of a feature subset and [16]黄华娟.孪生支持向量机关键问题的研究[D].徐州：中国矿业大学，2014. support vector machines[J].Chinese journal of computers, HUANG Huajuan.Research on the key problems of twin 2014,37(8):17041718 support vector machines[D].Xuzhou:China University of [5]YAO YY.Granular computing:basic issues and possible Mining and Technology,2014. solution[Cl//Proceedings of the 5th Joint Conference on In- formation Sciences.Atlantic City,USA,2000:186-189. [17刀郭虎升，王文剑，张鑫.基于粒度核的支持向量机学习 [6]DING Shifei,XU Li,ZHU Hong,et al.Research and pro- 算法[C]W第三届中国粒计算联合会议.河北，石家庄， gress of cluster algorithms based on granular computing[J]. 2009.95-97:155 International journal of digital content technology and its 作者简介： applications,2010,4(5):96-104. [7]TANG Yuchun,JIN Bo,SUN Yi,et al.Granular support 黄华娟，女，1984生，副教授，博 vector machines for medical binary classification prob- 士，主要研究方向为机器学习与数据 lems[C]//Proceedings of 2004 IEEE Symposium on Com- 挖掘。主持国家自然科学基金项目 putational Intelligence in Bioinformatics and Computation- 广西自然科学基金项目各1项。发表 al Biology.La Jolla,CA,USA,2004:73-78. 学术论文20余篇。 [8]TANG Yuchun,JIN Bo,ZHANG Yanqing.Granular sup- port vector machines with association rules mining for pro- tein homology prediction[J].Artificial intelligence in medi- 韦修喜，男，1980生，讲师，主要 cine,2005,35(1/2):121-134 [9]冯昌，廖士中.随机傅里叶特征空间中高斯核支持向量研究方向为人工智能。主持广西高校中青年教师科研基础能力提升项目机模型选择[J].计算机研究与发展，2016,53(9) 1971-1978 1项。发表学术论文10余篇。 FENG Chang,LIAO Shizhong.Model selection for Gaus- sian kernel support vector machines in random Fourier fea- ture space[J].Journal of computer research and develop- ment,2016.53(9):1971-1978. 周永权，男，1962年生，教授，博 [10]段丹青，陈松乔，杨卫军，等.使用粗糙集和支持向量机检测入侵【J].小型微型计算机系统，2008,29(4)：土，主要研究方向为计算智能。主持 627-630. 国家自然科学基金项目3项。发表学 DUAN Danqing.CHEN Songqiao,YANG Weiping,et al. 术论文100余篇。 Detect intrusion using rough set and support vector ma- chine[J].Journal of Chinese computer systems,2008, 29(4):627-630

行粒的划分和支持向量粒的选取，然后在相同的核空间中进行支持向量粒的 GSVM 训练，在标准数据集的实验说明了 FKC-GSVM 算法的有效性。但是阈值参数的选取仍具有一定的随意性，影响了 FKC-GSVM 的性能。如何自适应地调整合适的阈值，将是下一步要研究的工作内容。参考文献： VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995. [1] 丁世飞, 张健, 张谢锴, 等. 多分类孪生支持向量机研究进展 [J]. 软件学报, 2018, 29(1): 89–108. DING Shifei, ZHANG Jian, ZHANG Xiekai, et al. Survey on multi class twin support vector machines[J]. Journal of software, 2018, 29(1): 89–108. [2] AN Yuexuan, DING Shifei, SHI Songhui, et al. Discrete space reinforcement learning algorithm based on support vector machine classification[J]. Pattern recognition letters, 2018, 111: 30–35. [3] 谢娟英, 谢维信. 基于特征子集区分度与支持向量机的特征选择算法 [J]. 计算机学报, 2014, 37(8): 1704–1718. XIE Juanying, XIE Weixin. Several feature selection algorithms based on the discernibility of a feature subset and support vector machines[J]. Chinese journal of computers, 2014, 37(8): 1704–1718. [4] YAO Y Y. Granular computing: basic issues and possible solution[C]//Proceedings of the 5th Joint Conference on Information Sciences. Atlantic City, USA, 2000: 186–189. [5] DING Shifei, XU Li, ZHU Hong, et al. Research and progress of cluster algorithms based on granular computing[J]. International journal of digital content technology and its applications, 2010, 4(5): 96–104. [6] TANG Yuchun, JIN Bo, SUN Yi, et al. Granular support vector machines for medical binary classification problems[C]//Proceedings of 2004 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology. La Jolla, CA, USA, 2004: 73–78. [7] TANG Yuchun, JIN Bo, ZHANG Yanqing. Granular support vector machines with association rules mining for protein homology prediction[J]. Artificial intelligence in medicine, 2005, 35(1/2): 121–134. [8] 冯昌, 廖士中. 随机傅里叶特征空间中高斯核支持向量机模型选择 [J]. 计算机研究与发展, 2016, 53(9): 1971–1978. FENG Chang, LIAO Shizhong. Model selection for Gaussian kernel support vector machines in random Fourier feature space[J]. Journal of computer research and development, 2016, 53(9): 1971–1978. [9] 段丹青, 陈松乔, 杨卫军, 等. 使用粗糙集和支持向量机检测入侵 [J]. 小型微型计算机系统, 2008, 29(4): 627–630. DUAN Danqing, CHEN Songqiao, YANG Weiping, et al. Detect intrusion using rough set and support vector machine[J]. Journal of Chinese computer systems, 2008, 29(4): 627–630. [10] 李涛, 刘学臣, 张帅, 等. 基于混合编程模型的支持向量机训练并行化 [J]. 计算机研究与发展, 2015, 52(5): 1098–1108. LI Tao, LIU Xuechen, ZHANG Shuai, et al. Parallel support vector machine training with hybrid programming model[J]. Journal of computer research and development, 2015, 52(5): 1098–1108. [11] 丁世飞, 黄华娟. 最小二乘孪生参数化不敏感支持向量回归机 [J]. 软件学报, 2017, 28(12): 3146–3155. DING Shifei, HUANG Huajuan. Least squares twin parametric insensitive support vector regression[J]. Journal of software, 2017, 28(12): 3146–3155. [12] 张鑫. 粒度支持向量机学习方法研究 [D]. 太原: 山西大学, 2009. ZHANG Xin. Research on granular support vector machine learning method[D]. Taiyuan: Shangxi University, 2009. [13] DING Shifei, AN Yuexuan, ZHANG Xiekai, et al. Wavelet twin support vector machines based on glowworm swarm optimization[J]. Neurocomputing, 2017, 225: 157–163. [14] KUMAR M A, GOPAL M. Application of smoothing technique on twin support vector machines[J]. Pattern recognition letters, 2008, 29(13): 1842–1848. [15] 黄华娟. 孪生支持向量机关键问题的研究 [D]. 徐州: 中国矿业大学, 2014. HUANG Huajuan. Research on the key problems of twin support vector machines[D]. Xuzhou: China University of Mining and Technology, 2014. [16] 郭虎升, 王文剑, 张鑫. 基于粒度核的支持向量机学习算法 [C]// 第三届中国粒计算联合会议. 河北，石家庄， 2009.95−97：155. [17] 作者简介：黄华娟，女，1984 生，副教授，博士，主要研究方向为机器学习与数据挖掘。主持国家自然科学基金项目、广西自然科学基金项目各 1 项。发表学术论文 20 余篇。韦修喜，男，1980 生，讲师，主要研究方向为人工智能。主持广西高校中青年教师科研基础能力提升项目 1 项。发表学术论文 10 余篇。周永权，男，1962 年生，教授，博士，主要研究方向为计算智能。主持国家自然科学基金项目 3 项。发表学术论文 100 余篇。第 6 期黄华娟，等：基于模糊核聚类粒化的粒度支持向量机 ·1277·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录