正在加载图片...
·1274· 智能系统学报 第14卷 [1/dx,- 支持向量粒;在核空间对支持向量粒进行SVM (8) 训练。具体的算法步骤如下: 之d成,wa- 1)粗粒划分:以类标签个数1为粒子个数,对 且有 训练样本进行粗粒的划分,得到1个粒子; 2)细粒划分:采用模糊核聚类分别对1个粒 Gom 子进行细粒划分,计算每个粒子的隶属度; 0)= 妇1 i=1,2,…,C (9) 3)支持向量粒的提取:给定一个阈值,当一 N 个粒子的隶属度小于给定的阈值,提取这个粒子 (支持向量粒),提取出来的支持向量粒组成了一 为了最小化目标函数,需要计算k(x,)和 个新的训练集; k(,),由k(x,x)=<(x),(x)>可得: 4)支持向量集的训练:在新的训练样本集上 进行GSVM训练; ∑,x) 5)泛化能力的测试:利用测试集测试泛化 k(x,)=<0x,0A)>= (10) 能力。 2.5FKC-GSVM算法性能分析 下面,从2个方面对FKC-GSVM的算法性能 uuk(xgx,) 进行分析: k(,)=<0(,0)>= k=1s=1 (11) 1)FKC-GSVM的收敛性分析 与SVM相比,FKC-GSVM采用核空间代替 原始空间进行粒化,提取出支持向量粒后在相同 把式(9)(11)代入式(7),可以求出模糊核C- 的核空间进行GSVM训练,其训练的核心思想依 均值聚类的目标函数值。 然是采用支持向量来构造分类超平面,这与标准 模糊核C-均值聚类的算法步骤如下: 支持向量机相同。既然标准支持向量机是收敛 1)初始化参数:s、m、T和C; 的,则FKC-GSVM也是收敛的。但是由于FKC- 2)对训练数据集进行预处理: GSVM别除了大量对训练不起积极作用的非支持 3)设置(i=1,2,…,C)的初始值; 向量,直接采用支持向量来训练,所以它的收敛 4)计算隶属度(i=1,2,…,C:j=1,2,…,N) 速度要快于标准支持向量机。 5)计算新的kx,)和kv,v,更新隶属度 2)FKC-GSVM的泛化能力分析 为; 评价一个学习器性能好坏的重要指标是其是 6)若max,-i<s或迭代次数等于预定送 否具有较强的泛化能力。众所周知,由于SVM 代次数T则算法停止,否则转到4)。 采用结构风险最小(SRM)归纳原则,因此,与其 2.4FKC-GSVM的算法步骤 他学习机器相比,SVM的泛化能力是很突出的。 目前,已有的粒度支持向量机算法模型大都 同样,FKC-GSVM也执行了SRM归纳原则,并且 是直接在原始空间对数据集进行粒化和提取,然 直接在核空间选取支持向量,确保了数据的一致 后映射到核空间进行SVM的训练。然而,不同 性,具有更好的泛化性能。 空间的转换,很有可能丢失了数据集的有用信 息,降低学习器的性能。为了避免因数据在不同 3实验结果及分析 空间分布不一致而导致泛化能力不高的问题,本 文采用模糊核聚类的方法直接在核空间对数据集 3.1UCI数据集上的实验 进行粒化、提取和SVM的训练。基于以上思想, 为了验证FKC-GSVM的学习性能,本文在 本文提出了基于模糊核聚类粒化的粒度支持向量 Matlab7.11的环境下对5个常用的UCI数据集进 (fuzzy kernel cluster granular support vector ma- 行实验,这5个数据集的描述如表1所示。在实验 chine,FKC-GSVM。FKC-GSVM算法包括3部 中,采用的核函数为高斯核函数,并且采用交叉验 分:采用模糊核聚类进行粒度的划分;设定阈值, 证方法选取惩罚参数C和核参数σ,聚类数c设为 当每个粒子的隶属度大于规定的阈值时,认为这 20。影响算法表现的主要因素是阈值k的设定,为 个粒子为非支持向量粒,丢弃,而剩余的粒子为 此,对不同的阈值对算法的影响进行了分析。ui j = [1/d 2 Ki j(xj , vi)]1/(m−1) ∑C j=1 [1/d 2 Ki j(xj , vi)]1/(m−1) (8) 且有 Ø(vi) = ∑N k=1 u m ikØ(xk) ∑N k=1 u m ik , i = 1,2,··· ,C (9) k(xj , vi) k(vi , vi) k(xi , xj) =< ϕ(xi), ϕ(xj) > 为了最小化目标函数,需要计算 和 ,由 可得: k(xj , vi) =< Ø(xj),Ø(vi) >= ∑N k=1 u m ikk(xk , xj) ∑N k=1 u m ik (10) k(vi , vi) =< Ø(vi),Ø(vi) >= ∑N k=1 ∑N s=1 u m iku m is k(xk , xs)   ∑N k=1 u m ik   2 (11) 把式 (9)~(11) 代入式 (7),可以求出模糊核 - C 均值聚类的目标函数值。 模糊核 - C 均值聚类的算法步骤如下: 1) 初始化参数: 、 、 ε m T 和 C ; 2) 对训练数据集进行预处理; 3) 设置 vi(i = 1,2,··· ,C) 的初始值; 4) 计算隶属度 ui j(i = 1,2,··· ,C; j = 1,2,··· ,N) ; k(xj , vi) k(vi , vi) ui j uˆi j 5) 计算新的 和 ,更新隶属度 为 ; max j,i ui j −uˆi j < ε T 6) 若 或迭代次数等于预定迭 代次数 则算法停止,否则转到 4)。 2.4 FKC-GSVM 的算法步骤 目前,已有的粒度支持向量机算法模型大都 是直接在原始空间对数据集进行粒化和提取,然 后映射到核空间进行 SVM 的训练。然而,不同 空间的转换,很有可能丢失了数据集的有用信 息,降低学习器的性能。为了避免因数据在不同 空间分布不一致而导致泛化能力不高的问题,本 文采用模糊核聚类的方法直接在核空间对数据集 进行粒化、提取和 SVM 的训练。基于以上思想, 本文提出了基于模糊核聚类粒化的粒度支持向量 机 (fuzzy kernel cluster granular support vector ma￾chine, FKC-GSVM)。FKC-GSVM 算法包括 3 部 分:采用模糊核聚类进行粒度的划分;设定阈值, 当每个粒子的隶属度大于规定的阈值时,认为这 个粒子为非支持向量粒,丢弃,而剩余的粒子为 支持向量粒;在核空间对支持向量粒进行 SVM 训练。具体的算法步骤如下: l l 1) 粗粒划分:以类标签个数 为粒子个数,对 训练样本进行粗粒的划分,得到 个粒子; 2) 细粒划分:采用模糊核聚类分别对 l 个粒 子进行细粒划分,计算每个粒子的隶属度; 3) 支持向量粒的提取:给定一个阈值,当一 个粒子的隶属度小于给定的阈值,提取这个粒子 (支持向量粒),提取出来的支持向量粒组成了一 个新的训练集; 4) 支持向量集的训练:在新的训练样本集上 进行 GSVM 训练; 5) 泛化能力的测试:利用测试集测试泛化 能力。 2.5 FKC-GSVM 算法性能分析 下面,从 2 个方面对 FKC-GSVM 的算法性能 进行分析: 1) FKC-GSVM 的收敛性分析 与 SVM 相比,FKC-GSVM 采用核空间代替 原始空间进行粒化,提取出支持向量粒后在相同 的核空间进行 GSVM 训练,其训练的核心思想依 然是采用支持向量来构造分类超平面,这与标准 支持向量机相同。既然标准支持向量机是收敛 的,则 FKC-GSVM 也是收敛的。但是由于 FKC￾GSVM 剔除了大量对训练不起积极作用的非支持 向量,直接采用支持向量来训练,所以它的收敛 速度要快于标准支持向量机。 2) FKC-GSVM 的泛化能力分析 评价一个学习器性能好坏的重要指标是其是 否具有较强的泛化能力。众所周知,由于 SVM 采用结构风险最小 (SRM) 归纳原则,因此,与其 他学习机器相比,SVM 的泛化能力是很突出的。 同样,FKC-GSVM 也执行了 SRM 归纳原则,并且 直接在核空间选取支持向量,确保了数据的一致 性,具有更好的泛化性能。 3 实验结果及分析 3.1 UCI 数据集上的实验 C σ c k 为了验证 FKC-GSVM 的学习性能,本文在 Matlab7.11 的环境下对 5 个常用的 UCI 数据集进 行实验,这 5 个数据集的描述如表 1 所示。在实验 中,采用的核函数为高斯核函数,并且采用交叉验 证方法选取惩罚参数 和核参数 ,聚类数 设为 20。影响算法表现的主要因素是阈值 的设定,为 此,对不同的阈值对算法的影响进行了分析。 ·1274· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有