正在加载图片...
·1246· 智能系统学报 第14卷 代过程进行划分,挑选弱信息区距超平面较远且 5)将更新后的信息粒代替原信息加人到训练 粒密度小的粒在当前迭代过程进行融合,用划分 集并更新分类超平面,同时记录模型测试结果; 后的超粒代替原始超粒。在该方式下,数据规模 6)重复4)6),直到满足停止条件: 能够保持在较低水平,SVM的学习效率也得到有 )记录模型结果集,算法结束。 效的提升。 传统SVM模型训练的时间复杂度和空间复 杂度分别为o(m)和o(m2),其中n为数据的规模。 SVM在模型训练过程中,需要存储和计算大规模 的核矩阵,随着数据规模的增长,效率会大大降 G 低。DFSVM算法采用动态划分融合双向控制的 方式对数据集进行迭代划分,始终将训练集维持 G 在较小的规模,提高了模型的学习效率。尽管 DFSVM在划分过程中会多次训练超平面,但训 练总耗时仍然较少,并进一步改进了CGSVM静 态单层划分对重要信息提取不足的缺点,针对于 强信息粒进行信息提取,同时融合冗余的弱信息 粒,降低训练规模的同时提升CGSVM的训练精 度。DFSVM模型在保证较高分类精度的条件 下,有效地提升了模型的学习效率。 图2动态划分融合过程 3实验和分析 Fig.2 Dynamic division and fusion process 本文提出的DFSVM针对传统SVM无法高 3.1实验数据集 效的处理大规模数据以及CGSVM静态划分的不 本文实验在多个UCI数据集和标准数据集上 进行实验,见表1,SVM选用高斯核函数,在多种 足进行了改进,探讨的目标是DFSVM是否能够 在保证精度损失较少的情况下有效提升SVM的 参数下进行实验。实验在一台CPU为2.50GHz, 学习效率。本文在不同的参数下做了大量实验, 内存8GB计算机上运行,实验平台为Matlab2016a。 基本算法描述如下: 表1实验数据集 Table 1 Experimental data sets 算法采用划分融合双向控制的粒度支持向 数据集样本总数训练集测试集特征维度数据比例 量机 输入原始数据集D,初始粒化参数k,动态 banana 8726 69821744 2 1:1 粒化参数m,迭代粒化参数d,停止条件t(预先设 thyroid 3220 2576 644 5 1:1 定的模型迭代次数): image 9900 7920 1980 e 1:l 输出划分融合过程得到的模型测试结果集。 german 3000 2400 600 20 1:1 1)用聚类算法将数据集D中每一类划分为 diabetis 5360 4288 1072 8 1:1 k个粒G1,G2,…,Gk; spambase 3200 2560 640 57 :1 2)将划分后的每个粒中心加入到训练集中训 splice 15270 122163054 60 11 练得到初始分类超平面'; kdd-1999 1000008000020000 41 l:l 3)通过式(4)和式(6)计算强信息区的信息粒 与超平面的距离D,以及粒密度P,挑选当前需要 3.2动态粒划分结果分析 划分的d个信息粒,并将这些信息粒分别深度划 本文提出的采用划分融合双向控制的粒度支 分为m个子粒; 持向量机模型,在粒划分过程中逐步提取潜在的 4)通过式(4)和式(6)计算弱信息区信息粒、 支持向量信息,通过信息融合清除掉过多的冗余信 超平面的距离D,与粒密度P,挑选出当前需要融 息,提升SVM的学习效率。本小节实验验证DFSVM 合的d×m个弱信息粒; 粒划分融合过程中对SVM泛化能力的影响。代过程进行划分,挑选弱信息区距超平面较远且 粒密度小的粒在当前迭代过程进行融合,用划分 后的超粒代替原始超粒。在该方式下,数据规模 能够保持在较低水平,SVM 的学习效率也得到有 效的提升。 G− 4 G− 1 G− 2 G− 5 G− 3 G+ 3 G+ 4 G+ 2 G+ 1 G+ 5 G− m G− 1 G− d1 G− d2 G− 3 G+ 3 G+ m G+ 2 G+ d1 G+ d2 图 2 动态划分融合过程 Fig. 2 Dynamic division and fusion process 本文提出的 DFSVM 针对传统 SVM 无法高 效的处理大规模数据以及 CGSVM 静态划分的不 足进行了改进,探讨的目标是 DFSVM 是否能够 在保证精度损失较少的情况下有效提升 SVM 的 学习效率。本文在不同的参数下做了大量实验, 基本算法描述如下: 算法 采用划分融合双向控制的粒度支持向 量机 D k m d t 输入 原始数据集 ,初始粒化参数 ,动态 粒化参数 ,迭代粒化参数 ,停止条件 (预先设 定的模型迭代次数); 输出 划分融合过程得到的模型测试结果集。 D k G1,G2,··· ,Gk 1) 用聚类算法将数据集 中每一类划分为 个粒 ; f ′ 2) 将划分后的每个粒中心加入到训练集中训 练得到初始分类超平面 ; Di ρi d m 3) 通过式 (4) 和式 (6) 计算强信息区的信息粒 与超平面的距离 以及粒密度 ,挑选当前需要 划分的 个信息粒,并将这些信息粒分别深度划 分为 个子粒; Di ρi d ×m 4) 通过式 (4) 和式 (6) 计算弱信息区信息粒、 超平面的距离 与粒密度 ,挑选出当前需要融 合的 个弱信息粒; 5) 将更新后的信息粒代替原信息加入到训练 集并更新分类超平面,同时记录模型测试结果; 6) 重复 4)~6),直到满足停止条件 t ; 7) 记录模型结果集,算法结束。 o(n 3 ) o(n 2 ) n 传统 SVM 模型训练的时间复杂度和空间复 杂度分别为 和 ,其中 为数据的规模。 SVM 在模型训练过程中,需要存储和计算大规模 的核矩阵,随着数据规模的增长,效率会大大降 低。DFSVM 算法采用动态划分融合双向控制的 方式对数据集进行迭代划分,始终将训练集维持 在较小的规模,提高了模型的学习效率。尽管 DFSVM 在划分过程中会多次训练超平面,但训 练总耗时仍然较少,并进一步改进了 CGSVM 静 态单层划分对重要信息提取不足的缺点,针对于 强信息粒进行信息提取,同时融合冗余的弱信息 粒,降低训练规模的同时提升 CGSVM 的训练精 度。DFSVM 模型在保证较高分类精度的条件 下,有效地提升了模型的学习效率。 3 实验和分析 3.1 实验数据集 本文实验在多个 UCI 数据集和标准数据集上 进行实验,见表 1,SVM 选用高斯核函数,在多种 参数下进行实验。实验在一台 CPU 为 2.50 GHz, 内存 8 GB 计算机上运行,实验平台为 Matlab2016a。 表 1 实验数据集 Table 1 Experimental data sets 数据集 样本总数 训练集 测试集 特征维度 数据比例 banana 8 726 6 982 1 744 2 1:1 thyroid 3 220 2 576 644 5 1:1 image 9 900 7 920 1 980 18 1:1 german 3 000 2 400 600 20 1:1 diabetis 5 360 4 288 1 072 8 1:1 spambase 3 200 2 560 640 57 1:1 splice 15 270 12 216 3 054 60 1:1 kdd-1999 100 000 80 000 20 000 41 1:1 3.2 动态粒划分结果分析 本文提出的采用划分融合双向控制的粒度支 持向量机模型,在粒划分过程中逐步提取潜在的 支持向量信息,通过信息融合清除掉过多的冗余信 息,提升 SVM 的学习效率。本小节实验验证 DFSVM 粒划分融合过程中对 SVM 泛化能力的影响。 ·1246· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有