代过程进行划分，挑选弱信息区距超平面较远且粒密度小的粒在当前迭代过程进行

正在加载图片...

·1246· 智能系统学报第14卷代过程进行划分，挑选弱信息区距超平面较远且 5)将更新后的信息粒代替原信息加人到训练粒密度小的粒在当前迭代过程进行融合，用划分集并更新分类超平面，同时记录模型测试结果；后的超粒代替原始超粒。在该方式下，数据规模 6)重复4)6)，直到满足停止条件：能够保持在较低水平，SVM的学习效率也得到有 )记录模型结果集，算法结束。效的提升。传统SVM模型训练的时间复杂度和空间复杂度分别为o(m)和o(m2),其中n为数据的规模。 SVM在模型训练过程中，需要存储和计算大规模的核矩阵，随着数据规模的增长，效率会大大降 G 低。DFSVM算法采用动态划分融合双向控制的方式对数据集进行迭代划分，始终将训练集维持 G 在较小的规模，提高了模型的学习效率。尽管 DFSVM在划分过程中会多次训练超平面，但训练总耗时仍然较少，并进一步改进了CGSVM静态单层划分对重要信息提取不足的缺点，针对于强信息粒进行信息提取，同时融合冗余的弱信息粒，降低训练规模的同时提升CGSVM的训练精度。DFSVM模型在保证较高分类精度的条件下，有效地提升了模型的学习效率。图2动态划分融合过程 3实验和分析 Fig.2 Dynamic division and fusion process 本文提出的DFSVM针对传统SVM无法高 3.1实验数据集效的处理大规模数据以及CGSVM静态划分的不本文实验在多个UCI数据集和标准数据集上进行实验，见表1，SVM选用高斯核函数，在多种足进行了改进，探讨的目标是DFSVM是否能够在保证精度损失较少的情况下有效提升SVM的参数下进行实验。实验在一台CPU为2.50GHz, 学习效率。本文在不同的参数下做了大量实验，内存8GB计算机上运行，实验平台为Matlab2016a。基本算法描述如下：表1实验数据集 Table 1 Experimental data sets 算法采用划分融合双向控制的粒度支持向数据集样本总数训练集测试集特征维度数据比例量机输入原始数据集D,初始粒化参数k,动态 banana 8726 69821744 2 1:1 粒化参数m,迭代粒化参数d,停止条件t(预先设 thyroid 3220 2576 644 5 1:1 定的模型迭代次数)： image 9900 7920 1980 e 1:l 输出划分融合过程得到的模型测试结果集。 german 3000 2400 600 20 1:1 1)用聚类算法将数据集D中每一类划分为 diabetis 5360 4288 1072 8 1:1 k个粒G1,G2,…,Gk; spambase 3200 2560 640 57 :1 2)将划分后的每个粒中心加入到训练集中训 splice 15270 122163054 60 11 练得到初始分类超平面'； kdd-1999 1000008000020000 41 l:l 3)通过式(4)和式(6)计算强信息区的信息粒与超平面的距离D,以及粒密度P,挑选当前需要 3.2动态粒划分结果分析划分的d个信息粒，并将这些信息粒分别深度划本文提出的采用划分融合双向控制的粒度支分为m个子粒；持向量机模型，在粒划分过程中逐步提取潜在的 4)通过式(4)和式(6)计算弱信息区信息粒、支持向量信息，通过信息融合清除掉过多的冗余信超平面的距离D,与粒密度P,挑选出当前需要融息，提升SVM的学习效率。本小节实验验证DFSVM 合的d×m个弱信息粒；粒划分融合过程中对SVM泛化能力的影响。代过程进行划分，挑选弱信息区距超平面较远且粒密度小的粒在当前迭代过程进行融合，用划分后的超粒代替原始超粒。在该方式下，数据规模能够保持在较低水平，SVM 的学习效率也得到有效的提升。 G− 4 G− 1 G− 2 G− 5 G− 3 G+ 3 G+ 4 G+ 2 G+ 1 G+ 5 G− m G− 1 G− d1 G− d2 G− 3 G+ 3 G+ m G+ 2 G+ d1 G+ d2 图 2 动态划分融合过程 Fig. 2 Dynamic division and fusion process 本文提出的 DFSVM 针对传统 SVM 无法高效的处理大规模数据以及 CGSVM 静态划分的不足进行了改进，探讨的目标是 DFSVM 是否能够在保证精度损失较少的情况下有效提升 SVM 的学习效率。本文在不同的参数下做了大量实验，基本算法描述如下：算法采用划分融合双向控制的粒度支持向量机 D k m d t 输入原始数据集，初始粒化参数，动态粒化参数，迭代粒化参数，停止条件 (预先设定的模型迭代次数)；输出划分融合过程得到的模型测试结果集。 D k G1,G2,··· ,Gk 1) 用聚类算法将数据集中每一类划分为个粒； f ′ 2) 将划分后的每个粒中心加入到训练集中训练得到初始分类超平面； Di ρi d m 3) 通过式 (4) 和式 (6) 计算强信息区的信息粒与超平面的距离以及粒密度，挑选当前需要划分的个信息粒，并将这些信息粒分别深度划分为个子粒； Di ρi d ×m 4) 通过式 (4) 和式 (6) 计算弱信息区信息粒、超平面的距离与粒密度，挑选出当前需要融合的个弱信息粒； 5) 将更新后的信息粒代替原信息加入到训练集并更新分类超平面，同时记录模型测试结果； 6) 重复 4)~6)，直到满足停止条件 t ； 7) 记录模型结果集，算法结束。 o(n 3 ) o(n 2 ) n 传统 SVM 模型训练的时间复杂度和空间复杂度分别为和，其中为数据的规模。 SVM 在模型训练过程中，需要存储和计算大规模的核矩阵，随着数据规模的增长，效率会大大降低。DFSVM 算法采用动态划分融合双向控制的方式对数据集进行迭代划分，始终将训练集维持在较小的规模，提高了模型的学习效率。尽管 DFSVM 在划分过程中会多次训练超平面，但训练总耗时仍然较少，并进一步改进了 CGSVM 静态单层划分对重要信息提取不足的缺点，针对于强信息粒进行信息提取，同时融合冗余的弱信息粒，降低训练规模的同时提升 CGSVM 的训练精度。DFSVM 模型在保证较高分类精度的条件下，有效地提升了模型的学习效率。 3 实验和分析 3.1 实验数据集本文实验在多个 UCI 数据集和标准数据集上进行实验，见表 1，SVM 选用高斯核函数，在多种参数下进行实验。实验在一台 CPU 为 2.50 GHz，内存 8 GB 计算机上运行，实验平台为 Matlab2016a。表 1 实验数据集 Table 1 Experimental data sets 数据集样本总数训练集测试集特征维度数据比例 banana 8 726 6 982 1 744 2 1:1 thyroid 3 220 2 576 644 5 1:1 image 9 900 7 920 1 980 18 1:1 german 3 000 2 400 600 20 1:1 diabetis 5 360 4 288 1 072 8 1:1 spambase 3 200 2 560 640 57 1:1 splice 15 270 12 216 3 054 60 1:1 kdd-1999 100 000 80 000 20 000 41 1:1 3.2 动态粒划分结果分析本文提出的采用划分融合双向控制的粒度支持向量机模型，在粒划分过程中逐步提取潜在的支持向量信息，通过信息融合清除掉过多的冗余信息，提升 SVM 的学习效率。本小节实验验证 DFSVM 粒划分融合过程中对 SVM 泛化能力的影响。 ·1246· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】采用划分融合双向控制的粒度支持向量机