正在加载图片...
第6期 史荧中,等:基于核心向量机的多任务概念漂移数据快速分类 ·943· 采用核心集技术求解,相应的支持向量逐个添加 需时间与数据量之间呈现稳定的指数级关系,其 到核心集中,不需要预先计算核矩阵,因而能处 中SVC-CVM方法所表示的准直线的斜率明显小 理更大容量的数据,得到泛化能力更强的模型。 于其他方法,显示了SVC-CVM方法在时间效率 图2b)可知,在数据集DS上,求解各方法所 上远优于TA-SVM、TA-SVM与SVC-SVM方法. 100 4 99 97 TA-SVM --e-ITA-SVM TA-SVM 95 SVC-SVM -e-ITA-SVM SVC-CVM 0 SVC-SVM SVC-CVM 93 10 10 15 20 .5 3.0 3.5 4.0 4.5 数据量 数据量(Qg) (a)分类准确率 (b)求解时间 图2各方法在数据集DS5上的性能 Fig.2 Performance on DSs 在数据集DS。上,按相同的流程进行训练及 表7及表8中(其中一表示在本文实验环境中无 测试,并将各方法在不同容量样本上的平均准确 法得到相应结果)。 率和标准差、平均训练时间和标准差分别记录在 由表7及表8可以得到如下观察: 表7在数据集DS6上当不同数据量情况下各方法的平均分类准确率及标准差 Table 7 Classification accuracies with different dataset size of DS % 数据总量 TA-SVM ITA-SVM SVC-SVM SVC-CVM 500 97.40+0.34 97.65+0.27 98.30+0.16 98.36+0.18 1000 98.31+0.12 98.48+0.14 98.63+0.08 98.63+0.08 1500 98.53+0.09 98.61+0.11 98.69+0.06 98.67+0.07 3000 98.73+0.07 98.77+0.08 98.81+0.05 98.80+0.05 6000 98.81+0.05 98.85+0.06 98.89+0.03 98.88+0.04 10000 98.83+0.04 98.88+0.04 98.91+0.03 20000 98.93+0.02 30000 98.94+0.02 表8在数据集DS。上当不同数据量情况下各方法的平均训练时间及标准差 Table 8 Training time with different dataset size of DSc 数据总量 TA-SVM ITA-SVM SVC-SVM SVC-CVM 500 0.194±0.010 0.187±0.0125 0.470±0.011 3.587±1.512 1000 1.092±0.047 0.976±0.0737 7.177±0.587 7.485±3.379 1500 4.794±0.328 3.861±0.1787 27.958±1.457 15.481±7.193 3000 74.483±3.523 56.893±3.2578 225.199±11.843 36.439±14.452 6000 612.213±27.575 524.879±39.3632 1874.750±106.262 135.923±74.687 10000 2519.897±90.988 2192.208±64.0528 296.321±183.391 20000 753.458±287.496 30000 1266.967±453.862 1)从表7中可以看出,在数据集DS。上,随着 当,都优于独立求解单个概念漂移问题的TA-SVM 训练数据量的增加,各方法的分类性能逐渐增 与ITA-SVM方法。 高,其中SVC-SVM和SVC-CVM的分类性能相 2)从表8可以看出,在数据集DS6上,当数据采用核心集技术求解,相应的支持向量逐个添加 到核心集中,不需要预先计算核矩阵,因而能处 理更大容量的数据,得到泛化能力更强的模型。 图 2(b) 可知,在数据集 DS5 上,求解各方法所 需时间与数据量之间呈现稳定的指数级关系,其 中 SVC-CVM 方法所表示的准直线的斜率明显小 于其他方法,显示了 SVC-CVM 方法在时间效率 上远优于 TA-SVM、ITA-SVM 与 SVC-SVM 方法。 在数据集 DS6 上,按相同的流程进行训练及 测试,并将各方法在不同容量样本上的平均准确 率和标准差、平均训练时间和标准差分别记录在 表 7 及表 8 中 (其中—表示在本文实验环境中无 法得到相应结果)。 由表 7 及表 8 可以得到如下观察: 1) 从表 7 中可以看出,在数据集 DS6 上,随着 训练数据量的增加,各方法的分类性能逐渐增 高,其中 SVC-SVM 和 SVC-CVM 的分类性能相 当,都优于独立求解单个概念漂移问题的 TA-SVM 与 ITA-SVM 方法。 2) 从表 8 可以看出,在数据集 DS6 上,当数据 0 5 10 15 20 ×103 93 94 95 96 97 98 99 100 (a) 分类准确率 准确率/% TA-SVM ITA-SVM SVC-SVM SVC-CVM 数据量 2.5 3.0 3.5 4.0 4.5 −1 0 1 2 3 4 (b) 求解时间 lgS/s TA-SVM ITA-SVM SVC-SVM SVC-CVM 数据量 (lgX) 图 2 各方法在数据集 DS5 上的性能 Fig. 2 Performance on DS5 表 7 在数据集 DS6 上当不同数据量情况下各方法的平均分类准确率及标准差 Table 7 Classification accuracies with different dataset size of DS6 % 数据总量 TA-SVM ITA-SVM SVC-SVM SVC-CVM 500 97.40+0.34 97.65+0.27 98.30+0.16 98.36+0.18 1 000 98.31+0.12 98.48+0.14 98.63+0.08 98.63+0.08 1 500 98.53+0.09 98.61+0.11 98.69+0.06 98.67+0.07 3 000 98.73+0.07 98.77+0.08 98.81+0.05 98.80+0.05 6 000 98.81+0.05 98.85+0.06 98.89+0.03 98.88+0.04 10 000 98.83+0.04 98.88+0.04 — 98.91+0.03 20 000 — — — 98.93+0.02 30 000 — — — 98.94+0.02 表 8 在数据集 DS6 上当不同数据量情况下各方法的平均训练时间及标准差 Table 8 Training time with different dataset size of DS6 s 数据总量 TA-SVM ITA-SVM SVC-SVM SVC-CVM 500 0.194± 0.010 0.187± 0.012 5 0.470± 0.011 3.587± 1.512 1 000 1.092± 0.047 0.976± 0.073 7 7.177± 0.587 7.485± 3.379 1 500 4.794± 0.328 3.861± 0.178 7 27.958± 1.457 15.481± 7.193 3 000 74.483± 3.523 56.893± 3.257 8 225.199± 11.843 36.439± 14.452 6 000 612.213±27.575 524.879±39.363 2 1 874.750±106.262 135.923± 74.687 10 000 2 519.897±90.988 2 192.208±64.052 8 — 296.321±183.391 20 000 — — — 753.458±287.496 30 000 — — — 1 266.967±453.862 第 6 期 史荧中,等:基于核心向量机的多任务概念漂移数据快速分类 ·943·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有