正在加载图片...
·184· 智能系统学报 第14卷 Blast更好,从平均精度上来看DAWE与Blast只 的集成方法用于处理数据流分类问题,使用精度 相差0.21%。 与多样性的线性加权来计算一个分类器的权重, 90 通过权重来衡量一个分类器对于整个集成分类器 89 8 的重要性,权重越高表示这个分类器越重要,当 87 有新分类器建立时需替换权重最低的基分类器。 85 实验验证了本文所提出的算法可以有效处理数据 尔84 3 ADE 流中的概念漂移问题。 --Blast 82 AUE2 81 ARF 参数α的选择会在一定程度上决定算法的性 80 3*10s 能,如何根据不同数据集选择一个合适的α值是 已处理实例数 今后研究的方向。在加权方式上,本文选择的是 图54种算法在Covertype数据集上分类准确度对比 线性加权,在今后的研究中还可以对加权方式进 Fig.5 Accuracy contrast of 4 algorithms on Covertype 一步优化。另外,将迁移学习用于数据流分类是 3.2.3α值设置对算法性能影响 个值得研究的问题,迁移学习的目的是利用已 本文提出的算法通过多样性和精度的线性加 有模型帮助新环境下样本的分类,与数据流挖掘 权来计算分类器权重,由式(9)、式(10)可以看 中的概念漂移和特征漂移问题相符合,因此二者 出,通过α来控制多样性和精度在计算权重过程 具备良好结合的可操作性。 中分别所占比重,所以其取值对最终的分类精度 会产生影响,图6以Poker数据集以及LED数据 参考文献: 集为例展示了不同α的取值对集成分类器的平均 [1]GOMES H M,BARDDAL J P,ENEMBRECK F,et al.A 分类精度产生的影响。由此可以看出,对于不同 survey on ensemble learning for data stream classification 数据集,需要选用不同α值以达到最佳分类性能。 [J].ACM computing surveys,2017,50(2):23. 95 [2]BRZEZINSKI D,STEFANOWSKI J.Reacting to differ- 90 ent types of concept drift:the Accuracy Updated En- 80 semble algorithm[J].IEEE transactions on neural net- 75 works and learning systems,2014,25(1):81-94. 彩70 [3]PIETRUCZUK L,RUTKOWSKI L,JAWORSKI M,et al. 565 60 How to adjust an ensemble size in stream data mining[J]. Poker 55 --HyperPlane Information sciences,2017,381:46-54 50 00.10.20.30.40.50.60.70.80.9 [4]孙宇.针对含有概念漂移问题的增量学习算法研究D] 合肥:中国科学技术大学,2017 图6不同a值对平均分类精度的影响 SUN Yu.Incremental learning algorithms with concept Fig.6 Effect of different a on average accuracy drift adaptation[D].Hefei:University of Science and Tech- 通过表1以及图2~5可以看出,本文提出的 nology of China,2017. 算法DAWE在部分数据集上优于其他算法,特别 [5]SUN Yu,TANG Ke,ZHU Zexuan,et al.Concept drift ad- 是在Poker数据集上,相较于其他算法有大幅提 aptation by exploiting historical knowledge[J].IEEE trans- 升;在Airlines数据集上表现也不错,在训练后半 actions on neural networks and learning systems,2018, 段一直占据精度第一的位置;在SEA数据集上平 29(10):4822-4832 均精度仅次于ARF;在Covertype数据集上平均精 [6]VAN RIJN J N,HOLMES G,PFAHRINGER B,et al. 度仅次于Blast。,综合4个数据集来看,对4种算 Having a Blast:meta-learning and heterogeneous en- 法在4个数据集上的平均精度取平均值(即表1 sembles for data streams[C]//Proceedings of the 2015 IEEE International Conference on Data Mining.Atlantic City, 的最后一行),通过平均值可以看出,本文提出的 USA,2015:1003-1008. 算法DAWE在参与对比的4种算法中是最优的。 [7]CHANDRA A,CHEN Huanhuan,YAO Xin.Trade-off 4结束语 between diversity and accuracy in ensemble generation [M//JIN Yaochu.Multi-Objective Machine Learning.Ber- 本文提出了一种综合考虑精度和多样性的新 lin Heidelberg:Springer,2006:429-464.Blast 更好,从平均精度上来看 DAWE 与 Blast 只 相差 0.21%。 1 2 3 4 5 已处理实例数 ×105 80 81 82 83 84 85 86 87 88 89 90 分类精度/% ADE Blast AUE2 ARF 图 5 4 种算法在 Covertype 数据集上分类准确度对比 Fig. 5 Accuracy contrast of 4 algorithms on Covertype 3.2.3 α 值设置对算法性能影响 本文提出的算法通过多样性和精度的线性加 权来计算分类器权重,由式 (9)、式 (10) 可以看 出,通过 α 来控制多样性和精度在计算权重过程 中分别所占比重,所以其取值对最终的分类精度 会产生影响,图 6 以 Poker 数据集以及 LED 数据 集为例展示了不同 α 的取值对集成分类器的平均 分类精度产生的影响。由此可以看出,对于不同 数据集,需要选用不同 α 值以达到最佳分类性能。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 α 50 55 60 65 70 75 80 85 90 95 分类精度/% Poker HyperPlane 图 6 不同 α 值对平均分类精度的影响 Fig. 6 Effect of different α on average accuracy 通过表 1 以及图 2~5 可以看出,本文提出的 算法 DAWE 在部分数据集上优于其他算法,特别 是在 Poker 数据集上,相较于其他算法有大幅提 升;在 Airlines 数据集上表现也不错,在训练后半 段一直占据精度第一的位置;在 SEA数据集上平 均精度仅次于 ARF;在 Covertype 数据集上平均精 度仅次于 Blast。综合 4 个数据集来看,对 4 种算 法在 4 个数据集上的平均精度取平均值 (即表 1 的最后一行),通过平均值可以看出,本文提出的 算法 DAWE 在参与对比的 4 种算法中是最优的。 4 结束语 本文提出了一种综合考虑精度和多样性的新 的集成方法用于处理数据流分类问题,使用精度 与多样性的线性加权来计算一个分类器的权重, 通过权重来衡量一个分类器对于整个集成分类器 的重要性,权重越高表示这个分类器越重要,当 有新分类器建立时需替换权重最低的基分类器。 实验验证了本文所提出的算法可以有效处理数据 流中的概念漂移问题。 参数 α 的选择会在一定程度上决定算法的性 能,如何根据不同数据集选择一个合适的 α 值是 今后研究的方向。在加权方式上,本文选择的是 线性加权,在今后的研究中还可以对加权方式进 一步优化。另外,将迁移学习用于数据流分类是 一个值得研究的问题,迁移学习的目的是利用已 有模型帮助新环境下样本的分类,与数据流挖掘 中的概念漂移和特征漂移问题相符合,因此二者 具备良好结合的可操作性。 参考文献: GOMES H M, BARDDAL J P, ENEMBRECK F, et al. A survey on ensemble learning for data stream classification [J]. ACM computing surveys, 2017, 50(2): 23. [1] BRZEZINSKI D, STEFANOWSKI J. Reacting to differ￾ent types of concept drift: the Accuracy Updated En￾semble algorithm[J]. IEEE transactions on neural net￾works and learning systems, 2014, 25(1): 81–94. [2] PIETRUCZUK L, RUTKOWSKI L, JAWORSKI M, et al. How to adjust an ensemble size in stream data mining[J]. Information sciences, 2017, 381: 46–54. [3] 孙宇. 针对含有概念漂移问题的增量学习算法研究[D]. 合肥: 中国科学技术大学, 2017. SUN Yu. Incremental learning algorithms with concept drift adaptation[D]. Hefei: University of Science and Tech￾nology of China, 2017. [4] SUN Yu, TANG Ke, ZHU Zexuan, et al. Concept drift ad￾aptation by exploiting historical knowledge[J]. IEEE trans￾actions on neural networks and learning systems, 2018, 29(10): 4822–4832. [5] VAN RIJN J N, HOLMES G, PFAHRINGER B, et al. Having a Blast: meta-learning and heterogeneous en￾sembles for data streams[C]//Proceedings of the 2015 IEEE International Conference on Data Mining. Atlantic City, USA, 2015: 1003–1008. [6] CHANDRA A, CHEN Huanhuan, YAO Xin. Trade-off between diversity and accuracy in ensemble generation [M]//JIN Yaochu. Multi-Objective Machine Learning. Ber￾lin Heidelberg: Springer, 2006: 429–464. [7] ·184· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有