正在加载图片...
第8卷第2期 智能系统学报 Vol.8 No.2 2013年4月 CAAI Transactions on Intelligent Systems Apr.2013 D0I:10.3969/i.i8sn.1673-4785.201208012 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20121116.1701.004.html 概念漂移数据流分类研究综述 文益民,强保华,范志刚2 (1.桂林电子科技大学计算机科学与工程学院,广西桂林541004;2.中国科学院上海高等研究院,上海201203) 摘要:由于现有各种机器学习算法本质上都基于一个静态学习环境,而以尽量保证学习系统泛化能力为目标的寻 优过程,概念漂移数据流分类给机器学习带来了巨大挑战.从数据流与概念漂移、概念漂移数据流分类研究的发展 与趋势、概念漂移数据流分类的主要研究领域、概念漂移数据流分类研究的新动态4个方面展开了文献综述,并分 析了当前概念漂移数据流分类算法存在的问题. 关键词:大数据;概念漂移;增量学习;适应学习;数据流:机器学习 中图分类号:TP391.4文献标志码:A文章编号:16734785(2012)020095-10 A survey of the classification of data streams with concept drift WEN Yimin',QIANG Baohua',FAN Zhigang? (1.College of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China;2.Shanghai Advanced Research Institute,Chinese Academy of Sciences,Shanghai 201203,China) Abstract:Because the current machine learning algorithms all are essentially an optimization procedure that aims to ensure the generalization ability based on static learning environment,the classification data streams with concept drift has brought severe challenges to machine learning.In order to address these concerns,a survey was developed consisting of four aspects:the introduction to data streams and concept drift,the development process and future trends,the main research fields,and the new developments in the study field of the classification data streams with concept drift.The existing problems relating to classification data streams with concept drift were discussed at last. Keywords:big data;concept drift;incremental learning;adaptive learning;data stream;machine learning 在社会生产和生活实践中,有一类问题是数据地检测到概念漂移,并对自身进行适应概念漂移的调 所包含的概念可能随时间而变化.自动化生产线 整,以对不断到来的数据尽可能地正确判断。 上,相近原因的问题产品会连续出现,然后问题产品 概念漂移问题给机器学习带来了巨大的挑战. 的特征也随之发生变化;商务活动中,顾客的购买兴 目前各种人工学习系统的构造算法在本质上都是基 趣随时间而变化;网络安全中,网络的访问模式随用 于一个静态的学习环境,而以尽量保证学习系统泛 户不同而变化;社交媒体上,用户的实际行为随其注 化能力为目标的寻优过程,所以现有的各种机器学 册位置而变化这些问题的共同特点是:不断产生数 习算法在本质上都不适应进行概念漂移数据流学 据形成流;数据流没有终点;数据流中数据包含的概 习.这种不适应体现在:计算模型或者缺乏获取新知 念随时可能产生变化.数据流中这种概念的变化在文 识的能力,或者不能保持原本学到的知识3) 中被称为概念漂移21.概念漂移要求学习系统能尽早 自“概念漂移”(concept drift)在1986年由 Schlimmer和Granger2首次提出后,国内外众多研 收稿日期:2012-0807.网络出版日期:2012-11-16 基金项目:湖南省自然科学基金资助项目(10J5067):湖南省科技计 究人员对概念漂移数据流分类展开了深入研 划资助项目(2010GK3047);广西省可信软件重点实验室 究.Kuncheva4、Tsymbalt3)、王涛[6]、Zliobaite (桂林电子科技大学)开放课题资助项目(KX201118). 通信作者:文益民.E-mail:ymwen2004@yahoo.com.cm. Hoens8]和Gama9]等先后从各自的角度对概念漂 移数据流分类研究进行了很好的文献综述.与以上
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有