正在加载图片...
96 智能系统学报 第8卷 这些综述相比,本综述具有如下特色之处:1)剖析 人认为是一种概念漂移191,有人则认为属于概念进 了概念漂移数据流分类研究产生和发展的脉络:2) 化[2 包含了概念漂移数据流分类的最新研究动向—概 总之,学术界对概念漂移的认识日渐清晰,但目 念漂移数据流分类中的类别不平衡学习、重复概念 前还缺少对概念漂移的统一描述.Moreno-Torres等 学习及半监督学习和主动学习问题;3)深入分析了 试图利用数据漂移(data shif)的概念来统一已有各 当前概念漂移数据流分类算法存在的问题 种概念漂移的描述2 1数据流与概念漂移 2概念漂移数据流分类研究的发展与趋势 数据流分类问题引起研究人员关注的原因主要 自“概念漂移”首次提出后,得到了学术界的日 有2个:1)因为自动数据获取技术的飞速发展使得 益重视.从1986一2000年左右这段时间的研究主要 人类获得了大量的数据.数据量太大时,数据不能被 围绕单分类器展开一使用单个分类器实现概念漂 一次性装入内存;2)由于传感器技术的发展,使得 移数据流分类.Kilander等提出了COBBIT2i;Wid- 人类获得了大量与时间和环境相关的数据「o).Ga mer和Kbat提出了FLORAU];Hulten等提出了 ma1和Street!山讨论了数据流分类问题的顺序处 CVFDT4;Black等提出了CD3s];同时研究人员开 理、单向通过、内存有限等特点.数据流分类通常被 始关注概念漂移数据流分类的理论问题24.为深入 描述为在线分类模型2],也就是分类器每次只对一 探讨数据产生的情境(context)与概念漂移的关系, 个样本分类,在完成对该样本的分类后,分类器将得 l98年由Dietterich、Widmer和Kubat发起,Machine 到由专家给出的该样本的真实类别,该样本及其类 Learning出版了研究概念漂移数据流的专刊2] 别标志被用于分类器更新,当分类器完成更新后,将 由于使用单分类器处理概念漂移数据流时需要 对下一个接收到的样本实施分类.在线分类模型通 不断更新分类模型且分类器泛化能力不高,Street 常又被扩展为分类器每次分类或学习一批样本。 等首次将集成学习引入概念漂移数据流分类,提 数据流分为2种:1)数据源产生的数据独立同 出了SEA算法.因此,从2000年左右开始,研究人 分布,研究人员称为稳定数据流]:2)数据源产生 员对概念漂移数据流分类的研究开始转移到分类器 的数据不独立同分布,研究人员认为在数据产生过 集成上来.通过多分类器集成,实现对历史样本的选 程中发生了“概念漂移”21,称其为动态数据流4。 择,提高分类器泛化能力.Wang等提出的AWE[]、 研究人员对概念漂移的深入理解是通过分析概念漂 Kolter等提出的DWM和AddExp[293o]和Bifet等提 移的种类及产生的原因逐步得到的. 出的ADWIN和ASHT[31]是这个领域里非常有影响 Widmer等5]认为数据产生环境的变化导致了 的成果。 概念漂移,并将概念漂移区分为虚概念漂移和实概 2000年左右,概念漂移数据流分类研究进人了 念漂移.Kly等16认为概念漂移是样本与其类别 快速发展期,研究人员开始考虑更加接近实际状况 的联合概率随时间变化而产生,其产生原因分3种: 的概念漂移数据流.Klinkenberg和Lanquillon比较 1)某类的先验概率发生变化;2)某类的类概率发生 早地研究了在检测概念漂移时只有部分样本获得用 变化;3)样本后验概率发生变化.Kuncheva4]引用 户反馈或者没有反馈的情形234].2004年由Intelli- 时间序列分析方法将概念漂移分为4种:随机噪声、 gent Data Analysis期刊出版的概念漂移数据流专 随机趋势、随机替换和系统趋势.其中,随机趋势中 刊35]主要探讨了如何利用增量学习方法以较小的 包含渐变性概念漂移,随机替换中包含突变性概念 代价使已有分类器适应概念漂移;之后概念漂移数 漂移,系统趋势中包含着重复性概念漂移.Narasim- 据流分类中的类别不平衡学习362]、概念重复学 hamurthy等I)根据数据产生的多源性提出了概念 习345]、半监督学习68]、主动学习[94]等问题开 漂移的产生模型.Zliobaite把概念漂移分为4种:突 始得到较多关注.2010年IOS还出版了《Adaptive 变性概念漂移、渐变性概念漂移、增量性概念漂移和 Stream Mining:Pattern Learning and Mining from E- 重复性概念漂移].Minku等8]在总结他人工作的 volving Data Streams》.从近年机器学习与数据挖掘 基础上,选择了纯度、速度、可预测度、频度、重复度 领域的一些国际权威期刊和国际顶级会议上发表的 5个维度,将概念漂移分成14种.对数据流中增加 论文来看,概念漂移数据流分类的研究正日益成为 了类别的情形,学术界还没有达成一致认识一有 学术界关注的焦点,对概念漂移数据流的研究已经
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有