正在加载图片...
第2期 文益民,等:概念漂移数据流分类研究综述 99 thy4]提出将得到的分类器放到全局集中,当采集 定性策略以主动选择无类别标志样本,尽量使得主 到新数据块时,通过评测全局集中的分类器在新数 动标注的样本能体现概念漂移;Chu等s]提出了基 据块上的分类准确率来判断新到数据块是否属于新 于贝叶斯概率的在线主动学习算法,该算法利用重 概念,如果不是新概念则从全局集中挑选部分分类 要性采样方法实现对无类别标志样本的主动无偏选 器组成集成分类器去检测新到数据块是否属于原来 择,使得主动选择的样本符合当前概念的概率分布, 出现过的概念;Katakis]将一个数据块转化成一个 以上这些算法或使用半监督学习策略尽量发挥 概念向量,然后通过数据流聚类方法将不断到来的 没有类别标志样本的作用,或使用主动学习策略选 数据块聚类成多个概念向量的集合,每个概念向量 择能体现概念漂移的样本进行标注,但半监督学习 的集合通过增量学习得到一个分类器,最新采集数 和主动学习并没有很好地结合起来.Kholghi4]提出 据块用于最近获得的训练集所属概念相对应的分类 了一个将半监督和主动学习相结合进行概念漂移数 器分类;L等4提出了通过概念聚类,形成概念列 据流分类的算法框架, 表的方式检测新到样本是否是属于已有概念;Ma- ud等45]使用主集成和辅集成来检测新到样本是否 5存在的问题 属于已学习概念.以上这些算法主要的不足在于数 通过以上分析发现,已有的各种概念漂移数据 据块的大小不容易确定(太大可能包含多个概念, 流学习算法在处理概念漂移数据流分类时存在以下 太小则数据的分布不够体现概念本身) 5个方面的问题: 4.3概念漂移数据流中的半监督学习与主动学习 1)冷启动.由于在一段时间里概念漂移的次数 问题 无法预知,学习系统只有在发生分类错误后才能得 Klinkenberg32]较早地关注到了概念漂移数据 到调整,这导致了属于新概念的样本在刚开始出现 流分类中的半监督学习问题.在假定当前最新训练 时被错误分类.而且在只有部分样本具有类别标志 集与最新测试集同分布的条件下,他提出使用没有 的情形下,学习系统将很难知道是否产生了错误分 类别标志的样本估计滑动窗口的大小;Xue等6]针 类.如果将这样的分类器应用于工业流水线生产,将 对某类的先验概率发生变化以及最新采集的训练样 带来巨大的损失, 本无类别标志的情形,探讨了如何利用无类别标志 2)只能实施单概念学习.目前主要使用滑动窗 样本估计各类别样本的数量及实施半监督学习; 口、训练样本赋权、分类器自适应调整等方法实现对 Z☑hang等提出了RK-TS3VM算法,该算法根据最 新概念的学习,这些方法只能跟踪学习一个概念,这 新采集训练集中的样本是否具有类别标志和是否产 导致了已学习知识难以保特.由于某些概念不定期 生了概念漂移而分为4个子集,然后根据子集的特 重复出现,其产生的时刻和延续时间未知,导致现有 点选择TS3VM或RK算法实现学习和分类;Li 的单概念学习模式无法适应.对概念漂移中重复概 等[1提出了SUN算法,该算法使用基于k-Modes的 念的关注说明多概念学习问题刚得开始到学术界的 聚类方法来实现无类别标志样本的标注和重用,进 关注。 而使用概念聚类方法实现概念漂移检测, 3)概念漂移检测难以准确实施.现有的各种概 Fan等[9]提出了不需要事先获得样本类别标 念漂移算法主要依靠最近获得的训练样本集.且当 志就可以计算的2个检测概念漂移的指标:基于叶 最近获得的训练样本集中存在类别不平衡时会导致 子节点的分布统计指标以及验证错误率与期望错误 对少类的忽视:当其中只有部分样本具有类别标志 率的差,当检测到概念漂移后,根据样本类别标注代 时已有概念漂移检测方法将无法实施: 价,选择性地给出一部分样本的类别标志;Zu 4)最新采集样本与最近获得圳练样本同分布 等0选择使得集成分类器能产生最大方差的不确 的假设不正确.从某一时刻开始最新采集样本中可 定样本,给出类别标志,并通过分类器的加权集成, 能包含有跟最近获得训练样本不同分布的新概念, 使得集成分类器能适应概念漂移;Masud等51]使用 甚至既包含属于新概念的样本又包含属于旧概念的 主动学习策略,去分辨数据流中是否产生了新的类 样本.如果最新采集样本与最近获得训练样本总是 别以及挑选需要标注的样本;Zliobaite等[52]针对概 不同分布,现有概念漂移学习算法将无法实施 念漂移发生的位置有的在分类面附近而有的远离分 5)理论基础研究缺乏·尽管概念漂移数据流研 类面的特点,提出了可变不确定性策略和随机不确 究已经取得丰硕的研究成果,然而到目前为止,概念
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有