第2期文益民，等：概念漂移数据流分类研究综述 99 thy4]提出将得到

正在加载图片...

第2期文益民，等：概念漂移数据流分类研究综述 99 thy4]提出将得到的分类器放到全局集中，当采集定性策略以主动选择无类别标志样本，尽量使得主到新数据块时，通过评测全局集中的分类器在新数动标注的样本能体现概念漂移；Chu等s]提出了基据块上的分类准确率来判断新到数据块是否属于新于贝叶斯概率的在线主动学习算法，该算法利用重概念，如果不是新概念则从全局集中挑选部分分类要性采样方法实现对无类别标志样本的主动无偏选器组成集成分类器去检测新到数据块是否属于原来择，使得主动选择的样本符合当前概念的概率分布，出现过的概念；Katakis]将一个数据块转化成一个以上这些算法或使用半监督学习策略尽量发挥概念向量，然后通过数据流聚类方法将不断到来的没有类别标志样本的作用，或使用主动学习策略选数据块聚类成多个概念向量的集合，每个概念向量择能体现概念漂移的样本进行标注，但半监督学习的集合通过增量学习得到一个分类器，最新采集数和主动学习并没有很好地结合起来.Kholghi4]提出据块用于最近获得的训练集所属概念相对应的分类了一个将半监督和主动学习相结合进行概念漂移数器分类；L等4提出了通过概念聚类，形成概念列据流分类的算法框架，表的方式检测新到样本是否是属于已有概念；Ma- ud等45]使用主集成和辅集成来检测新到样本是否 5存在的问题属于已学习概念.以上这些算法主要的不足在于数通过以上分析发现，已有的各种概念漂移数据据块的大小不容易确定（太大可能包含多个概念，流学习算法在处理概念漂移数据流分类时存在以下太小则数据的分布不够体现概念本身) 5个方面的问题： 4.3概念漂移数据流中的半监督学习与主动学习 1)冷启动.由于在一段时间里概念漂移的次数问题无法预知，学习系统只有在发生分类错误后才能得 Klinkenberg32]较早地关注到了概念漂移数据到调整，这导致了属于新概念的样本在刚开始出现流分类中的半监督学习问题.在假定当前最新训练时被错误分类.而且在只有部分样本具有类别标志集与最新测试集同分布的条件下，他提出使用没有的情形下，学习系统将很难知道是否产生了错误分类别标志的样本估计滑动窗口的大小；Xue等6]针类.如果将这样的分类器应用于工业流水线生产，将对某类的先验概率发生变化以及最新采集的训练样带来巨大的损失，本无类别标志的情形，探讨了如何利用无类别标志 2)只能实施单概念学习.目前主要使用滑动窗样本估计各类别样本的数量及实施半监督学习；口、训练样本赋权、分类器自适应调整等方法实现对 Z☑hang等提出了RK-TS3VM算法，该算法根据最新概念的学习，这些方法只能跟踪学习一个概念，这新采集训练集中的样本是否具有类别标志和是否产导致了已学习知识难以保特.由于某些概念不定期生了概念漂移而分为4个子集，然后根据子集的特重复出现，其产生的时刻和延续时间未知，导致现有点选择TS3VM或RK算法实现学习和分类；Li 的单概念学习模式无法适应.对概念漂移中重复概等[1提出了SUN算法，该算法使用基于k-Modes的念的关注说明多概念学习问题刚得开始到学术界的聚类方法来实现无类别标志样本的标注和重用，进关注。而使用概念聚类方法实现概念漂移检测， 3)概念漂移检测难以准确实施.现有的各种概 Fan等[9]提出了不需要事先获得样本类别标念漂移算法主要依靠最近获得的训练样本集.且当志就可以计算的2个检测概念漂移的指标：基于叶最近获得的训练样本集中存在类别不平衡时会导致子节点的分布统计指标以及验证错误率与期望错误对少类的忽视：当其中只有部分样本具有类别标志率的差，当检测到概念漂移后，根据样本类别标注代时已有概念漂移检测方法将无法实施：价，选择性地给出一部分样本的类别标志；Zu 4)最新采集样本与最近获得圳练样本同分布等0选择使得集成分类器能产生最大方差的不确的假设不正确.从某一时刻开始最新采集样本中可定样本，给出类别标志，并通过分类器的加权集成，能包含有跟最近获得训练样本不同分布的新概念，使得集成分类器能适应概念漂移；Masud等51]使用甚至既包含属于新概念的样本又包含属于旧概念的主动学习策略，去分辨数据流中是否产生了新的类样本.如果最新采集样本与最近获得训练样本总是别以及挑选需要标注的样本；Zliobaite等[52]针对概不同分布，现有概念漂移学习算法将无法实施念漂移发生的位置有的在分类面附近而有的远离分 5)理论基础研究缺乏·尽管概念漂移数据流研类面的特点，提出了可变不确定性策略和随机不确究已经取得丰硕的研究成果，然而到目前为止，概念

<<向上翻页向下翻页>>

点击下载：【学术论文】概念漂移数据流分类研究综述