正在加载图片...
·98 智能系统学报 第8卷 3.3概念漂移的检测 提醒29)、电价预测29,31,39,4,52,,7201、TREC[32,3,921 检测概念漂移大致有3种方法:性能法、距离法 垃圾邮件过滤5s,,、Netflix电影等级数据集【®] 和性质法。 Yahoo购物数据,m)、邮件链表、集群计算机负 1)性能法.跟踪当前分类器对最新采集训练集 载均衡[3)、传感网数据4]、交通数据41、金融时间 的分类性能,如分类性能出现较大下降,这说明最新 序列5]、视听说话识别6]、可穿戴设备7]、航班延 采集训练集中包含有概念漂移.Widmer和Kubatis] 误2]和电影标注数据集52] 提出的LORA系列算法,根据分类器对正类样本覆 使用频率比较高的人工概念漂移数据集包括: 盖量以及分类准确率调整滑动窗口;Klinkenberg STAGCER数据集2,5,29,010,7,,m,M5、SEA数据 等[2]使用对训练集的分类准确率、训练集中某类的 集,,9,7,n,1、高斯数据,1,45、旋转平面 分类准确率和召回率(recall)来实施概念漂移检测, 数据集[4,8,3L,24,9,,6,769,31,56 以调整窗口大小;他们还通过估算各个滑动窗口上 另外,UCI中的一些数据集也常用于概念漂移 得到的支持向量机的泛化能力来确定滑动窗口的大 数据流分类[40,4243,4546,52,6162,6,72,7.21 小T64;Last等[3]提出了OLN,该算法通过比较分类 器在训练集与验证集上的错误率来判断是否产生了 4概念漂移数据流分类研究的新动态 概念漂移;Gama84)通过计算一个训练样本被错误 4.1 概念漂移数据流中的类别不平衡学习问题 分类的概率和其变化的范围来检测训练集中概,念漂 类别不平衡使得概念漂移数据流问题更加复 移的起点和终点;Nishida等[51使用分类器对最新 杂,因此直到最近学术界才开始关注这方面的研究, 采集训练样本的分类准确率和对全部训练样本的分 总的思路是将已有处理类别不平衡的算法加以改 类准确率来检测概念漂移;罗秀等]提出了基于误 进,以适应概念漂移数据流中的类别不平衡问题! 差率的检测方法.性能法是最常用的概念漂移检测 Ga0等36研究了概念漂移数据流学习中的类别不 方法,但当数据流中存在类别不平衡时或只有部分 平衡问题,对最新采集训练集中的多类(样本数量 训练样本具有类别标志时,性能法将不适合用于概 多的类)样本采取多轮“下采样”,将所有已学习过 念漂移检测 的少类(样本数量少的类)样本和最新采集训练集 2)距离法.Katakis等7]将一个数据块映射成 中的少类样本合并成一个子集,然后将该子集分别 一个“概念向量”,然后对多个概念向量实施聚类, 与属于多类每轮“下采样”得到的子集合并训练分 由一个聚类代表一个概念.当采集到一个数据集时, 类器,以实现对最新采集样本集的集成学习;Chen 计算该数据集对应的概念向量与各个聚类中心的距 等[79]利用Mahalanobie距离从已学习过的所有少 离,以检测是否产生概念漂移.Katakis用该方法实 类样本中选择一部分样本与最新采集的不平衡样本 现了对重复概念的检测,但该方法有一个前提:一个 集合并,以减轻类别不平衡;Lichtenwalter等[o]对属 数据块中的各数据属于同一个概念。 于多类的样本进行下采样,将多类中被错误分类的 3)性质法.分析最近获得圳练集的一些统计特 样本与全部少类样本构成训练集;Gregory等[4]采 性:各类的分布、各特征值的分布等来实现对概念漂 用Gao采取的方法,实现对最新采集样本集的集成 移的检测.Alippi等[so利用中心极限定理,设计了 学习,然后通过修改Leam++NSE中的权值使其偏 不依赖数据分布模型的,不需要任何先验信息的概 向多类和少类的查全率,实现其与已训练好分类器 念漂移检测算法;Peter等91j提出了基于熵的概念 的集成:Zhang等2]将分类错误的少类样本加入训 漂移检测方法,通过一种熵的计算来评测训练集之 练集并使用F,值控制分类器更新频率.由于存在概 间样本分布的区别;Kuncheva2]在KL距离和T平 念漂移,这些方法都不能取得在数据分布不改变情 方测试的基础上通过假定数据服从组合正态分布导 形下类别不平衡学习算法所能达到的性能 出了SPLL概念漂移检测方法 4.2概念漂移数据流中的概念重复学习问题 3.4概念漂移数据流分类研究使用的数据集 Widmer比较早地注意到了概念会重复出 到目前为止,概念漂移数据流分类技术被用于 现5],但是概念漂移数据流中的概念重复学习问题 以下实际问题的解决:Web数据B41、英国银行数 直到最近才得到学术界的广泛关注.Widmer等将已 据16、天气预报9、Reuters语料4,21、KDDCup数 经学习过的概念描述保存起来,当已学习过的概念 据0,0,58,9,刀、信用卡欺诈数据8、日程 重新出现时,保存的分类器被重新激活;Ramamur-
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有