个连续的样本目标函数不一致的概率[ 4 ] . 他们提出一种在固定数据集

点击下载：机器学习：一种能够适应概念漂移变化的数据流分类方法（佳木斯大学：富春岩、葛茂松）

正在加载图片...

第4期富春岩，等：一种能够适应概念漂移变化的数据流分类方法 ·87· 个连续的样本目标函数不一致的概率.他们提出构建了数据流分类算法StreamClassifier. 一种在固定数据集上最小化这种不一致的算法，其算法反复从滑动的窗口获取最近的样本来重建复杂度为样本数量的多项式规模.然而，对于海量非分类模型，使用最新的模型为下次模型重建期间的固定的数据流，漂移发生的实际速率事先无法知道，样本进行分类，并暂存最新的分类结果以便为下次其算法的运行时间可能不确定地增加模型重建提供训练样本.当分类误差相对与可以接数据流社区中有关数据流的分类问题研究比较受的训练误差出现大幅的上升时，意味着检测到概活跃，近几年出现了许多研究成果.Wang等提出一念漂移.当概念稳定时，系统不断增加训练窗口和分个通用框架用于挖掘概念漂移数据流)，Ganti等类窗口的大小直到一个预定的上限.当出现概念漂开发了一个在插入和删除数据记录时维护模型的算移时，训练窗口和分类窗口被重置，并提供正确的分法o],Widmer和Kubat!)提出了一簇纯增量算法类标签用于下次训练」来处理概念漂移，Domingos等开发了VFDT8),Pa 本文提出数据流分类算法StreamClassifier的 padimitriou等提出AWSOM(arbitrary window 基本思想如图1所示，在连续不断的样本数据流中 stream m odeling method)用于在传感器网络中发用间隔[0,1中的6个训练样本产生的模式，对现感兴趣的模式)，Aggarwal等采用On-Demand 间隔[h,31中V。个验证样本进行分类.训练窗口分类中CluStream的微簇思想，获得了很高的分类中的样本数与待测试窗口中的样本数不必相等.在精度o],Last提出可以适应概念漂移的在线分类系时刻B,学习模块使用训练间隔[，飞]中的T个样统)，Ding等开发了基于Peano Count Tree数据本，对网络进行重建，然后对测试窗口[3,41中的结构的决策树2)，Gaber等开发了Lightweight轻 V1个样本进行分类.假设在间隔[s,4中的第1个权值分类L WClass模型) 样本在分类模式已经重建完成后才到达上述己存在的数据流分类模型和算法存在2方当前窗口（个样本）6个样本个样本面问题，首先，未能有效地解决数据流在线训练、测当前窗口(T个样本) 试、分类的速度问题，对于大规模高维数据流的在线数据流分类，目前还没有公认的解决方案，其次，都没有较好地解决变化数据流上的概念漂移问题，未能有效地解决当概念漂移发生时，分类模式快速转变的问图1 StreamClassifier算法训练分类工作原理题，分类精度偏低 Fig.I Principle of training and classifying of StreamClassifier algorithm 2 StreamClassifier分类算法算法运行需要计算下列参数：训练窗口的尺寸，决策树学习是一种逼近离散值目标函数的有指待分类窗口的尺寸，训练误差和分类误差之间的最导的学习方法，在这种方法中学习到的函数被表示大差异为一棵决策树.学习得到的决策树也能被表示为多 2.1计算分类窗口中的样本个数个if-then规则，以提高可读性.这种学习算法是最待分类窗口中的样本个数即2次分类模型重建流行的归纳推理算法之一，已经被成功地应用到从的间隙，为了能够自适应概念漂移的发生，采用概念学习医疗诊断到学习评估信贷申请的信用风险等广漂移发生的频率直接决定待分类窗口中的样本个数阔领域：的思想.为了检测概念是否发生了偏移，采用纯粹增 D3、C4.5算法仅适用于小规模数据集，在大规量的方法对于海量数据流是不合适的，因为在连续模数据的数据挖掘中具有可伸缩性的决策树算法包的样本实例抵达的间隙，概念通常并不会剧烈频繁括SLIQ1I、SPRIN TUSI、SLIQ和SPRINT算法使地变化，对此Hulten等提出的CVFDT算法仅在固用预排序技术以及新的数据结构，大大提高了对于定个数的样本(20000)之后才检测一次漂移是否发大规模数据集的可扩展性.其中SPRINT算法还非生.本文参照OLN里采用的一种启发规则，动态常容易并行化.但是，这些常见的决策树算法无法处调整2次模型重建的间隙之间的样本的个数：如果理连续的数据流，并且不具备增量学习能力，使其应概念呈现稳定态势，为当前的模型保留更多的样本：用受到了较大限制.鉴于SPRINT算法在可伸缩如果检测到概念漂移的发生，就大幅度减小待分类性、并行性方面的优点，在SPRINT算法的基础上窗口的尺寸 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net个连续的样本目标函数不一致的概率[ 4 ] . 他们提出一种在固定数据集上最小化这种不一致的算法 ,其复杂度为样本数量的多项式规模. 然而 ,对于海量非固定的数据流 ,漂移发生的实际速率事先无法知道 , 其算法的运行时间可能不确定地增加. 数据流社区中有关数据流的分类问题研究比较活跃 ,近几年出现了许多研究成果. Wang 等提出一个通用框架用于挖掘概念漂移数据流[5 ] , Ganti 等开发了一个在插入和删除数据记录时维护模型的算法[6 ] ,Widmer 和 Kubat [7 ] 提出了一簇纯增量算法来处理概念漂移 ,Domingos 等开发了 VFD T [8 ] ,Pa2 padimitriou 等提出 AWSOM ( arbitrary window stream m odeling met hod) 用于在传感器网络中发现感兴趣的模式[ 9 ] , Aggarwal 等采用 On2Demand 分类中 CluStream 的微簇思想 ,获得了很高的分类精度[ 10 ] ,Last 提出可以适应概念漂移的在线分类系统[11 ] ,Ding 等开发了基于 Peano Count Tree 数据结构的决策树[12 ] , Gaber 等开发了 Lightweight 轻权值分类 L WClass 模型[13 ] . 上述已存在的数据流分类模型和算法存在 2 方面问题 ,首先 ,未能有效地解决数据流在线训练、测试、分类的速度问题 ,对于大规模高维数据流的在线分类 ,目前还没有公认的解决方案 ;其次 ,都没有较好地解决变化数据流上的概念漂移问题 ,未能有效地解决当概念漂移发生时 ,分类模式快速转变的问题 ,分类精度偏低. 2 StreamClassifier 分类算法决策树学习是一种逼近离散值目标函数的有指导的学习方法 ,在这种方法中学习到的函数被表示为一棵决策树. 学习得到的决策树也能被表示为多个 if2t hen 规则 ,以提高可读性. 这种学习算法是最流行的归纳推理算法之一 ,已经被成功地应用到从学习医疗诊断到学习评估信贷申请的信用风险等广阔领域. ID3、C4. 5 算法仅适用于小规模数据集 ,在大规模数据的数据挖掘中具有可伸缩性的决策树算法包括 SL IQ [ 14 ] 、SPRIN T [15 ] 、SL IQ 和 SPRIN T 算法使用预排序技术以及新的数据结构 ,大大提高了对于大规模数据集的可扩展性. 其中 SPRIN T 算法还非常容易并行化. 但是 ,这些常见的决策树算法无法处理连续的数据流 ,并且不具备增量学习能力 ,使其应用受到了较大限制. 鉴于 SPRIN T 算法在可伸缩性、并行性方面的优点 ,在 SPRIN T 算法的基础上构建了数据流分类算法 StreamClassifier. 算法反复从滑动的窗口获取最近的样本来重建分类模型 ,使用最新的模型为下次模型重建期间的样本进行分类 ,并暂存最新的分类结果以便为下次模型重建提供训练样本. 当分类误差相对与可以接受的训练误差出现大幅的上升时 ,意味着检测到概念漂移. 当概念稳定时 ,系统不断增加训练窗口和分类窗口的大小直到一个预定的上限. 当出现概念漂移时 ,训练窗口和分类窗口被重置 ,并提供正确的分类标签用于下次训练. 本文提出数据流分类算法 StreamClassifier 的基本思想如图 1 所示 ,在连续不断的样本数据流中 , 用间隔[ t0 , t2 ]中的 T0 个训练样本产生的模式 ,对间隔[ t2 , t3 ]中 V 0 个验证样本进行分类. 训练窗口中的样本数与待测试窗口中的样本数不必相等. 在时刻 t3 ,学习模块使用训练间隔[ t1 , t3 ]中的 T1 个样本 ,对网络进行重建 ,然后对测试窗口[ t3 , t4 ]中的 V 1 个样本进行分类. 假设在间隔[ t3 , t4 ]中的第 1 个样本在分类模式已经重建完成后才到达. 图 1 StreamClassifier 算法训练分类工作原理 Fig. 1 Principle of training and classifying of StreamClassifier algorithm 算法运行需要计算下列参数 :训练窗口的尺寸 , 待分类窗口的尺寸 ,训练误差和分类误差之间的最大差异. 2. 1 计算分类窗口中的样本个数待分类窗口中的样本个数即 2 次分类模型重建的间隙 ,为了能够自适应概念漂移的发生 ,采用概念漂移发生的频率直接决定待分类窗口中的样本个数的思想. 为了检测概念是否发生了偏移 ,采用纯粹增量的方法对于海量数据流是不合适的 ,因为在连续的样本实例抵达的间隙 ,概念通常并不会剧烈频繁地变化 ,对此 Hulten 等提出的 CV FD T 算法仅在固定个数的样本(20 000) 之后才检测一次漂移是否发生. 本文参照 OL IN [11 ]里采用的一种启发规则 ,动态调整 2 次模型重建的间隙之间的样本的个数 :如果概念呈现稳定态势 ,为当前的模型保留更多的样本 ; 如果检测到概念漂移的发生 ,就大幅度减小待分类窗口的尺寸. 第 4 期富春岩 ,等 :一种能够适应概念漂移变化的数据流分类方法 · 78 ·

<<向上翻页向下翻页>>

点击下载：机器学习：一种能够适应概念漂移变化的数据流分类方法（佳木斯大学：富春岩、葛茂松）