正在加载图片...
·182· 智能系统学报 第14卷 弱的分类器强再决定是否加入,这里假设基分类 过设置概念漂移位置、漂移的数目和漂移的幅度 器数量已经达到规定数量,主要因为C是根据最 等属性,实现对不同类型概念漂移的模拟,但是 新的数据块建立的分类器,因此可以说C'是最适 合成数据集无法完全代替真实数据集,因此为了 合当前数据的。由于当前数据块的数据分布情况 评价算法的性能,除了在合成数据集上验证之 有很大概率与以后数据的数据分布情况类似,所 外,还需要在真实数据集上验证。本文选取3个 以可以认为使用C对接下来的数据分类是有效的。 真实数据集和3个合成数据集对提出的算法性能 3)算法过程 进行验证。 本文提出的多样性精度加权集成算法DAWE 3.1.1真实数据集 是一个基于块的方法,对于每一个新到来的数据 I)扑克牌(Poker)数据集:来源于UCI数据 块B,首先使用B,构建一个新分类器C',并根据 库,每个实例有11个属性。数据集中每个实例 式(9)计算C的权重,然后根据式(10)计算集成 由52张牌中的5张组成,每张牌使用两个属性 分类器中基分类器的权重,分类器的权重均通过 (suit和rank)来描述。 将其在最新数据块B,上的精度与其在集成分类 2)Covertype数据集:来自UCI数据库,该数 器中多样性值线性加权得到,使用权重值作为分 据集包含了4个野生区域覆盖类型信息。该数据 类器的价值度量。当基分类器数量达到规定数目 集有581012个实例,每个实例有53个属性对应 时,每产生一个新分类器C',便选择一个权重最 7种可能的森林覆盖类型中的1种。 小的基分类器被C替换。DAWE算法过程描述如 3)Airlines数据集:该数据集包含根据航班的 下所示。 出发信息来预测此次航班是否会晚点的数据。此 输入数据流S,集成分类器中的基分类器数n。 数据集包含539383个实例,每个实例包含7个属性。 输出n个加权的基分类器的集成E。 3.1.2合成数据集 1)begin 1)SEA数据集:该数据集是Street于2001年 2)将E初始为空; 提出的,因仅含有连续型属性而著名,是经典的 3)对于数据流S的每个到来的数据块B: 突变式概念漂移数据集。 4)在数据块B,上训练新分类器C"; 2)LED数据集:该数据集用来预测7段数码 5)由式(9)计算C"的权重; 显示器上显示的数字。该数据集有24个属性,其 6)对于每个E中的分类器C: 中前7个属性用于显示0~9的数字。 7)计算C,的精度(由式(3)): 3)随机树数据集:该数据集由5个nominal属 8)由式(8)计算C,的多样性; 性和5个numeric属性组成,类属性值通过随机 9)由式(10)计算C,的权重; 树(random tree)确定。 10)如果E中分类器个数小于:将C直接添 3.2实验结果对比与分析 加到E中; 实验结果将通过3个方面展示:不同数据块 11)否则使用C替换E中权重最低的分类器; 大小对算法性能影响、不同方法精度的对比以及 12)对于E中除去C之外的基分类器C: α值设置对算法性能影响。 13)在数据块B,上增量训练C: 3.2.1不同数据块大小对算法性能影响 14)end 图I展示了本文提出的算法DAWE在Cover-- 3 实验 type数据集、SEA数据集以及Tree(随机树)数据 集上采用不同的数据块大小时的表现。在基于块 本文的算法在大规模数据在线分析开源平 的数据流挖掘中,块大小的选取对最终的分类性 台MOA(massive online analysis)o下实现,在CPU 能将有着重要的影响,选择较大的数据块意味着 为1.8GHz、内存为8GB、操作系统为Windows10 使用更多的实例建立分类器,使得当前分类器分 的PC机上进行实验,评价类使用的是MOA下的 类精度较高,缺点是对概念漂移反应不敏感:反 EvaluateInterleavedChunk类。 之,选择较小的数据块虽然对概念漂移反应较敏 3.1数据集 感,但缺点是每次建立分类器时使用的实例较少 在数据流挖掘中,数据集可以分为两种:真实 导致每个分类器的分类精度较低。因此,综合来 数据集和合成数据集。人工合成的数据集可以通 看数据块过大或者过小都使得最终分类性能不佳。弱的分类器强再决定是否加入,这里假设基分类 器数量已经达到规定数量,主要因为 C′是根据最 新的数据块建立的分类器,因此可以说 C′是最适 合当前数据的。由于当前数据块的数据分布情况 有很大概率与以后数据的数据分布情况类似,所 以可以认为使用 C′对接下来的数据分类是有效的。 3) 算法过程 本文提出的多样性精度加权集成算法 DAWE2 是一个基于块的方法,对于每一个新到来的数据 块 Bi,首先使用 Bi 构建一个新分类器 C′,并根据 式 (9) 计算 C′的权重,然后根据式 (10) 计算集成 分类器中基分类器的权重,分类器的权重均通过 将其在最新数据块 Bi 上的精度与其在集成分类 器中多样性值线性加权得到,使用权重值作为分 类器的价值度量。当基分类器数量达到规定数目 时,每产生一个新分类器 C′,便选择一个权重最 小的基分类器被 C′替换。DAWE算法过程描述如 下所示。 输入 数据流 S,集成分类器中的基分类器数 n。 输出 n 个加权的基分类器的集成 E。 1) begin 2) 将 E 初始为空; 3) 对于数据流 S 的每个到来的数据块 Bi; 4) 在数据块 Bi 上训练新分类器 C′; 5) 由式 (9) 计算 C′的权重; 6) 对于每个 E 中的分类器 Cj; 7) 计算 Cj 的精度 (由式 (3)); 8) 由式 (8) 计算 Cj 的多样性; 9) 由式 (10) 计算 Cj 的权重; 10) 如果 E 中分类器个数小于 n;将 C′直接添 加到 E 中; 11) 否则使用 C′替换 E 中权重最低的分类器; 12) 对于 E 中除去 C′之外的基分类器 Cj; 13) 在数据块 Bi 上增量训练 Cj; 14) end 3 实验 本文的算法在大规模数据在线分析开源平 台 MOA(massive online analysis)[10]下实现,在 CPU 为 1.8 GHz、内存为 8 GB、操作系统为 Windows 10 的 PC 机上进行实验,评价类使用的是 MOA 下的 EvaluateInterleavedChunk 类。 3.1 数据集 在数据流挖掘中,数据集可以分为两种:真实 数据集和合成数据集。人工合成的数据集可以通 过设置概念漂移位置、漂移的数目和漂移的幅度 等属性,实现对不同类型概念漂移的模拟,但是 合成数据集无法完全代替真实数据集,因此为了 评价算法的性能,除了在合成数据集上验证之 外,还需要在真实数据集上验证。本文选取 3 个 真实数据集和 3 个合成数据集对提出的算法性能 进行验证。 3.1.1 真实数据集 1) 扑克牌 (Poker) 数据集:来源于 UCI 数据 库,每个实例有 11 个属性。数据集中每个实例 由 52 张牌中的 5 张组成,每张牌使用两个属性 (suit 和 rank) 来描述。 2)Covertype 数据集:来自 UCI 数据库,该数 据集包含了 4 个野生区域覆盖类型信息。该数据 集有 581 012 个实例,每个实例有 53 个属性对应 7 种可能的森林覆盖类型中的 1 种。 3)Airlines 数据集:该数据集包含根据航班的 出发信息来预测此次航班是否会晚点的数据。此 数据集包含 539 383 个实例,每个实例包含 7 个属性。 3.1.2 合成数据集 1)SEA 数据集:该数据集是 Street 于 2001 年 提出的[11] ,因仅含有连续型属性而著名,是经典的 突变式概念漂移数据集。 2)LED 数据集:该数据集用来预测 7 段数码 显示器上显示的数字。该数据集有 24 个属性,其 中前 7 个属性用于显示 0~9 的数字。 3) 随机树数据集:该数据集由 5 个 nominal 属 性和 5 个 numeric 属性组成,类属性值通过随机 树 (random tree) 确定。 3.2 实验结果对比与分析 实验结果将通过 3 个方面展示:不同数据块 大小对算法性能影响、不同方法精度的对比以及 α 值设置对算法性能影响。 3.2.1 不同数据块大小对算法性能影响 图 1 展示了本文提出的算法 DAWE 在 Cover￾type 数据集、SEA 数据集以及 Tree(随机树) 数据 集上采用不同的数据块大小时的表现。在基于块 的数据流挖掘中,块大小的选取对最终的分类性 能将有着重要的影响,选择较大的数据块意味着 使用更多的实例建立分类器,使得当前分类器分 类精度较高,缺点是对概念漂移反应不敏感;反 之,选择较小的数据块虽然对概念漂移反应较敏 感,但缺点是每次建立分类器时使用的实例较少, 导致每个分类器的分类精度较低。因此,综合来 看数据块过大或者过小都使得最终分类性能不佳。 ·182· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有