弱的分类器强再决定是否加入，这里假设基分类器数量已经达到规定数量，主要因

正在加载图片...

·182· 智能系统学报第14卷弱的分类器强再决定是否加入，这里假设基分类过设置概念漂移位置、漂移的数目和漂移的幅度器数量已经达到规定数量，主要因为C是根据最等属性，实现对不同类型概念漂移的模拟，但是新的数据块建立的分类器，因此可以说C'是最适合成数据集无法完全代替真实数据集，因此为了合当前数据的。由于当前数据块的数据分布情况评价算法的性能，除了在合成数据集上验证之有很大概率与以后数据的数据分布情况类似，所外，还需要在真实数据集上验证。本文选取3个以可以认为使用C对接下来的数据分类是有效的。真实数据集和3个合成数据集对提出的算法性能 3)算法过程进行验证。本文提出的多样性精度加权集成算法DAWE 3.1.1真实数据集是一个基于块的方法，对于每一个新到来的数据 I)扑克牌(Poker)数据集：来源于UCI数据块B,首先使用B,构建一个新分类器C',并根据库，每个实例有11个属性。数据集中每个实例式(9)计算C的权重，然后根据式(10)计算集成由52张牌中的5张组成，每张牌使用两个属性分类器中基分类器的权重，分类器的权重均通过 (suit和rank)来描述。将其在最新数据块B,上的精度与其在集成分类 2)Covertype数据集：来自UCI数据库，该数器中多样性值线性加权得到，使用权重值作为分据集包含了4个野生区域覆盖类型信息。该数据类器的价值度量。当基分类器数量达到规定数目集有581012个实例，每个实例有53个属性对应时，每产生一个新分类器C',便选择一个权重最 7种可能的森林覆盖类型中的1种。小的基分类器被C替换。DAWE算法过程描述如 3)Airlines数据集：该数据集包含根据航班的下所示。出发信息来预测此次航班是否会晚点的数据。此输入数据流S,集成分类器中的基分类器数n。数据集包含539383个实例，每个实例包含7个属性。输出n个加权的基分类器的集成E。 3.1.2合成数据集 1)begin 1)SEA数据集：该数据集是Street于2001年 2)将E初始为空；提出的，因仅含有连续型属性而著名，是经典的 3)对于数据流S的每个到来的数据块B: 突变式概念漂移数据集。 4)在数据块B,上训练新分类器C"; 2)LED数据集：该数据集用来预测7段数码 5)由式(9)计算C"的权重；显示器上显示的数字。该数据集有24个属性，其 6)对于每个E中的分类器C: 中前7个属性用于显示0~9的数字。 7)计算C,的精度（由式(3）)： 3)随机树数据集：该数据集由5个nominal属 8)由式(8)计算C,的多样性；性和5个numeric属性组成，类属性值通过随机 9)由式(10)计算C,的权重；树(random tree)确定。 10)如果E中分类器个数小于：将C直接添 3.2实验结果对比与分析加到E中；实验结果将通过3个方面展示：不同数据块 11)否则使用C替换E中权重最低的分类器；大小对算法性能影响、不同方法精度的对比以及 12)对于E中除去C之外的基分类器C: α值设置对算法性能影响。 13)在数据块B,上增量训练C: 3.2.1不同数据块大小对算法性能影响 14)end 图I展示了本文提出的算法DAWE在Cover-- 3 实验 type数据集、SEA数据集以及Tree(随机树)数据集上采用不同的数据块大小时的表现。在基于块本文的算法在大规模数据在线分析开源平的数据流挖掘中，块大小的选取对最终的分类性台MOA(massive online analysis)o下实现，在CPU 能将有着重要的影响，选择较大的数据块意味着为1.8GHz、内存为8GB、操作系统为Windows10 使用更多的实例建立分类器，使得当前分类器分的PC机上进行实验，评价类使用的是MOA下的类精度较高，缺点是对概念漂移反应不敏感：反 EvaluateInterleavedChunk类。之，选择较小的数据块虽然对概念漂移反应较敏 3.1数据集感，但缺点是每次建立分类器时使用的实例较少在数据流挖掘中，数据集可以分为两种：真实导致每个分类器的分类精度较低。因此，综合来数据集和合成数据集。人工合成的数据集可以通看数据块过大或者过小都使得最终分类性能不佳。弱的分类器强再决定是否加入，这里假设基分类器数量已经达到规定数量，主要因为 C′是根据最新的数据块建立的分类器，因此可以说 C′是最适合当前数据的。由于当前数据块的数据分布情况有很大概率与以后数据的数据分布情况类似，所以可以认为使用 C′对接下来的数据分类是有效的。 3) 算法过程本文提出的多样性精度加权集成算法 DAWE2 是一个基于块的方法，对于每一个新到来的数据块 Bi，首先使用 Bi 构建一个新分类器 C′，并根据式 (9) 计算 C′的权重，然后根据式 (10) 计算集成分类器中基分类器的权重，分类器的权重均通过将其在最新数据块 Bi 上的精度与其在集成分类器中多样性值线性加权得到，使用权重值作为分类器的价值度量。当基分类器数量达到规定数目时，每产生一个新分类器 C′，便选择一个权重最小的基分类器被 C′替换。DAWE算法过程描述如下所示。输入数据流 S，集成分类器中的基分类器数 n。输出 n 个加权的基分类器的集成 E。 1) begin 2) 将 E 初始为空； 3) 对于数据流 S 的每个到来的数据块 Bi； 4) 在数据块 Bi 上训练新分类器 C′； 5) 由式 (9) 计算 C′的权重； 6) 对于每个 E 中的分类器 Cj； 7) 计算 Cj 的精度 (由式 (3))； 8) 由式 (8) 计算 Cj 的多样性； 9) 由式 (10) 计算 Cj 的权重； 10) 如果 E 中分类器个数小于 n；将 C′直接添加到 E 中； 11) 否则使用 C′替换 E 中权重最低的分类器； 12) 对于 E 中除去 C′之外的基分类器 Cj； 13) 在数据块 Bi 上增量训练 Cj； 14) end 3 实验本文的算法在大规模数据在线分析开源平台 MOA(massive online analysis)[10]下实现，在 CPU 为 1.8 GHz、内存为 8 GB、操作系统为 Windows 10 的 PC 机上进行实验，评价类使用的是 MOA 下的 EvaluateInterleavedChunk 类。 3.1 数据集在数据流挖掘中，数据集可以分为两种：真实数据集和合成数据集。人工合成的数据集可以通过设置概念漂移位置、漂移的数目和漂移的幅度等属性，实现对不同类型概念漂移的模拟，但是合成数据集无法完全代替真实数据集，因此为了评价算法的性能，除了在合成数据集上验证之外，还需要在真实数据集上验证。本文选取 3 个真实数据集和 3 个合成数据集对提出的算法性能进行验证。 3.1.1 真实数据集 1) 扑克牌 (Poker) 数据集：来源于 UCI 数据库，每个实例有 11 个属性。数据集中每个实例由 52 张牌中的 5 张组成，每张牌使用两个属性 (suit 和 rank) 来描述。 2)Covertype 数据集：来自 UCI 数据库，该数据集包含了 4 个野生区域覆盖类型信息。该数据集有 581 012 个实例，每个实例有 53 个属性对应 7 种可能的森林覆盖类型中的 1 种。 3)Airlines 数据集：该数据集包含根据航班的出发信息来预测此次航班是否会晚点的数据。此数据集包含 539 383 个实例，每个实例包含 7 个属性。 3.1.2 合成数据集 1)SEA 数据集：该数据集是 Street 于 2001 年提出的[11] ，因仅含有连续型属性而著名，是经典的突变式概念漂移数据集。 2)LED 数据集：该数据集用来预测 7 段数码显示器上显示的数字。该数据集有 24 个属性，其中前 7 个属性用于显示 0~9 的数字。 3) 随机树数据集：该数据集由 5 个 nominal 属性和 5 个 numeric 属性组成，类属性值通过随机树 (random tree) 确定。 3.2 实验结果对比与分析实验结果将通过 3 个方面展示：不同数据块大小对算法性能影响、不同方法精度的对比以及 α 值设置对算法性能影响。 3.2.1 不同数据块大小对算法性能影响图 1 展示了本文提出的算法 DAWE 在 Covertype 数据集、SEA 数据集以及 Tree(随机树) 数据集上采用不同的数据块大小时的表现。在基于块的数据流挖掘中，块大小的选取对最终的分类性能将有着重要的影响，选择较大的数据块意味着使用更多的实例建立分类器，使得当前分类器分类精度较高，缺点是对概念漂移反应不敏感；反之，选择较小的数据块虽然对概念漂移反应较敏感，但缺点是每次建立分类器时使用的实例较少，导致每个分类器的分类精度较低。因此，综合来看数据块过大或者过小都使得最终分类性能不佳。 ·182· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【人工智能基础】一种多样性和精度加权的数据流集成分类算法