实验剔除基准数据集中 5% 的数据后增加数据，并且增加的数据以候选数据集

正在加载图片...

·1088· 智能系统学报第15卷实验剔除基准数据集中5%的数据后增加数据，加，与WIDAR算法、Semi P算法和Semi D算法并且增加的数据以候选数据集的10%为梯度增进行对比分析，实验结果如图6所示。 22 24 22 ◆VIDAR 2 WIDIAR -Semi D 21 2入 -Semi P ◆-VIDAR ◆-WIDIAR 入 2 -Semi D -*-Semi P 2 20 40 60 80 100 0 20 40 60 80 100 数据增量% 数据增量% (a)Automobile (b)Soybean (Large) 25 量 23 22 WIDAR WIDIAR 21 20 -Semi D 米-Semi P 20 ·-WIDAR ·-WIDIAR 22 --Semi D 2 -Semi P 2 0 20 40 60 80 100 0 20 4 60 80 100 数据增量% 数据增量% (c)Dermatology (d)Cylinder Bands 2 21 26 2 2 ·-WIDAR 0 WIDAR WIDIAR 25 WIDIAR -Semi D -Semi D -Semi p 22 *Semi p 士2 20 25 2 28 20 40 60 80 100 0 20 40 60 80100 数据增量% 数据增量% (e)Mushroom (f)Letter recognition 图64种算法的计算时间对比 Fig.6 Comparison of time consumption of four algorithms 由图6(a)(c)可知，WIDAR算法引入了相对简算法，获取属性约简需要花费423.521s,与静态重要度作为属性重要度的度量标准，在迭代中不属性约简算法相比较能够节约50.38%的时间。断缩减算法搜索空间。因此在处理数据规模较小在Letter Recognition数据集中，采用动态属性约的数据集时，WIDIAR算法与WIDAR算法计算效简算法动态更新属性约简结果需要的时间仅为率相近，但相比Semi P算法和Semi D算法有较 356.823S,而采用WIDAR算法获取属性约简需要明显的优势。但随着数据规模的增大，WIDAR算花费2776.922s,与WIDAR算法相比较能够节约法在动态数据中更新属性约简结果需要进行大量 87.15%的时间。的重复计算。采用WIDIAR算法，对属性约简集表4为增加的数据达到100%时，WIDIAR算进行增量式更新，能够有效减少重复的计算，相法和WIDAR算法的属性约简结果的对比，属性C: 比WIDAR算法，能够节约大量的时间。当增加简写为i。从表4中可以看到，WIDIAR算法的属的数据集的大小为100%时，在Mushroom数据集性约简结果与WIDAR算法相比，在较小的数据中，采用动态属性约简算法动态更新属性约简结集中存在一定差异，但随着数据规模的增加，算果需要的时间仅为210.156s,而采用静态属性约法的属性约简结果差异逐步缩减，在Mushroom实验剔除基准数据集中 5% 的数据后增加数据，并且增加的数据以候选数据集的 10% 为梯度增加，与 WIDAR 算法、Semi_P 算法和 Semi_D 算法进行对比分析，实验结果如图 6 所示。 WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P 0 20 40 60 80 100 2 −5 2 −4 2 −3 2 −2 2 −1 2 0 2 1 2 2 计算时间/s 数据增量/% (a) Automobile 0 20 40 60 80 100 2 −4 2 −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 4 计算时间/s 数据增量/% (b) Soybean (Large) 0 20 40 60 80 100 2 −4 2 −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 4 2 5 计算时间/s 数据增量/% (c) Dermatology 0 20 40 60 80 100 2 −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 4 计算时间/s 数据增量/% (d) Cylinder Bands 0 20 40 60 80 100 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 2 13 计算时间/s 数据增量/% (e) Mushroom 0 20 40 60 80 100 2 8 2 9 2 10 2 11 2 12 2 13 2 14 2 15 2 16 2 17 计算时间/s 数据增量/% (f) Letter recognition 图 6 4 种算法的计算时间对比 Fig. 6 Comparison of time consumption of four algorithms 由图 6(a)~(c) 可知，WIDAR 算法引入了相对重要度作为属性重要度的度量标准，在迭代中不断缩减算法搜索空间。因此在处理数据规模较小的数据集时，WIDIAR 算法与 WIDAR 算法计算效率相近，但相比 Semi_P 算法和 Semi_D 算法有较明显的优势。但随着数据规模的增大，WIDAR 算法在动态数据中更新属性约简结果需要进行大量的重复计算。采用 WIDIAR 算法，对属性约简集进行增量式更新，能够有效减少重复的计算，相比 WIDAR 算法，能够节约大量的时间。当增加的数据集的大小为 100% 时，在 Mushroom 数据集中，采用动态属性约简算法动态更新属性约简结果需要的时间仅为 210.156 s，而采用静态属性约简算法，获取属性约简需要花费 423.521 s，与静态属性约简算法相比较能够节约 50.38% 的时间。在 Letter Recognition 数据集中，采用动态属性约简算法动态更新属性约简结果需要的时间仅为 356.823 s，而采用 WIDAR 算法获取属性约简需要花费 2 776.922 s，与 WIDAR 算法相比较能够节约 87.15% 的时间。 Ci i 表 4 为增加的数据达到 100% 时，WIDIAR 算法和 WIDAR 算法的属性约简结果的对比,属性简写为。从表 4 中可以看到，WIDIAR 算法的属性约简结果与 WIDAR 算法相比，在较小的数据集中存在一定差异，但随着数据规模的增加，算法的属性约简结果差异逐步缩减，在 Mushroom ·1088· 智能系统学报第 15 卷

<<向上翻页向下翻页>>