正在加载图片...
·1088· 智能系 统学报 第15卷 实验剔除基准数据集中5%的数据后增加数据, 加,与WIDAR算法、Semi P算法和Semi D算法 并且增加的数据以候选数据集的10%为梯度增 进行对比分析,实验结果如图6所示。 22 24 22 ◆VIDAR 2 WIDIAR -Semi D 21 2入 -Semi P ◆-VIDAR ◆-WIDIAR 入 2 -Semi D -*-Semi P 2 20 40 60 80 100 0 20 40 60 80 100 数据增量% 数据增量% (a)Automobile (b)Soybean (Large) 25 量 23 22 WIDAR WIDIAR 21 20 -Semi D 米-Semi P 20 ·-WIDAR ·-WIDIAR 22 --Semi D 2 -Semi P 2 0 20 40 60 80 100 0 20 4 60 80 100 数据增量% 数据增量% (c)Dermatology (d)Cylinder Bands 2 21 26 2 2 ·-WIDAR 0 WIDAR WIDIAR 25 WIDIAR -Semi D -Semi D -Semi p 22 *Semi p 士2 20 25 2 28 20 40 60 80 100 0 20 40 60 80100 数据增量% 数据增量% (e)Mushroom (f)Letter recognition 图64种算法的计算时间对比 Fig.6 Comparison of time consumption of four algorithms 由图6(a)(c)可知,WIDAR算法引入了相对 简算法,获取属性约简需要花费423.521s,与静态 重要度作为属性重要度的度量标准,在迭代中不 属性约简算法相比较能够节约50.38%的时间。 断缩减算法搜索空间。因此在处理数据规模较小 在Letter Recognition数据集中,采用动态属性约 的数据集时,WIDIAR算法与WIDAR算法计算效 简算法动态更新属性约简结果需要的时间仅为 率相近,但相比Semi P算法和Semi D算法有较 356.823S,而采用WIDAR算法获取属性约简需要 明显的优势。但随着数据规模的增大,WIDAR算 花费2776.922s,与WIDAR算法相比较能够节约 法在动态数据中更新属性约简结果需要进行大量 87.15%的时间。 的重复计算。采用WIDIAR算法,对属性约简集 表4为增加的数据达到100%时,WIDIAR算 进行增量式更新,能够有效减少重复的计算,相 法和WIDAR算法的属性约简结果的对比,属性C: 比WIDAR算法,能够节约大量的时间。当增加 简写为i。从表4中可以看到,WIDIAR算法的属 的数据集的大小为100%时,在Mushroom数据集 性约简结果与WIDAR算法相比,在较小的数据 中,采用动态属性约简算法动态更新属性约简结 集中存在一定差异,但随着数据规模的增加,算 果需要的时间仅为210.156s,而采用静态属性约 法的属性约简结果差异逐步缩减,在Mushroom实验剔除基准数据集中 5% 的数据后增加数据, 并且增加的数据以候选数据集的 10% 为梯度增 加,与 WIDAR 算法、Semi_P 算法和 Semi_D 算法 进行对比分析,实验结果如图 6 所示。 WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P WIDAR WIDIAR Semi_D Semi_P 0 20 40 60 80 100 2 −5 2 −4 2 −3 2 −2 2 −1 2 0 2 1 2 2 计算时间/s 数据增量/% (a) Automobile 0 20 40 60 80 100 2 −4 2 −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 4 计算时间/s 数据增量/% (b) Soybean (Large) 0 20 40 60 80 100 2 −4 2 −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 4 2 5 计算时间/s 数据增量/% (c) Dermatology 0 20 40 60 80 100 2 −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 4 计算时间/s 数据增量/% (d) Cylinder Bands 0 20 40 60 80 100 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 2 13 计算时间/s 数据增量/% (e) Mushroom 0 20 40 60 80 100 2 8 2 9 2 10 2 11 2 12 2 13 2 14 2 15 2 16 2 17 计算时间/s 数据增量/% (f) Letter recognition 图 6 4 种算法的计算时间对比 Fig. 6 Comparison of time consumption of four algorithms 由图 6(a)~(c) 可知,WIDAR 算法引入了相对 重要度作为属性重要度的度量标准,在迭代中不 断缩减算法搜索空间。因此在处理数据规模较小 的数据集时,WIDIAR 算法与 WIDAR 算法计算效 率相近,但相比 Semi_P 算法和 Semi_D 算法有较 明显的优势。但随着数据规模的增大,WIDAR 算 法在动态数据中更新属性约简结果需要进行大量 的重复计算。采用 WIDIAR 算法,对属性约简集 进行增量式更新,能够有效减少重复的计算,相 比 WIDAR 算法,能够节约大量的时间。当增加 的数据集的大小为 100% 时,在 Mushroom 数据集 中,采用动态属性约简算法动态更新属性约简结 果需要的时间仅为 210.156 s,而采用静态属性约 简算法,获取属性约简需要花费 423.521 s,与静态 属性约简算法相比较能够节约 50.38% 的时间。 在 Letter Recognition 数据集中,采用动态属性约 简算法动态更新属性约简结果需要的时间仅为 356.823 s,而采用 WIDAR 算法获取属性约简需要 花费 2 776.922 s,与 WIDAR 算法相比较能够节约 87.15% 的时间。 Ci i 表 4 为增加的数据达到 100% 时,WIDIAR 算 法和 WIDAR 算法的属性约简结果的对比,属性 简写为 。从表 4 中可以看到,WIDIAR 算法的属 性约简结果与 WIDAR 算法相比,在较小的数据 集中存在一定差异,但随着数据规模的增加,算 法的属性约简结果差异逐步缩减,在 Mushroom ·1088· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有