正在加载图片...
第6期 程龙,等:弱标记不完备决策系统的增量式属性约简算法 ·1087· 由图3~5可知,WIDAR算法能够有效利用有 与Semi D算法相比分类精度从83.7%下降到 标记和无标记的数据,获取分类性能较优的属性 58.4%。而在CART和Naive Bayes分类器中, 约简集。特别地,随着标记缺失比例的增加,若 WIDAR算法的表现更加稳定,CART分类器的分 采用WIDAR算法仅处理有标记数据(Labeled 类精度稳定在100%,Naive Bayes分类器的分类 data)获取的属性约简结果,由于信息利用率的下 精度则在73.6%~76.3%,与Semi D算法相比具有 降,分类器难以学习到较好的分类模型,在3个分 较明显的优势。 类器中分类性能总体偏低,分类精度较低并且不 为了进一步详细分析属性约简结果,本文以 稳定。相反,充分利用弱标记数据获取的属性约 数据标记缺失比率为50%的情况为例,在表3中 简结果,能够较好地利用原数据集的信息。分类 列举出了详细的属性约简结果,属性C:简写为i。 模型的分类精度较高且稳定,分类性能较优。在 在同一数据集上,不同的算法属性结果存在一定 前4个数据集中,由于数据的规模较小,使得分类 的差异,结合图5和表3中的信息可知,仅利用有 器较难准确学习到其内在规则或模式,且对小数 标记的数据获取的属性约简结果会丢失部分有效 据集的标记进行随机缺失,对分类效果产生了一 的分类信息。Semi_D算法和Semi P算法中 定影响。因此不同分类器在同一属性约简结果上 Automobile和Cylinder Bands数据集的约简结果 的分类表现差异较大,但仅利用有标记的数据获 完全相同,而这两个算法在其他数据集中属性约 取属性约简结果的分类性能显著偏弱。随着数据 简结果大致相同,分类精度相近,为此在讨论属 规模增大,在Mushroom、Letter Recognition数据集 性约简结果的分类性能时,本文以Semi D算法 中,随着标记缺失比例的增加,WIDAR算法在有 为例。与Semi D算法和WIDAR算法仅利用有 标记的数据中和Semi D算法在弱标记数据中获 标记数据(Labeled data)相比较,本文提出的WID- 取的属性约简结果分类精度出现较大的波动,但 AR算法能够获取一个分类性相对较优的属性约 采用WIDAR算法利用弱标记的数据获取的属性 简结果。在实验过程中发现,本文的WIDAR算 约简结果分类精度稳定且对比Semi D算法有较 法在规模较小的数据集上对比Semi D算法,其 明显的优势。以数据集Letter Recognition为例, 分类性能有时存在效果偏弱的情况,但随着数据 在图(3)的()中随着标记缺失比例的增加,WID- 规模的增大,WIDAR算法的性能表现趋于稳定, AR算法使用弱标记的数据获取的属性约简结果 并且对比Semi D算法存在较明显的优势。综上 在KNN分类器上的分类精度仅出现了较小的波 可得,本文的算法在大数据集中能够有效利用无 动,在标记缺失比例为40%时分类精度为99.0%, 标记的数据,增强属性约简结果的分类性能,显 在标记缺失比例为90%时,分类精度仍有92.4%, 著提升了算法的鲁棒性。 表3属性约简结果的对比 Table 3 Comparison of attribute reduction results 数据集 WIDAR算法 Labeled data Semi D算法 Semi P算法 Automobile 3,247.6,8.5 3,24,76 1,22,5.4,6,3.8 1,22,5,4,6,3,8 Soybean(Large) 1,7,6,15,10,17,35,4,12,8,21,3,30 1,7,6,22,10,35,3,2 1,7,6,10,4,22,3,8,9,30 1,29,3.4,6,7,10,89,30 Dermatology 16,4,3,19,2,32,17,26,18.5 16,4,3,19,2,32,17 34,16.4,19,32,17,5,1334,17,29.283,17,1,32.16 Cylinder Bands 2,35,25,3 2,4,14 1,24,2 1,24,2 93.22.12.15,5,21,14 59,321.1322,1.15,2. 9,3,22,1,2,15,521.14 Mushroom 5,20,22,21 1320,12,17,7,6 14,20,12,17,7,6 13,20,12,17,7,6 2.15,89,113.6.47,1 2,15.89.113.6.47,1 2.10,7,8.15,9,11,3.12. Letter Recognition 2.15,8.9.11.12.1310.61 12,10,5,16,13,14 12,10,5,16,13,14 13.6.4,1,5,16,14 综上可知,无标记数据也内含丰富的分类信 性能较优的属性约简结果,且算法具有良好的鲁 息,仅利用有标记的数据获取属性约简集,往往 棒性。另外,为了进一步说明算法2(WIDIAR算 会丢失部分信息,导致分类器的分类性能偏低。 法)的有效性,在数据集的标记随机缺失50%后, 充分利用有标记数据和无标记数据,获取的属性 将6组数据集划分为基准数据集和候选数据集两 约简结果,在分类器中的表现较优。WDAR算法 部分,取原数据集的前50%作为基准数据集。为 在对大数据进行属性约简时,能够快速获取分类 应对现实应用领域中常见的复杂应用场景,每次由图 3~5 可知,WIDAR 算法能够有效利用有 标记和无标记的数据,获取分类性能较优的属性 约简集。特别地,随着标记缺失比例的增加,若 采用 WIDAR 算法仅处理有标记数据 (Labeled data) 获取的属性约简结果,由于信息利用率的下 降,分类器难以学习到较好的分类模型,在 3 个分 类器中分类性能总体偏低,分类精度较低并且不 稳定。相反,充分利用弱标记数据获取的属性约 简结果,能够较好地利用原数据集的信息。分类 模型的分类精度较高且稳定,分类性能较优。在 前 4 个数据集中,由于数据的规模较小,使得分类 器较难准确学习到其内在规则或模式,且对小数 据集的标记进行随机缺失,对分类效果产生了一 定影响。因此不同分类器在同一属性约简结果上 的分类表现差异较大,但仅利用有标记的数据获 取属性约简结果的分类性能显著偏弱。随着数据 规模增大,在 Mushroom、Letter Recognition 数据集 中,随着标记缺失比例的增加,WIDAR 算法在有 标记的数据中和 Semi_D 算法在弱标记数据中获 取的属性约简结果分类精度出现较大的波动,但 采用 WIDAR 算法利用弱标记的数据获取的属性 约简结果分类精度稳定且对比 Semi_D 算法有较 明显的优势。以数据集 Letter Recognition 为例, 在图 (3) 的 (f) 中随着标记缺失比例的增加,WID￾AR 算法使用弱标记的数据获取的属性约简结果 在 KNN 分类器上的分类精度仅出现了较小的波 动,在标记缺失比例为 40% 时分类精度为 99.0%, 在标记缺失比例为 90% 时,分类精度仍有 92.4%, 与 Semi_D 算法相比分类精度从 83.7% 下降到 58.4%。而在 CART 和 Naive Bayes 分类器中, WIDAR 算法的表现更加稳定,CART 分类器的分 类精度稳定在 100%,Naive Bayes 分类器的分类 精度则在 73.6%~76.3%,与 Semi_D 算法相比具有 较明显的优势。 Ci i 为了进一步详细分析属性约简结果,本文以 数据标记缺失比率为 50% 的情况为例,在表 3 中 列举出了详细的属性约简结果,属性 简写为 。 在同一数据集上,不同的算法属性结果存在一定 的差异,结合图 5 和表 3 中的信息可知,仅利用有 标记的数据获取的属性约简结果会丢失部分有效 的分类信息。Semi_D 算法和 Semi_P 算法中 Automobile 和 Cylinder Bands 数据集的约简结果 完全相同,而这两个算法在其他数据集中属性约 简结果大致相同,分类精度相近,为此在讨论属 性约简结果的分类性能时,本文以 Semi_D 算法 为例。与 Semi_D 算法和 WIDAR 算法仅利用有 标记数据 (Labeled data) 相比较,本文提出的 WID￾AR 算法能够获取一个分类性相对较优的属性约 简结果。在实验过程中发现,本文的 WIDAR 算 法在规模较小的数据集上对比 Semi_D 算法,其 分类性能有时存在效果偏弱的情况,但随着数据 规模的增大,WIDAR 算法的性能表现趋于稳定, 并且对比 Semi_D 算法存在较明显的优势。综上 可得,本文的算法在大数据集中能够有效利用无 标记的数据,增强属性约简结果的分类性能,显 著提升了算法的鲁棒性。 表 3 属性约简结果的对比 Table 3 Comparison of attribute reduction results 数据集 WIDAR算法 Labeled data Semi_D算法 Semi_P算法 Automobile 3,24,7,6,8,5 3,24,7,6 1,22,5,4,6,3,8 1,22,5,4,6,3,8 Soybean(Large) 1,7,6,15,10,17,35,4,12,8,21,3,30 1,7,6,22,10,35,3,2 1,7,6,10,4,22,3,8,9,30 1,29,3,4,6,7,10,8,9,30 Dermatology 16,4,3,19,2,32,17,26,18,5 16,4,3,19,2,32,17 34,16,4,19,3,2,17,5,13 34,17,29,28,3,17,1,32,16 Cylinder Bands 2,35,25,3 2,4,14 1,24,2 1,24,2 Mushroom 9,3,22,1,2,15,5,21,14, 13,20,12,17,7,6 5,20,22,21 5,9,3,21,13,22,1,15,2, 14,20,12,17,7,6 9,3,22,1,2,15,5,21,14, 13,20,12,17,7,6 Letter Recognition 2,15,8,9,11,3,6,4,7,1, 12,10,5,16,13,14 2,15,8,9,11,12,13,10,6,1 2,15,8,9,11,3,6,4,7,1, 12,10,5,16,13,14 2,10,7,8,15,9,11,3,12, 13,6,4,1,5,16,14 综上可知,无标记数据也内含丰富的分类信 息,仅利用有标记的数据获取属性约简集,往往 会丢失部分信息,导致分类器的分类性能偏低。 充分利用有标记数据和无标记数据,获取的属性 约简结果,在分类器中的表现较优。WIDAR 算法 在对大数据进行属性约简时,能够快速获取分类 性能较优的属性约简结果,且算法具有良好的鲁 棒性。另外,为了进一步说明算法 2 (WIDIAR 算 法) 的有效性,在数据集的标记随机缺失 50% 后, 将 6 组数据集划分为基准数据集和候选数据集两 部分,取原数据集的前 50% 作为基准数据集。为 应对现实应用领域中常见的复杂应用场景,每次 第 6 期 程龙,等:弱标记不完备决策系统的增量式属性约简算法 ·1087·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有