正在加载图片...
·1556· 北京科技大学学报 第33卷 100 100 (a) 80 80 60 60 三40 -UMCCM _UMCCM -RUR 一SMOTE 20 一RUR 一SMOTE 0 0 0 40 60 形 100 0 20 4060 0 100 FP-rate/% FP-rate/% 100 100 d 80 60 60 -UMCCM -UMCCM 一RUR —RR 一SMOTE SMOTE 0 0 0 20 4060 80 100 0 20 4060 80100 FP-rate/% FP-rate/% 图4不同数据集上性能比较.(a)Flag数据集;(b)German数据集:(c)Nursery数据集:(d)Satimage数据集 Fig.4 Performance comparison on different datasets:(a)Flag datasets:(b)German datasets:(c)Nursery datasets:(d)Satimage datasets (分类器)与对应列的算法(分类器)性能比较.如 表2按不同噪声测度标准进行十次十交叉实验结果 第一个数字单元格内容为1-36,表示与UMCCM Table 2 Results of ten cross-validation according to different noise 相比,C4.5性能好于、等于和差于UMCCM的次数 measurement 分别为1、3和6.由表2可知,SVM和C4.5在各种 噪声测度,y/% 算法UMCCM RUR SMOTE SVM 噪声测度下性能基本相当,SMOTE则均好于SVM C4.51-362-35 3-3-42-4-4 与C4.5.当没有添加噪声时,Random Under-Resam- SVM2-4-414-52-3-5 0 ple(RUR)性能优于C4.5和SVM,也优于SMOTE, SM0TE2-264-1-5 这与文献8]结论一致.随着噪声数据不断增多, RUR 2-3-5 RUR性能逐渐下降.当噪声测度为5%时,RUR优 C4.5 1-362443-343-34 于C4.5次数为4,优于SVM的次数为5,优于 SVM1-362-352-4-4 5 SMOTE次数也是5;当噪声测度为10%时,RUR优 SM0TE1-3-62-3-5 于C4.5次数为2,优于SVM的次数为3,优于 RUR 2-2-6 SMOTE次数也是2;当噪声测度为15%时,RUR优 C4.50-283-5-23-2-53-5-2 于C4.5、SVM和SMOTE的次数都仅为1.由此可 SVM 1-2-74-3-32-3-5 见,随机欠采样方法性能与噪声测度关系甚密,当噪 o SM0TE1-2-73-5-2 声测度很大时,分类精度急剧降低.与此相反,UM- RUR 1-3-6 CCM性能在噪声测度较低时性能稍好于其他方法, C4.50-194-5-12-264-24 但随着噪声测度增大,UMCCM优越性愈加明显.这 SVM0-2-85-4-12-26 主要是因为UMCCM借用了协同进化机制,在欠采 15 SM0TE1-367-2-1 样过程中已将噪声数据排除在核集之外,使得噪声 RUR 1-1-8 对其分类精度影响降低到最小.因此与其他四种分 类器相比,UMCCM分类性能更稳定,鲁棒性更强. 4结论 这充分验证了UMCCM模型在非平衡数据集分类问 题中具有较强的普适性,从而对从根本上提高解决 本文提出的对非平衡数据集分类的新方法UM- 非平衡数据集分类问题具有重要意义. CCM利用协同进化机制,建立多数类和少数类两个北 京 科 技 大 学 学 报 第 33 卷 图 4 不同数据集上性能比较. ( a) Flag 数据集; ( b) German 数据集; ( c) Nursery 数据集; ( d) Satimage 数据集 Fig. 4 Performance comparison on different datasets: ( a) Flag datasets; ( b) German datasets; ( c) Nursery datasets; ( d) Satimage datasets ( 分类器) 与对应列的算法( 分类器) 性能比较. 如 第一个数字单元格内容为 1--3--6,表示与 UMCCM 相比,C4. 5 性能好于、等于和差于 UMCCM 的次数 分别为 1、3 和 6. 由表 2 可知,SVM 和 C4. 5 在各种 噪声测度下性能基本相当,SMOTE 则均好于 SVM 与 C4. 5. 当没有添加噪声时,Random Under-Resam￾ple ( RUR) 性能优于 C4. 5 和 SVM,也优于 SMOTE, 这与文献[8]结论一致. 随着噪声数据不断增多, RUR 性能逐渐下降. 当噪声测度为 5% 时,RUR 优 于 C4. 5 次 数 为 4,优 于 SVM 的 次 数 为 5,优 于 SMOTE 次数也是 5; 当噪声测度为 10% 时,RUR 优 于 C4. 5 次 数 为 2,优 于 SVM 的 次 数 为 3,优 于 SMOTE 次数也是 2; 当噪声测度为 15% 时,RUR 优 于 C4. 5、SVM 和 SMOTE 的次数都仅为 1. 由此可 见,随机欠采样方法性能与噪声测度关系甚密,当噪 声测度很大时,分类精度急剧降低. 与此相反,UM￾CCM 性能在噪声测度较低时性能稍好于其他方法, 但随着噪声测度增大,UMCCM 优越性愈加明显. 这 主要是因为 UMCCM 借用了协同进化机制,在欠采 样过程中已将噪声数据排除在核集之外,使得噪声 对其分类精度影响降低到最小. 因此与其他四种分 类器相比,UMCCM 分类性能更稳定,鲁棒性更强. 这充分验证了 UMCCM 模型在非平衡数据集分类问 题中具有较强的普适性,从而对从根本上提高解决 非平衡数据集分类问题具有重要意义. 表 2 按不同噪声测度标准进行十次十交叉实验结果 Table 2 Results of ten cross-validation according to different noise measurement 噪声测度,γ /% 算法 UMCCM RUR SMOTE SVM C4. 5 1--3--6 2--3--5 3--3--4 2--4--4 0 SVM 2--4--4 1--4--5 2--3--5 SMOTE 2--2--6 4--1--5 RUR 2--3--5 C4. 5 1--3--6 2--4--4 3--3--4 3--3--4 5 SVM 1--3--6 2--3--5 2--4--4 SMOTE 1--3--6 2--3--5 RUR 2--2--6 C4. 5 0--2--8 3--5--2 3--2--5 3--5--2 10 SVM 1--2--7 4--3--3 2--3--5 SMOTE 1--2--7 3--5--2 RUR 1--3--6 C4. 5 0--1--9 4--5--1 2--2--6 4--2--4 15 SVM 0--2--8 5--4--1 2--2--6 SMOTE 1--3--6 7--2--1 RUR 1--1--8 4 结论 本文提出的对非平衡数据集分类的新方法 UM￾CCM 利用协同进化机制,建立多数类和少数类两个 ·1556·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有