武森等: 基于聚类欠采样的集成不均衡数据分类算法表 4 Decisio

正在加载图片...

武森等：基于聚类欠采样的集成不均衡数据分类算法 ·1249· 表4 DecisionStump、AdaBoost,ECUA算法性能实验对比 Table 4 Performance comparison of DecisionStump,AdaBoost,ECUA algorithms 性能指标数据集算法 TPR(Recall) TNR Precision F1 AUC G-mean DecisionStump 0 1 0 0 0.661 0 blood AdaBoost 0.236 0.933 0.525 0.326 0.726 0.46924 ECUA 0.742 0.674 0.695 0.717 0.752 0.70718 DecisionStump 0.811 0.902 0.859 0.835 0.835 0.85529 ecoli AdaBoost 0.951 0.959 0.944 0.948 0.987 0.95499 ECUA 0.930 0.923 0.924 0.927 0.979 0.92649 DecisionStump 0.321 0.884 0.500 0.391 0.629 0.53269 haberman AdaBoost 0.358 0.893 0.547 0.433 0.644 0.56541 ECUA 0.593 0.679 0.649 0.619 0.668 0.63454 DecisionStump 0.836 0.846 0.744 0.787 0.822 0.84098 pima AdaBoost 0.787 0.890 0.793 0.790 0.927 0.83692 ECUA 0.828 0.843 0.841 0.835 0.905 0.83547 DecisionStump 0 1 0 0 0.542 0 wpbe AdaBoost 0.109 0.953 0.417 0.172 0.584 0.32230 ECUA 0.522 0.478 0.500 0.511 0.505 0.49952 DecisionStump 0.760 0.692 0.573 0.653 0.725 0.725203 magic AdaBoost 0.637 0.867 0.722 0.677 0.849 0.743154 ECUA 0.773 0.768 0.769 0.771 0.846 0.770495 法对少数类数据有很高的分类精度的提升. 0.99 从上述两组实验可以看出，针对传统分类器分类效果不好的数据集，如blood、haberman和wpbc数据集，ECUA算法能够较明显地改善分类性能：而针对传统分类器本身分类效果就较好的数据集，如ecoi和 0.50 pima数据集，ECUA算法分类性能并不一定表现最好. 而传统分类器分类效果好的数据集本身类间差异比较 * 明显，如图3和图4所示为ecoli数据集在mcg、alm2和 alml、yh两组属性值上的类别分布，红色为多数类，蓝 0.45 0.89 色为少数类.从图中可见，ecoli数据集本身类间关系 meg 比较明晰，传统的分类器就可以达到较好的分类效果. 图3 ecoli数据集在mcg和am2属性值上的类别分布 Fig.3 Class distribution of ecoli data sets for meg and alm2 attribute 如图5和图6所示为wpbc数据集在radius、worst sym- values metry和smoothness、concave points SE两组属性值上的类别分布，红色为多数类，蓝色为少数类.从图中可见，wpbc数据集类间关系比较模糊，类间重叠很大，传的计算公式8，= ∑4×1r-h,(x,)1来看，错误率的统的分类器很难达到比较好的分类效果.而在现实生计算是将所有分错的数据的权重加起来.此权重为每活中，类间关系模糊、类间重叠大的数据集更为常见，个数据的权重，它的改变只和每次迭代过程中各个数而且这类数据集的分类也更加有难度.因此ECUA较据是否被错分有关系.因此，此错误率的计算并没有其他两种算法意义更大加入数据的类别信息.因为在对不均衡数据分类的时 3.2ECUA算法分类错误率的权重研究候，人们往往希望更加关注少数类数据，因此本章对集从上述的两组实验可以看到，ECUA算法可以提成分类过程的错误率计算公式进行改进，引入类别的高少数类数据的分类精度和查准率.但是，从错误率权重来区分少数类数据和多数类数据对错误率的影武森等: 基于聚类欠采样的集成不均衡数据分类算法表 4 DecisionStump、AdaBoost、ECUA 算法性能实验对比 Table 4 Performance comparison of DecisionStump, AdaBoost, ECUA algorithms 数据集算法性能指标 TPR(Recall) TNR Precision F1 AUC G鄄mean DecisionStump 0 1 0 0 0郾 661 0 blood AdaBoost 0郾 236 0郾 933 0郾 525 0郾 326 0郾 726 0郾 46924 ECUA 0郾 742 0郾 674 0郾 695 0郾 717 0郾 752 0郾 70718 DecisionStump 0郾 811 0郾 902 0郾 859 0郾 835 0郾 835 0郾 85529 ecoli AdaBoost 0郾 951 0郾 959 0郾 944 0郾 948 0郾 987 0郾 95499 ECUA 0郾 930 0郾 923 0郾 924 0郾 927 0郾 979 0郾 92649 DecisionStump 0郾 321 0郾 884 0郾 500 0郾 391 0郾 629 0郾 53269 haberman AdaBoost 0郾 358 0郾 893 0郾 547 0郾 433 0郾 644 0郾 56541 ECUA 0郾 593 0郾 679 0郾 649 0郾 619 0郾 668 0郾 63454 DecisionStump 0郾 836 0郾 846 0郾 744 0郾 787 0郾 822 0郾 84098 pima AdaBoost 0郾 787 0郾 890 0郾 793 0郾 790 0郾 927 0郾 83692 ECUA 0郾 828 0郾 843 0郾 841 0郾 835 0郾 905 0郾 83547 DecisionStump 0 1 0 0 0郾 542 0 wpbc AdaBoost 0郾 109 0郾 953 0郾 417 0郾 172 0郾 584 0郾 32230 ECUA 0郾 522 0郾 478 0郾 500 0郾 511 0郾 505 0郾 49952 DecisionStump 0郾 760 0郾 692 0郾 573 0郾 653 0郾 725 0郾 725203 magic AdaBoost 0郾 637 0郾 867 0郾 722 0郾 677 0郾 849 0郾 743154 ECUA 0郾 773 0郾 768 0郾 769 0郾 771 0郾 846 0郾 770495 法对少数类数据有很高的分类精度的提升. 从上述两组实验可以看出,针对传统分类器分类效果不好的数据集,如 blood、haberman 和 wpbc 数据集,ECUA 算法能够较明显地改善分类性能;而针对传统分类器本身分类效果就较好的数据集,如 ecoli 和 pima 数据集,ECUA 算法分类性能并不一定表现最好. 而传统分类器分类效果好的数据集本身类间差异比较明显,如图3 和图4 所示为 ecoli 数据集在 mcg、alm2 和 alm1、gyh 两组属性值上的类别分布,红色为多数类,蓝色为少数类. 从图中可见,ecoli 数据集本身类间关系比较明晰,传统的分类器就可以达到较好的分类效果. 如图 5 和图 6 所示为 wpbc 数据集在 radius、worst sym鄄 metry 和 smoothness、concave points SE 两组属性值上的类别分布,红色为多数类,蓝色为少数类. 从图中可见,wpbc 数据集类间关系比较模糊,类间重叠很大,传统的分类器很难达到比较好的分类效果. 而在现实生活中,类间关系模糊、类间重叠大的数据集更为常见, 而且这类数据集的分类也更加有难度. 因此 ECUA 较其他两种算法意义更大. 3郾 2 ECUA 算法分类错误率的权重研究从上述的两组实验可以看到,ECUA 算法可以提高少数类数据的分类精度和查准率. 但是,从错误率图 3 ecoli 数据集在 mcg 和 alm2 属性值上的类别分布 Fig. 3 Class distribution of ecoli data sets for mcg and alm2 attribute values 的计算公式着t = 移 N i = 1 琢 t i 伊 | r i - ht ( xi) | 来看,错误率的计算是将所有分错的数据的权重加起来. 此权重为每个数据的权重,它的改变只和每次迭代过程中各个数据是否被错分有关系. 因此,此错误率的计算并没有加入数据的类别信息. 因为在对不均衡数据分类的时候,人们往往希望更加关注少数类数据,因此本章对集成分类过程的错误率计算公式进行改进,引入类别的权重来区分少数类数据和多数类数据对错误率的影 ·1249·

<<向上翻页向下翻页>>

点击下载：基于聚类欠采样的集成不均衡数据分类算法