工程科学学报,第 39 卷,第 8 期 sionStump、KNN、基于

正在加载图片...

·1248· 工程科学学报，第39卷，第8期 sionStump、KNN、基于DecisionStump弱分类器的Ada- 于ECUA算法的少数类数据集错误率的权重实验，专 Boost算法、基于KNN弱分类器的AdaBoost算法进行注于研究少数类数据的精确度比较.其中，DecisionStump和KNN是较为传统的分类 3.1ECUA算法的性能研究算法，基于DecisionStump弱分类器的AdaBoost算法和 3.1.1基于KNN弱分类器的实验结果及分析基于KNN弱分类器的AdaBoost算法则是不均衡数据在六组数据集上，KNN、基于KNN弱分类器的分类算法.实验首先对ECUA算法的性能进行研究. AdaBoost算法和基于KNN弱分类器的ECUA算法的实验结果证明ECUA算法可以提高少数类的分类精度实验结果如表3所示.表中加粗的数字表示某数据集和查准率.然后在这个实验结果的基础上进行两组关该性能指标最好的实验结果. 表3KNN,AdaBoost,ECUA算法性能实验对比 Table 3 Performance comparison of KNN,AdaBoost,and ECUA algorithms 性能指标数据集算法 TPR(Recall) TNR Precision F1 AUC G-mean KNN 0.326 0.823 0.365 0.344 0.599 0.51798 blood AdaBoost 0.315 0.832 0.368 0.339 0.577 0.51194 ECUA 0.579 0.511 0.542 0.560 0.516 0.54394 KNN 0.930 0.953 0.937 0.933 0.944 0.94143 ecoli AdaBoost 0.930 0.953 0.937 0.933 0.944 0.94143 ECUA 0.944 0.937 0.938 0.941 0.939 0.94049 KNN 0.346 0.760 0.341 0.344 0.562 0.51279 haberman AdaBoost 0.346 0.778 0.359 0.352 0.569 0.51883 ECUA 0.469 0.457 0.463 0.466 0.462 0.46296 KNN 0.631 0.796 0.624 0.627 0.709 0.70871 pima AdaBoost 0.631 0.796 0.624 0.627 0.709 0.70871 ECUA 0.750 0.698 0.713 0.731 0.716 0.72353 KNN 0.370 0.764 0.327 0.347 0.575 0.53168 wpbe AdaBoost 0.370 0.764 0.327 0.347 0.575 0.53168 ECUA 0.413 0.435 0.422 0.418 0.429 0.42386 KNN 0.681 0.879 0.753 0.715 0.780 0.77369 magic AdaBoost 0.681 0.879 0.753 0.715 0.780 0.77369 ECUA 0.737 0.790 0.778 0.757 0.765 0.76303 由上表实验结果可以看出，ECUA算法在TPR(或 Sump弱分类器的AdaBoost算法和基于DecisionStump Recall)指标上相比于其他两种分类器在六组数据集弱分类器的ECUA算法的实验结果如表4所示.表中上均为表现最好的算法.可见，ECUA算法可以提高对加粗的数字表示某数据集该性能指标最好的实验少数类数据的分类精度.而且ECUA算法的Precision 结果. 指标也比其他两种算法表现好，说明ECUA算法对少从上表可以看出，F1指标上ECUA算法在大多数数类数据具有更好的查准率.从指标F1上看，ECUA 数据集上也表现最好，说明ECUA算法可以提升少数算法仍然在六组数据集上表现最好，说明ECUA算法类数据的分类性能.对于wpbc数据集，ECUA算法的对少数类数据的召回率和查准率都较高，说明该算法 TPR、Precision、FI和G-mean性能指标比其他两类分综合性不错，尤其对少数类样本数据分类效果较好. 类器好，而且性能优势明显.可见，对于传统分类算法综合来看，基于KNN弱分类器的ECUA算法可以提升难处理的数据集，ECUA算法对分类性能的提升更加不均衡数据集总体的分类性能，尤其是少数类数据的明显.所以，基于DecisionStump的ECUA算法可以提分类性能，高大多数数据集上少数类数据的分类精度和少数类数 3.1.2基于DecisionStump弱分类器的实验结果及分析据的查准率，尤其是在wpbc这类难处理的数据集上，在六组数据集上，DecisionStump、基于Decision-- 即传统分类算法分类效果特别不好的数据集ECUA算工程科学学报,第 39 卷,第 8 期 sionStump、KNN、基于 DecisionStump 弱分类器的 Ada鄄 Boost 算法、基于 KNN 弱分类器的 AdaBoost 算法进行比较. 其中,DecisionStump 和 KNN 是较为传统的分类算法,基于 DecisionStump 弱分类器的 AdaBoost 算法和基于 KNN 弱分类器的 AdaBoost 算法则是不均衡数据分类算法. 实验首先对 ECUA 算法的性能进行研究. 实验结果证明 ECUA 算法可以提高少数类的分类精度和查准率. 然后在这个实验结果的基础上进行两组关于 ECUA 算法的少数类数据集错误率的权重实验,专注于研究少数类数据的精确度. 3郾 1 ECUA 算法的性能研究 3郾 1郾 1 基于 KNN 弱分类器的实验结果及分析在六组数据集上,KNN、基于 KNN 弱分类器的 AdaBoost 算法和基于 KNN 弱分类器的 ECUA 算法的实验结果如表 3 所示. 表中加粗的数字表示某数据集该性能指标最好的实验结果. 表 3 KNN、AdaBoost、ECUA 算法性能实验对比 Table 3 Performance comparison of KNN, AdaBoost, and ECUA algorithms 数据集算法性能指标 TPR(Recall) TNR Precision F1 AUC G鄄mean KNN 0郾 326 0郾 823 0郾 365 0郾 344 0郾 599 0郾 51798 blood AdaBoost 0郾 315 0郾 832 0郾 368 0郾 339 0郾 577 0郾 51194 ECUA 0郾 579 0郾 511 0郾 542 0郾 560 0郾 516 0郾 54394 KNN 0郾 930 0郾 953 0郾 937 0郾 933 0郾 944 0郾 94143 ecoli AdaBoost 0郾 930 0郾 953 0郾 937 0郾 933 0郾 944 0郾 94143 ECUA 0郾 944 0郾 937 0郾 938 0郾 941 0郾 939 0郾 94049 KNN 0郾 346 0郾 760 0郾 341 0郾 344 0郾 562 0郾 51279 haberman AdaBoost 0郾 346 0郾 778 0郾 359 0郾 352 0郾 569 0郾 51883 ECUA 0郾 469 0郾 457 0郾 463 0郾 466 0郾 462 0郾 46296 KNN 0郾 631 0郾 796 0郾 624 0郾 627 0郾 709 0郾 70871 pima AdaBoost 0郾 631 0郾 796 0郾 624 0郾 627 0郾 709 0郾 70871 ECUA 0郾 750 0郾 698 0郾 713 0郾 731 0郾 716 0郾 72353 KNN 0郾 370 0郾 764 0郾 327 0郾 347 0郾 575 0郾 53168 wpbc AdaBoost 0郾 370 0郾 764 0郾 327 0郾 347 0郾 575 0郾 53168 ECUA 0郾 413 0郾 435 0郾 422 0郾 418 0郾 429 0郾 42386 KNN 0郾 681 0郾 879 0郾 753 0郾 715 0郾 780 0郾 77369 magic AdaBoost 0郾 681 0郾 879 0郾 753 0郾 715 0郾 780 0郾 77369 ECUA 0郾 737 0郾 790 0郾 778 0郾 757 0郾 765 0郾 76303 由上表实验结果可以看出,ECUA 算法在 TPR(或 Recall)指标上相比于其他两种分类器在六组数据集上均为表现最好的算法. 可见,ECUA 算法可以提高对少数类数据的分类精度. 而且 ECUA 算法的 Precision 指标也比其他两种算法表现好,说明 ECUA 算法对少数类数据具有更好的查准率. 从指标 F1 上看,ECUA 算法仍然在六组数据集上表现最好,说明 ECUA 算法对少数类数据的召回率和查准率都较高,说明该算法综合性不错,尤其对少数类样本数据分类效果较好. 综合来看,基于 KNN 弱分类器的 ECUA 算法可以提升不均衡数据集总体的分类性能,尤其是少数类数据的分类性能. 3郾 1郾 2 基于 DecisionStump 弱分类器的实验结果及分析在六组数据集上, DecisionStump、基于 Decision鄄 Stump 弱分类器的 AdaBoost 算法和基于 DecisionStump 弱分类器的 ECUA 算法的实验结果如表 4 所示. 表中加粗的数字表示某数据集该性能指标最好的实验结果. 从上表可以看出,F1 指标上 ECUA 算法在大多数数据集上也表现最好,说明 ECUA 算法可以提升少数类数据的分类性能. 对于 wpbc 数据集,ECUA 算法的 TPR、Precision、F1 和 G鄄mean 性能指标比其他两类分类器好,而且性能优势明显. 可见,对于传统分类算法难处理的数据集,ECUA 算法对分类性能的提升更加明显. 所以,基于 DecisionStump 的 ECUA 算法可以提高大多数数据集上少数类数据的分类精度和少数类数据的查准率,尤其是在 wpbc 这类难处理的数据集上, 即传统分类算法分类效果特别不好的数据集 ECUA 算 ·1248·

<<向上翻页向下翻页>>

点击下载：基于聚类欠采样的集成不均衡数据分类算法