·736· 智能系统学报 第15卷 Abalone要更加不均衡,选用不同不均衡度的数据 通过G-mean的数值来判断分类器的效果, 集,能直观比较不同不均衡情况下本文方法效果。 G-mean数值越大说明召回率和查准率越高,效果 本实验将在这5个数据集上对SMOTE算 越好。 法、ADASYN算法以及本文的SCF-ADASYN算 F值计算公式为 法进行测试。将3种方法处理过的数据集通过支 Precision x Recallx(1+B2) F-measure 持向量机(support vector machine,SVM)2、随机森 Precision+82 x Recall 林(random forest,.RF)2、K最近邻算法(k-nearest F-measure计算公式中包含了查准率和召回 neighbor,KNN)2等分类器进行分类,按4:1的比 率,在实验室中多取B=1。当查准率和召回率同 率将数据集随机分为训练集和测试集,并运行 时上升时,F-measure才会提升。因此,本文用F- 5次取平均值作为结果,比较分析本文方法的优劣。 measure衡量对于不均衡数据的分类性能。 本文的实验环境为 因为能独立于数据集的类分布,ROC曲线对 1)处理器型号:Inter(R)I5-8300HCPU@ 数据集的不均衡性有很好的鲁棒性,本文使用曲 2.30GHz: 线下面积AUC来代替ROC曲线作为不均衡数据 2)运行内存:8GB: 评价方法,值越大代表分类器的性能表现越优秀。 3)实现语言:Python3.7; 3.3实验结果及分析 4)操作系统:Linux(Ubuntu1:8.04)。 1)验证性实验 3.2评价指标 本文验证性实验选用Pima数据集进行实 对于少数类数据的分类评价在不均衡数据分 验。Pima数据集为印第安人糖尿病数据集,其中 类评价中十分重要261。本文用F-measure、G- 少数类样本268例,多数类样本500例。比较未 mean以及AUC2m来衡量分类结果。 进行均衡化处理、采用ADASYN处理、SMOTE 分类结束后,结果分为4种情况:预测正例、 处理以及SCF-ADASYN算法处理后的Pima数据 预测负例以及真实正例、真实负例,如表2所示。 集,在多个分类器下的分类表现。 表2混淆矩阵 由表3实验结果可知,经SCF-ADASYN算法 Table 2 Confusion matrix 处理后,F-measure,G-mean以及AUC相较于未经 总样本数 采样处理显著提高,说明经本文算法处理后分类 预测正例 预测负例 器整体的分类性能以及对少数类样本的分类精度 真实正例 TP FN 都显著提高。也就是说,本文提出的SCF-ADA- 真实负例 FP TN SYN算法能有效地处理数据类不均衡的问题,从 将表2中的TP、FP、TN、FN按照模型的评价 而提高分类器的性能。 需求进行组合就构成了常用的评价标准。本文使 表3验证性实验结果 用的评价标准包括查准率、召回率、G-mean、F值 Table 3 Experimental results of validation experiments 以及AUC。 分类器 数据层方法 AUC F值 G-mean 查准率(Precision)为 SCF-ADASYN 0.8005 0.7821 0.8004 Precision TP/(FP+TP) ADASYN 0.7817 0.7613 0.7808 该指标表示正确分类的多数类样本与分为多 RF SMOTE 0.7881 0.7412 0.7743 数类的所有样本比值。 召回率(Recall)表示被正确分类的少数类样 未处理 0.70600.7254 0.7265 本与实际少数类样本的比值,其计算公式为 SCF-ADASYN 0.7446 0.7762 0.7393 Recall TP/(TP+FN) ADASYN 0.7481 0.7609 0.7470 G-mean为查准率和召回率乘积的平方根,它 KNN SMOTE 0.7231 0.7123 0.7763 反映出分类器对于多数类和少数类分类的整体能 未处理 0.70540.69510.7155 力。因此,采用G-mean准则来评价不均衡数据 SCF-ADASYN 0.9181 0.82830.8252 集总体分类性能十分合理。 总体性能指标G-mean的计算公式为 ADASYN 0.7793 0.7860 0.7788 SVM SMOTE 0.79560.77530.7414 TP.TN G-mean (TP+FN)·(TN+FP) 未处理 0.70520.6686 0.6565Abalone 要更加不均衡,选用不同不均衡度的数据 集,能直观比较不同不均衡情况下本文方法效果。 本实验将在这 5 个数据集上对 SMOTE 算 法、ADASYN 算法以及本文的 SCF-ADASYN 算 法进行测试。将 3 种方法处理过的数据集通过支 持向量机 (support vector machine, SVM)[23] 、随机森 林 (random forest, RF)[24] 、K 最近邻算法 (k-nearest neighbor, KNN)[25] 等分类器进行分类,按 4∶1 的比 率将数据集随机分为训练集和测试集,并运行 5 次取平均值作为结果,比较分析本文方法的优劣。 本文的实验环境为 1) 处理器型号: Inter(R)I5-8300H CPU@ 2.30 GHz; 2) 运行内存:8 GB; 3) 实现语言:Python 3.7; 4) 操作系统:Linux(Ubuntu18.04)。 3.2 评价指标 对于少数类数据的分类评价在不均衡数据分 类评价中十分重要[ 2 6 ]。本文用 F-measure、Gmean 以及 AUC[27] 来衡量分类结果。 分类结束后,结果分为 4 种情况:预测正例、 预测负例以及真实正例、真实负例,如表 2 所示。 表 2 混淆矩阵 Table 2 Confusion matrix 总样本数 预测正例 预测负例 真实正例 TP FN 真实负例 FP TN 将表 2 中的 TP、FP、TN、FN 按照模型的评价 需求进行组合就构成了常用的评价标准。本文使 用的评价标准包括查准率、召回率、G-mean、F 值 以及 AUC。 查准率 (Precision) 为 Precision = TP/(FP+TP) 该指标表示正确分类的多数类样本与分为多 数类的所有样本比值。 召回率 (Recall) 表示被正确分类的少数类样 本与实际少数类样本的比值,其计算公式为 Recall = TP/(TP+FN) G-mean 为查准率和召回率乘积的平方根,它 反映出分类器对于多数类和少数类分类的整体能 力。因此,采用 G-mean 准则来评价不均衡数据 集总体分类性能十分合理。 总体性能指标 G-mean 的计算公式为 G-mean = √ TP·TN (TP+FN)·(TN+FP) 通过 G-mean 的数值来判断分类器的效果, G-mean 数值越大说明召回率和查准率越高,效果 越好。 F 值计算公式为 F-measure = Precision×Recall× ( 1+β 2 ) Precision+β 2 ×Recall β = 1 F-measure 计算公式中包含了查准率和召回 率,在实验室中多取 。当查准率和召回率同 时上升时,F-measure 才会提升。因此,本文用 Fmeasure 衡量对于不均衡数据的分类性能。 因为能独立于数据集的类分布,ROC 曲线对 数据集的不均衡性有很好的鲁棒性,本文使用曲 线下面积 AUC 来代替 ROC 曲线作为不均衡数据 评价方法,值越大代表分类器的性能表现越优秀。 3.3 实验结果及分析 1) 验证性实验 本文验证性实验选用 Pima 数据集进行实 验。Pima 数据集为印第安人糖尿病数据集,其中 少数类样本 268 例,多数类样本 500 例。比较未 进行均衡化处理、采用 ADASYN 处理、SMOTE 处理以及 SCF-ADASYN 算法处理后的 Pima 数据 集,在多个分类器下的分类表现。 由表 3 实验结果可知,经 SCF-ADASYN 算法 处理后,F-measure,G-mean 以及 AUC 相较于未经 采样处理显著提高,说明经本文算法处理后分类 器整体的分类性能以及对少数类样本的分类精度 都显著提高。也就是说,本文提出的 SCF-ADASYN 算法能有效地处理数据类不均衡的问题,从 而提高分类器的性能。 表 3 验证性实验结果 Table 3 Experimental results of validation experiments 分类器 数据层方法 AUC F值 G-mean RF SCF-ADASYN 0.800 5 0.782 1 0.800 4 ADASYN 0.781 7 0.761 3 0.780 8 SMOTE 0.788 1 0.741 2 0.774 3 未处理 0.706 0 0.725 4 0.726 5 KNN SCF-ADASYN 0.744 6 0.776 2 0.739 3 ADASYN 0.748 1 0.760 9 0.747 0 SMOTE 0.723 1 0.712 3 0.776 3 未处理 0.705 4 0.695 1 0.715 5 SVM SCF-ADASYN 0.918 1 0.828 3 0.825 2 ADASYN 0.779 3 0.786 0 0.778 8 SMOTE 0.795 6 0.775 3 0.741 4 未处理 0.705 2 0.668 6 0.656 5 ·736· 智 能 系 统 学 报 第 15 卷