正在加载图片...
·736· 智能系统学报 第15卷 Abalone要更加不均衡,选用不同不均衡度的数据 通过G-mean的数值来判断分类器的效果, 集,能直观比较不同不均衡情况下本文方法效果。 G-mean数值越大说明召回率和查准率越高,效果 本实验将在这5个数据集上对SMOTE算 越好。 法、ADASYN算法以及本文的SCF-ADASYN算 F值计算公式为 法进行测试。将3种方法处理过的数据集通过支 Precision x Recallx(1+B2) F-measure 持向量机(support vector machine,SVM)2、随机森 Precision+82 x Recall 林(random forest,.RF)2、K最近邻算法(k-nearest F-measure计算公式中包含了查准率和召回 neighbor,KNN)2等分类器进行分类,按4:1的比 率,在实验室中多取B=1。当查准率和召回率同 率将数据集随机分为训练集和测试集,并运行 时上升时,F-measure才会提升。因此,本文用F- 5次取平均值作为结果,比较分析本文方法的优劣。 measure衡量对于不均衡数据的分类性能。 本文的实验环境为 因为能独立于数据集的类分布,ROC曲线对 1)处理器型号:Inter(R)I5-8300HCPU@ 数据集的不均衡性有很好的鲁棒性,本文使用曲 2.30GHz: 线下面积AUC来代替ROC曲线作为不均衡数据 2)运行内存:8GB: 评价方法,值越大代表分类器的性能表现越优秀。 3)实现语言:Python3.7; 3.3实验结果及分析 4)操作系统:Linux(Ubuntu1:8.04)。 1)验证性实验 3.2评价指标 本文验证性实验选用Pima数据集进行实 对于少数类数据的分类评价在不均衡数据分 验。Pima数据集为印第安人糖尿病数据集,其中 类评价中十分重要261。本文用F-measure、G- 少数类样本268例,多数类样本500例。比较未 mean以及AUC2m来衡量分类结果。 进行均衡化处理、采用ADASYN处理、SMOTE 分类结束后,结果分为4种情况:预测正例、 处理以及SCF-ADASYN算法处理后的Pima数据 预测负例以及真实正例、真实负例,如表2所示。 集,在多个分类器下的分类表现。 表2混淆矩阵 由表3实验结果可知,经SCF-ADASYN算法 Table 2 Confusion matrix 处理后,F-measure,G-mean以及AUC相较于未经 总样本数 采样处理显著提高,说明经本文算法处理后分类 预测正例 预测负例 器整体的分类性能以及对少数类样本的分类精度 真实正例 TP FN 都显著提高。也就是说,本文提出的SCF-ADA- 真实负例 FP TN SYN算法能有效地处理数据类不均衡的问题,从 将表2中的TP、FP、TN、FN按照模型的评价 而提高分类器的性能。 需求进行组合就构成了常用的评价标准。本文使 表3验证性实验结果 用的评价标准包括查准率、召回率、G-mean、F值 Table 3 Experimental results of validation experiments 以及AUC。 分类器 数据层方法 AUC F值 G-mean 查准率(Precision)为 SCF-ADASYN 0.8005 0.7821 0.8004 Precision TP/(FP+TP) ADASYN 0.7817 0.7613 0.7808 该指标表示正确分类的多数类样本与分为多 RF SMOTE 0.7881 0.7412 0.7743 数类的所有样本比值。 召回率(Recall)表示被正确分类的少数类样 未处理 0.70600.7254 0.7265 本与实际少数类样本的比值,其计算公式为 SCF-ADASYN 0.7446 0.7762 0.7393 Recall TP/(TP+FN) ADASYN 0.7481 0.7609 0.7470 G-mean为查准率和召回率乘积的平方根,它 KNN SMOTE 0.7231 0.7123 0.7763 反映出分类器对于多数类和少数类分类的整体能 未处理 0.70540.69510.7155 力。因此,采用G-mean准则来评价不均衡数据 SCF-ADASYN 0.9181 0.82830.8252 集总体分类性能十分合理。 总体性能指标G-mean的计算公式为 ADASYN 0.7793 0.7860 0.7788 SVM SMOTE 0.79560.77530.7414 TP.TN G-mean (TP+FN)·(TN+FP) 未处理 0.70520.6686 0.6565Abalone 要更加不均衡,选用不同不均衡度的数据 集,能直观比较不同不均衡情况下本文方法效果。 本实验将在这 5 个数据集上对 SMOTE 算 法、ADASYN 算法以及本文的 SCF-ADASYN 算 法进行测试。将 3 种方法处理过的数据集通过支 持向量机 (support vector machine, SVM)[23] 、随机森 林 (random forest, RF)[24] 、K 最近邻算法 (k-nearest neighbor, KNN)[25] 等分类器进行分类,按 4∶1 的比 率将数据集随机分为训练集和测试集,并运行 5 次取平均值作为结果,比较分析本文方法的优劣。 本文的实验环境为 1) 处理器型号: Inter(R)I5-8300H CPU@ 2.30 GHz; 2) 运行内存:8 GB; 3) 实现语言:Python 3.7; 4) 操作系统:Linux(Ubuntu18.04)。 3.2 评价指标 对于少数类数据的分类评价在不均衡数据分 类评价中十分重要[ 2 6 ]。本文用 F-measure、G￾mean 以及 AUC[27] 来衡量分类结果。 分类结束后,结果分为 4 种情况:预测正例、 预测负例以及真实正例、真实负例,如表 2 所示。 表 2 混淆矩阵 Table 2 Confusion matrix 总样本数 预测正例 预测负例 真实正例 TP FN 真实负例 FP TN 将表 2 中的 TP、FP、TN、FN 按照模型的评价 需求进行组合就构成了常用的评价标准。本文使 用的评价标准包括查准率、召回率、G-mean、F 值 以及 AUC。 查准率 (Precision) 为 Precision = TP/(FP+TP) 该指标表示正确分类的多数类样本与分为多 数类的所有样本比值。 召回率 (Recall) 表示被正确分类的少数类样 本与实际少数类样本的比值,其计算公式为 Recall = TP/(TP+FN) G-mean 为查准率和召回率乘积的平方根,它 反映出分类器对于多数类和少数类分类的整体能 力。因此,采用 G-mean 准则来评价不均衡数据 集总体分类性能十分合理。 总体性能指标 G-mean 的计算公式为 G-mean = √ TP·TN (TP+FN)·(TN+FP) 通过 G-mean 的数值来判断分类器的效果, G-mean 数值越大说明召回率和查准率越高,效果 越好。 F 值计算公式为 F-measure = Precision×Recall× ( 1+β 2 ) Precision+β 2 ×Recall β = 1 F-measure 计算公式中包含了查准率和召回 率,在实验室中多取 。当查准率和召回率同 时上升时,F-measure 才会提升。因此,本文用 F￾measure 衡量对于不均衡数据的分类性能。 因为能独立于数据集的类分布,ROC 曲线对 数据集的不均衡性有很好的鲁棒性,本文使用曲 线下面积 AUC 来代替 ROC 曲线作为不均衡数据 评价方法,值越大代表分类器的性能表现越优秀。 3.3 实验结果及分析 1) 验证性实验 本文验证性实验选用 Pima 数据集进行实 验。Pima 数据集为印第安人糖尿病数据集,其中 少数类样本 268 例,多数类样本 500 例。比较未 进行均衡化处理、采用 ADASYN 处理、SMOTE 处理以及 SCF-ADASYN 算法处理后的 Pima 数据 集,在多个分类器下的分类表现。 由表 3 实验结果可知,经 SCF-ADASYN 算法 处理后,F-measure,G-mean 以及 AUC 相较于未经 采样处理显著提高,说明经本文算法处理后分类 器整体的分类性能以及对少数类样本的分类精度 都显著提高。也就是说,本文提出的 SCF-ADA￾SYN 算法能有效地处理数据类不均衡的问题,从 而提高分类器的性能。 表 3 验证性实验结果 Table 3 Experimental results of validation experiments 分类器 数据层方法 AUC F值 G-mean RF SCF-ADASYN 0.800 5 0.782 1 0.800 4 ADASYN 0.781 7 0.761 3 0.780 8 SMOTE 0.788 1 0.741 2 0.774 3 未处理 0.706 0 0.725 4 0.726 5 KNN SCF-ADASYN 0.744 6 0.776 2 0.739 3 ADASYN 0.748 1 0.760 9 0.747 0 SMOTE 0.723 1 0.712 3 0.776 3 未处理 0.705 4 0.695 1 0.715 5 SVM SCF-ADASYN 0.918 1 0.828 3 0.825 2 ADASYN 0.779 3 0.786 0 0.778 8 SMOTE 0.795 6 0.775 3 0.741 4 未处理 0.705 2 0.668 6 0.656 5 ·736· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有