Abalone 要更加不均衡，选用不同不均衡度的数据集，能直观比较不同不

正在加载图片...

·736· 智能系统学报第15卷 Abalone要更加不均衡，选用不同不均衡度的数据通过G-mean的数值来判断分类器的效果，集，能直观比较不同不均衡情况下本文方法效果。 G-mean数值越大说明召回率和查准率越高，效果本实验将在这5个数据集上对SMOTE算越好。法、ADASYN算法以及本文的SCF-ADASYN算 F值计算公式为法进行测试。将3种方法处理过的数据集通过支 Precision x Recallx(1+B2) F-measure 持向量机(support vector machine,SVM)2、随机森 Precision+82 x Recall 林(random forest,.RF)2、K最近邻算法(k-nearest F-measure计算公式中包含了查准率和召回 neighbor,KNN)2等分类器进行分类，按4：1的比率，在实验室中多取B=1。当查准率和召回率同率将数据集随机分为训练集和测试集，并运行时上升时，F-measure才会提升。因此，本文用F- 5次取平均值作为结果，比较分析本文方法的优劣。 measure衡量对于不均衡数据的分类性能。本文的实验环境为因为能独立于数据集的类分布，ROC曲线对 1)处理器型号：Inter(R)I5-8300HCPU@ 数据集的不均衡性有很好的鲁棒性，本文使用曲 2.30GHz: 线下面积AUC来代替ROC曲线作为不均衡数据 2)运行内存：8GB: 评价方法，值越大代表分类器的性能表现越优秀。 3)实现语言：Python3.7; 3.3实验结果及分析 4)操作系统：Linux(Ubuntu1:8.04)。 1)验证性实验 3.2评价指标本文验证性实验选用Pima数据集进行实对于少数类数据的分类评价在不均衡数据分验。Pima数据集为印第安人糖尿病数据集，其中类评价中十分重要261。本文用F-measure、G- 少数类样本268例，多数类样本500例。比较未 mean以及AUC2m来衡量分类结果。进行均衡化处理、采用ADASYN处理、SMOTE 分类结束后，结果分为4种情况：预测正例、处理以及SCF-ADASYN算法处理后的Pima数据预测负例以及真实正例、真实负例，如表2所示。集，在多个分类器下的分类表现。表2混淆矩阵由表3实验结果可知，经SCF-ADASYN算法 Table 2 Confusion matrix 处理后，F-measure,G-mean以及AUC相较于未经总样本数采样处理显著提高，说明经本文算法处理后分类预测正例预测负例器整体的分类性能以及对少数类样本的分类精度真实正例 TP FN 都显著提高。也就是说，本文提出的SCF-ADA- 真实负例 FP TN SYN算法能有效地处理数据类不均衡的问题，从将表2中的TP、FP、TN、FN按照模型的评价而提高分类器的性能。需求进行组合就构成了常用的评价标准。本文使表3验证性实验结果用的评价标准包括查准率、召回率、G-mean、F值 Table 3 Experimental results of validation experiments 以及AUC。分类器数据层方法 AUC F值 G-mean 查准率(Precision)为 SCF-ADASYN 0.8005 0.7821 0.8004 Precision TP/(FP+TP) ADASYN 0.7817 0.7613 0.7808 该指标表示正确分类的多数类样本与分为多 RF SMOTE 0.7881 0.7412 0.7743 数类的所有样本比值。召回率(Recall)表示被正确分类的少数类样未处理 0.70600.7254 0.7265 本与实际少数类样本的比值，其计算公式为 SCF-ADASYN 0.7446 0.7762 0.7393 Recall TP/(TP+FN) ADASYN 0.7481 0.7609 0.7470 G-mean为查准率和召回率乘积的平方根，它 KNN SMOTE 0.7231 0.7123 0.7763 反映出分类器对于多数类和少数类分类的整体能未处理 0.70540.69510.7155 力。因此，采用G-mean准则来评价不均衡数据 SCF-ADASYN 0.9181 0.82830.8252 集总体分类性能十分合理。总体性能指标G-mean的计算公式为 ADASYN 0.7793 0.7860 0.7788 SVM SMOTE 0.79560.77530.7414 TP.TN G-mean (TP+FN)·(TN+FP) 未处理 0.70520.6686 0.6565Abalone 要更加不均衡，选用不同不均衡度的数据集，能直观比较不同不均衡情况下本文方法效果。本实验将在这 5 个数据集上对 SMOTE 算法、ADASYN 算法以及本文的 SCF-ADASYN 算法进行测试。将 3 种方法处理过的数据集通过支持向量机 (support vector machine, SVM)[23] 、随机森林 (random forest, RF)[24] 、K 最近邻算法 (k-nearest neighbor, KNN)[25] 等分类器进行分类，按 4∶1 的比率将数据集随机分为训练集和测试集，并运行 5 次取平均值作为结果，比较分析本文方法的优劣。本文的实验环境为 1) 处理器型号： Inter(R)I5-8300H CPU@ 2.30 GHz; 2) 运行内存：8 GB; 3) 实现语言：Python 3.7; 4) 操作系统：Linux(Ubuntu18.04)。 3.2 评价指标对于少数类数据的分类评价在不均衡数据分类评价中十分重要[ 2 6 ]。本文用 F-measure、Gmean 以及 AUC[27] 来衡量分类结果。分类结束后，结果分为 4 种情况：预测正例、预测负例以及真实正例、真实负例，如表 2 所示。表 2 混淆矩阵 Table 2 Confusion matrix 总样本数预测正例预测负例真实正例 TP FN 真实负例 FP TN 将表 2 中的 TP、FP、TN、FN 按照模型的评价需求进行组合就构成了常用的评价标准。本文使用的评价标准包括查准率、召回率、G-mean、F 值以及 AUC。查准率 (Precision) 为 Precision = TP/(FP+TP) 该指标表示正确分类的多数类样本与分为多数类的所有样本比值。召回率 (Recall) 表示被正确分类的少数类样本与实际少数类样本的比值，其计算公式为 Recall = TP/(TP+FN) G-mean 为查准率和召回率乘积的平方根，它反映出分类器对于多数类和少数类分类的整体能力。因此，采用 G-mean 准则来评价不均衡数据集总体分类性能十分合理。总体性能指标 G-mean 的计算公式为 G-mean = √ TP·TN (TP+FN)·(TN+FP) 通过 G-mean 的数值来判断分类器的效果， G-mean 数值越大说明召回率和查准率越高，效果越好。 F 值计算公式为 F-measure = Precision×Recall× ( 1+β 2 ) Precision+β 2 ×Recall β = 1 F-measure 计算公式中包含了查准率和召回率，在实验室中多取。当查准率和召回率同时上升时，F-measure 才会提升。因此，本文用 Fmeasure 衡量对于不均衡数据的分类性能。因为能独立于数据集的类分布，ROC 曲线对数据集的不均衡性有很好的鲁棒性，本文使用曲线下面积 AUC 来代替 ROC 曲线作为不均衡数据评价方法,值越大代表分类器的性能表现越优秀。 3.3 实验结果及分析 1) 验证性实验本文验证性实验选用 Pima 数据集进行实验。Pima 数据集为印第安人糖尿病数据集，其中少数类样本 268 例，多数类样本 500 例。比较未进行均衡化处理、采用 ADASYN 处理、SMOTE 处理以及 SCF-ADASYN 算法处理后的 Pima 数据集，在多个分类器下的分类表现。由表 3 实验结果可知，经 SCF-ADASYN 算法处理后，F-measure，G-mean 以及 AUC 相较于未经采样处理显著提高，说明经本文算法处理后分类器整体的分类性能以及对少数类样本的分类精度都显著提高。也就是说，本文提出的 SCF-ADASYN 算法能有效地处理数据类不均衡的问题，从而提高分类器的性能。表 3 验证性实验结果 Table 3 Experimental results of validation experiments 分类器数据层方法 AUC F值 G-mean RF SCF-ADASYN 0.800 5 0.782 1 0.800 4 ADASYN 0.781 7 0.761 3 0.780 8 SMOTE 0.788 1 0.741 2 0.774 3 未处理 0.706 0 0.725 4 0.726 5 KNN SCF-ADASYN 0.744 6 0.776 2 0.739 3 ADASYN 0.748 1 0.760 9 0.747 0 SMOTE 0.723 1 0.712 3 0.776 3 未处理 0.705 4 0.695 1 0.715 5 SVM SCF-ADASYN 0.918 1 0.828 3 0.825 2 ADASYN 0.779 3 0.786 0 0.778 8 SMOTE 0.795 6 0.775 3 0.741 4 未处理 0.705 2 0.668 6 0.656 5 ·736· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】面向不均衡数据的融合谱聚类的自适应过采样法