© 1994-2009 China Academic Journ_中国高校课件下载中心

正在加载图片...

第2期叶志飞等：不平衡分类问题研究综述 ·153· 标，如表2所示本.采用一对其他分解策略把其中第11类的487个表2常用评价指标样本作为正例，其余作为负例，构成一个不平衡的两 Table 2 Common evaluation metrics 类问题」名称计算方法 Pak蛋白质亚细胞定位数据，是一个典型的平衡准确率BA (TP/(TP+FN)+IN/(IN +FP))/2 生物信息学模式分类问题.它总共有7579条蛋白查全率TPR TP/(TP+FN) 质序列，分布在12个不同的亚细胞位置上，有些位查准率 TP/(TP+FP) 置上的蛋白质数量很不平衡.最多的位置上有1932 误警率FPR FP/(FP+IN) 条序列，而最少的位置只有40条.同样采用一对其 2 XR XP/(R +P) 他分解策略，把其中细胞外的861条作为正例，其余 F1测度的作为负例，构成一个不平衡的两类分类问题几何平均 R XP Roofiop!6数据是一个不平衡的场景识别问题 ROC曲线的X轴表示FPR,轴表示TPR.ROC 它总共包括1782张图片，其中只有781张图片被曲线上的一组点是通过调整分类器决策阈值得到标注成正例（屋顶照片），其余的17048张图片都是的，OC曲线越凸越靠近左上方，表示对应的分类负例器一般化能力越强.AUC(area under curve)是指上述3个数据集的概况如表3所示，其中训练 ROC曲线下面包括的面积，即ROC曲线的积分，集和测试集是按照6：4的比例随机划分得到的 AUC能以定量的方式表示该ROC曲线对应的分类分类器性能的评价指标采用ROC曲线、AUC 器的一般化能力.然而需要指出的是，ROC和AUC 以及ROC曲线与对角线交点处的TPR、NR(即1- 仅适合于两类问题，对多类问题，无法直接应用 FPR)和平衡准确率BA 查准率(Precision)和查全率(Recall)是信息检图I给出了Pak数据上几种方法的ROC曲索与数据挖掘中常用的评价指标.许多系统将两者线.从图中可以看出，M3-SM具有最好的分类性同时考虑，如Fl测度和几何平均(Gmeans),它们能，CM的方法仅次于M3-SM,而C5.0方法效都同等看待Precision和Recall对分类器评测的贡果最差.使用9MOTE采样方法前后，CSM和C5.0 献.Josh比较系统地研究了包括F1和Gmeans 对应的ROC曲线非常接近，说明9MOTE采样在在内的多种标准，通过分析Precision,.Recall和训练 Park数据上没有明显的效果样本不平衡度的关系得出结论，在不平衡度不是很 1.0 大的情况下，F1和Gmeanst可以作为较好的评测指标.但当训练样本很不平衡时，F1比Gmean要好. 0.8 J0sh指出，当测试集和训练集不是同分布或不同类年0.6 的错分代价不同时，使用ROC曲线比较不同分类器 0.4 的性能更合适 C5.0 -C5.0+SMOTE 0.2 CSVM 4几种主要学习方法的性能比较 CSVM+SMOTE M3-SVM 0 在实验中，选取了4种比较具有代表性的学习 0.2 0.40.6 0.81.0 报警率方法，它们分别是，代价敏感学习的决策树算法 (C50)、代价敏感的支持向量机(CSM)、图1Park数据的ROC曲线 Fig 1 ROC curves for Park data 9MOTE采样法、以及结合训练集划分与分类器集表33种数据集的概况成的最小最大模块化支持向量机M3-SM)2] Table 3 Three i balnced da ta sets 实验使用了来自3个不同领域的不平衡数据集.Abalone是UCI标准数据集中比较难分的一个名称正类样本数负类样本数正负样本数比 Roofop 781 17048 1:218 数据集，类间重叠程度较大，各种分类器在它上面的 Park 861 6718 1:78 效果都不是很理想.它总共有29个类，4177个样 Ababne 487 3690 1:76 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. htip://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 标 ,如表 2所示. 表 2 常用评价指标 Table 2 Comm on eva lua tion m etr ics 名称计算方法平衡准确率 BA ( TP / ( TP + FN) + TN / ( TN + FP) ) /2 查全率 TPR TP / (TP + FN) 查准率 TP / (TP + FP) 误警率 FPR FP / ( FP + TN) F1测度 2 ×R ×P / (R + P) 几何平均 R ×P ROC曲线的 X轴表示 FPR, Y轴表示 TPR. ROC 曲线上的一组点是通过调整分类器决策阈值得到的 , ROC曲线越凸越靠近左上方 ,表示对应的分类器一般化能力越强. AUC ( area under curve )是指 ROC曲线下面包括的面积 ,即 ROC曲线的积分 , AUC能以定量的方式表示该 ROC曲线对应的分类器的一般化能力. 然而需要指出的是 , ROC和 AUC 仅适合于两类问题 ,对多类问题 ,无法直接应用. 查准率 (Precision)和查全率 (Recall)是信息检索与数据挖掘中常用的评价指标. 许多系统将两者同时考虑 ,如 F1测度和几何平均 ( G2means) ,它们都同等看待 Precision和 Recall对分类器评测的贡献. Joshi [ 44 ]比较系统地研究了包括 F1和 G2means 在内的多种标准 ,通过分析 Precision, Recall和训练样本不平衡度的关系得出结论 ,在不平衡度不是很大的情况下 , F1和 G2means可以作为较好的评测指标. 但当训练样本很不平衡时 , F1比 G2mean要好. Joshi指出 ,当测试集和训练集不是同分布或不同类的错分代价不同时 ,使用 ROC曲线比较不同分类器的性能更合适. 4 几种主要学习方法的性能比较在实验中 ,选取了 4种比较具有代表性的学习方法 ,它们分别是 ,代价敏感学习的决策树算法 (C5. 0 )、代价敏感的支持向量机 ( CSVM )、 SMOTE [ 14 ]采样法、以及结合训练集划分与分类器集成的最小最大模块化支持向量机 (M32SVM) [ 23 ] . 实验使用了来自 3个不同领域的不平衡数据集. Abalone是 UCI标准数据集中比较难分的一个数据集 ,类间重叠程度较大 ,各种分类器在它上面的效果都不是很理想. 它总共有 29个类 , 4 177个样本. 采用一对其他分解策略把其中第 11类的 487个样本作为正例 ,其余作为负例 ,构成一个不平衡的两类问题. Park [ 45 ]蛋白质亚细胞定位数据 ,是一个典型的生物信息学模式分类问题. 它总共有 7 579条蛋白质序列 ,分布在 12个不同的亚细胞位置上 ,有些位置上的蛋白质数量很不平衡. 最多的位置上有 1 932 条序列 ,而最少的位置只有 40条. 同样采用一对其他分解策略 ,把其中细胞外的 861条作为正例 ,其余的作为负例 ,构成一个不平衡的两类分类问题. Rooftop [ 46 ]数据是一个不平衡的场景识别问题 , 它总共包括 17 829张图片 ,其中只有 781张图片被标注成正例 (屋顶照片 ) ,其余的 17 048张图片都是负例. 上述 3个数据集的概况如表 3所示 ,其中训练集和测试集是按照 6: 4的比例随机划分得到的. 分类器性能的评价指标采用 ROC曲线、AUC 以及 ROC曲线与对角线交点处的 TPR、TNR (即 12 FPR)和平衡准确率 BA. 图 1给出了 Park数据上几种方法的 ROC曲线. 从图中可以看出 , M32SVM 具有最好的分类性能 , CSVM的方法仅次于 M32SVM,而 C5. 0方法效果最差. 使用 SMOTE采样方法前后 , CSVM和 C5. 0 对应的 ROC 曲线非常接近 ,说明 SMOTE 采样在 Park数据上没有明显的效果. 图 1 Park数据的 ROC曲线 Fig. 1 ROC curves for Park data 表 3 3种数据集的概况 Table 3 Three im ba lanced da ta sets 名称正类样本数负类样本数正负样本数比 Rooftop 781 17 048 1∶21. 8 Park 861 6 718 1∶7. 8 Abalone 487 3 690 1∶7. 6 第 2期叶志飞 ,等 :不平衡分类问题研究综述 ·153·

<<向上翻页向下翻页>>

点击下载：【学术论文】不平衡分类问题研究综述