第2期 叶志飞等:不平衡分类问题研究综述 ·153· 标,如表2所示 本.采用一对其他分解策略把其中第11类的487个 表2常用评价指标 样本作为正例,其余作为负例,构成一个不平衡的两 Table 2 Common evaluation metrics 类问题」 名称 计算方法 Pak蛋白质亚细胞定位数据,是一个典型的 平衡准确率BA (TP/(TP+FN)+IN/(IN +FP))/2 生物信息学模式分类问题.它总共有7579条蛋白 查全率TPR TP/(TP+FN) 质序列,分布在12个不同的亚细胞位置上,有些位 查准率 TP/(TP+FP) 置上的蛋白质数量很不平衡.最多的位置上有1932 误警率FPR FP/(FP+IN) 条序列,而最少的位置只有40条.同样采用一对其 2 XR XP/(R +P) 他分解策略,把其中细胞外的861条作为正例,其余 F1测度 的作为负例,构成一个不平衡的两类分类问题 几何平均 R XP Roofiop!6数据是一个不平衡的场景识别问题 ROC曲线的X轴表示FPR,轴表示TPR.ROC 它总共包括1782张图片,其中只有781张图片被 曲线上的一组点是通过调整分类器决策阈值得到 标注成正例(屋顶照片),其余的17048张图片都是 的,OC曲线越凸越靠近左上方,表示对应的分类 负例 器一般化能力越强.AUC(area under curve)是指 上述3个数据集的概况如表3所示,其中训练 ROC曲线下面包括的面积,即ROC曲线的积分, 集和测试集是按照6:4的比例随机划分得到的 AUC能以定量的方式表示该ROC曲线对应的分类 分类器性能的评价指标采用ROC曲线、AUC 器的一般化能力.然而需要指出的是,ROC和AUC 以及ROC曲线与对角线交点处的TPR、NR(即1- 仅适合于两类问题,对多类问题,无法直接应用 FPR)和平衡准确率BA 查准率(Precision)和查全率(Recall)是信息检 图I给出了Pak数据上几种方法的ROC曲 索与数据挖掘中常用的评价指标.许多系统将两者 线.从图中可以看出,M3-SM具有最好的分类性 同时考虑,如Fl测度和几何平均(Gmeans),它们 能,CM的方法仅次于M3-SM,而C5.0方法效 都同等看待Precision和Recall对分类器评测的贡 果最差.使用9MOTE采样方法前后,CSM和C5.0 献.Josh比较系统地研究了包括F1和Gmeans 对应的ROC曲线非常接近,说明9MOTE采样在 在内的多种标准,通过分析Precision,.Recall和训练 Park数据上没有明显的效果 样本不平衡度的关系得出结论,在不平衡度不是很 1.0 大的情况下,F1和Gmeanst可以作为较好的评测指 标.但当训练样本很不平衡时,F1比Gmean要好. 0.8 J0sh指出,当测试集和训练集不是同分布或不同类 年0.6 的错分代价不同时,使用ROC曲线比较不同分类器 0.4 的性能更合适 C5.0 -C5.0+SMOTE 0.2 CSVM 4几种主要学习方法的性能比较 CSVM+SMOTE M3-SVM 0 在实验中,选取了4种比较具有代表性的学习 0.2 0.40.6 0.81.0 报警率 方法,它们分别是,代价敏感学习的决策树算法 (C50)、代价敏感的支持向量机(CSM)、 图1Park数据的ROC曲线 Fig 1 ROC curves for Park data 9MOTE采样法、以及结合训练集划分与分类器集 表33种数据集的概况 成的最小最大模块化支持向量机M3-SM)2] Table 3 Three i balnced da ta sets 实验使用了来自3个不同领域的不平衡数据 集.Abalone是UCI标准数据集中比较难分的一个 名称正类样本数负类样本数正负样本数比 Roofop 781 17048 1:218 数据集,类间重叠程度较大,各种分类器在它上面的 Park 861 6718 1:78 效果都不是很理想.它总共有29个类,4177个样 Ababne 487 3690 1:76 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. htip://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 标 ,如表 2所示. 表 2 常用评价指标 Table 2 Comm on eva lua tion m etr ics 名 称 计算方法 平衡准确率 BA ( TP / ( TP + FN) + TN / ( TN + FP) ) /2 查全率 TPR TP / (TP + FN) 查准率 TP / (TP + FP) 误警率 FPR FP / ( FP + TN) F1测度 2 ×R ×P / (R + P) 几何平均 R ×P ROC曲线的 X轴表示 FPR, Y轴表示 TPR. ROC 曲线上的一组点是通过调整分类器决策阈值得到 的 , ROC曲线越凸越靠近左上方 ,表示对应的分类 器一般化能力越强. AUC ( area under curve )是指 ROC曲线下面包括的面积 ,即 ROC曲线的积分 , AUC能以定量的方式表示该 ROC曲线对应的分类 器的一般化能力. 然而需要指出的是 , ROC和 AUC 仅适合于两类问题 ,对多类问题 ,无法直接应用. 查准率 (Precision)和查全率 (Recall)是信息检 索与数据挖掘中常用的评价指标. 许多系统将两者 同时考虑 ,如 F1测度和几何平均 ( G2means) ,它们 都同等看待 Precision和 Recall对分类器评测的贡 献. Joshi [ 44 ]比较系统地研究了包括 F1和 G2means 在内的多种标准 ,通过分析 Precision, Recall和训练 样本不平衡度的关系得出结论 ,在不平衡度不是很 大的情况下 , F1和 G2means可以作为较好的评测指 标. 但当训练样本很不平衡时 , F1比 G2mean要好. Joshi指出 ,当测试集和训练集不是同分布或不同类 的错分代价不同时 ,使用 ROC曲线比较不同分类器 的性能更合适. 4 几种主要学习方法的性能比较 在实验中 ,选取了 4种比较具有代表性的学习 方法 ,它们分别是 ,代价敏感学习的决策树算法 (C5. 0 )、代 价 敏 感 的 支 持 向 量 机 ( CSVM )、 SMOTE [ 14 ]采样法、以及结合训练集划分与分类器集 成的最小最大模块化支持向量机 (M32SVM) [ 23 ] . 实验使用了来自 3个不同领域的不平衡数据 集. Abalone是 UCI标准数据集中比较难分的一个 数据集 ,类间重叠程度较大 ,各种分类器在它上面的 效果都不是很理想. 它总共有 29个类 , 4 177个样 本. 采用一对其他分解策略把其中第 11类的 487个 样本作为正例 ,其余作为负例 ,构成一个不平衡的两 类问题. Park [ 45 ]蛋白质亚细胞定位数据 ,是一个典型的 生物信息学模式分类问题. 它总共有 7 579条蛋白 质序列 ,分布在 12个不同的亚细胞位置上 ,有些位 置上的蛋白质数量很不平衡. 最多的位置上有 1 932 条序列 ,而最少的位置只有 40条. 同样采用一对其 他分解策略 ,把其中细胞外的 861条作为正例 ,其余 的作为负例 ,构成一个不平衡的两类分类问题. Rooftop [ 46 ]数据是一个不平衡的场景识别问题 , 它总共包括 17 829张图片 ,其中只有 781张图片被 标注成正例 (屋顶照片 ) ,其余的 17 048张图片都是 负例. 上述 3个数据集的概况如表 3所示 ,其中训练 集和测试集是按照 6: 4的比例随机划分得到的. 分类器性能的评价指标采用 ROC曲线、AUC 以及 ROC曲线与对角线交点处的 TPR、TNR (即 12 FPR)和平衡准确率 BA. 图 1给出了 Park数据上几种方法的 ROC曲 线. 从图中可以看出 , M32SVM 具有最好的分类性 能 , CSVM的方法仅次于 M32SVM,而 C5. 0方法效 果最差. 使用 SMOTE采样方法前后 , CSVM和 C5. 0 对应的 ROC 曲线非常接近 ,说明 SMOTE 采样在 Park数据上没有明显的效果. 图 1 Park数据的 ROC曲线 Fig. 1 ROC curves for Park data 表 3 3种数据集的概况 Table 3 Three im ba lanced da ta sets 名 称 正类样本数 负类样本数 正负样本数比 Rooftop 781 17 048 1∶21. 8 Park 861 6 718 1∶7. 8 Abalone 487 3 690 1∶7. 6 第 2期 叶志飞 ,等 :不平衡分类问题研究综述 ·153·