·154· 智能系统学报 第4卷 表4各种方法的性能比较 Table 4 Performance com parison of different methods % 数据集 方法 TPR INR BA AUC C5.0 785 802 799 8743 CSVM 80.3 818 81.1 87.98 Rooftop C5 0+MMOTE 79.9 801 800 8822 CSVM SMOTE 81.3 804 809 8787 M3-SVM 816 81.4 815 8928 C5.0 826 858 842 9039 CSVM 849 85.5 85.2 9393 Park C5 0 SMOTE 843 83.8 842 9096 CSVM SMOTE 85.4 85.1 853 9410 M3-SVM 87.2 87.7 87.5 9454 C50 615 59.6 606 6684 CSVM 59.0 588 589 6425 Ababne C5 0 SMOTE 645 624 635 6953 CSVM SMOTE 627 63.3 630 6800 M3 SVM 675 664 6707267 表4给出了在3个数据集上其他的分类器性能 2类问题的方法解决.另外目前没有针对多类不平 指标.从该表可以得到下面一些观察结果 衡分类问题的公认评价指标,ROC和AUC不能直 1)仅用代价敏感的SVM和决策树算法在解决 接运用于多类问题,因此迫切需要提出针对多类不 不平衡问题时效果较差,两者的性能差异不大,因数 平衡分类问题的评价指标和相应的学习算法.迄今 据集的不同而变化.在Roofop数据上两者性能相 为止,不平衡模式分类问题的理论研究成果很少,以 近,在Pak数据上CSM略好于决策树C5.0,而在 上的研究多是依据实验的方法,所得到的结果也多 Abalone数据上.C5.0优于CSM 是经验性的.因此进一步的理论分析非常重要。 2)在多数情况下SMOTE采样的方法对分类精 参考文献: 度有所提高.但有时却没有什么效果甚至导致性能 下降,如在Roofiop数据上,MOTE采样后的数据经 [1]KUBATM,HOLTE B C,MATW N S Machine leaming for CSM分类比采样前分类效果反而下降 the detection ofoil spills in satellite radar mages[J].Ma- chine Leaming,1998,30(2):195-215 3)结合数据集划分和分类器集成思想的M3- [2 CHAN P K,STOLFO S J.Toward scalable leaming with SM表现出了最好最稳定的分类性能, non-unifom class and cost distributions a case study in 5结束语 credit card fraud detection[C]//Proceedings of the 4th In- temational Conference on Knowledge Discovery and Data 本文综述了不平衡分类问题的特征、问题点以 Mining New York:AAA I Press,1998:164-168 [3 ]CHOE W,ERSOYO K,B NA M.Neural netork schemes 及已有的几种主要解决方案和新的分类器评测指 for detecting rare events in human genom ic DNA [J]Bioin- 标.通过在3个不同领域的不平衡数据集上的实验, 6 matics,.2000,16(12):1062-1072 比较了决策树、支持向量机、代价敏感学习、采样方 [4]PLANT C,BOHM C,BERNHARD T,et al Enhancing in- 法以及训练集划分结合分类器集成等方法的性能, stance-based classification with local density:a new algo- 实验结果表明,训练集划分结合分类器集成的方法 rithm or classifying unbalanced biomedical data[J]Biin- 6 matics,2006,22(8):981-988 在处理不平衡问题时具有最好的效果.目前研究不 [5]WEISS G M.Leaming with rare cases and sall disjuncts 平衡模式分类问题都是基于不平衡的两类问题,即 [C]//Proceedings of the 12th Intemational Conference on 使是不平衡的多类问题,也是通过将原问题分解成 Machine Leaming San Francisco:Morgan Kaufnann, 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 表 4 各种方法的性能比较 Table 4 Performance com par ison of d ifferen t m ethods % 数据集 方法 TPR TNR BA AUC Rooftop C5. 0 CSVM C5. 0 + SMOTE CSVM + SMOTE M3 2 SVM 78. 5 80. 3 79. 9 81. 3 81. 6 80. 2 81. 8 80. 1 80. 4 81. 4 79. 9 81. 1 80. 0 80. 9 81. 5 87. 43 87. 98 88. 22 87. 87 89. 28 Park C5. 0 CSVM C5. 0 + SMOTE CSVM + SMOTE M3 2 SVM 82. 6 84. 9 84. 3 85. 4 87. 2 85. 8 85. 5 83. 8 85. 1 87. 7 84. 2 85. 2 84. 2 85. 3 87. 5 90. 39 93. 93 90. 96 94. 10 94. 54 Abalone C5. 0 CSVM C5. 0 + SMOTE CSVM + SMOTE M3 2 SVM 61. 5 59. 0 64. 5 62. 7 67. 5 59. 6 58. 8 62. 4 63. 3 66. 4 60. 6 58. 9 63. 5 63. 0 67. 0 66. 84 64. 25 69. 53 68. 00 72. 67 表 4给出了在 3个数据集上其他的分类器性能 指标. 从该表可以得到下面一些观察结果 : 1)仅用代价敏感的 SVM和决策树算法在解决 不平衡问题时效果较差 ,两者的性能差异不大 ,因数 据集的不同而变化. 在 Rooftop 数据上两者性能相 近 ,在 Park数据上 CSVM略好于决策树 C5. 0,而在 Abalone数据上 C5. 0优于 CSVM. 2)在多数情况下 SMOTE采样的方法对分类精 度有所提高. 但有时却没有什么效果甚至导致性能 下降 ,如在 Rooftop数据上 , SMOTE采样后的数据经 CSVM分类比采样前分类效果反而下降. 3)结合数据集划分和分类器集成思想的 M32 SVM表现出了最好最稳定的分类性能. 5 结束语 本文综述了不平衡分类问题的特征、问题点以 及已有的几种主要解决方案和新的分类器评测指 标. 通过在 3个不同领域的不平衡数据集上的实验 , 比较了决策树、支持向量机、代价敏感学习、采样方 法以及训练集划分结合分类器集成等方法的性能. 实验结果表明 ,训练集划分结合分类器集成的方法 在处理不平衡问题时具有最好的效果. 目前研究不 平衡模式分类问题都是基于不平衡的两类问题 ,即 使是不平衡的多类问题 ,也是通过将原问题分解成 2类问题的方法解决. 另外目前没有针对多类不平 衡分类问题的公认评价指标 , ROC和 AUC不能直 接运用于多类问题 ,因此迫切需要提出针对多类不 平衡分类问题的评价指标和相应的学习算法. 迄今 为止 ,不平衡模式分类问题的理论研究成果很少 ,以 上的研究多是依据实验的方法 ,所得到的结果也多 是经验性的. 因此进一步的理论分析非常重要. 参考文献 : [ 1 ] KUBATM, HOLTE B C,MATW IN S. Machine learning for the detection of oil sp ills in satellite radar images[J ]. Ma2 chine Learning, 1998, 30 (2) : 1952215. [ 2 ] CHAN P K, STOLFO S J. Toward scalable learning with non2uniform class and cost distributions: a case study in credit card fraud detection[ C ] / /Proceedings of the 4 th In2 ternational Conference on Knowledge D iscovery and Data M ining. New York: AAA I Press, 1998: 1642168. [ 3 ]CHOE W , ERSOY O K,B INA M. Neural network schemes for detecting rare events in human genomic DNA [J ]. Bioin2 formatics, 2000, 16 (12) : 106221072. [ 4 ] PLANT C, BO¨HM C, BERNHARD T, et al. Enhancing in2 stance2based classification with local density: a new algo2 rithm for classifying unbalanced biomedical data[J ]. Bioin2 formatics, 2006, 22 (8) : 9812988. [ 5 ]W EISS G M. Learning with rare cases and small disjuncts [C ] / / Proceedings of the 12 th International Conference on Machine Learning. San Francisco: Morgan Kaufmann, ·154· 智 能 系 统 学 报 第 4卷