正在加载图片...
第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent Systems Apr 2009 不平衡分类问题研究综述 叶志飞,文益民2,吕宝粮 (1上海交通大学计算机科学与工程系,上海200240,2湖南工业职业技术学院信息工程系,湖南长沙410208: 3上海交通大学智能计算与智能系统教育部微软重点实验室,上海200240) 摘要:实际的分类问题往往都是不平衡分类问题,采用传统的分类方法,难以得到满意的分类效果.为此,十多年 来,人们相继提出了各种解决方案.对国内外不平衡分类问题的研究做了比较详细地综述,讨论了数据不平衡性引 发的问题,介绍了目前几种主要的解决方案.通过仿真实验,比较了具有代表性的重采样法、代价敏感学习、训练集 划分以及分类器集成在3个实际的不平衡数据集上的分类性能,发现训练集划分和分类器集成方法能较好地处理 不平衡数据集,给出了针对不平衡分类问题的分类器评测指标和将来的工作】 关键词:机器学习;不平衡模式分类;重采样;代价敏感学习;训练集划分,分类器集成;分类器性能评测 中图分类号:TP181文献标识码:A文章编号:16734785(2009)02014809 A survey of i ba lanced pa ttern classifica tion problem s YE Zhi-fei,WEN Yim in2,LU Bao-liang 3 (1.Deparment of Computer Science and Engineering,Shanghai Jiao Tong University,Shanghai 200240,China 2 Deparment of In- omation Engineering.Hunan Industry Polytechnic,Changsha 410208,China;3 MOEMicrosoft Key Lab or Intelligent Computing and Intelligent Systems,Shanghai Jiao Tong University,Shanghai 200240,China) Abstract:mbalanced data sets have akays been regarded as presenting significant difficulties when app lying ma- chine leaming methods to real-world pattem classification problems A lthough various approaches have been pro- posed during the past decade,lim itations are mposed by many realworld ibalanced data sets,and as a result,a bot of further research is currently being done In this paper,we provide an up-to-date survey of research on mbal- anced pattem classification problems We first took a deep look into the problems that mbalanced data sets bring, and then we introduced different kinds of solutons in detail,with their representative approaches Finally,using three real ibalanced data sets,we compared the perfomance of some typ icalmethods including re-sampling,cost sensitive leaming,training set partitions,and the perfommance of classifier ensembles In addition,top ics such as evaluation indexes and future areas of research were also discussed Keywords:machine leaming mbalanced pattem classificaton;re-sampling cost sensitive leaming task decom- position;classifier ensemble;evaluation matrices 所谓不平衡分类问题,是指训练样本数量在类 稀有的类,它们虽然很重要,但是用传统的分类方 间分布不平衡的模式分类问题.具体地说就是某些法,却难以被正确分类.当传统的机器学习方法用于 类的样本数量远远少于其他类.本文称具有少量样解决这些不平衡分类问题时,往往出现分类器性能 本的那些类为稀有类,而具有大量样本的那些类为的大幅度下降,得到的分类器具有很大的偏向性.最 大类.物以稀为贵,稀有的信息,往往能获得人们更 常见的表现是稀有类的识别率远远低于大类.因此, 多的关注.在许多实际的模式分类问题中,同样存在 本属于稀有类的样本往往被错分到大类 在实际应用中,不平衡问题很常见.有些问题其 收稿日期:200804-23 原始数据的分布就存在不平衡,如通过卫星雷达图 基金项目:国家自然科学基金资助项目(60375022,60473040) 通信作者:吕宝粮.Email blu(@cs sjtu edu cn 片检测海面石油油污山、监测信用卡非法交易) 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 不平衡分类问题研究综述 叶志飞 1 , 文益民 2 ,吕宝粮 1, 3 (1. 上海交通大学 计算机科学与工程系 ,上海 200240; 2. 湖南工业职业技术学院 信息工程系 ,湖南 长沙 410208; 3. 上海交通大学 智能计算与智能系统教育部微软重点实验室 ,上海 200240) 摘 要 :实际的分类问题往往都是不平衡分类问题 ,采用传统的分类方法 ,难以得到满意的分类效果. 为此 ,十多年 来 ,人们相继提出了各种解决方案. 对国内外不平衡分类问题的研究做了比较详细地综述 ,讨论了数据不平衡性引 发的问题 ,介绍了目前几种主要的解决方案. 通过仿真实验 ,比较了具有代表性的重采样法、代价敏感学习、训练集 划分以及分类器集成在 3个实际的不平衡数据集上的分类性能 ,发现训练集划分和分类器集成方法能较好地处理 不平衡数据集 ,给出了针对不平衡分类问题的分类器评测指标和将来的工作. 关键词 :机器学习 ;不平衡模式分类 ;重采样 ;代价敏感学习 ;训练集划分 ;分类器集成 ;分类器性能评测 中图分类号 : TP181 文献标识码 : A 文章编号 : 167324785 (2009) 0220148209 A survey of imbalanced pattern classification problem s YE Zhi2fei 1 ,W EN Yi2m in 2 ,LU Bao2liang 1, 3 (1. Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China; 2. Department of In2 formation Engineering, Hunan Industry Polytechnic, Changsha 410208, China; 3. MOE2M icrosoft Key Lab. for Intelligent Computing and Intelligent Systems, Shanghai Jiao Tong University, Shanghai 200240, China) Abstract: Imbalanced data sets have always been regarded as p resenting significant difficulties when app lying ma2 chine learning methods to real2world pattern classification p roblem s. A lthough various app roaches have been p ro2 posed during the past decade, lim itations are imposed by many real2world imbalanced data sets, and as a result, a lot of further research is currently being done. In this paper, we p rovide an up2to2date survey of research on imbal2 anced pattern classification p roblem s. W e first took a deep look into the p roblem s that imbalanced data sets bring, and then we introduced different kinds of solutions in detail, with their rep resentative app roaches. Finally, using three real imbalanced data sets, we compared the performance of some typ icalmethods including re2samp ling, cost sensitive learning, training set partitions, and the performance of classifier ensembles. In addition, top ics such as evaluation indexes and future areas of research were also discussed. Keywords:machine learning; imbalanced pattern classification; re2samp ling; cost sensitive learning; task decom2 position; classifier ensemble; evaluation matrices 收稿日期 : 2008204223. 基金项目 :国家自然科学基金资助项目 (60375022, 60473040). 通信作者 :吕宝粮. E2mail: blu@cs. sjtu. edu. cn. 所谓不平衡分类问题 ,是指训练样本数量在类 间分布不平衡的模式分类问题. 具体地说就是某些 类的样本数量远远少于其他类. 本文称具有少量样 本的那些类为稀有类 ,而具有大量样本的那些类为 大类. 物以稀为贵 ,稀有的信息 ,往往能获得人们更 多的关注. 在许多实际的模式分类问题中 ,同样存在 稀有的类 ,它们虽然很重要 ,但是用传统的分类方 法 ,却难以被正确分类. 当传统的机器学习方法用于 解决这些不平衡分类问题时 ,往往出现分类器性能 的大幅度下降 ,得到的分类器具有很大的偏向性. 最 常见的表现是稀有类的识别率远远低于大类. 因此 , 本属于稀有类的样本往往被错分到大类. 在实际应用中 ,不平衡问题很常见. 有些问题其 原始数据的分布就存在不平衡 ,如通过卫星雷达图 片检测海面石油油污 [ 1 ]、监测信用卡非法交易 [ 2 ]
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有