© 1994-2009 China Academic Journ_中国高校课件下载中心

正在加载图片...

·150· 智能系统学报第4卷过少时，概率估计的准确率将远小于大类，稀有类的的样本重新标定成稀有类样本，以降低不平衡度识别率也因此下降.基于规则的分类器，如决策树和另一方面，下采样通过舍弃部分大类样本的方关联规则分类器，需要对规则进行筛选.其中，支持法，降低不平衡程度.Kubat和Mawin采用单边度(support))和可信度(confidence)是规则筛选的重采样方式，去除大类中的噪音样本边界样本和冗余要指标.但是，当训练集不平衡时，基于上述指标的样本.Chen等人u则通过修剪大类的支持向量，达筛选变得困难且不合理) 到平衡支持向量个数的目的，从而提高稀有类的识 1.4评测指标问题别率.Raskutti和Kowalczyk同时考虑上采样和下分类器评测指标的科学性直接影响着分类器的采样，并且扩展到一类学习，即只采用一类的样本作性能，因为分类器训练的目标是实现最高的评测指为训练集，因此不存在不平衡分类问题.Estabrooks 标.传统的模式分类方法一般以准确率作为分类器和J即kowic2同时采用上采样和下采样以及不同评测指标.但是以准确率为评测指标的分类器倾向的采样率，获得大量的子分类器，并使用混合专家于降低稀有类的分类效果0).而且准确率不重视 (m ixtureof-experts)学习框架将这些子分类器集成. 稀有类对分类性能评测的影响.例如，假设有一个训他们的结果显示，这种方法比普通的AdaBoost有更练样本数量为1：99的两类问题，即使分类器将所好的分类效果，但并不清楚到底是上采样还是下采有样本分到大类，它仍可以得到99%的训练准确样更有效，也不清楚哪种采样率最合适率虽然重采样在一些数据集上取得了不错的效果，但是这类方法也存在一些缺陷.上采样方法并不 2不平衡分类问题的解决策略增加任何新的数据，只是重复一些样本或增加一些迄今为止，解决不平衡分类问题的策略可以分人工生成的稀有类样本，增加了训练时间.更危险的为两大类.一类是从训练集入手，通过改变训练集样是，上采样复制某些稀有类样本，或者在它周围生成本分布，降低不平衡程度.另一类是从学习算法入新的稀有类样本，使得分类器过分注重这些样本，导手，根据算法在解决不平衡问题时的缺陷，适当地修致过学习2,4).上采样不能从本质上解决稀有类样改算法使之适应不平衡分类问题.平衡训练集的方本的稀缺性和数据表示的不充分性，因此有人指出法主要有训练集重采样(re-sampling)方法和训练集它的性能不如下采样I2).但是Japkowic2对人工划分方法.学习算法层面的策略包括分类器集成、代数据的一项系统研究得到了相反的结论.下采样在价敏感学习和特征选择方法等去除大类样本的时候，容易去除重要的样本信息.虽 21重采样方法然有些启发式的下采样方法，只是去除元余样本和重采样方法是通过增加稀有类训练样本数的上噪声样本，但是多数情况下这类样本只是小部分，因采样(p~sampling)和减少大类样本数的下采样此这种方法能够调整的不平衡度相当有限 (down~mp ling)使不平衡的样本分布变得比较平22训练集划分方法衡，从而提高分类器对稀有类的识别率」对训练数据集进行划分，是另一种有效的训练最原始的上采样方法是复制稀有类的样本，但集平衡方法.Chan和Sol621首先根据代价敏感学是这样做容易导致过学习2】，并且对提高稀有类识习的需要，学习一个合理的类别样本分布比例.然后别率没有太大帮助1.较高级的上采样方法则采用将大类样本随机划分成一系列不相交子集.这些子一些启发式技巧，有选择地复制稀有类样本，或者生集的大小由稀有类样本集的数量和预先学习的样本成新的稀有类样本.Chawla等人提出的SMOTE 分布比例决定.接下来分别将这些不相交子集跟稀算法是一种简单有效的上采样方法，该方法首先为有类样本结合，组成一系列平衡的分类子问题，单独每个稀有类样本随机选出几个邻近样本，并且在该训练成子分类器.最后通过元学习(meta leaming) 样本与这些邻近的样本的连线上随机取点，生成无将这些子分类器的输出进一步学习成组合分类器」重复的新的稀有类样本.Lee1s则通过为训练集中这种方法在信用卡非法使用检测问题上大大降低了的稀有类样本加上随机噪声的方式获取新的正类样总代价.Yan等人2)采用类似的问题分解方式，并本.Kubat等人16将稀有类和大类交叉分布区域内将每个子问题用SM独立训练后采用分类器集成， 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 过少时 ,概率估计的准确率将远小于大类 ,稀有类的识别率也因此下降. 基于规则的分类器 ,如决策树和关联规则分类器 ,需要对规则进行筛选. 其中 ,支持度 ( support) 和可信度 ( confidence)是规则筛选的重要指标. 但是 ,当训练集不平衡时 ,基于上述指标的筛选变得困难且不合理 [ 9 ] . 1. 4 评测指标问题分类器评测指标的科学性直接影响着分类器的性能 ,因为分类器训练的目标是实现最高的评测指标. 传统的模式分类方法一般以准确率作为分类器评测指标. 但是以准确率为评测指标的分类器倾向于降低稀有类的分类效果 [ 10211 ] . 而且准确率不重视稀有类对分类性能评测的影响. 例如 ,假设有一个训练样本数量为 1∶99的两类问题 ,即使分类器将所有样本分到大类 ,它仍可以得到 99%的训练准确率. 2 不平衡分类问题的解决策略迄今为止 ,解决不平衡分类问题的策略可以分为两大类. 一类是从训练集入手 ,通过改变训练集样本分布 ,降低不平衡程度. 另一类是从学习算法入手 ,根据算法在解决不平衡问题时的缺陷 ,适当地修改算法使之适应不平衡分类问题. 平衡训练集的方法主要有训练集重采样 ( re2samp ling)方法和训练集划分方法. 学习算法层面的策略包括分类器集成、代价敏感学习和特征选择方法等. 2. 1 重采样方法重采样方法是通过增加稀有类训练样本数的上采样 ( up2samp ling) 和减少大类样本数的下采样 ( down2samp ling)使不平衡的样本分布变得比较平衡 ,从而提高分类器对稀有类的识别率. 最原始的上采样方法是复制稀有类的样本 ,但是这样做容易导致过学习 [ 12 ] ,并且对提高稀有类识别率没有太大帮助 [ 13 ] . 较高级的上采样方法则采用一些启发式技巧 ,有选择地复制稀有类样本 ,或者生成新的稀有类样本. Chawla等人 [ 14 ]提出的 SMOTE 算法是一种简单有效的上采样方法 ,该方法首先为每个稀有类样本随机选出几个邻近样本 ,并且在该样本与这些邻近的样本的连线上随机取点 ,生成无重复的新的稀有类样本. Lee [ 15 ]则通过为训练集中的稀有类样本加上随机噪声的方式获取新的正类样本. Kubat等人 [ 16 ]将稀有类和大类交叉分布区域内的样本重新标定成稀有类样本 ,以降低不平衡度. 另一方面 ,下采样通过舍弃部分大类样本的方法 ,降低不平衡程度. Kubat和 Matwin [ 17 ]采用单边采样方式 ,去除大类中的噪音样本、边界样本和冗余样本. Chen等人 [ 18 ]则通过修剪大类的支持向量 ,达到平衡支持向量个数的目的 ,从而提高稀有类的识别率. Raskutti和 Kowalczyk [ 19 ]同时考虑上采样和下采样 ,并且扩展到一类学习 ,即只采用一类的样本作为训练集 ,因此不存在不平衡分类问题. Estabrooks 和 Japkowic [ 20 ]同时采用上采样和下采样以及不同的采样率 ,获得大量的子分类器 ,并使用混合专家 (m ixture2of2experts)学习框架将这些子分类器集成. 他们的结果显示 ,这种方法比普通的 AdaBoost有更好的分类效果 ,但并不清楚到底是上采样还是下采样更有效 ,也不清楚哪种采样率最合适. 虽然重采样在一些数据集上取得了不错的效果 ,但是这类方法也存在一些缺陷. 上采样方法并不增加任何新的数据 ,只是重复一些样本或增加一些人工生成的稀有类样本 ,增加了训练时间. 更危险的是 ,上采样复制某些稀有类样本 ,或者在它周围生成新的稀有类样本 ,使得分类器过分注重这些样本 ,导致过学习 [ 12, 14 ] . 上采样不能从本质上解决稀有类样本的稀缺性和数据表示的不充分性 ,因此有人指出它的性能不如下采样 [ 12 ] . 但是 Japkowicz [ 8 ]对人工数据的一项系统研究得到了相反的结论. 下采样在去除大类样本的时候 ,容易去除重要的样本信息. 虽然有些启发式的下采样方法 ,只是去除冗余样本和噪声样本 ,但是多数情况下这类样本只是小部分 ,因此这种方法能够调整的不平衡度相当有限. 2. 2 训练集划分方法对训练数据集进行划分 ,是另一种有效的训练集平衡方法. Chan和 Stolfo [ 2 ]首先根据代价敏感学习的需要 ,学习一个合理的类别样本分布比例. 然后将大类样本随机划分成一系列不相交子集. 这些子集的大小由稀有类样本集的数量和预先学习的样本分布比例决定. 接下来分别将这些不相交子集跟稀有类样本结合 ,组成一系列平衡的分类子问题 ,单独训练成子分类器. 最后通过元学习 (meta learning) 将这些子分类器的输出进一步学习成组合分类器. 这种方法在信用卡非法使用检测问题上大大降低了总代价. Yan等人 [ 21 ]采用类似的问题分解方式 ,并将每个子问题用 SVM独立训练后采用分类器集成 , ·150· 智能系统学报第 4卷

<<向上翻页向下翻页>>

点击下载：【学术论文】不平衡分类问题研究综述