·150· 智能系统学报 第4卷 过少时,概率估计的准确率将远小于大类,稀有类的 的样本重新标定成稀有类样本,以降低不平衡度 识别率也因此下降.基于规则的分类器,如决策树和 另一方面,下采样通过舍弃部分大类样本的方 关联规则分类器,需要对规则进行筛选.其中,支持 法,降低不平衡程度.Kubat和Mawin采用单边 度(support))和可信度(confidence)是规则筛选的重 采样方式,去除大类中的噪音样本边界样本和冗余 要指标.但是,当训练集不平衡时,基于上述指标的 样本.Chen等人u则通过修剪大类的支持向量,达 筛选变得困难且不合理) 到平衡支持向量个数的目的,从而提高稀有类的识 1.4评测指标问题 别率.Raskutti和Kowalczyk同时考虑上采样和下 分类器评测指标的科学性直接影响着分类器的 采样,并且扩展到一类学习,即只采用一类的样本作 性能,因为分类器训练的目标是实现最高的评测指 为训练集,因此不存在不平衡分类问题.Estabrooks 标.传统的模式分类方法一般以准确率作为分类器 和J即kowic2同时采用上采样和下采样以及不同 评测指标.但是以准确率为评测指标的分类器倾向 的采样率,获得大量的子分类器,并使用混合专家 于降低稀有类的分类效果0).而且准确率不重视 (m ixtureof-experts)学习框架将这些子分类器集成. 稀有类对分类性能评测的影响.例如,假设有一个训 他们的结果显示,这种方法比普通的AdaBoost有更 练样本数量为1:99的两类问题,即使分类器将所 好的分类效果,但并不清楚到底是上采样还是下采 有样本分到大类,它仍可以得到99%的训练准确 样更有效,也不清楚哪种采样率最合适 率 虽然重采样在一些数据集上取得了不错的效 果,但是这类方法也存在一些缺陷.上采样方法并不 2不平衡分类问题的解决策略 增加任何新的数据,只是重复一些样本或增加一些 迄今为止,解决不平衡分类问题的策略可以分 人工生成的稀有类样本,增加了训练时间.更危险的 为两大类.一类是从训练集入手,通过改变训练集样 是,上采样复制某些稀有类样本,或者在它周围生成 本分布,降低不平衡程度.另一类是从学习算法入 新的稀有类样本,使得分类器过分注重这些样本,导 手,根据算法在解决不平衡问题时的缺陷,适当地修 致过学习2,4).上采样不能从本质上解决稀有类样 改算法使之适应不平衡分类问题.平衡训练集的方 本的稀缺性和数据表示的不充分性,因此有人指出 法主要有训练集重采样(re-sampling)方法和训练集 它的性能不如下采样I2).但是Japkowic2对人工 划分方法.学习算法层面的策略包括分类器集成、代 数据的一项系统研究得到了相反的结论.下采样在 价敏感学习和特征选择方法等 去除大类样本的时候,容易去除重要的样本信息.虽 21重采样方法 然有些启发式的下采样方法,只是去除元余样本和 重采样方法是通过增加稀有类训练样本数的上 噪声样本,但是多数情况下这类样本只是小部分,因 采样(p~sampling)和减少大类样本数的下采样 此这种方法能够调整的不平衡度相当有限 (down~mp ling)使不平衡的样本分布变得比较平22训练集划分方法 衡,从而提高分类器对稀有类的识别率」 对训练数据集进行划分,是另一种有效的训练 最原始的上采样方法是复制稀有类的样本,但 集平衡方法.Chan和Sol621首先根据代价敏感学 是这样做容易导致过学习2】,并且对提高稀有类识 习的需要,学习一个合理的类别样本分布比例.然后 别率没有太大帮助1.较高级的上采样方法则采用 将大类样本随机划分成一系列不相交子集.这些子 一些启发式技巧,有选择地复制稀有类样本,或者生 集的大小由稀有类样本集的数量和预先学习的样本 成新的稀有类样本.Chawla等人提出的SMOTE 分布比例决定.接下来分别将这些不相交子集跟稀 算法是一种简单有效的上采样方法,该方法首先为 有类样本结合,组成一系列平衡的分类子问题,单独 每个稀有类样本随机选出几个邻近样本,并且在该 训练成子分类器.最后通过元学习(meta leaming) 样本与这些邻近的样本的连线上随机取点,生成无 将这些子分类器的输出进一步学习成组合分类器」 重复的新的稀有类样本.Lee1s则通过为训练集中 这种方法在信用卡非法使用检测问题上大大降低了 的稀有类样本加上随机噪声的方式获取新的正类样 总代价.Yan等人2)采用类似的问题分解方式,并 本.Kubat等人16将稀有类和大类交叉分布区域内 将每个子问题用SM独立训练后采用分类器集成, 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 过少时 ,概率估计的准确率将远小于大类 ,稀有类的 识别率也因此下降. 基于规则的分类器 ,如决策树和 关联规则分类器 ,需要对规则进行筛选. 其中 ,支持 度 ( support) 和可信度 ( confidence)是规则筛选的重 要指标. 但是 ,当训练集不平衡时 ,基于上述指标的 筛选变得困难且不合理 [ 9 ] . 1. 4 评测指标问题 分类器评测指标的科学性直接影响着分类器的 性能 ,因为分类器训练的目标是实现最高的评测指 标. 传统的模式分类方法一般以准确率作为分类器 评测指标. 但是以准确率为评测指标的分类器倾向 于降低稀有类的分类效果 [ 10211 ] . 而且准确率不重视 稀有类对分类性能评测的影响. 例如 ,假设有一个训 练样本数量为 1∶99的两类问题 ,即使分类器将所 有样本分到大类 ,它仍可以得到 99%的训练准确 率. 2 不平衡分类问题的解决策略 迄今为止 ,解决不平衡分类问题的策略可以分 为两大类. 一类是从训练集入手 ,通过改变训练集样 本分布 ,降低不平衡程度. 另一类是从学习算法入 手 ,根据算法在解决不平衡问题时的缺陷 ,适当地修 改算法使之适应不平衡分类问题. 平衡训练集的方 法主要有训练集重采样 ( re2samp ling)方法和训练集 划分方法. 学习算法层面的策略包括分类器集成、代 价敏感学习和特征选择方法等. 2. 1 重采样方法 重采样方法是通过增加稀有类训练样本数的上 采样 ( up2samp ling) 和减少大类样本数的下采样 ( down2samp ling)使不平衡的样本分布变得比较平 衡 ,从而提高分类器对稀有类的识别率. 最原始的上采样方法是复制稀有类的样本 ,但 是这样做容易导致过学习 [ 12 ] ,并且对提高稀有类识 别率没有太大帮助 [ 13 ] . 较高级的上采样方法则采用 一些启发式技巧 ,有选择地复制稀有类样本 ,或者生 成新的稀有类样本. Chawla等人 [ 14 ]提出的 SMOTE 算法是一种简单有效的上采样方法 ,该方法首先为 每个稀有类样本随机选出几个邻近样本 ,并且在该 样本与这些邻近的样本的连线上随机取点 ,生成无 重复的新的稀有类样本. Lee [ 15 ]则通过为训练集中 的稀有类样本加上随机噪声的方式获取新的正类样 本. Kubat等人 [ 16 ]将稀有类和大类交叉分布区域内 的样本重新标定成稀有类样本 ,以降低不平衡度. 另一方面 ,下采样通过舍弃部分大类样本的方 法 ,降低不平衡程度. Kubat和 Matwin [ 17 ]采用单边 采样方式 ,去除大类中的噪音样本、边界样本和冗余 样本. Chen等人 [ 18 ]则通过修剪大类的支持向量 ,达 到平衡支持向量个数的目的 ,从而提高稀有类的识 别率. Raskutti和 Kowalczyk [ 19 ]同时考虑上采样和下 采样 ,并且扩展到一类学习 ,即只采用一类的样本作 为训练集 ,因此不存在不平衡分类问题. Estabrooks 和 Japkowic [ 20 ]同时采用上采样和下采样以及不同 的采样率 ,获得大量的子分类器 ,并使用混合专家 (m ixture2of2experts)学习框架将这些子分类器集成. 他们的结果显示 ,这种方法比普通的 AdaBoost有更 好的分类效果 ,但并不清楚到底是上采样还是下采 样更有效 ,也不清楚哪种采样率最合适. 虽然重采样在一些数据集上取得了不错的效 果 ,但是这类方法也存在一些缺陷. 上采样方法并不 增加任何新的数据 ,只是重复一些样本或增加一些 人工生成的稀有类样本 ,增加了训练时间. 更危险的 是 ,上采样复制某些稀有类样本 ,或者在它周围生成 新的稀有类样本 ,使得分类器过分注重这些样本 ,导 致过学习 [ 12, 14 ] . 上采样不能从本质上解决稀有类样 本的稀缺性和数据表示的不充分性 ,因此有人指出 它的性能不如下采样 [ 12 ] . 但是 Japkowicz [ 8 ]对人工 数据的一项系统研究得到了相反的结论. 下采样在 去除大类样本的时候 ,容易去除重要的样本信息. 虽 然有些启发式的下采样方法 ,只是去除冗余样本和 噪声样本 ,但是多数情况下这类样本只是小部分 ,因 此这种方法能够调整的不平衡度相当有限. 2. 2 训练集划分方法 对训练数据集进行划分 ,是另一种有效的训练 集平衡方法. Chan和 Stolfo [ 2 ]首先根据代价敏感学 习的需要 ,学习一个合理的类别样本分布比例. 然后 将大类样本随机划分成一系列不相交子集. 这些子 集的大小由稀有类样本集的数量和预先学习的样本 分布比例决定. 接下来分别将这些不相交子集跟稀 有类样本结合 ,组成一系列平衡的分类子问题 ,单独 训练成子分类器. 最后通过元学习 (meta learning) 将这些子分类器的输出进一步学习成组合分类器. 这种方法在信用卡非法使用检测问题上大大降低了 总代价. Yan等人 [ 21 ]采用类似的问题分解方式 ,并 将每个子问题用 SVM独立训练后采用分类器集成 , ·150· 智 能 系 统 学 报 第 4卷