正在加载图片...
第2期 叶志飞,等:不平衡分类问题研究综述 ·151 得到的组合分类器的性能超过了上采样和下采样方 24代价敏感学习方法 法.上述训练集划分方法仅考虑了划分后子训练集 在大部分不平衡分类问题中,稀有类是分类的 的规模和分布,没有对划分规则作进一步考虑.Lu 重点.在这种情况下,正确识别出稀有类的样本比识 和Io2提出了最小最大模块化(m inmax modular) 别大类的样本更有价值.反过来说,错分稀有类的样 神经网络模型,该模型利用最小最大化集成规则能 本需要付出更大的代价.代价敏感学习赋予各个 有效地将子分类器组合,使组合分类器容易地实现 类别不同的错分代价,它能很好地解决不平衡分类 并列学习和增量学习.之后Lu等人2将上述模型 问题.以两类问题为例,假设正类是稀有类,并具有 推广到支持向量机并提出了部分对部分”(part vs 更高的错分代价,则分类器在训练时,会对错分正类 par)任务分解策略.部分对部分任务分解策略可 样本做更大的惩罚,迫使最终分类器对正类样本有 对不平衡两类子问题作进一步分解.这种分解策略 更高的识别率 可以自由地控制每个子问题的规模和平衡度,并且 Dom ingos2提出了一种Metacost方法,该方法 可以根据先验知识和训练集样本的分布特征,制定 通过估计训练样本的后验概率密度,结合代价矩阵 有效的分解规则.实验表明,该方法比代价敏感学习 (cost matriⅸ)计算每个训练样本的理想类别,然后根 和重采样方法能更好地解决不平衡问题[24) 据理想类别修改原训练样本的类别,得到新的训练 23分类器集成方法 集,最后使用基于错误率的分类器学习这个新的训 上述通过训练集划分得到的子分类器,利用分 练集.仿真实验表明,Metacost比下采样和上采样方 类器集成的方法获得了良好的效果.Kotsiantis和 法能获得更低的错误代价.Metacost的重要意义在 Peas5将训练集重采样后用3种学习方法分别于它能将普通的基于准确率的学习方法容易地改造 训练,然后将得到的分类器采用多数投票方法给出 成对错分代价敏感的学习方法.Chen2在平衡随机 预测类别.实验表明,他们的方法能提高对稀有类样 森林的基础上提出了带权随机森林算法,该方法赋 本的识别率.Estabrook等人261通过计算发现,根据 予每个类一个权值,训练样本最少的类赋予的权值 训练集的自然分布得到的分类器不一定具有最好的 最大.在构造决策树的过程中引入权值,每一棵决策 一般化能力.他们提出通过对原不平衡问题进行重 树的决策采用带权多数投票.最后所有的决策树采 采样,从而构建多个平衡度不同的训练集,训练后采 用带权投票集成.Che等人I33通过训练集先验信息 用分类器挑选和偏向正类的原则将各个分类器综 的分析,利用支持向量机为不同类的样本设置惩罚 合,仿真实验表明,该方法比单独应用上采样和下采 系数」 样方法获得了更好的准确率和ROC(receiver oper 给不同的训练样本赋予不同的权值也能起到代 ating characteristic)曲线.Chen等人I2提出了平衡 价敏感学习的作用.Fan等人提出了一种AdaCost 随机森林的方法,该方法对正类和反类分别进行重 算法,该算法通过在Boosting算法的权值更新规则中 采样,重采样多次后采用多数投票的方法进行集成 引入每个训练样本的错分代价,提高了Boosting算法 学习.Chawla等人I2将boosting算法与MOTE算 对稀有类的查全率和查准率.该算法的权值更新原则 法结合成MOTEBoost算法,该算法每次迭代使用 是:如果错分代价较大的样本被弱分类器错分则它 SMOTE生成新的样本,取代原有Adaboost算法中队 对应的权值被较大地增加.如果它被正确分类,则 样本权值的调整,使得Boosting算法专注于正类中 它对应的权值被较小程度地减少.Josh等人5通 的难分样本.Lu等人2基于人脸识别的级联模型 过研究发现,如果AdaCost算法中的基分类器能获得 提出了一种基于级联模型的不平衡数据分类方法, 较平衡的查全率和查准率,则AdaCost能获得对稀有 该方法通过逐步筛掉反类样本,使得级联结构中后 类较平衡的查全率和查准率 面的结点得到更为平衡的训练集.Zhou和Lo1提 代价敏感学习能有效地提高稀有类的识别率」 出了代价敏感神经网络与分类器集成相结合的方 但问题是,一方面,在多数情况下,真实的错分代价 法,他们通过21个UC标准数据集的实验发现,分 很难被准确地估计[1.另一方面,虽然许多分类器 类器集成不仅对处理2类不平衡问题有效,而且对 可以直接引入代价敏感学习机制,如支持向量机和 多类不平衡问题同样有效, 决策树,但是也有一些分类器不能直接使用代价敏 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 得到的组合分类器的性能超过了上采样和下采样方 法. 上述训练集划分方法仅考虑了划分后子训练集 的规模和分布 ,没有对划分规则作进一步考虑. Lu 和 Ito [ 22 ]提出了最小最大模块化 (m in2max modular) 神经网络模型 ,该模型利用最小最大化集成规则 ,能 有效地将子分类器组合 ,使组合分类器容易地实现 并列学习和增量学习. 之后 Lu等人 [ 23 ]将上述模型 推广到支持向量机并提出了“部分对部分 ”(part vs. part)任务分解策略.“部分对部分 ”任务分解策略可 对不平衡两类子问题作进一步分解. 这种分解策略 可以自由地控制每个子问题的规模和平衡度 ,并且 可以根据先验知识和训练集样本的分布特征 ,制定 有效的分解规则. 实验表明 ,该方法比代价敏感学习 和重采样方法能更好地解决不平衡问题 [ 24 ] . 2. 3 分类器集成方法 上述通过训练集划分得到的子分类器 ,利用分 类器集成的方法获得了良好的效果. Kotsiantis和 Pintelas [ 25 ]将训练集重采样后用 3种学习方法分别 训练 ,然后将得到的分类器采用多数投票方法给出 预测类别. 实验表明 ,他们的方法能提高对稀有类样 本的识别率. Estabrook等人 [ 26 ]通过计算发现 ,根据 训练集的自然分布得到的分类器不一定具有最好的 一般化能力. 他们提出通过对原不平衡问题进行重 采样 ,从而构建多个平衡度不同的训练集 ,训练后采 用分类器挑选和偏向正类的原则将各个分类器综 合. 仿真实验表明 ,该方法比单独应用上采样和下采 样方法获得了更好的准确率和 ROC ( receiver oper2 ating characteristic)曲线. Chen等人 [ 27 ]提出了平衡 随机森林的方法 ,该方法对正类和反类分别进行重 采样 ,重采样多次后采用多数投票的方法进行集成 学习. Chawla等人 [ 28 ]将 boosting算法与 SMOTE算 法结合成 SMOTEBoost算法 ,该算法每次迭代使用 SMOTE生成新的样本 ,取代原有 AdaBoost算法中队 样本权值的调整 ,使得 Boosting算法专注于正类中 的难分样本. L iu等人 [ 29 ]基于人脸识别的级联模型 提出了一种基于级联模型的不平衡数据分类方法 , 该方法通过逐步筛掉反类样本 ,使得级联结构中后 面的结点得到更为平衡的训练集. Zhou和 L iu [ 30 ]提 出了代价敏感神经网络与分类器集成相结合的方 法 ,他们通过 21个 UCI标准数据集的实验发现 ,分 类器集成不仅对处理 2类不平衡问题有效 ,而且对 多类不平衡问题同样有效. 2. 4 代价敏感学习方法 在大部分不平衡分类问题中 ,稀有类是分类的 重点. 在这种情况下 ,正确识别出稀有类的样本比识 别大类的样本更有价值. 反过来说 ,错分稀有类的样 本需要付出更大的代价. 代价敏感学习 [ 31 ]赋予各个 类别不同的错分代价 ,它能很好地解决不平衡分类 问题. 以两类问题为例 ,假设正类是稀有类 ,并具有 更高的错分代价 ,则分类器在训练时 ,会对错分正类 样本做更大的惩罚 ,迫使最终分类器对正类样本有 更高的识别率. Dom ingos [ 32 ]提出了一种 Metacost方法 ,该方法 通过估计训练样本的后验概率密度 ,结合代价矩阵 ( cost matrix)计算每个训练样本的理想类别 ,然后根 据理想类别修改原训练样本的类别 ,得到新的训练 集 ,最后使用基于错误率的分类器学习这个新的训 练集. 仿真实验表明 ,Metacost比下采样和上采样方 法能获得更低的错误代价. Metacost的重要意义在 于它能将普通的基于准确率的学习方法容易地改造 成对错分代价敏感的学习方法. Chen [ 27 ]在平衡随机 森林的基础上提出了带权随机森林算法 ,该方法赋 予每个类一个权值 ,训练样本最少的类赋予的权值 最大. 在构造决策树的过程中引入权值 ,每一棵决策 树的决策采用带权多数投票. 最后所有的决策树采 用带权投票集成. Che等人 [ 33 ]通过训练集先验信息 的分析 ,利用支持向量机为不同类的样本设置惩罚 系数. 给不同的训练样本赋予不同的权值也能起到代 价敏感学习的作用. Fan等人 [ 34 ]提出了一种 AdaCost 算法 ,该算法通过在 Boosting算法的权值更新规则中 引入每个训练样本的错分代价 ,提高了 Boosting算法 对稀有类的查全率和查准率.该算法的权值更新原则 是:如果错分代价较大的样本被弱分类器错分 ,则它 对应的权值被“较大 ”地增加. 如果它被正确分类 ,则 它对应的权值被“较小 ”程度地减少. Joshi等人 [ 35 ]通 过研究发现 ,如果 AdaCost算法中的基分类器能获得 较平衡的查全率和查准率 ,则 AdaCost能获得对稀有 类较平衡的查全率和查准率. 代价敏感学习能有效地提高稀有类的识别率. 但问题是 ,一方面 ,在多数情况下 ,真实的错分代价 很难被准确地估计 [ 36 ] . 另一方面 ,虽然许多分类器 可以直接引入代价敏感学习机制 ,如支持向量机和 决策树 ,但是也有一些分类器不能直接使用代价敏 第 2期 叶志飞 ,等 :不平衡分类问题研究综述 ·151·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有