© 1994-2009 China Academic Journ_中国高校课件下载中心

正在加载图片...

152· 智能系统学报第4卷感学习，只能通过调整正负样本比例或者决策阈值器对稀有类有更高的识别率间接地实现代价敏感学习)，这样不能保证代价敏 Hong等人I在ROC曲线下面积AUC(area 感学习的效果 under curve)指标的基础上，定义了LOO-AUC 25特征选择方法 (leaveone-out area under curve).LOO-AUC借鉴交特征选择方法对于不平衡分类问题同样具有重叉验证的方法，每次移除一个样本，利用剩余样本训要意义.样本数量分布很不平衡时，特征的分布同样练的分类器预测该样本.在核分类器模型采用正交会不平衡.尤其在文本分类问题中，在大类中经常出形式表示的基础上，Hong等人利用前向回归的更新现的特征，也许在稀有类中根本不出现.因此，根据规则，实现了LOO-AUC的快速计算.他们提出了一不平衡分类问题的特点，选取最具有区分能力的特种新的分类器最佳参数估计方法：正规正交带权最征，有利于提高稀有类的识别率小方差估计，并以最大化LOO-AUC作为模型选择通过采用特征选择来解决不平衡分类问题主要标准，实现了正交前向模型选择.实验表明，该方法集中于自然语言处理领域.Cardie和Howe8以基在生成数据和实际数据集上都能很好地处理不平衡于事例学习(case based leaming)的框架为基础，提问题出了一种与测试样本相关的动态特征加权方法.该一类学习(one-class leaming)1也被用于处理方法首先利用训练集得到一棵决策树，然后计算每不平衡问题.当样本数量不平衡时，并且当特征空间个测试样本在测试路径上的信息收益，并以此计算中混杂有大量噪音特征时，基于学习单一稀有类样每个特征的权值，最后，从训练集中挑选k个与测本的产生式模型，相比于学习两类问题的判别式模试样本最接近的样本，并对他们测试类别进行投票：型具有更好的性能叫该方法在提高正类样本准确率的同时确保了总的准 3分类器评价指标确率不下降.Zheng和Srihari91针对文本分类中存在的不平衡分类问题，按照一个经验性的样本比例，鉴于大类对准确率标准的影响大于稀有类，导挑选正负2个样本集，分别从中选择最能表示该类致稀有类的识别率难以提高，新的分类器评价指标样本的特征集，然后将这些特征集合并作为最后挑更注重稀有类对性能指标的影响。选的特征.对不同规模的特征集进行特征挑选的仿最常见的分类器评价指标是OC曲线，以及真实验表明，该特征挑选方法能有效提高文本分类 ROC曲线下覆盖的面积AUC].ROC曲线和AUC 的F1测度能够公平地对待稀有类和大类，与查准率和查全率 26其他方法类似，ROC曲线可以在稀有类识别率和大类识别率 Wu和Chang 40提出了一种修改支持向量机核之间做权衡。函数矩阵(kemel matrix)方法，该方法通过将核函数为了定义ROC曲线，需要用到机器学习方法的矩阵进行保角变换(confomal transfomation),扩大基础评价指标混淆矩阵（如表1所示）. 稀有类特征向量处的边界，从而增加正负类样本的表1两类混淆矩阵 Table 1 A two-chass confusion matrix 分离度，减少大类的支持向量数目起到降低不平衡度的效果.理论分析和仿真试验结果表明，该方法在预测正类预测反类一些不平衡数据集上有比较好的效果预测正类 TP N A runasalam和Chawla提出了一种自上而下预测反类 FP N 的基于联合规则的分类器.他们指出，在处理不平衡在一个两类混淆矩阵中，实际为正类，预测也为分类问题时，传统的支持度和可信度在筛选关联规正类的样本数量称为正确正类TP(true positive); 则时存在缺陷，并提出了补集类支持度(comp le- 实际为正类，预测为反类的称为错误反类N(false ment class support)作为挑选关联规则的重要指标. negative);实际为反类，预测为正类的称为错误正类通过自上而下地将筛选出的最佳关联规则逐一添加 FP(false positive);实际为反类，预测为反类的称为到决策树中，形成最终的分类器.实验结果表明，该正确反类N(true negative) 方法在不平衡数据上比传统的基于联合规则的分类利用混淆矩阵可以定义常用的分类器评价指 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. htp://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 感学习 ,只能通过调整正负样本比例或者决策阈值间接地实现代价敏感学习 [ 37 ] ,这样不能保证代价敏感学习的效果. 2. 5 特征选择方法特征选择方法对于不平衡分类问题同样具有重要意义. 样本数量分布很不平衡时 ,特征的分布同样会不平衡. 尤其在文本分类问题中 ,在大类中经常出现的特征 ,也许在稀有类中根本不出现. 因此 ,根据不平衡分类问题的特点 ,选取最具有区分能力的特征 ,有利于提高稀有类的识别率. 通过采用特征选择来解决不平衡分类问题主要集中于自然语言处理领域. Cardie和 Howe [ 38 ]以基于事例学习 ( case based learning) 的框架为基础 ,提出了一种与测试样本相关的动态特征加权方法. 该方法首先利用训练集得到一棵决策树 ,然后计算每个测试样本在测试路径上的信息收益 ,并以此计算每个特征的权值 ,最后 , 从训练集中挑选 k个与测试样本最接近的样本 ,并对他们测试类别进行投票. 该方法在提高正类样本准确率的同时确保了总的准确率不下降. Zheng和 Srihari [ 39 ]针对文本分类中存在的不平衡分类问题 ,按照一个经验性的样本比例 , 挑选正负 2个样本集 ,分别从中选择最能表示该类样本的特征集 ,然后将这些特征集合并作为最后挑选的特征. 对不同规模的特征集进行特征挑选的仿真实验表明 ,该特征挑选方法能有效提高文本分类的 F1测度. 2. 6 其他方法 W u和 Chang [ 40 ]提出了一种修改支持向量机核函数矩阵 ( kernel matrix)方法 ,该方法通过将核函数矩阵进行保角变换 ( conformal transformation) , 扩大稀有类特征向量处的边界 ,从而增加正负类样本的分离度 ,减少大类的支持向量数目 ,起到降低不平衡度的效果. 理论分析和仿真试验结果表明 ,该方法在一些不平衡数据集上有比较好的效果. A runasalam和 Chawla [ 9 ]提出了一种自上而下的基于联合规则的分类器. 他们指出 ,在处理不平衡分类问题时 ,传统的支持度和可信度在筛选关联规则时存在缺陷 ,并提出了补集类支持度 ( comp le2 ment class support)作为挑选关联规则的重要指标. 通过自上而下地将筛选出的最佳关联规则逐一添加到决策树中 ,形成最终的分类器. 实验结果表明 ,该方法在不平衡数据上比传统的基于联合规则的分类器对稀有类有更高的识别率. Hong等人 [ 41 ]在 ROC曲线下面积 AUC ( area under curve ) 指标的基础上 , 定义了 LOO2AUC ( leave2one2out area under curve). LOO2AUC借鉴交叉验证的方法 ,每次移除一个样本 ,利用剩余样本训练的分类器预测该样本. 在核分类器模型采用正交形式表示的基础上 , Hong等人利用前向回归的更新规则 ,实现了 LOO2AUC的快速计算. 他们提出了一种新的分类器最佳参数估计方法 :正规正交带权最小方差估计 , 并以最大化 LOO2AUC作为模型选择标准 ,实现了正交前向模型选择. 实验表明 ,该方法在生成数据和实际数据集上都能很好地处理不平衡问题. 一类学习 (one2class learning) [ 42 ]也被用于处理不平衡问题. 当样本数量不平衡时 ,并且当特征空间中混杂有大量噪音特征时 ,基于学习单一稀有类样本的产生式模型 ,相比于学习两类问题的判别式模型具有更好的性能 [ 19 ] . 3 分类器评价指标鉴于大类对准确率标准的影响大于稀有类 ,导致稀有类的识别率难以提高 ,新的分类器评价指标更注重稀有类对性能指标的影响. 最常见的分类器评价指标是 ROC曲线 ,以及 ROC曲线下覆盖的面积 AUC [ 43 ] . ROC曲线和 AUC 能够公平地对待稀有类和大类 ,与查准率和查全率类似 , ROC曲线可以在稀有类识别率和大类识别率之间做权衡. 为了定义 ROC曲线 ,需要用到机器学习方法的基础评价指标 ———混淆矩阵 (如表 1所示 ). 表 1 两类混淆矩阵 Table 1 A two2cla ss confusion ma tr ix 预测正类预测反类预测正类 TP FN 预测反类 FP TN 在一个两类混淆矩阵中 ,实际为正类 ,预测也为正类的样本数量称为正确正类 TP ( true positive) ; 实际为正类 ,预测为反类的称为错误反类 FN ( false negative) ;实际为反类 ,预测为正类的称为错误正类 FP (false positive) ; 实际为反类 ,预测为反类的称为正确反类 TN ( true negative). 利用混淆矩阵可以定义常用的分类器评价指 ·152· 智能系统学报第 4卷

<<向上翻页向下翻页>>

点击下载：【学术论文】不平衡分类问题研究综述