152· 智能系统学报 第4卷 感学习,只能通过调整正负样本比例或者决策阈值 器对稀有类有更高的识别率 间接地实现代价敏感学习),这样不能保证代价敏 Hong等人I在ROC曲线下面积AUC(area 感学习的效果 under curve)指标的基础上,定义了LOO-AUC 25特征选择方法 (leaveone-out area under curve).LOO-AUC借鉴交 特征选择方法对于不平衡分类问题同样具有重 叉验证的方法,每次移除一个样本,利用剩余样本训 要意义.样本数量分布很不平衡时,特征的分布同样 练的分类器预测该样本.在核分类器模型采用正交 会不平衡.尤其在文本分类问题中,在大类中经常出 形式表示的基础上,Hong等人利用前向回归的更新 现的特征,也许在稀有类中根本不出现.因此,根据 规则,实现了LOO-AUC的快速计算.他们提出了一 不平衡分类问题的特点,选取最具有区分能力的特 种新的分类器最佳参数估计方法:正规正交带权最 征,有利于提高稀有类的识别率 小方差估计,并以最大化LOO-AUC作为模型选择 通过采用特征选择来解决不平衡分类问题主要 标准,实现了正交前向模型选择.实验表明,该方法 集中于自然语言处理领域.Cardie和Howe8以基 在生成数据和实际数据集上都能很好地处理不平衡 于事例学习(case based leaming)的框架为基础,提 问题 出了一种与测试样本相关的动态特征加权方法.该 一类学习(one-class leaming)1也被用于处理 方法首先利用训练集得到一棵决策树,然后计算每 不平衡问题.当样本数量不平衡时,并且当特征空间 个测试样本在测试路径上的信息收益,并以此计算 中混杂有大量噪音特征时,基于学习单一稀有类样 每个特征的权值,最后,从训练集中挑选k个与测 本的产生式模型,相比于学习两类问题的判别式模 试样本最接近的样本,并对他们测试类别进行投票: 型具有更好的性能叫 该方法在提高正类样本准确率的同时确保了总的准 3分类器评价指标 确率不下降.Zheng和Srihari91针对文本分类中存 在的不平衡分类问题,按照一个经验性的样本比例, 鉴于大类对准确率标准的影响大于稀有类,导 挑选正负2个样本集,分别从中选择最能表示该类 致稀有类的识别率难以提高,新的分类器评价指标 样本的特征集,然后将这些特征集合并作为最后挑 更注重稀有类对性能指标的影响。 选的特征.对不同规模的特征集进行特征挑选的仿 最常见的分类器评价指标是OC曲线,以及 真实验表明,该特征挑选方法能有效提高文本分类 ROC曲线下覆盖的面积AUC].ROC曲线和AUC 的F1测度 能够公平地对待稀有类和大类,与查准率和查全率 26其他方法 类似,ROC曲线可以在稀有类识别率和大类识别率 Wu和Chang 40提出了一种修改支持向量机核 之间做权衡。 函数矩阵(kemel matrix)方法,该方法通过将核函数 为了定义ROC曲线,需要用到机器学习方法的 矩阵进行保角变换(confomal transfomation),扩大 基础评价指标混淆矩阵(如表1所示). 稀有类特征向量处的边界,从而增加正负类样本的 表1两类混淆矩阵 Table 1 A two-chass confusion matrix 分离度,减少大类的支持向量数目起到降低不平衡 度的效果.理论分析和仿真试验结果表明,该方法在 预测正类 预测反类 一些不平衡数据集上有比较好的效果 预测正类 TP N A runasalam和Chawla提出了一种自上而下 预测反类 FP N 的基于联合规则的分类器.他们指出,在处理不平衡 在一个两类混淆矩阵中,实际为正类,预测也为 分类问题时,传统的支持度和可信度在筛选关联规 正类的样本数量称为正确正类TP(true positive); 则时存在缺陷,并提出了补集类支持度(comp le- 实际为正类,预测为反类的称为错误反类N(false ment class support)作为挑选关联规则的重要指标. negative);实际为反类,预测为正类的称为错误正类 通过自上而下地将筛选出的最佳关联规则逐一添加 FP(false positive);实际为反类,预测为反类的称为 到决策树中,形成最终的分类器.实验结果表明,该 正确反类N(true negative) 方法在不平衡数据上比传统的基于联合规则的分类 利用混淆矩阵可以定义常用的分类器评价指 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. htp://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 感学习 ,只能通过调整正负样本比例或者决策阈值 间接地实现代价敏感学习 [ 37 ] ,这样不能保证代价敏 感学习的效果. 2. 5 特征选择方法 特征选择方法对于不平衡分类问题同样具有重 要意义. 样本数量分布很不平衡时 ,特征的分布同样 会不平衡. 尤其在文本分类问题中 ,在大类中经常出 现的特征 ,也许在稀有类中根本不出现. 因此 ,根据 不平衡分类问题的特点 ,选取最具有区分能力的特 征 ,有利于提高稀有类的识别率. 通过采用特征选择来解决不平衡分类问题主要 集中于自然语言处理领域. Cardie和 Howe [ 38 ]以基 于事例学习 ( case based learning) 的框架为基础 ,提 出了一种与测试样本相关的动态特征加权方法. 该 方法首先利用训练集得到一棵决策树 ,然后计算每 个测试样本在测试路径上的信息收益 ,并以此计算 每个特征的权值 ,最后 , 从训练集中挑选 k个与测 试样本最接近的样本 ,并对他们测试类别进行投票. 该方法在提高正类样本准确率的同时确保了总的准 确率不下降. Zheng和 Srihari [ 39 ]针对文本分类中存 在的不平衡分类问题 ,按照一个经验性的样本比例 , 挑选正负 2个样本集 ,分别从中选择最能表示该类 样本的特征集 ,然后将这些特征集合并作为最后挑 选的特征. 对不同规模的特征集进行特征挑选的仿 真实验表明 ,该特征挑选方法能有效提高文本分类 的 F1测度. 2. 6 其他方法 W u和 Chang [ 40 ]提出了一种修改支持向量机核 函数矩阵 ( kernel matrix)方法 ,该方法通过将核函数 矩阵进行保角变换 ( conformal transformation) , 扩大 稀有类特征向量处的边界 ,从而增加正负类样本的 分离度 ,减少大类的支持向量数目 ,起到降低不平衡 度的效果. 理论分析和仿真试验结果表明 ,该方法在 一些不平衡数据集上有比较好的效果. A runasalam和 Chawla [ 9 ]提出了一种自上而下 的基于联合规则的分类器. 他们指出 ,在处理不平衡 分类问题时 ,传统的支持度和可信度在筛选关联规 则时存在缺陷 ,并提出了补集类支持度 ( comp le2 ment class support)作为挑选关联规则的重要指标. 通过自上而下地将筛选出的最佳关联规则逐一添加 到决策树中 ,形成最终的分类器. 实验结果表明 ,该 方法在不平衡数据上比传统的基于联合规则的分类 器对稀有类有更高的识别率. Hong等人 [ 41 ]在 ROC曲线下面积 AUC ( area under curve ) 指 标 的 基 础 上 , 定 义 了 LOO2AUC ( leave2one2out area under curve). LOO2AUC借鉴交 叉验证的方法 ,每次移除一个样本 ,利用剩余样本训 练的分类器预测该样本. 在核分类器模型采用正交 形式表示的基础上 , Hong等人利用前向回归的更新 规则 ,实现了 LOO2AUC的快速计算. 他们提出了一 种新的分类器最佳参数估计方法 :正规正交带权最 小方差估计 , 并以最大化 LOO2AUC作为模型选择 标准 ,实现了正交前向模型选择. 实验表明 ,该方法 在生成数据和实际数据集上都能很好地处理不平衡 问题. 一类学习 (one2class learning) [ 42 ]也被用于处理 不平衡问题. 当样本数量不平衡时 ,并且当特征空间 中混杂有大量噪音特征时 ,基于学习单一稀有类样 本的产生式模型 ,相比于学习两类问题的判别式模 型具有更好的性能 [ 19 ] . 3 分类器评价指标 鉴于大类对准确率标准的影响大于稀有类 ,导 致稀有类的识别率难以提高 ,新的分类器评价指标 更注重稀有类对性能指标的影响. 最常见的分类器评价指标是 ROC曲线 ,以及 ROC曲线下覆盖的面积 AUC [ 43 ] . ROC曲线和 AUC 能够公平地对待稀有类和大类 ,与查准率和查全率 类似 , ROC曲线可以在稀有类识别率和大类识别率 之间做权衡. 为了定义 ROC曲线 ,需要用到机器学习方法的 基础评价指标 ———混淆矩阵 (如表 1所示 ). 表 1 两类混淆矩阵 Table 1 A two2cla ss confusion ma tr ix 预测正类 预测反类 预测正类 TP FN 预测反类 FP TN 在一个两类混淆矩阵中 ,实际为正类 ,预测也为 正类的样本数量称为正确正类 TP ( true positive) ; 实际为正类 ,预测为反类的称为错误反类 FN ( false negative) ;实际为反类 ,预测为正类的称为错误正类 FP (false positive) ; 实际为反类 ,预测为反类的称为 正确反类 TN ( true negative). 利用混淆矩阵可以定义常用的分类器评价指 ·152· 智 能 系 统 学 报 第 4卷