正在加载图片...
·258. 智能系统学报 第11卷 等的误分类代价之基本假设,为保证算法总体分类 为了解决SMOTE方法的不足之处,基于 准确率,通常将少数类错分至多数类,从而导致少数 SMOTE的改进算法相继被提出。Han等1o]提出仅 类识别准确率过低。因此,传统分类算法面对类不 为靠近类边界的正类样本生成合成样例的Border- 平衡数据,分类效果不佳。 line-SMOTE方法,更有利于分类器的学习,但是需 当前,不平衡数据分类问题的解决方法主要有 要依据输入的近邻参数k来确定正类边界样本集 3个方面:1)数据层面,移除部分多数类样本或者 合,如何合理确定参数k以及科学判断边界有待深 增加新的合成样例,改变数据分布,降低不平衡度, 入研究。He等14)提出ADASYN算法,将输入数据 称之为重采样方法11:2)算法层面,分析已有算法 的密度分布作为确定合成样例数目的依据,自适应 在面对不平衡数据分类的缺陷,改进算法或者提出 方式控制正类样本的分布。Batista等[us]提出 新算法来提升少数类的分类准确率,例如代价敏感 SMOTE+Tomek算法,该方法利用SMOTE生成合成 学习6)、集成学习7]、单类学习等;3)评价标准 样例:利用Tomk算法对连接样例进行移除,较好 层面,提出新的适合不平衡数据分类的分类器性能 地克服了SMOTE带来的噪声问题。 评价标准,常见的有基于混淆矩阵基础上的少数类 精确度与召回率的调和均值Fm【o,几何均值 1.2欠采样 Gn山和ROC曲线等。 随机欠采样是随机性减少负类样本,其方法简 单,操作容易,但是存在去除样本的盲目性和去除样 本文从数据层面和算法层面着手,融合数据采 本比例参数不确定问题,以及代表性样本的丢失而 样和boosting技术,提出在动态平衡采样基础上集 影响分类精度。 成提升的不平衡数据分类算法,目标旨在提高小类 样本的分类精度。为了论述方便,后续部分将少数 Kubat等16]将在负类上的单边采样与Tomek 类称之为正类,多数类称之为负类。 links相结合,利用Tomek link删除噪声样本,利用 压缩最近邻算法删除远离边界区域的样本,将剩下 1 采样方法 的负类样本与所有正类样本一起构成训练集,用于 数据层面的采样技术针对不平衡数据特点,通 分类器学习。 过过采样、欠采样等方式进行数据处理,以期获得一 文献[17-20]提出利用聚类提取代表性样本的 个相对均衡的数据分布。相关研究表明,平衡的数 平衡数据分布的方法。算法首先对负类样本进行聚 据分布更加有利于提高传统算法的分类性能213】。 类操作,聚类个数与正类样本数目相同,然后提取各 1.1过采样 个聚类质心作为聚簇的代表样本,与所有正类样本 最简单的过采样是随机过采样,其随机选择若 一起组成平衡训练集。由于用聚类质心代表聚簇内 干正类样本,随后简单复制该样本,添加至训练集。 的所有样本,不可避免地损失了数据分布的特征信 随机过采样仅仅复制正类样本,没有增加任何新的 息,使得抽样后的数据分布与原始数据分布出现一 额外合成样例,对于提高正类识别率没有多大帮助: 定的差异,从而影响算法的分类性能。 另外,当数据不平衡度非常高时,需要在正类上进行 由上述分析可知,过采样和欠采样均存在一定 多倍采样才能使最终数据分布趋于平衡,结果使得 的局限性: 训练数据规模变大,分类器学习到的决策域变小,容 1)过采样不断合成新的正类合成样例使得数 易导致过拟合。 据规模变大,增加了算法的学习时间; 针对随机过采样的不足,Chawla等[)提出一种 2)过采样使得分类器训练得到的决策域变小, SMOTE(synthetic minority over-sampling technique) 容易导致过拟合: 方法,该方法为每个正类样本选择若干(5或者7) 3)欠采样存在富含分类信息样本丢失问题,特 个近邻,随后在选定样本与近邻样本之间进行线性 别是在高度不平衡数据集中,移除过多负类样本使 插值,生成无重复的合成样例。SMOTE方法能够使 得信息丢失严重,造成样本代表性差,严重背离初始 正类的决策边界远离负类空间,正类具有更大泛化 数据分布: 空间:但是其缺点是没有考虑近邻样本的分布特点, 4)欠采样难以合理确定抽样比例参数。 合成样例具有一定的盲目性,容易产生噪声样例,以 针对过采样和欠采样方法存在的局限性,本文提 及出现类间混叠现象,影响后续分类器的分类性能。 出基于动态平衡采样的不平衡数据集成分类方法,在等的误分类代价之基本假设,为保证算法总体分类 准确率,通常将少数类错分至多数类,从而导致少数 类识别准确率过低。 因此,传统分类算法面对类不 平衡数据,分类效果不佳。 当前,不平衡数据分类问题的解决方法主要有 3 个方面:1) 数据层面,移除部分多数类样本或者 增加新的合成样例,改变数据分布,降低不平衡度, 称之为重采样方法[1⁃5] ;2) 算法层面,分析已有算法 在面对不平衡数据分类的缺陷,改进算法或者提出 新算法来提升少数类的分类准确率,例如代价敏感 学习[6] 、集成学习[7⁃8] 、单类学习[9] 等;3) 评价标准 层面,提出新的适合不平衡数据分类的分类器性能 评价标准,常见的有基于混淆矩阵基础上的少数类 精确度与召回率的调和均值 Fmeasure [10] , 几何均值 Gmean [11] 和 ROC 曲线等。 本文从数据层面和算法层面着手,融合数据采 样和 boosting 技术,提出在动态平衡采样基础上集 成提升的不平衡数据分类算法,目标旨在提高小类 样本的分类精度。 为了论述方便,后续部分将少数 类称之为正类,多数类称之为负类。 1 采样方法 数据层面的采样技术针对不平衡数据特点,通 过过采样、欠采样等方式进行数据处理,以期获得一 个相对均衡的数据分布。 相关研究表明,平衡的数 据分布更加有利于提高传统算法的分类性能[1 2 ⁃1 3 ] 。 1.1 过采样 最简单的过采样是随机过采样,其随机选择若 干正类样本,随后简单复制该样本,添加至训练集。 随机过采样仅仅复制正类样本,没有增加任何新的 额外合成样例,对于提高正类识别率没有多大帮助; 另外,当数据不平衡度非常高时,需要在正类上进行 多倍采样才能使最终数据分布趋于平衡,结果使得 训练数据规模变大,分类器学习到的决策域变小,容 易导致过拟合。 针对随机过采样的不足,Chawla 等[3] 提出一种 SMOTE( synthetic minority over⁃sampling technique) 方法,该方法为每个正类样本选择若干(5 或者 7) 个近邻,随后在选定样本与近邻样本之间进行线性 插值,生成无重复的合成样例。 SMOTE 方法能够使 正类的决策边界远离负类空间,正类具有更大泛化 空间;但是其缺点是没有考虑近邻样本的分布特点, 合成样例具有一定的盲目性,容易产生噪声样例,以 及出现类间混叠现象,影响后续分类器的分类性能。 为了 解 决 SMOTE 方 法 的 不 足 之 处, 基 于 SMOTE 的改进算法相继被提出。 Han 等[1 0 ] 提出仅 为靠近类边界的正类样本生成合成样例的 Border⁃ line⁃SMOTE 方法,更有利于分类器的学习,但是需 要依据输入的近邻参数 k 来确定正类边界样本集 合,如何合理确定参数 k 以及科学判断边界有待深 入研究。 He 等[1 4 ] 提出 ADASYN 算法,将输入数据 的密度分布作为确定合成样例数目的依据,自适应 方式 控 制 正 类 样 本 的 分 布。 Batista 等[1 5 ] 提 出 SMOTE+Tomek 算法,该方法利用 SMOTE 生成合成 样例;利用 Tomek 算法对连接样例进行移除,较好 地克服了 SMOTE 带来的噪声问题。 1.2 欠采样 随机欠采样是随机性减少负类样本,其方法简 单,操作容易,但是存在去除样本的盲目性和去除样 本比例参数不确定问题,以及代表性样本的丢失而 影响分类精度。 Kubat 等[1 6 ]将在负类上的单边采样与 Tomek links 相结合,利用 Tomek link 删除噪声样本,利用 压缩最近邻算法删除远离边界区域的样本,将剩下 的负类样本与所有正类样本一起构成训练集,用于 分类器学习。 文献[17⁃20]提出利用聚类提取代表性样本的 平衡数据分布的方法。 算法首先对负类样本进行聚 类操作,聚类个数与正类样本数目相同,然后提取各 个聚类质心作为聚簇的代表样本,与所有正类样本 一起组成平衡训练集。 由于用聚类质心代表聚簇内 的所有样本,不可避免地损失了数据分布的特征信 息,使得抽样后的数据分布与原始数据分布出现一 定的差异,从而影响算法的分类性能。 由上述分析可知,过采样和欠采样均存在一定 的局限性: 1)过采样不断合成新的正类合成样例使得数 据规模变大,增加了算法的学习时间; 2)过采样使得分类器训练得到的决策域变小, 容易导致过拟合; 3)欠采样存在富含分类信息样本丢失问题,特 别是在高度不平衡数据集中,移除过多负类样本使 得信息丢失严重,造成样本代表性差,严重背离初始 数据分布; 4)欠采样难以合理确定抽样比例参数。 针对过采样和欠采样方法存在的局限性,本文提 出基于动态平衡采样的不平衡数据集成分类方法,在 ·258· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有