正在加载图片...
第6期 石洪波,等:SMOTE过采样及其改进算法研究综述 ·1075· 数类样本的分布。如果SMOTE从处于类边界的 2 SMOTE的改进与扩展 少数类样本中合成新样本,其k近邻样本也处于 类的边界,则经插值合成的少数类样本同样会落 针对上述问题,不少学者开展了新的研究,旨 在两类的重叠区域,从而更加模糊两类的边界。 在提升SMOTE合成样本后数据的分类模型性 ③少数类分布问题 能。本文搜集并整理了SMOTE算法的主要相关 少数类样本分布不均匀,既有密集区也有稀 文献,并将其划分成SMOTE改进算法和其他方 疏区时,经SMOTE过采样合成的少数类样本根 法与SMOTE相结合的算法。 据近邻原则也会分布在相应的位置,即原少数类 2.1 SMOTE的改进算法 分布密集区经SMOTE后依然相对密集,而分布 多数SMOTE改进算法的关键在于根样本和 稀疏区依然相对稀疏,因此,分类算法不易识别 辅助样本的选择。由于根样本是少数类样本,如 稀疏区的少数类样本而影响分类的准确性。 果辅助样本分布在多数类周围时,则合成的新样 如果少数类样本分布稀疏且由若干碎片块组 本会加重两类的重叠。基于此,许多学者对SMOTE 成,即使采用SMOTE方法,生成的样本也极有可 做了相应的改进,以提高少数类的分类效果,部 能仍位于每个碎片块内,几乎不改变数据集的分 分经典的改进方法见表1。 布,导致识别稀疏区的样本更加困难。 表1 SMOTE改进算法 Table 1 The improved SMOTE algorithms 算法名 根样本 辅助样本 解决的问题 Borderline-SMOTE “Danger”类少数类样本 Danger'"类样本 ① Safe-Level-SMOTE 少数类样本 安全系数高的少数类样本 ①、② ADASYN 少数类样本 少数类样本 ① SMOM 少数类样本 安全方向的近邻样本 ①、② G-SMOTE 少数类样本 几何区域内的样本 ① 注:“解决的问题”见第1节,表2~表4的含义类似 Han等向只考虑分布在分类边界附近的少数 通过对辅助样本的选择,进而确定合成样本的位 类样本,并将其作为根样本,提出了Borderline- 置。SMOM算法通过给每个少数类样本:的 SMOTE方法。首先通过kNN方法将原始数据中 k个近邻方向分配不同的选择权重来改善SMOTE 的少数类样本划分成“Safe”、“Danger'”和Noise” 引起的过泛化问题,其中选择权重的大小代表沿 3类,其中“Danger'”类样本是指靠近分类边界的 该方向合成样本的概率,权重越大说明沿该方向 样本。根据SMOTE插值原理,对属于“Danger'” 合成的样本越安全。G-SMOTE算法o通过在每 类少数类样本进行过采样,可增加用于确定分类 个选定的少数类样本周围的几何区域内生成人工 边界的少数类样本。Safe-Level-SMOTE算法m则 样本,加强了SMOTE的数据生成机制。 关注SMOTE带来的类重叠问题,在合成新样本 2.2欠采样与SMOTE结合的方法 前分别给每个少数类样本分配一个安全系数,新 数据集中存在噪声样本时,采用SMOTE过 合成的样本更加接近安全系数高的样本,从而保 采样会加剧两类样本的重叠,从而影响该数据集 证新样本分布在安全区域内。ADASYN算法[I 的分类效果。文献[11-12]的实验结果表明,混合 根据少数类样本的分布自适应地改变不同少数类 采样后数据的分类模型性能往往优于单个采样方 样本的权重,自动地确定每个少数类样本需要合 法。融合欠采样和过采样的混合采样成为改进 成新样本的数量,为较难学习的样本合成更多的 SMOTE方法的一种新的思路,本文介绍了部分经 新样本,从而补偿偏态分布。SMOM算法是Zhu 典的融合算法,如表2所示。 等]为多类不平衡问题提出的一种过采样技术,数类样本的分布。如果 SMOTE 从处于类边界的 少数类样本中合成新样本,其 k 近邻样本也处于 类的边界,则经插值合成的少数类样本同样会落 在两类的重叠区域,从而更加模糊两类的边界。 ③ 少数类分布问题 少数类样本分布不均匀,既有密集区也有稀 疏区时,经 SMOTE 过采样合成的少数类样本根 据近邻原则也会分布在相应的位置,即原少数类 分布密集区经 SMOTE 后依然相对密集,而分布 稀疏区依然相对稀疏,因此,分类算法不易识别 稀疏区的少数类样本而影响分类的准确性。 如果少数类样本分布稀疏且由若干碎片块组 成,即使采用 SMOTE 方法,生成的样本也极有可 能仍位于每个碎片块内,几乎不改变数据集的分 布,导致识别稀疏区的样本更加困难。 2 SMOTE 的改进与扩展 针对上述问题,不少学者开展了新的研究,旨 在提升 SMOTE 合成样本后数据的分类模型性 能。本文搜集并整理了 SMOTE 算法的主要相关 文献,并将其划分成 SMOTE 改进算法和其他方 法与 SMOTE 相结合的算法。 2.1 SMOTE 的改进算法 多数 SMOTE 改进算法的关键在于根样本和 辅助样本的选择。由于根样本是少数类样本,如 果辅助样本分布在多数类周围时,则合成的新样 本会加重两类的重叠。基于此,许多学者对 SMOTE 做了相应的改进,以提高少数类的分类效果,部 分经典的改进方法见表 1。 表 1 SMOTE 改进算法 Table 1 The improved SMOTE algorithms 算法名 根样本 辅助样本 解决的问题 Borderline-SMOTE “Danger”类少数类样本 “Danger”类样本 ① Safe-Level-SMOTE 少数类样本 安全系数高的少数类样本 ①、② ADASYN 少数类样本 少数类样本 ① SMOM 少数类样本 安全方向的近邻样本 ①、② G-SMOTE 少数类样本 几何区域内的样本 ① 注:“解决的问题”见第1节,表2~表4的含义类似 Han 等 [6] 只考虑分布在分类边界附近的少数 类样本,并将其作为根样本,提出了 Borderline - SMOTE 方法。首先通过 k-NN 方法将原始数据中 的少数类样本划分成“Safe”、“Danger”和“Noise” 3 类,其中“Danger”类样本是指靠近分类边界的 样本。根据 SMOTE 插值原理,对属于“Danger” 类少数类样本进行过采样,可增加用于确定分类 边界的少数类样本。Safe-Level-SMOTE 算法[7] 则 关注 SMOTE 带来的类重叠问题,在合成新样本 前分别给每个少数类样本分配一个安全系数,新 合成的样本更加接近安全系数高的样本,从而保 证新样本分布在安全区域内。ADASYN 算法[8] 根据少数类样本的分布自适应地改变不同少数类 样本的权重,自动地确定每个少数类样本需要合 成新样本的数量,为较难学习的样本合成更多的 新样本,从而补偿偏态分布。SMOM 算法是 Zhu 等 [9] 为多类不平衡问题提出的一种过采样技术, xi 通过对辅助样本的选择,进而确定合成样本的位 置。SMOM 算法通过给每个少数类样本 的 k 个近邻方向分配不同的选择权重来改善 SMOTE 引起的过泛化问题,其中选择权重的大小代表沿 该方向合成样本的概率,权重越大说明沿该方向 合成的样本越安全。G-SMOTE 算法[10] 通过在每 个选定的少数类样本周围的几何区域内生成人工 样本,加强了 SMOTE 的数据生成机制。 2.2 欠采样与 SMOTE 结合的方法 数据集中存在噪声样本时,采用 SMOTE 过 采样会加剧两类样本的重叠,从而影响该数据集 的分类效果。文献 [11-12] 的实验结果表明,混合 采样后数据的分类模型性能往往优于单个采样方 法。融合欠采样和过采样的混合采样成为改进 SMOTE 方法的一种新的思路,本文介绍了部分经 典的融合算法,如表 2 所示。 第 6 期 石洪波,等:SMOTE 过采样及其改进算法研究综述 ·1075·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有