第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201906052 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190916.1054.004.html SMOTE过采样及其改进算法研究综述 石洪波,陈雨文,陈鑫 (山西财经大学信息学院,山西太原030031) 摘要:近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集 的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存 在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE 应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和 应用提供有价值的借鉴和参考。 关键词:不平衡数据分类;SMOTE;算法;kNN;过采样:欠采样:高维数据;分类型数据 中图分类号:TP391文献标志码:A文章编号:1673-47852019)06-1073-11 中文引用格式:石洪波,陈雨文,陈鑫.SM0TE过采样及其改进算法研究综述.智能系统学报,2019,14(6):1073-1083. 英文引用格式:SHI Hongbo,.CHEN Yuwen,CHEN Xin.Summary of research on SMOTE oversampling and its improved al-- gorithms[JI.CAAI transactions on intelligent systems,2019,14(6):1073-1083. Summary of research on SMOTE oversampling and its improved algorithms SHI Hongbo,CHEN Yuwen,CHEN Xin (School of Information,Shanxi University of Finance and Economics,Taiyuan,Shanxi,030031) Abstract:In recent years,the problem of imbalanced classification has received considerable attention.The synthetic minority oversampling technique(SMOTE),a popular method for improving the classification performance of imbal- anced data,adds generated minority samples to change the distribution of imbalanced data sets.In this paper,we first describe the fundamentals,algorithms,and existing problems of SMOTE.Then,with respect to the existing problems of SMOTE,we introduce related research on four types of extension methods and three types of applications.Finally,to provide valuable reference information for the research and application of SMOTE,we analyze the existing difficulties of applying SMOTE to big data,streaming data,a small amount of label data,and other types of data. Keywords:imbalanced data classification;SMOTE;algorithm;k-NN;oversampling;undersampling;high dimensional data;categorical data 不平衡数据的分类问题在疾病检测山、欺诈 在现实生活中,少数类样本的预测结果才是人们 检测以及故障诊断)等应用领域中受到了广泛 关注的重点,如疾病检测中,人们对阳性病人检 关注。不平衡数据是指类分布明显不均衡的数 测为阴性的容忍度要远远低于阴性病人检测为阳 据,其中样本数目多的类为多数类,而样本数目 性的容忍度。 少的类为少数类。由于少数类样本数目过少,导 为了提高不平衡数据的分类模型性能,近年 致传统分类器的准确率偏向于多数类,即便准确 来不少学者做了大量研究工作,主要分为算法层 率很高也无法保证少数类样本均分类正确。然而 面和数据层面。本文重点关注数据层面的研究。 收稿日期:2019-06-27.网络出版日期:2019-09-16. 在分类之前通过移除或添加一部分数据来平衡类 基金项目:国家自然科学基金资助项目(61801279):山西省自 然料学基金项目(201801D121115,2014011022-2). 分布是数据层面常用的做法,主要包括欠采样和 通信作者:石洪波.E-mail:shihb@sxufe.edu.cn 过采样。传统的处理不平衡数据集的采样方法主
DOI: 10.11992/tis.201906052 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190916.1054.004.html SMOTE 过采样及其改进算法研究综述 石洪波,陈雨文,陈鑫 (山西财经大学 信息学院,山西 太原 030031) 摘 要:近年来不平衡分类问题受到广泛关注。SMOTE 过采样通过添加生成的少数类样本改变不平衡数据集 的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了 SMOTE 的原理、算法以及存 在的问题,针对 SMOTE 存在的问题,分别介绍了其 4 种扩展方法和 3 种应用的相关研究,最后分析了 SMOTE 应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为 SMOTE 的研究和 应用提供有价值的借鉴和参考。 关键词:不平衡数据分类;SMOTE;算法;k-NN;过采样;欠采样;高维数据;分类型数据 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)06−1073−11 中文引用格式:石洪波, 陈雨文, 陈鑫. SMOTE 过采样及其改进算法研究综述 [J]. 智能系统学报, 2019, 14(6): 1073–1083. 英文引用格式:SHI Hongbo, CHEN Yuwen, CHEN Xin. Summary of research on SMOTE oversampling and its improved algorithms[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1073–1083. Summary of research on SMOTE oversampling and its improved algorithms SHI Hongbo,CHEN Yuwen,CHEN Xin (School of Information, Shanxi University of Finance and Economics, Taiyuan, Shanxi, 030031) Abstract: In recent years, the problem of imbalanced classification has received considerable attention. The synthetic minority oversampling technique (SMOTE), a popular method for improving the classification performance of imbalanced data, adds generated minority samples to change the distribution of imbalanced data sets. In this paper, we first describe the fundamentals, algorithms, and existing problems of SMOTE. Then, with respect to the existing problems of SMOTE, we introduce related research on four types of extension methods and three types of applications. Finally, to provide valuable reference information for the research and application of SMOTE, we analyze the existing difficulties of applying SMOTE to big data, streaming data, a small amount of label data, and other types of data. Keywords: imbalanced data classification; SMOTE; algorithm; k-NN; oversampling; undersampling; high dimensional data; categorical data 不平衡数据的分类问题在疾病检测[1] 、欺诈 检测[2] 以及故障诊断[3] 等应用领域中受到了广泛 关注。不平衡数据是指类分布明显不均衡的数 据,其中样本数目多的类为多数类,而样本数目 少的类为少数类。由于少数类样本数目过少,导 致传统分类器的准确率偏向于多数类,即便准确 率很高也无法保证少数类样本均分类正确。然而 在现实生活中,少数类样本的预测结果才是人们 关注的重点,如疾病检测中,人们对阳性病人检 测为阴性的容忍度要远远低于阴性病人检测为阳 性的容忍度。 为了提高不平衡数据的分类模型性能,近年 来不少学者做了大量研究工作,主要分为算法层 面和数据层面。本文重点关注数据层面的研究。 在分类之前通过移除或添加一部分数据来平衡类 分布是数据层面常用的做法,主要包括欠采样和 过采样。传统的处理不平衡数据集的采样方法主 收稿日期:2019−06−27. 网络出版日期:2019−09−16. 基金项目:国家自然科学基金资助项目 (61801279);山西省自 然科学基金项目 (201801D121115,2014011022-2). 通信作者:石洪波. E-mail:shihb@sxufe.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
·1074· 智能系统学报 第14卷 要有随机欠采样和随机过采样。随机欠采样是指 其中xeR4,xar是少数类中第i个样本的第at 随机地移除部分多数类样本,但该方法可能会丢 tr个属性值,atr=1,2,,d;y是[0,1]之间的随机 失部分有用的信息,导致分类器性能下降。随机 数;x是样本x的第j个近邻样本,j=12,…k; 过采样则是随机的复制少数类样本,使得数据的 xw代表在x与x:之间合成的新样本。从式(I) 类分布平衡,但该方法由于反复复制少数类样 可以看出,新样本xew是在样本x与x之间插 本,增加了分类模型过拟合的可能性。为解决上 值得到的样本,其具体算法如下所示。 述问题,Chawla等提出了SMOTE(synthetic ★少数类样本 minority oversampling technique)方法,该方法通过 ●多数类样本 在数据中增加人工合成的少数类样本使类分布平 合成新样本 衡,降低了过拟合的可能性,提高了分类器在测 试集上的泛化性能。 SMOTE为解决不平衡问题提供了新的方向, 成为处理不平衡数据有效的预处理技术,并成功 地应用于许多不同领域。SMOTE促进了解决不 平衡分类问题方法的产生,同时为新的监督学习 范式做出了重大贡献,如多标签分类、增量学习 图1 SMOTE算法插值说明图 半监督学习以及多实例学习等的。许多研究人员 Fig.1 The interpolation illustration of SMOTE algorithm 根据SMOTE提出了改进的算法,以克服SMOTE 算法SMOTE算法 导致的过泛化等问题,从而提高不同应用背景下 输入少数类样本集T,向上采样倍率n,样 不平衡问题的分类模型性能。SMOTE方法已经 本近邻数k: 成为现阶段不平衡分类领域的热点技术之一。在 输出合成少数类样本集S。 CNKI库与Web of Science核心集中,以“SMOTE” 1)fori=1to T do 为关键词的近10年的发文数量总体呈逐年上升 2)计算x:的k个近邻样本并存人X.集合; 趋势,其中2018年CNKI发文量达到61篇,SCI 3)for /=1 to n do 发文量达到106篇。而以“SMOTE”和“不平衡数 4)从X体中随机选取样本x; 据”为联合关键词的近10年的发文数量总体也呈 5)生成0,1]之间的随机数y: 上升趋势,这种现象说明了SMOTE研究不平衡 6)利用公式(1)合成x与x:间新样本 数据分类问题的重要性。此外,SMOTE论文 xn的每个属性值xaew,am; 在SCI库中的引用频次逐年上升,尤其在2018年 7)将xw添加到集合S中。 达到644次。这些数据从另一种角度说明了 8)endfor SMOTE方法的重要性。 9)endfor 1 SMOTE原理 SMOTE是基于特征空间的一种过采样方法, 在少数类样本及其最近邻样本间合成新特征,然 SMOTE方法是Chawla等提出的应用于不 后组成新样本。SMOTE通过人工合成样本缓解 平衡问题的数据预处理技术。不同于随机过采样 了由随机复制样本引起的过拟合,并在许多领域 的简单复制样本机制,SMOTE通过线性插值的方 得到了广泛应用,但同时也存在一些问题。 法在两个少数类样本间合成新的样本,从而有效 ①合成样本的质量问题 缓解了由随机过采样引起的过拟合问题。 由SMOTE算法可知,新样本的合成取决于 SMOTE的基本原理通过图1进行说明。首 根样本与辅助样本的选择。若根样本与辅助样本 先从少数类样本中依次选取每个样本:作为合 均处于少数类区域,则合成的新样本被视为是合 成新样本的根样本;其次根据向上采样倍率n,从 理的。然而,若根样本与辅助样本中有一个属于 x:的同类别的k(k一般为奇数,如=5)个近邻样 噪声样本,则新样本将极有可能落在多数类区 本中随机选择一个样本作为合成新样本的辅助样 域,即新样本将会成为噪声而扰乱数据集的正确 本,重复n次:然后在样本x:与每个辅助样本间 分类,此时该新样本通常被视为不合理的。 通过式(1)进行线性插值,最终生成n个合成样本。 ②模糊类边界问题 Xnew attr Xiattr +(Xijarr -Xiatt)Xy (1) SMOTE算法在合成少数类样本时不考虑多
要有随机欠采样和随机过采样。随机欠采样是指 随机地移除部分多数类样本,但该方法可能会丢 失部分有用的信息,导致分类器性能下降。随机 过采样则是随机的复制少数类样本,使得数据的 类分布平衡,但该方法由于反复复制少数类样 本,增加了分类模型过拟合的可能性。为解决上 述问题,Chawla 等 [ 4 ] 提出了 SMOTE(synthetic minority oversampling technique) 方法,该方法通过 在数据中增加人工合成的少数类样本使类分布平 衡,降低了过拟合的可能性,提高了分类器在测 试集上的泛化性能。 SMOTE 为解决不平衡问题提供了新的方向, 成为处理不平衡数据有效的预处理技术,并成功 地应用于许多不同领域。SMOTE 促进了解决不 平衡分类问题方法的产生,同时为新的监督学习 范式做出了重大贡献,如多标签分类、增量学习、 半监督学习以及多实例学习等[5]。许多研究人员 根据 SMOTE 提出了改进的算法,以克服 SMOTE 导致的过泛化等问题,从而提高不同应用背景下 不平衡问题的分类模型性能。SMOTE 方法已经 成为现阶段不平衡分类领域的热点技术之一。在 CNKI 库与 Web of Science 核心集中,以“SMOTE” 为关键词的近 10 年的发文数量总体呈逐年上升 趋势,其中 2018 年 CNKI 发文量达到 61 篇,SCI 发文量达到 106 篇。而以“SMOTE”和“不平衡数 据”为联合关键词的近 10 年的发文数量总体也呈 上升趋势,这种现象说明了 SMOTE 研究不平衡 数据分类问题的重要性。此外,SMOTE 论文[4] 在 SCI 库中的引用频次逐年上升,尤其在 2018 年 达到 644 次。这些数据从另一种角度说明了 SMOTE 方法的重要性。 1 SMOTE 原理 SMOTE 方法是 Chawla 等 [4] 提出的应用于不 平衡问题的数据预处理技术。不同于随机过采样 的简单复制样本机制,SMOTE 通过线性插值的方 法在两个少数类样本间合成新的样本,从而有效 缓解了由随机过采样引起的过拟合问题。 xi xi xi SMOTE 的基本原理通过图 1 进行说明。首 先从少数类样本中依次选取每个样本 作为合 成新样本的根样本;其次根据向上采样倍率 n,从 的同类别的 k(k 一般为奇数,如 k=5) 个近邻样 本中随机选择一个样本作为合成新样本的辅助样 本,重复 n 次;然后在样本 与每个辅助样本间 通过式 (1) 进行线性插值,最终生成 n 个合成样本。 xnew,attr = xi,attr +(xi j,attr − xi,attr)×γ (1) xi ∈ R d xi,attr attr = 1,2,··· ,d γ xi j xi j = 1,2,··· k xnew xi j xi xnew xi j xi 其中 , 是少数类中第 i 个样本的第 attr 个属性值, ; 是 [0, 1] 之间的随机 数; 是样本 的第 j 个近邻样本, ; 代表在 与 之间合成的新样本。从式 (1) 可以看出,新样本 是在样本 与 之间插 值得到的样本,其具体算法如下所示。 算法 SMOTE 算法 输入 少数类样本集 T,向上采样倍率 n,样 本近邻数 k; 输出 合成少数类样本集 S。 1) for i = 1 to |T | do 2) 计算 xi 的 k 个近邻样本并存入 Xik 集合; 3) for l = 1 to n do 4) 从 Xik 中随机选取样本 xi j ; 5) 生成 [0, 1] 之间的随机数 γ ; xi j xi xnew xnew,attr 6) 利用公式 (1) 合成 与 间新样本 的每个属性值 ; 7) 将 xnew 添加到集合 S 中。 8) endfor 9) endfor SMOTE 是基于特征空间的一种过采样方法, 在少数类样本及其最近邻样本间合成新特征,然 后组成新样本。SMOTE 通过人工合成样本缓解 了由随机复制样本引起的过拟合,并在许多领域 得到了广泛应用,但同时也存在一些问题。 ① 合成样本的质量问题 由 SMOTE 算法可知,新样本的合成取决于 根样本与辅助样本的选择。若根样本与辅助样本 均处于少数类区域,则合成的新样本被视为是合 理的。然而,若根样本与辅助样本中有一个属于 噪声样本,则新样本将极有可能落在多数类区 域,即新样本将会成为噪声而扰乱数据集的正确 分类,此时该新样本通常被视为不合理的。 ② 模糊类边界问题 SMOTE 算法在合成少数类样本时不考虑多 xi xi1 xi2 xi3 xi4 xi5 少数类样本 多数类样本 合成新样本 xnew 图 1 SMOTE 算法插值说明图 Fig. 1 The interpolation illustration of SMOTE algorithm ·1074· 智 能 系 统 学 报 第 14 卷
第6期 石洪波,等:SMOTE过采样及其改进算法研究综述 ·1075· 数类样本的分布。如果SMOTE从处于类边界的 2 SMOTE的改进与扩展 少数类样本中合成新样本,其k近邻样本也处于 类的边界,则经插值合成的少数类样本同样会落 针对上述问题,不少学者开展了新的研究,旨 在两类的重叠区域,从而更加模糊两类的边界。 在提升SMOTE合成样本后数据的分类模型性 ③少数类分布问题 能。本文搜集并整理了SMOTE算法的主要相关 少数类样本分布不均匀,既有密集区也有稀 文献,并将其划分成SMOTE改进算法和其他方 疏区时,经SMOTE过采样合成的少数类样本根 法与SMOTE相结合的算法。 据近邻原则也会分布在相应的位置,即原少数类 2.1 SMOTE的改进算法 分布密集区经SMOTE后依然相对密集,而分布 多数SMOTE改进算法的关键在于根样本和 稀疏区依然相对稀疏,因此,分类算法不易识别 辅助样本的选择。由于根样本是少数类样本,如 稀疏区的少数类样本而影响分类的准确性。 果辅助样本分布在多数类周围时,则合成的新样 如果少数类样本分布稀疏且由若干碎片块组 本会加重两类的重叠。基于此,许多学者对SMOTE 成,即使采用SMOTE方法,生成的样本也极有可 做了相应的改进,以提高少数类的分类效果,部 能仍位于每个碎片块内,几乎不改变数据集的分 分经典的改进方法见表1。 布,导致识别稀疏区的样本更加困难。 表1 SMOTE改进算法 Table 1 The improved SMOTE algorithms 算法名 根样本 辅助样本 解决的问题 Borderline-SMOTE “Danger”类少数类样本 Danger'"类样本 ① Safe-Level-SMOTE 少数类样本 安全系数高的少数类样本 ①、② ADASYN 少数类样本 少数类样本 ① SMOM 少数类样本 安全方向的近邻样本 ①、② G-SMOTE 少数类样本 几何区域内的样本 ① 注:“解决的问题”见第1节,表2~表4的含义类似 Han等向只考虑分布在分类边界附近的少数 通过对辅助样本的选择,进而确定合成样本的位 类样本,并将其作为根样本,提出了Borderline- 置。SMOM算法通过给每个少数类样本:的 SMOTE方法。首先通过kNN方法将原始数据中 k个近邻方向分配不同的选择权重来改善SMOTE 的少数类样本划分成“Safe”、“Danger'”和Noise” 引起的过泛化问题,其中选择权重的大小代表沿 3类,其中“Danger'”类样本是指靠近分类边界的 该方向合成样本的概率,权重越大说明沿该方向 样本。根据SMOTE插值原理,对属于“Danger'” 合成的样本越安全。G-SMOTE算法o通过在每 类少数类样本进行过采样,可增加用于确定分类 个选定的少数类样本周围的几何区域内生成人工 边界的少数类样本。Safe-Level-SMOTE算法m则 样本,加强了SMOTE的数据生成机制。 关注SMOTE带来的类重叠问题,在合成新样本 2.2欠采样与SMOTE结合的方法 前分别给每个少数类样本分配一个安全系数,新 数据集中存在噪声样本时,采用SMOTE过 合成的样本更加接近安全系数高的样本,从而保 采样会加剧两类样本的重叠,从而影响该数据集 证新样本分布在安全区域内。ADASYN算法[I 的分类效果。文献[11-12]的实验结果表明,混合 根据少数类样本的分布自适应地改变不同少数类 采样后数据的分类模型性能往往优于单个采样方 样本的权重,自动地确定每个少数类样本需要合 法。融合欠采样和过采样的混合采样成为改进 成新样本的数量,为较难学习的样本合成更多的 SMOTE方法的一种新的思路,本文介绍了部分经 新样本,从而补偿偏态分布。SMOM算法是Zhu 典的融合算法,如表2所示。 等]为多类不平衡问题提出的一种过采样技术
数类样本的分布。如果 SMOTE 从处于类边界的 少数类样本中合成新样本,其 k 近邻样本也处于 类的边界,则经插值合成的少数类样本同样会落 在两类的重叠区域,从而更加模糊两类的边界。 ③ 少数类分布问题 少数类样本分布不均匀,既有密集区也有稀 疏区时,经 SMOTE 过采样合成的少数类样本根 据近邻原则也会分布在相应的位置,即原少数类 分布密集区经 SMOTE 后依然相对密集,而分布 稀疏区依然相对稀疏,因此,分类算法不易识别 稀疏区的少数类样本而影响分类的准确性。 如果少数类样本分布稀疏且由若干碎片块组 成,即使采用 SMOTE 方法,生成的样本也极有可 能仍位于每个碎片块内,几乎不改变数据集的分 布,导致识别稀疏区的样本更加困难。 2 SMOTE 的改进与扩展 针对上述问题,不少学者开展了新的研究,旨 在提升 SMOTE 合成样本后数据的分类模型性 能。本文搜集并整理了 SMOTE 算法的主要相关 文献,并将其划分成 SMOTE 改进算法和其他方 法与 SMOTE 相结合的算法。 2.1 SMOTE 的改进算法 多数 SMOTE 改进算法的关键在于根样本和 辅助样本的选择。由于根样本是少数类样本,如 果辅助样本分布在多数类周围时,则合成的新样 本会加重两类的重叠。基于此,许多学者对 SMOTE 做了相应的改进,以提高少数类的分类效果,部 分经典的改进方法见表 1。 表 1 SMOTE 改进算法 Table 1 The improved SMOTE algorithms 算法名 根样本 辅助样本 解决的问题 Borderline-SMOTE “Danger”类少数类样本 “Danger”类样本 ① Safe-Level-SMOTE 少数类样本 安全系数高的少数类样本 ①、② ADASYN 少数类样本 少数类样本 ① SMOM 少数类样本 安全方向的近邻样本 ①、② G-SMOTE 少数类样本 几何区域内的样本 ① 注:“解决的问题”见第1节,表2~表4的含义类似 Han 等 [6] 只考虑分布在分类边界附近的少数 类样本,并将其作为根样本,提出了 Borderline - SMOTE 方法。首先通过 k-NN 方法将原始数据中 的少数类样本划分成“Safe”、“Danger”和“Noise” 3 类,其中“Danger”类样本是指靠近分类边界的 样本。根据 SMOTE 插值原理,对属于“Danger” 类少数类样本进行过采样,可增加用于确定分类 边界的少数类样本。Safe-Level-SMOTE 算法[7] 则 关注 SMOTE 带来的类重叠问题,在合成新样本 前分别给每个少数类样本分配一个安全系数,新 合成的样本更加接近安全系数高的样本,从而保 证新样本分布在安全区域内。ADASYN 算法[8] 根据少数类样本的分布自适应地改变不同少数类 样本的权重,自动地确定每个少数类样本需要合 成新样本的数量,为较难学习的样本合成更多的 新样本,从而补偿偏态分布。SMOM 算法是 Zhu 等 [9] 为多类不平衡问题提出的一种过采样技术, xi 通过对辅助样本的选择,进而确定合成样本的位 置。SMOM 算法通过给每个少数类样本 的 k 个近邻方向分配不同的选择权重来改善 SMOTE 引起的过泛化问题,其中选择权重的大小代表沿 该方向合成样本的概率,权重越大说明沿该方向 合成的样本越安全。G-SMOTE 算法[10] 通过在每 个选定的少数类样本周围的几何区域内生成人工 样本,加强了 SMOTE 的数据生成机制。 2.2 欠采样与 SMOTE 结合的方法 数据集中存在噪声样本时,采用 SMOTE 过 采样会加剧两类样本的重叠,从而影响该数据集 的分类效果。文献 [11-12] 的实验结果表明,混合 采样后数据的分类模型性能往往优于单个采样方 法。融合欠采样和过采样的混合采样成为改进 SMOTE 方法的一种新的思路,本文介绍了部分经 典的融合算法,如表 2 所示。 第 6 期 石洪波,等:SMOTE 过采样及其改进算法研究综述 ·1075·
·1076· 智能系统学报 第14卷 表2欠采样与SMOTE结合的方法 Table 2 Methods combining undersampling with SMOTE 算法名 欠采样方法 过采样方法 解决的问题 AdaBoost-SVM-MSA 直接删除法、约除法 SMOTE ①、② BDSK 基于k-means欠采样 SMOTE ① BMS OSED随机欠采样 SMOTE ①、③ OSSU-SMOTEO oSS SMOTE ①、② Hybrid Sampling DBSCAN、KNN欠采样 SMOTE ①、② SDS-SMOT SDS SMOTE ② SVM-HS 直接删除法 SMOTE ① AdaBoost--SVM-MSA算法I)按一定规则将 在预测蛋白质s-磺酰化位点的分类精度。文献 SVM分错的样本划分成噪声样本、危险样本与安 [I8]的Hybrid Sampling使用DBSCAN和KNN剔 全样本,然后直接删除噪声样本,采用约除法处 除多数类中的模糊样本;然后采用SMOTE对重 理危险样本,并对安全样本进行SMOTE过采 叠区域的少数类样本过采样,达到平衡数据集的 样。基于聚类的混合采样(BDSK)将SMOTE 日的。SDS-SMOT算法11利用安全双筛选丢弃 的过采样与基于K-means的欠采样相结合,旨在 远离决策边界的多数类样本和噪声样本,实现原 扩大少数类样本集的同时有效别除噪声样本。 始数据集的欠采样,采用SMOTE合成新样本实 BMS算法1通过设置变异系数阈值将样本划分 现过采样,使数据集达到基本平衡。基于SVM 成边界域和非边界域,然后使用SMOTE以及基 分类超平面的混合采样算法(SVM HS)分别对多 于欧氏距离的随机欠采样方法(OSED)6分别对 数类样本和较为重要的少数类样本进行欠采样和 边界域的少数类样本和非边界域的多数类样本进 过采样从而平衡数据集。 行采样,旨在解决在剔除噪声时由于误删少数类 2.3过滤技术与SMOTE结合的方法 样本而丢失部分样本信息的问题。OSSU-SMOTEO 混合采样是克服不平衡问题中噪声样本的一 算法叨使用单边选择(OSS)欠采样移除多数类样 种手段,然而结合噪声过滤技术同样可以消除由 本中冗余样本和边界样本,然后采用SMOTE对 SMOTE合成的错误样本,如表3所示。常见的过 少数类样本过采样,从而平衡数据集,提高SVM 滤技术包括基于粗糙集的过滤、数据清洗等。 表3过滤技术与SMOTE结合的方法 Table 3 Methods combining filtering technique with SMOTE 算法名 过滤技术 过采样方法 解决的问题 SMOTE-RSB* RST SMOTE ①、② SMOTE-IPF IPF SMOTE ①、② BST-CF CF SMOTE ② SSMNFOS SSM SMOTE ①、② NN-FRIS-SMOTE RSIS SMOTE ①、② SMOTE-Tomek Tomek SMOTE ①、② SMOTE-ENN ENN SMOTE ② Ramentol等2)将粗糙集理论的编辑技术与 采样方法对噪声样本的鲁棒性。NN-FRIS-SMOTE SMOTE算法融合,提出了SMOTE-RSB*算法。 算法则先筛选出代表性的样本,再使用模糊粗 SMOTE-IPF算法22采用迭代分区滤波器(iterat-- 糙实例选择(RSIS)技术过滤噪声样本,然后使用 ive-partitioning filter,IPF)将噪声过滤器与 SMOTE过采样少数类样本,从而增加了正确识别 SMOTE融合,旨在克服不平衡问题中的噪声和边 产品缺陷的可能性。基于数据清洗的过滤算法中 界问题。BST-CF算法2)将SMOTE与噪声过滤 典型的有SMOTE-Tomek和SMOTE-ENN算 器CF(classification filter)结合,在平衡数据集的同 法2a,SMOTE-Tomek利用SMOTE对原始数据过 时,从多数类中消除位于边界区域的噪声样本。 采样来扩大样本集,移除采样后数据集中的Tome SSMNFOS算法2是一种基于随机灵敏度测量 Link对,从而删除类间重叠的样本,其中Tome (SSM)的噪声过滤和过采样的方法,从而提高过 Link对是指分属不同类别且距离最近的一对样
表 2 欠采样与 SMOTE 结合的方法 Table 2 Methods combining undersampling with SMOTE 算法名 欠采样方法 过采样方法 解决的问题 AdaBoost-SVM-MSA 直接删除法、约除法 SMOTE ①、② BDSK 基于k-means欠采样 SMOTE ① BMS OSED随机欠采样 SMOTE ①、③ OSSU- SMOTEO OSS SMOTE ①、② Hybrid Sampling[18] DBSCAN、KNN欠采样 SMOTE ①、② SDS-SMOT SDS SMOTE ② SVM-HS 直接删除法 SMOTE ① AdaBoost-SVM-MSA 算法[13] 按一定规则将 SVM 分错的样本划分成噪声样本、危险样本与安 全样本,然后直接删除噪声样本,采用约除法处 理危险样本,并对安全样本进行 SMOTE 过采 样。基于聚类的混合采样 (BDSK)[14] 将 SMOTE 的过采样与基于 K-means 的欠采样相结合,旨在 扩大少数类样本集的同时有效剔除噪声样本。 BMS 算法[15] 通过设置变异系数阈值将样本划分 成边界域和非边界域,然后使用 SMOTE 以及基 于欧氏距离的随机欠采样方法 (OSED)[16] 分别对 边界域的少数类样本和非边界域的多数类样本进 行采样,旨在解决在剔除噪声时由于误删少数类 样本而丢失部分样本信息的问题。OSSU-SMOTEO 算法[17] 使用单边选择 (OSS) 欠采样移除多数类样 本中冗余样本和边界样本,然后采用 SMOTE 对 少数类样本过采样,从而平衡数据集,提高 SVM 在预测蛋白质 s-磺酰化位点的分类精度。文献 [18] 的 Hybrid Sampling 使用 DBSCAN 和 KNN 剔 除多数类中的模糊样本;然后采用 SMOTE 对重 叠区域的少数类样本过采样,达到平衡数据集的 目的。SDS-SMOT 算法[19] 利用安全双筛选丢弃 远离决策边界的多数类样本和噪声样本,实现原 始数据集的欠采样,采用 SMOTE 合成新样本实 现过采样,使数据集达到基本平衡。基于 SVM 分类超平面的混合采样算法 (SVM_HS) 分别对多 数类样本和较为重要的少数类样本进行欠采样和 过采样从而平衡数据集[20]。 2.3 过滤技术与 SMOTE 结合的方法 混合采样是克服不平衡问题中噪声样本的一 种手段,然而结合噪声过滤技术同样可以消除由 SMOTE 合成的错误样本,如表 3 所示。常见的过 滤技术包括基于粗糙集的过滤、数据清洗等。 表 3 过滤技术与 SMOTE 结合的方法 Table 3 Methods combining filtering technique with SMOTE 算法名 过滤技术 过采样方法 解决的问题 SMOTE-RSB* RST SMOTE ①、② SMOTE-IPF IPF SMOTE ①、② BST-CF CF SMOTE ② SSMNFOS SSM SMOTE ①、② NN-FRIS-SMOTE RSIS SMOTE ①、② SMOTE-Tomek Tomek SMOTE ①、② SMOTE-ENN ENN SMOTE ② Ramentol 等 [21] 将粗糙集理论的编辑技术与 SMOTE 算法融合,提出了 SMOTE-RSB*算法。 SMOTE-IPF 算法[22] 采用迭代分区滤波器 (iterative-partitioning filter, IPF) 将噪声过滤器与 SMOTE 融合,旨在克服不平衡问题中的噪声和边 界问题。BST-CF 算法[23] 将 SMOTE 与噪声过滤 器 CF(classification filter) 结合,在平衡数据集的同 时,从多数类中消除位于边界区域的噪声样本。 SSMNFOS 算法[24] 是一种基于随机灵敏度测量 (SSM) 的噪声过滤和过采样的方法,从而提高过 采样方法对噪声样本的鲁棒性。NN-FRIS-SMOTE 算法[25] 则先筛选出代表性的样本,再使用模糊粗 糙实例选择 (RSIS) 技术过滤噪声样本,然后使用 SMOTE 过采样少数类样本,从而增加了正确识别 产品缺陷的可能性。基于数据清洗的过滤算法中 典型的有 SMOTE-Tomek 和 SMOTE-ENN 算 法 [26] ,SMOTE-Tomek 利用 SMOTE 对原始数据过 采样来扩大样本集,移除采样后数据集中的 Tome Link 对,从而删除类间重叠的样本,其中 Tome Link 对是指分属不同类别且距离最近的一对样 ·1076· 智 能 系 统 学 报 第 14 卷
第6期 石洪波,等:SMOTE过采样及其改进算法研究综述 ·1077· 本,这类样本通常位于类间或者是噪声样本。 另一种思路,其主要策略通常有两种:一是直接 SMOTE-ENN则是通过对采样后的数据集采用k 采用聚类算法将少数类样本划分成多个簇,在簇 NN方法分类,进而剔除判错的样本。 内进行插值;二是利用聚类算法识别样本类型, 2.4聚类算法与SMOTE结合的方法 对不同类型的样本采用不同的方式处理,然后再 聚类算法和SMOTE结合是调整数据分布的 使用SMOTE进行过采样,部分算法如表4所示。 表4聚类算法与SMOTE结合的方法 Table 4 Methods combining clustering algorithm with SMOTE 算法名 聚类算法 策略 解决的问题 MWMOTE 平均连接聚合聚类 簇内插值 ③ FCMSMT FCM 簇内插值 ③ K-means SMOTE K-means 簇内插值 ① CB-SMOTE FCM 识别边界样本 ① CURE-SMOTE CURE 识别噪声样本 ①、② HPM DBSCAN 识别噪声样本 ①、② IDP-SMOTE Improved-DP 识别噪声样本 ①、③ MWMOTE算法2按照与多数类样本的距离 见的做法是在分类前使用现有的技术对数据进行 对难以学习的少数类样本分配权重,采用聚类算 降维,然后在新的维度空间下学习。常见的降维 法从加权的少数类样本合成样本,从而保证这些 技术有主成分分析(PCA)Bs1、特征选择、Bag 新样本位于少数类区域内。对于多类不平衡问 ging、内核函数(kernel functions)升、流形技术 题,FCMSMT算法2]使用模糊C均值(FCM0对 (manifold techniques)31和自动编码器(auto-en- 样本多的目标类聚类,选出与平均样本数相同数 coders))9等。 量的样本,而对样本少的目标类使用SMOTE过 Li等[o1提出了基于LASSO的特征选择模 采样,从而降低类内与类间的错误,提高分类性 型,首先使用特征选择和其他方法删除数据中冗 能。K-means SMOTE算法2利用K-means对输 余和不相关的特征,然后采用基于LASSO的特征 入数据集聚类,在少数类样本多的簇内进行SMOTE 权重选择模型增加关键数据的权重,再利用SM- 过采样,从而避免噪声的生成,有效改善类间不 OTE平衡数据集,从而有效消除高维数据中噪声 平衡。 和不相关数据。Zhang等a通过改进的SVM CB-SMOTE算法Bo根据“聚类一致性系数”找 RFE算法(SVM-BRFE)对高维数据进行特征选 出少数类的边界样本,再根据最近邻密度删除噪 择,并采用改进的重采样PBKS算法对不平衡数 声样本,同时确定合成样本的数量,然后从这些 据进行过采样,提出了针对高维不平衡数据二分 边界样本中人工合成新样本。CURE-SMOTE算 类的BRFE-PBKS-SVM算法。在处理高维不平衡 法BJ采用CURE(clustering using representatives) 的医疗数据时,许召召等到将SMOTE与Filter-. 对少数类样本聚类并移除噪声和离群点,然后使 Wrapper特征选择算法相融合,并将其应用于支 用SMOTE在代表性样本和中心样本间插值以平 持临床医疗决策。Guo等4,使用基于随机森林 衡数据集。HPM算法B通过整合DBSCAN的离 (RF)的特征选择方法降低计算复杂度,然后通过 群检测、SMOTE和随机森林,从而成功预测糖尿 结合SMOTE和Tomek Link的重采样平衡数据 病和高血压疾病。IDP-SMOTE算法B利用改进 集,从而提高膜蛋白预测的准确性。 的密度峰值聚类算法(improved-DP)对各个类进 3.2面向回归问题的SMOTE 行聚类,识别并剔除噪声样本,然后采用自适应 不平衡数据的回归问题是指预测连续目标变 的方法对每个少数类样本进行SMOTE过采样。 量的罕见值的问题。目标变量为离散值的不平衡 3面向特定应用背景的SMOTE 分类问题一直以来得到了深入的研究,而不平衡 回归问题的研究成果却少之又少。回归问题可以 3.1面向高维数据的SMOTE 分为两类:传统回归与序数回归。 高维不平横数据中的数据分布稀疏、特征冗 传统回归是指在不考虑数据集有序特性的情 余或特征不相关等问题是影响传统学习算法难以 况下,对连续型目标变量的预测问题。SMOTER 识别少数类样本的原因。SMOTE在处理这类问 算法4]是处理不平衡回归数据的一种改进的 题时效果甚至不如随机欠采样方法,而目前常 SMOTE过采样方法,通过人为给定的阈值将极少
本,这类样本通常位于类间或者是噪声样本。 SMOTE-ENN 则是通过对采样后的数据集采用 kNN 方法分类,进而剔除判错的样本。 2.4 聚类算法与 SMOTE 结合的方法 聚类算法和 SMOTE 结合是调整数据分布的 另一种思路,其主要策略通常有两种:一是直接 采用聚类算法将少数类样本划分成多个簇,在簇 内进行插值;二是利用聚类算法识别样本类型, 对不同类型的样本采用不同的方式处理,然后再 使用 SMOTE 进行过采样,部分算法如表 4 所示。 表 4 聚类算法与 SMOTE 结合的方法 Table 4 Methods combining clustering algorithm with SMOTE 算法名 聚类算法 策略 解决的问题 MWMOTE 平均连接聚合聚类 簇内插值 ③ FCMSMT FCM 簇内插值 ③ K-means SMOTE K-means 簇内插值 ① CB-SMOTE FCM 识别边界样本 ① CURE-SMOTE CURE 识别噪声样本 ①、② HPM DBSCAN 识别噪声样本 ①、② IDP-SMOTE Improved-DP 识别噪声样本 ①、③ MWMOTE 算法[27] 按照与多数类样本的距离 对难以学习的少数类样本分配权重,采用聚类算 法从加权的少数类样本合成样本,从而保证这些 新样本位于少数类区域内。对于多类不平衡问 题,FCMSMT 算法[28] 使用模糊 C 均值 (FCM) 对 样本多的目标类聚类,选出与平均样本数相同数 量的样本,而对样本少的目标类使用 SMOTE 过 采样,从而降低类内与类间的错误,提高分类性 能。K-means SMOTE 算法[29] 利用 K-means 对输 入数据集聚类,在少数类样本多的簇内进行 SMOTE 过采样,从而避免噪声的生成,有效改善类间不 平衡。 CB-SMOTE 算法[30] 根据“聚类一致性系数”找 出少数类的边界样本,再根据最近邻密度删除噪 声样本,同时确定合成样本的数量,然后从这些 边界样本中人工合成新样本。CURE-SMOTE 算 法 [31] 采用 CURE(clustering using representatives) 对少数类样本聚类并移除噪声和离群点,然后使 用 SMOTE 在代表性样本和中心样本间插值以平 衡数据集。HPM 算法[32] 通过整合 DBSCAN 的离 群检测、SMOTE 和随机森林,从而成功预测糖尿 病和高血压疾病。IDP-SMOTE 算法[33] 利用改进 的密度峰值聚类算法 (improved-DP) 对各个类进 行聚类,识别并剔除噪声样本,然后采用自适应 的方法对每个少数类样本进行 SMOTE 过采样。 3 面向特定应用背景的 SMOTE 3.1 面向高维数据的 SMOTE 高维不平横数据中的数据分布稀疏、特征冗 余或特征不相关等问题是影响传统学习算法难以 识别少数类样本的原因。SMOTE 在处理这类问 题时效果甚至不如随机欠采样方法[34] ,而目前常 见的做法是在分类前使用现有的技术对数据进行 降维,然后在新的维度空间下学习。常见的降维 技术有主成分分析 (PCA)[ 3 5 ] 、特征选择、Bagging[36] 、内核函数 (kernel functions)[37] 、流形技术 (manifold techniques)[38] 和自动编码器 (auto-encoders)[39] 等。 Li 等 [40] 提出了基于 LASSO 的特征选择模 型,首先使用特征选择和其他方法删除数据中冗 余和不相关的特征,然后采用基于 LASSO 的特征 权重选择模型增加关键数据的权重,再利用 SMOTE 平衡数据集,从而有效消除高维数据中噪声 和不相关数据。Zhang 等 [41] 通过改进的 SVMRFE[42] 算法 (SVM-BRFE) 对高维数据进行特征选 择,并采用改进的重采样 PBKS 算法对不平衡数 据进行过采样,提出了针对高维不平衡数据二分 类的 BRFE-PBKS-SVM 算法。在处理高维不平衡 的医疗数据时,许召召等[43] 将 SMOTE 与 FilterWrapper 特征选择算法相融合,并将其应用于支 持临床医疗决策。Guo 等 [44] 使用基于随机森林 (RF) 的特征选择方法降低计算复杂度,然后通过 结合 SMOTE 和 Tomek Link 的重采样平衡数据 集,从而提高膜蛋白预测的准确性。 3.2 面向回归问题的 SMOTE 不平衡数据的回归问题是指预测连续目标变 量的罕见值的问题。目标变量为离散值的不平衡 分类问题一直以来得到了深入的研究,而不平衡 回归问题的研究成果却少之又少。回归问题可以 分为两类:传统回归与序数回归。 传统回归是指在不考虑数据集有序特性的情 况下,对连续型目标变量的预测问题。SMOTER 算法[ 4 5 ] 是处理不平衡回归数据的一种改进的 SMOTE 过采样方法,通过人为给定的阈值将极少 第 6 期 石洪波,等:SMOTE 过采样及其改进算法研究综述 ·1077·
·1078· 智能系统学报 第14卷 数实例定义成极高值和极低值,并将这两种类型 新样本的特征是从根样本与辅助样本对应的特征 作为单独的情况处理,而合成样本的目标变量值 间插值产生,而插值的关键在于距离的度量。SM 则是通过两个所选样本目标变量的加权平均值确 OTE过采样所选择的欧氏距离只能处理数值型 定。Moniz等a61考虑时间序列的特性,将SMO- 数据,而对分类型数据过采样的方法有两种:分 TER算法推广到不平衡的时间序列问题中,从而 类型数据数值化和改进距离度量公式。 提出了SMB、SMT和SM_TPhi3种方法。Branco 分类型数据数值化方法对数值化后的数据使 等7结合SMOTER方法,提出了基于bagging的 用SMOTE插值,是处理分类型数据常用的方法 集成方法(REBAGG),以解决不平衡回归问题。 之一。然而,插值后属性值是否合理是SMOTE 序数回归则考虑数据集的有序特征,将原始 方法面临的问题。Chawla等对含有分类型属性 数据的目标变量值按人为给定的阈值依次划分成 数据分别提出了SMOTE-NC和SMOTE-N算法, 多个有序的类标签,然后对这些类标签分类。在 前者仍采用欧氏距离来计算,对分类型属性间的 序数回归的有序类标签中,两端的类通常是极端 距离则采用连续属性标准差的中值来代替;后者 情况,这类样本也占少数,因此序数回归本质上 则采用VDM(value difference metric)距离公式o 是一种类不平衡问题。Perez-Ortiz等481提出了 来度量两个样本间的距离。Kurniawati等s OGONI,OGOISP和OGOSP3种基于图的过采样 也利用VDM改进了ADASYN,提出了ADASYN 方法,旨在平衡有序信息。但是,这3种方法只考 N和ADASYN-KNN算法,用来处理具有分类型 虑到少数类及其相邻类的局部排序,忽略了其他 数据的多类数据集。针对含有分类型属性的距离 类的排序。因此,Zhu等4提出了SMOR算法, 度量,现阶段已经得到了广泛研究,相比VDM度 对每个少数类样本,找到与其类别相同和相邻的 量,HVDM(heterogeneous value difference metric)度 k个近邻样本,沿每个近邻样本分配不同的权重, 量$在处理混合属性的数据时更具优势。其他 以控制合成的样本更加靠近少数类,从而保证样 处理含有分类型属性的距离度量包括Ahmad's 本结构的有序性。 距离度量s!、KL散度s以及基于context的距离 3.3面向分类型数据的SMOTE 度量等。图2总结了上述3种不同应用背景下 SMOTE过采样是从特征的角度生成新样本, 处理不平衡数据的相关技术或方法。 基于LASSO的特征选择+SMOTE SVM-BRFE PBKS $ 处理方法 Filter-Wrapper SMOTE 维 数 基于RF的特征选择+ 据 SMOTE Tomek Link PCA、Bagging、核函数 流形技术、自动编码 相关降维技术 SMOTER 特定应用 背景下的 SMB、SMT、SM TPhi 传统回归 SMOTE改 进算法 REBAGG 据 SMOR 序数回归 OGONI、OGOISP、OGOSP 数值化编码 外 SMOTE-NC、SMOTE-N 类型数 结合距离度量方法 ADASYN-N、ADASYN-KNN VDM、HVDM、Ahmad's距离度量 KL散度、基于context的度量 距离度量 图2面向不同应用的SMOTE改进方法 Fig.2 The improved SMOTE methods for different applications
数实例定义成极高值和极低值,并将这两种类型 作为单独的情况处理,而合成样本的目标变量值 则是通过两个所选样本目标变量的加权平均值确 定。Moniz 等 [46] 考虑时间序列的特性,将 SMOTER 算法推广到不平衡的时间序列问题中,从而 提出了 SM_B、SM_T 和 SM_TPhi 3 种方法。Branco 等 [47] 结合 SMOTER 方法,提出了基于 bagging 的 集成方法 (REBAGG),以解决不平衡回归问题。 序数回归则考虑数据集的有序特征,将原始 数据的目标变量值按人为给定的阈值依次划分成 多个有序的类标签,然后对这些类标签分类。在 序数回归的有序类标签中,两端的类通常是极端 情况,这类样本也占少数,因此序数回归本质上 是一种类不平衡问题。Pérez-Ortiz 等 [48] 提出了 OGONI, OGOISP 和 OGOSP 3 种基于图的过采样 方法,旨在平衡有序信息。但是,这 3 种方法只考 虑到少数类及其相邻类的局部排序,忽略了其他 类的排序。因此,Zhu 等 [49] 提出了 SMOR 算法, 对每个少数类样本,找到与其类别相同和相邻的 k 个近邻样本,沿每个近邻样本分配不同的权重, 以控制合成的样本更加靠近少数类,从而保证样 本结构的有序性。 3.3 面向分类型数据的 SMOTE SMOTE 过采样是从特征的角度生成新样本, 新样本的特征是从根样本与辅助样本对应的特征 间插值产生,而插值的关键在于距离的度量。SMOTE 过采样所选择的欧氏距离只能处理数值型 数据,而对分类型数据过采样的方法有两种:分 类型数据数值化和改进距离度量公式。 分类型数据数值化方法对数值化后的数据使 用 SMOTE 插值,是处理分类型数据常用的方法 之一。然而,插值后属性值是否合理是 SMOTE 方法面临的问题。Chawla 等 [4] 对含有分类型属性 数据分别提出了 SMOTE-NC 和 SMOTE-N 算法, 前者仍采用欧氏距离来计算,对分类型属性间的 距离则采用连续属性标准差的中值来代替;后者 则采用 VDM(value difference metric) 距离公式[50] 来度量两个样本间的距离。Kurniawati 等 [ 5 1 ] 也利用 VDM 改进了 ADASYN,提出了 ADASYNN 和 ADASYN-KNN 算法,用来处理具有分类型 数据的多类数据集。针对含有分类型属性的距离 度量,现阶段已经得到了广泛研究,相比 VDM 度 量,HVDM(heterogeneous value difference metric) 度 量 [52] 在处理混合属性的数据时更具优势。其他 处理含有分类型属性的距离度量包括 Ahmad’s 距离度量[53] 、KL 散度[54] 以及基于 context 的距离 度量[55] 等。图 2 总结了上述 3 种不同应用背景下 处理不平衡数据的相关技术或方法。 特定应用 背景下的 SMOTE改 进算法 处理方法 SVM-BRFE + PBKS Filter-Wrapper + SMOTE 基于RF的特征选择 + SMOTE & Tomek Link 相关降维技术 PCA、Bagging、核函数、 流形技术、自动编码 ... 传统回归 SMOTER SM_B、SM_T、SM_TPhi REBAGG 序数回归 SMOR OGONI、OGOISP、OGOSP 数值化编码 结合距离度量方法 SMOTE-NC、SMOTE-N ADASYN-N、ADASYN-KNN 距离度量 VDM、HVDM、Ahmad's 距离度量、 KL 散度、基于 context的度量 回归数据高维数据分类型数据 基于 LASSO 的特征选择 + SMOTE 图 2 面向不同应用的 SMOTE 改进方法 Fig. 2 The improved SMOTE methods for different applications ·1078· 智 能 系 统 学 报 第 14 卷
第6期 石洪波,等:SMOTE过采样及其改进算法研究综述 ·1079· 4 SMOTE研究展望 解决的问题。 4.3少量标签的不平衡数据 SMOTE算法在处理不平衡数据时表现出良 监督学习的重要前提是获得足够多的有标签 好的优势,然而现实中数据的表现形式多种多 数据来训练预测模型。然而现实中的数据通常是 样,在面临不同类型不平衡数据(如大数据、流数 未经标记的无标签数据,有标签数据只占少数, 据等)时,如何利用SMOTE等技术来提升学习算 且获得大量有标签数据非常困难。特别是在不平 法性能仍需深入研究。 衡数据中,从少量少数类数据中获取带标签的数 4.1不平衡大数据 据更是难上加难。如何利用少量标签数据提升学 基于分布式计算的分类算法是处理大数据的 习器的泛化性能是目前不平衡分类问题的瓶颈之 主要解决思路。典型的分布式计算技术MapRe- 一。主动学习是处理这类问题的技术之一,通过 duce及其开源实现Hadoop-MapReduce为处理大 引入专家知识对信息量大的无标签数据进行标记 数据提供了成熟的框架和平台。然而,在处理不 从而提高模型精度。半监督学习m则是另一种 平衡大数据时,由于高维、缺乏少数类样本等因 技术,该技术不依赖于外界交互,而是自动地利 素,以至于分布在每个站点的数据块所包含的少 用无标签数据的内在信息改进分类模型,从而提 数类样本更少,而直接采用SMOTE过采样将变 高学习性能。此外一些学者试图在这种学习范式 得更加困难。Rio等s将SMOTE算法应用于大 中,利用SMOTE生成新的数据,从而弥补由大量 数据的MapReduce工作流中,将输入数据分割成 无标签数据引起的缺陷6467。然而如何选择和使 若干个独立的数据块并传输到各个机器,每个 用信息量丰富的数据仍需进一步深入研究。 Map任务负责使用SMOTE从相应的分区中生成 4.4其他类型数据 数据,Reduce阶段随机化Map阶段的输出,最终 除上述3种类型的数据外,还存在其他不同 形成一个平衡的数据集。当数据集中存在小碎片 类型的不平衡数据,如高维数据、数值型标签数 时,结果可能会产生严重的偏差。SMOTE合成样 据以及二值属性数据等。尽管关于这类型数据取 本是基于k-NN算法的,对同一个少数类样本而 得了一些成果(见第3节),但仍面临一些问题。 言,其在独立数据块的近邻样本极有可能与原始 高维数据由于其分布稀疏、特征维数高的特 数据不同,因此经过插值得到的数据很可能有 点,导致传统学习算法处理起来过于困难,在预 偏,甚至扰乱原始数据的分布。如何改进分布式 处理前对数据进行降维是目前主要解决方案。虽 环境中的SMOTE算法,提高分布式系统中合成 然已经研究出许多可用的降维技术,但是,如何 样本的质量需要继续探索。 扩展或修改SMOTE算法,使其能够直接应用于 4.2不平衡流数据 高维数据,避免数据降维工作,是一个值得深入 不平衡分类问题处理的数据通常是静态的, 研究的方向。 然而现实中的数据大多是以流的方式出现的动态 调整数值型标签数据的分布是回归领域中预 数据,其数据分布也会随时间延续而不断变化。 处理所面临的问题,将数值型标签转换为离散型 不平衡流数据在网络监控、故障检测等领域广泛 是一种解决思路。但对一些特殊的回归问题,经 出现,在线学习是处理流数据的关键技术,但在 过离散化标签后的数据本质上存在一种有序关 线实时学习数据流时可能会面临一些困难7。 一 系,如何调整合成样本的区域,使得生成的新样 方面,流数据的分布随时间而改变,导致内在结 本位于其类内或相邻类内,而不改变原始数据的 构不稳定从而产生概念漂移5。另一方面,由于 本质特性是这类问题的关键。 缺乏先验知识,无法事先获取新增数据的类标 二值属性数据是分类型数据的特殊形式,分 签,导致数据的不平衡状态不稳定,无法确定哪 类型数据数值化是其中一种处理方式,使用 个类是少数类或者多数类s96。集成框架下的代 SMOTE对数值化后的数据进行过采样,是对这类 价敏感学习6162]与SMOTE预处理技术s)是解决 问题常见的预处理解决方案。但合成的新样本通 上述问题的主要手段。从SMOTE预处理技术的 常会不合理,如某二值属性取值为0(红)和1(蓝), 角度而言,窗口化过程意味着只向预处理算法提 经过插值生成的新样本的对应特征值为0.65,则 供总数据的一个子集,从而影响了合成数据的质 该特征值显然没有任何意义,因此,合成新样本 量。因此如何有效利用流数据,提高合成数据 的特征取值需要考虑其原始属性值的范围,然后 质量,进而提升SMOTE算法性能是下一步需要 对其进行调整,以符合实际意义。将分类型数据
4 SMOTE 研究展望 SMOTE 算法在处理不平衡数据时表现出良 好的优势,然而现实中数据的表现形式多种多 样,在面临不同类型不平衡数据 (如大数据、流数 据等) 时,如何利用 SMOTE 等技术来提升学习算 法性能仍需深入研究。 4.1 不平衡大数据 基于分布式计算的分类算法是处理大数据的 主要解决思路。典型的分布式计算技术 MapReduce 及其开源实现 Hadoop-MapReduce 为处理大 数据提供了成熟的框架和平台。然而,在处理不 平衡大数据时,由于高维、缺乏少数类样本等因 素,以至于分布在每个站点的数据块所包含的少 数类样本更少,而直接采用 SMOTE 过采样将变 得更加困难。Rio 等 [56] 将 SMOTE 算法应用于大 数据的 MapReduce 工作流中,将输入数据分割成 若干个独立的数据块并传输到各个机器,每个 Map 任务负责使用 SMOTE 从相应的分区中生成 数据,Reduce 阶段随机化 Map 阶段的输出,最终 形成一个平衡的数据集。当数据集中存在小碎片 时,结果可能会产生严重的偏差。SMOTE 合成样 本是基于 k-NN 算法的,对同一个少数类样本而 言,其在独立数据块的近邻样本极有可能与原始 数据不同,因此经过插值得到的数据很可能有 偏,甚至扰乱原始数据的分布。如何改进分布式 环境中的 SMOTE 算法,提高分布式系统中合成 样本的质量需要继续探索。 4.2 不平衡流数据 不平衡分类问题处理的数据通常是静态的, 然而现实中的数据大多是以流的方式出现的动态 数据,其数据分布也会随时间延续而不断变化。 不平衡流数据在网络监控、故障检测等领域广泛 出现,在线学习是处理流数据的关键技术,但在 线实时学习数据流时可能会面临一些困难[57]。一 方面,流数据的分布随时间而改变,导致内在结 构不稳定从而产生概念漂移[58]。另一方面,由于 缺乏先验知识,无法事先获取新增数据的类标 签,导致数据的不平衡状态不稳定,无法确定哪 个类是少数类或者多数类[59-60]。集成框架下的代 价敏感学习[61-62] 与 SMOTE 预处理技术[63] 是解决 上述问题的主要手段。从 SMOTE 预处理技术的 角度而言,窗口化过程意味着只向预处理算法提 供总数据的一个子集,从而影响了合成数据的质 量 [5]。因此如何有效利用流数据,提高合成数据 质量,进而提升 SMOTE 算法性能是下一步需要 解决的问题。 4.3 少量标签的不平衡数据 监督学习的重要前提是获得足够多的有标签 数据来训练预测模型。然而现实中的数据通常是 未经标记的无标签数据,有标签数据只占少数, 且获得大量有标签数据非常困难。特别是在不平 衡数据中,从少量少数类数据中获取带标签的数 据更是难上加难。如何利用少量标签数据提升学 习器的泛化性能是目前不平衡分类问题的瓶颈之 一。主动学习是处理这类问题的技术之一,通过 引入专家知识对信息量大的无标签数据进行标记 从而提高模型精度。半监督学习[57] 则是另一种 技术,该技术不依赖于外界交互,而是自动地利 用无标签数据的内在信息改进分类模型,从而提 高学习性能。此外一些学者试图在这种学习范式 中,利用 SMOTE 生成新的数据,从而弥补由大量 无标签数据引起的缺陷[64-67]。然而如何选择和使 用信息量丰富的数据仍需进一步深入研究。 4.4 其他类型数据 除上述 3 种类型的数据外,还存在其他不同 类型的不平衡数据,如高维数据、数值型标签数 据以及二值属性数据等。尽管关于这类型数据取 得了一些成果 (见第 3 节),但仍面临一些问题。 高维数据由于其分布稀疏、特征维数高的特 点,导致传统学习算法处理起来过于困难,在预 处理前对数据进行降维是目前主要解决方案。虽 然已经研究出许多可用的降维技术,但是,如何 扩展或修改 SMOTE 算法,使其能够直接应用于 高维数据,避免数据降维工作,是一个值得深入 研究的方向。 调整数值型标签数据的分布是回归领域中预 处理所面临的问题,将数值型标签转换为离散型 是一种解决思路。但对一些特殊的回归问题,经 过离散化标签后的数据本质上存在一种有序关 系,如何调整合成样本的区域,使得生成的新样 本位于其类内或相邻类内,而不改变原始数据的 本质特性是这类问题的关键。 二值属性数据是分类型数据的特殊形式,分 类型数据数值化是其中一种处理方式,使 用 SMOTE 对数值化后的数据进行过采样,是对这类 问题常见的预处理解决方案。但合成的新样本通 常会不合理,如某二值属性取值为 0(红) 和 1(蓝), 经过插值生成的新样本的对应特征值为 0.65,则 该特征值显然没有任何意义,因此,合成新样本 的特征取值需要考虑其原始属性值的范围,然后 对其进行调整,以符合实际意义。将分类型数据 第 6 期 石洪波,等:SMOTE 过采样及其改进算法研究综述 ·1079·
·1080· 智能系统学报 第14卷 的距离度量与SMOTE融合是处理分类型不平衡 aptive synthetic sampling approach for imbalanced learn- 数据的另一个流行方法,因此,合理考虑这类问 ing[C]//Proceedings of 2008 IEEE International Joint Con- 题的本质特性,探索有效的距离度量方法是目前 ference on Neural Networks.Hong Kong,China,2008: 另一个研究热点。 1322-1328. [9]ZHU Tuanfai,LIN Yaping,LIU Yonghe.Synthetic minor- 5结束语 ity oversampling technique for multiclass imbalance prob- lems[J].Pattern recognition,2017,72:327-340. SMOTE过采样解决了随机过采样的过拟合 [10]DOUZAS G.BACAO F.Geometric SMOTE a geomet- 问题,是数据层面流行的预处理技术。本文主要 rically enhanced drop-in replacement for SMOTE[J].In- 阐述了SMOTE过采样的研究现状与工作原理, formation sciences,2019,501:118-135. 针对SMOTE存在的问题,对一些改进的SMOTE [11]SEIFFERT C.KHOSHGOFTAAR T M,VAN HULSE J. 算法进行了综述,同时概述了不同应用背景下关 Hybrid sampling for imbalanced data[J].Integrated com- 于SMOTE算法的研究工作,最后分析了SMOTE puter-aided engineering,2009,16(3):193-210. 算法在处理不平衡大数据、不平衡流数据、少量 [12]GAZZAH S,HECHKEL A,AMARA N E B.A hybrid 标签的不平衡数据等数据时需要进一步探索和研 sampling method for imbalanced data[C]//Proceedings of 究的问题。本文可为SMOTE的研究和应用提供 2015 IEEE 12th International Multi-Conference on Sys- 有价值的借鉴和参考。 tems,Signals Devices.Mahdia,Tunisia,2015:1-6. [13]古平,欧阳源遊.基于混合采样的非平衡数据集分类研 参考文献: 究).计算机应用研究,2015,32(2)379-381,418. [1]VASIGHIZAKER A,JALILI S.C-PUGP:a cluster-based GU Ping,OUYANG Yuanyou.Classification research for positive unlabeled learning method for disease gene predic- unbalanced data based on mixed-sampling[J].Applica- tion and prioritization[J].Computational biology and tion research of computers,2015,32(2):379-381,418. chemistry,2018,76:23-31. [14]SONG Jia,HUANG Xianglin,QIN Sijun,et al.A bi-dir- [2]JURGOVSKY J.GRANITZER M.ZIEGLER K.et al.Se- ectional sampling based on k-means method for imbal- quence classification for credit-card fraud detection[J].Ex- ance text classification[C]//Proceedings of 2016 pert systems with applications,2018.100:234-245. IEEE/ACIS International Conference on Computer and [3]KIM JH.Time frequency image and artificial neural net- Information Science.Okayama,Japan,2016:1-5. work based classification of impact noise for machine fault [15]冯宏伟,姚博,高原,等.基于边界混合采样的非均衡数 diagnosis[J].International journal of precision engineering 据处理算法[J.控制与决策,2017,32(10):1831-1836. and manufacturing,2018,19(6):821-827. FENG Hongwei,YAO Bo,GAO Yuan,et al.Imbalanced [4]CHAWLA N V,BOWYER K W,HALL L O,et al. data processing algorithm based on boundary mixed SMOTE:synthetic minority over-sampling technique[J]. sampling[J].Control and decision,2017,32(10): Journal of artificial intelligence research,2002,16(1): 1831-1836 321-357 [16]赵自翔,王广亮,李晓东.基于支持向量机的不平衡数 [5]FERNANDEZ A,GARCIA S,HERRERA F,et al. 据分类的改进欠采样方法).中山大学学报(自然科学 SMOTE for learning from imbalanced data:Progress and 版),2012,51(6:10-16. challenges,marking the 15-year anniversary[J].Journal of ZHAO Zixiang,WANG Guangliang,LI Xiaodong.An artificial intelligence research,2018,61:863-905. improved SVM based under-sampling method for classi- [6]HAN Hui.WANG Wenyuan.MAO Binghuan.Borderline- fying imbalanced data[J].Acta Scientiarum Naturalium SMOTE:a new over-sampling method in imbalanced data Universitatis Sunyatseni,2012,51(6):10-16. sets learning[C]//Proceedings of International Conference [17]JIA Cangzhi,ZUO Yun.S-SulfPred:a sensitive predictor on Intelligent Computing.Hefei,China,2005:878-887 to capture S-sulfenylation sites based on a resampling [7]BUNKHUMPORNPAT C,SINAPIROMSARAN K, one-sided selection undersampling-synthetic minority LURSINSAP C.Safe-level-SMOTE:safe-level-synthetic oversampling technique[J].Journal of theoretical biology minority over-sampling TEchnique for handling the class 2017,422:84-49. imbalanced problem[C]//Proceedings of the 13th Pacific- [18]HANSKUNATAI A.A new hybrid sampling approach Asia Conference on Knowledge Discovery and Data Min- for classification of imbalanced datasets[Cl//Proceedings ing.Bangkok,Thailand,2009:475-482. of 2018 International Conference on Computer and Com- [8]HE Haibo,BAI Yang,GARCIA E A,et al.ADASYN:ad- munication Systems.Nagoya,Japan,2018:67-71
的距离度量与 SMOTE 融合是处理分类型不平衡 数据的另一个流行方法,因此,合理考虑这类问 题的本质特性,探索有效的距离度量方法是目前 另一个研究热点。 5 结束语 SMOTE 过采样解决了随机过采样的过拟合 问题,是数据层面流行的预处理技术。本文主要 阐述了 SMOTE 过采样的研究现状与工作原理, 针对 SMOTE 存在的问题,对一些改进的 SMOTE 算法进行了综述,同时概述了不同应用背景下关 于 SMOTE 算法的研究工作,最后分析了 SMOTE 算法在处理不平衡大数据、不平衡流数据、少量 标签的不平衡数据等数据时需要进一步探索和研 究的问题。本文可为 SMOTE 的研究和应用提供 有价值的借鉴和参考。 参考文献: VASIGHIZAKER A, JALILI S. C-PUGP: a cluster-based positive unlabeled learning method for disease gene prediction and prioritization[J]. Computational biology and chemistry, 2018, 76: 23–31. [1] JURGOVSKY J, GRANITZER M, ZIEGLER K, et al. Sequence classification for credit-card fraud detection[J]. Expert systems with applications, 2018, 100: 234–245. [2] KIM J H. Time frequency image and artificial neural network based classification of impact noise for machine fault diagnosis[J]. International journal of precision engineering and manufacturing, 2018, 19(6): 821–827. [3] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002, 16(1): 321–357. [4] FERNÁNDEZ A, GARCIA S, HERRERA F, et al. SMOTE for learning from imbalanced data: Progress and challenges, marking the 15-year anniversary[J]. Journal of artificial intelligence research, 2018, 61: 863–905. [5] HAN Hui, WANG Wenyuan, MAO Binghuan. BorderlineSMOTE: a new over-sampling method in imbalanced data sets learning[C]//Proceedings of International Conference on Intelligent Computing. Hefei, China, 2005: 878−887. [6] BUNKHUMPORNPAT C, SINAPIROMSARAN K, LURSINSAP C. Safe-level-SMOTE: safe-level-synthetic minority over-sampling TEchnique for handling the class imbalanced problem[C]//Proceedings of the 13th PacificAsia Conference on Knowledge Discovery and Data Mining. Bangkok, Thailand, 2009: 475−482. [7] [8] HE Haibo, BAI Yang, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]//Proceedings of 2008 IEEE International Joint Conference on Neural Networks. Hong Kong, China, 2008: 1322−1328. ZHU Tuanfai, LIN Yaping, LIU Yonghe. Synthetic minority oversampling technique for multiclass imbalance problems[J]. Pattern recognition, 2017, 72: 327–340. [9] DOUZAS G, BACAO F. Geometric SMOTE a geometrically enhanced drop-in replacement for SMOTE[J]. Information sciences, 2019, 501: 118–135. [10] SEIFFERT C, KHOSHGOFTAAR T M, VAN HULSE J. Hybrid sampling for imbalanced data[J]. Integrated computer-aided engineering, 2009, 16(3): 193–210. [11] GAZZAH S, HECHKEL A, AMARA N E B. A hybrid sampling method for imbalanced data[C]//Proceedings of 2015 IEEE 12th International Multi-Conference on Systems, Signals & Devices. Mahdia, Tunisia, 2015: 1−6. [12] 古平, 欧阳源遊. 基于混合采样的非平衡数据集分类研 究 [J]. 计算机应用研究, 2015, 32(2): 379–381, 418. GU Ping, OUYANG Yuanyou. Classification research for unbalanced data based on mixed-sampling[J]. Application research of computers, 2015, 32(2): 379–381, 418. [13] SONG Jia, HUANG Xianglin, QIN Sijun, et al. A bi-directional sampling based on k-means method for imbalance text classification[C]//Proceedings of 2016 IEEE/ACIS International Conference on Computer and Information Science. Okayama, Japan, 2016: 1−5. [14] 冯宏伟, 姚博, 高原, 等. 基于边界混合采样的非均衡数 据处理算法 [J]. 控制与决策, 2017, 32(10): 1831–1836. FENG Hongwei, YAO Bo, GAO Yuan, et al. Imbalanced data processing algorithm based on boundary mixed sampling[J]. Control and decision, 2017, 32(10): 1831–1836. [15] 赵自翔, 王广亮, 李晓东. 基于支持向量机的不平衡数 据分类的改进欠采样方法 [J]. 中山大学学报(自然科学 版), 2012, 51(6): 10–16. ZHAO Zixiang, WANG Guangliang, LI Xiaodong. An improved SVM based under-sampling method for classifying imbalanced data[J]. Acta Scientiarum Naturalium Universitatis Sunyatseni, 2012, 51(6): 10–16. [16] JIA Cangzhi, ZUO Yun. S-SulfPred: a sensitive predictor to capture S-sulfenylation sites based on a resampling one-sided selection undersampling-synthetic minority oversampling technique[J]. Journal of theoretical biology, 2017, 422: 84–49. [17] HANSKUNATAI A. A new hybrid sampling approach for classification of imbalanced datasets[C]//Proceedings of 2018 International Conference on Computer and Communication Systems. Nagoya, Japan, 2018: 67−71. [18] ·1080· 智 能 系 统 学 报 第 14 卷
第6期 石洪波,等:SMOTE过采样及其改进算法研究综述 ·1081· [19]SHI Hongbo,GAO Qigang,JI Suqin,et al.A hybrid anced learning through a heuristic oversampling method sampling method based on safe screening for imbalanced based on k-means and SMOTE[J].Information sciences, datasets with sparse structure[Cl//Proceedings of 2018 In- 2018.465:1-20. ternational Joint Conference on Neural Networks.Rio de [30]楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据 Janeiro.Brazil.2018:1-8. 分类方法[J刀.浙江大学学报(工学版),2013,47(6): [20]吴艺凡,梁吉业,王俊红.基于混合采样的非平衡数据 944950. 分类算法).计算机科学与探索,2019,132):342-349. LOU Xiaojun,SUN Yuxuan,LIU Haitao.Clustering WU Yifan,LIANG Jiye,WANG Junhong.Classification boundary over-sampling classification method for imbal- algorithm based on hybrid sampling for unbalanced anced data sets[J].Journal of Zhejiang University (Engin- data[J].Journal of frontiers of computer science and tech- eering Science),2013,47(6):944-950 nology,2019,13(2):342-349. [31]MA Li,FAN Suohai.CURE-SMOTE algorithm and hy- [21]RAMENTOL E.CABALLERO Y.BELLO R.et al. brid algorithm for feature selection and parameter optim- SMOTE-RSB*:a hybrid preprocessing approach based on ization based on random forests[J].BMC bioinformatics, oversampling and undersampling for high imbalanced 2017,18(1):169 data-sets using SMOTE and rough sets theory[J].Know- [32]IJAZ M F,ALFIAN G,SYAFRUDIN M,et al.Hybrid ledge and information systems,2012,33(2):245-265. prediction model for type 2 diabetes and hypertension us- [22]SAEZ J A,LUENGO J,STEFANOWSKI J,et al. ing DBSCAN-based outlier detection,synthetic minority SMOTE-IPF:addressing the noisy and borderline ex- over sampling technique(SMOTE),and random forest[J]. amples problem in imbalanced classification by a re- Applied sciences,2018,8(8):1325. sampling method with filtering[J].Information sciences, [33]盛凯,刘忠,周德超,等.面向不平衡分类的IDP- 2015.291:184-203. SMOTE重采样算法).计算机应用研究,2019,36(01): [23]RADWAN A M.Enhancing prediction on imbalance data 115-118 by thresholding technique with noise filtering[C]//Pro- SHENG Kai,LIU Zhong,ZHOU Dechao,et al.IDP- ceedings of 2017 International Conference on Informa- SMOTE resampling algorithm for imbalanced classifica- tion Technology.Amman,Jordan,2017:399-404. tion[J].Application research of computers,2019,36(01): [24]ZHANG Jianjun,NG W.Stochastic sensitivity measure- 115-118. based noise filtering and oversampling method for imbal- [34]BLAGUS R,LUSA L.SMOTE for high-dimensional anced classification problems[C]//Proceedings of 2018 class-imbalanced data[J].BMC bioinformatics,2013,14: IEEE International Conference on Systems,Man,and Cy- 106. bernetics.Miyazaki,Japan,2018:403-408. [35]ABDI L,HASHEMI S.To combat multi-class imbal- [25]BISPO A.PRUDENCIO R,VERAS D.Instance selec- anced problems by means of over-sampling techniques. tion and class balancing techniques for cross project de- IEEE transactions on knowledge and data engineering. fect prediction[Cl//Proceedings of 2018 Brazilian Confer- 2016,28(1238-251. ence on Intelligent Systems.Sao Paulo,Brazil,2018: [36]WANG Jin,YUN Bo,HUANG Pingli,et al.Applying 552-557 threshold SMOTE algorithm with attribute bagging to im- [26]BATISTA G E A P A.PRATI R C.MONARD M C.A balanced datasets[C]//Proceedings of the 8th Internation- study of the behavior of several methods for balancing al Conference on Rough Sets and Knowledge Techno- machine learning training datalJ].ACM SIGKDD explor- logy.Halifax,NS,Canada,2013:221-228. ations newsletter,2004,6(1):20-29 [37]MATHEW J,LUO Ming,PANG C K,et al.Kernel-based [27]BARUA S,ISLAM MM,YAO Xin,et al.MWMOTE- SMOTE for SVM classification of imbalanced majority weighted minority oversampling technique for datasets[C]//Proceedings of IECON 2015-41st Annual imbalanced data set learning[J].IEEE transactions on Conference of the IEEE Industrial Electronics Society knowledge and data engineering,2014,26(2):405-425. Yokohama,Japan,2015:1127-1132. [28]PRUENGKARN R.WONG K W.FUNG CC.Multi- [38]BELLINGER C,DRUMMOND C,JAPKOWICZ N class imbalanced classification using fuzzy C-mean and Beyond the boundaries of SMOTE-A framework for man- SMOTE with fuzzy support vector machine[C]//Proceed- ifold-based synthetically oversampling[C]//Proceedings of ings of the 24th International Conference on Neural In- Joint European Conference on Machine Learning and formation Processing.Guangzhou,China,2017:67-75. Knowledge Discovery in Databases.Riva del Garda, [29]DOUZAS G,BACAO F,LAST F.Improving imbal- taly,2016:248-263
SHI Hongbo, GAO Qigang, JI Suqin, et al. A hybrid sampling method based on safe screening for imbalanced datasets with sparse structure[C]//Proceedings of 2018 International Joint Conference on Neural Networks. Rio de Janeiro, Brazil, 2018: 1−8. [19] 吴艺凡, 梁吉业, 王俊红. 基于混合采样的非平衡数据 分类算法 [J]. 计算机科学与探索, 2019, 13(2): 342–349. WU Yifan, LIANG Jiye, WANG Junhong. Classification algorithm based on hybrid sampling for unbalanced data[J]. Journal of frontiers of computer science and technology, 2019, 13(2): 342–349. [20] RAMENTOL E, CABALLERO Y, BELLO R, et al. SMOTE-RSB*: a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using SMOTE and rough sets theory[J]. Knowledge and information systems, 2012, 33(2): 245–265. [21] SÁEZ J A, LUENGO J, STEFANOWSKI J, et al. SMOTE–IPF: addressing the noisy and borderline examples problem in imbalanced classification by a resampling method with filtering[J]. Information sciences, 2015, 291: 184–203. [22] RADWAN A M. Enhancing prediction on imbalance data by thresholding technique with noise filtering[C]//Proceedings of 2017 International Conference on Information Technology. Amman, Jordan, 2017: 399−404. [23] ZHANG Jianjun, NG W. Stochastic sensitivity measurebased noise filtering and oversampling method for imbalanced classification problems[C]//Proceedings of 2018 IEEE International Conference on Systems, Man, and Cybernetics. Miyazaki, Japan, 2018: 403−408. [24] BISPO A, PRUDENCIO R, VÉRAS D. Instance selection and class balancing techniques for cross project defect prediction[C]//Proceedings of 2018 Brazilian Conference on Intelligent Systems. Sao Paulo, Brazil, 2018: 552−557. [25] BATISTA G E A P A, PRATI R C, MONARD M C. A study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD explorations newsletter, 2004, 6(1): 20–29. [26] BARUA S, ISLAM M M, YAO Xin, et al. MWMOTEmajority weighted minority oversampling technique for imbalanced data set learning[J]. IEEE transactions on knowledge and data engineering, 2014, 26(2): 405–425. [27] PRUENGKARN R, WONG K W, FUNG C C. Multiclass imbalanced classification using fuzzy C-mean and SMOTE with fuzzy support vector machine[C]//Proceedings of the 24th International Conference on Neural Information Processing. Guangzhou, China, 2017: 67−75. [28] [29] DOUZAS G, BACAO F, LAST F. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences, 2018, 465: 1–20. 楼晓俊, 孙雨轩, 刘海涛. 聚类边界过采样不平衡数据 分类方法 [J]. 浙江大学学报 (工学版), 2013, 47(6): 944–950. LOU Xiaojun, SUN Yuxuan, LIU Haitao. Clustering boundary over-sampling classification method for imbalanced data sets[J]. Journal of Zhejiang University (Engineering Science), 2013, 47(6): 944–950. [30] MA Li, FAN Suohai. CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests[J]. BMC bioinformatics, 2017, 18(1): 169. [31] IJAZ M F, ALFIAN G, SYAFRUDIN M, et al. Hybrid prediction model for type 2 diabetes and hypertension using DBSCAN-based outlier detection, synthetic minority over sampling technique (SMOTE), and random forest[J]. Applied sciences, 2018, 8(8): 1325. [32] 盛凯, 刘忠, 周德超, 等. 面向不平衡分类的 IDPSMOTE 重采样算法 [J]. 计算机应用研究, 2019, 36(01): 115–118. SHENG Kai, LIU Zhong, ZHOU Dechao, et al. IDPSMOTE resampling algorithm for imbalanced classification[J]. Application research of computers, 2019, 36(01): 115–118. [33] BLAGUS R, LUSA L. SMOTE for high-dimensional class-imbalanced data[J]. BMC bioinformatics, 2013, 14: 106. [34] ABDI L, HASHEMI S. To combat multi-class imbalanced problems by means of over-sampling techniques[J]. IEEE transactions on knowledge and data engineering, 2016, 28(1): 238–251. [35] WANG Jin, YUN Bo, HUANG Pingli, et al. Applying threshold SMOTE algorithm with attribute bagging to imbalanced datasets[C]//Proceedings of the 8th International Conference on Rough Sets and Knowledge Technology. Halifax, NS, Canada, 2013: 221–228. [36] MATHEW J, LUO Ming, PANG C K, et al. Kernel-based SMOTE for SVM classification of imbalanced datasets[C]//Proceedings of IECON 2015-41st Annual Conference of the IEEE Industrial Electronics Society. Yokohama, Japan, 2015: 1127–1132. [37] BELLINGER C, DRUMMOND C, JAPKOWICZ N. Beyond the boundaries of SMOTE-A framework for manifold-based synthetically oversampling[C]//Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Riva del Garda, Italy, 2016: 248−263. [38] 第 6 期 石洪波,等:SMOTE 过采样及其改进算法研究综述 ·1081·
·1082· 智能系统学报 第14卷 [39]BELLINGER C.JAPKOWICZ N.DRUMMOND C. [50]COST S,SALZBERG S.A weighted nearest neighbor al- Synthetic oversampling for advanced radioactive threat gorithm for learning with symbolic features[J].Machine detection[C]//Proceedings of 2015 IEEE International learning,1993,10(1):57-78 Conference on Machine Learning and Applications [51]KURNIAWATI Y E,PERMANASARI A E,FAUZIATI Miami,.FL,USA,2015:948-953. S.Adaptive synthetic-nominal (ADASYN-N)and adapt- [40]LI Xiao,ZOU Beiji,WANG Lei,et al.A novel LASSO- ive synthetic-KNN (ADASYN-KNN)for multiclass im- based feature weighting selection method for microarray balance learning on laboratory test data[C]//Proceedings data classification[C]//Proceedings of 2015 IET Interna- of 2018 International Conference on Science and Techno- tional Conference on Biomedical Image and Signal Pro- logy.Yogyakarta,Indonesia,2018:1-6. cessing.Beijing,China,2015:1-5. [52]WILSON D R,MARTINEZ T R.Improved heterogen- [41]ZHANG Chunkai,GUO Jianwei,LU Junru.Research on eous distance functions[J].Journal of artificial intelli- classification method of high-dimensional class-imbal- gence research,1997,6:1-34. anced data sets based on SVM[C]//Proceedings of the 2nd [53]AHMAD A,DEY L.A method to compute distance IEEE International Conference on Data Science in Cyber- between two categorical values of same attribute in unsu- space.Shenzhen,China,2017:60-67. [42]GUYON I,WESTON J,BARNHILL S,et al.Gene selec- pervised learning for categorical data setJ.Pattern re- cognition letters,2007,28(1):110-118. tion for cancer classification using support vector ma- [54]KULLBACK S,LEIBLER R A.On information and suf- chines[J].Machine learning,2002,46(1/2/3):389-422. [43]许召召,李京华,陈同林,等.融合SMOTE与Filter~ ficiency[J].The annals of mathematical statistics,1951, Wrapper的朴素贝叶斯决策树算法及其应用).计算 22(1上79-86 机科学,2018,45(965-69,74 [55]IENCO D,PENSA R G,MEO R.Context-based distance XU Zhaozhao,LI Jinghua,CHEN Tonglin,et al.Naive learning for categorical data clustering[Cl//Proceedings of Bayesian decision tree algorithm combining SMOTE and the 8th International Symposium on Intelligent Data Ana- Filter-Wrapper and it's application[J].Computer science, lysis.Lyon,France,2009:83-94. 2018.45(9y:65-69,74. [56]DEL RIO S,LOPEZ V,BENITEZ J M,et al.On the use [44]GUO Lei,WANG Shunfang F.Membrane protein type of MapReduce for imbalanced big data using Random prediction for high-dimensional imbalanced datasets[C1/ Forest[J].Information sciences,2014,285:112-137. Proceedings of 2018 International Conference on Inform- [57]GUO Haixiang,LI Yijing,SHANG J,et al.Learning from ation Technology in Medicine and Education.Hangzhou, class-imbalanced data:review of methods and applica- China,2018:847-851. tions[J].Expert systems with applications,2017,73: [45]TORGO L,BRANCO P,RIBEIRO R P,et al.Res- 220-239. ampling strategies for regression[J].Expert systems, [58]GHAZIKHANI A,MONSEFI R,YAZDI H S.Online 2015.32(3:465-476. neural network model for non-stationary and imbalanced [46]MONIZ N,BRANCO P,TORGO L.Resampling data stream classification[J].International journal of ma- strategies for imbalanced time series[C]//Proceedings of chine learning and cybernetics,2014,5(1):51-62. 2016 IEEE International Conference on Data Science and [59]WANG Shuo,MINKU LL,YAO Xin.A multi-objective Advanced Analytics.Montreal.OC.Canada.2016: ensemble method for online class imbalance learning[C]// 282-291. Proceedings of 2014 International Joint Conference on [47]BRANCO P.TORGO L.RIBEIRO R P.REBAGG:REs- Neural Networks.Beijing,China,2014:3311-3318. ampled BAGGing for imbalanced regression[C]//Proceed- ings of International Workshop on Learning with Imbal- [60]WANG Shuo,MINKU LL,YAO Xin.Resampling-based anced Domains:Theory and Applications.Dublin,Ire- ensemble methods for online class imbalance learning[J]. land,2018:67-81. IEEE transactions on knowledge and data engineering, [48]PEREZ-ORTIZ M,GUTIERREZ P A,HERVAS- 2015,27(5:1356-1368. MARTINEZ C,et al.Graph-based approaches for over- [61]MIRZA B,LIN Zhiping,LIU Nan.Ensemble of subset sampling in the context of ordinal regression[J].IEEE online sequential extreme learning machine for class im- transactions on knowledge and data engineering,2015, balance and concept drift[J].Neurocomputing,2015,149: 27(5):1233-1245. 316-329. [49]ZHU Tuanfei,LIN Yaping,LIU Yonghe,et al.Minority [62]GHAZIKHANI A,MONSEFI R,YAZDI H S.Ensemble oversampling for imbalanced ordinal regression[J] of online neural networks for non-stationary and imbal- Knowledge-based systems,2019,166:140-155. anced data streams[J].Neurocomputing,2013,122
BELLINGER C, JAPKOWICZ N, DRUMMOND C. Synthetic oversampling for advanced radioactive threat detection[C]//Proceedings of 2015 IEEE International Conference on Machine Learning and Applications. Miami, FL, USA, 2015: 948−953. [39] LI Xiao, ZOU Beiji, WANG Lei, et al. A novel LASSObased feature weighting selection method for microarray data classification[C]//Proceedings of 2015 IET International Conference on Biomedical Image and Signal Processing. Beijing, China, 2015: 1–5. [40] ZHANG Chunkai, GUO Jianwei, LU Junru. Research on classification method of high-dimensional class-imbalanced data sets based on SVM[C]//Proceedings of the 2nd IEEE International Conference on Data Science in Cyberspace. Shenzhen, China, 2017: 60−67. [41] GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Machine learning, 2002, 46(1/2/3): 389–422. [42] 许召召, 李京华, 陈同林, 等. 融合 SMOTE 与 FilterWrapper 的朴素贝叶斯决策树算法及其应用 [J]. 计算 机科学, 2018, 45(9): 65–69, 74. XU Zhaozhao, LI Jinghua, CHEN Tonglin, et al. Naive Bayesian decision tree algorithm combining SMOTE and Filter-Wrapper and it's application[J]. Computer science, 2018, 45(9): 65–69, 74. [43] GUO Lei, WANG Shunfang F. Membrane protein type prediction for high-dimensional imbalanced datasets[C]// Proceedings of 2018 International Conference on Information Technology in Medicine and Education. Hangzhou, China, 2018: 847−851. [44] TORGO L, BRANCO P, RIBEIRO R P, et al. Resampling strategies for regression[J]. Expert systems, 2015, 32(3): 465–476. [45] MONIZ N, BRANCO P, TORGO L. Resampling strategies for imbalanced time series[C]//Proceedings of 2016 IEEE International Conference on Data Science and Advanced Analytics. Montreal, QC, Canada, 2016: 282−291. [46] BRANCO P, TORGO L, RIBEIRO R P. REBAGG: REsampled BAGGing for imbalanced regression[C]//Proceedings of International Workshop on Learning with Imbalanced Domains: Theory and Applications. Dublin, Ireland, 2018: 67−81. [47] PÉREZ-ORTIZ M, GUTIÉRREZ P A, HERVÁSMARTÍNEZ C, et al. Graph-based approaches for oversampling in the context of ordinal regression[J]. IEEE transactions on knowledge and data engineering, 2015, 27(5): 1233–1245. [48] ZHU Tuanfei, LIN Yaping, LIU Yonghe, et al. Minority oversampling for imbalanced ordinal regression[J]. Knowledge-based systems, 2019, 166: 140–155. [49] COST S, SALZBERG S. A weighted nearest neighbor algorithm for learning with symbolic features[J]. Machine learning, 1993, 10(1): 57–78. [50] KURNIAWATI Y E, PERMANASARI A E, FAUZIATI S. Adaptive synthetic-nominal (ADASYN-N) and adaptive synthetic-KNN (ADASYN-KNN) for multiclass imbalance learning on laboratory test data[C]//Proceedings of 2018 International Conference on Science and Technology. Yogyakarta, Indonesia, 2018: 1−6. [51] WILSON D R, MARTINEZ T R. Improved heterogeneous distance functions[J]. Journal of artificial intelligence research, 1997, 6: 1–34. [52] AHMAD A, DEY L. A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set[J]. Pattern recognition letters, 2007, 28(1): 110–118. [53] KULLBACK S, LEIBLER R A. On information and sufficiency[J]. The annals of mathematical statistics, 1951, 22(1): 79–86. [54] IENCO D, PENSA R G, MEO R. Context-based distance learning for categorical data clustering[C]//Proceedings of the 8th International Symposium on Intelligent Data Analysis. Lyon, France, 2009: 83−94. [55] DEL RÍO S, LÓPEZ V, BENÍTEZ J M, et al. On the use of MapReduce for imbalanced big data using Random Forest[J]. Information sciences, 2014, 285: 112–137. [56] GUO Haixiang, LI Yijing, SHANG J, et al. Learning from class-imbalanced data: review of methods and applications[J]. Expert systems with applications, 2017, 73: 220–239. [57] GHAZIKHANI A, MONSEFI R, YAZDI H S. Online neural network model for non-stationary and imbalanced data stream classification[J]. International journal of machine learning and cybernetics, 2014, 5(1): 51–62. [58] WANG Shuo, MINKU L L, YAO Xin. A multi-objective ensemble method for online class imbalance learning[C]// Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 3311−3318. [59] WANG Shuo, MINKU L L, YAO Xin. Resampling-based ensemble methods for online class imbalance learning[J]. IEEE transactions on knowledge and data engineering, 2015, 27(5): 1356–1368. [60] MIRZA B, LIN Zhiping, LIU Nan. Ensemble of subset online sequential extreme learning machine for class imbalance and concept drift[J]. Neurocomputing, 2015, 149: 316–329. [61] GHAZIKHANI A, MONSEFI R, YAZDI H S. Ensemble of online neural networks for non-stationary and imbalanced data streams[J]. Neurocomputing, 2013, 122: [62] ·1082· 智 能 系 统 学 报 第 14 卷