正在加载图片...
第6期 石洪波,等:SMOTE过采样及其改进算法研究综述 ·1077· 本,这类样本通常位于类间或者是噪声样本。 另一种思路,其主要策略通常有两种:一是直接 SMOTE-ENN则是通过对采样后的数据集采用k 采用聚类算法将少数类样本划分成多个簇,在簇 NN方法分类,进而剔除判错的样本。 内进行插值;二是利用聚类算法识别样本类型, 2.4聚类算法与SMOTE结合的方法 对不同类型的样本采用不同的方式处理,然后再 聚类算法和SMOTE结合是调整数据分布的 使用SMOTE进行过采样,部分算法如表4所示。 表4聚类算法与SMOTE结合的方法 Table 4 Methods combining clustering algorithm with SMOTE 算法名 聚类算法 策略 解决的问题 MWMOTE 平均连接聚合聚类 簇内插值 ③ FCMSMT FCM 簇内插值 ③ K-means SMOTE K-means 簇内插值 ① CB-SMOTE FCM 识别边界样本 ① CURE-SMOTE CURE 识别噪声样本 ①、② HPM DBSCAN 识别噪声样本 ①、② IDP-SMOTE Improved-DP 识别噪声样本 ①、③ MWMOTE算法2按照与多数类样本的距离 见的做法是在分类前使用现有的技术对数据进行 对难以学习的少数类样本分配权重,采用聚类算 降维,然后在新的维度空间下学习。常见的降维 法从加权的少数类样本合成样本,从而保证这些 技术有主成分分析(PCA)Bs1、特征选择、Bag 新样本位于少数类区域内。对于多类不平衡问 ging、内核函数(kernel functions)升、流形技术 题,FCMSMT算法2]使用模糊C均值(FCM0对 (manifold techniques)31和自动编码器(auto-en- 样本多的目标类聚类,选出与平均样本数相同数 coders))9等。 量的样本,而对样本少的目标类使用SMOTE过 Li等[o1提出了基于LASSO的特征选择模 采样,从而降低类内与类间的错误,提高分类性 型,首先使用特征选择和其他方法删除数据中冗 能。K-means SMOTE算法2利用K-means对输 余和不相关的特征,然后采用基于LASSO的特征 入数据集聚类,在少数类样本多的簇内进行SMOTE 权重选择模型增加关键数据的权重,再利用SM- 过采样,从而避免噪声的生成,有效改善类间不 OTE平衡数据集,从而有效消除高维数据中噪声 平衡。 和不相关数据。Zhang等a通过改进的SVM CB-SMOTE算法Bo根据“聚类一致性系数”找 RFE算法(SVM-BRFE)对高维数据进行特征选 出少数类的边界样本,再根据最近邻密度删除噪 择,并采用改进的重采样PBKS算法对不平衡数 声样本,同时确定合成样本的数量,然后从这些 据进行过采样,提出了针对高维不平衡数据二分 边界样本中人工合成新样本。CURE-SMOTE算 类的BRFE-PBKS-SVM算法。在处理高维不平衡 法BJ采用CURE(clustering using representatives) 的医疗数据时,许召召等到将SMOTE与Filter-. 对少数类样本聚类并移除噪声和离群点,然后使 Wrapper特征选择算法相融合,并将其应用于支 用SMOTE在代表性样本和中心样本间插值以平 持临床医疗决策。Guo等4,使用基于随机森林 衡数据集。HPM算法B通过整合DBSCAN的离 (RF)的特征选择方法降低计算复杂度,然后通过 群检测、SMOTE和随机森林,从而成功预测糖尿 结合SMOTE和Tomek Link的重采样平衡数据 病和高血压疾病。IDP-SMOTE算法B利用改进 集,从而提高膜蛋白预测的准确性。 的密度峰值聚类算法(improved-DP)对各个类进 3.2面向回归问题的SMOTE 行聚类,识别并剔除噪声样本,然后采用自适应 不平衡数据的回归问题是指预测连续目标变 的方法对每个少数类样本进行SMOTE过采样。 量的罕见值的问题。目标变量为离散值的不平衡 3面向特定应用背景的SMOTE 分类问题一直以来得到了深入的研究,而不平衡 回归问题的研究成果却少之又少。回归问题可以 3.1面向高维数据的SMOTE 分为两类:传统回归与序数回归。 高维不平横数据中的数据分布稀疏、特征冗 传统回归是指在不考虑数据集有序特性的情 余或特征不相关等问题是影响传统学习算法难以 况下,对连续型目标变量的预测问题。SMOTER 识别少数类样本的原因。SMOTE在处理这类问 算法4]是处理不平衡回归数据的一种改进的 题时效果甚至不如随机欠采样方法,而目前常 SMOTE过采样方法,通过人为给定的阈值将极少本,这类样本通常位于类间或者是噪声样本。 SMOTE-ENN 则是通过对采样后的数据集采用 k￾NN 方法分类,进而剔除判错的样本。 2.4 聚类算法与 SMOTE 结合的方法 聚类算法和 SMOTE 结合是调整数据分布的 另一种思路,其主要策略通常有两种:一是直接 采用聚类算法将少数类样本划分成多个簇,在簇 内进行插值;二是利用聚类算法识别样本类型, 对不同类型的样本采用不同的方式处理,然后再 使用 SMOTE 进行过采样,部分算法如表 4 所示。 表 4 聚类算法与 SMOTE 结合的方法 Table 4 Methods combining clustering algorithm with SMOTE 算法名 聚类算法 策略 解决的问题 MWMOTE 平均连接聚合聚类 簇内插值 ③ FCMSMT FCM 簇内插值 ③ K-means SMOTE K-means 簇内插值 ① CB-SMOTE FCM 识别边界样本 ① CURE-SMOTE CURE 识别噪声样本 ①、② HPM DBSCAN 识别噪声样本 ①、② IDP-SMOTE Improved-DP 识别噪声样本 ①、③ MWMOTE 算法[27] 按照与多数类样本的距离 对难以学习的少数类样本分配权重,采用聚类算 法从加权的少数类样本合成样本,从而保证这些 新样本位于少数类区域内。对于多类不平衡问 题,FCMSMT 算法[28] 使用模糊 C 均值 (FCM) 对 样本多的目标类聚类,选出与平均样本数相同数 量的样本,而对样本少的目标类使用 SMOTE 过 采样,从而降低类内与类间的错误,提高分类性 能。K-means SMOTE 算法[29] 利用 K-means 对输 入数据集聚类,在少数类样本多的簇内进行 SMOTE 过采样,从而避免噪声的生成,有效改善类间不 平衡。 CB-SMOTE 算法[30] 根据“聚类一致性系数”找 出少数类的边界样本,再根据最近邻密度删除噪 声样本,同时确定合成样本的数量,然后从这些 边界样本中人工合成新样本。CURE-SMOTE 算 法 [31] 采用 CURE(clustering using representatives) 对少数类样本聚类并移除噪声和离群点,然后使 用 SMOTE 在代表性样本和中心样本间插值以平 衡数据集。HPM 算法[32] 通过整合 DBSCAN 的离 群检测、SMOTE 和随机森林,从而成功预测糖尿 病和高血压疾病。IDP-SMOTE 算法[33] 利用改进 的密度峰值聚类算法 (improved-DP) 对各个类进 行聚类,识别并剔除噪声样本,然后采用自适应 的方法对每个少数类样本进行 SMOTE 过采样。 3 面向特定应用背景的 SMOTE 3.1 面向高维数据的 SMOTE 高维不平横数据中的数据分布稀疏、特征冗 余或特征不相关等问题是影响传统学习算法难以 识别少数类样本的原因。SMOTE 在处理这类问 题时效果甚至不如随机欠采样方法[34] ,而目前常 见的做法是在分类前使用现有的技术对数据进行 降维,然后在新的维度空间下学习。常见的降维 技术有主成分分析 (PCA)[ 3 5 ] 、特征选择、Bag￾ging[36] 、内核函数 (kernel functions)[37] 、流形技术 (manifold techniques)[38] 和自动编码器 (auto-en￾coders)[39] 等。 Li 等 [40] 提出了基于 LASSO 的特征选择模 型,首先使用特征选择和其他方法删除数据中冗 余和不相关的特征,然后采用基于 LASSO 的特征 权重选择模型增加关键数据的权重,再利用 SM￾OTE 平衡数据集,从而有效消除高维数据中噪声 和不相关数据。Zhang 等 [41] 通过改进的 SVM￾RFE[42] 算法 (SVM-BRFE) 对高维数据进行特征选 择,并采用改进的重采样 PBKS 算法对不平衡数 据进行过采样,提出了针对高维不平衡数据二分 类的 BRFE-PBKS-SVM 算法。在处理高维不平衡 的医疗数据时,许召召等[43] 将 SMOTE 与 Filter￾Wrapper 特征选择算法相融合,并将其应用于支 持临床医疗决策。Guo 等 [44] 使用基于随机森林 (RF) 的特征选择方法降低计算复杂度,然后通过 结合 SMOTE 和 Tomek Link 的重采样平衡数据 集,从而提高膜蛋白预测的准确性。 3.2 面向回归问题的 SMOTE 不平衡数据的回归问题是指预测连续目标变 量的罕见值的问题。目标变量为离散值的不平衡 分类问题一直以来得到了深入的研究,而不平衡 回归问题的研究成果却少之又少。回归问题可以 分为两类:传统回归与序数回归。 传统回归是指在不考虑数据集有序特性的情 况下,对连续型目标变量的预测问题。SMOTER 算法[ 4 5 ] 是处理不平衡回归数据的一种改进的 SMOTE 过采样方法,通过人为给定的阈值将极少 第 6 期 石洪波,等:SMOTE 过采样及其改进算法研究综述 ·1077·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有