数实例定义成极高值和极低值，并将这两种类型作为单独的情况处理，而合成样本

点击下载：SMOTE过采样及其改进算法研究综述（山西财经大学：石洪波、陈雨文、陈鑫）

正在加载图片...

·1078· 智能系统学报第14卷数实例定义成极高值和极低值，并将这两种类型新样本的特征是从根样本与辅助样本对应的特征作为单独的情况处理，而合成样本的目标变量值间插值产生，而插值的关键在于距离的度量。SM 则是通过两个所选样本目标变量的加权平均值确 OTE过采样所选择的欧氏距离只能处理数值型定。Moniz等a61考虑时间序列的特性，将SMO- 数据，而对分类型数据过采样的方法有两种：分 TER算法推广到不平衡的时间序列问题中，从而类型数据数值化和改进距离度量公式。提出了SMB、SMT和SM_TPhi3种方法。Branco 分类型数据数值化方法对数值化后的数据使等7结合SMOTER方法，提出了基于bagging的用SMOTE插值，是处理分类型数据常用的方法集成方法(REBAGG),以解决不平衡回归问题。之一。然而，插值后属性值是否合理是SMOTE 序数回归则考虑数据集的有序特征，将原始方法面临的问题。Chawla等对含有分类型属性数据的目标变量值按人为给定的阈值依次划分成数据分别提出了SMOTE-NC和SMOTE-N算法，多个有序的类标签，然后对这些类标签分类。在前者仍采用欧氏距离来计算，对分类型属性间的序数回归的有序类标签中，两端的类通常是极端距离则采用连续属性标准差的中值来代替；后者情况，这类样本也占少数，因此序数回归本质上则采用VDM(value difference metric)距离公式o 是一种类不平衡问题。Perez-Ortiz等481提出了来度量两个样本间的距离。Kurniawati等s OGONI,OGOISP和OGOSP3种基于图的过采样也利用VDM改进了ADASYN,提出了ADASYN 方法，旨在平衡有序信息。但是，这3种方法只考 N和ADASYN-KNN算法，用来处理具有分类型虑到少数类及其相邻类的局部排序，忽略了其他数据的多类数据集。针对含有分类型属性的距离类的排序。因此，Zhu等4提出了SMOR算法，度量，现阶段已经得到了广泛研究，相比VDM度对每个少数类样本，找到与其类别相同和相邻的量，HVDM(heterogeneous value difference metric)度 k个近邻样本，沿每个近邻样本分配不同的权重，量$在处理混合属性的数据时更具优势。其他以控制合成的样本更加靠近少数类，从而保证样处理含有分类型属性的距离度量包括Ahmad's 本结构的有序性。距离度量s!、KL散度s以及基于context的距离 3.3面向分类型数据的SMOTE 度量等。图2总结了上述3种不同应用背景下 SMOTE过采样是从特征的角度生成新样本，处理不平衡数据的相关技术或方法。基于LASSO的特征选择+SMOTE SVM-BRFE PBKS $ 处理方法 Filter-Wrapper SMOTE 维数基于RF的特征选择+ 据 SMOTE Tomek Link PCA、Bagging、核函数流形技术、自动编码相关降维技术 SMOTER 特定应用背景下的 SMB、SMT、SM TPhi 传统回归 SMOTE改进算法 REBAGG 据 SMOR 序数回归 OGONI、OGOISP、OGOSP 数值化编码外 SMOTE-NC、SMOTE-N 类型数结合距离度量方法 ADASYN-N、ADASYN-KNN VDM、HVDM、Ahmad's距离度量 KL散度、基于context的度量距离度量图2面向不同应用的SMOTE改进方法 Fig.2 The improved SMOTE methods for different applications数实例定义成极高值和极低值，并将这两种类型作为单独的情况处理，而合成样本的目标变量值则是通过两个所选样本目标变量的加权平均值确定。Moniz 等 [46] 考虑时间序列的特性，将 SMOTER 算法推广到不平衡的时间序列问题中，从而提出了 SM_B、SM_T 和 SM_TPhi 3 种方法。Branco 等 [47] 结合 SMOTER 方法，提出了基于 bagging 的集成方法 (REBAGG)，以解决不平衡回归问题。序数回归则考虑数据集的有序特征，将原始数据的目标变量值按人为给定的阈值依次划分成多个有序的类标签，然后对这些类标签分类。在序数回归的有序类标签中，两端的类通常是极端情况，这类样本也占少数，因此序数回归本质上是一种类不平衡问题。Pérez-Ortiz 等 [48] 提出了 OGONI, OGOISP 和 OGOSP 3 种基于图的过采样方法，旨在平衡有序信息。但是，这 3 种方法只考虑到少数类及其相邻类的局部排序，忽略了其他类的排序。因此，Zhu 等 [49] 提出了 SMOR 算法，对每个少数类样本，找到与其类别相同和相邻的 k 个近邻样本，沿每个近邻样本分配不同的权重，以控制合成的样本更加靠近少数类，从而保证样本结构的有序性。 3.3 面向分类型数据的 SMOTE SMOTE 过采样是从特征的角度生成新样本，新样本的特征是从根样本与辅助样本对应的特征间插值产生，而插值的关键在于距离的度量。SMOTE 过采样所选择的欧氏距离只能处理数值型数据，而对分类型数据过采样的方法有两种：分类型数据数值化和改进距离度量公式。分类型数据数值化方法对数值化后的数据使用 SMOTE 插值，是处理分类型数据常用的方法之一。然而，插值后属性值是否合理是 SMOTE 方法面临的问题。Chawla 等 [4] 对含有分类型属性数据分别提出了 SMOTE-NC 和 SMOTE-N 算法，前者仍采用欧氏距离来计算，对分类型属性间的距离则采用连续属性标准差的中值来代替；后者则采用 VDM(value difference metric) 距离公式[50] 来度量两个样本间的距离。Kurniawati 等 [ 5 1 ] 也利用 VDM 改进了 ADASYN，提出了 ADASYNN 和 ADASYN-KNN 算法，用来处理具有分类型数据的多类数据集。针对含有分类型属性的距离度量，现阶段已经得到了广泛研究，相比 VDM 度量，HVDM(heterogeneous value difference metric) 度量 [52] 在处理混合属性的数据时更具优势。其他处理含有分类型属性的距离度量包括 Ahmad’s 距离度量[53] 、KL 散度[54] 以及基于 context 的距离度量[55] 等。图 2 总结了上述 3 种不同应用背景下处理不平衡数据的相关技术或方法。特定应用背景下的 SMOTE改进算法处理方法 SVM-BRFE + PBKS Filter-Wrapper + SMOTE 基于RF的特征选择 + SMOTE & Tomek Link 相关降维技术 PCA、Bagging、核函数、流形技术、自动编码 ... 传统回归 SMOTER SM_B、SM_T、SM_TPhi REBAGG 序数回归 SMOR OGONI、OGOISP、OGOSP 数值化编码结合距离度量方法 SMOTE-NC、SMOTE-N ADASYN-N、ADASYN-KNN 距离度量 VDM、HVDM、Ahmad's 距离度量、 KL 散度、基于 context的度量回归数据高维数据分类型数据基于 LASSO 的特征选择 + SMOTE 图 2 面向不同应用的 SMOTE 改进方法 Fig. 2 The improved SMOTE methods for different applications ·1078· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：SMOTE过采样及其改进算法研究综述（山西财经大学：石洪波、陈雨文、陈鑫）