正在加载图片...
·1078· 智能系统学报 第14卷 数实例定义成极高值和极低值,并将这两种类型 新样本的特征是从根样本与辅助样本对应的特征 作为单独的情况处理,而合成样本的目标变量值 间插值产生,而插值的关键在于距离的度量。SM 则是通过两个所选样本目标变量的加权平均值确 OTE过采样所选择的欧氏距离只能处理数值型 定。Moniz等a61考虑时间序列的特性,将SMO- 数据,而对分类型数据过采样的方法有两种:分 TER算法推广到不平衡的时间序列问题中,从而 类型数据数值化和改进距离度量公式。 提出了SMB、SMT和SM_TPhi3种方法。Branco 分类型数据数值化方法对数值化后的数据使 等7结合SMOTER方法,提出了基于bagging的 用SMOTE插值,是处理分类型数据常用的方法 集成方法(REBAGG),以解决不平衡回归问题。 之一。然而,插值后属性值是否合理是SMOTE 序数回归则考虑数据集的有序特征,将原始 方法面临的问题。Chawla等对含有分类型属性 数据的目标变量值按人为给定的阈值依次划分成 数据分别提出了SMOTE-NC和SMOTE-N算法, 多个有序的类标签,然后对这些类标签分类。在 前者仍采用欧氏距离来计算,对分类型属性间的 序数回归的有序类标签中,两端的类通常是极端 距离则采用连续属性标准差的中值来代替;后者 情况,这类样本也占少数,因此序数回归本质上 则采用VDM(value difference metric)距离公式o 是一种类不平衡问题。Perez-Ortiz等481提出了 来度量两个样本间的距离。Kurniawati等s OGONI,OGOISP和OGOSP3种基于图的过采样 也利用VDM改进了ADASYN,提出了ADASYN 方法,旨在平衡有序信息。但是,这3种方法只考 N和ADASYN-KNN算法,用来处理具有分类型 虑到少数类及其相邻类的局部排序,忽略了其他 数据的多类数据集。针对含有分类型属性的距离 类的排序。因此,Zhu等4提出了SMOR算法, 度量,现阶段已经得到了广泛研究,相比VDM度 对每个少数类样本,找到与其类别相同和相邻的 量,HVDM(heterogeneous value difference metric)度 k个近邻样本,沿每个近邻样本分配不同的权重, 量$在处理混合属性的数据时更具优势。其他 以控制合成的样本更加靠近少数类,从而保证样 处理含有分类型属性的距离度量包括Ahmad's 本结构的有序性。 距离度量s!、KL散度s以及基于context的距离 3.3面向分类型数据的SMOTE 度量等。图2总结了上述3种不同应用背景下 SMOTE过采样是从特征的角度生成新样本, 处理不平衡数据的相关技术或方法。 基于LASSO的特征选择+SMOTE SVM-BRFE PBKS $ 处理方法 Filter-Wrapper SMOTE 维 数 基于RF的特征选择+ 据 SMOTE Tomek Link PCA、Bagging、核函数 流形技术、自动编码 相关降维技术 SMOTER 特定应用 背景下的 SMB、SMT、SM TPhi 传统回归 SMOTE改 进算法 REBAGG 据 SMOR 序数回归 OGONI、OGOISP、OGOSP 数值化编码 外 SMOTE-NC、SMOTE-N 类型数 结合距离度量方法 ADASYN-N、ADASYN-KNN VDM、HVDM、Ahmad's距离度量 KL散度、基于context的度量 距离度量 图2面向不同应用的SMOTE改进方法 Fig.2 The improved SMOTE methods for different applications数实例定义成极高值和极低值,并将这两种类型 作为单独的情况处理,而合成样本的目标变量值 则是通过两个所选样本目标变量的加权平均值确 定。Moniz 等 [46] 考虑时间序列的特性,将 SMO￾TER 算法推广到不平衡的时间序列问题中,从而 提出了 SM_B、SM_T 和 SM_TPhi 3 种方法。Branco 等 [47] 结合 SMOTER 方法,提出了基于 bagging 的 集成方法 (REBAGG),以解决不平衡回归问题。 序数回归则考虑数据集的有序特征,将原始 数据的目标变量值按人为给定的阈值依次划分成 多个有序的类标签,然后对这些类标签分类。在 序数回归的有序类标签中,两端的类通常是极端 情况,这类样本也占少数,因此序数回归本质上 是一种类不平衡问题。Pérez-Ortiz 等 [48] 提出了 OGONI, OGOISP 和 OGOSP 3 种基于图的过采样 方法,旨在平衡有序信息。但是,这 3 种方法只考 虑到少数类及其相邻类的局部排序,忽略了其他 类的排序。因此,Zhu 等 [49] 提出了 SMOR 算法, 对每个少数类样本,找到与其类别相同和相邻的 k 个近邻样本,沿每个近邻样本分配不同的权重, 以控制合成的样本更加靠近少数类,从而保证样 本结构的有序性。 3.3 面向分类型数据的 SMOTE SMOTE 过采样是从特征的角度生成新样本, 新样本的特征是从根样本与辅助样本对应的特征 间插值产生,而插值的关键在于距离的度量。SM￾OTE 过采样所选择的欧氏距离只能处理数值型 数据,而对分类型数据过采样的方法有两种:分 类型数据数值化和改进距离度量公式。 分类型数据数值化方法对数值化后的数据使 用 SMOTE 插值,是处理分类型数据常用的方法 之一。然而,插值后属性值是否合理是 SMOTE 方法面临的问题。Chawla 等 [4] 对含有分类型属性 数据分别提出了 SMOTE-NC 和 SMOTE-N 算法, 前者仍采用欧氏距离来计算,对分类型属性间的 距离则采用连续属性标准差的中值来代替;后者 则采用 VDM(value difference metric) 距离公式[50] 来度量两个样本间的距离。Kurniawati 等 [ 5 1 ] 也利用 VDM 改进了 ADASYN,提出了 ADASYN￾N 和 ADASYN-KNN 算法,用来处理具有分类型 数据的多类数据集。针对含有分类型属性的距离 度量,现阶段已经得到了广泛研究,相比 VDM 度 量,HVDM(heterogeneous value difference metric) 度 量 [52] 在处理混合属性的数据时更具优势。其他 处理含有分类型属性的距离度量包括 Ahmad’s 距离度量[53] 、KL 散度[54] 以及基于 context 的距离 度量[55] 等。图 2 总结了上述 3 种不同应用背景下 处理不平衡数据的相关技术或方法。 特定应用 背景下的 SMOTE改 进算法 处理方法 SVM-BRFE + PBKS Filter-Wrapper + SMOTE 基于RF的特征选择 + SMOTE & Tomek Link 相关降维技术 PCA、Bagging、核函数、 流形技术、自动编码 ... 传统回归 SMOTER SM_B、SM_T、SM_TPhi REBAGG 序数回归 SMOR OGONI、OGOISP、OGOSP 数值化编码 结合距离度量方法 SMOTE-NC、SMOTE-N ADASYN-N、ADASYN-KNN 距离度量 VDM、HVDM、Ahmad's 距离度量、 KL 散度、基于 context的度量 回归数据高维数据分类型数据 基于 LASSO 的特征选择 + SMOTE 图 2 面向不同应用的 SMOTE 改进方法 Fig. 2 The improved SMOTE methods for different applications ·1078· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有