正在加载图片...
·1076· 智能系统学报 第14卷 表2欠采样与SMOTE结合的方法 Table 2 Methods combining undersampling with SMOTE 算法名 欠采样方法 过采样方法 解决的问题 AdaBoost-SVM-MSA 直接删除法、约除法 SMOTE ①、② BDSK 基于k-means欠采样 SMOTE ① BMS OSED随机欠采样 SMOTE ①、③ OSSU-SMOTEO oSS SMOTE ①、② Hybrid Sampling DBSCAN、KNN欠采样 SMOTE ①、② SDS-SMOT SDS SMOTE ② SVM-HS 直接删除法 SMOTE ① AdaBoost--SVM-MSA算法I)按一定规则将 在预测蛋白质s-磺酰化位点的分类精度。文献 SVM分错的样本划分成噪声样本、危险样本与安 [I8]的Hybrid Sampling使用DBSCAN和KNN剔 全样本,然后直接删除噪声样本,采用约除法处 除多数类中的模糊样本;然后采用SMOTE对重 理危险样本,并对安全样本进行SMOTE过采 叠区域的少数类样本过采样,达到平衡数据集的 样。基于聚类的混合采样(BDSK)将SMOTE 日的。SDS-SMOT算法11利用安全双筛选丢弃 的过采样与基于K-means的欠采样相结合,旨在 远离决策边界的多数类样本和噪声样本,实现原 扩大少数类样本集的同时有效别除噪声样本。 始数据集的欠采样,采用SMOTE合成新样本实 BMS算法1通过设置变异系数阈值将样本划分 现过采样,使数据集达到基本平衡。基于SVM 成边界域和非边界域,然后使用SMOTE以及基 分类超平面的混合采样算法(SVM HS)分别对多 于欧氏距离的随机欠采样方法(OSED)6分别对 数类样本和较为重要的少数类样本进行欠采样和 边界域的少数类样本和非边界域的多数类样本进 过采样从而平衡数据集。 行采样,旨在解决在剔除噪声时由于误删少数类 2.3过滤技术与SMOTE结合的方法 样本而丢失部分样本信息的问题。OSSU-SMOTEO 混合采样是克服不平衡问题中噪声样本的一 算法叨使用单边选择(OSS)欠采样移除多数类样 种手段,然而结合噪声过滤技术同样可以消除由 本中冗余样本和边界样本,然后采用SMOTE对 SMOTE合成的错误样本,如表3所示。常见的过 少数类样本过采样,从而平衡数据集,提高SVM 滤技术包括基于粗糙集的过滤、数据清洗等。 表3过滤技术与SMOTE结合的方法 Table 3 Methods combining filtering technique with SMOTE 算法名 过滤技术 过采样方法 解决的问题 SMOTE-RSB* RST SMOTE ①、② SMOTE-IPF IPF SMOTE ①、② BST-CF CF SMOTE ② SSMNFOS SSM SMOTE ①、② NN-FRIS-SMOTE RSIS SMOTE ①、② SMOTE-Tomek Tomek SMOTE ①、② SMOTE-ENN ENN SMOTE ② Ramentol等2)将粗糙集理论的编辑技术与 采样方法对噪声样本的鲁棒性。NN-FRIS-SMOTE SMOTE算法融合,提出了SMOTE-RSB*算法。 算法则先筛选出代表性的样本,再使用模糊粗 SMOTE-IPF算法22采用迭代分区滤波器(iterat-- 糙实例选择(RSIS)技术过滤噪声样本,然后使用 ive-partitioning filter,IPF)将噪声过滤器与 SMOTE过采样少数类样本,从而增加了正确识别 SMOTE融合,旨在克服不平衡问题中的噪声和边 产品缺陷的可能性。基于数据清洗的过滤算法中 界问题。BST-CF算法2)将SMOTE与噪声过滤 典型的有SMOTE-Tomek和SMOTE-ENN算 器CF(classification filter)结合,在平衡数据集的同 法2a,SMOTE-Tomek利用SMOTE对原始数据过 时,从多数类中消除位于边界区域的噪声样本。 采样来扩大样本集,移除采样后数据集中的Tome SSMNFOS算法2是一种基于随机灵敏度测量 Link对,从而删除类间重叠的样本,其中Tome (SSM)的噪声过滤和过采样的方法,从而提高过 Link对是指分属不同类别且距离最近的一对样表 2 欠采样与 SMOTE 结合的方法 Table 2 Methods combining undersampling with SMOTE 算法名 欠采样方法 过采样方法 解决的问题 AdaBoost-SVM-MSA 直接删除法、约除法 SMOTE ①、② BDSK 基于k-means欠采样 SMOTE ① BMS OSED随机欠采样 SMOTE ①、③ OSSU- SMOTEO OSS SMOTE ①、② Hybrid Sampling[18] DBSCAN、KNN欠采样 SMOTE ①、② SDS-SMOT SDS SMOTE ② SVM-HS 直接删除法 SMOTE ① AdaBoost-SVM-MSA 算法[13] 按一定规则将 SVM 分错的样本划分成噪声样本、危险样本与安 全样本,然后直接删除噪声样本,采用约除法处 理危险样本,并对安全样本进行 SMOTE 过采 样。基于聚类的混合采样 (BDSK)[14] 将 SMOTE 的过采样与基于 K-means 的欠采样相结合,旨在 扩大少数类样本集的同时有效剔除噪声样本。 BMS 算法[15] 通过设置变异系数阈值将样本划分 成边界域和非边界域,然后使用 SMOTE 以及基 于欧氏距离的随机欠采样方法 (OSED)[16] 分别对 边界域的少数类样本和非边界域的多数类样本进 行采样,旨在解决在剔除噪声时由于误删少数类 样本而丢失部分样本信息的问题。OSSU-SMOTEO 算法[17] 使用单边选择 (OSS) 欠采样移除多数类样 本中冗余样本和边界样本,然后采用 SMOTE 对 少数类样本过采样,从而平衡数据集,提高 SVM 在预测蛋白质 s-磺酰化位点的分类精度。文献 [18] 的 Hybrid Sampling 使用 DBSCAN 和 KNN 剔 除多数类中的模糊样本;然后采用 SMOTE 对重 叠区域的少数类样本过采样,达到平衡数据集的 目的。SDS-SMOT 算法[19] 利用安全双筛选丢弃 远离决策边界的多数类样本和噪声样本,实现原 始数据集的欠采样,采用 SMOTE 合成新样本实 现过采样,使数据集达到基本平衡。基于 SVM 分类超平面的混合采样算法 (SVM_HS) 分别对多 数类样本和较为重要的少数类样本进行欠采样和 过采样从而平衡数据集[20]。 2.3 过滤技术与 SMOTE 结合的方法 混合采样是克服不平衡问题中噪声样本的一 种手段,然而结合噪声过滤技术同样可以消除由 SMOTE 合成的错误样本,如表 3 所示。常见的过 滤技术包括基于粗糙集的过滤、数据清洗等。 表 3 过滤技术与 SMOTE 结合的方法 Table 3 Methods combining filtering technique with SMOTE 算法名 过滤技术 过采样方法 解决的问题 SMOTE-RSB* RST SMOTE ①、② SMOTE-IPF IPF SMOTE ①、② BST-CF CF SMOTE ② SSMNFOS SSM SMOTE ①、② NN-FRIS-SMOTE RSIS SMOTE ①、② SMOTE-Tomek Tomek SMOTE ①、② SMOTE-ENN ENN SMOTE ② Ramentol 等 [21] 将粗糙集理论的编辑技术与 SMOTE 算法融合,提出了 SMOTE-RSB*算法。 SMOTE-IPF 算法[22] 采用迭代分区滤波器 (iterat￾ive-partitioning filter, IPF) 将噪声过滤器与 SMOTE 融合,旨在克服不平衡问题中的噪声和边 界问题。BST-CF 算法[23] 将 SMOTE 与噪声过滤 器 CF(classification filter) 结合,在平衡数据集的同 时,从多数类中消除位于边界区域的噪声样本。 SSMNFOS 算法[24] 是一种基于随机灵敏度测量 (SSM) 的噪声过滤和过采样的方法,从而提高过 采样方法对噪声样本的鲁棒性。NN-FRIS-SMOTE 算法[25] 则先筛选出代表性的样本,再使用模糊粗 糙实例选择 (RSIS) 技术过滤噪声样本,然后使用 SMOTE 过采样少数类样本,从而增加了正确识别 产品缺陷的可能性。基于数据清洗的过滤算法中 典型的有 SMOTE-Tomek 和 SMOTE-ENN 算 法 [26] ,SMOTE-Tomek 利用 SMOTE 对原始数据过 采样来扩大样本集,移除采样后数据集中的 Tome Link 对,从而删除类间重叠的样本,其中 Tome Link 对是指分属不同类别且距离最近的一对样 ·1076· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有