正在加载图片...
第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201906052 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190916.1054.004.html SMOTE过采样及其改进算法研究综述 石洪波,陈雨文,陈鑫 (山西财经大学信息学院,山西太原030031) 摘要:近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集 的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存 在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE 应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和 应用提供有价值的借鉴和参考。 关键词:不平衡数据分类;SMOTE;算法;kNN;过采样:欠采样:高维数据;分类型数据 中图分类号:TP391文献标志码:A文章编号:1673-47852019)06-1073-11 中文引用格式:石洪波,陈雨文,陈鑫.SM0TE过采样及其改进算法研究综述.智能系统学报,2019,14(6):1073-1083. 英文引用格式:SHI Hongbo,.CHEN Yuwen,CHEN Xin.Summary of research on SMOTE oversampling and its improved al-- gorithms[JI.CAAI transactions on intelligent systems,2019,14(6):1073-1083. Summary of research on SMOTE oversampling and its improved algorithms SHI Hongbo,CHEN Yuwen,CHEN Xin (School of Information,Shanxi University of Finance and Economics,Taiyuan,Shanxi,030031) Abstract:In recent years,the problem of imbalanced classification has received considerable attention.The synthetic minority oversampling technique(SMOTE),a popular method for improving the classification performance of imbal- anced data,adds generated minority samples to change the distribution of imbalanced data sets.In this paper,we first describe the fundamentals,algorithms,and existing problems of SMOTE.Then,with respect to the existing problems of SMOTE,we introduce related research on four types of extension methods and three types of applications.Finally,to provide valuable reference information for the research and application of SMOTE,we analyze the existing difficulties of applying SMOTE to big data,streaming data,a small amount of label data,and other types of data. Keywords:imbalanced data classification;SMOTE;algorithm;k-NN;oversampling;undersampling;high dimensional data;categorical data 不平衡数据的分类问题在疾病检测山、欺诈 在现实生活中,少数类样本的预测结果才是人们 检测以及故障诊断)等应用领域中受到了广泛 关注的重点,如疾病检测中,人们对阳性病人检 关注。不平衡数据是指类分布明显不均衡的数 测为阴性的容忍度要远远低于阴性病人检测为阳 据,其中样本数目多的类为多数类,而样本数目 性的容忍度。 少的类为少数类。由于少数类样本数目过少,导 为了提高不平衡数据的分类模型性能,近年 致传统分类器的准确率偏向于多数类,即便准确 来不少学者做了大量研究工作,主要分为算法层 率很高也无法保证少数类样本均分类正确。然而 面和数据层面。本文重点关注数据层面的研究。 收稿日期:2019-06-27.网络出版日期:2019-09-16. 在分类之前通过移除或添加一部分数据来平衡类 基金项目:国家自然科学基金资助项目(61801279):山西省自 然料学基金项目(201801D121115,2014011022-2). 分布是数据层面常用的做法,主要包括欠采样和 通信作者:石洪波.E-mail:shihb@sxufe.edu.cn 过采样。传统的处理不平衡数据集的采样方法主DOI: 10.11992/tis.201906052 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190916.1054.004.html SMOTE 过采样及其改进算法研究综述 石洪波,陈雨文,陈鑫 (山西财经大学 信息学院,山西 太原 030031) 摘 要:近年来不平衡分类问题受到广泛关注。SMOTE 过采样通过添加生成的少数类样本改变不平衡数据集 的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了 SMOTE 的原理、算法以及存 在的问题,针对 SMOTE 存在的问题,分别介绍了其 4 种扩展方法和 3 种应用的相关研究,最后分析了 SMOTE 应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为 SMOTE 的研究和 应用提供有价值的借鉴和参考。 关键词:不平衡数据分类;SMOTE;算法;k-NN;过采样;欠采样;高维数据;分类型数据 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)06−1073−11 中文引用格式:石洪波, 陈雨文, 陈鑫. SMOTE 过采样及其改进算法研究综述 [J]. 智能系统学报, 2019, 14(6): 1073–1083. 英文引用格式:SHI Hongbo, CHEN Yuwen, CHEN Xin. Summary of research on SMOTE oversampling and its improved al￾gorithms[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1073–1083. Summary of research on SMOTE oversampling and its improved algorithms SHI Hongbo,CHEN Yuwen,CHEN Xin (School of Information, Shanxi University of Finance and Economics, Taiyuan, Shanxi, 030031) Abstract: In recent years, the problem of imbalanced classification has received considerable attention. The synthetic minority oversampling technique (SMOTE), a popular method for improving the classification performance of imbal￾anced data, adds generated minority samples to change the distribution of imbalanced data sets. In this paper, we first describe the fundamentals, algorithms, and existing problems of SMOTE. Then, with respect to the existing problems of SMOTE, we introduce related research on four types of extension methods and three types of applications. Finally, to provide valuable reference information for the research and application of SMOTE, we analyze the existing difficulties of applying SMOTE to big data, streaming data, a small amount of label data, and other types of data. Keywords: imbalanced data classification; SMOTE; algorithm; k-NN; oversampling; undersampling; high dimensional data; categorical data 不平衡数据的分类问题在疾病检测[1] 、欺诈 检测[2] 以及故障诊断[3] 等应用领域中受到了广泛 关注。不平衡数据是指类分布明显不均衡的数 据,其中样本数目多的类为多数类,而样本数目 少的类为少数类。由于少数类样本数目过少,导 致传统分类器的准确率偏向于多数类,即便准确 率很高也无法保证少数类样本均分类正确。然而 在现实生活中,少数类样本的预测结果才是人们 关注的重点,如疾病检测中,人们对阳性病人检 测为阴性的容忍度要远远低于阴性病人检测为阳 性的容忍度。 为了提高不平衡数据的分类模型性能,近年 来不少学者做了大量研究工作,主要分为算法层 面和数据层面。本文重点关注数据层面的研究。 在分类之前通过移除或添加一部分数据来平衡类 分布是数据层面常用的做法,主要包括欠采样和 过采样。传统的处理不平衡数据集的采样方法主 收稿日期:2019−06−27. 网络出版日期:2019−09−16. 基金项目:国家自然科学基金资助项目 (61801279);山西省自 然科学基金项目 (201801D121115,2014011022-2). 通信作者:石洪波. E-mail:shihb@sxufe.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有