DOI: 10.11992/tis.201706049 网络出版地址: h

正在加载图片...

第12卷第6期智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201706049 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.030.html 一种基于密度的SMOTE方法研究王俊红，段冰倩 (山西大学计算机与信息技术学院，山西太原030006) 摘要：重采样技术在解决非平衡类分类问题上得到了广泛的应用。其中，Chawla提出的SMOTE(Synthetic Mino- rity Oversampling Technique))算法在一定程度上缓解了数据的不平衡程度，但这种方法对少数类数据不加区分地进行过抽样，容易造成过拟合。针对此问题，本文提出了一种新的过采样方法：DS-SMOTE方法。DS-SMOTE算法基于样本的密度来识别稀疏样本，并将其作为采样过程中的种子样本：然后在采样过程中采用SMOTE算法的思想，在种子样本与其k近邻之间产生合成样本。实验结果显示，DS-SMOTE算法与其他同类方法相比，准确率以及G值有较大的提高，说明DS-SMOTE算法在处理非平衡数据分类问题上具有一定优势。关键词：非平衡；分类：采样：准确率；密度中图分类号：TP311 文献标志码：A文章编号：1673-4785(2017)06-0865-08 中文引用格式：王俊红，段冰倩.一种基于密度的SM0TE方法研究J机.智能系统学报，2017,12(6)：865-872 英文引用格式：VANG Junhong,DUAN Bingqian.Research on the SMOTE method based on density[J.CAAI transactions on in- telligent systems,2017,12(6):865-872. Research on the SMOTE method based on density WANG Junhong,DUAN Bingqian (School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China) Abstract:In recent years,over-sampling has been widely used in the field of classification of imbalanced classes.The SMOTE(Synthetic Minority Oversampling Technique)algorithm,presented by Chawla,alleviates the degree of data im- balance to a certain extent,but can lead to over-fitting.To solve this problem,this paper presents a new sampling meth- od,DS-SMOTE,which identifies sparse samples based on their density and uses them as seed samples in the process of sampling.The SMOTE algorithm is then adopted,and a synthetic sample is generated between the seed sample and its k neighbor.The proposed algorithm showed great improvement in precision and G-mean compared with similar al- gorithms,and it has advantage of treating imbalanced data classification. Keywords:imbalance;classification;sampling;precision;density 非平衡数据的分类问题广泛存在于电信诈骗检据的分布以及内部规律，导致少数类的分类精度降测、医疗诊断、网络入侵监控山、生物信息学、文本低，所以在分类过程中非平衡数据中少数类的数据分类)、语言识别)、监测石油泄漏卫星图像等领稀少是导致分类性能下降的直接原因之一。如何域中，在这些实际应用中，很多数据的结构并不是能够在分类之前对数据进行预处理，弥补少数类样理想化、均匀、平衡地分布。在非平衡数据分类过本在分布信息方面不足的问题，以达到将数据平衡程中，由于正类样本数量相对稀少，其所要表达的化的目的，从而提高分类器的性能，是非平衡数据信息受到了限制，从而在分类时很难正确分析出数学习过程中的重点所在。收稿日期：2017-06-12.网络出版日期：2017-11-09 在目前的研究中，用于解决非平衡数据分类问基金项目：国家自然科学基金项目(61772323,61402272)：山西省题的常用策略大致分为两种，即数据层面的方法和自然科学基金项目(201701D121051). 通信作者：王俊红.E-mail:wjhwjh(@sxu.edu.cn 算法层面的方法。算法层面的方法主要包括集成学DOI: 10.11992/tis.201706049 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.030.html 一种基于密度的 SMOTE 方法研究王俊红，段冰倩（山西大学计算机与信息技术学院，山西太原 030006）摘要：重采样技术在解决非平衡类分类问题上得到了广泛的应用。其中，Chawla 提出的 SMOTE(Synthetic Minority Oversampling Technique) 算法在一定程度上缓解了数据的不平衡程度，但这种方法对少数类数据不加区分地进行过抽样，容易造成过拟合。针对此问题，本文提出了一种新的过采样方法：DS-SMOTE 方法。DS-SMOTE 算法基于样本的密度来识别稀疏样本，并将其作为采样过程中的种子样本；然后在采样过程中采用 SMOTE 算法的思想，在种子样本与其 k 近邻之间产生合成样本。实验结果显示，DS-SMOTE 算法与其他同类方法相比，准确率以及 G 值有较大的提高，说明 DS-SMOTE 算法在处理非平衡数据分类问题上具有一定优势。关键词：非平衡；分类；采样；准确率；密度中图分类号：TP311 文献标志码：A 文章编号：1673−4785(2017)06−0865−08 中文引用格式：王俊红, 段冰倩. 一种基于密度的 SMOTE 方法研究[J]. 智能系统学报, 2017, 12(6): 865–872. 英文引用格式：WANG Junhong, DUAN Bingqian. Research on the SMOTE method based on density[J]. CAAI transactions on intelligent systems, 2017, 12(6): 865–872. Research on the SMOTE method based on density WANG Junhong，DUAN Bingqian (School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China) Abstract: In recent years, over-sampling has been widely used in the field of classification of imbalanced classes. The SMOTE(Synthetic Minority Oversampling Technique) algorithm, presented by Chawla, alleviates the degree of data imbalance to a certain extent, but can lead to over-fitting. To solve this problem, this paper presents a new sampling method, DS-SMOTE, which identifies sparse samples based on their density and uses them as seed samples in the process of sampling. The SMOTE algorithm is then adopted, and a synthetic sample is generated between the seed sample and its k neighbor. The proposed algorithm showed great improvement in precision and G-mean compared with similar algorithms, and it has advantage of treating imbalanced data classification. Keywords: imbalance; classification; sampling; precision; density 非平衡数据的分类问题广泛存在于电信诈骗检测、医疗诊断、网络入侵监控[1] 、生物信息学、文本分类[2] 、语言识别[3] 、监测石油泄漏卫星图像[4]等领域中，在这些实际应用中，很多数据的结构并不是理想化、均匀、平衡地分布。在非平衡数据分类过程中，由于正类样本数量相对稀少，其所要表达的信息受到了限制，从而在分类时很难正确分析出数据的分布以及内部规律，导致少数类的分类精度降低，所以在分类过程中非平衡数据中少数类的数据稀少是导致分类性能下降的直接原因之一[5]。如何能够在分类之前对数据进行预处理，弥补少数类样本在分布信息方面不足的问题，以达到将数据平衡化的目的，从而提高分类器的性能，是非平衡数据学习过程中的重点所在。在目前的研究中，用于解决非平衡数据分类问题的常用策略大致分为两种，即数据层面的方法和算法层面的方法。算法层面的方法主要包括集成学收稿日期：2017−06−12. 网络出版日期：2017−11−09. 基金项目：国家自然科学基金项目（61772323，61402272）；山西省自然科学基金项目（201701D121051）. 通信作者：王俊红. E-mail：wjhwjh@sxu.edu.cn. 第 12 卷第 6 期智能系统学报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017

向下翻页>>

点击下载：【机器学习】一种基于密度的SMOTE方法研究