正在加载图片...
第12卷第6期 智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201706049 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.030.html 一种基于密度的SMOTE方法研究 王俊红,段冰倩 (山西大学计算机与信息技术学院,山西太原030006) 摘要:重采样技术在解决非平衡类分类问题上得到了广泛的应用。其中,Chawla提出的SMOTE(Synthetic Mino- rity Oversampling Technique))算法在一定程度上缓解了数据的不平衡程度,但这种方法对少数类数据不加区分地进 行过抽样,容易造成过拟合。针对此问题,本文提出了一种新的过采样方法:DS-SMOTE方法。DS-SMOTE算法基 于样本的密度来识别稀疏样本,并将其作为采样过程中的种子样本:然后在采样过程中采用SMOTE算法的思想,在 种子样本与其k近邻之间产生合成样本。实验结果显示,DS-SMOTE算法与其他同类方法相比,准确率以及G值有 较大的提高,说明DS-SMOTE算法在处理非平衡数据分类问题上具有一定优势。 关键词:非平衡;分类:采样:准确率;密度 中图分类号:TP311 文献标志码:A文章编号:1673-4785(2017)06-0865-08 中文引用格式:王俊红,段冰倩.一种基于密度的SM0TE方法研究J机.智能系统学报,2017,12(6):865-872 英文引用格式:VANG Junhong,DUAN Bingqian.Research on the SMOTE method based on density[J.CAAI transactions on in- telligent systems,2017,12(6):865-872. Research on the SMOTE method based on density WANG Junhong,DUAN Bingqian (School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China) Abstract:In recent years,over-sampling has been widely used in the field of classification of imbalanced classes.The SMOTE(Synthetic Minority Oversampling Technique)algorithm,presented by Chawla,alleviates the degree of data im- balance to a certain extent,but can lead to over-fitting.To solve this problem,this paper presents a new sampling meth- od,DS-SMOTE,which identifies sparse samples based on their density and uses them as seed samples in the process of sampling.The SMOTE algorithm is then adopted,and a synthetic sample is generated between the seed sample and its k neighbor.The proposed algorithm showed great improvement in precision and G-mean compared with similar al- gorithms,and it has advantage of treating imbalanced data classification. Keywords:imbalance;classification;sampling;precision;density 非平衡数据的分类问题广泛存在于电信诈骗检据的分布以及内部规律,导致少数类的分类精度降 测、医疗诊断、网络入侵监控山、生物信息学、文本 低,所以在分类过程中非平衡数据中少数类的数据 分类)、语言识别)、监测石油泄漏卫星图像等领 稀少是导致分类性能下降的直接原因之一。如何 域中,在这些实际应用中,很多数据的结构并不是 能够在分类之前对数据进行预处理,弥补少数类样 理想化、均匀、平衡地分布。在非平衡数据分类过 本在分布信息方面不足的问题,以达到将数据平衡 程中,由于正类样本数量相对稀少,其所要表达的 化的目的,从而提高分类器的性能,是非平衡数据 信息受到了限制,从而在分类时很难正确分析出数 学习过程中的重点所在。 收稿日期:2017-06-12.网络出版日期:2017-11-09 在目前的研究中,用于解决非平衡数据分类问 基金项目:国家自然科学基金项目(61772323,61402272):山西省 题的常用策略大致分为两种,即数据层面的方法和 自然科学基金项目(201701D121051). 通信作者:王俊红.E-mail:wjhwjh(@sxu.edu.cn 算法层面的方法。算法层面的方法主要包括集成学DOI: 10.11992/tis.201706049 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.030.html 一种基于密度的 SMOTE 方法研究 王俊红,段冰倩 (山西大学 计算机与信息技术学院,山西 太原 030006) 摘 要:重采样技术在解决非平衡类分类问题上得到了广泛的应用。其中,Chawla 提出的 SMOTE(Synthetic Mino￾rity Oversampling Technique) 算法在一定程度上缓解了数据的不平衡程度,但这种方法对少数类数据不加区分地进 行过抽样,容易造成过拟合。针对此问题,本文提出了一种新的过采样方法:DS-SMOTE 方法。DS-SMOTE 算法基 于样本的密度来识别稀疏样本,并将其作为采样过程中的种子样本;然后在采样过程中采用 SMOTE 算法的思想,在 种子样本与其 k 近邻之间产生合成样本。实验结果显示,DS-SMOTE 算法与其他同类方法相比,准确率以及 G 值有 较大的提高,说明 DS-SMOTE 算法在处理非平衡数据分类问题上具有一定优势。 关键词:非平衡;分类;采样;准确率;密度 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2017)06−0865−08 中文引用格式:王俊红, 段冰倩. 一种基于密度的 SMOTE 方法研究[J]. 智能系统学报, 2017, 12(6): 865–872. 英文引用格式:WANG Junhong, DUAN Bingqian. Research on the SMOTE method based on density[J]. CAAI transactions on in￾telligent systems, 2017, 12(6): 865–872. Research on the SMOTE method based on density WANG Junhong,DUAN Bingqian (School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China) Abstract: In recent years, over-sampling has been widely used in the field of classification of imbalanced classes. The SMOTE(Synthetic Minority Oversampling Technique) algorithm, presented by Chawla, alleviates the degree of data im￾balance to a certain extent, but can lead to over-fitting. To solve this problem, this paper presents a new sampling meth￾od, DS-SMOTE, which identifies sparse samples based on their density and uses them as seed samples in the process of sampling. The SMOTE algorithm is then adopted, and a synthetic sample is generated between the seed sample and its k neighbor. The proposed algorithm showed great improvement in precision and G-mean compared with similar al￾gorithms, and it has advantage of treating imbalanced data classification. Keywords: imbalance; classification; sampling; precision; density 非平衡数据的分类问题广泛存在于电信诈骗检 测、医疗诊断、网络入侵监控[1] 、生物信息学、文本 分类[2] 、语言识别[3] 、监测石油泄漏卫星图像[4]等领 域中,在这些实际应用中,很多数据的结构并不是 理想化、均匀、平衡地分布。在非平衡数据分类过 程中,由于正类样本数量相对稀少,其所要表达的 信息受到了限制,从而在分类时很难正确分析出数 据的分布以及内部规律,导致少数类的分类精度降 低,所以在分类过程中非平衡数据中少数类的数据 稀少是导致分类性能下降的直接原因之一[5]。如何 能够在分类之前对数据进行预处理,弥补少数类样 本在分布信息方面不足的问题,以达到将数据平衡 化的目的,从而提高分类器的性能,是非平衡数据 学习过程中的重点所在。 在目前的研究中,用于解决非平衡数据分类问 题的常用策略大致分为两种,即数据层面的方法和 算法层面的方法。算法层面的方法主要包括集成学 收稿日期:2017−06−12. 网络出版日期:2017−11−09. 基金项目:国家自然科学基金项目(61772323,61402272); 山西省 自然科学基金项目(201701D121051). 通信作者:王俊红. E-mail:wjhwjh@sxu.edu.cn. 第 12 卷第 6 期 智 能 系 统 学 报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有