正在加载图片...
第11卷第2期 智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201507015 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160314.1431.002.html 动态平衡采样的不平衡数据集成分类方法 胡小生,温菊屏,钟勇 (佛山科学技术学院电子与信息工程学院,广东佛山528000) 摘要:传统分类算法假定平衡的类分布或相同的误分类代价,处理不平衡数据集时,少数类识别精度过低。提出 一种动态平衡数据采样与Boosting技术相结合的不平衡数据集成分类算法。在每次迭代初始,综合使用随机欠采样 和SMOTE过采样获得平衡规模的训练数据,各类别样本数据比例保持随机性以体现训练数据的差异性,为子分类 器提供更好的训练平台:子分类器形成后,利用加权投票得到最终强分类器。实验结果表明,该方法具有处理类别 不平衡数据分类问题的优势。 关键词:分类:不平衡数据:重采样:集成学习;随机森林 中图分类号:TP181文献标志码:A文章编号:1673-4785(2016)02-0257-07 中文引用格式:胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报,2016,11(2):257-263. 英文引用格式:HU Xiaosheng,WEN Juping,ZHONG Yong..mbalanced data ensemble classification using dynamic balance sam- pling[J].CAAI transactions on intelligent systems,2016,11(2):257-263. Imbalanced data ensemble classification using dynamic balance sampling HU Xiaosheng,WEN Juping,ZHONG Yong College of Electronic and Information Engineering,Foshan University,Foshan 528000,China) Abstract:Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data.A novel imbalanced da- ta classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed.At the beginning of each iteration,each member of the dynamic balance ensemble is trained with under-sampled data from the original training set and is augmented by artificial instances obtained using SMOTE.The distribution pro- portion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub-classifier.Once the sub-classifiers are trained,a strong classifier is obtained using a weighting vote.Experimental results show that the proposed method provides better classification perform- ance than other approaches. Keywords:data mining;imbalanced data;re-sampling;ensemble;random forest 分类是机器学习、数据挖掘领域的重要研究内 已经有许多经典的分类算法,例如决策树、支持向量 容,通过对输入的训练样本数据进行分析、学习后获 机、人工神经网络,这些算法在类别数据分布均匀的 得决策模型,随后即可对未知样本进行预测。目前, 条件下具有良好的分类性能,得到了广泛应用。但 是,在许多实际应用领域中,存在着非常明显的类别 收稿日期:2015-07-09.网络出版日期:2016-03-14. 不平衡数据,例如信用卡欺诈检测、医疗疾病诊断、 基金项目:广东省自然科学基金项目(2015A030313638):佛山科学技 术学院校级科研项目. 网络入侵检测等,在这些情况的分类处理过程中,少 通信作者:胡小生.E-mail:feihu@(fosu.cdu.cn 数类需要受到特别关注,往往具有更大的误分类代 价,然而传统分类算法基于平衡的数据分布或者相第 11 卷第 2 期 智 能 系 统 学 报 Vol.11 №.2 2016 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2016 DOI:10.11992 / tis.201507015 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160314.1431.002.html 动态平衡采样的不平衡数据集成分类方法 胡小生,温菊屏,钟勇 (佛山科学技术学院 电子与信息工程学院,广东 佛山 528000) 摘 要:传统分类算法假定平衡的类分布或相同的误分类代价,处理不平衡数据集时,少数类识别精度过低。 提出 一种动态平衡数据采样与 Boosting 技术相结合的不平衡数据集成分类算法。 在每次迭代初始,综合使用随机欠采样 和 SMOTE 过采样获得平衡规模的训练数据,各类别样本数据比例保持随机性以体现训练数据的差异性,为子分类 器提供更好的训练平台;子分类器形成后,利用加权投票得到最终强分类器。 实验结果表明,该方法具有处理类别 不平衡数据分类问题的优势。 关键词:分类;不平衡数据;重采样;集成学习;随机森林 中图分类号: TP181 文献标志码:A 文章编号:1673⁃4785(2016)02⁃0257⁃07 中文引用格式:胡小生,温菊屏,钟勇. 动态平衡采样的不平衡数据集成分类方法[J]. 智能系统学报, 2016, 11(2): 257⁃263. 英文引用格式:HU Xiaosheng, WEN Juping, ZHONG Yong. Imbalanced data ensemble classification using dynamic balance sam⁃ pling[J]. CAAI transactions on intelligent systems, 2016, 11(2): 257⁃263. Imbalanced data ensemble classification using dynamic balance sampling HU Xiaosheng, WEN Juping, ZHONG Yong (College of Electronic and Information Engineering, Foshan University, Foshan 528000, China) Abstract:Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data. A novel imbalanced da⁃ ta classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed. At the beginning of each iteration, each member of the dynamic balance ensemble is trained with under⁃sampled data from the original training set and is augmented by artificial instances obtained using SMOTE . The distribution pro⁃ portion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub⁃classifier. Once the sub⁃classifiers are trained, a strong classifier is obtained using a weighting vote. Experimental results show that the proposed method provides better classification perform⁃ ance than other approaches. Keywords: data mining; imbalanced data; re⁃sampling; ensemble; random forest 收稿日期:2015⁃07⁃09. 网络出版日期:2016⁃03 基金项目: ⁃14. 分类是机器学习、数据挖掘领域的重要研究内 容,通过对输入的训练样本数据进行分析、学习后获 得决策模型,随后即可对未知样本进行预测。 目前, 已经有许多经典的分类算法,例如决策树、支持向 广东省自然科学基金项目(2015A030313638);佛山科学技 术学院校级科研项目. 通信作者:胡小生. E⁃mail:feihu@ fosu.edu.cn. 量 机、人工神经网络,这些算法在类别数据分布均匀的 条件下具有良好的分类性能,得到了广泛应用。 但 是,在许多实际应用领域中,存在着非常明显的类别 不平衡数据,例如信用卡欺诈检测、医疗疾病诊断、 网络入侵检测等,在这些情况的分类处理过程中,少 数类需要受到特别关注,往往具有更大的误分类代 价,然而传统分类算法基于平衡的数据分布或者相
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有