第１１卷第２期智能系统学报Ｖｏｌ．１１ №．２２０

正在加载图片...

第11卷第2期智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201507015 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160314.1431.002.html 动态平衡采样的不平衡数据集成分类方法胡小生，温菊屏，钟勇 (佛山科学技术学院电子与信息工程学院，广东佛山528000) 摘要：传统分类算法假定平衡的类分布或相同的误分类代价，处理不平衡数据集时，少数类识别精度过低。提出一种动态平衡数据采样与Boosting技术相结合的不平衡数据集成分类算法。在每次迭代初始，综合使用随机欠采样和SMOTE过采样获得平衡规模的训练数据，各类别样本数据比例保持随机性以体现训练数据的差异性，为子分类器提供更好的训练平台：子分类器形成后，利用加权投票得到最终强分类器。实验结果表明，该方法具有处理类别不平衡数据分类问题的优势。关键词：分类：不平衡数据：重采样：集成学习；随机森林中图分类号：TP181文献标志码：A文章编号：1673-4785(2016)02-0257-07 中文引用格式：胡小生，温菊屏，钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报，2016,11(2)：257-263. 英文引用格式：HU Xiaosheng,WEN Juping,ZHONG Yong..mbalanced data ensemble classification using dynamic balance sam- pling[J].CAAI transactions on intelligent systems,2016,11(2):257-263. Imbalanced data ensemble classification using dynamic balance sampling HU Xiaosheng,WEN Juping,ZHONG Yong College of Electronic and Information Engineering,Foshan University,Foshan 528000,China) Abstract:Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data.A novel imbalanced da- ta classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed.At the beginning of each iteration,each member of the dynamic balance ensemble is trained with under-sampled data from the original training set and is augmented by artificial instances obtained using SMOTE.The distribution pro- portion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub-classifier.Once the sub-classifiers are trained,a strong classifier is obtained using a weighting vote.Experimental results show that the proposed method provides better classification perform- ance than other approaches. Keywords:data mining;imbalanced data;re-sampling;ensemble;random forest 分类是机器学习、数据挖掘领域的重要研究内已经有许多经典的分类算法，例如决策树、支持向量容，通过对输入的训练样本数据进行分析、学习后获机、人工神经网络，这些算法在类别数据分布均匀的得决策模型，随后即可对未知样本进行预测。目前，条件下具有良好的分类性能，得到了广泛应用。但是，在许多实际应用领域中，存在着非常明显的类别收稿日期：2015-07-09.网络出版日期：2016-03-14. 不平衡数据，例如信用卡欺诈检测、医疗疾病诊断、基金项目：广东省自然科学基金项目(2015A030313638):佛山科学技术学院校级科研项目. 网络入侵检测等，在这些情况的分类处理过程中，少通信作者：胡小生.E-mail:feihu@(fosu.cdu.cn 数类需要受到特别关注，往往具有更大的误分类代价，然而传统分类算法基于平衡的数据分布或者相第１１卷第２期智能系统学报Ｖｏｌ．１１ №．２２０１６年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０７０１５网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０３１４．１４３１．００２．ｈｔｍｌ动态平衡采样的不平衡数据集成分类方法胡小生，温菊屏，钟勇（佛山科学技术学院电子与信息工程学院，广东佛山５２８０００）摘要：传统分类算法假定平衡的类分布或相同的误分类代价，处理不平衡数据集时，少数类识别精度过低。提出一种动态平衡数据采样与Ｂｏｏｓｔｉｎｇ技术相结合的不平衡数据集成分类算法。在每次迭代初始，综合使用随机欠采样和ＳＭＯＴＥ过采样获得平衡规模的训练数据，各类别样本数据比例保持随机性以体现训练数据的差异性，为子分类器提供更好的训练平台；子分类器形成后，利用加权投票得到最终强分类器。实验结果表明，该方法具有处理类别不平衡数据分类问题的优势。关键词：分类；不平衡数据；重采样；集成学习；随机森林中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０２⁃０２５７⁃０７中文引用格式：胡小生，温菊屏，钟勇．动态平衡采样的不平衡数据集成分类方法［Ｊ］．智能系统学报，２０１６，１１（２）：２５７⁃２６３．英文引用格式：ＨＵＸｉａｏｓｈｅｎｇ，ＷＥＮＪｕｐｉｎｇ，ＺＨＯＮＧＹｏｎｇ．Ｉｍｂａｌａｎｃｅｄｄａｔａｅｎｓｅｍｂｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｄｙｎａｍｉｃｂａｌａｎｃｅｓａｍ⁃ ｐｌｉｎｇ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（２）：２５７⁃２６３．ＩｍｂａｌａｎｃｅｄｄａｔａｅｎｓｅｍｂｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｄｙｎａｍｉｃｂａｌａｎｃｅｓａｍｐｌｉｎｇＨＵＸｉａｏｓｈｅｎｇ，ＷＥＮＪｕｐｉｎｇ，ＺＨＯＮＧＹｏｎｇ（ＣｏｌｌｅｇｅｏｆＥｌｅｃｔｒｏｎｉｃａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＦｏｓｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｆｏｓｈａｎ５２８０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｒａｄｉｔｉｏｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｓａｓｓｕｍｅｂａｌａｎｃｅｄｃｌａｓｓｄｉｓｔｒｉｂｕｔｉｏｎｏｒｅｑｕａｌｍｉｓｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｓｔｓ，ｗｈｉｃｈｒｅｓｕｌｔｉｎｐｏｏｒｐｒｅｄｉｃｔｉｖｅａｃｃｕｒａｃｙｏｆｍｉｎｏｒｉｔｙｃｌａｓｓｅｓｗｈｅｎｈａｎｄｌｉｎｇｉｍｂａｌａｎｃｅｄｄａｔａ．Ａｎｏｖｅｌｉｍｂａｌａｎｃｅｄｄａ⁃ ｔａｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｔｈａｔｃｏｍｂｉｎｅｓｄｙｎａｍｉｃｂａｌａｎｃｅｓａｍｐｌｉｎｇｗｉｔｈｅｎｓｅｍｂｌｅｂｏｏｓｔｉｎｇｃｌａｓｓｉｆｉｅｒｓｉｓｐｒｏｐｏｓｅｄ．Ａｔｔｈｅｂｅｇｉｎｎｉｎｇｏｆｅａｃｈｉｔｅｒａｔｉｏｎ，ｅａｃｈｍｅｍｂｅｒｏｆｔｈｅｄｙｎａｍｉｃｂａｌａｎｃｅｅｎｓｅｍｂｌｅｉｓｔｒａｉｎｅｄｗｉｔｈｕｎｄｅｒ⁃ｓａｍｐｌｅｄｄａｔａｆｒｏｍｔｈｅｏｒｉｇｉｎａｌｔｒａｉｎｉｎｇｓｅｔａｎｄｉｓａｕｇｍｅｎｔｅｄｂｙａｒｔｉｆｉｃｉａｌｉｎｓｔａｎｃｅｓｏｂｔａｉｎｅｄｕｓｉｎｇＳＭＯＴＥ．Ｔｈｅｄｉｓｔｒｉｂｕｔｉｏｎｐｒｏ⁃ ｐｏｒｔｉｏｎｏｆｅａｃｈｃｌａｓｓｓａｍｐｌｅｉｓｒａｎｄｏｍｌｙｃｈｏｓｅｎｔｏｒｅｆｌｅｃｔｔｈｅｄｉｖｅｒｓｉｔｙｏｆｔｈｅｔｒａｉｎｉｎｇｄａｔａａｎｄｔｏｐｒｏｖｉｄｅａｂｅｔｔｅｒｔｒａｉｎｉｎｇｐｌａｔｆｏｒｍｆｏｒｔｈｅｅｎｓｅｍｂｌｅｓｕｂ⁃ｃｌａｓｓｉｆｉｅｒ．Ｏｎｃｅｔｈｅｓｕｂ⁃ｃｌａｓｓｉｆｉｅｒｓａｒｅｔｒａｉｎｅｄ，ａｓｔｒｏｎｇｃｌａｓｓｉｆｉｅｒｉｓｏｂｔａｉｎｅｄｕｓｉｎｇａｗｅｉｇｈｔｉｎｇｖｏｔｅ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｐｒｏｖｉｄｅｓｂｅｔｔｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｐｅｒｆｏｒｍ⁃ ａｎｃｅｔｈａｎｏｔｈｅｒａｐｐｒｏａｃｈｅｓ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｉｍｂａｌａｎｃｅｄｄａｔａ；ｒｅ⁃ｓａｍｐｌｉｎｇ；ｅｎｓｅｍｂｌｅ；ｒａｎｄｏｍｆｏｒｅｓｔ收稿日期：２０１５⁃０７⁃０９．网络出版日期：２０１６⁃０３基金项目： ⁃１４．分类是机器学习、数据挖掘领域的重要研究内容，通过对输入的训练样本数据进行分析、学习后获得决策模型，随后即可对未知样本进行预测。目前，已经有许多经典的分类算法，例如决策树、支持向广东省自然科学基金项目（２０１５Ａ０３０３１３６３８）；佛山科学技术学院校级科研项目. 通信作者：胡小生．Ｅ⁃ｍａｉｌ：ｆｅｉｈｕ＠ｆｏｓｕ．ｅｄｕ．ｃｎ．量机、人工神经网络，这些算法在类别数据分布均匀的条件下具有良好的分类性能，得到了广泛应用。但是，在许多实际应用领域中，存在着非常明显的类别不平衡数据，例如信用卡欺诈检测、医疗疾病诊断、网络入侵检测等，在这些情况的分类处理过程中，少数类需要受到特别关注，往往具有更大的误分类代价，然而传统分类算法基于平衡的数据分布或者相

向下翻页>>

点击下载：【机器学习】动态平衡采样的不平衡数据集成分类方法编辑部