第11卷第2期 智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201507015 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160314.1431.002.html 动态平衡采样的不平衡数据集成分类方法 胡小生,温菊屏,钟勇 (佛山科学技术学院电子与信息工程学院,广东佛山528000) 摘要:传统分类算法假定平衡的类分布或相同的误分类代价,处理不平衡数据集时,少数类识别精度过低。提出 一种动态平衡数据采样与Boosting技术相结合的不平衡数据集成分类算法。在每次迭代初始,综合使用随机欠采样 和SMOTE过采样获得平衡规模的训练数据,各类别样本数据比例保持随机性以体现训练数据的差异性,为子分类 器提供更好的训练平台:子分类器形成后,利用加权投票得到最终强分类器。实验结果表明,该方法具有处理类别 不平衡数据分类问题的优势。 关键词:分类:不平衡数据:重采样:集成学习;随机森林 中图分类号:TP181文献标志码:A文章编号:1673-4785(2016)02-0257-07 中文引用格式:胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报,2016,11(2):257-263. 英文引用格式:HU Xiaosheng,WEN Juping,ZHONG Yong..mbalanced data ensemble classification using dynamic balance sam- pling[J].CAAI transactions on intelligent systems,2016,11(2):257-263. Imbalanced data ensemble classification using dynamic balance sampling HU Xiaosheng,WEN Juping,ZHONG Yong College of Electronic and Information Engineering,Foshan University,Foshan 528000,China) Abstract:Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data.A novel imbalanced da- ta classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed.At the beginning of each iteration,each member of the dynamic balance ensemble is trained with under-sampled data from the original training set and is augmented by artificial instances obtained using SMOTE.The distribution pro- portion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub-classifier.Once the sub-classifiers are trained,a strong classifier is obtained using a weighting vote.Experimental results show that the proposed method provides better classification perform- ance than other approaches. Keywords:data mining;imbalanced data;re-sampling;ensemble;random forest 分类是机器学习、数据挖掘领域的重要研究内 已经有许多经典的分类算法,例如决策树、支持向量 容,通过对输入的训练样本数据进行分析、学习后获 机、人工神经网络,这些算法在类别数据分布均匀的 得决策模型,随后即可对未知样本进行预测。目前, 条件下具有良好的分类性能,得到了广泛应用。但 是,在许多实际应用领域中,存在着非常明显的类别 收稿日期:2015-07-09.网络出版日期:2016-03-14. 不平衡数据,例如信用卡欺诈检测、医疗疾病诊断、 基金项目:广东省自然科学基金项目(2015A030313638):佛山科学技 术学院校级科研项目. 网络入侵检测等,在这些情况的分类处理过程中,少 通信作者:胡小生.E-mail:feihu@(fosu.cdu.cn 数类需要受到特别关注,往往具有更大的误分类代 价,然而传统分类算法基于平衡的数据分布或者相
第 11 卷第 2 期 智 能 系 统 学 报 Vol.11 №.2 2016 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2016 DOI:10.11992 / tis.201507015 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160314.1431.002.html 动态平衡采样的不平衡数据集成分类方法 胡小生,温菊屏,钟勇 (佛山科学技术学院 电子与信息工程学院,广东 佛山 528000) 摘 要:传统分类算法假定平衡的类分布或相同的误分类代价,处理不平衡数据集时,少数类识别精度过低。 提出 一种动态平衡数据采样与 Boosting 技术相结合的不平衡数据集成分类算法。 在每次迭代初始,综合使用随机欠采样 和 SMOTE 过采样获得平衡规模的训练数据,各类别样本数据比例保持随机性以体现训练数据的差异性,为子分类 器提供更好的训练平台;子分类器形成后,利用加权投票得到最终强分类器。 实验结果表明,该方法具有处理类别 不平衡数据分类问题的优势。 关键词:分类;不平衡数据;重采样;集成学习;随机森林 中图分类号: TP181 文献标志码:A 文章编号:1673⁃4785(2016)02⁃0257⁃07 中文引用格式:胡小生,温菊屏,钟勇. 动态平衡采样的不平衡数据集成分类方法[J]. 智能系统学报, 2016, 11(2): 257⁃263. 英文引用格式:HU Xiaosheng, WEN Juping, ZHONG Yong. Imbalanced data ensemble classification using dynamic balance sam⁃ pling[J]. CAAI transactions on intelligent systems, 2016, 11(2): 257⁃263. Imbalanced data ensemble classification using dynamic balance sampling HU Xiaosheng, WEN Juping, ZHONG Yong (College of Electronic and Information Engineering, Foshan University, Foshan 528000, China) Abstract:Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data. A novel imbalanced da⁃ ta classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed. At the beginning of each iteration, each member of the dynamic balance ensemble is trained with under⁃sampled data from the original training set and is augmented by artificial instances obtained using SMOTE . The distribution pro⁃ portion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub⁃classifier. Once the sub⁃classifiers are trained, a strong classifier is obtained using a weighting vote. Experimental results show that the proposed method provides better classification perform⁃ ance than other approaches. Keywords: data mining; imbalanced data; re⁃sampling; ensemble; random forest 收稿日期:2015⁃07⁃09. 网络出版日期:2016⁃03 基金项目: ⁃14. 分类是机器学习、数据挖掘领域的重要研究内 容,通过对输入的训练样本数据进行分析、学习后获 得决策模型,随后即可对未知样本进行预测。 目前, 已经有许多经典的分类算法,例如决策树、支持向 广东省自然科学基金项目(2015A030313638);佛山科学技 术学院校级科研项目. 通信作者:胡小生. E⁃mail:feihu@ fosu.edu.cn. 量 机、人工神经网络,这些算法在类别数据分布均匀的 条件下具有良好的分类性能,得到了广泛应用。 但 是,在许多实际应用领域中,存在着非常明显的类别 不平衡数据,例如信用卡欺诈检测、医疗疾病诊断、 网络入侵检测等,在这些情况的分类处理过程中,少 数类需要受到特别关注,往往具有更大的误分类代 价,然而传统分类算法基于平衡的数据分布或者相
·258. 智能系统学报 第11卷 等的误分类代价之基本假设,为保证算法总体分类 为了解决SMOTE方法的不足之处,基于 准确率,通常将少数类错分至多数类,从而导致少数 SMOTE的改进算法相继被提出。Han等1o]提出仅 类识别准确率过低。因此,传统分类算法面对类不 为靠近类边界的正类样本生成合成样例的Border- 平衡数据,分类效果不佳。 line-SMOTE方法,更有利于分类器的学习,但是需 当前,不平衡数据分类问题的解决方法主要有 要依据输入的近邻参数k来确定正类边界样本集 3个方面:1)数据层面,移除部分多数类样本或者 合,如何合理确定参数k以及科学判断边界有待深 增加新的合成样例,改变数据分布,降低不平衡度, 入研究。He等14)提出ADASYN算法,将输入数据 称之为重采样方法11:2)算法层面,分析已有算法 的密度分布作为确定合成样例数目的依据,自适应 在面对不平衡数据分类的缺陷,改进算法或者提出 方式控制正类样本的分布。Batista等[us]提出 新算法来提升少数类的分类准确率,例如代价敏感 SMOTE+Tomek算法,该方法利用SMOTE生成合成 学习6)、集成学习7]、单类学习等;3)评价标准 样例:利用Tomk算法对连接样例进行移除,较好 层面,提出新的适合不平衡数据分类的分类器性能 地克服了SMOTE带来的噪声问题。 评价标准,常见的有基于混淆矩阵基础上的少数类 精确度与召回率的调和均值Fm【o,几何均值 1.2欠采样 Gn山和ROC曲线等。 随机欠采样是随机性减少负类样本,其方法简 单,操作容易,但是存在去除样本的盲目性和去除样 本文从数据层面和算法层面着手,融合数据采 本比例参数不确定问题,以及代表性样本的丢失而 样和boosting技术,提出在动态平衡采样基础上集 影响分类精度。 成提升的不平衡数据分类算法,目标旨在提高小类 样本的分类精度。为了论述方便,后续部分将少数 Kubat等16]将在负类上的单边采样与Tomek 类称之为正类,多数类称之为负类。 links相结合,利用Tomek link删除噪声样本,利用 压缩最近邻算法删除远离边界区域的样本,将剩下 1 采样方法 的负类样本与所有正类样本一起构成训练集,用于 数据层面的采样技术针对不平衡数据特点,通 分类器学习。 过过采样、欠采样等方式进行数据处理,以期获得一 文献[17-20]提出利用聚类提取代表性样本的 个相对均衡的数据分布。相关研究表明,平衡的数 平衡数据分布的方法。算法首先对负类样本进行聚 据分布更加有利于提高传统算法的分类性能213】。 类操作,聚类个数与正类样本数目相同,然后提取各 1.1过采样 个聚类质心作为聚簇的代表样本,与所有正类样本 最简单的过采样是随机过采样,其随机选择若 一起组成平衡训练集。由于用聚类质心代表聚簇内 干正类样本,随后简单复制该样本,添加至训练集。 的所有样本,不可避免地损失了数据分布的特征信 随机过采样仅仅复制正类样本,没有增加任何新的 息,使得抽样后的数据分布与原始数据分布出现一 额外合成样例,对于提高正类识别率没有多大帮助: 定的差异,从而影响算法的分类性能。 另外,当数据不平衡度非常高时,需要在正类上进行 由上述分析可知,过采样和欠采样均存在一定 多倍采样才能使最终数据分布趋于平衡,结果使得 的局限性: 训练数据规模变大,分类器学习到的决策域变小,容 1)过采样不断合成新的正类合成样例使得数 易导致过拟合。 据规模变大,增加了算法的学习时间; 针对随机过采样的不足,Chawla等[)提出一种 2)过采样使得分类器训练得到的决策域变小, SMOTE(synthetic minority over-sampling technique) 容易导致过拟合: 方法,该方法为每个正类样本选择若干(5或者7) 3)欠采样存在富含分类信息样本丢失问题,特 个近邻,随后在选定样本与近邻样本之间进行线性 别是在高度不平衡数据集中,移除过多负类样本使 插值,生成无重复的合成样例。SMOTE方法能够使 得信息丢失严重,造成样本代表性差,严重背离初始 正类的决策边界远离负类空间,正类具有更大泛化 数据分布: 空间:但是其缺点是没有考虑近邻样本的分布特点, 4)欠采样难以合理确定抽样比例参数。 合成样例具有一定的盲目性,容易产生噪声样例,以 针对过采样和欠采样方法存在的局限性,本文提 及出现类间混叠现象,影响后续分类器的分类性能。 出基于动态平衡采样的不平衡数据集成分类方法,在
等的误分类代价之基本假设,为保证算法总体分类 准确率,通常将少数类错分至多数类,从而导致少数 类识别准确率过低。 因此,传统分类算法面对类不 平衡数据,分类效果不佳。 当前,不平衡数据分类问题的解决方法主要有 3 个方面:1) 数据层面,移除部分多数类样本或者 增加新的合成样例,改变数据分布,降低不平衡度, 称之为重采样方法[1⁃5] ;2) 算法层面,分析已有算法 在面对不平衡数据分类的缺陷,改进算法或者提出 新算法来提升少数类的分类准确率,例如代价敏感 学习[6] 、集成学习[7⁃8] 、单类学习[9] 等;3) 评价标准 层面,提出新的适合不平衡数据分类的分类器性能 评价标准,常见的有基于混淆矩阵基础上的少数类 精确度与召回率的调和均值 Fmeasure [10] , 几何均值 Gmean [11] 和 ROC 曲线等。 本文从数据层面和算法层面着手,融合数据采 样和 boosting 技术,提出在动态平衡采样基础上集 成提升的不平衡数据分类算法,目标旨在提高小类 样本的分类精度。 为了论述方便,后续部分将少数 类称之为正类,多数类称之为负类。 1 采样方法 数据层面的采样技术针对不平衡数据特点,通 过过采样、欠采样等方式进行数据处理,以期获得一 个相对均衡的数据分布。 相关研究表明,平衡的数 据分布更加有利于提高传统算法的分类性能[1 2 ⁃1 3 ] 。 1.1 过采样 最简单的过采样是随机过采样,其随机选择若 干正类样本,随后简单复制该样本,添加至训练集。 随机过采样仅仅复制正类样本,没有增加任何新的 额外合成样例,对于提高正类识别率没有多大帮助; 另外,当数据不平衡度非常高时,需要在正类上进行 多倍采样才能使最终数据分布趋于平衡,结果使得 训练数据规模变大,分类器学习到的决策域变小,容 易导致过拟合。 针对随机过采样的不足,Chawla 等[3] 提出一种 SMOTE( synthetic minority over⁃sampling technique) 方法,该方法为每个正类样本选择若干(5 或者 7) 个近邻,随后在选定样本与近邻样本之间进行线性 插值,生成无重复的合成样例。 SMOTE 方法能够使 正类的决策边界远离负类空间,正类具有更大泛化 空间;但是其缺点是没有考虑近邻样本的分布特点, 合成样例具有一定的盲目性,容易产生噪声样例,以 及出现类间混叠现象,影响后续分类器的分类性能。 为了 解 决 SMOTE 方 法 的 不 足 之 处, 基 于 SMOTE 的改进算法相继被提出。 Han 等[1 0 ] 提出仅 为靠近类边界的正类样本生成合成样例的 Border⁃ line⁃SMOTE 方法,更有利于分类器的学习,但是需 要依据输入的近邻参数 k 来确定正类边界样本集 合,如何合理确定参数 k 以及科学判断边界有待深 入研究。 He 等[1 4 ] 提出 ADASYN 算法,将输入数据 的密度分布作为确定合成样例数目的依据,自适应 方式 控 制 正 类 样 本 的 分 布。 Batista 等[1 5 ] 提 出 SMOTE+Tomek 算法,该方法利用 SMOTE 生成合成 样例;利用 Tomek 算法对连接样例进行移除,较好 地克服了 SMOTE 带来的噪声问题。 1.2 欠采样 随机欠采样是随机性减少负类样本,其方法简 单,操作容易,但是存在去除样本的盲目性和去除样 本比例参数不确定问题,以及代表性样本的丢失而 影响分类精度。 Kubat 等[1 6 ]将在负类上的单边采样与 Tomek links 相结合,利用 Tomek link 删除噪声样本,利用 压缩最近邻算法删除远离边界区域的样本,将剩下 的负类样本与所有正类样本一起构成训练集,用于 分类器学习。 文献[17⁃20]提出利用聚类提取代表性样本的 平衡数据分布的方法。 算法首先对负类样本进行聚 类操作,聚类个数与正类样本数目相同,然后提取各 个聚类质心作为聚簇的代表样本,与所有正类样本 一起组成平衡训练集。 由于用聚类质心代表聚簇内 的所有样本,不可避免地损失了数据分布的特征信 息,使得抽样后的数据分布与原始数据分布出现一 定的差异,从而影响算法的分类性能。 由上述分析可知,过采样和欠采样均存在一定 的局限性: 1)过采样不断合成新的正类合成样例使得数 据规模变大,增加了算法的学习时间; 2)过采样使得分类器训练得到的决策域变小, 容易导致过拟合; 3)欠采样存在富含分类信息样本丢失问题,特 别是在高度不平衡数据集中,移除过多负类样本使 得信息丢失严重,造成样本代表性差,严重背离初始 数据分布; 4)欠采样难以合理确定抽样比例参数。 针对过采样和欠采样方法存在的局限性,本文提 出基于动态平衡采样的不平衡数据集成分类方法,在 ·258· 智 能 系 统 学 报 第 11 卷
第2期 胡小生,等:动态平衡采样的不平衡数据集成分类方法 ·259· 集成迭代的每次数据采样过程中,无需给定抽样比例 定相应的采样操作,如果产生的随机数k小于初始 参数,而是基于随机生成的样本规模数值,或者对正 数据集的负类样本数量,则在负类样本集进行欠采 类进行过采样,或者在负类上进行欠采样,获得类别 样,在正类样本集进行过采样,使得最终输出集合 平衡的训练集,然后参与后续的集成算法训练。 S'的样本数量与初始数据集数量一致,反之,则进 行相反的采样。与传统的采样方法不同的是,在步 2动态平衡采样不平衡数据分类方法 骤4中对正类样本进行欠采样,对负类样本进行过 本文算法包括动态平衡采样的训练数据获取和 采样,通过随机函数产生的随机数,使得输出集合 子分类器学习2个步骤,主要包括4个阶段:1)对初 S'在总数量一定的情况下保持对对各类别样本的 始数据集的各个样本设置相同的初始权值:2)调用 中立性。 动态平衡采样算法,生成合成样例,组成样本规模一 2.2训练样例权值更新 致的训练集,对于新生成的合成样例,需要赋予权 在第t次迭代过程中,需要对两个集合中的样 值:3)应用AdaBoost算法,生成子分类器,之后根据 例权重进行更新,分别是动态平衡采样后的输出集 子分类器的分类情况对初始训练集的各个样本进行 合S'和子分类器形成之后的初始数据集S。 权值更新,以及权值归一化:2)、3)重复迭代执行T 分析动态平衡采样算法过程可知,经过数据采 次:最后将T个子分类器集成。 样之后,新数据集S'的样例总数与初始数据集S一 2.1动态平衡采样 致,均为m,其中包括从数据集S抽取的部分样例, 作为数据预处理的采样技术,需要预先确定数 以及部分由SMOTE方法产生的合成样例。S'中的 据采样参数,不合理的数据采样参数会导致生成的 样本权值按照式(1)更新: 数据分布严重背离初始数据分布,进而影响算法的 (1 x:年S 分类性能。动态平衡采样依赖随机函数产生的数值 D',(i)= (1) 确定各类别的采样方式及采样比例,通过重复多次 D(i), x;∈S 的动态提取初始数据集的样本,获取充分的数据分 式中:D,(i)和D',(i)分别表示第1次迭代时,合成 布特性信息,降低富含分类信息样本点丢失现象。 样例加入前及加入后的权值。 整体算法如算法1所示。 第t次迭代训练结束时,AdaBoost分类算法 算法1动态平衡采样算法 在数据集S'进行学习后得到子分类器 输入初始数据集S={x:y:}1出:∈Y= h,:x→{-1,+1},t=1,2,…,T,h,(x)给出 数据集S中的样例x的所属类别,根据子分类器 {+1,-1},+1表示正类样本,-1表示负类样本: 的分类情况,更新样本权值,增加错分样本的权 输出新数据集S'。 值,减少正确分类样本权值,以便下次迭代时, 1)计算集合S中的样本数目,负类样本集合 “错分”样本得到更多关注。 Sw,其数量记为a,正类样本集合Sp的样本数记为 计算子分类器h,(x)的分类错误率E,: b m a b 2)利用随机函数,生成一个随机整数k, 6=2Daa)) (2) 20.5,终止此轮迭代。 3)如果k<a,则从数据集Sx中进行随机欠 计算子分类器投票权重α,: 采样,采样数目为k,将其加入集合S',在集合S 中应用SMOTE进行过采样,生成m-k-b个新合 (3) E 成样例,连同S。中的b个样本,均加入集合S'; 更新样例权值: 4)如果k≥a,则从数据集Sp中进行随机欠采 D,(i) D+1(i)= (4) 样,采样数目为m-k,将其加入集合S”,在集合S、 Z. exp(-ah,(x:)y:) 中应用SMOTE进行过采样,生成k-a个合成样例, 式中Z,是归一化常数。 连同S、中的a个样本,都加入集合S'; 完整算法如算法2所示。 5)输出集合S”。 算法2动态平衡采样的不平衡分类算法 算法依据2)中所产生的随机整数值大小来决 输入初始数据集S={x:,y:}1,y:∈Y=
集成迭代的每次数据采样过程中,无需给定抽样比例 参数,而是基于随机生成的样本规模数值,或者对正 类进行过采样,或者在负类上进行欠采样,获得类别 平衡的训练集,然后参与后续的集成算法训练。 2 动态平衡采样不平衡数据分类方法 本文算法包括动态平衡采样的训练数据获取和 子分类器学习 2 个步骤,主要包括 4 个阶段:1)对初 始数据集的各个样本设置相同的初始权值;2)调用 动态平衡采样算法,生成合成样例,组成样本规模一 致的训练集,对于新生成的合成样例,需要赋予权 值;3)应用 AdaBoost 算法,生成子分类器,之后根据 子分类器的分类情况对初始训练集的各个样本进行 权值更新,以及权值归一化;2)、3)重复迭代执行 T 次;最后将 T 个子分类器集成。 2.1 动态平衡采样 作为数据预处理的采样技术,需要预先确定数 据采样参数,不合理的数据采样参数会导致生成的 数据分布严重背离初始数据分布,进而影响算法的 分类性能。 动态平衡采样依赖随机函数产生的数值 确定各类别的采样方式及采样比例,通过重复多次 的动态提取初始数据集的样本,获取充分的数据分 布特性信息,降低富含分类信息样本点丢失现象。 整体算法如算法 1 所示。 算法 1 动态平衡采样算法 输入 初始数据集 S = {xi,yi} m i = 1,yi ∈ Y = { + 1, - 1} , + 1 表示正类样本, - 1 表示负类样本; 输出 新数据集 S′。 1) 计算集合 S 中的样本数目,负类样本集合 SN, 其数量记为 a ,正类样本集合 SP 的样本数记为 b , m = a + b ; 2) 利 用 随 机 函 数, 生 成 一 个 随 机 整 数 k , 2 < k < m - 2; 3) 如果 k < a ,则从数据集 SN 中进行随机欠 采样,采样数目为 k ,将其加入集合 S′ ,在集合 SP 中应用 SMOTE 进行过采样,生成 m - k - b 个新合 成样例,连同 SP 中的 b 个样本,均加入集合 S′ ; 4) 如果 k ≥ a ,则从数据集 SP 中进行随机欠采 样,采样数目为 m - k ,将其加入集合 S′ ,在集合 SN 中应用 SMOTE 进行过采样,生成 k - a 个合成样例, 连同 SN 中的 a 个样本,都加入集合 S′ ; 5)输出集合 S′ 。 算法依据 2)中所产生的随机整数值大小来决 定相应的采样操作,如果产生的随机数 k 小于初始 数据集的负类样本数量,则在负类样本集进行欠采 样,在正类样本集进行过采样,使得最终输出集合 S′ 的样本数量与初始数据集数量一致,反之,则进 行相反的采样。 与传统的采样方法不同的是,在步 骤 4 中对正类样本进行欠采样,对负类样本进行过 采样,通过随机函数产生的随机数,使得输出集合 S′ 在总数量一定的情况下保持对对各类别样本的 中立性。 2.2 训练样例权值更新 在第 t 次迭代过程中,需要对两个集合中的样 例权重进行更新,分别是动态平衡采样后的输出集 合 S′ 和子分类器形成之后的初始数据集 S 。 分析动态平衡采样算法过程可知,经过数据采 样之后,新数据集 S′ 的样例总数与初始数据集 S 一 致,均为 m ,其中包括从数据集 S 抽取的部分样例, 以及部分由 SMOTE 方法产生的合成样例。 S′ 中的 样本权值按照式(1)更新: D′t(i) = 1 m , xi ∉ S Dt(i), xi ∈ S ì î í ï ï ïï (1) 式中: Dt(i) 和 D′t(i) 分别表示第 t 次迭代时,合成 样例加入前及加入后的权值。 第 t 次迭代训练结束时,AdaBoost 分类算法 在 数 据 集 S′ 进 行 学 习 后 得 到 子 分 类 器 ht:x → { - 1, + 1} ,t = 1,2,…,T , ht( x) 给出 数据集 S 中的样例 x 的所属类别,根据子分类器 的分类情况,更新样本权值,增加错分样本的权 值,减少正确分类样本权值,以 便 下 次 迭 代 时, “错分”样本得到更多关注。 计算子分类器 ht(x) 的分类错误率 εt : εt = ∑ m i = 1 Dt(i)I(ht(xi) ≠ y) (2) 如果 εt > 0.5,终止此轮迭代。 计算子分类器投票权重 αt : αt = 1 2 log{ 1 - εt εt } (3) 更新样例权值: Dt+1(i) = Dt(i) Zt exp( - αtht(xi)yi) (4) 式中 Zt 是归一化常数。 完整算法如算法 2 所示。 算法 2 动态平衡采样的不平衡分类算法 输入 初始数据集 S = { xi,yi} m i = 1 ,yi ∈ Y = 第 2 期 胡小生,等: 动态平衡采样的不平衡数据集成分类方法 ·259·
·260· 智能系统学报 第11卷 {+1,-1},其中+1表示正类样本,-1表示 本文使用Fcm准则来衡量正类的分类性能, 负类样本; 使用Gm准则来衡量数据集整体分类性能。 输出(x)=arg max,e∑-a,h,(x)。 3.2UCI数据 为了检验本文所提方法的有效性,选择6组 1)初始化数据集S中各个样本权重D,()=m: 具有实际工程应用背景的UCI数据[21]进行测 2)fort=1,2,…,T 试,对于含有多个类别的数据,取其中某个类为 正类,合并其余类为负类,各数据集的基本信息 ①调用动态平衡采样算法,获得数据集S': 见表1。 ②利用式(1)设置S'中的样例权值: 表1UCI数据集信息 ③使用数据集S'及其中的样例权值,训练基 Table 1 Information of UCI datasets 于AdaBoost算法的子分类器h,(x); 数据集样例数目少类 大类不平衡度属性个数 ④按照式(2)计算分类器h,(x)的误差e,,按 照式(3)计算h,(x)的投票权重a,: car 1728 518 1210 2.34 6 ⑤按照式(4)更新数据集S中的样本权重: vehicle 846 199 647 3.25 18 3)输出模型:(x)=agma∑a4,(x)。 vowel 990 90 900 10 13 sick 3772 231 3541 15.33 29 3 实验结果与分析 letter 20000 734 19266 26.25 3.1评价度量 page-blocks 5473 115 5358 46.59 10 传统分类器采用分类精度指标衡量分类性能, 其追求整体分类准确率,忽略了在不平衡数据分类 3.3实验结果及分析 过程中需要特别关注的正类分类准确率。针对不平 实验中对比算法如下: 衡数据,许多学者提出了在两类混淆矩阵基础上的 1)随机森林(random forest.,RF)算法,RF算法 F【o、Gn【等评价方法。 作为一种集成算法,在处理不平衡数据时有独特的 在混淆矩阵中,TP(true positive)、FN(false neg- 优势,能够在某种程度上减少不均衡数据带来的影 ative)、TN(true negative)、FP(false positive)分别代 响22】,因此将其直接应用在初始不平衡数据集进 表分类正确的正类样本、假的负类样本、正确的负类 行分类。 样本以及假的正类样本的数目。基于混淆矩阵, 2)SM0 TEBoost23]算法,将SM0TE方法与Ada- Fmeasure定义如下: Boost..M2结合,在每次集成迭代中生成新的合成样 F(1)x Recall x Precision 例,使得分类器更加关注小类样本。 B×Recall+Precision 3)RUSBoost!24],与S0 TEBoost方法相类似, 式中:Recall为查全率,Precision为查准率, 采用随机欠采样从负类样本中随机移除样例,然后 Recall=_TP TP 应用AdaBoost进行多次迭代。 FTP+FN,Precision=+FP,B用于调 4)文献[4]提出的集成方法K-means+Bagging, 节Recall和Precision的相对重要性,通常取为l。 首先在负类样本上应用K-means聚类,提取与正类 Faue定义说明:较大值表示Recall和Preci- 样本数量一致的聚类质心,组成平衡训练集,参与 sion都较大,因此,其能够较好评价正类分类性能。 Bagging集成。 Gam其定义如下: 上述3种集成方法以及本文算法均使用C4.5 G.em=√TPR X FPR 决策树算法作为基分类器算法。 式中 为客观对比上述不平衡数据分类方法,实验数 据采用10折交叉验证方式,重复10次,以平均值作 TP 真正率TPR=Recall= TP FN 为最终的分类结果。 表2和表3分别列出5种方法在6个UCI数 真负率FPR=TN TN FP 据集上的正类Fn值和数据集整体的G。an值, G兼顾了正类准确率和负类准确率,比整体 最后一行列出每种方法在所有数据集上的平均 分类准确率更适合于不平衡数据分类评价。 结果
{ + 1, - 1} , 其中 + 1 表示正类样本, - 1 表示 负类样本; 输出 H(x) = arg maxy∈Y∑ T t = 1 αtht(x)。 1) 初始化数据集 S 中各个样本权重 D1(i) = 1 m ; 2) for t = 1,2,…,T ① 调用动态平衡采样算法,获得数据集 S′ ; ② 利用式(1)设置 S′ 中的样例权值; ③ 使用数据集 S′ 及其中的样例权值,训练基 于 AdaBoost 算法的子分类器 ht(x) ; ④ 按照式(2)计算分类器 ht(x) 的误差 εt ,按 照式(3)计算 ht(x) 的投票权重 αt ; ⑤ 按照式(4)更新数据集 S 中的样本权重; 3)输出模型: H(x) = arg maxy∈Y∑ T t = 1 αtht(x) 。 3 实验结果与分析 3.1 评价度量 传统分类器采用分类精度指标衡量分类性能, 其追求整体分类准确率,忽略了在不平衡数据分类 过程中需要特别关注的正类分类准确率。 针对不平 衡数据,许多学者提出了在两类混淆矩阵基础上的 Fmeasure [10] 、 Gmean [11]等评价方法。 在混淆矩阵中,TP(true positive)、FN(false neg⁃ ative)、TN( true negative)、FP( false positive)分别代 表分类正确的正类样本、假的负类样本、正确的负类 样本以及假的正类样本的数目。 基于混淆矩阵, Fmeasure 定义如下: Fmeasure = (1 + β 2 ) × Recall × Precision β 2 × Recall + Precision 式 中: Recall 为 查 全 率, Precision 为 查 准 率, Recall = TP TP + FN , Precision = TP TP + FP , β 用于调 节 Recall 和 Precision 的相对重要性,通常取为 1。 Fmeasure 定义说明:较大值表示 Recall 和 Preci⁃ sion 都较大,因此,其能够较好评价正类分类性能。 Gmean 其定义如下: Gmean = TPR × FPR 式中 真正率 TPR = Recall = TP TP + FN 真负率 FPR = TN TN + FP Gmean 兼顾了正类准确率和负类准确率,比整体 分类准确率更适合于不平衡数据分类评价。 本文使用 Fmeasure 准则来衡量正类的分类性能, 使用 Gmean 准则来衡量数据集整体分类性能。 3.2 UCI 数据 为了检验本文所提方法的有效性,选择 6 组 具有实际工程应用背景 的 UCI 数 据[ 2 1 ] 进 行 测 试,对于含有多个类别的数据,取其中某个类为 正类,合并其余类为负类,各数据集的基本信息 见表 1。 表 1 UCI 数据集信息 Table 1 Information of UCI datasets 数据集 样例数目 少类 大类 不平衡度 属性个数 car 1 728 518 1 210 2.34 6 vehicle 846 199 647 3.25 18 vowel 990 90 900 10 13 sick 3 772 231 3 541 15.33 29 letter 20 000 734 19 266 26.25 16 page⁃blocks 5 473 115 5 358 46.59 10 3.3 实验结果及分析 实验中对比算法如下: 1)随机森林( random forest,RF) 算法,RF 算法 作为一种集成算法,在处理不平衡数据时有独特的 优势,能够在某种程度上减少不均衡数据带来的影 响[2 2 ] ,因此将其直接应用在初始不平衡数据集进 行分类。 2)SMOTEBoost [2 3 ]算法,将 SMOTE 方法与 Ada⁃ Boost.M2 结合,在每次集成迭代中生成新的合成样 例,使得分类器更加关注小类样本。 3) RUSBoost [2 4 ] ,与 SMOTEBoost 方法相类似, 采用随机欠采样从负类样本中随机移除样例,然后 应用 AdaBoost 进行多次迭代。 4)文献[4]提出的集成方法 K⁃means+Bagging, 首先在负类样本上应用 K⁃means 聚类,提取与正类 样本数量一致的聚类质心,组成平衡训练集,参与 Bagging 集成。 上述 3 种集成方法以及本文算法均使用 C4.5 决策树算法作为基分类器算法。 为客观对比上述不平衡数据分类方法,实验数 据采用 10 折交叉验证方式,重复 10 次,以平均值作 为最终的分类结果。 表 2 和表 3 分别列出 5 种方法在 6 个 UCI 数 据集上的正类 F measure 值和数据集整体的 G mean 值, 最后一行列出每种方法在所有数据集上的平均 结果。 ·260· 智 能 系 统 学 报 第 11 卷
第2期 胡小生,等:动态平衡采样的不平衡数据集成分类方法 ·261- 表25种方法的Fe值比较 Table 2 Comparison of Fbetween five methods 数据集 RF SMOTEBoost RUSBoost K-means+Bagging 本文算法 car 0.951 0.954 0.982 0.925 0.992 vehicle 0.932 0.955 0.973 0.738 0.987 vowel 0.845 0.992 0.896 0.705 0.998 sick 0.828 0.986 0.961 0.816 0.983 letter 0.964 0.959 0.884 0.863 0.994 page-blocks 0.68 0.904 0.744 0.622 0.988 平均值 0.867 0.958 0.907 0.778 0.990 表35种方法的Gm值比较 Table 3 Comparison of G between five methods 数据集 RF SMOTEBoost RUSBoost K-means+Bagging 本文算法 car 0.967 0.972 0.974 0.952 0.993 vehicle 0.963 0.977 0.979 0.826 0.987 vowel 0.868 0.974 0.892 0.742 0.995 sick 0.862 0.984 0.921 0.789 0.983 letter 0.965 0.988 0.981 0.825 0.999 page-blocks 0.767 0.952 0.905 0.713 0.992 平均值 0.899 0.975 0.942 0.808 0.992 从表2的Fmeasure 值可以看出,本文方法除了在 本文算法中经过动态平衡采样后参与基分类器 sick数据集稍微低于SMOTEBoost算法之外,在其他 训练的数据集样本规模与初始数据集一致,即集合 5个数据集上均有最佳表现,比较各种算法在6组 数据大小比例为100%,为考察参与训练的不同数据 UCI数据上的平均值,本文方法比随机森林RF算法 规模比例对算法分类性能的影响,选取本文算法、随 有14.2%的提升,与基于聚类欠采样的集成算法相 机森林和SMOTEBoost3种算法,同时选择以letter 比有27.3%的提升,说明本文所提方法在少数类分 数据集为例,在20%~100%范围内每次增加20%比 类性能方面有巨大的提升。 例的数据,参与集成学习,迭代10次,相关算法的 比较各个算法的整体分类性能Gm,从表3可 Fcrc、Gmn均值如图1所示。 以看出,本文方法也仅在sick数据集上稍逊于最优算 1.00 法SMOTEBoost,二者精度相差不超过1%a;在6个数 据集上的平均分类性能上,本文方法获得最优精度。 0.95 结合表1~3可以看出,随着数据不平衡度的提 飞0.90 RF 高,无论是随机欠采样还是基于聚类的欠采样,由于 -SMOTEBoost 本文方法 都会对原始数据集造成样本丢失,分类性能都有所 0.85 0 40 60 80 100 下降,特别是在letter和page-blocks数据集上,差距 数据规模比例 比较明显。与之对比,本文方法在数据采样过程中 (a)Fa均值 1.00r 也需要对某类样本进行欠采样,通过多次动态、随机 性采样调和,使得抽样数据能够较好地保持对原始 g0.95 数据的分布:与此同时,对另外一类样本进行 罕0.90 —RF SMOTE过采样,在没有增加数据规模条件下,保持 50.85 ---SMOTEBoost 一一本文方法 对各类样本的中立性,或者对正类过采样,或者对负 0.800 40 60 80 100 类过采样。从最终分类结果来看,本文方法在不降 数据规模比例 低数据集整体G值的基础上,提高了正类的 (b)G均值 F。值,对正类和负类都具有较高的识别率。 图1不同数据规模对分类性能影响 Fig.1 Performance measures of different ensemble size
表 2 5 种方法的 Fmeasure 值比较 Table 2 Comparison of Fmeasurebetween five methods 数据集 RF SMOTEBoost RUSBoost K⁃means+Bagging 本文算法 car 0.951 0.954 0.982 0.925 0.992 vehicle 0.932 0.955 0.973 0.738 0.987 vowel 0.845 0.992 0.896 0.705 0.998 sick 0.828 0.986 0.961 0.816 0.983 letter 0.964 0.959 0.884 0.863 0.994 page⁃blocks 0.68 0.904 0.744 0.622 0.988 平均值 0.867 0.958 0.907 0.778 0.990 表 3 5 种方法的 Gmean 值比较 Table 3 Comparison of Gmean between five methods 数据集 RF SMOTEBoost RUSBoost K⁃means+ Bagging 本文算法 car 0.967 0.972 0.974 0.952 0.993 vehicle 0.963 0.977 0.979 0.826 0.987 vowel 0.868 0.974 0.892 0.742 0.995 sick 0.862 0.984 0.921 0.789 0.983 letter 0.965 0.988 0.981 0.825 0.999 page⁃blocks 0.767 0.952 0.905 0.713 0.992 平均值 0.899 0.975 0.942 0.808 0.992 从表 2 的 Fmeasure 值可以看出,本文方法除了在 sick 数据集稍微低于 SMOTEBoost 算法之外,在其他 5 个数据集上均有最佳表现,比较各种算法在 6 组 UCI 数据上的平均值,本文方法比随机森林 RF 算法 有 14.2%的提升,与基于聚类欠采样的集成算法相 比有 27.3%的提升,说明本文所提方法在少数类分 类性能方面有巨大的提升。 比较各个算法的整体分类性能 Gmean , 从表 3 可 以看出,本文方法也仅在 sick 数据集上稍逊于最优算 法 SMOTEBoost,二者精度相差不超过 1‰;在 6 个数 据集上的平均分类性能上,本文方法获得最优精度。 结合表 1 ~ 3 可以看出,随着数据不平衡度的提 高,无论是随机欠采样还是基于聚类的欠采样,由于 都会对原始数据集造成样本丢失,分类性能都有所 下降,特别是在 letter 和 page⁃blocks 数据集上,差距 比较明显。 与之对比,本文方法在数据采样过程中 也需要对某类样本进行欠采样,通过多次动态、随机 性采样调和,使得抽样数据能够较好地保持对原始 数据的 分 布; 与 此 同 时, 对 另 外 一 类 样 本 进 行 SMOTE 过采样,在没有增加数据规模条件下,保持 对各类样本的中立性,或者对正类过采样,或者对负 类过采样。 从最终分类结果来看,本文方法在不降 低数据集整体 Gmean 值的基础上, 提高了正类的 Fmeasure 值,对正类和负类都具有较高的识别率。 本文算法中经过动态平衡采样后参与基分类器 训练的数据集样本规模与初始数据集一致,即集合 数据大小比例为 100%,为考察参与训练的不同数据 规模比例对算法分类性能的影响,选取本文算法、随 机森林和 SMOTEBoost 3 种算法,同时选择以 letter 数据集为例,在 20% ~ 100%范围内每次增加 20%比 例的数据,参与集成学习,迭代 10 次,相关算法的 Fmeasure、Gmean 均值如图 1 所示。 图 1 不同数据规模对分类性能影响 Fig.1 Performance measures of different ensemble size 第 2 期 胡小生,等: 动态平衡采样的不平衡数据集成分类方法 ·261·
·262· 智能系统学报 第11卷 从图1可看出,随着参与训练数据集比例的增 of computers,2012,35(2):202-209. 大,无论是正类分类性能还是整体分类精度,都有所 [6]CHEN Xiaolin,SONG Enming,MA Guangzhi.An adaptive 上升,但是随着数据比例的增大,相应的分类性能提 cost-sensitive classifier[C//Proceedings of the 2nd Inter- 升幅度有限。另外,在数据比例为20%、40%时,3 national Conference on Computer and Automation Engineer- 种算法相对应的F。和Gm值几乎是线性提升, ing.Singapore:IEEE,2010,1:699-701 [7]李倩倩,刘胥影.多类类别不平衡学习算法:EasyEnsem- 这说明过低比例的抽样数据由于损失太大的原始数 ble.M[J].模式识别与人工智能,2014,27(2):187- 据分布信息,会严重影响算法的分类性能。 192 4 结束语 LI Qianqian,LIU Xuying.EasyEnsemble.M for multiclass imbalance problem[J].Pattern recognition and artificial in- 针对类别不平衡数据分类问题,本文提出了一 telligence,2014,27(2):187-192. 种混合数据采样与Boosting技术相结合的集成分类 [8]韩敏,朱新荣.不平衡数据分类的混合算法[J].控制理 方法。该方法统筹运用欠采样和过采样,在保持训 论与应用,2011,28(10):1485-1489. 练集数据规模一致条件下,灵活调整各类别样本数 HAN Min,ZHU Xinrong.Hybrid algorithm for classification 量比例,较好地保持原始数据分布,然后采用Bo0s of unbalanced datasets[J].Control theory applications, 2012,28(10):1485-1489. ting技术进行多次迭代学习,获得更强性能分类器。 [9]WANG Shijin,XI Lifeng.Condition monitoring system de- 实验结果表明,该方法能够有效提高正类样本的分 sign with one-class and imbalanced-data classifier [C]// 类性能。 Proceedings of the 16th International Conference on Industri- 由于数据集本身的多样性和复杂性,诸如类重 al Engineering and Engineering Management.Beijing,Chi- 叠分布、噪声样本等均会影响不平衡数据性能,如果 na:EEE,2009:779-783. 进行有针对性的数据预处理工作,将会使得动态平 [10]叶志飞,文益民,吕宝粮.不平衡分类问题研究综述 衡采样的数据分布更加合理,对正类的分类性能将 [J].智能系统学报,2009,4(2):148-156. 会进一步提高。此外,将本文方法应用于多类别不 YE Zhifei,WEN Yimin,LV Baoliang.A survey of imbal- 平衡数据分类,也是今后需要进一步研究的方向。 anced pattern classification problems[J].CAAI transac- tions on intelligent systems,2009,4(2):148-156. 参考文献: [11]翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J] 计算机科学,2010,37(10):27-32. [1]CATENI S,COLLA V,VANNUCCI M.A method for resam- ZHAI Yun,YANG Bingyu,QU Wu.Survey of mining im- pling imbalanced datasets in binary classification tasks for balanced datasets[].Computer science,2010,37(10): real-world problems[J].Neurocomputing,2014,135:32- 27-32. 41 [12]HAN Hui,WANG Wenyuan,MAO Binghuan.Borderline- [2]ZHANG Huaxiang,LI Mingfang.RWO-Sampling:a random SMOTE:a new over-sampling method in imbalanced data walk over-sampling approach to imbalanced data classifica- sets learning[C]//International Conference on Intelligent tion[J].Information fusion,2014,20:99-116. Computing.Berlin Heidelberg,Germany:Springer,2005: [3]CHAWLA N V,BOWYER K W,HALL L O,et al. 878-887. SMOTE:synthetic minority over-sampling technique[J]. 13]HE Haibo,BAI Yang,GARCIA E A,et al.ADASYN:a- Journal of artificial intelligence research,2002,16(1): daptive synthetic sampling approach for imbalanced learning 321-357 [C]//Proceedings of IEEE International Joint Conference [4]郭丽娟,倪子伟,江弋,等.集成降采样不平衡数据分类 on Neural Networks.Hong Kong,China:IEEE,2008: 方法研究[J].计算机科学与探索,2013,7(7):630- 1322.1328. 638 [14]BATISTA G,PRATI R C,MONARD M C.A study of the GUO Lijuan,NI Ziwei,JIANG Yi,et al.Research on im- behavior of several methods for balancing machine learning balanced data classification based on ensemble and under- training data[J].ACM SIGKDD explorations newsletter, sampling[J].Joumnal of frontiers of computer and technolo- 2004,6(1):20-29. 鄂,2013,7(7):630-638. [15]KUBAT M,MATWIN S.Addressing the curse of imbal- [5]李雄飞,李军,董元方,等.一种新的不平衡数据学习算 anced training sets:one-sided selection[C]//Proceedings 法PCBoost[J].计算机学报,2012,35(2):202-209. of the 14th International Conference on Machine Learning. LI Xiongfei,LI Jun,DONG Yuanfang,et al.A new learning San Francisco,USA:Morgan Kaufmann,1997:179-186. algorithm for imbalanced data-PCBoost[J].Chinese journal [16]蒋盛益,苗邦,余雯.基于一趟聚类的不平衡数据下抽
从图 1 可看出,随着参与训练数据集比例的增 大,无论是正类分类性能还是整体分类精度,都有所 上升,但是随着数据比例的增大,相应的分类性能提 升幅度有限。 另外,在数据比例为 20%、40% 时,3 种算法相对应的 Fmeasure 和 Gmean 值几乎是线性提升, 这说明过低比例的抽样数据由于损失太大的原始数 据分布信息,会严重影响算法的分类性能。 4 结束语 针对类别不平衡数据分类问题,本文提出了一 种混合数据采样与 Boosting 技术相结合的集成分类 方法。 该方法统筹运用欠采样和过采样,在保持训 练集数据规模一致条件下,灵活调整各类别样本数 量比例,较好地保持原始数据分布,然后采用 Boos⁃ ting 技术进行多次迭代学习,获得更强性能分类器。 实验结果表明,该方法能够有效提高正类样本的分 类性能。 由于数据集本身的多样性和复杂性,诸如类重 叠分布、噪声样本等均会影响不平衡数据性能,如果 进行有针对性的数据预处理工作,将会使得动态平 衡采样的数据分布更加合理,对正类的分类性能将 会进一步提高。 此外,将本文方法应用于多类别不 平衡数据分类,也是今后需要进一步研究的方向。 参考文献: [1]CATENI S, COLLA V, VANNUCCI M. A method for resam⁃ pling imbalanced datasets in binary classification tasks for real⁃world problems[ J]. Neurocomputing, 2014, 135: 32⁃ 41. [2]ZHANG Huaxiang, LI Mingfang. RWO⁃Sampling: a random walk over⁃sampling approach to imbalanced data classifica⁃ tion[J]. Information fusion, 2014, 20: 99⁃116. [3] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over⁃sampling technique [ J]. Journal of artificial intelligence research, 2002, 16 ( 1): 321⁃357. [4]郭丽娟, 倪子伟, 江弋, 等. 集成降采样不平衡数据分类 方法研究[ J]. 计算机科学与探索, 2013, 7 ( 7): 630⁃ 638. GUO Lijuan, NI Ziwei, JIANG Yi, et al. Research on im⁃ balanced data classification based on ensemble and under⁃ sampling[J]. Journal of frontiers of computer and technolo⁃ gy, 2013, 7(7): 630⁃638. [5]李雄飞, 李军, 董元方, 等. 一种新的不平衡数据学习算 法 PCBoost[J]. 计算机学报, 2012, 35(2): 202⁃209. LI Xiongfei, LI Jun, DONG Yuanfang, et al. A new learning algorithm for imbalanced data⁃PCBoost[ J]. Chinese journal of computers, 2012, 35(2): 202⁃209. [6]CHEN Xiaolin, SONG Enming, MA Guangzhi. An adaptive cost⁃sensitive classifier[C] / / Proceedings of the 2nd Inter⁃ national Conference on Computer and Automation Engineer⁃ ing. Singapore: IEEE, 2010, 1: 699⁃701. [7]李倩倩, 刘胥影. 多类类别不平衡学习算法: EasyEnsem⁃ ble. M[J]. 模式识别与人工智能, 2014, 27 ( 2): 187⁃ 192. LI Qianqian, LIU Xuying. EasyEnsemble. M for multiclass imbalance problem[J]. Pattern recognition and artificial in⁃ telligence, 2014, 27(2): 187⁃192. [8]韩敏, 朱新荣. 不平衡数据分类的混合算法[ J]. 控制理 论与应用, 2011, 28(10): 1485⁃1489. HAN Min, ZHU Xinrong. Hybrid algorithm for classification of unbalanced datasets [ J]. Control theory & applications, 2012, 28(10): 1485⁃1489. [9] WANG Shijin, XI Lifeng. Condition monitoring system de⁃ sign with one⁃class and imbalanced⁃data classifier [ C] / / Proceedings of the 16th International Conference on Industri⁃ al Engineering and Engineering Management. Beijing, Chi⁃ na: IEEE, 2009: 779⁃783. [10]叶志飞, 文益民, 吕宝粮. 不平衡分类问题研究综述 [J]. 智能系统学报, 2009, 4(2): 148⁃156. YE Zhifei, WEN Yimin, LV Baoliang. A survey of imbal⁃ anced pattern classification problems [ J]. CAAI transac⁃ tions on intelligent systems, 2009, 4(2): 148⁃156. [11]翟云, 杨炳儒, 曲武. 不平衡类数据挖掘研究综述[ J]. 计算机科学, 2010, 37(10): 27⁃32. ZHAI Yun, YANG Bingyu, QU Wu. Survey of mining im⁃ balanced datasets[J]. Computer science, 2010, 37(10): 27⁃32. [12]HAN Hui, WANG Wenyuan, MAO Binghuan. Borderline⁃ SMOTE: a new over⁃sampling method in imbalanced data sets learning [ C] / / International Conference on Intelligent Computing. Berlin Heidelberg, Germany: Springer, 2005: 878⁃887. [13]HE Haibo, BAI Yang, GARCIA E A, et al. ADASYN: a⁃ daptive synthetic sampling approach for imbalanced learning [C] / / Proceedings of IEEE International Joint Conference on Neural Networks. Hong Kong, China: IEEE, 2008: 1322⁃1328. [14]BATISTA G, PRATI R C, MONARD M C. A study of the behavior of several methods for balancing machine learning training data [ J]. ACM SIGKDD explorations newsletter, 2004, 6(1): 20⁃29. [15] KUBAT M, MATWIN S. Addressing the curse of imbal⁃ anced training sets: one⁃sided selection[C] / / Proceedings of the 14th International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann, 1997: 179⁃186. [16]蒋盛益, 苗邦, 余雯. 基于一趟聚类的不平衡数据下抽 ·262· 智 能 系 统 学 报 第 11 卷
第2期 胡小生,等:动态平衡采样的不平衡数据集成分类方法 .263. 样算法[J].小型微型计算机系统,2012,33(2):232- [22]CHAWLA N V,LAZAREVIC A,HALL L O,et al. 236. SMOTBoost:improving prediction of the minority class in JIANG Shengyi,MIAO Bang,YU Wen.Under-sampling boosting[C]//Proceedings of the 7th European Confer- method based on one-pass clustering for imbalanced data ence on Principles and Practice of Knowledge Discovery in distribution[J].Journal of Chinese computer systems, Databases.Berlin Heidelberg:Springer,2003,2838: 2012,32(2):232-236. 107-119. [17]胡小生,钟勇.基于加权聚类质心的SVM不平衡分类 [23]SEIFFERT C,KHOSHGOFTAAR T M,VAN HULSE J,et 方法[J.智能系统学报,2013,8(3):261-265. al.RUSBoost:a hybrid approach to alleviating class imbal- HU Xiaosheng,ZHONG Yong.Support vector machine im- ance[J].IEEE transactions on system,man and cybernet- balanced data classification based on weighted clustering ics-part a:systems and humans,2010,40(1):185-197. centroid [J].CAAI transactions on intelligent systems, 作者简介: 2013,8(3):261-265. 胡小生,男,1978年生,讲师/高级 [18]胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖 工程师,主要研究方向为机器学习、数 掘算法[J].计算机科学,2013,40(11):271-275 据挖掘、人工智能。主持广东省教育厅 HU Xiaosheng,ZHANG Runjing,ZHONG Yong.Two-tier 育苗工程项目1项,参与省级、市厅级 clustering for mining imbalanced datasets [J].Computer 科研项目6项,发表学术论文12篇,其 8 cience,2013,40(11):271-275. 中被EL,ISTP检索4篇。 [19]陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分 类方法[J].模式识别与人工智能,2010,23(6):772 温菊屏,女,1979年生,讲师,主要 780. 研究方向为虚拟现实、数据挖掘。主持 CHEN Si,GUO Gongde,CHEN Lifei.Clustering ensem- 广东省教育厅科研项目1项,参与省 bles based classification method for imbalanced data sets 级、厅级科研和教改项目4项,发表学 [J].Pattern recognition and artificial intelligence,2010, 术论文9篇。 23(6):772-780. [20]UCI machine learning repository EB/OL].(2009-10-16) 钟勇,男,1970年生,教授,博士 [2015-3-20].http://archive.ics.uci.edu/ml. 主要研究方向为访问控制、隐私保护、 [21]李建更,高志坤.随机森林针对小样本数据类权重设置 信息检索、云计算。主持和参与国家自 [J].计算机工程与应用,2009,45(26):131-134 然科学基金、国家星火科技计划、省自 LI Jiangeng,GAO Zhikun.Setting of class weights in ran- 然科学基金等国家级、省级科研项目10 dom forest for small-sample data[J].Computer engineering 余项,发表学术论文30多篇,其中被 and applications,2009,45(26):131-134. SCI,EI检索10篇
样算法[J]. 小型微型计算机系统, 2012, 33(2): 232⁃ 236. JIANG Shengyi, MIAO Bang, YU Wen. Under⁃sampling method based on one⁃pass clustering for imbalanced data distribution [ J ]. Journal of Chinese computer systems, 2012, 32(2): 232⁃236. [17]胡小生, 钟勇. 基于加权聚类质心的 SVM 不平衡分类 方法[J]. 智能系统学报, 2013, 8(3): 261⁃265. HU Xiaosheng, ZHONG Yong. Support vector machine im⁃ balanced data classification based on weighted clustering centroid [ J ]. CAAI transactions on intelligent systems, 2013, 8(3): 261⁃265. [18]胡小生, 张润晶, 钟勇. 两层聚类的类别不平衡数据挖 掘算法[J]. 计算机科学, 2013, 40(11): 271⁃275. HU Xiaosheng, ZHANG Runjing, ZHONG Yong. Two⁃tier clustering for mining imbalanced datasets [ J]. Computer science, 2013, 40(11): 271⁃275. [19]陈思, 郭躬德, 陈黎飞. 基于聚类融合的不平衡数据分 类方法[J]. 模式识别与人工智能, 2010, 23(6): 772⁃ 780. CHEN Si, GUO Gongde, CHEN Lifei. Clustering ensem⁃ bles based classification method for imbalanced data sets [ J]. Pattern recognition and artificial intelligence, 2010, 23(6): 772⁃780. [20]UCI machine learning repository[EB/ OL]. (2009⁃10⁃16) [2015⁃3⁃20]. http: / / archive.ics.uci.edu / ml. [21]李建更, 高志坤. 随机森林针对小样本数据类权重设置 [J]. 计算机工程与应用, 2009, 45(26): 131⁃134. LI Jiangeng, GAO Zhikun. Setting of class weights in ran⁃ dom forest for small⁃sample data[J]. Computer engineering and applications, 2009, 45(26): 131⁃134. [22] CHAWLA N V, LAZAREVIC A, HALL L O, et al. SMOTBoost: improving prediction of the minority class in boosting [ C] / / Proceedings of the 7th European Confer⁃ ence on Principles and Practice of Knowledge Discovery in Databases. Berlin Heidelberg: Springer, 2003, 2838: 107⁃119. [23]SEIFFERT C, KHOSHGOFTAAR T M, VAN HULSE J, et al. RUSBoost: a hybrid approach to alleviating class imbal⁃ ance[J]. IEEE transactions on system, man and cybernet⁃ ics⁃part a: systems and humans, 2010, 40(1): 185⁃197. 作者简介: 胡小生,男,1978 年生,讲师/ 高级 工程师,主要研究方向为机器学习、数 据挖掘、人工智能。 主持广东省教育厅 育苗工程项目 1 项,参与省级、市厅级 科研项目 6 项,发表学术论文 12 篇,其 中被 EI、ISTP 检索 4 篇。 温菊屏, 女,1979 年生,讲师,主要 研究方向为虚拟现实、数据挖掘。 主持 广东省教育厅科研项目 1 项,参与省 级、厅级科研和教改项目 4 项,发表学 术论文 9 篇。 钟勇, 男,1970 年生,教授,博士, 主要研究方向为访问控制、隐私保护、 信息检索、云计算。 主持和参与国家自 然科学基金、国家星火科技计划、省自 然科学基金等国家级、省级科研项目 10 余项,发表学术论文 30 多篇,其中被 SCI、EI 检索 10 篇。 第 2 期 胡小生,等: 动态平衡采样的不平衡数据集成分类方法 ·263·