武森等: 基于聚类欠采样的集成不均衡数据分类算法重采样方法从数据层面入

正在加载图片...

武森等：基于聚类欠采样的集成不均衡数据分类算法 ·1245· 重采样方法从数据层面入手，将少数类数据变多样本数据的错误率对总体错误率贡献不同. 或将多数类数据变少，从而使原有的数据集达到均衡 1ECUA概念定义及算法过程状态.重采样方法主要分为过采样方法和欠采样方法.最简单的过采样方法是随机过采样.但是这种方基于聚类欠采样的集成不均衡数据分类算法法容易使分类器对同一个数据的训练太过强化，从而 (ECUA)涉及的相关概念定义及具体的算法过程说明使规则对这些数据产生过拟合现象.为了解决这个问如下. 题，很多研究者都提出了其他的过采样方法，比如基于 1.1概念定义人工合成少数类过采样技术(synthetic minority over- 概念1（分类数据样本）：约定由一组属性值和一 sampling technique,SMOTE)[)、基于主动学习的个类标号共同描述的数据对象为分类数据样本，表示 SMOTE过采样算法[o)、引入遗传算子的改进算法[]和为x=(x1,d2,…,xm,r).其中(x1,x2,…,xm)为数据样基于分形自相似性理论的SMOTE改进算法[s].与过本的属性值，下标最大值m表示属性值的个数.在二采样方法类似，最简单的欠采样方法是随机欠采样. 0,如果样本为正样本，本文讨论的随机欠采样首先随机的选择一部分多数类样本并将其分类问题中，一，如果样本为负样本删除，从而形成新的训练集，使训练集中的数据达到均分类问题均为二分类问题，即只有两种取值，且约定衡状态.但是这种方法容易删除一些有代表性的多数少数类数据样本均为正类样本类样本数据，从而使分类器不能学习到完整的分类规概念2（分类数据集）：约定当一组数据集中每个则.为了克服这一缺点，许多研究者都提出了其他的数据样本均为分类数据样本，这种数据集为分类数据欠采样方法.比如说EasyEnsemble算法和BalanceCas- 集，表示为D={x,}1,其中i=1,2,…,N,标记分 cade算法I)、基于KNN算法的KNN欠采样方法：类数据集中N个数据样本 Near Miss--l、NearMiss-2、NearMiss--3和“最远距离” 概念3（均衡数据集、不均衡数据集）：给定一个数法[]、单边选择方法[等.其中，有学者提出利用聚据集D={x,}其中D,={x,0}为类标号均为类的方法进行欠采样].由于聚类方法可以利用数 0的分类数据子集，D2={x,1,为类标号均为1的据样本的空间结构信息寻找数据样本的最优划分，因分类数据子集，其中，N和N2分别是数据集D,和D2 此本文也采用基于聚类的欠采样方法来对训练数据集分类数据子集的总数，且N,+N2=N.当且仅当数据中多数类样本进行选择，集D满足N/N≈N,/N时，该数据集为均衡数据集；否从算法角度对不均衡数据分类问题进行改进主要则为不均衡数据集有五种方法，分别是改变概率密度、单类学习分类、代概念4（弱分类器）：分类正确率仅比随机猜测略价敏感学习、核方法和集成学习.其中集成学习模型好的分类器，其分类正确率略高于50%. 始于80年代提出的弱可学习和强可学习概念，集成学 1.2算法过程习与其他技术相结合，能够提高分类器的性能.目前， ECUA算法的主要过程有两个：使用基于聚类的最常用的集成学习算法是AdaBoost算法.国际机器学欠采样算法，得到均衡数据集；在得到均衡的数据集习界的权威Dietterich将集成学习列为机器学习四大后，用AdaBoost集成算法对新的数据集进行分类研究方向之首]，其能够有效地提高分类器的泛化能训练力和预测精度 1.2.1基于聚类的欠采样过程基于上述情况，本文在原有的基于聚类的欠采样相比于随机欠采样等算法，基于聚类的欠采样能方法和集成学习方法的基础上，将两种针对不均衡数够减少欠采样过程中的盲目性，从而在减少多数类数据分类的改进方法融合，提出基于聚类的欠采样集成据数量的同时也能够尽可能保留多数类数据样本的信不均衡数据分类算法(imbalanced data ensemble classi- 息.下面是具体的欠采样过程 fication based on cluster-based under-sampling algorithm, 输入：不均衡数据集D ECUA),提高不均衡数据的分类性能.该算法针对不初始化D'=☑，D1=0,k=0 均衡数据集，用聚类方法对数据集进行欠采样处理，从 foreach x'∈D 而使多数类数据和少数类数据的数量达到均衡.然后 if r=0 以聚类后的类中心代表原多数类样本数据同少数类数 D'=D'Ux 据一起构成新的数据集，再利用AdaBoost算法分别基 else 于单层决策树算法和KNN算法进行集成的分类器训 D=DUx 练.然后在上述算法中的集成学习过程引入权重，对 k=card(D') 错误率的计算进行调整，使少数类样本数据和多数类 D'=Cluster(k,D)武森等: 基于聚类欠采样的集成不均衡数据分类算法重采样方法从数据层面入手,将少数类数据变多或将多数类数据变少,从而使原有的数据集达到均衡状态. 重采样方法主要分为过采样方法和欠采样方法. 最简单的过采样方法是随机过采样. 但是这种方法容易使分类器对同一个数据的训练太过强化,从而使规则对这些数据产生过拟合现象. 为了解决这个问题,很多研究者都提出了其他的过采样方法,比如基于人工合成少数类过采样技术( synthetic minority over鄄 sampling technique, SMOTE ) [5] 、基于主动学习的 SMOTE 过采样算法[6] 、引入遗传算子的改进算法[7] 和基于分形自相似性理论的 SMOTE 改进算法[8] . 与过采样方法类似,最简单的欠采样方法是随机欠采样. 随机欠采样首先随机的选择一部分多数类样本并将其删除,从而形成新的训练集,使训练集中的数据达到均衡状态. 但是这种方法容易删除一些有代表性的多数类样本数据,从而使分类器不能学习到完整的分类规则. 为了克服这一缺点,许多研究者都提出了其他的欠采样方法. 比如说 EasyEnsemble 算法和 BalanceCas鄄 cade 算法[9] 、基于 KNN 算法的 KNN 欠采样方法: NearMiss鄄鄄1、NearMiss鄄鄄 2、NearMiss鄄鄄 3 和 “ 最远距离冶法[10] 、单边选择方法[11] 等. 其中,有学者提出利用聚类的方法进行欠采样[12] . 由于聚类方法可以利用数据样本的空间结构信息寻找数据样本的最优划分,因此本文也采用基于聚类的欠采样方法来对训练数据集中多数类样本进行选择. 从算法角度对不均衡数据分类问题进行改进主要有五种方法,分别是改变概率密度、单类学习分类、代价敏感学习、核方法和集成学习. 其中集成学习模型始于 80 年代提出的弱可学习和强可学习概念,集成学习与其他技术相结合,能够提高分类器的性能. 目前, 最常用的集成学习算法是 AdaBoost 算法. 国际机器学习界的权威 Dietterich 将集成学习列为机器学习四大研究方向之首[13] ,其能够有效地提高分类器的泛化能力和预测精度. 基于上述情况,本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,将两种针对不均衡数据分类的改进方法融合,提出基于聚类的欠采样集成不均衡数据分类算法( imbalanced data ensemble classi鄄 fication based on cluster鄄based under鄄sampling algorithm, ECUA),提高不均衡数据的分类性能. 该算法针对不均衡数据集,用聚类方法对数据集进行欠采样处理,从而使多数类数据和少数类数据的数量达到均衡. 然后以聚类后的类中心代表原多数类样本数据同少数类数据一起构成新的数据集,再利用 AdaBoost 算法分别基于单层决策树算法和 KNN 算法进行集成的分类器训练. 然后在上述算法中的集成学习过程引入权重,对错误率的计算进行调整,使少数类样本数据和多数类样本数据的错误率对总体错误率贡献不同. 1 ECUA 概念定义及算法过程基于聚类欠采样的集成不均衡数据分类算法 (ECUA)涉及的相关概念定义及具体的算法过程说明如下. 1郾 1 概念定义概念 1(分类数据样本):约定由一组属性值和一个类标号共同描述的数据对象为分类数据样本,表示为 x = (x1 ,x2 ,…,xm ,r). 其中(x1 ,x2 ,…,xm )为数据样本的属性值,下标最大值 m 表示属性值的个数. 在二分类问题中,r = 0, 如果样本为正样本, {1, 如果样本为负样本. 本文讨论的分类问题均为二分类问题,即 r 只有两种取值,且约定少数类数据样本均为正类样本. 概念 2(分类数据集):约定当一组数据集中每个数据样本均为分类数据样本,这种数据集为分类数据集,表示为 D = { x i ,r i } N i = 1 ,其中 i = 1,2,…,N,标记分类数据集中 N 个数据样本. 概念 3(均衡数据集、不均衡数据集):给定一个数据集 D = {x i ,r i } N i = 1 . 其中 D1 = {x i ,0} N1 i = 1为类标号均为 0 的分类数据子集,D2 = { x i ,1} N2 i = 1为类标号均为 1 的分类数据子集,其中,N1 和 N2 分别是数据集 D1 和 D2 分类数据子集的总数,且 N1 + N2 = N. 当且仅当数据集 D 满足 N1 / N抑N2 / N 时,该数据集为均衡数据集;否则为不均衡数据集. 概念 4(弱分类器):分类正确率仅比随机猜测略好的分类器,其分类正确率略高于 50% . 1郾 2 算法过程 ECUA 算法的主要过程有两个:使用基于聚类的欠采样算法,得到均衡数据集;在得到均衡的数据集后,用 AdaBoost 集成算法对新的数据集进行分类训练. 1郾 2郾 1 基于聚类的欠采样过程相比于随机欠采样等算法,基于聚类的欠采样能够减少欠采样过程中的盲目性,从而在减少多数类数据数量的同时也能够尽可能保留多数类数据样本的信息. 下面是具体的欠采样过程. 输入:不均衡数据集 D 初始化 D忆 = 芰,D1 = 芰,k = 0 foreach x i沂D if r i = 0 D忆 = D忆胰{x i } else D1 = D1胰{x i } k = card(D忆) D忆1 = Cluster(k,D1 ) ·1245·

<<向上翻页向下翻页>>

点击下载：基于聚类欠采样的集成不均衡数据分类算法