集成迭代的每次数据采样过程中，无需给定抽样比例参数，而是基于随机生成的样

正在加载图片...

第2期胡小生，等：动态平衡采样的不平衡数据集成分类方法 ·259· 集成迭代的每次数据采样过程中，无需给定抽样比例定相应的采样操作，如果产生的随机数k小于初始参数，而是基于随机生成的样本规模数值，或者对正数据集的负类样本数量，则在负类样本集进行欠采类进行过采样，或者在负类上进行欠采样，获得类别样，在正类样本集进行过采样，使得最终输出集合平衡的训练集，然后参与后续的集成算法训练。 S'的样本数量与初始数据集数量一致，反之，则进行相反的采样。与传统的采样方法不同的是，在步 2动态平衡采样不平衡数据分类方法骤4中对正类样本进行欠采样，对负类样本进行过本文算法包括动态平衡采样的训练数据获取和采样，通过随机函数产生的随机数，使得输出集合子分类器学习2个步骤，主要包括4个阶段：1)对初 S'在总数量一定的情况下保持对对各类别样本的始数据集的各个样本设置相同的初始权值：2)调用中立性。动态平衡采样算法，生成合成样例，组成样本规模一 2.2训练样例权值更新致的训练集，对于新生成的合成样例，需要赋予权在第t次迭代过程中，需要对两个集合中的样值：3)应用AdaBoost算法，生成子分类器，之后根据例权重进行更新，分别是动态平衡采样后的输出集子分类器的分类情况对初始训练集的各个样本进行合S'和子分类器形成之后的初始数据集S。权值更新，以及权值归一化：2)、3)重复迭代执行T 分析动态平衡采样算法过程可知，经过数据采次：最后将T个子分类器集成。样之后，新数据集S'的样例总数与初始数据集S一 2.1动态平衡采样致，均为m,其中包括从数据集S抽取的部分样例，作为数据预处理的采样技术，需要预先确定数以及部分由SMOTE方法产生的合成样例。S'中的据采样参数，不合理的数据采样参数会导致生成的样本权值按照式(1)更新：数据分布严重背离初始数据分布，进而影响算法的 (1 x:年S 分类性能。动态平衡采样依赖随机函数产生的数值 D',(i)= (1) 确定各类别的采样方式及采样比例，通过重复多次 D(i), x;∈S 的动态提取初始数据集的样本，获取充分的数据分式中：D,(i)和D',(i)分别表示第1次迭代时，合成布特性信息，降低富含分类信息样本点丢失现象。样例加入前及加入后的权值。整体算法如算法1所示。第t次迭代训练结束时，AdaBoost分类算法算法1动态平衡采样算法在数据集S'进行学习后得到子分类器输入初始数据集S={x:y:}1出：∈Y= h,:x→{-1，+1}，t=1,2,…,T,h,(x)给出数据集S中的样例x的所属类别，根据子分类器 {+1,-1},+1表示正类样本，-1表示负类样本：的分类情况，更新样本权值，增加错分样本的权输出新数据集S'。值，减少正确分类样本权值，以便下次迭代时， 1)计算集合S中的样本数目，负类样本集合 “错分”样本得到更多关注。 Sw,其数量记为a,正类样本集合Sp的样本数记为计算子分类器h,(x)的分类错误率E,: b m a b 2)利用随机函数，生成一个随机整数k, 6=2Daa)) (2) 2<k<m-2; 如果6，>0.5，终止此轮迭代。 3)如果k<a,则从数据集Sx中进行随机欠计算子分类器投票权重α，：采样，采样数目为k,将其加入集合S',在集合S 中应用SMOTE进行过采样，生成m-k-b个新合 (3) E 成样例，连同S。中的b个样本，均加入集合S'; 更新样例权值： 4)如果k≥a,则从数据集Sp中进行随机欠采 D,(i) D+1(i)= (4) 样，采样数目为m-k,将其加入集合S”,在集合S、 Z. exp(-ah,(x:)y:) 中应用SMOTE进行过采样，生成k-a个合成样例，式中Z,是归一化常数。连同S、中的a个样本，都加入集合S'; 完整算法如算法2所示。 5)输出集合S”。算法2动态平衡采样的不平衡分类算法算法依据2)中所产生的随机整数值大小来决输入初始数据集S={x:,y:}1,y:∈Y=集成迭代的每次数据采样过程中，无需给定抽样比例参数，而是基于随机生成的样本规模数值，或者对正类进行过采样，或者在负类上进行欠采样，获得类别平衡的训练集，然后参与后续的集成算法训练。２动态平衡采样不平衡数据分类方法本文算法包括动态平衡采样的训练数据获取和子分类器学习２个步骤，主要包括４个阶段：１）对初始数据集的各个样本设置相同的初始权值；２）调用动态平衡采样算法，生成合成样例，组成样本规模一致的训练集，对于新生成的合成样例，需要赋予权值；３）应用ＡｄａＢｏｏｓｔ算法，生成子分类器，之后根据子分类器的分类情况对初始训练集的各个样本进行权值更新，以及权值归一化；２）、３）重复迭代执行Ｔ次；最后将Ｔ个子分类器集成。２．１动态平衡采样作为数据预处理的采样技术，需要预先确定数据采样参数，不合理的数据采样参数会导致生成的数据分布严重背离初始数据分布，进而影响算法的分类性能。动态平衡采样依赖随机函数产生的数值确定各类别的采样方式及采样比例，通过重复多次的动态提取初始数据集的样本，获取充分的数据分布特性信息，降低富含分类信息样本点丢失现象。整体算法如算法１所示。算法１动态平衡采样算法输入初始数据集Ｓ＝｛ｘｉ，ｙｉ｝ｍｉ＝１，ｙｉ ∈ Ｙ＝｛＋１，－１｝，＋１表示正类样本，－１表示负类样本；输出新数据集Ｓ′。１）计算集合Ｓ中的样本数目，负类样本集合ＳＮ，其数量记为ａ，正类样本集合ＳＰ的样本数记为ｂ，ｍ＝ａ＋ｂ；２）利用随机函数，生成一个随机整数ｋ，２＜ｋ＜ｍ－２；３）如果ｋ＜ａ，则从数据集ＳＮ中进行随机欠采样，采样数目为ｋ，将其加入集合Ｓ′ ，在集合ＳＰ中应用ＳＭＯＴＥ进行过采样，生成ｍ－ｋ－ｂ个新合成样例，连同ＳＰ中的ｂ个样本，均加入集合Ｓ′ ；４）如果ｋ ≥ ａ，则从数据集ＳＰ中进行随机欠采样，采样数目为ｍ－ｋ，将其加入集合Ｓ′ ，在集合ＳＮ中应用ＳＭＯＴＥ进行过采样，生成ｋ－ａ个合成样例，连同ＳＮ中的ａ个样本，都加入集合Ｓ′ ；５）输出集合Ｓ′ 。算法依据２）中所产生的随机整数值大小来决定相应的采样操作，如果产生的随机数ｋ小于初始数据集的负类样本数量，则在负类样本集进行欠采样，在正类样本集进行过采样，使得最终输出集合Ｓ′ 的样本数量与初始数据集数量一致，反之，则进行相反的采样。与传统的采样方法不同的是，在步骤４中对正类样本进行欠采样，对负类样本进行过采样，通过随机函数产生的随机数，使得输出集合Ｓ′ 在总数量一定的情况下保持对对各类别样本的中立性。２．２训练样例权值更新在第ｔ次迭代过程中，需要对两个集合中的样例权重进行更新，分别是动态平衡采样后的输出集合Ｓ′ 和子分类器形成之后的初始数据集Ｓ。分析动态平衡采样算法过程可知，经过数据采样之后，新数据集Ｓ′ 的样例总数与初始数据集Ｓ一致，均为ｍ，其中包括从数据集Ｓ抽取的部分样例，以及部分由ＳＭＯＴＥ方法产生的合成样例。Ｓ′ 中的样本权值按照式（１）更新：Ｄ′ｔ（ｉ）＝１ｍ，ｘｉ ∉ ＳＤｔ（ｉ），ｘｉ ∈ Ｓ ì î í ï ï ïï （１）式中：Ｄｔ（ｉ）和Ｄ′ｔ（ｉ）分别表示第ｔ次迭代时，合成样例加入前及加入后的权值。第ｔ次迭代训练结束时，ＡｄａＢｏｏｓｔ分类算法在数据集Ｓ′ 进行学习后得到子分类器ｈｔ：ｘ → ｛－１，＋１｝，ｔ＝１，２，…，Ｔ，ｈｔ（ｘ）给出数据集Ｓ中的样例ｘ的所属类别，根据子分类器的分类情况，更新样本权值，增加错分样本的权值，减少正确分类样本权值，以便下次迭代时， “错分”样本得到更多关注。计算子分类器ｈｔ（ｘ）的分类错误率 εｔ： εｔ＝ ∑ ｍｉ＝１Ｄｔ（ｉ）Ｉ（ｈｔ（ｘｉ） ≠ ｙ）（２）如果 εｔ＞０．５，终止此轮迭代。计算子分类器投票权重 αｔ： αｔ＝１２ｌｏｇ｛１－ εｔ εｔ｝（３）更新样例权值：Ｄｔ＋１（ｉ）＝Ｄｔ（ｉ）Ｚｔｅｘｐ（－ αｔｈｔ（ｘｉ）ｙｉ）（４）式中Ｚｔ是归一化常数。完整算法如算法２所示。算法２动态平衡采样的不平衡分类算法输入初始数据集Ｓ＝｛ｘｉ，ｙｉ｝ｍｉ＝１，ｙｉ ∈ Ｙ＝第２期胡小生，等：动态平衡采样的不平衡数据集成分类方法 ·２５９·

<<向上翻页向下翻页>>

点击下载：【机器学习】动态平衡采样的不平衡数据集成分类方法编辑部