北京科技大学学报第 33 卷 Step 2 Initial

正在加载图片...

·1554· 北京科技大学学报第33卷 Step 2 Initialize ComP progress=false Step 3 progress =true end Step 4 while (progress) output(Premin） for(i=l;i≤n;i++) end Fitness(Com;) 3试验验证 P= Fitness(Com,) ∑Fitness(Com,) 3.1评价指标非平衡数据集两分类问题中，准确率已不适合 Two-point-crossover(Com,) 作为衡量分类精度的性能指标，而采用TP-rate和 Mutate(Com,) FP-ate作为性能指标： Calculate(Fitness) TP-rate= TP (7) Calculate(Fitness2) TP+FN A=Fitness-Fitness2 FP FP-ate=TN +FP (8) if△≤r progress =false 式中，TP和TN分别为预测正确的正样本和负样本 end 数，FP为原本属于负类的样本错误地预测为正类的样本数，N为原本属于正类的样本错误地预测为负 for(=1:j≤mj++） Fitness(SubP) 类的样本数. Fitness(SubP) Kubat和Matwin提出了将G-means作为衡量非 Pi= 平衡数据集分类精度的性能指标，由于G-means是 ∑Fitness(SubP,) 引 TP-ate和FP-rate的几何均值，故Kubat和Matwin HUX-crossover(SubP,-SubP) 认为其能较好地反映分类性能四 Mutate(SubP) G-means /TP-rate x TN-rate (9) Copy (SubP)to all Com,with 为综合考察TP-ate和FP-ate,同时采用了受试 SubP 者操作特征（receiver operating characteristic, Fitness (all-Com,) ROC)@作为衡量少数类样本分类精度的指标. Calculate(Fitness) 3.2数据集 Calculate(Fitness,) 综合样本集非平衡度、样本规模和属性个数等 A=Fitness-Fitness2 因素，选用差异较大的五个UCI数据集，如表1 f△≤r 所示表1实验所用UC数据集 Table 1 UCI data sets 数据集属性数目概念/反概念少数类样本数量多数类样本数量非平衡度 German 20 Bad/Good 300 700 2.33 Vehicle 18 Van/Remainder 199 647 3.25 Satimage 36 4/Remainder 626 5809 9.28 Flag 28 White/Remainder 17 177 10.42 Nursery Not-recom/Remainder 328 12632 38.51 3.3 UMCCM参数确定行十次十交叉试验时，TP-rate、TN-rate和G-means 参数对分类器性能起到至关重要的作用.在式结果如图3所示.可见，当α值变化时，多数类样本 (1)中，=B=y=1/3恒定不变；为确定式(3)中精度影响较小，而少数类样本精度波动较大.当和B值，令权重因子分别取4/5、2/3、1/2、1/3、1/4 aα'=23时，分类器在十次十交叉试验中综合性能和1/5.以Vehicle数据集为例，当在该数据集上执最优.在其他数据集中均得到相同结论.北京科技大学学报第 33 卷 Step 2 Initialize ComPi Step 3 progress = true Step 4 while ( progress) for ( i = 1; i≤n; i + + ) Fitness( Comi ) Pi = Fitness( Comi ) ∑ n i = 1 Fitness( Comi ) Two-point-crossover( Comi ) Mutate( Comi ) Calculate( Fitness1 ) Calculate( Fitness2 ) Δ = Fitness1 － Fitness2 if Δ≤τ progress = false end for ( j = 1; j≤m; j + + ) Fitness( SubPj ) Pj = Fitness( SubPj ) ∑ m i = 1 Fitness( SubPj ) HUX-crossover( SubPi-SubPj ) Mutate( SubPj ) Copy ( SubPj ) to all Comt with SubPj Fitness( all-Comi ) Calculate( Fitness1 ) Calculate( Fitness2 ) Δ = Fitness1 － Fitness2 if Δ≤τ progress = false end output( Premin ) end 3 试验验证 3. 1 评价指标非平衡数据集两分类问题中，准确率已不适合作为衡量分类精度的性能指标，而采用 TP-rate 和 FP-rate 作为性能指标: TP-rate = TP TP + FN ( 7) FP-rate = FP TN + FP ( 8) 式中，TP 和 TN 分别为预测正确的正样本和负样本数，FP 为原本属于负类的样本错误地预测为正类的样本数，FN 为原本属于正类的样本错误地预测为负类的样本数． Kubat 和 Matwin 提出了将 G-means 作为衡量非平衡数据集分类精度的性能指标，由于 G-means 是 TP-rate 和 FP-rate 的几何均值，故 Kubat 和 Matwin 认为其能较好地反映分类性能［9］． G-means = 槡TP-rate × TN-rate ( 9) 为综合考察 TP-rate 和 FP-rate，同时采用了受试者操作特征 ( receiver operating characteristic， ROC) ［10］作为衡量少数类样本分类精度的指标． 3. 2 数据集综合样本集非平衡度、样本规模和属性个数等因素，选用差异较大的五个 UCI 数据集［11］，如表 1 所示．表 1 实验所用 UCI 数据集 Table 1 UCI data sets 数据集属性数目概念/反概念少数类样本数量多数类样本数量非平衡度 German 20 Bad /Good 300 700 2. 33 Vehicle 18 Van /Remainder 199 647 3. 25 Satimage 36 4 /Remainder 626 5809 9. 28 Flag 28 White /Remainder 17 177 10. 42 Nursery 8 Not-recom/Remainder 328 12632 38. 51 3. 3 UMCCM 参数确定参数对分类器性能起到至关重要的作用．在式 ( 1) 中，α = β = γ = 1 /3 恒定不变; 为确定式( 3) 中 α' 和 β'值，令权重因子 α'分别取 4 /5、2 /3、1 /2、1 /3、1 /4 和 1 /5. 以 Vehicle 数据集为例，当在该数据集上执行十次十交叉试验时，TP-rate、TN-rate 和 G-means 结果如图 3 所示．可见，当 α'值变化时，多数类样本精度影响较小，而少数类样本精度波动较大．当 α' = 2 /3 时，分类器在十次十交叉试验中综合性能最优．在其他数据集中均得到相同结论． ·1554·

<<向上翻页向下翻页>>

点击下载：基于协同进化机制的欠采样方法