正在加载图片...
·1554· 北京科技大学学报 第33卷 Step 2 Initialize ComP progress=false Step 3 progress =true end Step 4 while (progress) output(Premin) for(i=l;i≤n;i++) end Fitness(Com;) 3试验验证 P= Fitness(Com,) ∑Fitness(Com,) 3.1评价指标 非平衡数据集两分类问题中,准确率已不适合 Two-point-crossover(Com,) 作为衡量分类精度的性能指标,而采用TP-rate和 Mutate(Com,) FP-ate作为性能指标: Calculate(Fitness) TP-rate= TP (7) Calculate(Fitness2) TP+FN A=Fitness-Fitness2 FP FP-ate=TN +FP (8) if△≤r progress =false 式中,TP和TN分别为预测正确的正样本和负样本 end 数,FP为原本属于负类的样本错误地预测为正类的 样本数,N为原本属于正类的样本错误地预测为负 for(=1:j≤mj++) Fitness(SubP) 类的样本数. Fitness(SubP) Kubat和Matwin提出了将G-means作为衡量非 Pi= 平衡数据集分类精度的性能指标,由于G-means是 ∑Fitness(SubP,) 引 TP-ate和FP-rate的几何均值,故Kubat和Matwin HUX-crossover(SubP,-SubP) 认为其能较好地反映分类性能四 Mutate(SubP) G-means /TP-rate x TN-rate (9) Copy (SubP)to all Com,with 为综合考察TP-ate和FP-ate,同时采用了受试 SubP 者操作特征(receiver operating characteristic, Fitness (all-Com,) ROC)@作为衡量少数类样本分类精度的指标. Calculate(Fitness) 3.2数据集 Calculate(Fitness,) 综合样本集非平衡度、样本规模和属性个数等 A=Fitness-Fitness2 因素,选用差异较大的五个UCI数据集,如表1 f△≤r 所示 表1实验所用UC数据集 Table 1 UCI data sets 数据集 属性数目 概念/反概念 少数类样本数量 多数类样本数量 非平衡度 German 20 Bad/Good 300 700 2.33 Vehicle 18 Van/Remainder 199 647 3.25 Satimage 36 4/Remainder 626 5809 9.28 Flag 28 White/Remainder 17 177 10.42 Nursery Not-recom/Remainder 328 12632 38.51 3.3 UMCCM参数确定 行十次十交叉试验时,TP-rate、TN-rate和G-means 参数对分类器性能起到至关重要的作用.在式 结果如图3所示.可见,当α值变化时,多数类样本 (1)中,=B=y=1/3恒定不变;为确定式(3)中 精度影响较小,而少数类样本精度波动较大.当 和B值,令权重因子分别取4/5、2/3、1/2、1/3、1/4 aα'=23时,分类器在十次十交叉试验中综合性能 和1/5.以Vehicle数据集为例,当在该数据集上执 最优.在其他数据集中均得到相同结论.北 京 科 技 大 学 学 报 第 33 卷 Step 2 Initialize ComPi Step 3 progress = true Step 4 while ( progress) for ( i = 1; i≤n; i + + ) Fitness( Comi ) Pi = Fitness( Comi ) ∑ n i = 1 Fitness( Comi ) Two-point-crossover( Comi ) Mutate( Comi ) Calculate( Fitness1 ) Calculate( Fitness2 ) Δ = Fitness1 - Fitness2 if Δ≤τ progress = false end for ( j = 1; j≤m; j + + ) Fitness( SubPj ) Pj = Fitness( SubPj ) ∑ m i = 1 Fitness( SubPj ) HUX-crossover( SubPi-SubPj ) Mutate( SubPj ) Copy ( SubPj ) to all Comt with SubPj Fitness( all-Comi ) Calculate( Fitness1 ) Calculate( Fitness2 ) Δ = Fitness1 - Fitness2 if Δ≤τ progress = false end output( Premin ) end 3 试验验证 3. 1 评价指标 非平衡数据集两分类问题中,准确率已不适合 作为衡量分类精度的性能指标,而采用 TP-rate 和 FP-rate 作为性能指标: TP-rate = TP TP + FN ( 7) FP-rate = FP TN + FP ( 8) 式中,TP 和 TN 分别为预测正确的正样本和负样本 数,FP 为原本属于负类的样本错误地预测为正类的 样本数,FN 为原本属于正类的样本错误地预测为负 类的样本数. Kubat 和 Matwin 提出了将 G-means 作为衡量非 平衡数据集分类精度的性能指标,由于 G-means 是 TP-rate 和 FP-rate 的几何均值,故 Kubat 和 Matwin 认为其能较好地反映分类性能[9]. G-means = 槡TP-rate × TN-rate ( 9) 为综合考察 TP-rate 和 FP-rate,同时采用了受试 者 操 作 特 征 ( receiver operating characteristic, ROC) [10]作为衡量少数类样本分类精度的指标. 3. 2 数据集 综合样本集非平衡度、样本规模和属性个数等 因素,选用差异较大的五个 UCI 数据集[11],如表 1 所示. 表 1 实验所用 UCI 数据集 Table 1 UCI data sets 数据集 属性数目 概念/反概念 少数类样本数量 多数类样本数量 非平衡度 German 20 Bad /Good 300 700 2. 33 Vehicle 18 Van /Remainder 199 647 3. 25 Satimage 36 4 /Remainder 626 5809 9. 28 Flag 28 White /Remainder 17 177 10. 42 Nursery 8 Not-recom/Remainder 328 12632 38. 51 3. 3 UMCCM 参数确定 参数对分类器性能起到至关重要的作用. 在式 ( 1) 中,α = β = γ = 1 /3 恒定不变; 为确定式( 3) 中 α' 和 β'值,令权重因子 α'分别取 4 /5、2 /3、1 /2、1 /3、1 /4 和 1 /5. 以 Vehicle 数据集为例,当在该数据集上执 行十次十交叉试验时,TP-rate、TN-rate 和 G-means 结果如图 3 所示. 可见,当 α'值变化时,多数类样本 精度影响较小,而少数类样本精度波动较大. 当 α' = 2 /3 时,分类器在十次十交叉试验中综合性能 最优. 在其他数据集中均得到相同结论. ·1554·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有