工程科学学报,第 39 卷,第 8 期图 4 ecoli 数据集在 al

正在加载图片...

·1250· 工程科学学报，第39卷，第8期 1.00H 当1心=0.5时，多数类数据样本的权重和少数类数据样本的权重相同，此时分类错误率为￡，=∑ a×lr2- h,(x:)1,同没有加权的集成分类过程错误率计算公式 0.58 相同.权重0∈[0,1]，当0<0.5时，少数类数据的分类错误率比多数类数据的分类错误率对总的分类错误率贡献更小：当0=0.5时，少数类数据的分类错误率和多数类数据的分类错误率对总的分类错误率共享相 0.16 同：当w>0.5时，少数类数据的分类错误率比多数类 .03 0.52 1.00 数据的分类错误率对总的分类错误率贡献更大.可以图4 ecoli数据集在alml和gwh属性值上的类别分布通过调节心的值来控制集成分类过程对两个类别数 Fig.4 Class distribution of ecoli data sets for alml and gvh attribute 据的关注程度 values 本文分别在六组数据集上，分别研究基于KNN弱 0.66* 分类器的ECUA算法和基于DecisionStump弱分类器的ECUA算法在少数类数据的分类错误率取不同权重时，分类器的性能结果表5是基于KNN的ECUA算法权重与分类器性 0.41 能实验的实验结果.从表5可以看出，分类器性能随权重的变化没有任何变化.说明基于KNN弱分类器的ECUA算法对权重不敏感.因为KNN分类时训练的是参数k,即邻居的数量，而这一数量不会变化太 0.1 大，因此权重的变化对KNN分类器中参数k的影响不 0.95 19.085 27.22 radius 大，从而对基于KNN弱分类器的ECUA算法的分类性图5wpbc数据集在radius和worst symmetry属性值上的类别分能影响也不大表6是基于DecisionStump的ECUA算法权重与 Fig.5 Class distribution of wpbe data sets on radius and worst sym- 分类器性能实验的实验结果.从表6可以看出，基于 metry attribute values DecisionStump弱分类器的ECUA算法权重的改变对 0.0390 Recall指标有较大影响，总体来说权重的增大可以提升ECUA分类器少数类数据的分类精度.但权重的变化对于其他分类性能指标的影响会因数据集的不同而不同，总体上无法通过调整权重来提升FPR、TNR、 0.0220外 FNR、Precision、F1l、AUC、G-mean这些分类指标. 由ECUA算法不同权重的实验结果可知，基于为 KNN弱分类器的ECUA算法对权重变化不敏感，因为 KNN分类时训练的是参数k,即邻居的数量，而这一数 0.0052 0.075 0.110 0.140 量不会变化太大；基于DecisionStump弱分类器的EC- smoothness UA算法则可以通过调整权重的大小来控制少数类数图6wpbc数据集在smoothness和concave points SE属性值上的据的分类精度，少数类数据的权重越大则少数类数据类别分布的分类精度越高.在实际应用中，如果对少数类数据 Fig.6 Class distribution of wpbe data sets on smoothness and con- cave points SE attribute values 的分类精度要求很高，则可通过增大权重来提高基于 DecisionStump弱分类器的ECUA算法的少数类分类精响.则加权后的错误率计算公式变为ε，= 度.可见，ECUA算法适用于少数类数据价值大、对少 10, 三dx1-A()1x{ r2=0 数类数据分类精度要求特别高的情况. 1-w,r=1 其中，W是 4结论 W 仅重的归一化含量，厚：豆1×仁，0 =0 在融合聚类方法、欠采样方法和集成学习方法的基础上，提出一种基于聚类欠采样的集成不均衡数据工程科学学报,第 39 卷,第 8 期图 4 ecoli 数据集在 alm1 和 gvh 属性值上的类别分布 Fig. 4 Class distribution of ecoli data sets for alm1 and gvh attribute values 图 5 wpbc 数据集在 radius 和 worst symmetry 属性值上的类别分布 Fig. 5 Class distribution of wpbc data sets on radius and worst sym鄄 metry attribute values 图 6 wpbc 数据集在 smoothness 和 concave points SE 属性值上的类别分布 Fig. 6 Class distribution of wpbc data sets on smoothness and con鄄 cave points SE attribute values 响. 则加权后的错误率计算公式变为着t = 移 N i = 1 琢 t i 伊| r i - ht(xi) | 伊 w, r i = 0 1 - w, r i = { 1 W . 其中,W 是权重 w 的归一化常量, W = 移 N i = 1 1 伊 w, r i = 0 1 - w, r { i = 1 . 当 w = 0郾 5 时,多数类数据样本的权重和少数类数据样本的权重相同,此时分类错误率为着t = 移 N i = 1 琢 t i 伊 | r i - ht(xi) | ,同没有加权的集成分类过程错误率计算公式相同. 权重 w沂[0,1],当 w < 0郾 5 时,少数类数据的分类错误率比多数类数据的分类错误率对总的分类错误率贡献更小;当 w = 0郾 5 时,少数类数据的分类错误率和多数类数据的分类错误率对总的分类错误率共享相同;当 w > 0郾 5 时,少数类数据的分类错误率比多数类数据的分类错误率对总的分类错误率贡献更大. 可以通过调节 w 的值来控制集成分类过程对两个类别数据的关注程度. 本文分别在六组数据集上,分别研究基于 KNN 弱分类器的 ECUA 算法和基于 DecisionStump 弱分类器的 ECUA 算法在少数类数据的分类错误率取不同权重时,分类器的性能结果. 表 5 是基于 KNN 的 ECUA 算法权重与分类器性能实验的实验结果. 从表 5 可以看出,分类器性能随权重的变化没有任何变化. 说明基于 KNN 弱分类器的 ECUA 算法对权重不敏感. 因为 KNN 分类时训练的是参数 k,即邻居的数量,而这一数量不会变化太大,因此权重的变化对 KNN 分类器中参数 k 的影响不大,从而对基于 KNN 弱分类器的 ECUA 算法的分类性能影响也不大. 表 6 是基于 DecisionStump 的 ECUA 算法权重与分类器性能实验的实验结果. 从表 6 可以看出,基于 DecisionStump 弱分类器的 ECUA 算法权重的改变对 Recall 指标有较大影响,总体来说权重的增大可以提升 ECUA 分类器少数类数据的分类精度. 但权重的变化对于其他分类性能指标的影响会因数据集的不同而不同,总体上无法通过调整权重来提升 FPR、 TNR、 FNR、Precision、F1、AUC、G鄄mean 这些分类指标. 由 ECUA 算法不同权重的实验结果可知,基于 KNN 弱分类器的 ECUA 算法对权重变化不敏感,因为 KNN 分类时训练的是参数 k,即邻居的数量,而这一数量不会变化太大;基于 DecisionStump 弱分类器的 EC鄄 UA 算法则可以通过调整权重的大小来控制少数类数据的分类精度,少数类数据的权重越大则少数类数据的分类精度越高. 在实际应用中,如果对少数类数据的分类精度要求很高,则可通过增大权重来提高基于 DecisionStump 弱分类器的 ECUA 算法的少数类分类精度. 可见,ECUA 算法适用于少数类数据价值大、对少数类数据分类精度要求特别高的情况. 4 结论在融合聚类方法、欠采样方法和集成学习方法的基础上,提出一种基于聚类欠采样的集成不均衡数据 ·1250·

<<向上翻页向下翻页>>

点击下载：基于聚类欠采样的集成不均衡数据分类算法