武森等: 基于聚类欠采样的集成不均衡数据分类算法 MAGIC Gamma

正在加载图片...

武森等：基于聚类欠采样的集成不均衡数据分类算法 ·1247· MAGIC Gamma telescope(以下简称magic). 本.其中少数类数据样本有6688个，多数类数据样本 ecoli数据集有8个属性，包含336个数据样本. 有12332个.少数类样本与多数类样本数量的比例约 ecoli数据集为多分类数据集，共8个类，各类数据个数为1：1.84. 如表1所示. 2.2实验评价指标说明表1 Ecoli数据集类别信息不均衡数据分类的常用性能指标说明如下. Table 1 Ecoli data set categories 定义在不均衡数据集中少数类（正类）样本为P, 多数类（负类）样本为N,混淆矩阵如表2所示. 类别数量 cp (cytoplasm) 143 表2混淆矩阵 im (inner membrane without signal sequence) 77 Table 2 Confusion matrix Pp(perisplasm) 2 类别预测多数类（负类）预测少数类（正类） imU inner membrane,uncleavable signal sequence) 5 真实多数类（负类） TN FP om (outer membrane) 20 真实少数类（正类） FN TP omL.outer membrane lipoprotein) 5 基于混淆矩阵计算的性能指标如公式(1)~公式 imL.inner membrane lipoprotein) 3 (6)所示，分别为真正率(TPR,也称召回率Recall)、真 imS inner membrane,cleavable signal sequence) 负率(TNR,也称特异度Sp)、假正率(FPR)、假负率由于本文研究二分类问题，所以对ecoli数据集进 (FNR)、查准率(Precision)、分类精度(Acc). TP 行处理.根据ecoli数据集类多的特点，设定cp类为少 TPR=TP+FN' (1) 数类，共143个数据样本；其余类为多数类，共193个 TN 数据样本.ecoli数据集中少数类样本与多数类样本数 TNR =TN +FP' (2) 量的比例约为1：1.35. FP (3) pima数据集有8个属性，包含768个数据样本. FPR=TN +FP' pima数据集为二分类数据集，其中多数类数据有500 FN 个，少数类数据有268个.pima数据集有一些数据样 FNR=TP +FN' (4) 本的某些属性值缺失，分别以两类数据中该属性值完 TP Precision=TP+FP' (5) 整的数据样本的平均属性值填补.即如果某数据样本 TN+TP 是多数类数据，则该数据样本缺失的属性值以多数类数据中该属性值完整的数据的平均值填补：如果某数 Acc =TN +TP+FP+FN' (6) F值(F-measure)由查准率(Precision)和召回率据样本是少数类数据，则该数据样本缺失的属性值以 (Recall)两个分类器评价指标共同决定，如式(7)所少数类数据中该属性值完整的数据的平均值填补.p- 示，当B=1时，表示该评价指标中查准率与召回率同 ma数据集中少数类与多数类样本数量的比例约为1：样重要，也是常用的F1评价指标，其计算公式如式 1.87. (8),是查准率和召回率的调和平均数.G-mean可以 blo0d数据集有5个属性，包含748个数据样本. 看作是少数类分类精度和多数类分类精度的几何平均其中少数类数据样本有178个，多数类有570个.少数，如式(9)所示数类样本与多数类样本数量的比例约为1：3.20. (1+B2)x Precision x Recall haberman数据集有3个属性，包含306个数据样 F-measure= (7) B2x(Precision Recall)' 本.其中少数类数据样本有81个，多数类数据样本有 F1=2x Precision x Recall 225个.少数类样本与多数类样本数量的比例约为1： Precision Recall (8) 2.78. TN TP wpbc数据集有34个属性值，包含194个数据样 G-mean √TN+Fp×√P+FN (9) 本.本文在利用wpbC数据集进行实验的时候，删除与 3 ECUA实验及结果分析分类关系不大的身份证号码和时间属性数据，保留其余32个属性信息以及wpbc数据集的分类标号.wpbc 在对ECUA算法进行实验时，采用交叉验证的方数据集中少数类样本有46个，多数类样本有148个，法，按照1：10的比例对数据集进行随机分割，然后计少数类样本与多数类样本数量的比例约为1：3.22. 算出分类算法的性能指标TPR(Recall)、FPR、TNR、 magic数据集有11个属性，包含19020个数据样 FNR、Precision、Fl、AUC、G-mean.并与分类算法Deci-武森等: 基于聚类欠采样的集成不均衡数据分类算法 MAGIC Gamma telescope(以下简称 magic). ecoli 数据集有 8 个属性,包含 336 个数据样本. ecoli 数据集为多分类数据集,共8 个类,各类数据个数如表 1 所示. 表 1 Ecoli 数据集类别信息 Table 1 Ecoli data set categories 类别数量 cp (cytoplasm) 143 im (inner membrane without signal sequence) 77 pp (perisplasm) 52 imU (inner membrane, uncleavable signal sequence) 35 om (outer membrane) 20 omL (outer membrane lipoprotein) 5 imL (inner membrane lipoprotein) 2 imS (inner membrane, cleavable signal sequence) 2 由于本文研究二分类问题,所以对 ecoli 数据集进行处理. 根据 ecoli 数据集类多的特点,设定 cp 类为少数类,共 143 个数据样本;其余类为多数类,共 193 个数据样本. ecoli 数据集中少数类样本与多数类样本数量的比例约为 1颐 1郾 35. pima 数据集有 8 个属性,包含 768 个数据样本. pima 数据集为二分类数据集,其中多数类数据有 500 个,少数类数据有 268 个. pima 数据集有一些数据样本的某些属性值缺失,分别以两类数据中该属性值完整的数据样本的平均属性值填补. 即如果某数据样本是多数类数据,则该数据样本缺失的属性值以多数类数据中该属性值完整的数据的平均值填补;如果某数据样本是少数类数据,则该数据样本缺失的属性值以少数类数据中该属性值完整的数据的平均值填补. pi鄄 ma 数据集中少数类与多数类样本数量的比例约为 1颐 1郾 87. blood 数据集有 5 个属性,包含 748 个数据样本. 其中少数类数据样本有 178 个,多数类有 570 个. 少数类样本与多数类样本数量的比例约为 1颐 3郾 20. haberman 数据集有 3 个属性,包含 306 个数据样本. 其中少数类数据样本有 81 个,多数类数据样本有 225 个. 少数类样本与多数类样本数量的比例约为 1颐 2郾 78. wpbc 数据集有 34 个属性值,包含 194 个数据样本. 本文在利用 wpbc 数据集进行实验的时候,删除与分类关系不大的身份证号码和时间属性数据,保留其余 32 个属性信息以及 wpbc 数据集的分类标号. wpbc 数据集中少数类样本有 46 个,多数类样本有 148 个, 少数类样本与多数类样本数量的比例约为 1颐 3郾 22. magic 数据集有 11 个属性,包含 19020 个数据样本. 其中少数类数据样本有 6688 个,多数类数据样本有 12332 个. 少数类样本与多数类样本数量的比例约为 1颐 1郾 84. 2郾 2 实验评价指标说明不均衡数据分类的常用性能指标说明如下. 定义在不均衡数据集中少数类(正类)样本为 P, 多数类(负类)样本为 N,混淆矩阵如表 2 所示. 表 2 混淆矩阵 Table 2 Confusion matrix 类别预测多数类(负类) 预测少数类(正类) 真实多数类(负类) TN FP 真实少数类(正类) FN TP 基于混淆矩阵计算的性能指标如公式(1) ~ 公式 (6)所示,分别为真正率(TPR,也称召回率 Recall)、真负率( TNR,也称特异度 Sp)、假正率( FPR)、假负率 (FNR)、查准率(Precision)、分类精度(Acc). TPR = TP TP + FN , (1) TNR = TN TN + FP , (2) FPR = FP TN + FP , (3) FNR = FN TP + FN , (4) Precision = TP TP + FP , (5) Acc = TN + TP TN + TP + FP + FN . (6) F 值( F鄄measure) 由查准率( Precision) 和召回率 (Recall)两个分类器评价指标共同决定,如式(7) 所示,当茁 = 1 时,表示该评价指标中查准率与召回率同样重要,也是常用的 F1 评价指标,其计算公式如式 (8),是查准率和召回率的调和平均数. G鄄mean 可以看作是少数类分类精度和多数类分类精度的几何平均数,如式(9)所示. F鄄measure = (1 + 茁 2 ) 伊 Precision 伊 Recall 茁 2 伊 (Precision + Recall) , (7) F1 = 2 伊 Precision 伊 Recall Precision + Recall , (8) G鄄mean = TN TN + FP 伊 TP TP + FN . (9) 3 ECUA 实验及结果分析在对 ECUA 算法进行实验时,采用交叉验证的方法,按照 1颐 10 的比例对数据集进行随机分割,然后计算出分类算法的性能指标 TPR(Recall)、FPR、TNR、 FNR、Precision、F1、AUC、G鄄mean. 并与分类算法 Deci鄄 ·1247·

<<向上翻页向下翻页>>

点击下载：基于聚类欠采样的集成不均衡数据分类算法