正在加载图片...
·870· 智能系统学报 第12卷 1.0 7和8中可以观察到,DS-SMOTE没有消除在两类 的极端不平衡时对Precision、F-value值的影响;G- mean值作为非平衡数据整体分类性能的评价指标, 0.2 往往能够指示一个方法在非平衡数据集的分类性能 好坏,表9显示出DS-SMOTE算法在大部分的数据 C4.5 SMOTE borderline DS SMOTE +C4.5 SM0TE+C4.5+C4.5 集上的G-mean值有显著的优势,说明本文提出的 statimage -量-Thoracic 一*-thyroid ±—parkinsons 算法在这些数据集上有较好的总体分类性能。 米一LPD 。-Germany 1.0 Echocardiogram -Tic diabetis ◆-ionosphere 0.8 votes 0.6 图3少数类准确率变化曲线图 0.4 Fig.3 The variation curve for TPR of min 0.2 1.00 C4.5 SMOTE borderline DS SMOTE 0.95 +C4.5SM0TE+C4.5+C4.5 0.90 ◆-statimage 鲁-Thoracic -thyroid t一parkinsons 0. 0则 米一LPD Germany Echocardiogram -Tic 0.75 diabetis ◆-ionosphere 量-votes 0.70 C4.5 SMOTE borderline DS SMOTE +C4.5 SMOTE+C4.5 +C45 图6F-value变化曲线图 ◆-statimage -Thoracic -*-thyroid -parkinsons Fig.6 The variation curve of F-value X一LPD 。-Germany 1.0 -Echocardiogram -TIc 0.9 diabetis ◆-ionosphere ■-votes 0.8 07 图4多数类准确率变化曲线图 0.6 0.5 Fig.4 The variation curve for TNR of major 0.4 0.3 1.0 C4.5 SMOTE borderline DS SMOTE +C4.5 SMOTE+C45 +C4.5 0.8 ◆statimage -Thoracic 0.6 thyroid parkinsons 0.4 米一PD ◆-Germany _Echocardiogram -Tic 0.2 diabetis ◆-ionosphere 0 -votes C4.5 SMOTE borderline DS SMOTE +C4.5SM0TE+C4.5+C4.5 图7G-mean变化曲线图 statimage -量-Thoracic -thyroid --parkinsons Fig.7 The variation curve of G-mean ¥—LPD 。-Germany 表5少数类准确率 Echocardiogram -1c diabetis ◆-ionosphere Table 5 The TPR of min votes 图5准确率变化曲线图 数据集 SMOTE+Borderline DS-SMOTE+ C4.5 C4.5 SMOTE+C4.5 C4.5 Fig.5 The variation curve of precision statimage 0.25140.2480 0.2453 0.3246 在表5中,大部分数据集在DS-SMOTE算法处 Thoracic 0.14360.2129 0.2771 0.3231 理后分类的TNR值大于使用SMOTE算法与Bor- thyroid 0.61320.8267 0.9857 0.9300 parkinsons 0.668 3 0.5074 0.7336 0.7148 derline-.SMOTE算法,对于少数类样本绝对稀少、非 ILPD 0.41310.3488 0.4033 0.4715 平衡程度较大的数据集statimage、thyroid和par- Germany 0.43130.3497 0.4699 0.5669 kinsons分类效果较差,表明在处理少数类绝对稀少 Echocardiogram 0.816 7 0.854 8 0.8525 0.8669 的非平衡类分类问题中,DS-SMOTE算法仍有待改 Tic 0.72360.5600 0.8346 0.9043 进:表6中多数类样本的分类精度保持较高,可见 diabetis 0.66000.5691 0.5470 0.7177 DS-SMOTE算法在保证多数类分类准确率的前提 ionosphere 0.781 4 0.6106 0.8052 0.8348 下对少数类的分类准确率有一定程度的改善;在表 votes 0.95010.8973 0.8346 0.9657在表 5 中,大部分数据集在 DS-SMOTE 算法处 理后分类的 TNR 值大于使用 SMOTE 算法与 Bor￾derline-SMOTE 算法,对于少数类样本绝对稀少、非 平衡程度较大的数据集 statimage 、thyroid 和 par￾kinsons 分类效果较差,表明在处理少数类绝对稀少 的非平衡类分类问题中,DS-SMOTE 算法仍有待改 进;表 6 中多数类样本的分类精度保持较高,可见 DS-SMOTE 算法在保证多数类分类准确率的前提 下对少数类的分类准确率有一定程度的改善;在表 7 和 8 中可以观察到,DS-SMOTE 没有消除在两类 的极端不平衡时对 Precision、F-value 值的影响;G￾mean 值作为非平衡数据整体分类性能的评价指标, 往往能够指示一个方法在非平衡数据集的分类性能 好坏,表 9 显示出 DS-SMOTE 算法在大部分的数据 集上的 G-mean 值有显著的优势,说明本文提出的 算法在这些数据集上有较好的总体分类性能。 0 0.2 0.4 0.6 0.8 1.0 C4.5 SMOTE +C4.5 borderline _SMOTE+C4.5 DS_SMOTE +C4.5 TPR of Min statimage Thoracic thyroid parkinsons ILPD Germany Echocardiogram Tic diabetis ionosphere votes 图 3 少数类准确率变化曲线图 Fig. 3 The variation curve for TPR of min C4.5 SMOTE +C4.5 borderline _SMOTE+C4.5 DS_SMOTE +C4.5 statimage Thoracic thyroid parkinsons ILPD Germany Echocardiogram Tic diabetis ionosphere votes 0.70 0.75 0.80 0.85 0.90 0.95 1.00 TNR of Maj 图 4 多数类准确率变化曲线图 Fig. 4 The variation curve for TNR of major statimage Thoracic thyroid parkinsons ILPD Germany Echocardiogram Tic diabetis ionosphere votes C4.5 SMOTE +C4.5 borderline _SMOTE+C4.5 DS_SMOTE +C4.5 0 0.2 0.4 0.6 0.8 1.0 ۲⶚⢳ 图 5 准确率变化曲线图 Fig. 5 The variation curve of precision statimage Thoracic thyroid parkinsons ILPD Germany Echocardiogram Tic diabetis ionosphere votes C4.5 SMOTE +C4.5 borderline _SMOTE+C4.5 DS_SMOTE +C4.5 0 0.2 0.4 0.6 0.8 1.0 F-value 图 6 F-value 变化曲线图 Fig. 6 The variation curve of F-value statimage Thoracic thyroid parkinsons ILPD Germany Echocardiogram Tic diabetis ionosphere votes C4.5 SMOTE +C4.5 borderline _SMOTE+C4.5 DS_SMOTE +C4.5 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 G-mean 图 7 G-mean 变化曲线图 Fig. 7 The variation curve of G-mean 表 5 少数类准确率 Table 5 The TPR of min 数据集 C4.5 SMOTE+ C4.5 Borderline_ SMOTE+C4.5 DS-SMOTE+ C4.5 statimage 0.251 4 0.248 0 0.245 3 0.324 6 Thoracic 0.143 6 0.212 9 0.277 1 0.323 1 thyroid 0.613 2 0.826 7 0.985 7 0.930 0 parkinsons 0.668 3 0.507 4 0.733 6 0.714 8 ILPD 0.413 1 0.348 8 0.403 3 0.471 5 Germany 0.431 3 0.349 7 0.469 9 0.566 9 Echocardiogram 0.816 7 0.854 8 0.852 5 0.866 9 Tic 0.723 6 0.560 0 0.834 6 0.904 3 diabetis 0.660 0 0.569 1 0.547 0 0.717 7 ionosphere 0.781 4 0.610 6 0.805 2 0.834 8 votes 0.950 1 0.897 3 0.834 6 0.965 7 ·870· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有