正在加载图片...
·894· 智能系统学报 第14卷 有了一定的提高,当不平衡比率较大时,SVM的 对于数据集Haberman、Ecoli和waveform,本 分类效果会变得较差,DEC算法虽然考虑了数据 文算法的Gm值平均提高了2%左右,但是在数 的不平衡性,但没能很好地考虑到样本点的分布 据集Yeast和Vowel上,由于节点之间的关联信 情况,本文算法则较好地处理了这一问题,对样 息不明显,算法所能挖掘的网络信息受限,对部 本点间有关联特征的数据集如Haberman、Ecoli、 分测试点无法做出正确地判断,没有取得最好 Glass、Imagesegment、wireless和contraceptive本文 的效果,但与SVM、FSVM、DEC、SMOTE和Un- 算法均取得了最优的分类结果。 der-sampling分类方法所取得分类结果相差不 表3数据集信息 大,表明NT-DC算法仍有待改进。对于正负类 Table 3 Dataset information 总样本正类负类属性 不平衡 样本不平衡比率大的数据集,因为本文算法提 数据集 数量 数 数 度 比率 高了少数类分类性能,在Gm值一定的前提下, Haberman 306 81 225 3 2.78 当FP值变大时,Rc值变小,使得Glass、Vow- Ecoli 336 3 259 3.36 el和Yeast数据集上的F-value值有所波动,在处 Glass 214 13 201 10 15.46 理样本点个数较多的数据集如waveform上正 Innosphere 351 126 225 34 1.78 是因为考虑了数据点间的关联信息,所以才表 Yeast 1484 511433 28.10 Vowel 990 90 900 13 ⊙ 现出一定的优越性。综上分析,本文所提算法 wireless 2000 5001500 > J 在考虑到影响不平衡数据分类因素的条件下, Imagesegment 2310 3301980 19 6 表现出良好的分类性能,充分说明了将数据点 waveform 5000 16573343 2 2.02 之间关联特征作为数据分类性能影响因素的合 contraceptive 1473 333 1140 9 3.42 理性。 表4少数类分类结果 Table 4 The classification result of minority class 数据集 SVM FSVM DEC SMOTE Under-sampling NT-IDC Haberman 0.1989 0.4338 0.4346 0.5074 0.6010 0.6972 Ecoli 0.8087 0.8967 0.9083 0.9342 0.9483 0.9478 Glass 0.7288 0.7667 0.8337 0.9000 0.8667 0.9772 Innosphere 0.8332 0.8338 0.8403 0.8566 0.8425 0.8807 Yeast 0.4013 0.4919 0.8036 0.7956 0.8259 0.8218 Vowel 0.9112 0.9000 0.9467 0.9013 0.9612 0.9778 wireless 0.9640 0.9640 0.9720 0.9720 0.9660 0.9720 Imagesegment 0.9896 0.9911 0.9909 1.0000 1.0000 1.0000 waveform 0.8343 0.8248 0.7917 0.7892 0.7978 0.8668 contraceptive 0.3874 0.3272 0.5012 0.4801 0.5469 0.5885 表5数据集在不同算法下的分类结果 Table 5 The classification results of datasets under different algorithms 数据集 指标 SVM FSVM DEC SMOTE Under-sampling NT-IDC Haberman Gm 0.4213 0.5961 0.6314 0.6393 0.6496 0.6787 F-value 0.3126 0.4702 0.4698 0.4968 0.5233 0.5337 Ecoli Gm 0.8914 0.9257 0.9111 0.9395 0.9360 0.9580 F-value 0.8041 0.8800 0.8634 0.8867 0.8662 0.9243 Glass Gm 0.8346 0.8576 0.9113 0.9328 0.9309 0.9407 F-value 0.7314 0.7076 0.7457 0.8114 0.7619 0.7318 Innosphere Gm 0.9040 0.8941 0.8923 0.9066 0.8894 0.9173有了一定的提高,当不平衡比率较大时,SVM 的 分类效果会变得较差,DEC 算法虽然考虑了数据 的不平衡性,但没能很好地考虑到样本点的分布 情况,本文算法则较好地处理了这一问题,对样 本点间有关联特征的数据集如 Haberman、Ecoli、 Glass、Imagesegment、wireless 和 contraceptive 本文 算法均取得了最优的分类结果。 表 3 数据集信息 Table 3 Dataset information 数据集 总样本 数量 正类 数 负类 数 属性 度 不平衡 比率 Haberman 306 81 225 3 2.78 Ecoli 336 77 259 8 3.36 Glass 214 13 201 10 15.46 Innosphere 351 126 225 34 1.78 Yeast 1 484 51 1 433 8 28.10 Vowel 990 90 900 13 10 wireless 2 000 500 1 500 7 3 Imagesegment 2 310 330 1 980 19 6 waveform 5 000 1 657 3 343 21 2.02 contraceptive 1 473 333 1 140 9 3.42 对于数据集 Haberman、Ecoli 和 waveform,本 文算法的 Gm 值平均提高了 2% 左右,但是在数 据集 Yeast 和 Vowel 上,由于节点之间的关联信 息不明显,算法所能挖掘的网络信息受限,对部 分测试点无法做出正确地判断,没有取得最好 的效果,但与 SVM、FSVM、DEC、SMOTE 和 Un￾der-sampling 分类方法所取得分类结果相差不 大,表明 NT-IDC 算法仍有待改进。对于正负类 样本不平衡比率大的数据集,因为本文算法提 高了少数类分类性能,在 Gm 值一定的前提下, 当 FP 值变大时,Rc 值变小,使得 Glass、 Vow￾el 和 Yeast 数据集上的 F-value 值有所波动,在处 理样本点个数较多的数据集如 waveform 上正 是因为考虑了数据点间的关联信息,所以才表 现出一定的优越性。综上分析,本文所提算法 在考虑到影响不平衡数据分类因素的条件下, 表现出良好的分类性能,充分说明了将数据点 之间关联特征作为数据分类性能影响因素的合 理性。 表 4 少数类分类结果 Table 4 The classification result of minority class 数据集 SVM FSVM DEC SMOTE Under-sampling NT-IDC Haberman 0.198 9 0.433 8 0.434 6 0.507 4 0.601 0 0.697 2 Ecoli 0.808 7 0.896 7 0.908 3 0.934 2 0.948 3 0.947 8 Glass 0.728 8 0.766 7 0.833 7 0.900 0 0.866 7 0.977 2 Innosphere 0.833 2 0.833 8 0.840 3 0.856 6 0.842 5 0.880 7 Yeast 0.401 3 0.491 9 0.803 6 0.795 6 0.825 9 0.821 8 Vowel 0.911 2 0.900 0 0.946 7 0.901 3 0.961 2 0.977 8 wireless 0.964 0 0.964 0 0.972 0 0.972 0 0.966 0 0.972 0 Imagesegment 0.989 6 0.991 1 0.990 9 1.000 0 1.000 0 1.000 0 waveform 0.834 3 0.824 8 0.791 7 0.789 2 0.797 8 0.866 8 contraceptive 0.387 4 0.327 2 0.501 2 0.480 1 0.546 9 0.588 5 表 5 数据集在不同算法下的分类结果 Table 5 The classification results of datasets under different algorithms 数据集 指标 SVM FSVM DEC SMOTE Under-sampling NT-IDC Haberman Gm 0.421 3 0.596 1 0.631 4 0.639 3 0.649 6 0.678 7 F-value 0.312 6 0.470 2 0.469 8 0.496 8 0.523 3 0.533 7 Ecoli Gm 0.891 4 0.925 7 0.911 1 0.939 5 0.936 0 0.958 0 F-value 0.804 1 0.880 0 0.863 4 0.886 7 0.866 2 0.924 3 Glass Gm 0.834 6 0.857 6 0.911 3 0.932 8 0.930 9 0.940 7 F-value 0.731 4 0.707 6 0.745 7 0.811 4 0.761 9 0.731 8 Innosphere Gm 0.904 0 0.894 1 0.892 3 0.906 6 0.889 4 0.917 3 ·894· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有