正在加载图片...
第12期 翟云等:基于协同进化机制的欠采样方法 ·1555· 94F (a) 5% 75% *工75% 509 25% 25% -means TP-rate TN-rate G-means TP-rate TN-rate G-means 性能指标 性能指标 4 (C) (d) 759 75% 0 75% 25% 50% % 50% 25% 25% TP-nte TN-rate G-means 84 G-means TP-rate TN-rate G-means TP-rate TN-rate G-means 性能指标 性能指标 94 5% 75% 5 90 75% 25 75% 86 50% TP-rate TN-rate 25% G-means 84 means TP-rate TN-rate G-means TP-rate TN-rate G-means 性能指标 性能指标 图3对分类精度的影响.(a)=4/5:(b)x=2/3;(c)a=12:(d)a=1/3:(e)a°=1/4:(f0a°=1/5 Fig.3 Effect of a'on accuracy:(a)a'=4/5:(b)a'=2/3:(c)a'=1/2:(d)a'=1/3:(e)a'=1/4:(f)a=1/5 3.4性能比较 SMOTE.这主要是由于Flag数据集中正样本数量太 为更好地体现对比实验的有效性,用UMCCM 少,仅靠随机欠采样方法无法为分类器提供足够信 与合成少数类样本过采样技术(synthetic minority 息,故分类器性能有限;而SMOTE通过合成少数类 over-sampling technique,SMOTE)、随机欠采样技术 样本,为分类器提供较多分类特征,因此分类性能得 (random under-resample,RUR)这两种经典的重采 到一定程度提升.German数据集非平衡度较小,正 样技术进行了比较.实验利用WEKA回实验平台, 负样本数量差距不大,该情况下RUR与SMOTE性 采用C4.5基分类器,SMOTE采样过程中,knn参数 能接近.UMCCM在四个数据集中性能稳定,波动较 (近邻数k)设为5,性能比较指标采用ROC曲线. 小,且均优于SMOTE和RUR这两种传统的重采样 为减少冗余特征和噪声对分类精度的影响,对Flag、 技术,从而体现出UMCCM的有效性与先进性. German、Nursery和Satimage四个数据集均择取八个 3.5噪声对分类性能的影响 相关特征,并利用过滤器清除了噪声数据).实验 为比较分类器鲁棒性能,采用文献14]的方法 结果如图4所示 按不同噪声测度γy在数据集中增加噪声,按照y= 可见:在Flag数据集上,SMOTE优于RUR;在 0%,y=5%,y=10%和y=15%不同噪声测度标 German数据集上,RUR与SMOTE性能差距甚微; 准,分别独立进行十次十交叉实验,结果如表2所 在Nursery和Satimage数据集上,RUR均优于 示.表2中,每个数字单元格内容为对应行的算法第 12 期 翟 云等: 基于协同进化机制的欠采样方法 图 3 α'对分类精度的影响. ( a) α' = 4 /5; ( b) α' = 2 /3; ( c) α' = 1 /2; ( d) α' = 1 /3; ( e) α' = 1 /4; ( f) α' = 1 /5 Fig. 3 Effect of α' on accuracy: ( a) α' = 4 /5; ( b) α' = 2 /3; ( c) α' = 1 /2; ( d) α' = 1 /3; ( e) α' = 1 /4; ( f) α' = 1 /5 3. 4 性能比较 为更好地体现对比实验的有效性,用 UMCCM 与合成少数类样本过采样技术( synthetic minority over-sampling technique,SMOTE) 、随机欠采样技术 ( random under-resample,RUR) 这两种经典的重采 样技术进行了比较. 实验利用 WEKA[12]实验平台, 采用 C4. 5 基分类器,SMOTE 采样过程中,knn 参数 ( 近邻数 k) 设为 5,性能比较指标采用 ROC 曲线. 为减少冗余特征和噪声对分类精度的影响,对 Flag、 German、Nursery 和 Satimage 四个数据集均择取八个 相关特征,并利用过滤器清除了噪声数据[13]. 实验 结果如图 4 所示. 可见: 在 Flag 数据集上,SMOTE 优于 RUR; 在 German 数据集上,RUR 与 SMOTE 性能差距甚微; 在 Nursery 和 Satimage 数 据 集 上,RUR 均 优 于 SMOTE. 这主要是由于 Flag 数据集中正样本数量太 少,仅靠随机欠采样方法无法为分类器提供足够信 息,故分类器性能有限; 而 SMOTE 通过合成少数类 样本,为分类器提供较多分类特征,因此分类性能得 到一定程度提升. German 数据集非平衡度较小,正 负样本数量差距不大,该情况下 RUR 与 SMOTE 性 能接近. UMCCM 在四个数据集中性能稳定,波动较 小,且均优于 SMOTE 和 RUR 这两种传统的重采样 技术,从而体现出 UMCCM 的有效性与先进性. 3. 5 噪声对分类性能的影响 为比较分类器鲁棒性能,采用文献[14]的方法 按不同噪声测度 γ 在数据集中增加噪声,按照 γ = 0% ,γ = 5% ,γ = 10% 和 γ = 15% 不同噪声测度标 准,分别独立进行十次十交叉实验,结果如表 2 所 示. 表 2 中,每个数字单元格内容为对应行的算法 ·1555·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有