正在加载图片...
868 工程科学学报,第43卷.第6期 在Wine数据集上,采用SMOTE算法得到的F- 本;此外,其分类结果在其他数据集上表现也并 value均值和G-mean均值更高一些,但是RBNR 不好.④由于每次都随机产生训练集和测试集, 算法的结果与之非常接近且更稳定(标准差最 从多次重复训练的结果来看,本文所提算法在多 低),并且SMOTE算法得到的重采样数据集规模 次交叉验证中所得Rc、F-value和G-mean值的标 会很大,冗余数据给后续的分类器处理过程带来 准差大部分都是最低的(在个别不是最低的情况 了较大的开销.③在Regulator数据集上,采用 下也与最低值相差很小),说明算法性能较为稳 RU-SMOTE算法得到的Rc均值最高,但是其标 定,在整体上具有更为优良的性能.⑤在数据规 准差也是最高的,说明该算法的稳定性较差;而 模相当的情况下,RBNR普遍优于RU-SMOTE和 且RU-SMOTE算法在Regulator数据集上取得的 BMS算法,且RBNR算法在某些数据集(Diabetes、 F-value均值和G-mean均值均为最低,说明该算 Glass)上优势显著 法在提高少数类样本召回率的前提下没能兼顾 为了更直观的进行对比,将表4中的Rc、F-value 到多数类,可能随机删除了一些重要的多数类样 和G-mean值绘制了柱状图,如图5. SMOTE BMS SMOTE ▣BMS SMOTE ▣BMS ▣RU.SMOTE ☐RBNR ☐RU-SMOTE ☐RBNR ☐RU-SMOTE ☐RBNR 1.0 1.0 1.0 0.9 09 0.9 0.8 08 0.8 0.7 anjeA-d 0.7 0.7 0.6 6 0.6 0.5 0.5 0.5 (a) (b) 0.4 0.4 CTG Diabetes Regulator CTG Regulator CTG lato Data set Data set Data set 图5结果对比柱状图.(a)Rc值对比:(b)F-vaue值对比:(c)G-mean值对比 Fig.5 Bar graph of result comparison:(a)comparison of Rc;(b)comparison of F-value;(c)comparison of G-mean 从整体来看,RBNR算法是明显优于其他算法 数据不平衡问题进行研究 的,其分类效果也更为稳定 参考文献 4结论 [1]Chen S.He H B.Garcia E A.RAMOBoost:Ranked minority 数据挖掘领域的研究者们提出了大量的重采 oversampling in boosting.IEEE Trans Neural Networks,2010. 样算法用于解决数据集非平衡问题,而这一问题 21(10):1624 的关键就在于如何使得重采样之后的新数据集更 [2]Xiao Y C,Wang H G,Zhang L,et al.Two methods of selecting 接近真实的样本分布,因此本文提出了一种基于 Gaussian kernel parameters for one-class SVM and their application to fault detection.Knowledge-Based Syst,2014,59:75 空间近邻关系的混合重采样算法RBNR来解决这 [3] Miao Z M,Zhao L W,Yuan W W,et al.Multi-class imbalanced 一问题.实验表明,以KELM作为分类器,Rc、F- learning implemented in network intrusion detection /2011 value和G-mean作为评价指标,RBNR的总体性能 International Conference on Computer Science and Service System 优于SMOTE、RU-SMOTE和BMS算法.这是由 (CSSS).Nanjing.2011:1395 于RBNR算法通过计算安全级别.以一种更接近 [4] Smailovic J,Grear M,Lavrac N,et al.Stream-based active 少数样本原始分布的方式指导升采样,而不是像 leamning for sentiment analysis in the financial domain.Inform Sci, SMOTE算法一样随机扩充数据,也不像BMS算 2014,28:181 法一样只扩充边界少数类(事实上这种方法更容 [5]Liu Y Q,Wang C,Zhang L.Decision tree based predictive models for breast cancer survivability on imbalanced data /2009 3rd 易引入噪声).通过计算局部密度,约简多数类样 International Conference on Bioinformatics and Biomedical 本密集区域,从而更加合理的控制了数据规模.这 Engineering.Beijing,2009:1 种根据空间近邻关系视情处理的方式,可以更加 [6] Gao M Z,Xu A Q,Xu Q.Fault detection method of electronic 有效地均衡化原始数据集.本文存在的不足在于 equipment based on SL-SMOTE and CS-RVM.Comput Eng Appl, 只是针对二分类问题,后续将针对多类分类中的 2019,55(4):185在 Wine 数据集上 ,采 用 SMOTE 算法得到 的 F￾value 均值和 G-mean 均值更高一些,但是 RBNR 算法的结果与之非常接近且更稳定(标准差最 低),并且 SMOTE 算法得到的重采样数据集规模 会很大,冗余数据给后续的分类器处理过程带来 了较大的开销 . ③在 Regulator 数据集上 ,采 用 RU-SMOTE 算法得到的 RC 均值最高,但是其标 准差也是最高的,说明该算法的稳定性较差;而 且 RU-SMOTE 算法在 Regulator 数据集上取得的 F-value 均值和 G-mean 均值均为最低,说明该算 法在提高少数类样本召回率的前提下没能兼顾 到多数类,可能随机删除了一些重要的多数类样 本;此外,其分类结果在其他数据集上表现也并 不好. ④由于每次都随机产生训练集和测试集, 从多次重复训练的结果来看,本文所提算法在多 次交叉验证中所得 RC、F-value 和 G-mean 值的标 准差大部分都是最低的(在个别不是最低的情况 下也与最低值相差很小),说明算法性能较为稳 定,在整体上具有更为优良的性能. ⑤在数据规 模相当的情况下,RBNR 普遍优于 RU-SMOTE 和 BMS 算法,且 RBNR 算法在某些数据集(Diabetes、 Glass)上优势显著. 为了更直观的进行对比,将表 4 中的 RC、F-value 和 G-mean 值绘制了柱状图,如图 5. 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (a) RC CTG F-value G-mean 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (b) CTG 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (c) CTG 图 5 结果对比柱状图. (a)RC 值对比;(b)F-value 值对比;(c)G-mean 值对比 Fig.5 Bar graph of result comparison: (a) comparison of RC; (b) comparison of F-value; (c) comparison of G-mean 从整体来看,RBNR 算法是明显优于其他算法 的,其分类效果也更为稳定. 4    结论 数据挖掘领域的研究者们提出了大量的重采 样算法用于解决数据集非平衡问题,而这一问题 的关键就在于如何使得重采样之后的新数据集更 接近真实的样本分布,因此本文提出了一种基于 空间近邻关系的混合重采样算法 RBNR 来解决这 一问题. 实验表明,以 KELM 作为分类器,RC、F￾value 和 G-mean 作为评价指标,RBNR 的总体性能 优于 SMOTE、RU-SMOTE 和 BMS 算法. 这是由 于 RBNR 算法通过计算安全级别,以一种更接近 少数样本原始分布的方式指导升采样,而不是像 SMOTE 算法一样随机扩充数据,也不像 BMS 算 法一样只扩充边界少数类(事实上这种方法更容 易引入噪声). 通过计算局部密度,约简多数类样 本密集区域,从而更加合理的控制了数据规模. 这 种根据空间近邻关系视情处理的方式,可以更加 有效地均衡化原始数据集. 本文存在的不足在于 只是针对二分类问题,后续将针对多类分类中的 数据不平衡问题进行研究. 参    考    文    献 Chen S, He H B, Garcia E A. RAMOBoost: Ranked minority oversampling in boosting. IEEE Trans Neural Networks, 2010, 21(10): 1624 [1] Xiao Y C, Wang H G, Zhang L, et al. Two methods of selecting Gaussian kernel parameters for one-class SVM and their application to fault detection. Knowledge-Based Syst, 2014, 59: 75 [2] Miao Z M, Zhao L W, Yuan W W, et al. Multi-class imbalanced learning implemented in network intrusion detection // 2011 International Conference on Computer Science and Service System (CSSS). Nanjing, 2011: 1395 [3] Smailović J, Grčar M, Lavrač N, et al. Stream-based active learning for sentiment analysis in the financial domain. Inform Sci, 2014, 285: 181 [4] Liu Y Q, Wang C, Zhang L. Decision tree based predictive models for breast cancer survivability on imbalanced data // 2009 3rd International Conference on Bioinformatics and Biomedical Engineering. Beijing, 2009: 1 [5] Gao M Z, Xu A Q, Xu Q. Fault detection method of electronic equipment based on SL-SMOTE and CS-RVM. Comput Eng Appl, 2019, 55(4): 185 [6] · 868 · 工程科学学报,第 43 卷,第 6 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有