工程科学学报 Chinese Journal of Engineering 基于空间近邻关系的非平衡数据重采样算法 李睿峰李文海孙艳丽吴阳勇 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng,LI Wen-hai,SUN Yan-li.WU Yang-yong 引用本文: 李睿峰,李文海,孙艳丽,吴阳勇.基于空间近邻关系的非平衡数据重采样算法).工程科学学报,2021,43(6:862-869.doi: 10.13374j.issn2095-9389.2020.04.05.002 LI Rui-feng,LI Wen-hai,SUN Yan-li,WU Yang-yong.Resampling algorithm for imbalanced data based on their neighbor relationship[J].Chinese Journal of Engineering,2021,43(6):862-869.doi:10.13374/j.issn2095-9389.2020.04.05.002 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2020.04.05.002 您可能感兴趣的其他文章 Articles you may be interested in 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报.2017,398:1244htps:1doi.org10.13374.issn2095-9389.2017.08.015 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报.2020.42(9:1209 https:/doi.org10.13374.issn2095-9389.2019.10.09.003 基于软超球体的高维非线性数据异常点识别算法 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear data 工程科学学报.2017,3910:1552htps1doi.0rg/10.13374j.issn2095-9389.2017.10.014 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报.2020,42(4:441 https:ldoi.org10.13374j.issn2095-9389.2019.09.12.007 数据驱动的卷取温度模型参数即时自适应设定算法 Data-driven adaptive setting algorithm for coiling temperature model parameter 工程科学学报.2020,42(6):778 https::/1doi.org/10.13374.issn2095-9389.2019.06.12.002 基于属性值集中度的分类数据聚类有效性内部评价指标 A new internal clustering validation index for categorical data based on concentration of attribute values 工程科学学报.2019,41(⑤):682 https:1doi.org/10.13374issn2095-9389.2019.05.015
基于空间近邻关系的非平衡数据重采样算法 李睿峰 李文海 孙艳丽 吴阳勇 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng, LI Wen-hai, SUN Yan-li, WU Yang-yong 引用本文: 李睿峰, 李文海, 孙艳丽, 吴阳勇. 基于空间近邻关系的非平衡数据重采样算法[J]. 工程科学学报, 2021, 43(6): 862-869. doi: 10.13374/j.issn2095-9389.2020.04.05.002 LI Rui-feng, LI Wen-hai, SUN Yan-li, WU Yang-yong. Resampling algorithm for imbalanced data based on their neighbor relationship[J]. Chinese Journal of Engineering, 2021, 43(6): 862-869. doi: 10.13374/j.issn2095-9389.2020.04.05.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002 您可能感兴趣的其他文章 Articles you may be interested in 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报. 2017, 39(8): 1244 https://doi.org/10.13374/j.issn2095-9389.2017.08.015 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报. 2020, 42(9): 1209 https://doi.org/10.13374/j.issn2095-9389.2019.10.09.003 基于软超球体的高维非线性数据异常点识别算法 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear data 工程科学学报. 2017, 39(10): 1552 https://doi.org/10.13374/j.issn2095-9389.2017.10.014 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报. 2020, 42(4): 441 https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007 数据驱动的卷取温度模型参数即时自适应设定算法 Data-driven adaptive setting algorithm for coiling temperature model parameter 工程科学学报. 2020, 42(6): 778 https://doi.org/10.13374/j.issn2095-9389.2019.06.12.002 基于属性值集中度的分类数据聚类有效性内部评价指标 A new internal clustering validation index for categorical data based on concentration of attribute values 工程科学学报. 2019, 41(5): 682 https://doi.org/10.13374/j.issn2095-9389.2019.05.015
工程科学学报.第43卷.第6期:862-869.2021年6月 Chinese Journal of Engineering,Vol.43,No.6:862-869,June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002;http://cje.ustb.edu.cn 基于空间近邻关系的非平衡数据重采样算法 李睿峰四,李文海,孙艳丽,吴阳勇 海军航空大学.烟台264001 ☒通信作者,E-mail:dongzhil110@foxmail.com 摘要为了提高非平衡数据集的分类精度,提出了一种基于样本空间近邻关系的重采样算法.该方法首先根据数据集中少 数类样本的空间近邻关系进行安全级别评估,根据安全级别有指导的采用合成少数类过采样技术(Synthetic minority oversampling technique,.SMOTE)进行升采样;然后对多数类样本依据其空间近邻关系计算局部密度,从而对多数类样本密集 区域进行降采样处理.通过以上两种手段可以均衡测试数据集,并控制数据规模防止过拟合,实现对两类样本分类的均衡化. 采用十折交叉验证的方式产生训练集和测试集,在对训练集重采样之后,以核超限学习机作为分类器进行训练,并在测试集 上进行验证。在UCI非平衡数据集和电路故障诊断实测数据上的实验结果表明,所提方法在整体上优于其他重采样算法. 关键词非平衡数据:近邻关系;重采样:局部密度;分类 分类号TP206.1 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng.LI Wen-hai.SUN Yan-li,WU Yang-yong Naval Aviation University,Yantai 264001,China Corresponding author,E-mail:dongzhil110@foxmail.com ABSTRACT The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications.The minority samples in such applications usually contain important information.This information plays an important role in data analysis.At present,two methods(improved algorithm and data set reconstruction)are used in machine learning and data mining to address the data set imbalance.Data set reconstruction is also known as the resampling method,which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used.As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information,thus reducing the classification accuracy.A reasonable oversampling and undersampling algorithm are the core of the resampling method.To improve the classification accuracy of imbalanced data sets,a resampling algorithm based on the neighbor relationship of sample space was proposed.This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level.Then,the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area.By the above two means,the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories.The training set and test set were generated via the method of 5 x 10 fold cross validation.After resampling the training set, the kernel extreme learning machine (KELM)was used as the classifier for training,and the test set was used for verification.The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms. 收稿日期:2020-04-05 基金项目:军内科研项目“新一代航空电子装备测试关键技术研究”资助项目(4172122113R)
基于空间近邻关系的非平衡数据重采样算法 李睿峰苣,李文海,孙艳丽,吴阳勇 海军航空大学,烟台 264001 苣通信作者,E-mail:dongzhi1110@foxmail.com 摘 要 为了提高非平衡数据集的分类精度,提出了一种基于样本空间近邻关系的重采样算法. 该方法首先根据数据集中少 数类样本的空间近邻关系进行安全级别评估,根据安全级别有指导的采用合成少数类过采样技术(Synthetic minority oversampling technique,SMOTE)进行升采样;然后对多数类样本依据其空间近邻关系计算局部密度,从而对多数类样本密集 区域进行降采样处理. 通过以上两种手段可以均衡测试数据集,并控制数据规模防止过拟合,实现对两类样本分类的均衡化. 采用十折交叉验证的方式产生训练集和测试集,在对训练集重采样之后,以核超限学习机作为分类器进行训练,并在测试集 上进行验证. 在 UCI 非平衡数据集和电路故障诊断实测数据上的实验结果表明,所提方法在整体上优于其他重采样算法. 关键词 非平衡数据;近邻关系;重采样;局部密度;分类 分类号 TP206.1 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng苣 ,LI Wen-hai,SUN Yan-li,WU Yang-yong Naval Aviation University, Yantai 264001, China 苣 Corresponding author, E-mail: dongzhi1110@foxmail.com ABSTRACT The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications. The minority samples in such applications usually contain important information. This information plays an important role in data analysis. At present, two methods (improved algorithm and data set reconstruction) are used in machine learning and data mining to address the data set imbalance. Data set reconstruction is also known as the resampling method, which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used. As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information, thus reducing the classification accuracy. A reasonable oversampling and undersampling algorithm are the core of the resampling method. To improve the classification accuracy of imbalanced data sets, a resampling algorithm based on the neighbor relationship of sample space was proposed. This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level. Then, the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area. By the above two means, the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories. The training set and test set were generated via the method of 5 × 10 fold cross validation. After resampling the training set, the kernel extreme learning machine (KELM) was used as the classifier for training, and the test set was used for verification. The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms. 收稿日期: 2020−04−05 基金项目: 军内科研项目“新一代航空电子装备测试关键技术研究”资助项目(4172122113R) 工程科学学报,第 43 卷,第 6 期:862−869,2021 年 6 月 Chinese Journal of Engineering, Vol. 43, No. 6: 862−869, June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002; http://cje.ustb.edu.cn
李睿峰等:基于空间近邻关系的非平衡数据重采样算法 863. KEY WORDS imbalanced data;neighbor relationship;resample;local density;classification 非平衡数据的分类问题已经成为当今许多数 免的会导致噪声点增加并损失数据原有信息,从 据密集型应用中一个关键的研究方向,例如信用 而降低分类精度,因此合理的过采样和欠采样 卡欺诈数据冈、网络入侵)、金融工程、生物医学 方法是重采样方法的核心.为了对数据集做有效 数据分析)和设备故障检测等.这类应用中的 的均衡化处理,本文提出了一种基于样本空间近 少数类样本通常蕴含重要的信息,是数据分析的 邻关系的重采样(Resampling based on neighbour 重要目标,其已成为数据挖掘研究的热点之一仞 Relationship,RBNR)方法.本方法首先根据数据集 例如在设备故障检测应用中,不平衡的测试数据 中少数类样本的空间近邻关系进行安全级别评估, 广泛存在,通常正常样本的数据量要远远大于故 根据安全级别有指导的进行SMOTE升采样;然后 障样本图由此导致使用传统的故障诊断方法训练 对多数类样本依据其空间近邻关系计算局部密度, 所得的结果分类器对正常样本产生很高的检测 从而对多数类样本密集区域进行降采样处理.采 率,对故障样本的检测和隔离效果却很差,而故障 用十折交叉验证的方式产生训练集和测试集,在 样本的检测率在故障诊断领域中更有意义,也更 对训练集进行重采样之后,以核超限学习机(Kernel 为重要 extreme learning machine,KELM)2作为分类器进 目前,机器学习和数据挖掘领域针对不平衡 行训练,并在测试集上进行了验证 数据集的处理思路例主要有两大类:改进算法0 以适应非平衡数据集,或者对数据集进行重构山 1基本算法与相关定义 以适应现有的分类算法.改进算法是指在算法层 1.1核超限学习机 面进行改进以适应非平衡学习问题,如代价敏感 学习、支持向量机(Support vector machine, 给定训练集D={(xy,其中x∈Rd表示 训练样本,d∈R表示x;的维数,n为样本总数; SVM)、集成学习)等.通过修改算法中的代价敏 y:=y,…ymJT为与x;对应的理想输出向量,其中 感信息以适应数据不平衡,但也面临着一些问题, m∈R表示y的维数.此时,ELM模型定义为 如修改算法后如何避免分类性能恶化,多类分类 问题的代价敏感信息确定困难等数据集重构 腰+c∑s 也称为重采样方法,它在不修改分类算法的情况 i=1 下修改训练数据集的大小,可容易地应用于任何 s.t.h(xB=y-5i,i=1,2,…,n (1) 分类算法.重采样方法利用少数类样本过采样和 其中,Il和2分别表示矩阵的F范数和向量的 多数类样本欠采样两种手段阿,人为调整实例数 2范数;h(x)=[h(x),…,hu(x]表示隐层神经元对 量来平衡数据集的分布.欠采样主要包括随机欠 输入样本x的映射向量;B=B1,…,T是模型输 抽样6、单边选择忉、近邻清理和基于欧氏距 出权重向量;L代表隐层神经元个数;=[, 离的随机欠抽样9等方法,过采样主要有随机插 2,…,mJT表示对应于x的训练误差;C是正则化 值、先验复制和合成少数类过采样技术P0-别 参数,并且C∈R+ Synthetic minority oversampling technique,SMOTE) 令Y=y1,…,ynJT,基于KKT优化条件求解式 等方法.由于单独采用欠采样方法可能导致样本 (1)的优化问题,可得输出权重: 信息丢失,单独采用过采样方法可能导致分类器 B=HT(C-I+HHT)Y (2) 出现增加时间开销、过拟合现象等问题,于是人们 较多采用混合采样的非均衡数据处理方法).包括 其中,隐层输出矩阵H=[h(x)T,…,h(xn)TT,I表示 谷琼等22提出的一种基于SMOTE-Clustering的混 单位矩阵 合采样算法;冯宏伟等m提出的基于“变异系数” 最终,对于输入z,ELM的输出为: 的边界混合采样方法(Boundary mixed sampling, (3) BMS);陶新民等2]提出的基于随机欠采样 =e=ahr+aHy (Random under--sampling,.RU)与SMOTE相结合的 应用Mercer条件定义核矩阵2=HHT,i,)= SVM算法等 h(x)h(x)T=k(x,x)表示中第i行第j列的元素 由于人为地增加样本或者减少样本都不可避 应用基于核函数的隐式映射代替传统的显式特征
KEY WORDS imbalanced data;neighbor relationship;resample;local density;classification 非平衡数据的分类问题已经成为当今许多数 据密集型应用中一个关键的研究方向[1] ,例如信用 卡欺诈数据[2]、网络入侵[3]、金融工程[4]、生物医学 数据分析[5] 和设备故障检测[6] 等. 这类应用中的 少数类样本通常蕴含重要的信息,是数据分析的 重要目标,其已成为数据挖掘研究的热点之一[7] . 例如在设备故障检测应用中,不平衡的测试数据 广泛存在,通常正常样本的数据量要远远大于故 障样本[8] . 由此导致使用传统的故障诊断方法训练 所得的结果分类器对正常样本产生很高的检测 率,对故障样本的检测和隔离效果却很差,而故障 样本的检测率在故障诊断领域中更有意义,也更 为重要. 目前,机器学习和数据挖掘领域针对不平衡 数据集的处理思路[9] 主要有两大类:改进算法[10] 以适应非平衡数据集,或者对数据集进行重构[1] 以适应现有的分类算法. 改进算法是指在算法层 面进行改进以适应非平衡学习问题,如代价敏感 学 习 [11]、 支 持 向 量 机 [12] ( Support vector machine, SVM)、集成学习[13] 等. 通过修改算法中的代价敏 感信息以适应数据不平衡,但也面临着一些问题, 如修改算法后如何避免分类性能恶化,多类分类 问题的代价敏感信息确定困难等[14] . 数据集重构 也称为重采样方法,它在不修改分类算法的情况 下修改训练数据集的大小,可容易地应用于任何 分类算法. 重采样方法利用少数类样本过采样和 多数类样本欠采样两种手段[15] ,人为调整实例数 量来平衡数据集的分布. 欠采样主要包括随机欠 抽样[16]、单边选择[17]、近邻清理[18] 和基于欧氏距 离的随机欠抽样[19] 等方法,过采样主要有随机插 值、先验复制[14] 和合成少数类过采样技术[20−21] (Synthetic minority oversampling technique,SMOTE) 等方法. 由于单独采用欠采样方法可能导致样本 信息丢失,单独采用过采样方法可能导致分类器 出现增加时间开销、过拟合现象等问题,于是人们 较多采用混合采样的非均衡数据处理方法[7] . 包括 谷琼等[22] 提出的一种基于 SMOTE-Clustering 的混 合采样算法;冯宏伟等[7] 提出的基于“变异系数” 的边界混合采样方法 ( Boundary mixed sampling, BMS) ; 陶 新 民 等 [23] 提 出 的 基 于 随 机 欠 采 样 (Random under-sampling,RU)与 SMOTE 相结合的 SVM 算法等. 由于人为地增加样本或者减少样本都不可避 免的会导致噪声点增加并损失数据原有信息,从 而降低分类精度,因此合理的过采样和欠采样 方法是重采样方法的核心. 为了对数据集做有效 的均衡化处理,本文提出了一种基于样本空间近 邻关系的重采样 ( Resampling based on neighbour Relationship,RBNR)方法. 本方法首先根据数据集 中少数类样本的空间近邻关系进行安全级别评估[24] , 根据安全级别有指导的进行 SMOTE 升采样;然后 对多数类样本依据其空间近邻关系计算局部密度[7] , 从而对多数类样本密集区域进行降采样处理. 采 用十折交叉验证的方式产生训练集和测试集,在 对训练集进行重采样之后,以核超限学习机(Kernel extreme learning machine,KELM) [25] 作为分类器进 行训练,并在测试集上进行了验证. 1 基本算法与相关定义 1.1 核超限学习机 DTr = {(xi , yi)} n i=1 xi ∈ R d d ∈ R xi n yi = [yi1,··· , yim] T xi m ∈ R yi 给定训练集 ,其中 表示 训练样本 , 表 示 的维数 , 为样本总数 ; 为与 对应的理想输出向量,其中 表示 的维数. 此时,ELM 模型定义为 min β,ξ 1 2 ∥β∥ 2 F +C 1 2 ∑n i=1 ∥ξi∥ 2 2 , s.t. h(xi)β = yi −ξi ,i = 1,2,··· ,n (1) || · ||F || · ||2 h(xi) = [h1(xi),··· ,hL(xi)] xi β = [β1,··· , βL] T ξi = [ξi1, ξi2,··· , ξim] T xi C C ∈ R + 其中, 和 分别表示矩阵的 F 范数和向量的 2 范数; 表示隐层神经元对 输入样本 的映射向量; 是模型输 出权重向量 ; L 代表隐层神经元个数 ; 表示对应于 的训练误差; 是正则化 参数,并且 . Y = [y1,··· , yn] 令 T ,基于 KKT 优化条件求解式 (1)的优化问题,可得输出权重: β = H T ( C −1 I+ HHT )−1 Y (2) H = [h(x1) T ,··· , h(xn) T ] T 其中,隐层输出矩阵 ,I 表示 单位矩阵. 最终,对于输入 z,ELM 的输出为: f(z) = h(z)β=h(z)H T ( I C + HH T )−1 Y (3) Ω = HHT δ(i, j) = h(xi)· h(xj) T = k(xi , xj) Ω 应用 Mercer 条件定义核矩阵 , 表示 中第 i 行第 j 列的元素. 应用基于核函数的隐式映射代替传统的显式特征 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 863 ·
864 工程科学学报,第43卷,第6期 映射,可得ELM的核化形式(KELM),其输出为: 2RBNR算法 f(2)=h(2)H(C-I+H)Y RBNR重采样算法首先评估原始数据集中少 k(x1,Z) T 数类样本的安全级别,基于其安全级别进行SMOTE (C1+2)y (4) 升采样,从而增加少数类样本的占比;对于多数类 I k(xn,Z) 样本,寻找出局部密度较大的区域,样本量二倍于 与传统ELM相比,KELM无需设置映射函数 降采样数量,进行随机减采样,从而对多数类子集 和隐层神经元数量,人为干预更少,能有效避免隐 进行约简.算法流程如图1所示 层神经元随机赋值导致的泛化性和稳定性降低的 问题.同时,KELM又继承了传统ELM在处理分 START 类任务上的优势:①以最小化训练误差和输出权 重范数为训练目标,相对于其它传统人工神经网 Original data 络(Artificial neural network,ANN)算法具有更高 的泛化性能,从而抑制过拟合:②简洁高效的 Minority samples Majority samples 隐层结构能够大量压缩算法运行时间和内存空间 开支26-2刃 Security level Local density 1.2安全级别 每个少数类样本x的安全级别slx定义为x的 Sample pairs for linear Dense area interpolation K个最近邻样本中少数类样本的个数安全级 Twice as many samples as 别越大,说明该样本越靠近少数类的中心:安全级 SMOTE algorithm the reduced sample size 别越小,说明该样本越靠近分类边界.安全级别 为0,则几乎可将该样本视为噪声. Oversample Under-sample 对少数类样本进行升采样,应当尽可能的接 近样本原始分布,因此以安全级别指导SMOTE方 Resampled data 法对少数类样本进行升采样 1.3局部密度 END 在非均衡数据中正负样本数量差异较大,在 图1RBNR算法流程图 对少数类样本进行升采样时增加了样本总量.于 Fig.1 Flowchart of the RBNR algorithm 是,为控制数据集规模,可以适当减少样本密集区 算法具体描述如下: 域的多数类样本.因此,采用局部密度的概念2] 算法1RBNR算法 识别非均衡数据中多数类样本的密集区域. 输入: 定义1(k-距离)设D为数据集,k为任意正整 1)具有N个样本的训练数据集D1:=x,)% 数,定义对象p与对象o∈D之间的距离k diste(p片 其中x∈R表示训练样本,deR表示x的维数, dist(p,o)为对象p的k-距离,满足条件: ∈T={-1,1为x对应的样本类别标签 ①存在不少于k个对象q∈D八{pP,使得dist(p,q)≤ 2)Nma:多数类样本量;Nmin:少数类样本量 dist(p,o); 3)k:用于评价安全级别的近邻数量; ②存在不多于k-l个对像q∈D八{P},使得dist(p,q)水 k2:用于计算局部密度的近邻数量 dist(p,o). 算法主体: 定义2(k-近邻)定义所有与p的距离小于等 Stepl根据两类样本的数量差确定升、降采 于k-距离的对象为对象p的k←近邻.即: 样量nup=nldown=[N/2]-Nmin q={q∈D八{pdist(p,q)≤k_dist(p)l (5) Step2根据样本间的欧氏距离,计算每个少 定义3(局部密度)对象p与其k-近邻距离均 数类样本k-近邻中少数类的个数,进而得到其安 值的倒数定义为该点的局部密度: 全级别slx,排除slx=O的样本并排序 1 Step3以安全级别由高到低的样本和安全级 Ldp)=dist(.p9)/M-isp) (6) 别由低到高的样本依次构成用于插值的样本对. 其中,Vk-dist((p)表示对象p的k-近邻个数 Step4遍历Step3中的样本对,按SMOTE方
映射,可得 ELM 的核化形式(KELM),其输出为: f(z) = h(z)H T ( C −1 I+ HHT )−1 Y = k(x1,z) . . . k(xn,z) T ( C −1 I+Ω )−1 Y (4) 与传统 ELM 相比,KELM 无需设置映射函数 和隐层神经元数量,人为干预更少,能有效避免隐 层神经元随机赋值导致的泛化性和稳定性降低的 问题. 同时,KELM 又继承了传统 ELM 在处理分 类任务上的优势:①以最小化训练误差和输出权 重范数为训练目标,相对于其它传统人工神经网 络 ( Artificial neural network, ANN)算法具有更高 的泛化性能,从而抑制过拟合[14] ;②简洁高效的 隐层结构能够大量压缩算法运行时间和内存空间 开支[26−27] . 1.2 安全级别 xi slxi 每个少数类样本 的安全级别 定义为 xi 的 K 个最近邻样本中少数类样本的个数[24] . 安全级 别越大,说明该样本越靠近少数类的中心;安全级 别越小,说明该样本越靠近分类边界. 安全级别 为 0,则几乎可将该样本视为噪声. 对少数类样本进行升采样,应当尽可能的接 近样本原始分布,因此以安全级别指导 SMOTE 方 法对少数类样本进行升采样. 1.3 局部密度 在非均衡数据中正负样本数量差异较大,在 对少数类样本进行升采样时增加了样本总量. 于 是,为控制数据集规模,可以适当减少样本密集区 域的多数类样本. 因此,采用局部密度的概念[28] 识别非均衡数据中多数类样本的密集区域. 定义 1(k–距离)设 D 为数据集,k 为任意正整 数,定义对象 p 与对象 o∈D 之间的距离 k_dist(p)= dist(p,o) 为对象 p 的 k–距离,满足条件: ①存在不少于k 个对象q∈D\{p},使得dist(p,q)≤ dist(p,o); ②存在不多于k–1 个对象q∈D\{p},使得dist(p,q)< dist(p,o). 定义 2(k–近邻)定义所有与 p 的距离小于等 于 k–距离的对象为对象 p 的 k–近邻. 即: q = {q ∈ D\{p}|dist(p,q) ⩽ k_dist(p)} (5) 定义 3(局部密度)对象 p 与其 k–近邻距离均 值的倒数定义为该点的局部密度: Ld(p) = 1 ∑ dist(p,q)/Nk-dist(p) (6) 其中, Nk-dist(p) 表示对象 p 的 k–近邻个数. 2 RBNR 算法 RBNR 重采样算法首先评估原始数据集中少 数类样本的安全级别,基于其安全级别进行 SMOTE 升采样,从而增加少数类样本的占比;对于多数类 样本,寻找出局部密度较大的区域,样本量二倍于 降采样数量,进行随机减采样,从而对多数类子集 进行约简. 算法流程如图 1 所示. Original data Security level Local density Twice as many samples as the reduced sample size Under-sample SMOTE algorithm Oversample Sample pairs for linear Dense area interpolation START END Minority samples Majority samples Resampled data 图 1 RBNR 算法流程图 Fig.1 Flowchart of the RBNR algorithm 算法具体描述如下: 算法 1 RBNR 算法 输入: DTr = {(xi ,ti)} N i=1 xi ∈ R d d ∈ R xi ti ∈ T = {−1, 1} xi 1) 具有 N 个样本的训练数据集 , 其 中 表示训练样本 , 表 示 的维数 , 为 对应的样本类别标签. 2) Nmaj :多数类样本量; Nmin :少数类样本量. 3) k1:用于评价安全级别的近邻数量; k2:用于计算局部密度的近邻数量. 算法主体: nup = ndown = [N/2]−Nmin Step1 根据两类样本的数量差确定升、降采 样量 . slxi slxi = 0 Step2 根据样本间的欧氏距离,计算每个少 数类样本 k1–近邻中少数类的个数,进而得到其安 全级别 ,排除 的样本并排序. Step3 以安全级别由高到低的样本和安全级 别由低到高的样本依次构成用于插值的样本对. Step4 遍历 Step3 中的样本对,按 SMOTE 方 · 864 · 工程科学学报,第 43 卷,第 6 期
李睿峰等:基于空间近邻关系的非平衡数据重采样算法 865 法依次进行插值,遍历结束则进行第二轮插值,直 其中,PA=Rc为真正率,NA=TN/(TN+FP)为真负率 到生成nup个新样本. 3.2UCI数据集 Step5将新样本添加到原始数据集中 UCI数据库是机器学习领域中使用最广泛的 Step6对于每个多数类样本,根据2-近邻计 公开数据库之一,为客观验证所提算法的整体性 算局部密度(详见1.3节),并从大到小排序 能,选取其中具有非平衡性特征的数据集进行实 Step7按排序结果选取前2 ndown个样本,从中 验,数据集描述如表2 随机删除ndown个样本 表2选用的UCI数据集 Step8得到少数类升采样和多数类降采样后 Table 2 UCI data set 的新数据集 Data set Dimension Minority /majority Imbalance ratio 3实验分析 CTG 21 176/1655 1:9.403 Diabetes 268/500 1:1.866 3.1评价指标 Glass 9 42/172 14.095 在非平衡分类问题的研究中,通常基于混淆 Wine 48/130 1:2.708 矩阵(如表1)来评价算法的性能可,表1中,TP FN,FP,TN均表示个数. 其中:CTG数据集为胎儿心电图数据,以“正 常"为多数类,“病态”为少数类;Diabetes为糖尿病 表1混淆矩阵 Table 1 Confusion matrix 人的身体监测数据集,直接将两个类别分别作为 多数类和少数类:Glass为玻璃类型分类数据集, Category Classified as minority Classified as majority 以前四类作为多数类,后两类作为少数类;wine数 Minority TP FN Majority FP TN 据集为三个不同品种的葡萄酒化学分析结果,将 第1、2类合并为多数类,第3类作为少数类 (1)召回率(又称查全率),表示正类(少数类) 33实验设计 样本被预测正确的比例,即 (1)电路选型 电子电路的测试和故障诊断技术对提升电子 Rc=TP/(TP+FN) (7) 产品的可靠性、降低生产成本等方面具有重要意 (2)F-value评价少数类的分类精度,定义如下: 义,因此实验选取串联稳压电路(图2)作为应用 F-value=(1+a2).Rc.PR/(a2.Rc+PR) (8) 案例来分析所提方法在电子电路故障诊断中的性 其中,PR=TP/(TP+FP)为少数类样本的查准率(又 能.该电路包含20个可更换单元,共可产生58个 称为精准率).通常令调节参数α=1. 硬故障,即各个元器件上的短路和开路故障.在输 (3)G-mean用以衡量算法对少数类和多数类 入端施加信号幅度为10V、频率为50Hz的正弦 进行分类的均衡程度,定义如下: 波信号,从8个测试点上收集稳态电压信息,取电 G-mean =PA.NA (9) 压值特征作为原始测试数据 Triode 1 2N3906 in Source Resistor 1 Triode 2 ⑦AC 卡 k Resistor 7 Resistor 4 Resistor 5 1.8k 2N3906 10V U820Q J3600 J1.05k Diode I Diode 2 50Hz1N4007 1N4007 2 Load Resistor Resistor 2 Triode3 Triode 4 1002 Diode 4 Diode3 2.7k0 2N3906 2N3906 Capacitor 3 1N4007 1N4007 6 470uF Capacitor 1 Capacitor 2 Diode 5 Resistor 6 470μF 100μF Resistor 8 J1.5k2 30Ω 1N4096 Resistor 3 1 图2串联稳压电路 Fig.2 Serial regulating circuit
nup 法依次进行插值,遍历结束则进行第二轮插值,直 到生成 个新样本. Step5 将新样本添加到原始数据集中. Step6 对于每个多数类样本,根据 k2−近邻计 算局部密度(详见 1.3 节),并从大到小排序. 2ndown ndown Step7 按排序结果选取前 个样本,从中 随机删除 个样本. Step8 得到少数类升采样和多数类降采样后 的新数据集. 3 实验分析 3.1 评价指标 在非平衡分类问题的研究中,通常基于混淆 矩阵(如表 1)来评价算法的性能[7] ,表 1 中 ,TP, FN,FP,TN 均表示个数. 表 1 混淆矩阵 Table 1 Confusion matrix Category Classified as minority Classified as majority Minority TP FN Majority FP TN (1)召回率(又称查全率),表示正类(少数类) 样本被预测正确的比例,即 RC = TP/(TP+FN) (7) (2)F-value 评价少数类的分类精度,定义如下: F-value = (1+α 2 )·RC · PR/(α 2 ·RC + PR) (8) PR = TP/(TP+FP) α = 1 其中, 为少数类样本的查准率(又 称为精准率). 通常令调节参数 . (3)G-mean 用以衡量算法对少数类和多数类 进行分类的均衡程度,定义如下: G-mean = √ PA ·NA (9) 其中, PA = RC 为真正率, NA = TN/(TN+FP) 为真负率. 3.2 UCI 数据集 UCI 数据库是机器学习领域中使用最广泛的 公开数据库之一,为客观验证所提算法的整体性 能,选取其中具有非平衡性特征的数据集进行实 验,数据集描述如表 2. 表 2 选用的 UCI 数据集 Table 2 UCI data set Data set Dimension Minority /majority Imbalance ratio CTG 21 176/1655 1:9.403 Diabetes 8 268/500 1:1.866 Glass 9 42/172 1:4.095 Wine 13 48/130 1:2.708 其中:CTG 数据集为胎儿心电图数据,以“正 常”为多数类,“病态”为少数类;Diabetes 为糖尿病 人的身体监测数据集,直接将两个类别分别作为 多数类和少数类;Glass 为玻璃类型分类数据集, 以前四类作为多数类,后两类作为少数类;Wine 数 据集为三个不同品种的葡萄酒化学分析结果,将 第 1、2 类合并为多数类,第 3 类作为少数类. 3.3 实验设计 (1)电路选型. 电子电路的测试和故障诊断技术对提升电子 产品的可靠性、降低生产成本等方面具有重要意 义[29] ,因此实验选取串联稳压电路(图 2)作为应用 案例来分析所提方法在电子电路故障诊断中的性 能. 该电路包含 20 个可更换单元,共可产生 58 个 硬故障,即各个元器件上的短路和开路故障. 在输 入端施加信号幅度为 10 V、频率为 50 Hz 的正弦 波信号,从 8 个测试点上收集稳态电压信息,取电 压值特征作为原始测试数据. Capacitor 1 470 μF Source AC 10 V 50 Hz in 1 0 1 Triode 1 2N3906 Resistor 1 1.8 kΩ Diode 1 1N4007 Diode 2 1N4007 Diode 4 1N4007 Diode 3 1N4007 Capacitor 2 100 μF Resistor 2 2.7 kΩ Triode 2 2N3906 Resistor 7 820 Ω Resistor 4 360 Ω Resistor 8 30 Ω Diode 5 1N4096 Resistor 3 1 Ω Resistor 5 1.05 kΩ Resistor 6 1.5 kΩ Capacitor 3 470 μF Load Resistor 100 Ω Triode 3 2N3906 Triode 4 2N3906 + + + 2 3 5 6 7 8 4 图 2 串联稳压电路 Fig.2 Serial regulating circuit 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 865 ·
866 工程科学学报,第43卷,第6期 (2)实验环境 测试点1作为整流桥输出点,采集了其信号稳定 依托实验室现有的激励、测试仪器,通过实物 后电压最大值max和最小值mim,测试点 测量的方式,获取电路正常和故障状态下的测试 2~8均采集了信号稳定后的电压有效值,即 数据.测试环境如图3 2~'),不平衡比为1:4.17.根据不平衡数据集 分类问题的相关研究,92,该不平衡比例具有 一定的代表性.数据集记为Regulator,,部分数据如 表3. 3.4参数分析 将RBNR算法与SMOTE过采样方法、随机欠 采样与SMOTE相结合的算法(RU-SMOTE)2]和 基于“变异系数”的边界混合采样方法BMSM进行 对比实验,分类器均采用KELM.在传统的面向分 类问题的机器学习方法中,普遍采用最小化交叉 验证分类误差的方式选取模型参数.KELM涉及 到核函数、正则化参数与核参数的设置,借鉴文 图3测试环境图 献26]~[27I,核函数选用RBF核,正则化参数 Fig.3 Testing environment C取值范围设定为10,10,,10,10),在训练样 (3)测试数据集 本间的最大欧式距离和最小欧式距离间等间隔取 通过重复测试,共采集到188组正常状态下的 20个离散值作为核参数σ的范围(调用dd tools工 样本,此后电路发生故障,电容1击穿,后采集了 具箱的scale_range函数实现).采用网格搜索法, 45组故障状态下的样本,特征维数为9(其中图中 以最小化交叉验证分类误差为目标,确定各参数 表3电路实测数据(部分) Table 3 Some circuit measured data ID VimaV VimiNV VN VN VNV VN VeN VNV VsIV Attribute -7.730 -6.360 -6.923 -6.928 -6.281 -2.811 -2.981 -5.579 -0.140 2 -7.794 -6.337 -6.953 6.955 -6.297 -2.781 -2.969 -5.603 -0.134 normal 188 -7.706 -6.344 -6.943 -6.945 -6.271 -2.812 -3.020 -5.613 -0.148 189 -7.760 -6.622 -7.106 -7.089 -6.533 -2.656 -2.456 -4.548 -0.133 faulty 233 -7.792 -6.597 -7.078 -7.049 -6.503 -2.670 -2.544 -4.726 -0.113 由前文可知,RBNR算法为了使数据集分布均 文献[7]并未给出BMS算法中有关KBMs距离 衡,根据两类样本的数量差,令升、降采样量相等 值和变异系数阈值如何设置的相关说明,文献[28] 为公平起见,将RU-SMOTE算法和BMS算法中的 将KBMs值设置为20并结合实验指出变异系数阈 升、降采样量也设为相等Wup=Ndown,.SMOTE算 值设置在0.2~0.3之间能够得到较好的边界检测 法只包含升采样,令其升采样量与其他三种算法 结果.但是对于那些样本总量较大(例如多于 中少数类样本的升采样量设置为相同值,进而确 1000)的数据集而言,将KBMs值设置为20并不科 定采样倍率Vsample=[Wup/Wmin]文献[2O]将SMOTE 学,且在实验中发现,一些数据集的变异系数值都 算法中的最近邻阈值KSMOTE设置为采样倍率的2.5 远大于0.3.因此将变异系数阈值根据变异系数排 倍,因此在实验中将其设置为KSMOTE=[Vsample×2.5]. 序后的数值取突变点处的值更为合理,突变点可 RBNR算法涉及少数类样本近邻值k1和多数类样 以通过寻找相邻样本变异系数差值最大处来确 本近邻值k2两个参数,采用网格搜索法,最终确定 定.固定变异系数阈值,将正则化参数C设置为 k1=Nmin和k2=Nmai/3时算法性能总体最优 1,核参数σ取训练样本最大欧式距离和最小欧式
(2)实验环境. 依托实验室现有的激励、测试仪器,通过实物 测量的方式,获取电路正常和故障状态下的测试 数据. 测试环境如图 3. 图 3 测试环境图 Fig.3 Testing environment (3)测试数据集. 通过重复测试,共采集到 188 组正常状态下的 样本,此后电路发生故障,电容 1 击穿,后采集了 45 组故障状态下的样本,特征维数为 9(其中图中 测试点 1 作为整流桥输出点,采集了其信号稳定 后 电 压 最 大 值 V1_max 和 最 小 值 V1_min, 测 试 点 2~ 8 均采集了信号稳定后的电压有效值 , 即 V2~V8),不平衡比为 1∶4.17. 根据不平衡数据集 分类问题的相关研究[7, 9, 12, 22] ,该不平衡比例具有 一定的代表性. 数据集记为 Regulator,部分数据如 表 3. 3.4 参数分析 ,··· 将 RBNR 算法与 SMOTE 过采样方法、随机欠 采样与 SMOTE 相结合的算法(RU-SMOTE) [23] 和 基于“变异系数”的边界混合采样方法 BMS[7] 进行 对比实验,分类器均采用 KELM. 在传统的面向分 类问题的机器学习方法中,普遍采用最小化交叉 验证分类误差的方式选取模型参数. KELM 涉及 到核函数、正则化参数与核参数的设置,借鉴文 献 [26]~ [27],核函数选 用 RBF 核 ,正则化参 数 C 取值范围设定为{10−5,10−4 ,104 ,105 },在训练样 本间的最大欧式距离和最小欧式距离间等间隔取 20 个离散值作为核参数 σ 的范围(调用 dd_tools 工 具箱的 scale_range 函数实现). 采用网格搜索法, 以最小化交叉验证分类误差为目标,确定各参数. 表 3 电路实测数据(部分) Table 3 Some circuit measured data ID V1_max/V V1_min/V V2 /V V3 /V V4 /V V5 /V V6 /V V7 /V V8 /V Attribute 1 −7.730 −6.360 −6.923 −6.928 −6.281 −2.811 −2.981 −5.579 −0.140 normal 2 −7.794 −6.337 −6.953 −6.955 −6.297 −2.781 −2.969 −5.603 −0.134 …… 188 −7.706 −6.344 −6.943 −6.945 −6.271 −2.812 −3.020 −5.613 −0.148 189 −7.760 −6.622 −7.106 −7.089 −6.533 −2.656 −2.456 −4.548 −0.133 …… faulty 233 −7.792 −6.597 −7.078 −7.049 −6.503 −2.670 −2.544 −4.726 −0.113 Nup = Ndown Nsample = [Nup/Nmin] KSMOTEKSMOTE = [Nsample ×2.5] k1 k2 k1 = Nmin k2 = Nmaj/3 由前文可知,RBNR 算法为了使数据集分布均 衡,根据两类样本的数量差,令升、降采样量相等. 为公平起见,将 RU-SMOTE 算法和 BMS 算法中的 升、降采样量也设为相等 . SMOTE 算 法只包含升采样,令其升采样量与其他三种算法 中少数类样本的升采样量设置为相同值,进而确 定采样倍率 . 文献 [20] 将 SMOTE 算法中的最近邻阈值 设置为采样倍率的 2.5 倍,因此在实验中将其设置为 . RBNR 算法涉及少数类样本近邻值 和多数类样 本近邻值 两个参数,采用网格搜索法,最终确定 和 时算法性能总体最优. KBMS KBMS KBMS 文献 [7] 并未给出 BMS 算法中有关 距离 值和变异系数阈值如何设置的相关说明,文献 [28] 将 值设置为 20 并结合实验指出变异系数阈 值设置在 0.2~0.3 之间能够得到较好的边界检测 结果. 但是对于那些样本总量较大(例如多于 1000)的数据集而言,将 值设置为 20 并不科 学,且在实验中发现,一些数据集的变异系数值都 远大于 0.3. 因此将变异系数阈值根据变异系数排 序后的数值取突变点处的值更为合理,突变点可 以通过寻找相邻样本变异系数差值最大处来确 定. 固定变异系数阈值,将正则化参数 C 设置为 1,核参数 σ 取训练样本最大欧式距离和最小欧式 · 866 · 工程科学学报,第 43 卷,第 6 期
李睿峰等:基于空间近邻关系的非平衡数据重采样算法 867. 距离间的中值,令KBMs在0.1~0.9倍样本总数之 和G-mean均值如图4所示.综合考虑,KBMs距离 间取值,以0.1倍为步进,在5个数据集上的F-valve 值取0.5倍样本总数是最合适的 1.0 1.0 1.0 0.9 0.9 2o 0.8 0.8 0.8 0.7 07 0.6 0 50.6 0.5 0.5 iabetes 0.5 iabetes Glass 0.4 0.4 1n6 (a) Regulator (b) Regulator 0.4 (c) Regulator 0.3 0.3 0.3 0 0.2 0.40.60.8 1.0 0 0.20.40.60.8 1.0 0.20.40.6 0.8 1.0 The ratio of Kays to the total number The ratio of Kavs to the total number The ratio of Ks to the total number of samples of samples of samples 图4BMS算法参数分析.(a)Rc值分析:(b)F-valve值分析:(c)G-mean值分析 Fig.4 Parameter analysis of BMS:(a)analysis of the R;(b)analysis of the F-valve;(c)analysis of the G-mean 3.5结果分析 C和核参数σ,模型参数标注在最后一列.计算 为消除随机因素的影响,取5×10折交叉验证 50个结果中Rc、F-value和G-mean有效数据的统 的方式,每次实验前随机生成训练集和测试集.在 计平均值,将最大值加粗表示:计算实验结果的标 实验之前,运行一次交叉验证以确定正则化参数 准差,将最小值加粗表示.结果如表4. 表4F-value和G-mean性能比较 Table 4 Comparison between the F-value and G-mean F-value G-mean Parameter value Data set Algorithm Mean Std Mean Std Mean Std 0 SMOTE 1 0 0.9714 0.0782 0.9976 0.0045 0.1 4.9849 RU-SMOTE 1 0 0.9849 0.0389 0.9984 0.0034 4.9056 CTG BMS 0.9983 0.0118 0.9825 0.0342 0.9972 0.0068 5.0038 RBNR 1 0 0.9870 0.0382 0.9988 0.0030 5.0123 SMOTE 0.6966 0.0852 0.6515 0.0694 0.7318 0.0486 2.7590 RU-SMOTE 0.5775 0.1121 0.6330 0.0830 0.7079 0.0670 3.3938 Diabetes BMS 0.6656 0.1102 0.6595 0.0801 0.7357 0.0652 0.1 3.0312 RBNR 0.7871 0.0895 0.6832 0.0624 0.7554 0.0497 01 3.0156 SMOTE 0.8985 0.1529 0.8902 0.1125 0.9319 0.0865 0 1.2357 RU-SMOTE 0.8523 0.1934 0.8608 0.1266 0.8915 0.1558 10 1.2156 Glass BMS 0.8656 0.2157 0.8909 0.1371 0.9062 0.1670 10 33978 RBNR 0.9086 0.1295 0.9062 0.0996 0.9416 0.0693 1.4562 SMOTE 1 0 0.9818 0.0513 0.9949 0.0152 10 3.9758 RU-SMOTE 1 0 0.9770 0.0507 0.9914 0.0181 10 3.6135 Wine BMS 0.9971 0.0202 0.9600 0.0827 0.9874 0.0230 100 4.0360 RBNR 1 0 0.9789 0.0454 0.9919 0.0146 10 3.7833 SMOTE 0.9272 0.1303 0.8496 0.1067 0.9314 0.0715 1000 1.5781 RU-SMOTE 0.9320 0.2114 0.8304 0.1118 0.8999 0.1931 10 4.7342 Regulator BMS 0.8685 0.1930 0.8731 0.1007 0.9025 0.1526 0.01 3.6821 RBNR 0.9075 0.1248 0.8947 0.1043 0.9361 0.0699 10 4.6943 由实验结果可以得出以下结论:①无论是选 RBNR算法取得的Rc均值、F-value均值和G- 用UCI数据集还是电路实测数据进行训练, mean均值在绝大多数情况下是最高的.②虽然
距离间的中值,令 KBMS 在 0.1~0.9 倍样本总数之 间取值,以 0.1 倍为步进,在 5 个数据集上的 F-valve 和 G-mean 均值如图 4 所示. 综合考虑, KBMS 距离 值取 0.5 倍样本总数是最合适的. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (a) Diabetes Glass Wine Regulator RC 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (b) Diabetes Glass Wine Regulator F-value 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (c) Diabetes Glass Wine Regulator G-mean 0 图 4 BMS 算法参数分析. (a)RC 值分析;(b)F-valve 值分析;(c)G-mean 值分析 Fig.4 Parameter analysis of BMS: (a) analysis of the RC; (b) analysis of the F-valve; (c) analysis of the G-mean 3.5 结果分析 为消除随机因素的影响,取 5×10 折交叉验证 的方式,每次实验前随机生成训练集和测试集. 在 实验之前,运行一次交叉验证以确定正则化参数 C 和核参数 σ,模型参数标注在最后一列. 计算 50 个结果中 RC、F-value 和 G-mean 有效数据的统 计平均值,将最大值加粗表示;计算实验结果的标 准差,将最小值加粗表示. 结果如表 4. 表 4 F-value 和 G-mean 性能比较 Table 4 Comparison between the F-value and G-mean Data set Algorithm RC F-value G-mean Parameter value Mean Std Mean Std Mean Std C σ CTG SMOTE 1 0 0.9714 0.0782 0.9976 0.0045 0.1 4.9849 RU-SMOTE 1 0 0.9849 0.0389 0.9984 0.0034 1 4.9056 BMS 0.9983 0.0118 0.9825 0.0342 0.9972 0.0068 1 5.0038 RBNR 1 0 0.9870 0.0382 0.9988 0.0030 1 5.0123 Diabetes SMOTE 0.6966 0.0852 0.6515 0.0694 0.7318 0.0486 1 2.7590 RU-SMOTE 0.5775 0.1121 0.6330 0.0830 0.7079 0.0670 1 3.3938 BMS 0.6656 0.1102 0.6595 0.0801 0.7357 0.0652 0.1 3.0312 RBNR 0.7871 0.0895 0.6832 0.0624 0.7554 0.0497 0.1 3.0156 Glass SMOTE 0.8985 0.1529 0.8902 0.1125 0.9319 0.0865 10 1.2357 RU-SMOTE 0.8523 0.1934 0.8608 0.1266 0.8915 0.1558 10 1.2156 BMS 0.8656 0.2157 0.8909 0.1371 0.9062 0.1670 10 3.3978 RBNR 0.9086 0.1295 0.9062 0.0996 0.9416 0.0693 1 1.4562 Wine SMOTE 1 0 0.9818 0.0513 0.9949 0.0152 10 3.9758 RU-SMOTE 1 0 0.9770 0.0507 0.9914 0.0181 10 3.6135 BMS 0.9971 0.0202 0.9600 0.0827 0.9874 0.0230 100 4.0360 RBNR 1 0 0.9789 0.0454 0.9919 0.0146 10 3.7833 Regulator SMOTE 0.9272 0.1303 0.8496 0.1067 0.9314 0.0715 1000 1.5781 RU-SMOTE 0.9320 0.2114 0.8304 0.1118 0.8999 0.1931 10 4.7342 BMS 0.8685 0.1930 0.8731 0.1007 0.9025 0.1526 0.01 3.6821 RBNR 0.9075 0.1248 0.8947 0.1043 0.9361 0.0699 10 4.6943 由实验结果可以得出以下结论:① 无论是选 用 UCI 数据集还是电路实测数据进行训练 , RBNR 算 法 取 得 的 RC 均 值 、 F-value 均 值 和 Gmean 均值在绝大多数情况下是最高的. ②虽然 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 867 ·
868 工程科学学报,第43卷.第6期 在Wine数据集上,采用SMOTE算法得到的F- 本;此外,其分类结果在其他数据集上表现也并 value均值和G-mean均值更高一些,但是RBNR 不好.④由于每次都随机产生训练集和测试集, 算法的结果与之非常接近且更稳定(标准差最 从多次重复训练的结果来看,本文所提算法在多 低),并且SMOTE算法得到的重采样数据集规模 次交叉验证中所得Rc、F-value和G-mean值的标 会很大,冗余数据给后续的分类器处理过程带来 准差大部分都是最低的(在个别不是最低的情况 了较大的开销.③在Regulator数据集上,采用 下也与最低值相差很小),说明算法性能较为稳 RU-SMOTE算法得到的Rc均值最高,但是其标 定,在整体上具有更为优良的性能.⑤在数据规 准差也是最高的,说明该算法的稳定性较差;而 模相当的情况下,RBNR普遍优于RU-SMOTE和 且RU-SMOTE算法在Regulator数据集上取得的 BMS算法,且RBNR算法在某些数据集(Diabetes、 F-value均值和G-mean均值均为最低,说明该算 Glass)上优势显著 法在提高少数类样本召回率的前提下没能兼顾 为了更直观的进行对比,将表4中的Rc、F-value 到多数类,可能随机删除了一些重要的多数类样 和G-mean值绘制了柱状图,如图5. SMOTE BMS SMOTE ▣BMS SMOTE ▣BMS ▣RU.SMOTE ☐RBNR ☐RU-SMOTE ☐RBNR ☐RU-SMOTE ☐RBNR 1.0 1.0 1.0 0.9 09 0.9 0.8 08 0.8 0.7 anjeA-d 0.7 0.7 0.6 6 0.6 0.5 0.5 0.5 (a) (b) 0.4 0.4 CTG Diabetes Regulator CTG Regulator CTG lato Data set Data set Data set 图5结果对比柱状图.(a)Rc值对比:(b)F-vaue值对比:(c)G-mean值对比 Fig.5 Bar graph of result comparison:(a)comparison of Rc;(b)comparison of F-value;(c)comparison of G-mean 从整体来看,RBNR算法是明显优于其他算法 数据不平衡问题进行研究 的,其分类效果也更为稳定 参考文献 4结论 [1]Chen S.He H B.Garcia E A.RAMOBoost:Ranked minority 数据挖掘领域的研究者们提出了大量的重采 oversampling in boosting.IEEE Trans Neural Networks,2010. 样算法用于解决数据集非平衡问题,而这一问题 21(10):1624 的关键就在于如何使得重采样之后的新数据集更 [2]Xiao Y C,Wang H G,Zhang L,et al.Two methods of selecting 接近真实的样本分布,因此本文提出了一种基于 Gaussian kernel parameters for one-class SVM and their application to fault detection.Knowledge-Based Syst,2014,59:75 空间近邻关系的混合重采样算法RBNR来解决这 [3] Miao Z M,Zhao L W,Yuan W W,et al.Multi-class imbalanced 一问题.实验表明,以KELM作为分类器,Rc、F- learning implemented in network intrusion detection /2011 value和G-mean作为评价指标,RBNR的总体性能 International Conference on Computer Science and Service System 优于SMOTE、RU-SMOTE和BMS算法.这是由 (CSSS).Nanjing.2011:1395 于RBNR算法通过计算安全级别.以一种更接近 [4] Smailovic J,Grear M,Lavrac N,et al.Stream-based active 少数样本原始分布的方式指导升采样,而不是像 leamning for sentiment analysis in the financial domain.Inform Sci, SMOTE算法一样随机扩充数据,也不像BMS算 2014,28:181 法一样只扩充边界少数类(事实上这种方法更容 [5]Liu Y Q,Wang C,Zhang L.Decision tree based predictive models for breast cancer survivability on imbalanced data /2009 3rd 易引入噪声).通过计算局部密度,约简多数类样 International Conference on Bioinformatics and Biomedical 本密集区域,从而更加合理的控制了数据规模.这 Engineering.Beijing,2009:1 种根据空间近邻关系视情处理的方式,可以更加 [6] Gao M Z,Xu A Q,Xu Q.Fault detection method of electronic 有效地均衡化原始数据集.本文存在的不足在于 equipment based on SL-SMOTE and CS-RVM.Comput Eng Appl, 只是针对二分类问题,后续将针对多类分类中的 2019,55(4):185
在 Wine 数据集上 ,采 用 SMOTE 算法得到 的 Fvalue 均值和 G-mean 均值更高一些,但是 RBNR 算法的结果与之非常接近且更稳定(标准差最 低),并且 SMOTE 算法得到的重采样数据集规模 会很大,冗余数据给后续的分类器处理过程带来 了较大的开销 . ③在 Regulator 数据集上 ,采 用 RU-SMOTE 算法得到的 RC 均值最高,但是其标 准差也是最高的,说明该算法的稳定性较差;而 且 RU-SMOTE 算法在 Regulator 数据集上取得的 F-value 均值和 G-mean 均值均为最低,说明该算 法在提高少数类样本召回率的前提下没能兼顾 到多数类,可能随机删除了一些重要的多数类样 本;此外,其分类结果在其他数据集上表现也并 不好. ④由于每次都随机产生训练集和测试集, 从多次重复训练的结果来看,本文所提算法在多 次交叉验证中所得 RC、F-value 和 G-mean 值的标 准差大部分都是最低的(在个别不是最低的情况 下也与最低值相差很小),说明算法性能较为稳 定,在整体上具有更为优良的性能. ⑤在数据规 模相当的情况下,RBNR 普遍优于 RU-SMOTE 和 BMS 算法,且 RBNR 算法在某些数据集(Diabetes、 Glass)上优势显著. 为了更直观的进行对比,将表 4 中的 RC、F-value 和 G-mean 值绘制了柱状图,如图 5. 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (a) RC CTG F-value G-mean 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (b) CTG 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (c) CTG 图 5 结果对比柱状图. (a)RC 值对比;(b)F-value 值对比;(c)G-mean 值对比 Fig.5 Bar graph of result comparison: (a) comparison of RC; (b) comparison of F-value; (c) comparison of G-mean 从整体来看,RBNR 算法是明显优于其他算法 的,其分类效果也更为稳定. 4 结论 数据挖掘领域的研究者们提出了大量的重采 样算法用于解决数据集非平衡问题,而这一问题 的关键就在于如何使得重采样之后的新数据集更 接近真实的样本分布,因此本文提出了一种基于 空间近邻关系的混合重采样算法 RBNR 来解决这 一问题. 实验表明,以 KELM 作为分类器,RC、Fvalue 和 G-mean 作为评价指标,RBNR 的总体性能 优于 SMOTE、RU-SMOTE 和 BMS 算法. 这是由 于 RBNR 算法通过计算安全级别,以一种更接近 少数样本原始分布的方式指导升采样,而不是像 SMOTE 算法一样随机扩充数据,也不像 BMS 算 法一样只扩充边界少数类(事实上这种方法更容 易引入噪声). 通过计算局部密度,约简多数类样 本密集区域,从而更加合理的控制了数据规模. 这 种根据空间近邻关系视情处理的方式,可以更加 有效地均衡化原始数据集. 本文存在的不足在于 只是针对二分类问题,后续将针对多类分类中的 数据不平衡问题进行研究. 参 考 文 献 Chen S, He H B, Garcia E A. RAMOBoost: Ranked minority oversampling in boosting. IEEE Trans Neural Networks, 2010, 21(10): 1624 [1] Xiao Y C, Wang H G, Zhang L, et al. Two methods of selecting Gaussian kernel parameters for one-class SVM and their application to fault detection. Knowledge-Based Syst, 2014, 59: 75 [2] Miao Z M, Zhao L W, Yuan W W, et al. Multi-class imbalanced learning implemented in network intrusion detection // 2011 International Conference on Computer Science and Service System (CSSS). Nanjing, 2011: 1395 [3] Smailović J, Grčar M, Lavrač N, et al. Stream-based active learning for sentiment analysis in the financial domain. Inform Sci, 2014, 285: 181 [4] Liu Y Q, Wang C, Zhang L. Decision tree based predictive models for breast cancer survivability on imbalanced data // 2009 3rd International Conference on Bioinformatics and Biomedical Engineering. Beijing, 2009: 1 [5] Gao M Z, Xu A Q, Xu Q. Fault detection method of electronic equipment based on SL-SMOTE and CS-RVM. Comput Eng Appl, 2019, 55(4): 185 [6] · 868 · 工程科学学报,第 43 卷,第 6 期
李睿峰等:基于空间近邻关系的非平衡数据重采样算法 869· (高明哲,许爱强,许晴.SL-SMOTE和CS-RVM结合的电子设备 [19]Zhao Z X,Wang G L,Li X D.An improved SVM based under- 故障检测方法.计算机工程与应用,2019,55(4):185) sampling method for classifying imbalanced data.Acta Sci Nat [7]Feng H W,Yao B,Gao Y,et al.Imbalanced data processing Uniy Sunvatseni,2012,51(6):10 algorithm based on boundary mixed sampling.Control Decis, (赵自翔,王广亮,李晓东.基于支持向量机的不平衡数据分类 2017,32(10:1831 的改进欠采样方法.中山大学学报(自然科学版),2012,51(6): (冯宏伟,姚博,高原,等.基于边界混合采样的非均衡数据处理 10) 算法.控制与决策,2017,32(10):1831) [20]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic [8]Gao M,Hong X,Chen S,et al.A combined SMOTE and PSO minority over-sampling technique.JArtif /ntell Res,2002,16:321 based RBF classifier for two-class imbalanced problems [21]Liu Y X.Liu S M.Liu T,et al.New oversampling algorithm Neurocomputing,2011,74(17):3456 DB_SMOTE.Comput Eng Appl,2014,50(6):92 [9]Gu P.Ouyang Y Y.Classification research for unbalanced data (刘余霞,刘三民,刘涛,等.一种新的过采样算法DB SMOTE based on mixed-sampling.App/Res Comput,2015,32(2):379 计算机工程与应用,2014,50(6):92) (古平,欧阳源遊.基于混合采样的非平衡数据集分类研究.计 [22]Gu Q,Yuan L,Ning B,et al.A novel classification algorithm for 算机应用研究,2015,32(2):379) imbalanced datasets based on hybrid resampling strategy.Compu [10]Yu H L,Yang X B.Zheng S,et al.Active learning from Eng Sci,2012,34(10):128 imbalanced data:A solution of online weighted extreme learning (谷琼,袁磊,宁彬,等.一种基于混合重取样策略的非均衡数据 machine.IEEE Trans Neural Networks Learn Syst,2019,30(4): 集分类算法.计算机工程与科学,2012,34(10):128) 1088 [23]Tao X M,Hao S Y,Zhang D X,et al.Support vector machine for [11]Cai YY,Song X D.New fuzzy SVM model used in imbalanced unbalanced data based on sample properties under-sampling datasets.J Xidian Univ Nat Sci,2015,42(5):120 approaches.Control Decis,2013,28(7):978 (蔡艳艳,宋晓东.针对非平衡数据分类的新型模糊SVM模型 (陶新民,郝思媛,张冬雪,等.基于样本特性欠取样的不均衡支 西安电子科技大学学报(自然科学版),2015,42(5):120) 持向量机.控制与决策,2013,28(7):978) [12]Wang C Y,Su H Y,Qu Y,et al.Imbalanced data sets [24]Bunkhumpompat C.Sinapiromsaran K,Lursinsap C.Safe-level- classification method based on over-sampling technique.Comput SMOTE:Safe-level-synthetic minority over-sampling technique Eg4ppl,2011,47(1):139 for handling the class imbalanced problem /Proceedings of (王春玉,苏宏业,渠瑜,等.一种基于过抽样技术的非平衡数据 Advances in Knowledge Discovery and Data Mining Conference. 集分类方法.计算机工程与应用,2011,47(1):139) [13]Zhang Y F,Guo H P,Zhi W M,et al.An ensemble pruning Bangkok,2009:475 [25]Huang G B,Zhou H M,Ding X J,et al.Extreme learning machine method for imbalanced data classification.Compur Eng,2014, 40(6):157 for regression and multiclass classification.IEEE Trans Syst Man (张银蜂,郭华平,职为梅,等.一种面向不平衡数据分类的组合 Cybern Part B Cybern,2012,42(2):513 剪枝方法.计算机工程,2014.40(6):157) [26]Gautam C,Tiwari A,Leng Q.On the construction of extreme [14]Vong C M,Ip W F,Wong P K,et al.Predicting minority class for learning machine for online and offline one-class classification-an suspended particulate matters level by extreme leaming machine. expanded toolbox.Neurocompuring,2017,261:126 Neurocomputing,2014,128:136 [27]Zhu M,Liu Q,Liu X,et al.Fault detection method for avionics [15]Zhai Y,Yang B R,Wang S P,et al.Under-sampling method based based on LMK and OC-ELM.Syst Eng Electron,2020,42(6): on cooperative co-evolutionary mechanism.J Univ Sci Technol 1424 Beijing,2011,33(12):1550 (朱敏,刘奇,刘星,等.基于LMK和OC-ELM的航空电子部件故 (翟云,杨炳儒,王树鹏,等.基于协同进化机制的欠采样方法 障检测方法.系统工程与电子技术,2020,42(6):1424) 北京科技大学学报,2011,33(12):1550) [28]Xue L X,Qiu B Z.Boundary points detection algorithm based on [16]Yang Y,Liu F,Jin Z Y,et al.Aliasing artefact suppression in coefficient of variation.Pattern Recognit Artif Intell,2009,22(5): compressed sensing MRI for random phase-encode undersampling 799 IEEE Trans Bio-Med Eng,2015,62(9):2215 (薛丽香,邱保志.基于变异系数的边界点检测算法.模式识别 [17]Jia C Z.Zuo Y.S-SulfPred:A sensitive predictor to capture S- 与人工智能,2009,22(5):799) sulfenylation sites based on a resampling one-sided selection [29]Zhang Z,Duan Z M,Long Y.Fault detection in switched current undersampling-synthetic minority oversampling technique. circuits based on preferred wavelet packet.Chin J Eng,2017, Theoret Biol,2017,422:84 39(7大:1101 [18]Wilson DL.Asymptotic properties of nearest neighbor rules using (张镇,段哲民,龙英.基于小波包的开关电流电路故障诊断.工 edited data.IEEE Trans Syst Man Cybern.2007.SMC-2(3):408 程科学学报,2017,39(7):1101)
(高明哲, 许爱强, 许晴. SL-SMOTE和CS-RVM结合的电子设备 故障检测方法. 计算机工程与应用, 2019, 55(4):185) Feng H W, Yao B, Gao Y, et al. Imbalanced data processing algorithm based on boundary mixed sampling. Control Decis, 2017, 32(10): 1831 (冯宏伟, 姚博, 高原, 等. 基于边界混合采样的非均衡数据处理 算法. 控制与决策, 2017, 32(10):1831) [7] Gao M, Hong X, Chen S, et al. A combined SMOTE and PSO based RBF classifier for two-class imbalanced problems. Neurocomputing, 2011, 74(17): 3456 [8] Gu P, Ouyang Y Y. Classification research for unbalanced data based on mixed-sampling. Appl Res Comput, 2015, 32(2): 379 (古平, 欧阳源遊. 基于混合采样的非平衡数据集分类研究. 计 算机应用研究, 2015, 32(2):379) [9] Yu H L, Yang X B, Zheng S, et al. Active learning from imbalanced data: A solution of online weighted extreme learning machine. IEEE Trans Neural Networks Learn Syst, 2019, 30(4): 1088 [10] Cai Y Y, Song X D. New fuzzy SVM model used in imbalanced datasets. J Xidian Univ Nat Sci, 2015, 42(5): 120 (蔡艳艳, 宋晓东. 针对非平衡数据分类的新型模糊SVM模型. 西安电子科技大学学报(自然科学版), 2015, 42(5):120) [11] Wang C Y, Su H Y, Qu Y, et al. Imbalanced data sets classification method based on over-sampling technique. Comput Eng Appl, 2011, 47(1): 139 (王春玉, 苏宏业, 渠瑜, 等. 一种基于过抽样技术的非平衡数据 集分类方法. 计算机工程与应用, 2011, 47(1):139) [12] Zhang Y F, Guo H P, Zhi W M, et al. An ensemble pruning method for imbalanced data classification. Comput Eng, 2014, 40(6): 157 (张银峰, 郭华平, 职为梅, 等. 一种面向不平衡数据分类的组合 剪枝方法. 计算机工程, 2014, 40(6):157) [13] Vong C M, Ip W F, Wong P K, et al. Predicting minority class for suspended particulate matters level by extreme learning machine. Neurocomputing, 2014, 128: 136 [14] Zhai Y, Yang B R, Wang S P, et al. Under-sampling method based on cooperative co-evolutionary mechanism. J Univ Sci Technol Beijing, 2011, 33(12): 1550 (翟云, 杨炳儒, 王树鹏, 等. 基于协同进化机制的欠采样方法. 北京科技大学学报, 2011, 33(12):1550) [15] Yang Y, Liu F, Jin Z Y, et al. Aliasing artefact suppression in compressed sensing MRI for random phase-encode undersampling. IEEE Trans Bio-Med Eng, 2015, 62(9): 2215 [16] Jia C Z, Zuo Y. S-SulfPred: A sensitive predictor to capture Ssulfenylation sites based on a resampling one-sided selection undersampling-synthetic minority oversampling technique. J Theoret Biol, 2017, 422: 84 [17] Wilson D L. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans Syst Man Cybern, 2007, SMC-2(3): 408 [18] Zhao Z X, Wang G L, Li X D. An improved SVM based undersampling method for classifying imbalanced data. Acta Sci Nat Univ Sunyatseni, 2012, 51(6): 10 (赵自翔, 王广亮, 李晓东. 基于支持向量机的不平衡数据分类 的改进欠采样方法. 中山大学学报(自然科学版), 2012, 51(6): 10) [19] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique. J Artif Intell Res, 2002, 16: 321 [20] Liu Y X, Liu S M, Liu T, et al. New oversampling algorithm DB_SMOTE. Comput Eng Appl, 2014, 50(6): 92 (刘余霞, 刘三民, 刘涛, 等. 一种新的过采样算法DB_SMOTE. 计算机工程与应用, 2014, 50(6):92) [21] Gu Q, Yuan L, Ning B, et al. A novel classification algorithm for imbalanced datasets based on hybrid resampling strategy. Comput Eng Sci, 2012, 34(10): 128 (谷琼, 袁磊, 宁彬, 等. 一种基于混合重取样策略的非均衡数据 集分类算法. 计算机工程与科学, 2012, 34(10):128) [22] Tao X M, Hao S Y, Zhang D X, et al. Support vector machine for unbalanced data based on sample properties under-sampling approaches. Control Decis, 2013, 28(7): 978 (陶新民, 郝思媛, 张冬雪, 等. 基于样本特性欠取样的不均衡支 持向量机. 控制与决策, 2013, 28(7):978) [23] Bunkhumpornpat C, Sinapiromsaran K, Lursinsap C. Safe-levelSMOTE: Safe-level-synthetic minority over-sampling technique for handling the class imbalanced problem // Proceedings of Advances in Knowledge Discovery and Data Mining Conference. Bangkok, 2009: 475 [24] Huang G B, Zhou H M, Ding X J, et al. Extreme learning machine for regression and multiclass classification. IEEE Trans Syst Man Cybern Part B Cybern, 2012, 42(2): 513 [25] Gautam C, Tiwari A, Leng Q. On the construction of extreme learning machine for online and offline one-class classification-an expanded toolbox. Neurocomputing, 2017, 261: 126 [26] Zhu M, Liu Q, Liu X, et al. Fault detection method for avionics based on LMK and OC-ELM. Syst Eng Electron, 2020, 42(6): 1424 (朱敏, 刘奇, 刘星, 等. 基于LMK和OC-ELM的航空电子部件故 障检测方法. 系统工程与电子技术, 2020, 42(6):1424) [27] Xue L X, Qiu B Z. Boundary points detection algorithm based on coefficient of variation. Pattern Recognit Artif Intell, 2009, 22(5): 799 (薛丽香, 邱保志. 基于变异系数的边界点检测算法. 模式识别 与人工智能, 2009, 22(5):799) [28] Zhang Z, Duan Z M, Long Y. Fault detection in switched current circuits based on preferred wavelet packet. Chin J Eng, 2017, 39(7): 1101 (张镇, 段哲民, 龙英. 基于小波包的开关电流电路故障诊断. 工 程科学学报, 2017, 39(7):1101) [29] 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 869 ·