基于空间近邻关系的非平衡数据重采样算法

为了提高非平衡数据集的分类精度，提出了一种基于样本空间近邻关系的重采样算法。该方法首先根据数据集中少数类样本的空间近邻关系进行安全级别评估，根据安全级别有指导的采用合成少数类过采样技术（Synthetic minority oversampling technique，SMOTE）进行升采样；然后对多数类样本依据其空间近邻关系计算局部密度，从而对多数类样本密集区域进行降采样处理。通过以上两种手段可以均衡测试数据集，并控制数据规模防止过拟合，实现对两类样本分类的均衡化。采用十折交叉验证的方式产生训练集和测试集，在对训练集重采样之后，以核超限学习机作为分类器进行训练，并在测试集上进行验证。在UCI非平衡数据集和电路故障诊断实测数据上的实验结果表明，所提方法在整体上优于其他重采样算法。

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：992.33KB

工程科学学报 Chinese Journal of Engineering 基于空间近邻关系的非平衡数据重采样算法李睿峰李文海孙艳丽吴阳勇 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng,LI Wen-hai,SUN Yan-li.WU Yang-yong 引用本文：李睿峰，李文海，孙艳丽，吴阳勇.基于空间近邻关系的非平衡数据重采样算法).工程科学学报，2021,43(6：862-869.doi: 10.13374j.issn2095-9389.2020.04.05.002 LI Rui-feng,LI Wen-hai,SUN Yan-li,WU Yang-yong.Resampling algorithm for imbalanced data based on their neighbor relationship[J].Chinese Journal of Engineering,2021,43(6):862-869.doi:10.13374/j.issn2095-9389.2020.04.05.002 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2020.04.05.002 您可能感兴趣的其他文章 Articles you may be interested in 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报.2017,398：1244htps:1doi.org10.13374.issn2095-9389.2017.08.015 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报.2020.42(9：1209 https:/doi.org10.13374.issn2095-9389.2019.10.09.003 基于软超球体的高维非线性数据异常点识别算法 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear data 工程科学学报.2017,3910：1552htps1doi.0rg/10.13374j.issn2095-9389.2017.10.014 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报.2020,42(4：441 https:ldoi.org10.13374j.issn2095-9389.2019.09.12.007 数据驱动的卷取温度模型参数即时自适应设定算法 Data-driven adaptive setting algorithm for coiling temperature model parameter 工程科学学报.2020,42(6)：778 https::/1doi.org/10.13374.issn2095-9389.2019.06.12.002 基于属性值集中度的分类数据聚类有效性内部评价指标 A new internal clustering validation index for categorical data based on concentration of attribute values 工程科学学报.2019,41（⑤）：682 https:1doi.org/10.13374issn2095-9389.2019.05.015

基于空间近邻关系的非平衡数据重采样算法李睿峰李文海孙艳丽吴阳勇 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng, LI Wen-hai, SUN Yan-li, WU Yang-yong 引用本文: 李睿峰, 李文海, 孙艳丽, 吴阳勇. 基于空间近邻关系的非平衡数据重采样算法[J]. 工程科学学报, 2021, 43(6): 862-869. doi: 10.13374/j.issn2095-9389.2020.04.05.002 LI Rui-feng, LI Wen-hai, SUN Yan-li, WU Yang-yong. Resampling algorithm for imbalanced data based on their neighbor relationship[J]. Chinese Journal of Engineering, 2021, 43(6): 862-869. doi: 10.13374/j.issn2095-9389.2020.04.05.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002 您可能感兴趣的其他文章 Articles you may be interested in 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报. 2017, 39(8): 1244 https://doi.org/10.13374/j.issn2095-9389.2017.08.015 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报. 2020, 42(9): 1209 https://doi.org/10.13374/j.issn2095-9389.2019.10.09.003 基于软超球体的高维非线性数据异常点识别算法 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear data 工程科学学报. 2017, 39(10): 1552 https://doi.org/10.13374/j.issn2095-9389.2017.10.014 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报. 2020, 42(4): 441 https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007 数据驱动的卷取温度模型参数即时自适应设定算法 Data-driven adaptive setting algorithm for coiling temperature model parameter 工程科学学报. 2020, 42(6): 778 https://doi.org/10.13374/j.issn2095-9389.2019.06.12.002 基于属性值集中度的分类数据聚类有效性内部评价指标 A new internal clustering validation index for categorical data based on concentration of attribute values 工程科学学报. 2019, 41(5): 682 https://doi.org/10.13374/j.issn2095-9389.2019.05.015

工程科学学报.第43卷.第6期：862-869.2021年6月 Chinese Journal of Engineering,Vol.43,No.6:862-869,June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002;http://cje.ustb.edu.cn 基于空间近邻关系的非平衡数据重采样算法李睿峰四，李文海，孙艳丽，吴阳勇海军航空大学.烟台264001 ☒通信作者，E-mail:dongzhil110@foxmail.com 摘要为了提高非平衡数据集的分类精度，提出了一种基于样本空间近邻关系的重采样算法.该方法首先根据数据集中少数类样本的空间近邻关系进行安全级别评估，根据安全级别有指导的采用合成少数类过采样技术(Synthetic minority oversampling technique,.SMOTE)进行升采样；然后对多数类样本依据其空间近邻关系计算局部密度，从而对多数类样本密集区域进行降采样处理.通过以上两种手段可以均衡测试数据集，并控制数据规模防止过拟合，实现对两类样本分类的均衡化. 采用十折交叉验证的方式产生训练集和测试集，在对训练集重采样之后，以核超限学习机作为分类器进行训练，并在测试集上进行验证。在UCI非平衡数据集和电路故障诊断实测数据上的实验结果表明，所提方法在整体上优于其他重采样算法. 关键词非平衡数据：近邻关系；重采样：局部密度；分类分类号TP206.1 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng.LI Wen-hai.SUN Yan-li,WU Yang-yong Naval Aviation University,Yantai 264001,China Corresponding author,E-mail:dongzhil110@foxmail.com ABSTRACT The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications.The minority samples in such applications usually contain important information.This information plays an important role in data analysis.At present,two methods(improved algorithm and data set reconstruction)are used in machine learning and data mining to address the data set imbalance.Data set reconstruction is also known as the resampling method,which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used.As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information,thus reducing the classification accuracy.A reasonable oversampling and undersampling algorithm are the core of the resampling method.To improve the classification accuracy of imbalanced data sets,a resampling algorithm based on the neighbor relationship of sample space was proposed.This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level.Then,the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area.By the above two means,the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories.The training set and test set were generated via the method of 5 x 10 fold cross validation.After resampling the training set, the kernel extreme learning machine (KELM)was used as the classifier for training,and the test set was used for verification.The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms. 收稿日期：2020-04-05 基金项目：军内科研项目“新一代航空电子装备测试关键技术研究”资助项目(4172122113R)

基于空间近邻关系的非平衡数据重采样算法李睿峰苣，李文海，孙艳丽，吴阳勇海军航空大学，烟台 264001 苣通信作者，E-mail：dongzhi1110@foxmail.com 摘要为了提高非平衡数据集的分类精度，提出了一种基于样本空间近邻关系的重采样算法. 该方法首先根据数据集中少数类样本的空间近邻关系进行安全级别评估，根据安全级别有指导的采用合成少数类过采样技术（Synthetic minority oversampling technique，SMOTE）进行升采样；然后对多数类样本依据其空间近邻关系计算局部密度，从而对多数类样本密集区域进行降采样处理. 通过以上两种手段可以均衡测试数据集，并控制数据规模防止过拟合，实现对两类样本分类的均衡化. 采用十折交叉验证的方式产生训练集和测试集，在对训练集重采样之后，以核超限学习机作为分类器进行训练，并在测试集上进行验证. 在 UCI 非平衡数据集和电路故障诊断实测数据上的实验结果表明，所提方法在整体上优于其他重采样算法. 关键词非平衡数据；近邻关系；重采样；局部密度；分类分类号 TP206.1 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng苣，LI Wen-hai，SUN Yan-li，WU Yang-yong Naval Aviation University, Yantai 264001, China 苣 Corresponding author, E-mail: dongzhi1110@foxmail.com ABSTRACT The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications. The minority samples in such applications usually contain important information. This information plays an important role in data analysis. At present, two methods (improved algorithm and data set reconstruction) are used in machine learning and data mining to address the data set imbalance. Data set reconstruction is also known as the resampling method, which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used. As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information, thus reducing the classification accuracy. A reasonable oversampling and undersampling algorithm are the core of the resampling method. To improve the classification accuracy of imbalanced data sets, a resampling algorithm based on the neighbor relationship of sample space was proposed. This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level. Then, the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area. By the above two means, the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories. The training set and test set were generated via the method of 5 × 10 fold cross validation. After resampling the training set, the kernel extreme learning machine (KELM) was used as the classifier for training, and the test set was used for verification. The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms. 收稿日期: 2020−04−05 基金项目: 军内科研项目“新一代航空电子装备测试关键技术研究”资助项目（4172122113R）工程科学学报，第 43 卷，第 6 期：862−869，2021 年 6 月 Chinese Journal of Engineering, Vol. 43, No. 6: 862−869, June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002; http://cje.ustb.edu.cn

李睿峰等：基于空间近邻关系的非平衡数据重采样算法 863. KEY WORDS imbalanced data;neighbor relationship;resample;local density;classification 非平衡数据的分类问题已经成为当今许多数免的会导致噪声点增加并损失数据原有信息，从据密集型应用中一个关键的研究方向，例如信用而降低分类精度，因此合理的过采样和欠采样卡欺诈数据冈、网络入侵)、金融工程、生物医学方法是重采样方法的核心.为了对数据集做有效数据分析)和设备故障检测等.这类应用中的的均衡化处理，本文提出了一种基于样本空间近少数类样本通常蕴含重要的信息，是数据分析的邻关系的重采样(Resampling based on neighbour 重要目标，其已成为数据挖掘研究的热点之一仞 Relationship,RBNR)方法.本方法首先根据数据集例如在设备故障检测应用中，不平衡的测试数据中少数类样本的空间近邻关系进行安全级别评估，广泛存在，通常正常样本的数据量要远远大于故根据安全级别有指导的进行SMOTE升采样；然后障样本图由此导致使用传统的故障诊断方法训练对多数类样本依据其空间近邻关系计算局部密度，所得的结果分类器对正常样本产生很高的检测从而对多数类样本密集区域进行降采样处理.采率，对故障样本的检测和隔离效果却很差，而故障用十折交叉验证的方式产生训练集和测试集，在样本的检测率在故障诊断领域中更有意义，也更对训练集进行重采样之后，以核超限学习机(Kernel 为重要 extreme learning machine,KELM)2作为分类器进目前，机器学习和数据挖掘领域针对不平衡行训练，并在测试集上进行了验证数据集的处理思路例主要有两大类：改进算法0 以适应非平衡数据集，或者对数据集进行重构山 1基本算法与相关定义以适应现有的分类算法.改进算法是指在算法层 1.1核超限学习机面进行改进以适应非平衡学习问题，如代价敏感学习、支持向量机(Support vector machine, 给定训练集D={(xy,其中x∈Rd表示训练样本，d∈R表示x;的维数，n为样本总数； SVM)、集成学习)等.通过修改算法中的代价敏 y:=y,…ymJT为与x;对应的理想输出向量，其中感信息以适应数据不平衡，但也面临着一些问题， m∈R表示y的维数.此时，ELM模型定义为如修改算法后如何避免分类性能恶化，多类分类问题的代价敏感信息确定困难等数据集重构腰+c∑s 也称为重采样方法，它在不修改分类算法的情况 i=1 下修改训练数据集的大小，可容易地应用于任何 s.t.h(xB=y-5i,i=1,2,…,n (1) 分类算法.重采样方法利用少数类样本过采样和其中，Il和2分别表示矩阵的F范数和向量的多数类样本欠采样两种手段阿，人为调整实例数 2范数；h(x)=[h(x),…,hu(x]表示隐层神经元对量来平衡数据集的分布.欠采样主要包括随机欠输入样本x的映射向量；B=B1,…,T是模型输抽样6、单边选择忉、近邻清理和基于欧氏距出权重向量；L代表隐层神经元个数；=[，离的随机欠抽样9等方法，过采样主要有随机插 2,…,mJT表示对应于x的训练误差；C是正则化值、先验复制和合成少数类过采样技术P0-别参数，并且C∈R+ Synthetic minority oversampling technique,SMOTE) 令Y=y1,…,ynJT,基于KKT优化条件求解式等方法.由于单独采用欠采样方法可能导致样本 (1)的优化问题，可得输出权重：信息丢失，单独采用过采样方法可能导致分类器 B=HT(C-I+HHT)Y (2) 出现增加时间开销、过拟合现象等问题，于是人们较多采用混合采样的非均衡数据处理方法).包括其中，隐层输出矩阵H=[h(x)T,…,h(xn)TT,I表示谷琼等22提出的一种基于SMOTE-Clustering的混单位矩阵合采样算法；冯宏伟等m提出的基于“变异系数” 最终，对于输入z,ELM的输出为：的边界混合采样方法(Boundary mixed sampling, (3) BMS);陶新民等2]提出的基于随机欠采样 =e=ahr+aHy (Random under--sampling,.RU)与SMOTE相结合的应用Mercer条件定义核矩阵2=HHT,i,)= SVM算法等 h(x)h(x)T=k(x,x)表示中第i行第j列的元素由于人为地增加样本或者减少样本都不可避应用基于核函数的隐式映射代替传统的显式特征

KEY WORDS imbalanced data；neighbor relationship；resample；local density；classification 非平衡数据的分类问题已经成为当今许多数据密集型应用中一个关键的研究方向[1] ，例如信用卡欺诈数据[2]、网络入侵[3]、金融工程[4]、生物医学数据分析[5] 和设备故障检测[6] 等. 这类应用中的少数类样本通常蕴含重要的信息，是数据分析的重要目标，其已成为数据挖掘研究的热点之一[7] . 例如在设备故障检测应用中，不平衡的测试数据广泛存在，通常正常样本的数据量要远远大于故障样本[8] . 由此导致使用传统的故障诊断方法训练所得的结果分类器对正常样本产生很高的检测率，对故障样本的检测和隔离效果却很差，而故障样本的检测率在故障诊断领域中更有意义，也更为重要. 目前，机器学习和数据挖掘领域针对不平衡数据集的处理思路[9] 主要有两大类：改进算法[10] 以适应非平衡数据集，或者对数据集进行重构[1] 以适应现有的分类算法. 改进算法是指在算法层面进行改进以适应非平衡学习问题，如代价敏感学习 [11]、支持向量机 [12] （ Support vector machine， SVM）、集成学习[13] 等. 通过修改算法中的代价敏感信息以适应数据不平衡，但也面临着一些问题，如修改算法后如何避免分类性能恶化，多类分类问题的代价敏感信息确定困难等[14] . 数据集重构也称为重采样方法，它在不修改分类算法的情况下修改训练数据集的大小，可容易地应用于任何分类算法. 重采样方法利用少数类样本过采样和多数类样本欠采样两种手段[15] ，人为调整实例数量来平衡数据集的分布. 欠采样主要包括随机欠抽样[16]、单边选择[17]、近邻清理[18] 和基于欧氏距离的随机欠抽样[19] 等方法，过采样主要有随机插值、先验复制[14] 和合成少数类过采样技术[20−21] （Synthetic minority oversampling technique，SMOTE）等方法. 由于单独采用欠采样方法可能导致样本信息丢失，单独采用过采样方法可能导致分类器出现增加时间开销、过拟合现象等问题，于是人们较多采用混合采样的非均衡数据处理方法[7] . 包括谷琼等[22] 提出的一种基于 SMOTE-Clustering 的混合采样算法；冯宏伟等[7] 提出的基于“变异系数” 的边界混合采样方法（ Boundary mixed sampling， BMS）；陶新民等 [23] 提出的基于随机欠采样（Random under-sampling，RU）与 SMOTE 相结合的 SVM 算法等. 由于人为地增加样本或者减少样本都不可避免的会导致噪声点增加并损失数据原有信息，从而降低分类精度，因此合理的过采样和欠采样方法是重采样方法的核心. 为了对数据集做有效的均衡化处理，本文提出了一种基于样本空间近邻关系的重采样（ Resampling based on neighbour Relationship，RBNR）方法. 本方法首先根据数据集中少数类样本的空间近邻关系进行安全级别评估[24] ，根据安全级别有指导的进行 SMOTE 升采样；然后对多数类样本依据其空间近邻关系计算局部密度[7] ，从而对多数类样本密集区域进行降采样处理. 采用十折交叉验证的方式产生训练集和测试集，在对训练集进行重采样之后，以核超限学习机（Kernel extreme learning machine，KELM） [25] 作为分类器进行训练，并在测试集上进行了验证. 1 基本算法与相关定义 1.1 核超限学习机 DTr = {(xi , yi)} n i=1 xi ∈ R d d ∈ R xi n yi = [yi1,··· , yim] T xi m ∈ R yi 给定训练集，其中表示训练样本，表示的维数，为样本总数；为与对应的理想输出向量，其中表示的维数. 此时，ELM 模型定义为 min β,ξ 1 2 ∥β∥ 2 F +C 1 2 ∑n i=1 ∥ξi∥ 2 2 , s.t. h(xi)β = yi −ξi ,i = 1,2,··· ,n （1） || · ||F || · ||2 h(xi) = [h1(xi),··· ,hL(xi)] xi β = [β1,··· , βL] T ξi = [ξi1, ξi2,··· , ξim] T xi C C ∈ R + 其中，和分别表示矩阵的 F 范数和向量的 2 范数；表示隐层神经元对输入样本的映射向量；是模型输出权重向量； L 代表隐层神经元个数；表示对应于的训练误差；是正则化参数，并且 . Y = [y1,··· , yn] 令 T ，基于 KKT 优化条件求解式（1）的优化问题，可得输出权重： β = H T ( C −1 I+ HHT )−1 Y （2） H = [h(x1) T ,··· , h(xn) T ] T 其中，隐层输出矩阵，I 表示单位矩阵. 最终，对于输入 z，ELM 的输出为： f(z) = h(z)β=h(z)H T ( I C + HH T )−1 Y （3） Ω = HHT δ(i, j) = h(xi)· h(xj) T = k(xi , xj) Ω 应用 Mercer 条件定义核矩阵，表示中第 i 行第 j 列的元素. 应用基于核函数的隐式映射代替传统的显式特征李睿峰等：基于空间近邻关系的非平衡数据重采样算法 · 863 ·

864 工程科学学报，第43卷，第6期映射，可得ELM的核化形式(KELM),其输出为： 2RBNR算法 f(2)=h(2)H(C-I+H)Y RBNR重采样算法首先评估原始数据集中少 k(x1,Z) T 数类样本的安全级别，基于其安全级别进行SMOTE (C1+2)y (4) 升采样，从而增加少数类样本的占比；对于多数类 I k(xn,Z) 样本，寻找出局部密度较大的区域，样本量二倍于与传统ELM相比，KELM无需设置映射函数降采样数量，进行随机减采样，从而对多数类子集和隐层神经元数量，人为干预更少，能有效避免隐进行约简.算法流程如图1所示层神经元随机赋值导致的泛化性和稳定性降低的问题.同时，KELM又继承了传统ELM在处理分 START 类任务上的优势：①以最小化训练误差和输出权重范数为训练目标，相对于其它传统人工神经网 Original data 络(Artificial neural network,ANN)算法具有更高的泛化性能，从而抑制过拟合：②简洁高效的 Minority samples Majority samples 隐层结构能够大量压缩算法运行时间和内存空间开支26-2刃 Security level Local density 1.2安全级别每个少数类样本x的安全级别slx定义为x的 Sample pairs for linear Dense area interpolation K个最近邻样本中少数类样本的个数安全级 Twice as many samples as 别越大，说明该样本越靠近少数类的中心：安全级 SMOTE algorithm the reduced sample size 别越小，说明该样本越靠近分类边界.安全级别为0，则几乎可将该样本视为噪声. Oversample Under-sample 对少数类样本进行升采样，应当尽可能的接近样本原始分布，因此以安全级别指导SMOTE方 Resampled data 法对少数类样本进行升采样 1.3局部密度 END 在非均衡数据中正负样本数量差异较大，在图1RBNR算法流程图对少数类样本进行升采样时增加了样本总量.于 Fig.1 Flowchart of the RBNR algorithm 是，为控制数据集规模，可以适当减少样本密集区算法具体描述如下：域的多数类样本.因此，采用局部密度的概念2] 算法1RBNR算法识别非均衡数据中多数类样本的密集区域. 输入：定义1(k-距离)设D为数据集，k为任意正整 1)具有N个样本的训练数据集D1:=x,)% 数，定义对象p与对象o∈D之间的距离k diste(p片其中x∈R表示训练样本，deR表示x的维数， dist(p,o)为对象p的k-距离，满足条件： ∈T={-1,1为x对应的样本类别标签 ①存在不少于k个对象q∈D八{pP,使得dist(p,q)≤ 2)Nma:多数类样本量；Nmin:少数类样本量 dist(p,o); 3)k:用于评价安全级别的近邻数量； ②存在不多于k-l个对像q∈D八{P},使得dist(p,q)水 k2:用于计算局部密度的近邻数量 dist(p,o）. 算法主体：定义2(k-近邻)定义所有与p的距离小于等 Stepl根据两类样本的数量差确定升、降采于k-距离的对象为对象p的k←近邻.即：样量nup=nldown=[N/2]-Nmin q={q∈D八{pdist(p,q)≤k_dist(p)l (5) Step2根据样本间的欧氏距离，计算每个少定义3（局部密度）对象p与其k-近邻距离均数类样本k-近邻中少数类的个数，进而得到其安值的倒数定义为该点的局部密度：全级别slx,排除slx=O的样本并排序 1 Step3以安全级别由高到低的样本和安全级 Ldp）=dist(.p9)/M-isp） (6) 别由低到高的样本依次构成用于插值的样本对. 其中，Vk-dist((p)表示对象p的k-近邻个数 Step4遍历Step3中的样本对，按SMOTE方

映射，可得 ELM 的核化形式（KELM），其输出为： f(z) = h(z)H T ( C −1 I+ HHT )−1 Y =   k(x1,z) . . . k(xn,z)   T ( C −1 I+Ω )−1 Y （4）与传统 ELM 相比，KELM 无需设置映射函数和隐层神经元数量，人为干预更少，能有效避免隐层神经元随机赋值导致的泛化性和稳定性降低的问题. 同时，KELM 又继承了传统 ELM 在处理分类任务上的优势：①以最小化训练误差和输出权重范数为训练目标，相对于其它传统人工神经网络（ Artificial neural network， ANN）算法具有更高的泛化性能，从而抑制过拟合[14] ；②简洁高效的隐层结构能够大量压缩算法运行时间和内存空间开支[26−27] . 1.2 安全级别 xi slxi 每个少数类样本的安全级别定义为 xi 的 K 个最近邻样本中少数类样本的个数[24] . 安全级别越大，说明该样本越靠近少数类的中心；安全级别越小，说明该样本越靠近分类边界. 安全级别为 0，则几乎可将该样本视为噪声. 对少数类样本进行升采样，应当尽可能的接近样本原始分布，因此以安全级别指导 SMOTE 方法对少数类样本进行升采样. 1.3 局部密度在非均衡数据中正负样本数量差异较大，在对少数类样本进行升采样时增加了样本总量. 于是，为控制数据集规模，可以适当减少样本密集区域的多数类样本. 因此，采用局部密度的概念[28] 识别非均衡数据中多数类样本的密集区域. 定义 1（k–距离）设 D 为数据集，k 为任意正整数，定义对象 p 与对象 o∈D 之间的距离 k_dist(p)= dist(p,o) 为对象 p 的 k–距离，满足条件： ①存在不少于k 个对象q∈D\{p}，使得dist(p,q)≤ dist(p,o)； ②存在不多于k–1 个对象q∈D\{p}，使得dist(p,q)< dist(p,o). 定义 2（k–近邻）定义所有与 p 的距离小于等于 k–距离的对象为对象 p 的 k–近邻. 即： q = {q ∈ D\{p}|dist(p,q) ⩽ k_dist(p)} （5）定义 3（局部密度）对象 p 与其 k–近邻距离均值的倒数定义为该点的局部密度： Ld(p) = 1 ∑ dist(p,q)/Nk-dist(p) （6）其中， Nk-dist(p) 表示对象 p 的 k–近邻个数. 2 RBNR 算法 RBNR 重采样算法首先评估原始数据集中少数类样本的安全级别，基于其安全级别进行 SMOTE 升采样，从而增加少数类样本的占比；对于多数类样本，寻找出局部密度较大的区域，样本量二倍于降采样数量，进行随机减采样，从而对多数类子集进行约简. 算法流程如图 1 所示. Original data Security level Local density Twice as many samples as the reduced sample size Under-sample SMOTE algorithm Oversample Sample pairs for linear Dense area interpolation START END Minority samples Majority samples Resampled data 图 1 RBNR 算法流程图 Fig.1 Flowchart of the RBNR algorithm 算法具体描述如下：算法 1 RBNR 算法输入： DTr = {(xi ,ti)} N i=1 xi ∈ R d d ∈ R xi ti ∈ T = {−1, 1} xi 1）具有 N 个样本的训练数据集，其中表示训练样本，表示的维数，为对应的样本类别标签. 2） Nmaj ：多数类样本量； Nmin ：少数类样本量. 3） k1：用于评价安全级别的近邻数量； k2：用于计算局部密度的近邻数量. 算法主体： nup = ndown = [N/2]−Nmin Step1 根据两类样本的数量差确定升、降采样量 . slxi slxi = 0 Step2 根据样本间的欧氏距离，计算每个少数类样本 k1–近邻中少数类的个数，进而得到其安全级别，排除的样本并排序. Step3 以安全级别由高到低的样本和安全级别由低到高的样本依次构成用于插值的样本对. Step4 遍历 Step3 中的样本对，按 SMOTE 方 · 864 · 工程科学学报，第 43 卷，第 6 期

李睿峰等：基于空间近邻关系的非平衡数据重采样算法 865 法依次进行插值，遍历结束则进行第二轮插值，直其中，PA=Rc为真正率，NA=TN/(TN+FP)为真负率到生成nup个新样本. 3.2UCI数据集 Step5将新样本添加到原始数据集中 UCI数据库是机器学习领域中使用最广泛的 Step6对于每个多数类样本，根据2-近邻计公开数据库之一，为客观验证所提算法的整体性算局部密度（详见1.3节），并从大到小排序能，选取其中具有非平衡性特征的数据集进行实 Step7按排序结果选取前2 ndown个样本，从中验，数据集描述如表2 随机删除ndown个样本表2选用的UCI数据集 Step8得到少数类升采样和多数类降采样后 Table 2 UCI data set 的新数据集 Data set Dimension Minority /majority Imbalance ratio 3实验分析 CTG 21 176/1655 1:9.403 Diabetes 268/500 1:1.866 3.1评价指标 Glass 9 42/172 14.095 在非平衡分类问题的研究中，通常基于混淆 Wine 48/130 1:2.708 矩阵（如表1）来评价算法的性能可，表1中，TP FN,FP,TN均表示个数. 其中：CTG数据集为胎儿心电图数据，以“正常"为多数类，“病态”为少数类；Diabetes为糖尿病表1混淆矩阵 Table 1 Confusion matrix 人的身体监测数据集，直接将两个类别分别作为多数类和少数类：Glass为玻璃类型分类数据集， Category Classified as minority Classified as majority 以前四类作为多数类，后两类作为少数类；wine数 Minority TP FN Majority FP TN 据集为三个不同品种的葡萄酒化学分析结果，将第1、2类合并为多数类，第3类作为少数类 (1)召回率（又称查全率），表示正类（少数类） 33实验设计样本被预测正确的比例，即 (1)电路选型电子电路的测试和故障诊断技术对提升电子 Rc=TP/(TP+FN) (7) 产品的可靠性、降低生产成本等方面具有重要意 (2)F-value评价少数类的分类精度，定义如下：义，因此实验选取串联稳压电路（图2）作为应用 F-value=(1+a2).Rc.PR/(a2.Rc+PR) (8) 案例来分析所提方法在电子电路故障诊断中的性其中，PR=TP/(TP+FP)为少数类样本的查准率（又能.该电路包含20个可更换单元，共可产生58个称为精准率).通常令调节参数α=1. 硬故障，即各个元器件上的短路和开路故障.在输 (3)G-mean用以衡量算法对少数类和多数类入端施加信号幅度为10V、频率为50Hz的正弦进行分类的均衡程度，定义如下：波信号，从8个测试点上收集稳态电压信息，取电 G-mean =PA.NA (9) 压值特征作为原始测试数据 Triode 1 2N3906 in Source Resistor 1 Triode 2 ⑦AC 卡 k Resistor 7 Resistor 4 Resistor 5 1.8k 2N3906 10V U820Q J3600 J1.05k Diode I Diode 2 50Hz1N4007 1N4007 2 Load Resistor Resistor 2 Triode3 Triode 4 1002 Diode 4 Diode3 2.7k0 2N3906 2N3906 Capacitor 3 1N4007 1N4007 6 470uF Capacitor 1 Capacitor 2 Diode 5 Resistor 6 470μF 100μF Resistor 8 J1.5k2 30Ω 1N4096 Resistor 3 1 图2串联稳压电路 Fig.2 Serial regulating circuit

nup 法依次进行插值，遍历结束则进行第二轮插值，直到生成个新样本. Step5 将新样本添加到原始数据集中. Step6 对于每个多数类样本，根据 k2−近邻计算局部密度（详见 1.3 节），并从大到小排序. 2ndown ndown Step7 按排序结果选取前个样本，从中随机删除个样本. Step8 得到少数类升采样和多数类降采样后的新数据集. 3 实验分析 3.1 评价指标在非平衡分类问题的研究中，通常基于混淆矩阵（如表 1）来评价算法的性能[7] ，表 1 中，TP， FN，FP，TN 均表示个数. 表 1 混淆矩阵 Table 1 Confusion matrix Category Classified as minority Classified as majority Minority TP FN Majority FP TN （1）召回率（又称查全率），表示正类（少数类）样本被预测正确的比例，即 RC = TP/(TP+FN) （7）（2）F-value 评价少数类的分类精度，定义如下： F-value = (1+α 2 )·RC · PR/(α 2 ·RC + PR) （8） PR = TP/(TP+FP) α = 1 其中，为少数类样本的查准率（又称为精准率）. 通常令调节参数 . （3）G-mean 用以衡量算法对少数类和多数类进行分类的均衡程度，定义如下： G-mean = √ PA ·NA （9）其中， PA = RC 为真正率， NA = TN/(TN+FP) 为真负率. 3.2 UCI 数据集 UCI 数据库是机器学习领域中使用最广泛的公开数据库之一，为客观验证所提算法的整体性能，选取其中具有非平衡性特征的数据集进行实验，数据集描述如表 2. 表 2 选用的 UCI 数据集 Table 2 UCI data set Data set Dimension Minority /majority Imbalance ratio CTG 21 176/1655 1:9.403 Diabetes 8 268/500 1:1.866 Glass 9 42/172 1:4.095 Wine 13 48/130 1:2.708 其中：CTG 数据集为胎儿心电图数据，以“正常”为多数类，“病态”为少数类；Diabetes 为糖尿病人的身体监测数据集，直接将两个类别分别作为多数类和少数类；Glass 为玻璃类型分类数据集，以前四类作为多数类，后两类作为少数类；Wine 数据集为三个不同品种的葡萄酒化学分析结果，将第 1、2 类合并为多数类，第 3 类作为少数类. 3.3 实验设计（1）电路选型. 电子电路的测试和故障诊断技术对提升电子产品的可靠性、降低生产成本等方面具有重要意义[29] ，因此实验选取串联稳压电路（图 2）作为应用案例来分析所提方法在电子电路故障诊断中的性能. 该电路包含 20 个可更换单元，共可产生 58 个硬故障，即各个元器件上的短路和开路故障. 在输入端施加信号幅度为 10 V、频率为 50 Hz 的正弦波信号，从 8 个测试点上收集稳态电压信息，取电压值特征作为原始测试数据. Capacitor 1 470 μF Source AC 10 V 50 Hz in 1 0 1 Triode 1 2N3906 Resistor 1 1.8 kΩ Diode 1 1N4007 Diode 2 1N4007 Diode 4 1N4007 Diode 3 1N4007 Capacitor 2 100 μF Resistor 2 2.7 kΩ Triode 2 2N3906 Resistor 7 820 Ω Resistor 4 360 Ω Resistor 8 30 Ω Diode 5 1N4096 Resistor 3 1 Ω Resistor 5 1.05 kΩ Resistor 6 1.5 kΩ Capacitor 3 470 μF Load Resistor 100 Ω Triode 3 2N3906 Triode 4 2N3906 + + + 2 3 5 6 7 8 4 图 2 串联稳压电路 Fig.2 Serial regulating circuit 李睿峰等：基于空间近邻关系的非平衡数据重采样算法 · 865 ·

866 工程科学学报，第43卷，第6期 (2)实验环境测试点1作为整流桥输出点，采集了其信号稳定依托实验室现有的激励、测试仪器，通过实物后电压最大值max和最小值mim,测试点测量的方式，获取电路正常和故障状态下的测试 2~8均采集了信号稳定后的电压有效值，即数据.测试环境如图3 2~'),不平衡比为1：4.17.根据不平衡数据集分类问题的相关研究，92，该不平衡比例具有一定的代表性.数据集记为Regulator,,部分数据如表3. 3.4参数分析将RBNR算法与SMOTE过采样方法、随机欠采样与SMOTE相结合的算法(RU-SMOTE)2]和基于“变异系数”的边界混合采样方法BMSM进行对比实验，分类器均采用KELM.在传统的面向分类问题的机器学习方法中，普遍采用最小化交叉验证分类误差的方式选取模型参数.KELM涉及到核函数、正则化参数与核参数的设置，借鉴文图3测试环境图献26]~[27I,核函数选用RBF核，正则化参数 Fig.3 Testing environment C取值范围设定为10,10，，10,10)，在训练样 (3)测试数据集本间的最大欧式距离和最小欧式距离间等间隔取通过重复测试，共采集到188组正常状态下的 20个离散值作为核参数σ的范围（调用dd tools工样本，此后电路发生故障，电容1击穿，后采集了具箱的scale_range函数实现).采用网格搜索法， 45组故障状态下的样本，特征维数为9（其中图中以最小化交叉验证分类误差为目标，确定各参数表3电路实测数据（部分） Table 3 Some circuit measured data ID VimaV VimiNV VN VN VNV VN VeN VNV VsIV Attribute -7.730 -6.360 -6.923 -6.928 -6.281 -2.811 -2.981 -5.579 -0.140 2 -7.794 -6.337 -6.953 6.955 -6.297 -2.781 -2.969 -5.603 -0.134 normal 188 -7.706 -6.344 -6.943 -6.945 -6.271 -2.812 -3.020 -5.613 -0.148 189 -7.760 -6.622 -7.106 -7.089 -6.533 -2.656 -2.456 -4.548 -0.133 faulty 233 -7.792 -6.597 -7.078 -7.049 -6.503 -2.670 -2.544 -4.726 -0.113 由前文可知，RBNR算法为了使数据集分布均文献[7]并未给出BMS算法中有关KBMs距离衡，根据两类样本的数量差，令升、降采样量相等值和变异系数阈值如何设置的相关说明，文献[28] 为公平起见，将RU-SMOTE算法和BMS算法中的将KBMs值设置为20并结合实验指出变异系数阈升、降采样量也设为相等Wup=Ndown,.SMOTE算值设置在0.2~0.3之间能够得到较好的边界检测法只包含升采样，令其升采样量与其他三种算法结果.但是对于那些样本总量较大（例如多于中少数类样本的升采样量设置为相同值，进而确 1000)的数据集而言，将KBMs值设置为20并不科定采样倍率Vsample=[Wup/Wmin]文献[2O]将SMOTE 学，且在实验中发现，一些数据集的变异系数值都算法中的最近邻阈值KSMOTE设置为采样倍率的2.5 远大于0.3.因此将变异系数阈值根据变异系数排倍，因此在实验中将其设置为KSMOTE=[Vsample×2.5]. 序后的数值取突变点处的值更为合理，突变点可 RBNR算法涉及少数类样本近邻值k1和多数类样以通过寻找相邻样本变异系数差值最大处来确本近邻值k2两个参数，采用网格搜索法，最终确定定.固定变异系数阈值，将正则化参数C设置为 k1=Nmin和k2=Nmai/3时算法性能总体最优 1,核参数σ取训练样本最大欧式距离和最小欧式

（2）实验环境. 依托实验室现有的激励、测试仪器，通过实物测量的方式，获取电路正常和故障状态下的测试数据. 测试环境如图 3. 图 3 测试环境图 Fig.3 Testing environment （3）测试数据集. 通过重复测试，共采集到 188 组正常状态下的样本，此后电路发生故障，电容 1 击穿，后采集了 45 组故障状态下的样本，特征维数为 9（其中图中测试点 1 作为整流桥输出点，采集了其信号稳定后电压最大值 V1_max 和最小值 V1_min，测试点 2～ 8 均采集了信号稳定后的电压有效值，即 V2～V8），不平衡比为 1∶4.17. 根据不平衡数据集分类问题的相关研究[7, 9, 12, 22] ，该不平衡比例具有一定的代表性. 数据集记为 Regulator，部分数据如表 3. 3.4 参数分析 ,··· 将 RBNR 算法与 SMOTE 过采样方法、随机欠采样与 SMOTE 相结合的算法（RU-SMOTE） [23] 和基于“变异系数”的边界混合采样方法 BMS[7] 进行对比实验，分类器均采用 KELM. 在传统的面向分类问题的机器学习方法中，普遍采用最小化交叉验证分类误差的方式选取模型参数. KELM 涉及到核函数、正则化参数与核参数的设置，借鉴文献 [26]～ [27]，核函数选用 RBF 核，正则化参数 C 取值范围设定为{10−5,10−4 ,104 ,105 }，在训练样本间的最大欧式距离和最小欧式距离间等间隔取 20 个离散值作为核参数 σ 的范围（调用 dd_tools 工具箱的 scale_range 函数实现）. 采用网格搜索法，以最小化交叉验证分类误差为目标，确定各参数. 表 3 电路实测数据（部分） Table 3 Some circuit measured data ID V1_max/V V1_min/V V2 /V V3 /V V4 /V V5 /V V6 /V V7 /V V8 /V Attribute 1 −7.730 −6.360 −6.923 −6.928 −6.281 −2.811 −2.981 −5.579 −0.140 normal 2 −7.794 −6.337 −6.953 −6.955 −6.297 −2.781 −2.969 −5.603 −0.134 …… 188 −7.706 −6.344 −6.943 −6.945 −6.271 −2.812 −3.020 −5.613 −0.148 189 −7.760 −6.622 −7.106 −7.089 −6.533 −2.656 −2.456 −4.548 −0.133 …… faulty 233 −7.792 −6.597 −7.078 −7.049 −6.503 −2.670 −2.544 −4.726 −0.113 Nup = Ndown Nsample = [Nup/Nmin] KSMOTEKSMOTE = [Nsample ×2.5] k1 k2 k1 = Nmin k2 = Nmaj/3 由前文可知，RBNR 算法为了使数据集分布均衡，根据两类样本的数量差，令升、降采样量相等. 为公平起见，将 RU-SMOTE 算法和 BMS 算法中的升、降采样量也设为相等 . SMOTE 算法只包含升采样，令其升采样量与其他三种算法中少数类样本的升采样量设置为相同值，进而确定采样倍率 . 文献 [20] 将 SMOTE 算法中的最近邻阈值设置为采样倍率的 2.5 倍，因此在实验中将其设置为 . RBNR 算法涉及少数类样本近邻值和多数类样本近邻值两个参数，采用网格搜索法，最终确定和时算法性能总体最优. KBMS KBMS KBMS 文献 [7] 并未给出 BMS 算法中有关距离值和变异系数阈值如何设置的相关说明，文献 [28] 将值设置为 20 并结合实验指出变异系数阈值设置在 0.2～0.3 之间能够得到较好的边界检测结果. 但是对于那些样本总量较大（例如多于 1000）的数据集而言，将值设置为 20 并不科学，且在实验中发现，一些数据集的变异系数值都远大于 0.3. 因此将变异系数阈值根据变异系数排序后的数值取突变点处的值更为合理，突变点可以通过寻找相邻样本变异系数差值最大处来确定. 固定变异系数阈值，将正则化参数 C 设置为 1，核参数 σ 取训练样本最大欧式距离和最小欧式 · 866 · 工程科学学报，第 43 卷，第 6 期

李睿峰等：基于空间近邻关系的非平衡数据重采样算法 867. 距离间的中值，令KBMs在0.1~0.9倍样本总数之和G-mean均值如图4所示.综合考虑，KBMs距离间取值，以0.1倍为步进，在5个数据集上的F-valve 值取0.5倍样本总数是最合适的 1.0 1.0 1.0 0.9 0.9 2o 0.8 0.8 0.8 0.7 07 0.6 0 50.6 0.5 0.5 iabetes 0.5 iabetes Glass 0.4 0.4 1n6 (a) Regulator (b) Regulator 0.4 (c) Regulator 0.3 0.3 0.3 0 0.2 0.40.60.8 1.0 0 0.20.40.60.8 1.0 0.20.40.6 0.8 1.0 The ratio of Kays to the total number The ratio of Kavs to the total number The ratio of Ks to the total number of samples of samples of samples 图4BMS算法参数分析.(a)Rc值分析：(b)F-valve值分析：(c)G-mean值分析 Fig.4 Parameter analysis of BMS:(a)analysis of the R;(b)analysis of the F-valve;(c)analysis of the G-mean 3.5结果分析 C和核参数σ，模型参数标注在最后一列.计算为消除随机因素的影响，取5×10折交叉验证 50个结果中Rc、F-value和G-mean有效数据的统的方式，每次实验前随机生成训练集和测试集.在计平均值，将最大值加粗表示：计算实验结果的标实验之前，运行一次交叉验证以确定正则化参数准差，将最小值加粗表示.结果如表4. 表4F-value和G-mean性能比较 Table 4 Comparison between the F-value and G-mean F-value G-mean Parameter value Data set Algorithm Mean Std Mean Std Mean Std 0 SMOTE 1 0 0.9714 0.0782 0.9976 0.0045 0.1 4.9849 RU-SMOTE 1 0 0.9849 0.0389 0.9984 0.0034 4.9056 CTG BMS 0.9983 0.0118 0.9825 0.0342 0.9972 0.0068 5.0038 RBNR 1 0 0.9870 0.0382 0.9988 0.0030 5.0123 SMOTE 0.6966 0.0852 0.6515 0.0694 0.7318 0.0486 2.7590 RU-SMOTE 0.5775 0.1121 0.6330 0.0830 0.7079 0.0670 3.3938 Diabetes BMS 0.6656 0.1102 0.6595 0.0801 0.7357 0.0652 0.1 3.0312 RBNR 0.7871 0.0895 0.6832 0.0624 0.7554 0.0497 01 3.0156 SMOTE 0.8985 0.1529 0.8902 0.1125 0.9319 0.0865 0 1.2357 RU-SMOTE 0.8523 0.1934 0.8608 0.1266 0.8915 0.1558 10 1.2156 Glass BMS 0.8656 0.2157 0.8909 0.1371 0.9062 0.1670 10 33978 RBNR 0.9086 0.1295 0.9062 0.0996 0.9416 0.0693 1.4562 SMOTE 1 0 0.9818 0.0513 0.9949 0.0152 10 3.9758 RU-SMOTE 1 0 0.9770 0.0507 0.9914 0.0181 10 3.6135 Wine BMS 0.9971 0.0202 0.9600 0.0827 0.9874 0.0230 100 4.0360 RBNR 1 0 0.9789 0.0454 0.9919 0.0146 10 3.7833 SMOTE 0.9272 0.1303 0.8496 0.1067 0.9314 0.0715 1000 1.5781 RU-SMOTE 0.9320 0.2114 0.8304 0.1118 0.8999 0.1931 10 4.7342 Regulator BMS 0.8685 0.1930 0.8731 0.1007 0.9025 0.1526 0.01 3.6821 RBNR 0.9075 0.1248 0.8947 0.1043 0.9361 0.0699 10 4.6943 由实验结果可以得出以下结论：①无论是选 RBNR算法取得的Rc均值、F-value均值和G- 用UCI数据集还是电路实测数据进行训练， mean均值在绝大多数情况下是最高的.②虽然

距离间的中值，令 KBMS 在 0.1～0.9 倍样本总数之间取值，以 0.1 倍为步进，在 5 个数据集上的 F-valve 和 G-mean 均值如图 4 所示. 综合考虑， KBMS 距离值取 0.5 倍样本总数是最合适的. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (a) Diabetes Glass Wine Regulator RC 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (b) Diabetes Glass Wine Regulator F-value 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (c) Diabetes Glass Wine Regulator G-mean 0 图 4 BMS 算法参数分析. （a）RC 值分析；（b）F-valve 值分析；（c）G-mean 值分析 Fig.4 Parameter analysis of BMS: (a) analysis of the RC; (b) analysis of the F-valve; (c) analysis of the G-mean 3.5 结果分析为消除随机因素的影响，取 5×10 折交叉验证的方式，每次实验前随机生成训练集和测试集. 在实验之前，运行一次交叉验证以确定正则化参数 C 和核参数 σ，模型参数标注在最后一列. 计算 50 个结果中 RC、F-value 和 G-mean 有效数据的统计平均值，将最大值加粗表示；计算实验结果的标准差，将最小值加粗表示. 结果如表 4. 表 4 F-value 和 G-mean 性能比较 Table 4 Comparison between the F-value and G-mean Data set Algorithm RC F-value G-mean Parameter value Mean Std Mean Std Mean Std C σ CTG SMOTE 1 0 0.9714 0.0782 0.9976 0.0045 0.1 4.9849 RU-SMOTE 1 0 0.9849 0.0389 0.9984 0.0034 1 4.9056 BMS 0.9983 0.0118 0.9825 0.0342 0.9972 0.0068 1 5.0038 RBNR 1 0 0.9870 0.0382 0.9988 0.0030 1 5.0123 Diabetes SMOTE 0.6966 0.0852 0.6515 0.0694 0.7318 0.0486 1 2.7590 RU-SMOTE 0.5775 0.1121 0.6330 0.0830 0.7079 0.0670 1 3.3938 BMS 0.6656 0.1102 0.6595 0.0801 0.7357 0.0652 0.1 3.0312 RBNR 0.7871 0.0895 0.6832 0.0624 0.7554 0.0497 0.1 3.0156 Glass SMOTE 0.8985 0.1529 0.8902 0.1125 0.9319 0.0865 10 1.2357 RU-SMOTE 0.8523 0.1934 0.8608 0.1266 0.8915 0.1558 10 1.2156 BMS 0.8656 0.2157 0.8909 0.1371 0.9062 0.1670 10 3.3978 RBNR 0.9086 0.1295 0.9062 0.0996 0.9416 0.0693 1 1.4562 Wine SMOTE 1 0 0.9818 0.0513 0.9949 0.0152 10 3.9758 RU-SMOTE 1 0 0.9770 0.0507 0.9914 0.0181 10 3.6135 BMS 0.9971 0.0202 0.9600 0.0827 0.9874 0.0230 100 4.0360 RBNR 1 0 0.9789 0.0454 0.9919 0.0146 10 3.7833 Regulator SMOTE 0.9272 0.1303 0.8496 0.1067 0.9314 0.0715 1000 1.5781 RU-SMOTE 0.9320 0.2114 0.8304 0.1118 0.8999 0.1931 10 4.7342 BMS 0.8685 0.1930 0.8731 0.1007 0.9025 0.1526 0.01 3.6821 RBNR 0.9075 0.1248 0.8947 0.1043 0.9361 0.0699 10 4.6943 由实验结果可以得出以下结论：① 无论是选用 UCI 数据集还是电路实测数据进行训练， RBNR 算法取得的 RC 均值、 F-value 均值和 Gmean 均值在绝大多数情况下是最高的. ②虽然李睿峰等：基于空间近邻关系的非平衡数据重采样算法 · 867 ·

868 工程科学学报，第43卷.第6期在Wine数据集上，采用SMOTE算法得到的F- 本；此外，其分类结果在其他数据集上表现也并 value均值和G-mean均值更高一些，但是RBNR 不好.④由于每次都随机产生训练集和测试集，算法的结果与之非常接近且更稳定（标准差最从多次重复训练的结果来看，本文所提算法在多低)，并且SMOTE算法得到的重采样数据集规模次交叉验证中所得Rc、F-value和G-mean值的标会很大，冗余数据给后续的分类器处理过程带来准差大部分都是最低的（在个别不是最低的情况了较大的开销.③在Regulator数据集上，采用下也与最低值相差很小)，说明算法性能较为稳 RU-SMOTE算法得到的Rc均值最高，但是其标定，在整体上具有更为优良的性能.⑤在数据规准差也是最高的，说明该算法的稳定性较差；而模相当的情况下，RBNR普遍优于RU-SMOTE和且RU-SMOTE算法在Regulator数据集上取得的 BMS算法，且RBNR算法在某些数据集(Diabetes、 F-value均值和G-mean均值均为最低，说明该算 Glass)上优势显著法在提高少数类样本召回率的前提下没能兼顾为了更直观的进行对比，将表4中的Rc、F-value 到多数类，可能随机删除了一些重要的多数类样和G-mean值绘制了柱状图，如图5. SMOTE BMS SMOTE ▣BMS SMOTE ▣BMS ▣RU.SMOTE ☐RBNR ☐RU-SMOTE ☐RBNR ☐RU-SMOTE ☐RBNR 1.0 1.0 1.0 0.9 09 0.9 0.8 08 0.8 0.7 anjeA-d 0.7 0.7 0.6 6 0.6 0.5 0.5 0.5 (a) (b) 0.4 0.4 CTG Diabetes Regulator CTG Regulator CTG lato Data set Data set Data set 图5结果对比柱状图.(a)Rc值对比：(b)F-vaue值对比：(c)G-mean值对比 Fig.5 Bar graph of result comparison:(a)comparison of Rc;(b)comparison of F-value;(c)comparison of G-mean 从整体来看，RBNR算法是明显优于其他算法数据不平衡问题进行研究的，其分类效果也更为稳定参考文献 4结论 [1]Chen S.He H B.Garcia E A.RAMOBoost:Ranked minority 数据挖掘领域的研究者们提出了大量的重采 oversampling in boosting.IEEE Trans Neural Networks,2010. 样算法用于解决数据集非平衡问题，而这一问题 21(10):1624 的关键就在于如何使得重采样之后的新数据集更 [2]Xiao Y C,Wang H G,Zhang L,et al.Two methods of selecting 接近真实的样本分布，因此本文提出了一种基于 Gaussian kernel parameters for one-class SVM and their application to fault detection.Knowledge-Based Syst,2014,59:75 空间近邻关系的混合重采样算法RBNR来解决这 [3] Miao Z M,Zhao L W,Yuan W W,et al.Multi-class imbalanced 一问题.实验表明，以KELM作为分类器，Rc、F- learning implemented in network intrusion detection /2011 value和G-mean作为评价指标，RBNR的总体性能 International Conference on Computer Science and Service System 优于SMOTE、RU-SMOTE和BMS算法.这是由 (CSSS).Nanjing.2011:1395 于RBNR算法通过计算安全级别.以一种更接近 [4] Smailovic J,Grear M,Lavrac N,et al.Stream-based active 少数样本原始分布的方式指导升采样，而不是像 leamning for sentiment analysis in the financial domain.Inform Sci, SMOTE算法一样随机扩充数据，也不像BMS算 2014,28:181 法一样只扩充边界少数类（事实上这种方法更容 [5]Liu Y Q,Wang C,Zhang L.Decision tree based predictive models for breast cancer survivability on imbalanced data /2009 3rd 易引入噪声).通过计算局部密度，约简多数类样 International Conference on Bioinformatics and Biomedical 本密集区域，从而更加合理的控制了数据规模.这 Engineering.Beijing,2009:1 种根据空间近邻关系视情处理的方式，可以更加 [6] Gao M Z,Xu A Q,Xu Q.Fault detection method of electronic 有效地均衡化原始数据集.本文存在的不足在于 equipment based on SL-SMOTE and CS-RVM.Comput Eng Appl, 只是针对二分类问题，后续将针对多类分类中的 2019,55(4):185

在 Wine 数据集上，采用 SMOTE 算法得到的 Fvalue 均值和 G-mean 均值更高一些，但是 RBNR 算法的结果与之非常接近且更稳定（标准差最低），并且 SMOTE 算法得到的重采样数据集规模会很大，冗余数据给后续的分类器处理过程带来了较大的开销 . ③在 Regulator 数据集上，采用 RU-SMOTE 算法得到的 RC 均值最高，但是其标准差也是最高的，说明该算法的稳定性较差；而且 RU-SMOTE 算法在 Regulator 数据集上取得的 F-value 均值和 G-mean 均值均为最低，说明该算法在提高少数类样本召回率的前提下没能兼顾到多数类，可能随机删除了一些重要的多数类样本；此外，其分类结果在其他数据集上表现也并不好. ④由于每次都随机产生训练集和测试集，从多次重复训练的结果来看，本文所提算法在多次交叉验证中所得 RC、F-value 和 G-mean 值的标准差大部分都是最低的（在个别不是最低的情况下也与最低值相差很小），说明算法性能较为稳定，在整体上具有更为优良的性能. ⑤在数据规模相当的情况下，RBNR 普遍优于 RU-SMOTE 和 BMS 算法，且 RBNR 算法在某些数据集（Diabetes、 Glass）上优势显著. 为了更直观的进行对比，将表 4 中的 RC、F-value 和 G-mean 值绘制了柱状图，如图 5. 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (a) RC CTG F-value G-mean 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (b) CTG 1.0 0.9 0.8 0.7 0.6 0.5 SMOTE RU-SMOTE BMS RBNR 0.4 Regulator Glass Wine Diabetes Data set (c) CTG 图 5 结果对比柱状图. （a）RC 值对比；（b）F-value 值对比；（c）G-mean 值对比 Fig.5 Bar graph of result comparison: (a) comparison of RC; (b) comparison of F-value; (c) comparison of G-mean 从整体来看，RBNR 算法是明显优于其他算法的，其分类效果也更为稳定. 4 结论数据挖掘领域的研究者们提出了大量的重采样算法用于解决数据集非平衡问题，而这一问题的关键就在于如何使得重采样之后的新数据集更接近真实的样本分布，因此本文提出了一种基于空间近邻关系的混合重采样算法 RBNR 来解决这一问题. 实验表明，以 KELM 作为分类器，RC、Fvalue 和 G-mean 作为评价指标，RBNR 的总体性能优于 SMOTE、RU-SMOTE 和 BMS 算法. 这是由于 RBNR 算法通过计算安全级别，以一种更接近少数样本原始分布的方式指导升采样，而不是像 SMOTE 算法一样随机扩充数据，也不像 BMS 算法一样只扩充边界少数类（事实上这种方法更容易引入噪声）. 通过计算局部密度，约简多数类样本密集区域，从而更加合理的控制了数据规模. 这种根据空间近邻关系视情处理的方式，可以更加有效地均衡化原始数据集. 本文存在的不足在于只是针对二分类问题，后续将针对多类分类中的数据不平衡问题进行研究. 参考文献 Chen S, He H B, Garcia E A. RAMOBoost: Ranked minority oversampling in boosting. IEEE Trans Neural Networks, 2010, 21（10）: 1624 [1] Xiao Y C, Wang H G, Zhang L, et al. Two methods of selecting Gaussian kernel parameters for one-class SVM and their application to fault detection. Knowledge-Based Syst, 2014, 59: 75 [2] Miao Z M, Zhao L W, Yuan W W, et al. Multi-class imbalanced learning implemented in network intrusion detection // 2011 International Conference on Computer Science and Service System (CSSS). Nanjing, 2011: 1395 [3] Smailović J, Grčar M, Lavrač N, et al. Stream-based active learning for sentiment analysis in the financial domain. Inform Sci, 2014, 285: 181 [4] Liu Y Q, Wang C, Zhang L. Decision tree based predictive models for breast cancer survivability on imbalanced data // 2009 3rd International Conference on Bioinformatics and Biomedical Engineering. Beijing, 2009: 1 [5] Gao M Z, Xu A Q, Xu Q. Fault detection method of electronic equipment based on SL-SMOTE and CS-RVM. Comput Eng Appl, 2019, 55（4）: 185 [6] · 868 · 工程科学学报，第 43 卷，第 6 期

李睿峰等：基于空间近邻关系的非平衡数据重采样算法 869· (高明哲，许爱强，许晴.SL-SMOTE和CS-RVM结合的电子设备 [19]Zhao Z X,Wang G L,Li X D.An improved SVM based under- 故障检测方法.计算机工程与应用，2019,55(4)：185) sampling method for classifying imbalanced data.Acta Sci Nat [7]Feng H W,Yao B,Gao Y,et al.Imbalanced data processing Uniy Sunvatseni,2012,51(6):10 algorithm based on boundary mixed sampling.Control Decis, (赵自翔，王广亮，李晓东.基于支持向量机的不平衡数据分类 2017,32(10:1831 的改进欠采样方法.中山大学学报（自然科学版），2012,51(6)： (冯宏伟，姚博，高原，等.基于边界混合采样的非均衡数据处理 10) 算法.控制与决策，2017,32(10)：1831) [20]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic [8]Gao M,Hong X,Chen S,et al.A combined SMOTE and PSO minority over-sampling technique.JArtif /ntell Res,2002,16:321 based RBF classifier for two-class imbalanced problems [21]Liu Y X.Liu S M.Liu T,et al.New oversampling algorithm Neurocomputing,2011,74(17):3456 DB_SMOTE.Comput Eng Appl,2014,50(6):92 [9]Gu P.Ouyang Y Y.Classification research for unbalanced data (刘余霞，刘三民，刘涛，等.一种新的过采样算法DB SMOTE based on mixed-sampling.App/Res Comput,2015,32(2):379 计算机工程与应用，2014,50(6)：92) (古平，欧阳源遊.基于混合采样的非平衡数据集分类研究.计 [22]Gu Q,Yuan L,Ning B,et al.A novel classification algorithm for 算机应用研究，2015,32(2)：379) imbalanced datasets based on hybrid resampling strategy.Compu [10]Yu H L,Yang X B.Zheng S,et al.Active learning from Eng Sci,2012,34(10):128 imbalanced data:A solution of online weighted extreme learning (谷琼，袁磊，宁彬，等.一种基于混合重取样策略的非均衡数据 machine.IEEE Trans Neural Networks Learn Syst,2019,30(4): 集分类算法.计算机工程与科学，2012,34(10)：128) 1088 [23]Tao X M,Hao S Y,Zhang D X,et al.Support vector machine for [11]Cai YY,Song X D.New fuzzy SVM model used in imbalanced unbalanced data based on sample properties under-sampling datasets.J Xidian Univ Nat Sci,2015,42(5):120 approaches.Control Decis,2013,28(7):978 (蔡艳艳，宋晓东.针对非平衡数据分类的新型模糊SVM模型 (陶新民，郝思媛，张冬雪，等.基于样本特性欠取样的不均衡支西安电子科技大学学报（自然科学版），2015,42(5)：120) 持向量机.控制与决策，2013,28(7)：978) [12]Wang C Y,Su H Y,Qu Y,et al.Imbalanced data sets [24]Bunkhumpompat C.Sinapiromsaran K,Lursinsap C.Safe-level- classification method based on over-sampling technique.Comput SMOTE:Safe-level-synthetic minority over-sampling technique Eg4ppl,2011,47(1):139 for handling the class imbalanced problem /Proceedings of (王春玉，苏宏业，渠瑜，等.一种基于过抽样技术的非平衡数据 Advances in Knowledge Discovery and Data Mining Conference. 集分类方法.计算机工程与应用，2011,47(1)：139) [13]Zhang Y F,Guo H P,Zhi W M,et al.An ensemble pruning Bangkok,2009:475 [25]Huang G B,Zhou H M,Ding X J,et al.Extreme learning machine method for imbalanced data classification.Compur Eng,2014, 40(6):157 for regression and multiclass classification.IEEE Trans Syst Man (张银蜂，郭华平，职为梅，等.一种面向不平衡数据分类的组合 Cybern Part B Cybern,2012,42(2):513 剪枝方法.计算机工程，2014.40(6)：157) [26]Gautam C,Tiwari A,Leng Q.On the construction of extreme [14]Vong C M,Ip W F,Wong P K,et al.Predicting minority class for learning machine for online and offline one-class classification-an suspended particulate matters level by extreme leaming machine. expanded toolbox.Neurocompuring,2017,261:126 Neurocomputing,2014,128:136 [27]Zhu M,Liu Q,Liu X,et al.Fault detection method for avionics [15]Zhai Y,Yang B R,Wang S P,et al.Under-sampling method based based on LMK and OC-ELM.Syst Eng Electron,2020,42(6): on cooperative co-evolutionary mechanism.J Univ Sci Technol 1424 Beijing,2011,33(12):1550 (朱敏，刘奇，刘星，等.基于LMK和OC-ELM的航空电子部件故 (翟云，杨炳儒，王树鹏，等.基于协同进化机制的欠采样方法障检测方法.系统工程与电子技术，2020,42(6)：1424) 北京科技大学学报，2011,33(12)：1550) [28]Xue L X,Qiu B Z.Boundary points detection algorithm based on [16]Yang Y,Liu F,Jin Z Y,et al.Aliasing artefact suppression in coefficient of variation.Pattern Recognit Artif Intell,2009,22(5): compressed sensing MRI for random phase-encode undersampling 799 IEEE Trans Bio-Med Eng,2015,62(9):2215 (薛丽香，邱保志.基于变异系数的边界点检测算法.模式识别 [17]Jia C Z.Zuo Y.S-SulfPred:A sensitive predictor to capture S- 与人工智能，2009,22(5)：799) sulfenylation sites based on a resampling one-sided selection [29]Zhang Z,Duan Z M,Long Y.Fault detection in switched current undersampling-synthetic minority oversampling technique. circuits based on preferred wavelet packet.Chin J Eng,2017, Theoret Biol,2017,422:84 39(7大：1101 [18]Wilson DL.Asymptotic properties of nearest neighbor rules using (张镇，段哲民，龙英.基于小波包的开关电流电路故障诊断.工 edited data.IEEE Trans Syst Man Cybern.2007.SMC-2(3):408 程科学学报，2017,39(7)：1101)

（高明哲, 许爱强, 许晴. SL-SMOTE和CS-RVM结合的电子设备故障检测方法. 计算机工程与应用, 2019, 55（4）：185） Feng H W, Yao B, Gao Y, et al. Imbalanced data processing algorithm based on boundary mixed sampling. Control Decis, 2017, 32（10）: 1831 （冯宏伟, 姚博, 高原, 等. 基于边界混合采样的非均衡数据处理算法. 控制与决策, 2017, 32（10）：1831） [7] Gao M, Hong X, Chen S, et al. A combined SMOTE and PSO based RBF classifier for two-class imbalanced problems. Neurocomputing, 2011, 74（17）: 3456 [8] Gu P, Ouyang Y Y. Classification research for unbalanced data based on mixed-sampling. Appl Res Comput, 2015, 32（2）: 379 （古平, 欧阳源遊. 基于混合采样的非平衡数据集分类研究. 计算机应用研究, 2015, 32（2）：379） [9] Yu H L, Yang X B, Zheng S, et al. Active learning from imbalanced data: A solution of online weighted extreme learning machine. IEEE Trans Neural Networks Learn Syst, 2019, 30（4）: 1088 [10] Cai Y Y, Song X D. New fuzzy SVM model used in imbalanced datasets. J Xidian Univ Nat Sci, 2015, 42（5）: 120 （蔡艳艳, 宋晓东. 针对非平衡数据分类的新型模糊SVM模型. 西安电子科技大学学报(自然科学版), 2015, 42（5）：120） [11] Wang C Y, Su H Y, Qu Y, et al. Imbalanced data sets classification method based on over-sampling technique. Comput Eng Appl, 2011, 47（1）: 139 （王春玉, 苏宏业, 渠瑜, 等. 一种基于过抽样技术的非平衡数据集分类方法. 计算机工程与应用, 2011, 47（1）：139） [12] Zhang Y F, Guo H P, Zhi W M, et al. An ensemble pruning method for imbalanced data classification. Comput Eng, 2014, 40（6）: 157 （张银峰, 郭华平, 职为梅, 等. 一种面向不平衡数据分类的组合剪枝方法. 计算机工程, 2014, 40（6）：157） [13] Vong C M, Ip W F, Wong P K, et al. Predicting minority class for suspended particulate matters level by extreme learning machine. Neurocomputing, 2014, 128: 136 [14] Zhai Y, Yang B R, Wang S P, et al. Under-sampling method based on cooperative co-evolutionary mechanism. J Univ Sci Technol Beijing, 2011, 33（12）: 1550 （翟云, 杨炳儒, 王树鹏, 等. 基于协同进化机制的欠采样方法. 北京科技大学学报, 2011, 33（12）：1550） [15] Yang Y, Liu F, Jin Z Y, et al. Aliasing artefact suppression in compressed sensing MRI for random phase-encode undersampling. IEEE Trans Bio-Med Eng, 2015, 62（9）: 2215 [16] Jia C Z, Zuo Y. S-SulfPred: A sensitive predictor to capture Ssulfenylation sites based on a resampling one-sided selection undersampling-synthetic minority oversampling technique. J Theoret Biol, 2017, 422: 84 [17] Wilson D L. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans Syst Man Cybern, 2007, SMC-2（3）: 408 [18] Zhao Z X, Wang G L, Li X D. An improved SVM based undersampling method for classifying imbalanced data. Acta Sci Nat Univ Sunyatseni, 2012, 51（6）: 10 （赵自翔, 王广亮, 李晓东. 基于支持向量机的不平衡数据分类的改进欠采样方法. 中山大学学报(自然科学版), 2012, 51（6）： 10） [19] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique. J Artif Intell Res, 2002, 16: 321 [20] Liu Y X, Liu S M, Liu T, et al. New oversampling algorithm DB_SMOTE. Comput Eng Appl, 2014, 50（6）: 92 （刘余霞, 刘三民, 刘涛, 等. 一种新的过采样算法DB_SMOTE. 计算机工程与应用, 2014, 50（6）：92） [21] Gu Q, Yuan L, Ning B, et al. A novel classification algorithm for imbalanced datasets based on hybrid resampling strategy. Comput Eng Sci, 2012, 34（10）: 128 （谷琼, 袁磊, 宁彬, 等. 一种基于混合重取样策略的非均衡数据集分类算法. 计算机工程与科学, 2012, 34（10）：128） [22] Tao X M, Hao S Y, Zhang D X, et al. Support vector machine for unbalanced data based on sample properties under-sampling approaches. Control Decis, 2013, 28（7）: 978 （陶新民, 郝思媛, 张冬雪, 等. 基于样本特性欠取样的不均衡支持向量机. 控制与决策, 2013, 28（7）：978） [23] Bunkhumpornpat C, Sinapiromsaran K, Lursinsap C. Safe-levelSMOTE: Safe-level-synthetic minority over-sampling technique for handling the class imbalanced problem // Proceedings of Advances in Knowledge Discovery and Data Mining Conference. Bangkok, 2009: 475 [24] Huang G B, Zhou H M, Ding X J, et al. Extreme learning machine for regression and multiclass classification. IEEE Trans Syst Man Cybern Part B Cybern, 2012, 42（2）: 513 [25] Gautam C, Tiwari A, Leng Q. On the construction of extreme learning machine for online and offline one-class classification-an expanded toolbox. Neurocomputing, 2017, 261: 126 [26] Zhu M, Liu Q, Liu X, et al. Fault detection method for avionics based on LMK and OC-ELM. Syst Eng Electron, 2020, 42（6）: 1424 （朱敏, 刘奇, 刘星, 等. 基于LMK和OC-ELM的航空电子部件故障检测方法. 系统工程与电子技术, 2020, 42（6）：1424） [27] Xue L X, Qiu B Z. Boundary points detection algorithm based on coefficient of variation. Pattern Recognit Artif Intell, 2009, 22（5）: 799 （薛丽香, 邱保志. 基于变异系数的边界点检测算法. 模式识别与人工智能, 2009, 22（5）：799） [28] Zhang Z, Duan Z M, Long Y. Fault detection in switched current circuits based on preferred wavelet packet. Chin J Eng, 2017, 39（7）: 1101 （张镇, 段哲民, 龙英. 基于小波包的开关电流电路故障诊断. 工程科学学报, 2017, 39（7）：1101） [29] 李睿峰等：基于空间近邻关系的非平衡数据重采样算法 · 869 ·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

基于空间近邻关系的非平衡数据重采样算法