产生合成样本，一定程度上避免了随机过采样方法容易造成的分类器过拟合问题，

正在加载图片...

第6期王俊红，等：一种基于密度的SMOTE方法研究 ·869· 产生合成样本，一定程度上避免了随机过采样方法平衡数据的分类效果，文中采用了11个UCI数据容易造成的分类器过拟合问题，最终在稀疏对象及集进行实验和分析，如表4所示。非平衡数据中的其近邻之间合成新样本，达到少数类与多数类样本非平衡度为正类与负类样本数量之比，实验中所选在数量上的一致。取的数据集分别具有不同的非平衡程度，正类的比例从0.097~0.629不等。这些数据集中的数据大多 2实验与结果分析为数值型的两类样本数据，其中，statimage数据集 2.1评价标准中的样本有7个类别，为了构造极其不平衡的样本一个分类器算法在二分类问题中的性能往往使集合，人为将第4类样本作为少数类样本，其余样用混淆矩阵来评估，分别将两类分为正类(positive)、本合为一类作为多数类样本，从而得到一组非平衡负类(negative),如表3所示I7m。混淆矩阵的列用来度为0.097的两类数据样本；thyroid数据集中具备表示类的预测结果，混淆矩阵的行用来表示类的实 3类样本，通过将类别为2和3的样本合为一类，从际类别s。其中，TN(true negative)表示负类样本而获得了一组非平衡度为0.194的两类数据样本。中被划分正确的样本数，即真负类；TP(true posi- 表4同时给出了各数据集的属性个数、总样本数 tive)表示正类样本中被划分正确的样本数，即真正量、正类样本数量、负类样本数量以及正负类样本类；FN(false negative)表示负类样本中被划分错误数量的比值一非平衡度。的样本数，也就是负类中的样本被划分为正类的样表4实验所用UCI数据集本数，即假负类；FP(flase positive)表示正类样本中 Table 4 The UCI datasets for experiments 被划分错误的样本数，也就是正类中的样本被划分总样本正样本负样本非平数据集属性为负类的样本数，即假正类。数量数量数量衡度表3二分类问题中的含混矩阵 statimage 36 4435 415 4020 0.097:1 Table 3 The confusion matrix of 2-class problem Thoracic 17 470 70 400 0.175:1 thyroid 6 215 35 180 0.194:1 分类预测为正类预测为负类 parkinsons 23 195 48 147 0.327:1 实际正类 TP FN ILPD 11 583 167 416 0.401:1 实际负类 FP TN Germany 25 1000 300 700 0.429:1 Echocardiogram 13 132 43 89 0.483:1 准确率(Precision)和召回率(Recall)是分类性 Tic 100 958 332 626 0.530:1 能的两个最基本的指标2o。准确率(Precision)也称 diabetis 9 768 268 500 0.536:1 为查准率，召回率(Recall)也称为查全率，即正类 ionosphere 35 351 126 225 0.560:1 (少数类)的分类准确率。定义为 votes 17 435 168 267 0.629:1 TP Precision=TP+FP (4) 2.3 实验结果与分析 TPR Recall =TP+FN TP (5) 为了验证DS-SMOTE算法处理非平衡数据集的有效性，C4.5算法是具有代表性的决策树基准算 F-vaue是准确率和召回率的调和平均，实验中令B值为1，即F,度量。定义如下：（式中B为调整法，在分类数据不平衡的情况下与同类分类器相比准确率(Precision)和召回率(Recall)所占比重的参具有良好的分类性能，实验中采用了C4.5算法作为数，一般地令=1)。分类算法，并与SMOTE算法、Borderline-SMOTE (I+β2)×Recall x Precision 算法进行了对比。本文采用了十折交叉验证方法进 F-value (6) B2xRecall Precision 行实验测试，测试结果均为10次实验均值，并针对在非平衡类分类问题中，G-mean值用来衡量分 Recall(TPR)、TNR、Precision、F-value、G-mean等指类器对于两类样本分类的平均性能2，是对算法性标进行分析。能的总体评价。为了对比算法的优势，图3~7分别绘制了4种 G-mean VRecall x TNR (7) 算法策略在11个数据集上的测试结果趋势曲线。本文选用Recall(TPR)、TNR、Precision、F-value、其中，横坐标为4种算法策略，纵坐标取值在0~ G-mean等值作为实验过程中算法性能指标的度量。 1之间，表中加粗的数据为一系列数据中的最大 2.2实验数据值。通过以下图表可以看出，使用DS-SMOTE方法为了测试文中实现的采样方法与同类方法对非进行过采样，少数类的分类性能有所上升。产生合成样本，一定程度上避免了随机过采样方法容易造成的分类器过拟合问题，最终在稀疏对象及其近邻之间合成新样本，达到少数类与多数类样本在数量上的一致。 2 实验与结果分析 2.1 评价标准一个分类器算法在二分类问题中的性能往往使用混淆矩阵来评估，分别将两类分为正类（positive）、负类 (negative)，如表 3 所示[17]。混淆矩阵的列用来表示类的预测结果，混淆矩阵的行用来表示类的实际类别[18]。其中，TN (true negative) 表示负类样本中被划分正确的样本数，即真负类；TP(true positive) 表示正类样本中被划分正确的样本数，即真正类；FN(false negative) 表示负类样本中被划分错误的样本数，也就是负类中的样本被划分为正类的样本数，即假负类；FP(flase positive) 表示正类样本中被划分错误的样本数，也就是正类中的样本被划分为负类的样本数，即假正类[19]。准确率 (Precision) 和召回率 (Recall) 是分类性能的两个最基本的指标[20]。准确率 (Precision) 也称为查准率，召回率 (Recall) 也称为查全率，即正类（少数类）的分类准确率。定义为 Precision = TP TP+FP (4) TPR = Recall = TP TP+FN (5) F-value 是准确率和召回率的调和平均，实验中令 β 值为 1，即 F1 度量。定义如下：（式中 β 为调整准确率 (Precision) 和召回率 (Recall) 所占比重的参数，一般地令 β=1）。 F-value = ( 1+β 2 ) ×Recall×Precision β 2×Recall+Precision (6) 在非平衡类分类问题中，G-mean 值用来衡量分类器对于两类样本分类的平均性能[21] ，是对算法性能的总体评价。 G-mean = √ Recall×TNR (7) 本文选用 Recall(TPR)、TNR、Precision、F-value、 G-mean 等值作为实验过程中算法性能指标的度量。 2.2 实验数据为了测试文中实现的采样方法与同类方法对非平衡数据的分类效果，文中采用了 11 个 UCI 数据集进行实验和分析，如表 4 所示。非平衡数据中的非平衡度为正类与负类样本数量之比，实验中所选取的数据集分别具有不同的非平衡程度，正类的比例从 0.097～0.629 不等。这些数据集中的数据大多为数值型的两类样本数据，其中，statimage 数据集中的样本有 7 个类别，为了构造极其不平衡的样本集合，人为将第 4 类样本作为少数类样本，其余样本合为一类作为多数类样本，从而得到一组非平衡度为 0.097 的两类数据样本；thyroid 数据集中具备 3 类样本，通过将类别为 2 和 3 的样本合为一类，从而获得了一组非平衡度为 0.194 的两类数据样本。表 4 同时给出了各数据集的属性个数、总样本数量、正类样本数量、负类样本数量以及正负类样本数量的比值——非平衡度。 2.3 实验结果与分析为了验证 DS-SMOTE 算法处理非平衡数据集的有效性，C4.5 算法是具有代表性的决策树基准算法，在分类数据不平衡的情况下与同类分类器相比具有良好的分类性能，实验中采用了 C4.5 算法作为分类算法，并与 SMOTE 算法、Borderline-SMOTE 算法进行了对比。本文采用了十折交叉验证方法进行实验测试，测试结果均为 10 次实验均值，并针对 Recall(TPR)、TNR、Precision、F-value、G-mean 等指标进行分析。为了对比算法的优势，图 3～7 分别绘制了 4 种算法策略在 11 个数据集上的测试结果趋势曲线。其中，横坐标为 4 种算法策略，纵坐标取值在 0～ 1 之间，表中加粗的数据为一系列数据中的最大值。通过以下图表可以看出，使用 DS-SMOTE 方法进行过采样，少数类的分类性能有所上升。表 3 二分类问题中的含混矩阵 Table 3 The confusion matrix of 2-class problem 分类预测为正类预测为负类实际正类 TP FN 实际负类 FP TN 表 4 实验所用 UCI 数据集 Table 4 The UCI datasets for experiments 数据集属性总样本数量正样本数量负样本数量非平衡度 statimage 36 4 435 415 4 020 0.097:1 Thoracic 17 470 70 400 0.175:1 thyroid 6 215 35 180 0.194:1 parkinsons 23 195 48 147 0.327:1 ILPD 11 583 167 416 0.401:1 Germany 25 1 000 300 700 0.429:1 Echocardiogram 13 132 43 89 0.483:1 Tic 100 958 332 626 0.530:1 diabetis 9 768 268 500 0.536:1 ionosphere 35 351 126 225 0.560:1 votes 17 435 168 267 0.629:1 第 6 期王俊红，等：一种基于密度的 SMOTE 方法研究 ·869·

<<向上翻页向下翻页>>

点击下载：【机器学习】一种基于密度的SMOTE方法研究