正在加载图片...
第6期 王俊红,等:一种基于密度的SMOTE方法研究 ·869· 产生合成样本,一定程度上避免了随机过采样方法 平衡数据的分类效果,文中采用了11个UCI数据 容易造成的分类器过拟合问题,最终在稀疏对象及 集进行实验和分析,如表4所示。非平衡数据中的 其近邻之间合成新样本,达到少数类与多数类样本 非平衡度为正类与负类样本数量之比,实验中所选 在数量上的一致。 取的数据集分别具有不同的非平衡程度,正类的比 例从0.097~0.629不等。这些数据集中的数据大多 2实验与结果分析 为数值型的两类样本数据,其中,statimage数据集 2.1评价标准 中的样本有7个类别,为了构造极其不平衡的样本 一个分类器算法在二分类问题中的性能往往使 集合,人为将第4类样本作为少数类样本,其余样 用混淆矩阵来评估,分别将两类分为正类(positive)、 本合为一类作为多数类样本,从而得到一组非平衡 负类(negative),如表3所示I7m。混淆矩阵的列用来 度为0.097的两类数据样本;thyroid数据集中具备 表示类的预测结果,混淆矩阵的行用来表示类的实 3类样本,通过将类别为2和3的样本合为一类,从 际类别s。其中,TN(true negative)表示负类样本 而获得了一组非平衡度为0.194的两类数据样本。 中被划分正确的样本数,即真负类;TP(true posi- 表4同时给出了各数据集的属性个数、总样本数 tive)表示正类样本中被划分正确的样本数,即真正 量、正类样本数量、负类样本数量以及正负类样本 类;FN(false negative)表示负类样本中被划分错误 数量的比值一非平衡度。 的样本数,也就是负类中的样本被划分为正类的样 表4实验所用UCI数据集 本数,即假负类;FP(flase positive)表示正类样本中 Table 4 The UCI datasets for experiments 被划分错误的样本数,也就是正类中的样本被划分 总样本正样本负样本 非平 数据集 属性 为负类的样本数,即假正类。 数量 数量 数量 衡度 表3二分类问题中的含混矩阵 statimage 36 4435 415 4020 0.097:1 Table 3 The confusion matrix of 2-class problem Thoracic 17 470 70 400 0.175:1 thyroid 6 215 35 180 0.194:1 分类 预测为正类 预测为负类 parkinsons 23 195 48 147 0.327:1 实际正类 TP FN ILPD 11 583 167 416 0.401:1 实际负类 FP TN Germany 25 1000 300 700 0.429:1 Echocardiogram 13 132 43 89 0.483:1 准确率(Precision)和召回率(Recall)是分类性 Tic 100 958 332 626 0.530:1 能的两个最基本的指标2o。准确率(Precision)也称 diabetis 9 768 268 500 0.536:1 为查准率,召回率(Recall)也称为查全率,即正类 ionosphere 35 351 126 225 0.560:1 (少数类)的分类准确率。定义为 votes 17 435 168 267 0.629:1 TP Precision=TP+FP (4) 2.3 实验结果与分析 TPR Recall =TP+FN TP (5) 为了验证DS-SMOTE算法处理非平衡数据集 的有效性,C4.5算法是具有代表性的决策树基准算 F-vaue是准确率和召回率的调和平均,实验中 令B值为1,即F,度量。定义如下:(式中B为调整 法,在分类数据不平衡的情况下与同类分类器相比 准确率(Precision)和召回率(Recall)所占比重的参 具有良好的分类性能,实验中采用了C4.5算法作为 数,一般地令=1)。 分类算法,并与SMOTE算法、Borderline-SMOTE (I+β2)×Recall x Precision 算法进行了对比。本文采用了十折交叉验证方法进 F-value (6) B2xRecall Precision 行实验测试,测试结果均为10次实验均值,并针对 在非平衡类分类问题中,G-mean值用来衡量分 Recall(TPR)、TNR、Precision、F-value、G-mean等指 类器对于两类样本分类的平均性能2,是对算法性 标进行分析。 能的总体评价。 为了对比算法的优势,图3~7分别绘制了4种 G-mean VRecall x TNR (7) 算法策略在11个数据集上的测试结果趋势曲线。 本文选用Recall(TPR)、TNR、Precision、F-value、 其中,横坐标为4种算法策略,纵坐标取值在0~ G-mean等值作为实验过程中算法性能指标的度量。 1之间,表中加粗的数据为一系列数据中的最大 2.2实验数据 值。通过以下图表可以看出,使用DS-SMOTE方法 为了测试文中实现的采样方法与同类方法对非 进行过采样,少数类的分类性能有所上升。产生合成样本,一定程度上避免了随机过采样方法 容易造成的分类器过拟合问题,最终在稀疏对象及 其近邻之间合成新样本,达到少数类与多数类样本 在数量上的一致。 2 实验与结果分析 2.1 评价标准 一个分类器算法在二分类问题中的性能往往使 用混淆矩阵来评估,分别将两类分为正类(positive)、 负类 (negative),如表 3 所示[17]。混淆矩阵的列用来 表示类的预测结果,混淆矩阵的行用来表示类的实 际类别[18]。其中,TN (true negative) 表示负类样本 中被划分正确的样本数,即真负类;TP(true posi￾tive) 表示正类样本中被划分正确的样本数,即真正 类;FN(false negative) 表示负类样本中被划分错误 的样本数,也就是负类中的样本被划分为正类的样 本数,即假负类;FP(flase positive) 表示正类样本中 被划分错误的样本数,也就是正类中的样本被划分 为负类的样本数,即假正类[19]。 准确率 (Precision) 和召回率 (Recall) 是分类性 能的两个最基本的指标[20]。准确率 (Precision) 也称 为查准率,召回率 (Recall) 也称为查全率,即正类 (少数类)的分类准确率。定义为 Precision = TP TP+FP (4) TPR = Recall = TP TP+FN (5) F-value 是准确率和召回率的调和平均,实验中 令 β 值为 1,即 F1 度量。定义如下:(式中 β 为调整 准确率 (Precision) 和召回率 (Recall) 所占比重的参 数,一般地令 β=1)。 F-value = ( 1+β 2 ) ×Recall×Precision β 2×Recall+Precision (6) 在非平衡类分类问题中,G-mean 值用来衡量分 类器对于两类样本分类的平均性能[21] ,是对算法性 能的总体评价。 G-mean = √ Recall×TNR (7) 本文选用 Recall(TPR)、TNR、Precision、F-value、 G-mean 等值作为实验过程中算法性能指标的度量。 2.2 实验数据 为了测试文中实现的采样方法与同类方法对非 平衡数据的分类效果,文中采用了 11 个 UCI 数据 集进行实验和分析,如表 4 所示。非平衡数据中的 非平衡度为正类与负类样本数量之比,实验中所选 取的数据集分别具有不同的非平衡程度,正类的比 例从 0.097~0.629 不等。这些数据集中的数据大多 为数值型的两类样本数据,其中,statimage 数据集 中的样本有 7 个类别,为了构造极其不平衡的样本 集合,人为将第 4 类样本作为少数类样本,其余样 本合为一类作为多数类样本,从而得到一组非平衡 度为 0.097 的两类数据样本;thyroid 数据集中具备 3 类样本,通过将类别为 2 和 3 的样本合为一类,从 而获得了一组非平衡度为 0.194 的两类数据样本。 表 4 同时给出了各数据集的属性个数、总样本数 量、正类样本数量、负类样本数量以及正负类样本 数量的比值——非平衡度。 2.3 实验结果与分析 为了验证 DS-SMOTE 算法处理非平衡数据集 的有效性,C4.5 算法是具有代表性的决策树基准算 法,在分类数据不平衡的情况下与同类分类器相比 具有良好的分类性能,实验中采用了 C4.5 算法作为 分类算法,并与 SMOTE 算法、Borderline-SMOTE 算法进行了对比。本文采用了十折交叉验证方法进 行实验测试,测试结果均为 10 次实验均值,并针对 Recall(TPR)、TNR、Precision、F-value、G-mean 等指 标进行分析。 为了对比算法的优势,图 3~7 分别绘制了 4 种 算法策略在 11 个数据集上的测试结果趋势曲线。 其中,横坐标为 4 种算法策略,纵坐标取值在 0~ 1 之间,表中加粗的数据为一系列数据中的最大 值。通过以下图表可以看出,使用 DS-SMOTE 方法 进行过采样,少数类的分类性能有所上升。 表 3 二分类问题中的含混矩阵 Table 3 The confusion matrix of 2-class problem 分类 预测为正类 预测为负类 实际正类 TP FN 实际负类 FP TN 表 4 实验所用 UCI 数据集 Table 4 The UCI datasets for experiments 数据集 属性 总样本 数量 正样本 数量 负样本 数量 非平 衡度 statimage 36 4 435 415 4 020 0.097:1 Thoracic 17 470 70 400 0.175:1 thyroid 6 215 35 180 0.194:1 parkinsons 23 195 48 147 0.327:1 ILPD 11 583 167 416 0.401:1 Germany 25 1 000 300 700 0.429:1 Echocardiogram 13 132 43 89 0.483:1 Tic 100 958 332 626 0.530:1 diabetis 9 768 268 500 0.536:1 ionosphere 35 351 126 225 0.560:1 votes 17 435 168 267 0.629:1 第 6 期 王俊红,等:一种基于密度的 SMOTE 方法研究 ·869·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有