｛＋１，－１｝，其中＋１表示正类样本，－１表示负

正在加载图片...

·260· 智能系统学报第11卷 {+1,-1},其中+1表示正类样本，-1表示本文使用Fcm准则来衡量正类的分类性能，负类样本；使用Gm准则来衡量数据集整体分类性能。输出(x)=arg max,e∑-a,h,(x)。 3.2UCI数据为了检验本文所提方法的有效性，选择6组 1)初始化数据集S中各个样本权重D,()=m：具有实际工程应用背景的UCI数据[21]进行测 2)fort=1,2,…,T 试，对于含有多个类别的数据，取其中某个类为正类，合并其余类为负类，各数据集的基本信息 ①调用动态平衡采样算法，获得数据集S': 见表1。 ②利用式(1)设置S'中的样例权值：表1UCI数据集信息 ③使用数据集S'及其中的样例权值，训练基 Table 1 Information of UCI datasets 于AdaBoost算法的子分类器h,(x); 数据集样例数目少类大类不平衡度属性个数 ④按照式(2)计算分类器h,(x)的误差e,,按照式(3)计算h,(x)的投票权重a,: car 1728 518 1210 2.34 6 ⑤按照式(4)更新数据集S中的样本权重： vehicle 846 199 647 3.25 18 3)输出模型：(x)=agma∑a4,(x)。 vowel 990 90 900 10 13 sick 3772 231 3541 15.33 29 3 实验结果与分析 letter 20000 734 19266 26.25 3.1评价度量 page-blocks 5473 115 5358 46.59 10 传统分类器采用分类精度指标衡量分类性能，其追求整体分类准确率，忽略了在不平衡数据分类 3.3实验结果及分析过程中需要特别关注的正类分类准确率。针对不平实验中对比算法如下：衡数据，许多学者提出了在两类混淆矩阵基础上的 1)随机森林(random forest.,RF)算法，RF算法 F【o、Gn【等评价方法。作为一种集成算法，在处理不平衡数据时有独特的在混淆矩阵中，TP(true positive)、FN(false neg- 优势，能够在某种程度上减少不均衡数据带来的影 ative)、TN(true negative)、FP(false positive)分别代响22】，因此将其直接应用在初始不平衡数据集进表分类正确的正类样本、假的负类样本、正确的负类行分类。样本以及假的正类样本的数目。基于混淆矩阵， 2)SM0 TEBoost23]算法，将SM0TE方法与Ada- Fmeasure定义如下： Boost..M2结合，在每次集成迭代中生成新的合成样 F(1)x Recall x Precision 例，使得分类器更加关注小类样本。 B×Recall+Precision 3)RUSBoost!24],与S0 TEBoost方法相类似，式中：Recall为查全率，Precision为查准率，采用随机欠采样从负类样本中随机移除样例，然后 Recall=_TP TP 应用AdaBoost进行多次迭代。 FTP+FN,Precision=+FP,B用于调 4)文献[4]提出的集成方法K-means+Bagging, 节Recall和Precision的相对重要性，通常取为l。首先在负类样本上应用K-means聚类，提取与正类 Faue定义说明：较大值表示Recall和Preci- 样本数量一致的聚类质心，组成平衡训练集，参与 sion都较大，因此，其能够较好评价正类分类性能。 Bagging集成。 Gam其定义如下：上述3种集成方法以及本文算法均使用C4.5 G.em=√TPR X FPR 决策树算法作为基分类器算法。式中为客观对比上述不平衡数据分类方法，实验数据采用10折交叉验证方式，重复10次，以平均值作 TP 真正率TPR=Recall= TP FN 为最终的分类结果。表2和表3分别列出5种方法在6个UCI数真负率FPR=TN TN FP 据集上的正类Fn值和数据集整体的G。an值， G兼顾了正类准确率和负类准确率，比整体最后一行列出每种方法在所有数据集上的平均分类准确率更适合于不平衡数据分类评价。结果。｛＋１，－１｝，其中＋１表示正类样本，－１表示负类样本；输出Ｈ（ｘ）＝ａｒｇｍａｘｙ∈Ｙ∑ Ｔｔ＝１ αｔｈｔ（ｘ）。１）初始化数据集Ｓ中各个样本权重Ｄ１（ｉ）＝１ｍ；２）ｆｏｒｔ＝１，２，…，Ｔ ① 调用动态平衡采样算法，获得数据集Ｓ′ ； ② 利用式（１）设置Ｓ′ 中的样例权值； ③ 使用数据集Ｓ′ 及其中的样例权值，训练基于ＡｄａＢｏｏｓｔ算法的子分类器ｈｔ（ｘ）； ④ 按照式（２）计算分类器ｈｔ（ｘ）的误差 εｔ，按照式（３）计算ｈｔ（ｘ）的投票权重 αｔ； ⑤ 按照式（４）更新数据集Ｓ中的样本权重；３）输出模型：Ｈ（ｘ）＝ａｒｇｍａｘｙ∈Ｙ∑ Ｔｔ＝１ αｔｈｔ（ｘ）。３实验结果与分析３．１评价度量传统分类器采用分类精度指标衡量分类性能，其追求整体分类准确率，忽略了在不平衡数据分类过程中需要特别关注的正类分类准确率。针对不平衡数据，许多学者提出了在两类混淆矩阵基础上的Ｆｍｅａｓｕｒｅ［１０］、Ｇｍｅａｎ［１１］等评价方法。在混淆矩阵中，ＴＰ（ｔｒｕｅｐｏｓｉｔｉｖｅ）、ＦＮ（ｆａｌｓｅｎｅｇ⁃ ａｔｉｖｅ）、ＴＮ（ｔｒｕｅｎｅｇａｔｉｖｅ）、ＦＰ（ｆａｌｓｅｐｏｓｉｔｉｖｅ）分别代表分类正确的正类样本、假的负类样本、正确的负类样本以及假的正类样本的数目。基于混淆矩阵，Ｆｍｅａｓｕｒｅ定义如下：Ｆｍｅａｓｕｒｅ＝（１＋ β ２） × Ｒｅｃａｌｌ × Ｐｒｅｃｉｓｉｏｎ β ２ × Ｒｅｃａｌｌ＋Ｐｒｅｃｉｓｉｏｎ式中：Ｒｅｃａｌｌ为查全率，Ｐｒｅｃｉｓｉｏｎ为查准率，Ｒｅｃａｌｌ＝ＴＰＴＰ＋ＦＮ，Ｐｒｅｃｉｓｉｏｎ＝ＴＰＴＰ＋ＦＰ， β 用于调节Ｒｅｃａｌｌ和Ｐｒｅｃｉｓｉｏｎ的相对重要性，通常取为１。Ｆｍｅａｓｕｒｅ定义说明：较大值表示Ｒｅｃａｌｌ和Ｐｒｅｃｉ⁃ ｓｉｏｎ都较大，因此，其能够较好评价正类分类性能。Ｇｍｅａｎ其定义如下：Ｇｍｅａｎ＝ＴＰＲ × ＦＰＲ式中真正率ＴＰＲ＝Ｒｅｃａｌｌ＝ＴＰＴＰ＋ＦＮ真负率ＦＰＲ＝ＴＮＴＮ＋ＦＰＧｍｅａｎ兼顾了正类准确率和负类准确率，比整体分类准确率更适合于不平衡数据分类评价。本文使用Ｆｍｅａｓｕｒｅ准则来衡量正类的分类性能，使用Ｇｍｅａｎ准则来衡量数据集整体分类性能。３．２ＵＣＩ数据为了检验本文所提方法的有效性，选择６组具有实际工程应用背景的ＵＣＩ数据［２１］进行测试，对于含有多个类别的数据，取其中某个类为正类，合并其余类为负类，各数据集的基本信息见表１。表１ＵＣＩ数据集信息Ｔａｂｌｅ１ＩｎｆｏｒｍａｔｉｏｎｏｆＵＣＩｄａｔａｓｅｔｓ数据集样例数目少类大类不平衡度属性个数ｃａｒ１７２８５１８１２１０２．３４６ｖｅｈｉｃｌｅ８４６１９９６４７３．２５１８ｖｏｗｅｌ９９０９０９００１０１３ｓｉｃｋ３７７２２３１３５４１１５．３３２９ｌｅｔｔｅｒ２００００７３４１９２６６２６．２５１６ｐａｇｅ⁃ｂｌｏｃｋｓ５４７３１１５５３５８４６．５９１０３．３实验结果及分析实验中对比算法如下：１）随机森林（ｒａｎｄｏｍｆｏｒｅｓｔ，ＲＦ）算法，ＲＦ算法作为一种集成算法，在处理不平衡数据时有独特的优势，能够在某种程度上减少不均衡数据带来的影响［２２］，因此将其直接应用在初始不平衡数据集进行分类。２）ＳＭＯＴＥＢｏｏｓｔ［２３］算法，将ＳＭＯＴＥ方法与Ａｄａ⁃ Ｂｏｏｓｔ．Ｍ２结合，在每次集成迭代中生成新的合成样例，使得分类器更加关注小类样本。３）ＲＵＳＢｏｏｓｔ［２４］，与ＳＭＯＴＥＢｏｏｓｔ方法相类似，采用随机欠采样从负类样本中随机移除样例，然后应用ＡｄａＢｏｏｓｔ进行多次迭代。４）文献［４］提出的集成方法Ｋ⁃ｍｅａｎｓ＋Ｂａｇｇｉｎｇ，首先在负类样本上应用Ｋ⁃ｍｅａｎｓ聚类，提取与正类样本数量一致的聚类质心，组成平衡训练集，参与Ｂａｇｇｉｎｇ集成。上述３种集成方法以及本文算法均使用Ｃ４．５决策树算法作为基分类器算法。为客观对比上述不平衡数据分类方法，实验数据采用１０折交叉验证方式，重复１０次，以平均值作为最终的分类结果。表２和表３分别列出５种方法在６个ＵＣＩ数据集上的正类Ｆｍｅａｓｕｒｅ值和数据集整体的Ｇｍｅａｎ值，最后一行列出每种方法在所有数据集上的平均结果。 ·２６０· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】动态平衡采样的不平衡数据集成分类方法编辑部