正在加载图片...
第4期 刘金平,等:面向不均衡数据的融合谱聚类的自适应过采样法 ·733· 处理数据具有较为均匀的分布特性,然而,在实 少数类样本特征信息利用不充分的问题,导致所 际的工程应用中,数据往往会出现一类比另一类 获得过采样样本并不一定满足少数类样本的本质 多的情况,即分类处理的对象是不均衡数据集), 分布特性,严重时会降低后续分类模型的性能。 若不对其进行均衡化处理,那么分类器极有可能 本文针对不均衡数据集中少数类样本难以有 忽略少数类数据,导致所获得的分类模型不精确 效分类,现有过采样方法未能充分利用少数类样 或者分类性能下降4。 本间的特征信息的问题,提出一种融合谱聚类的 不均衡数据集在生活生产中十分常见,如何 自适应综合采样方法(spectral clustering-fused ad-. 对不均衡数据集的少数类样本进行正确分类是多 aptive synthetic oversampling approach,SCF-ADA- 个领域的重要课题。比如,在工业过程故障检 SYN)。SCF-ADASYN首先采用谱聚类方法对少 测与诊断领域m,其模式分类的目标是识别出有 数类样本进行分析和处理;根据少数类的分布结 故障的少数类样本,而有故障的样本数要远远少 构,将其聚成若干个簇:再以少数类样本的聚类 于正常(无故障)样本数。对这些极度不均衡的 簇为单位对少数类进行自适应过采样,得到均衡 数据进行处理,往往会导致分类器偏向多数类样 数据集,以用于后续分类器模型训练。最后,在 本,而难以得到较好的模式分类结果。类似的情 多个不均衡数据集上进行实验,通过搭配多种经 况还有医疗诊断1、网络入侵监测0等领域。并 典模式分类方法进行模式分类实验,以验证本文 且在实际应用中,少数类样本的误(漏)识别代价 所提方法的有效性和性能优越性。 往往大于多数类样本的误(漏)识别代价。比如, 在癌症筛查和诊断山中,对少数类类别(肿瘤)漏 1相关工作 报,极有可能延误病人的最佳治疗时间,为病人 生命带来不可估量的危害:在网络入侵监测中, 本节对ADASYN和谱聚类方法进行简单介 正常访问与入侵行为存在严重的类别不均衡,如 绍,概述其算法核心思路及主要流程。 果不能有效区分入侵与访问,将严重威胁网络安 1.1自适应综合过采样 全。基于这些原因,不均衡数据的处理方法在国 采样是一种常见的数据集预处理方法,它通 内外受到广泛关注。 过增加少数类样本或减少多数类样本改变其不均 现阶段,从数据层面进行考虑和从算法层面 衡比,从而构造出新的训练数据集,最常见的采 进行考虑是不均衡数据集处理方法中的两大主要 样方法包括过采样和欠采样图方法。 分支。其中,数据层面的处理方法是基于某种规 欠采样是一类通过对部分多数类样本进行删 则,通过删减多数类样本或者增加少数类样本来 减以达到均衡化处理目的的不均衡数据集处理方 改善原始数据的不均衡比,使样本尽可能地均衡 法,例如:压缩最近邻法、随机删除法。研究表 化,方便进行分类模型的训练;算法层面的处理 明,欠采样方法在删除样本时会不可避免地丢失 方法主要包括集成学习1和代价敏感学习41 信息,因此并未被广泛采用。 方法,这些方法通过修改分类算法在数据集上的 与欠采样相比,通过增加少数类样本达到均 偏置,使得分类决策向少数类偏移,从而有效提 衡化目的的过采样应用更为广泛。综合少数类过 升分类器在不均衡数据集上的分类精度。 采样技术(synthetic minority oversampling tech- 自适应综合过采样算法(adaptive synthetic nique,SMOTE)I9是一种应用较为广泛的过采样 sampling approach,.ADASYN)l是一种有代表性 算法。该算法通过线性插值对少数类样本进行过 的数据层面处理方法。ADASYN基于少数类样 采样,插值空间位于原数据空间,因其具有良好 本的概率分布对少数类样本进行自适应插值(过 的分类效果和简单易于实施的优势而被广泛应 采样),对少数类样本的扩充,以实现数据集的均 用。然而,研究表明,该方法会导致类别重叠的 衡化处理。该方法通过设定插值公式进行人工生 问题(在多数类样本之间线性插值出一个少数类 成样本,避免了样本的简单随机复制,有效减弱 样本而导致类别重叠)。因而,He等6提出了一 了模型中可能出现的过拟合现象,同时顾及了样 种自适应.综合过采样方法(adaptive synthetic 本的分布信息,因而在不均衡数据集处理中获得 sampling approach,ADASYN)通过预先判定少数 较好的处理结果。然而,虽然ADASYN在对少数 类样本周围多数类的分布情况,对于不同的少数 类样本进行插值(过采样)处理时在一定程度上 类样本进行自适应插值。 考虑了少数类样本周围多数类样本的分布情况, ADASYN算法流程如下: 却没有分析和考虑少数类样本间的关联性,存在 不均衡度的计算:d=m,/,式中d∈(0,1];若处理数据具有较为均匀的分布特性,然而,在实 际的工程应用中,数据往往会出现一类比另一类 多的情况,即分类处理的对象是不均衡数据集[3] , 若不对其进行均衡化处理,那么分类器极有可能 忽略少数类数据,导致所获得的分类模型不精确 或者分类性能下降[4-5]。 不均衡数据集在生活生产中十分常见,如何 对不均衡数据集的少数类样本进行正确分类是多 个领域的重要课题[6]。比如,在工业过程故障检 测与诊断领域[7] ,其模式分类的目标是识别出有 故障的少数类样本,而有故障的样本数要远远少 于正常 (无故障) 样本数。对这些极度不均衡的 数据进行处理,往往会导致分类器偏向多数类样 本,而难以得到较好的模式分类结果。类似的情 况还有医疗诊断[8] 、网络入侵监测[9-10] 等领域。并 且在实际应用中,少数类样本的误 (漏) 识别代价 往往大于多数类样本的误 (漏) 识别代价。比如, 在癌症筛查和诊断[11] 中,对少数类类别 (肿瘤) 漏 报,极有可能延误病人的最佳治疗时间,为病人 生命带来不可估量的危害;在网络入侵监测中, 正常访问与入侵行为存在严重的类别不均衡,如 果不能有效区分入侵与访问,将严重威胁网络安 全。基于这些原因,不均衡数据的处理方法在国 内外受到广泛关注[12]。 现阶段,从数据层面进行考虑和从算法层面 进行考虑是不均衡数据集处理方法中的两大主要 分支。其中,数据层面的处理方法是基于某种规 则,通过删减多数类样本或者增加少数类样本来 改善原始数据的不均衡比,使样本尽可能地均衡 化,方便进行分类模型的训练;算法层面的处理 方法主要包括集成学习[13] 和代价敏感学习[14-15] 方法,这些方法通过修改分类算法在数据集上的 偏置,使得分类决策向少数类偏移,从而有效提 升分类器在不均衡数据集上的分类精度。 自适应综合过采样算法 (adaptive synthetic sampling approach,ADASYN)[16] 是一种有代表性 的数据层面处理方法。ADASYN 基于少数类样 本的概率分布对少数类样本进行自适应插值 (过 采样),对少数类样本的扩充,以实现数据集的均 衡化处理。该方法通过设定插值公式进行人工生 成样本,避免了样本的简单随机复制,有效减弱 了模型中可能出现的过拟合现象,同时顾及了样 本的分布信息,因而在不均衡数据集处理中获得 较好的处理结果。然而,虽然 ADASYN 在对少数 类样本进行插值 (过采样) 处理时在一定程度上 考虑了少数类样本周围多数类样本的分布情况, 却没有分析和考虑少数类样本间的关联性,存在 少数类样本特征信息利用不充分的问题,导致所 获得过采样样本并不一定满足少数类样本的本质 分布特性,严重时会降低后续分类模型的性能。 本文针对不均衡数据集中少数类样本难以有 效分类,现有过采样方法未能充分利用少数类样 本间的特征信息的问题,提出一种融合谱聚类的 自适应综合采样方法 (spectral clustering-fused ad￾aptive synthetic oversampling approach,SCF-ADA￾SYN)。SCF-ADASYN 首先采用谱聚类方法对少 数类样本进行分析和处理;根据少数类的分布结 构,将其聚成若干个簇;再以少数类样本的聚类 簇为单位对少数类进行自适应过采样,得到均衡 数据集,以用于后续分类器模型训练。最后,在 多个不均衡数据集上进行实验,通过搭配多种经 典模式分类方法进行模式分类实验,以验证本文 所提方法的有效性和性能优越性。 1 相关工作 本节对 ADASYN 和谱聚类方法进行简单介 绍,概述其算法核心思路及主要流程。 1.1 自适应综合过采样 采样是一种常见的数据集预处理方法,它通 过增加少数类样本或减少多数类样本改变其不均 衡比,从而构造出新的训练数据集,最常见的采 样方法包括过采样[17] 和欠采样[18] 方法。 欠采样是一类通过对部分多数类样本进行删 减以达到均衡化处理目的的不均衡数据集处理方 法,例如:压缩最近邻法、随机删除法。研究表 明,欠采样方法在删除样本时会不可避免地丢失 信息,因此并未被广泛采用。 与欠采样相比,通过增加少数类样本达到均 衡化目的的过采样应用更为广泛。综合少数类过 采样技术 (synthetic minority oversampling tech￾nique,SMOTE)[19] 是一种应用较为广泛的过采样 算法。该算法通过线性插值对少数类样本进行过 采样,插值空间位于原数据空间,因其具有良好 的分类效果和简单易于实施的优势而被广泛应 用。然而,研究表明,该方法会导致类别重叠的 问题 (在多数类样本之间线性插值出一个少数类 样本而导致类别重叠)。因而,He 等 [16] 提出了一 种自适应综合过采样方法 (adaptive synthetic sampling approach,ADASYN) 通过预先判定少数 类样本周围多数类的分布情况,对于不同的少数 类样本进行自适应插值。 ADASYN 算法流程如下: 不均衡度的计算: d = ms/ml,式中 d ∈ (0,1] ;若 第 4 期 刘金平,等:面向不均衡数据的融合谱聚类的自适应过采样法 ·733·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有