处理数据具有较为均匀的分布特性，然而，在实际的工程应用中，数据往往会出现

正在加载图片...

第4期刘金平，等：面向不均衡数据的融合谱聚类的自适应过采样法 ·733· 处理数据具有较为均匀的分布特性，然而，在实少数类样本特征信息利用不充分的问题，导致所际的工程应用中，数据往往会出现一类比另一类获得过采样样本并不一定满足少数类样本的本质多的情况，即分类处理的对象是不均衡数据集)，分布特性，严重时会降低后续分类模型的性能。若不对其进行均衡化处理，那么分类器极有可能本文针对不均衡数据集中少数类样本难以有忽略少数类数据，导致所获得的分类模型不精确效分类，现有过采样方法未能充分利用少数类样或者分类性能下降4。本间的特征信息的问题，提出一种融合谱聚类的不均衡数据集在生活生产中十分常见，如何自适应综合采样方法(spectral clustering-fused ad-. 对不均衡数据集的少数类样本进行正确分类是多 aptive synthetic oversampling approach,SCF-ADA- 个领域的重要课题。比如，在工业过程故障检 SYN)。SCF-ADASYN首先采用谱聚类方法对少测与诊断领域m,其模式分类的目标是识别出有数类样本进行分析和处理；根据少数类的分布结故障的少数类样本，而有故障的样本数要远远少构，将其聚成若干个簇：再以少数类样本的聚类于正常（无故障）样本数。对这些极度不均衡的簇为单位对少数类进行自适应过采样，得到均衡数据进行处理，往往会导致分类器偏向多数类样数据集，以用于后续分类器模型训练。最后，在本，而难以得到较好的模式分类结果。类似的情多个不均衡数据集上进行实验，通过搭配多种经况还有医疗诊断1、网络入侵监测0等领域。并典模式分类方法进行模式分类实验，以验证本文且在实际应用中，少数类样本的误（漏）识别代价所提方法的有效性和性能优越性。往往大于多数类样本的误（漏）识别代价。比如，在癌症筛查和诊断山中，对少数类类别（肿瘤）漏 1相关工作报，极有可能延误病人的最佳治疗时间，为病人生命带来不可估量的危害：在网络入侵监测中，本节对ADASYN和谱聚类方法进行简单介正常访问与入侵行为存在严重的类别不均衡，如绍，概述其算法核心思路及主要流程。果不能有效区分入侵与访问，将严重威胁网络安 1.1自适应综合过采样全。基于这些原因，不均衡数据的处理方法在国采样是一种常见的数据集预处理方法，它通内外受到广泛关注。过增加少数类样本或减少多数类样本改变其不均现阶段，从数据层面进行考虑和从算法层面衡比，从而构造出新的训练数据集，最常见的采进行考虑是不均衡数据集处理方法中的两大主要样方法包括过采样和欠采样图方法。分支。其中，数据层面的处理方法是基于某种规欠采样是一类通过对部分多数类样本进行删则，通过删减多数类样本或者增加少数类样本来减以达到均衡化处理目的的不均衡数据集处理方改善原始数据的不均衡比，使样本尽可能地均衡法，例如：压缩最近邻法、随机删除法。研究表化，方便进行分类模型的训练；算法层面的处理明，欠采样方法在删除样本时会不可避免地丢失方法主要包括集成学习1和代价敏感学习41 信息，因此并未被广泛采用。方法，这些方法通过修改分类算法在数据集上的与欠采样相比，通过增加少数类样本达到均偏置，使得分类决策向少数类偏移，从而有效提衡化目的的过采样应用更为广泛。综合少数类过升分类器在不均衡数据集上的分类精度。采样技术(synthetic minority oversampling tech- 自适应综合过采样算法(adaptive synthetic nique,SMOTE)I9是一种应用较为广泛的过采样 sampling approach,.ADASYN)l是一种有代表性算法。该算法通过线性插值对少数类样本进行过的数据层面处理方法。ADASYN基于少数类样采样，插值空间位于原数据空间，因其具有良好本的概率分布对少数类样本进行自适应插值（过的分类效果和简单易于实施的优势而被广泛应采样)，对少数类样本的扩充，以实现数据集的均用。然而，研究表明，该方法会导致类别重叠的衡化处理。该方法通过设定插值公式进行人工生问题（在多数类样本之间线性插值出一个少数类成样本，避免了样本的简单随机复制，有效减弱样本而导致类别重叠)。因而，He等6提出了一了模型中可能出现的过拟合现象，同时顾及了样种自适应.综合过采样方法(adaptive synthetic 本的分布信息，因而在不均衡数据集处理中获得 sampling approach,ADASYN)通过预先判定少数较好的处理结果。然而，虽然ADASYN在对少数类样本周围多数类的分布情况，对于不同的少数类样本进行插值（过采样）处理时在一定程度上类样本进行自适应插值。考虑了少数类样本周围多数类样本的分布情况， ADASYN算法流程如下：却没有分析和考虑少数类样本间的关联性，存在不均衡度的计算：d=m,/,式中d∈(0,1]；若处理数据具有较为均匀的分布特性，然而，在实际的工程应用中，数据往往会出现一类比另一类多的情况，即分类处理的对象是不均衡数据集[3] ，若不对其进行均衡化处理，那么分类器极有可能忽略少数类数据，导致所获得的分类模型不精确或者分类性能下降[4-5]。不均衡数据集在生活生产中十分常见,如何对不均衡数据集的少数类样本进行正确分类是多个领域的重要课题[6]。比如，在工业过程故障检测与诊断领域[7] ，其模式分类的目标是识别出有故障的少数类样本，而有故障的样本数要远远少于正常 (无故障) 样本数。对这些极度不均衡的数据进行处理，往往会导致分类器偏向多数类样本，而难以得到较好的模式分类结果。类似的情况还有医疗诊断[8] 、网络入侵监测[9-10] 等领域。并且在实际应用中，少数类样本的误 (漏) 识别代价往往大于多数类样本的误 (漏) 识别代价。比如，在癌症筛查和诊断[11] 中，对少数类类别 (肿瘤) 漏报，极有可能延误病人的最佳治疗时间，为病人生命带来不可估量的危害；在网络入侵监测中，正常访问与入侵行为存在严重的类别不均衡，如果不能有效区分入侵与访问，将严重威胁网络安全。基于这些原因，不均衡数据的处理方法在国内外受到广泛关注[12]。现阶段，从数据层面进行考虑和从算法层面进行考虑是不均衡数据集处理方法中的两大主要分支。其中，数据层面的处理方法是基于某种规则，通过删减多数类样本或者增加少数类样本来改善原始数据的不均衡比，使样本尽可能地均衡化，方便进行分类模型的训练；算法层面的处理方法主要包括集成学习[13] 和代价敏感学习[14-15] 方法，这些方法通过修改分类算法在数据集上的偏置，使得分类决策向少数类偏移，从而有效提升分类器在不均衡数据集上的分类精度。自适应综合过采样算法 (adaptive synthetic sampling approach，ADASYN)[16] 是一种有代表性的数据层面处理方法。ADASYN 基于少数类样本的概率分布对少数类样本进行自适应插值 (过采样)，对少数类样本的扩充，以实现数据集的均衡化处理。该方法通过设定插值公式进行人工生成样本，避免了样本的简单随机复制，有效减弱了模型中可能出现的过拟合现象，同时顾及了样本的分布信息，因而在不均衡数据集处理中获得较好的处理结果。然而，虽然 ADASYN 在对少数类样本进行插值 (过采样) 处理时在一定程度上考虑了少数类样本周围多数类样本的分布情况，却没有分析和考虑少数类样本间的关联性，存在少数类样本特征信息利用不充分的问题，导致所获得过采样样本并不一定满足少数类样本的本质分布特性，严重时会降低后续分类模型的性能。本文针对不均衡数据集中少数类样本难以有效分类，现有过采样方法未能充分利用少数类样本间的特征信息的问题，提出一种融合谱聚类的自适应综合采样方法 (spectral clustering-fused adaptive synthetic oversampling approach，SCF-ADASYN)。SCF-ADASYN 首先采用谱聚类方法对少数类样本进行分析和处理；根据少数类的分布结构，将其聚成若干个簇；再以少数类样本的聚类簇为单位对少数类进行自适应过采样，得到均衡数据集，以用于后续分类器模型训练。最后，在多个不均衡数据集上进行实验，通过搭配多种经典模式分类方法进行模式分类实验，以验证本文所提方法的有效性和性能优越性。 1 相关工作本节对 ADASYN 和谱聚类方法进行简单介绍，概述其算法核心思路及主要流程。 1.1 自适应综合过采样采样是一种常见的数据集预处理方法，它通过增加少数类样本或减少多数类样本改变其不均衡比，从而构造出新的训练数据集，最常见的采样方法包括过采样[17] 和欠采样[18] 方法。欠采样是一类通过对部分多数类样本进行删减以达到均衡化处理目的的不均衡数据集处理方法，例如：压缩最近邻法、随机删除法。研究表明，欠采样方法在删除样本时会不可避免地丢失信息，因此并未被广泛采用。与欠采样相比，通过增加少数类样本达到均衡化目的的过采样应用更为广泛。综合少数类过采样技术 (synthetic minority oversampling technique，SMOTE)[19] 是一种应用较为广泛的过采样算法。该算法通过线性插值对少数类样本进行过采样，插值空间位于原数据空间，因其具有良好的分类效果和简单易于实施的优势而被广泛应用。然而，研究表明，该方法会导致类别重叠的问题 (在多数类样本之间线性插值出一个少数类样本而导致类别重叠)。因而，He 等 [16] 提出了一种自适应综合过采样方法 (adaptive synthetic sampling approach，ADASYN) 通过预先判定少数类样本周围多数类的分布情况，对于不同的少数类样本进行自适应插值。 ADASYN 算法流程如下：不均衡度的计算： d = ms/ml，式中 d ∈ (0,1] ；若第 4 期刘金平，等：面向不均衡数据的融合谱聚类的自适应过采样法 ·733·

<<向上翻页向下翻页>>

点击下载：【机器学习】面向不均衡数据的融合谱聚类的自适应过采样法