正在加载图片...
·1074· 智能系统学报 第14卷 要有随机欠采样和随机过采样。随机欠采样是指 其中xeR4,xar是少数类中第i个样本的第at 随机地移除部分多数类样本,但该方法可能会丢 tr个属性值,atr=1,2,,d;y是[0,1]之间的随机 失部分有用的信息,导致分类器性能下降。随机 数;x是样本x的第j个近邻样本,j=12,…k; 过采样则是随机的复制少数类样本,使得数据的 xw代表在x与x:之间合成的新样本。从式(I) 类分布平衡,但该方法由于反复复制少数类样 可以看出,新样本xew是在样本x与x之间插 本,增加了分类模型过拟合的可能性。为解决上 值得到的样本,其具体算法如下所示。 述问题,Chawla等提出了SMOTE(synthetic ★少数类样本 minority oversampling technique)方法,该方法通过 ●多数类样本 在数据中增加人工合成的少数类样本使类分布平 合成新样本 衡,降低了过拟合的可能性,提高了分类器在测 试集上的泛化性能。 SMOTE为解决不平衡问题提供了新的方向, 成为处理不平衡数据有效的预处理技术,并成功 地应用于许多不同领域。SMOTE促进了解决不 平衡分类问题方法的产生,同时为新的监督学习 范式做出了重大贡献,如多标签分类、增量学习 图1 SMOTE算法插值说明图 半监督学习以及多实例学习等的。许多研究人员 Fig.1 The interpolation illustration of SMOTE algorithm 根据SMOTE提出了改进的算法,以克服SMOTE 算法SMOTE算法 导致的过泛化等问题,从而提高不同应用背景下 输入少数类样本集T,向上采样倍率n,样 不平衡问题的分类模型性能。SMOTE方法已经 本近邻数k: 成为现阶段不平衡分类领域的热点技术之一。在 输出合成少数类样本集S。 CNKI库与Web of Science核心集中,以“SMOTE” 1)fori=1to T do 为关键词的近10年的发文数量总体呈逐年上升 2)计算x:的k个近邻样本并存人X.集合; 趋势,其中2018年CNKI发文量达到61篇,SCI 3)for /=1 to n do 发文量达到106篇。而以“SMOTE”和“不平衡数 4)从X体中随机选取样本x; 据”为联合关键词的近10年的发文数量总体也呈 5)生成0,1]之间的随机数y: 上升趋势,这种现象说明了SMOTE研究不平衡 6)利用公式(1)合成x与x:间新样本 数据分类问题的重要性。此外,SMOTE论文 xn的每个属性值xaew,am; 在SCI库中的引用频次逐年上升,尤其在2018年 7)将xw添加到集合S中。 达到644次。这些数据从另一种角度说明了 8)endfor SMOTE方法的重要性。 9)endfor 1 SMOTE原理 SMOTE是基于特征空间的一种过采样方法, 在少数类样本及其最近邻样本间合成新特征,然 SMOTE方法是Chawla等提出的应用于不 后组成新样本。SMOTE通过人工合成样本缓解 平衡问题的数据预处理技术。不同于随机过采样 了由随机复制样本引起的过拟合,并在许多领域 的简单复制样本机制,SMOTE通过线性插值的方 得到了广泛应用,但同时也存在一些问题。 法在两个少数类样本间合成新的样本,从而有效 ①合成样本的质量问题 缓解了由随机过采样引起的过拟合问题。 由SMOTE算法可知,新样本的合成取决于 SMOTE的基本原理通过图1进行说明。首 根样本与辅助样本的选择。若根样本与辅助样本 先从少数类样本中依次选取每个样本:作为合 均处于少数类区域,则合成的新样本被视为是合 成新样本的根样本;其次根据向上采样倍率n,从 理的。然而,若根样本与辅助样本中有一个属于 x:的同类别的k(k一般为奇数,如=5)个近邻样 噪声样本,则新样本将极有可能落在多数类区 本中随机选择一个样本作为合成新样本的辅助样 域,即新样本将会成为噪声而扰乱数据集的正确 本,重复n次:然后在样本x:与每个辅助样本间 分类,此时该新样本通常被视为不合理的。 通过式(1)进行线性插值,最终生成n个合成样本。 ②模糊类边界问题 Xnew attr Xiattr +(Xijarr -Xiatt)Xy (1) SMOTE算法在合成少数类样本时不考虑多要有随机欠采样和随机过采样。随机欠采样是指 随机地移除部分多数类样本,但该方法可能会丢 失部分有用的信息,导致分类器性能下降。随机 过采样则是随机的复制少数类样本,使得数据的 类分布平衡,但该方法由于反复复制少数类样 本,增加了分类模型过拟合的可能性。为解决上 述问题,Chawla 等 [ 4 ] 提出了 SMOTE(synthetic minority oversampling technique) 方法,该方法通过 在数据中增加人工合成的少数类样本使类分布平 衡,降低了过拟合的可能性,提高了分类器在测 试集上的泛化性能。 SMOTE 为解决不平衡问题提供了新的方向, 成为处理不平衡数据有效的预处理技术,并成功 地应用于许多不同领域。SMOTE 促进了解决不 平衡分类问题方法的产生,同时为新的监督学习 范式做出了重大贡献,如多标签分类、增量学习、 半监督学习以及多实例学习等[5]。许多研究人员 根据 SMOTE 提出了改进的算法,以克服 SMOTE 导致的过泛化等问题,从而提高不同应用背景下 不平衡问题的分类模型性能。SMOTE 方法已经 成为现阶段不平衡分类领域的热点技术之一。在 CNKI 库与 Web of Science 核心集中,以“SMOTE” 为关键词的近 10 年的发文数量总体呈逐年上升 趋势,其中 2018 年 CNKI 发文量达到 61 篇,SCI 发文量达到 106 篇。而以“SMOTE”和“不平衡数 据”为联合关键词的近 10 年的发文数量总体也呈 上升趋势,这种现象说明了 SMOTE 研究不平衡 数据分类问题的重要性。此外,SMOTE 论文[4] 在 SCI 库中的引用频次逐年上升,尤其在 2018 年 达到 644 次。这些数据从另一种角度说明了 SMOTE 方法的重要性。 1 SMOTE 原理 SMOTE 方法是 Chawla 等 [4] 提出的应用于不 平衡问题的数据预处理技术。不同于随机过采样 的简单复制样本机制,SMOTE 通过线性插值的方 法在两个少数类样本间合成新的样本,从而有效 缓解了由随机过采样引起的过拟合问题。 xi xi xi SMOTE 的基本原理通过图 1 进行说明。首 先从少数类样本中依次选取每个样本 作为合 成新样本的根样本;其次根据向上采样倍率 n,从 的同类别的 k(k 一般为奇数,如 k=5) 个近邻样 本中随机选择一个样本作为合成新样本的辅助样 本,重复 n 次;然后在样本 与每个辅助样本间 通过式 (1) 进行线性插值,最终生成 n 个合成样本。 xnew,attr = xi,attr +(xi j,attr − xi,attr)×γ (1) xi ∈ R d xi,attr attr = 1,2,··· ,d γ xi j xi j = 1,2,··· k xnew xi j xi xnew xi j xi 其中 , 是少数类中第 i 个样本的第 at￾tr 个属性值, ; 是 [0, 1] 之间的随机 数; 是样本 的第 j 个近邻样本, ; 代表在 与 之间合成的新样本。从式 (1) 可以看出,新样本 是在样本 与 之间插 值得到的样本,其具体算法如下所示。 算法 SMOTE 算法 输入 少数类样本集 T,向上采样倍率 n,样 本近邻数 k; 输出 合成少数类样本集 S。 1) for i = 1 to |T | do 2) 计算 xi 的 k 个近邻样本并存入 Xik 集合; 3) for l = 1 to n do 4) 从 Xik 中随机选取样本 xi j ; 5) 生成 [0, 1] 之间的随机数 γ ; xi j xi xnew xnew,attr 6) 利用公式 (1) 合成 与 间新样本 的每个属性值 ; 7) 将 xnew 添加到集合 S 中。 8) endfor 9) endfor SMOTE 是基于特征空间的一种过采样方法, 在少数类样本及其最近邻样本间合成新特征,然 后组成新样本。SMOTE 通过人工合成样本缓解 了由随机复制样本引起的过拟合,并在许多领域 得到了广泛应用,但同时也存在一些问题。 ① 合成样本的质量问题 由 SMOTE 算法可知,新样本的合成取决于 根样本与辅助样本的选择。若根样本与辅助样本 均处于少数类区域,则合成的新样本被视为是合 理的。然而,若根样本与辅助样本中有一个属于 噪声样本,则新样本将极有可能落在多数类区 域,即新样本将会成为噪声而扰乱数据集的正确 分类,此时该新样本通常被视为不合理的。 ② 模糊类边界问题 SMOTE 算法在合成少数类样本时不考虑多 xi xi1 xi2 xi3 xi4 xi5 少数类样本 多数类样本 合成新样本 xnew 图 1 SMOTE 算法插值说明图 Fig. 1 The interpolation illustration of SMOTE algorithm ·1074· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有