正在加载图片...
·954· 智能系统学报 第14卷 为了达到理想学习情况,深度学习通常需要 权重。一种方法是在算法梯度反向传播阶段调整 大量的标注数据,并且各个标签之间的分布要能 模型损失。模型将一个类别错分成另一个类别 够尽量均衡。然而在实际情况中,很难保证这种 时,对该样本损失乘以相应错分代价。但目前对 标签的均衡,往往面对的是类别不平衡情况。类 于错分代价的量化仍属于一个问题。而Focal 别不平衡问题B-(class imbalance problem)指数据 Loss方法1试图根据预测样本的概率高低动态 集中各类别样本总数存在明显差异。极端情况下 地给样本损失赋予不同的权重,从而引导模型更 二者不平衡比率甚至高达1000倍。这类情况在 多地学习较难样本。 计算机视觉和医疗诊断阿领域尤为凸显。这种 采样方法需要人工分析样本特性去生成或剔 类别不平衡问题极大地影响着模型的拟合和泛化 除样本,处理繁杂。而调整模型类算法一般需要 能力,导致模型产生过拟合情况,而往往忽视对 引入额外参数来控制平衡性,增加了模型的学习 小类别样本的学习。典型问题,如实际生活中 复杂度。且随机打乱的样本序列和类别间的不平 癌症患者数量远远少于健康者数量。如果模型采 衡性,使得在每个小批量内类别间不平衡率动态 用标准算法以最大化正确率为目标,则会偏好正 变化。在本文中,针对图像不平衡多分类问题, 常人类别,易将病患错误预测为正常人,从而严 设计了一种在小批量内动态调整样本损失比例的 重影响患者的治疗时机。因此对类别不平衡问题 期望损失函数。该方法相较于交叉熵损失函数和 的研究尤其重要。 目前在类别不平衡问题上常见的过采样方法,其 基于数据层面的平衡算法主要通过对样本重 在测试集上的正确率和调和平均F,都取得一定 采样,来改善原始数据集类别分布平衡。过采样 程度的提高。 (oversampling,.OS)s是目前机器学习中针对类别 1损失平衡函数 不平衡问题最广泛使用的方法之一。该方法的简 单做法是直接随机从小类别中重复选取样本。但 1.1交叉熵损失函数 重复的样本可能会导致模型的过拟合问题。 在图像多分类任务中,传统损失函数通常采 种比较有效的方法是SMOTE采样1,其思想是 用交叉嫡l6的形式(cross entropy loss function,. 通过邻近样本点人工生成相似的样本。但该方法 CE),其表达式为 可能存在生成的样本处于类别边界处,反而降低 CE(0=- 方ylog可 (1) 了模型的决策能力。欠采样I(under-sampling)的 i=1 思想是将大类别中的样本剔除一部分,从而保持 式中:0表示模型参数;n表示样本总数;i表示样 类别平衡。由于除去了部分样本,可能会导致数 本编号;y,代表样本1的真实标记表示模型对 据集缺少部分信息。为解决该问题,一些改善的 样本ⅰ的预测结果。交叉熵损失函数主要考虑每 方式是更为谨慎地选择别除的样本。如除去处于 个样本对应于其正确类别的概率,如果该概率较 类别边界处的冗余样本)或通过聚类方式生成 低,说明当前模型对该样本的学习程度不够,给 样本权重来对大类别样本进行欠采样。一种新近 予较大损失;反之,则赋予该样本较小损失。但 方法是结合过采样和欠采样优点,对大类别样本 交叉熵损失函数前提是类别间分布平衡,因此在 欠采样,小类别样本过采样,从而使数据集达到 面对类别不平衡问题时,交叉嫡损失函数将不再 一个较好的平衡点。 适用。 而模型层面的算法主要通过修改模型损失函 1.2改进的损失平衡函数 数或调整模型结构来降低数据集的不平衡性。阈 类别不平衡问题导致模型效果不佳的根本原 值移动l(thresholding)是一种通过改变后验概率 因在于训练集中部分类别样本数量过少,模型对 的决策阈值来调整模型分类的算法。其根据类别 这些类别的样本学习程度不够,模型泛化能力不 信息对模型输出概率使用先验信息对其做补偿, 佳。由于该问题在实际情况中普遍存在,解决该 从而调整分类器的决策阈值,更好地适应不平衡 问题只能尽可能增加数据规模,对小类别样本多 分类问题。代价敏感学习I(cost sensitive learn- 采样。但由类别不平衡问题引起的模型对大类别 ing)认为模型将样本错分成其他类别时的错分代 样本的过拟合问题可采用一些方法来降低其影 价是不同的,因此对不同类别错分代价赋予不同 响,如过采样方法。为了达到理想学习情况,深度学习通常需要 大量的标注数据,并且各个标签之间的分布要能 够尽量均衡。然而在实际情况中,很难保证这种 标签的均衡,往往面对的是类别不平衡情况。类 别不平衡问题[3-4] (class imbalance problem) 指数据 集中各类别样本总数存在明显差异。极端情况下 二者不平衡比率甚至高达 1 000 倍。这类情况在 计算机视觉[5] 和医疗诊断[6] 领域尤为凸显。这种 类别不平衡问题极大地影响着模型的拟合和泛化 能力,导致模型产生过拟合情况,而往往忽视对 小类别样本的学习[7]。典型问题,如实际生活中 癌症患者数量远远少于健康者数量。如果模型采 用标准算法以最大化正确率为目标,则会偏好正 常人类别,易将病患错误预测为正常人,从而严 重影响患者的治疗时机。因此对类别不平衡问题 的研究尤其重要。 基于数据层面的平衡算法主要通过对样本重 采样,来改善原始数据集类别分布平衡。过采样 (oversampling,OS)[8] 是目前机器学习中针对类别 不平衡问题最广泛使用的方法之一。该方法的简 单做法是直接随机从小类别中重复选取样本。但 重复的样本可能会导致模型的过拟合问题[9]。一 种比较有效的方法是 SMOTE 采样[10] ,其思想是 通过邻近样本点人工生成相似的样本。但该方法 可能存在生成的样本处于类别边界处,反而降低 了模型的决策能力。欠采样[8] (under-sampling) 的 思想是将大类别中的样本剔除一部分,从而保持 类别平衡。由于除去了部分样本,可能会导致数 据集缺少部分信息。为解决该问题,一些改善的 方式是更为谨慎地选择剔除的样本。如除去处于 类别边界处的冗余样本[11] 或通过聚类方式生成 样本权重来对大类别样本进行欠采样。一种新近 方法是结合过采样和欠采样优点,对大类别样本 欠采样,小类别样本过采样,从而使数据集达到 一个较好的平衡点[12]。 而模型层面的算法主要通过修改模型损失函 数或调整模型结构来降低数据集的不平衡性。阈 值移动[13] (thresholding) 是一种通过改变后验概率 的决策阈值来调整模型分类的算法。其根据类别 信息对模型输出概率使用先验信息对其做补偿, 从而调整分类器的决策阈值,更好地适应不平衡 分类问题。代价敏感学习[14] (cost sensitive learn￾ing) 认为模型将样本错分成其他类别时的错分代 价是不同的,因此对不同类别错分代价赋予不同 权重。一种方法是在算法梯度反向传播阶段调整 模型损失。模型将一个类别错分成另一个类别 时,对该样本损失乘以相应错分代价。但目前对 于错分代价的量化仍属于一个问题。而 Focal Loss 方法[15] 试图根据预测样本的概率高低动态 地给样本损失赋予不同的权重,从而引导模型更 多地学习较难样本。 采样方法需要人工分析样本特性去生成或剔 除样本,处理繁杂。而调整模型类算法一般需要 引入额外参数来控制平衡性,增加了模型的学习 复杂度。且随机打乱的样本序列和类别间的不平 衡性,使得在每个小批量内类别间不平衡率动态 变化。在本文中,针对图像不平衡多分类问题, 设计了一种在小批量内动态调整样本损失比例的 期望损失函数。该方法相较于交叉熵损失函数和 目前在类别不平衡问题上常见的过采样方法,其 在测试集上的正确率和调和平均 F1 都取得一定 程度的提高。 1 损失平衡函数 1.1 交叉熵损失函数 在图像多分类任务中,传统损失函数通常采 用交叉熵[16] 的形式 (cross entropy loss function, CE),其表达式为 CE(θ) = − ∑n i=1 yi logyi (1) yi 式中:θ 表示模型参数;n 表示样本总数;i 表示样 本编号;yi 代表样本 i 的真实标记; 表示模型对 样本 i 的预测结果。交叉熵损失函数主要考虑每 个样本对应于其正确类别的概率,如果该概率较 低,说明当前模型对该样本的学习程度不够,给 予较大损失;反之,则赋予该样本较小损失。但 交叉熵损失函数前提是类别间分布平衡,因此在 面对类别不平衡问题时,交叉熵损失函数将不再 适用。 1.2 改进的损失平衡函数 类别不平衡问题导致模型效果不佳的根本原 因在于训练集中部分类别样本数量过少,模型对 这些类别的样本学习程度不够,模型泛化能力不 佳。由于该问题在实际情况中普遍存在,解决该 问题只能尽可能增加数据规模,对小类别样本多 采样。但由类别不平衡问题引起的模型对大类别 样本的过拟合问题可采用一些方法来降低其影 响,如过采样方法。 ·954· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有