正在加载图片...
·264· 智能系统学报 第16卷 图像的底层像素信息或图像的特征,如图像边缘 及集成,进一步提升网络的分类准确率,需要进 特征、纹理特征以及颜色特征等。也有学者采 行研究和讨论。 用小波变换、傅里叶变换、EMD(empirical mode 针对上述问题,本文提出了一种基于多感知兴 decomp-osition)变换等方法进行特征提取uo-12) 趣区域特征融合的图像识别方法,对深度卷积模 然后将提取的特征送入机器学习模型中进行分类 型VGG网络与残差网络引入融合机制与微调机 识别。传统的图像识别方法都需要一定的先验性 制,结合深度迁移学习方法,将网络模型的识别 知识,而且对于一些相似的图像依靠人为寻找特 能力进行增强。本文的主要工作如下:1)利用特 征仍较为困难,算法实现的精度较低且难以转 征可视化方法对模型的兴趣区域特征进行热力图 换。近年来,随着计算机性能的提升以及数据量 标注,获得的结论为不同模型在识别相同图像时 的爆炸式增长,深度学习(deep learning)作为一种 所关注兴趣区域有所差异;2)根据特征可视化结 新兴的机器学习手段取得了飞速的发展)。采用 论,引入模型多尺度性质和投票融合机制,设计 深度学习方法进行图像识别的优势在于图像识别 3种网络融合方法;3)在Kaggle数据集上进行对 精度高,无需特征工程,适应性强易于转换,可使 比实验以验证本文方法的有效性。实验结果表明 用数据进行有效缩放,方便实际应用与部署4。 本文方法比融合前方法具有更高的识别准确率。 现有的深度学习网络浅层主要通过对输入图像进 行特征提取与降采样获得图像低阶特征,深层网 1相关理论 络则通过更深层变换获得图像特征的语义信息与 更高分辨率特征图6。近年来,针对自然图像识 本文将迁移学习方法引入到VGG网络模型 别任务,一系列深度学习算法被提出,AlexNet是 和ResNet网络模型作为算法的模型基础。通过 最早的深度学习网络模型I刀。AlexNet有八层网 CAM可视化机制对模型的兴趣特征进行可视化 络结构,采用新的relu激活函数和dropout机制抵 分析。最后通过集成学习方法将含有不同兴趣特 抗过拟合以提高特征提取的有效性。VGGNet 征的网络模型进行融合得到本文算法。 采用多个尺寸更小的卷积核模拟大尺寸卷积核网, 1.1 迁移学习 在保证感受野的同时减少参数数量,同时引人 在机器学习、深度学习和数据挖掘的大多数任 1×1卷积核增加网络的表征能力、降低计算量。 务中都会假设训练和测试时采用的数据服从相同 ResNet的提出主要通过跨层连接和拟合残差项的 的分布并且来源于相同的特征空间”。然而在深 方法解决了随着网络层数的加深),网络模型难 度学习实现的过程中,由于网络模型的深度较大且 以训练的问题。DenseNet是一种密集连接卷积神 参数过多,在训练网络模型时往往会遇到以下 经网络,该模型设计了dense block模块,使得网 问题: 络结构更窄,参数更少2。同时该连接方式也使 1)带标记的训练样本数量不够。当处理 得特征和梯度的传递更加有效,网络更易训练。 A领域任务时,缺少足够数量训练样本和标签。 上述深度学习网络模型在图像识别任务中均有较 与A领域具有一定关联的B领域,却拥有数量巨 好表现,但现有深度学习方法的图像识别任务仍 大的训练样本。但由于B领域与A领域具有一 有如下难点n:I)AlexNet作为最早的深度学习模 定差异,因而导致其特征处于不同的空间分布, 型虽然取得较好的图像识别效果,但是由于其层 或样本服从不同分布。 数只有八层,导致其在特征的表征能力上仍有上 2)数据分布会发生变化。对于相同的任务, 升空间。2)VGGNet、ResNet以及DenseNet网络 在不同时期、地点或受其他动态因素影响,数据 模型各自采用创新技术达到模型层数加深的目 分布会发生一定变化,因此需要重新收集数据并 的,提升了网络的学习能力。但是对于特定任务, 建立模型。 从头训练上述模型成本代价过高。3)随着人工智 迁移学习作为一种机器学习的方法,可以把 能技术的发展,深度学习图像识别网络层出不 为任务A开发的模型作为初始点,重新应用在任 穷,但深度学习网络需要大量的数据进行训练及 务B的模型开发过程中。即把B领域中的知识迁 拟合,现实情况难以有足够的数据支撑网络进行 移到A领域中来,提高A领域分类效果,不需要花 训练。4)在研究过程中,通过可视化数据特征发 大量时间去标注A领域数据。对于深度学习目标 现,不同的网络模型关联和提取到的特征也是不 识别任务,在预训练模型中存在各种特征数据与 同的,关注的图像特征区域也有所差异。如何在 权重信息。其中一些是与分类识别对象本身关联 机器学习集成架构下,将不同的网络特征相融合 比较紧密的特征数据与权重信息,还有一些比较图像的底层像素信息或图像的特征,如图像边缘 特征、纹理特征以及颜色特征等[5-9]。也有学者采 用小波变换、傅里叶变换、EMD(empirical mode decomp-osition) 变换等方法进行特征提取[10-12]。 然后将提取的特征送入机器学习模型中进行分类 识别。传统的图像识别方法都需要一定的先验性 知识,而且对于一些相似的图像依靠人为寻找特 征仍较为困难,算法实现的精度较低且难以转 换。近年来,随着计算机性能的提升以及数据量 的爆炸式增长,深度学习 (deep learning) 作为一种 新兴的机器学习手段取得了飞速的发展[13]。采用 深度学习方法进行图像识别的优势在于图像识别 精度高,无需特征工程,适应性强易于转换,可使 用数据进行有效缩放,方便实际应用与部署[14-15]。 现有的深度学习网络浅层主要通过对输入图像进 行特征提取与降采样获得图像低阶特征,深层网 络则通过更深层变换获得图像特征的语义信息与 更高分辨率特征图[16]。近年来,针对自然图像识 别任务,一系列深度学习算法被提出,AlexNet 是 最早的深度学习网络模型[17]。AlexNet 有八层网 络结构,采用新的 relu 激活函数和 dropout 机制抵 抗过拟合以提高特征提取的有效性。VGGNet 采用多个尺寸更小的卷积核模拟大尺寸卷积核[18] , 在保证感受野的同时减少参数数量,同时引入 1×1 卷积核增加网络的表征能力、降低计算量。 ResNet 的提出主要通过跨层连接和拟合残差项的 方法解决了随着网络层数的加深[19] ,网络模型难 以训练的问题。DenseNet 是一种密集连接卷积神 经网络,该模型设计了 dense block 模块,使得网 络结构更窄,参数更少[20]。同时该连接方式也使 得特征和梯度的传递更加有效,网络更易训练。 上述深度学习网络模型在图像识别任务中均有较 好表现,但现有深度学习方法的图像识别任务仍 有如下难点[21] :1)AlexNet 作为最早的深度学习模 型虽然取得较好的图像识别效果,但是由于其层 数只有八层,导致其在特征的表征能力上仍有上 升空间。2)VGGNet、ResNet 以及 DenseNet 网络 模型各自采用创新技术达到模型层数加深的目 的,提升了网络的学习能力。但是对于特定任务, 从头训练上述模型成本代价过高。3) 随着人工智 能技术的发展,深度学习图像识别网络层出不 穷,但深度学习网络需要大量的数据进行训练及 拟合,现实情况难以有足够的数据支撑网络进行 训练。4) 在研究过程中,通过可视化数据特征发 现,不同的网络模型关联和提取到的特征也是不 同的,关注的图像特征区域也有所差异。如何在 机器学习集成架构下,将不同的网络特征相融合 及集成,进一步提升网络的分类准确率,需要进 行研究和讨论。 针对上述问题,本文提出了一种基于多感知兴 趣区域特征融合的图像识别方法,对深度卷积模 型 VGG 网络与残差网络引入融合机制与微调机 制,结合深度迁移学习方法,将网络模型的识别 能力进行增强。本文的主要工作如下:1) 利用特 征可视化方法对模型的兴趣区域特征进行热力图 标注,获得的结论为不同模型在识别相同图像时 所关注兴趣区域有所差异;2) 根据特征可视化结 论,引入模型多尺度性质和投票融合机制,设计 3 种网络融合方法;3) 在 Kaggle 数据集上进行对 比实验以验证本文方法的有效性。实验结果表明 本文方法比融合前方法具有更高的识别准确率。 1 相关理论 本文将迁移学习方法引入到 VGG 网络模型 和 ResNet 网络模型作为算法的模型基础。通过 CAM 可视化机制对模型的兴趣特征进行可视化 分析。最后通过集成学习方法将含有不同兴趣特 征的网络模型进行融合得到本文算法。 1.1 迁移学习 在机器学习、深度学习和数据挖掘的大多数任 务中都会假设训练和测试时采用的数据服从相同 的分布并且来源于相同的特征空间[17]。然而在深 度学习实现的过程中,由于网络模型的深度较大且 参数过多,在训练网络模型时往往会遇到以下 问题: 1 ) 带标记的训练样本数量不够。当处 理 A 领域任务时,缺少足够数量训练样本和标签。 与 A 领域具有一定关联的 B 领域,却拥有数量巨 大的训练样本。但由于 B 领域与 A 领域具有一 定差异,因而导致其特征处于不同的空间分布, 或样本服从不同分布。 2) 数据分布会发生变化。对于相同的任务, 在不同时期、地点或受其他动态因素影响,数据 分布会发生一定变化,因此需要重新收集数据并 建立模型。 迁移学习作为一种机器学习的方法,可以把 为任务 A 开发的模型作为初始点,重新应用在任 务 B 的模型开发过程中。即把 B 领域中的知识迁 移到 A 领域中来,提高 A 领域分类效果,不需要花 大量时间去标注 A 领域数据。对于深度学习目标 识别任务,在预训练模型中存在各种特征数据与 权重信息。其中一些是与分类识别对象本身关联 比较紧密的特征数据与权重信息,还有一些比较 ·264· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有