第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.201906032 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20200630.1143.008.html 多感知兴趣区域特征融合的图像识别方法 闫涵,张旭秀,张净丹 (大连交通大学电气信息工程学院,辽宁大连116028) 摘要:针对自然图像识别过程中不同深度学习模型关注兴趣区域不同的现象,本文引入深度卷积神经网络融 合机制,结合深度迁移学习方法,给出了一种基于多感知兴趣区域特征融合的图像识别方法。本文将迁移学习 方法引入牛津大学视觉组网络模型(visual geometry group network,.VGGNet)和残差网络模型(residual network, ResNet),通过对单个分类模型进行热力图可视化及特征可视化,得到了不同网络模型关联的特征区域不一样 的结论。然后在此基础上分别设计特征拼接、特征融合加特征拼接及融合投票方法将不同模型特征进行融合, 得到3种新的融合模型。实验结果表明,本文方法在Kaggle数据集上的识别准确率高于VGG-16、VGG-19 ResNet-50、DenseNet-.20l模型。 关键词:深度学习:图像识别:迁移学习:特征融合:集成学习:特征提取:CAM可视化:视觉组网络模型:残差 网络模型 中图分类号:TP311文献标志码:A 文章编号:1673-4785(2021)02-0263-08 中文引用格式:闫涵,张旭秀,张净丹.多感知兴趣区域特征融合的图像识别方法小.智能系统学报,2021,16(2):263-270. 英文引用格式:YAN Han,ZHANG Xuxiu,ZHANG Jingdan.Image recognition method based on multi-perceptual interest region feature fusion[J].CAAI transactions on intelligent systems,2021,16(2):263-270. Image recognition method based on multi-perceptual interest region feature fusion YAN Han,ZHANG Xuxiu,ZHANG Jingdan (School of Electrical Information Engineering,Dalian Jiaotong University,Dalian 116028,China) Abstract:This paper presents the deep convolution neural network fusion mechanism and proposes an image recogni- tion method based on multi-perceptual interest region feature fusion in combination with the deep-migration learning method.This is to solve the problem of different deep-learning models used on different interest regions when they re- cognize a natural image.The migration learning method is applied to the convolution neural net architectures,namely VGG and ResNet networks.Then,through the visualization of the heat map and the features of single classification model,a conclusion is drawn that the characteristic regions associated with different network models are different. Based on this,the methods of feature splicing,feature fusion and splicing,and fusion voting systems are designed to fuse different model features,obtaining three new fusion models.The experimental results show that the recognition ac- curacy of this method on Kaggle dataset is higher than that of VGG-16,VGG-19,ResNet-50,and DenseNet-201 models. Keywords:deep learning;image recognition;migration learning;feature fusion;integrated learning;feature extraction; CAM visualization:VGGNet;ResNet 图像识别是计算机视觉领域的一个分支刘 从而识别各种不同模式下的目标和对象。图像识 图像识别是指利用计算机对图像进行特征提取, 别在生活中的应用非常广泛,如人脸识别、指纹 收稿日期:2019-06-18.网络出版日期:2020-06-30. 识别、安防监控等各个领域。 基金项目:国家自然科学基金项目(61471080/F010408:国家支 撑计划(2015BAF20B02):国家留学基金委资助计划 图像识别方法可分为传统的图像识别方法与 (201608210308):辽宁省自然科学基金指导计划 基于深度学习的图像识别方法。传统的图像识别 2019-ZD-0108). 通信作者:闫涵.E-mail:1346917459@qq.com, 手段主要建立在特征提取的基础上,首先提取
DOI: 10.11992/tis.201906032 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200630.1143.008.html 多感知兴趣区域特征融合的图像识别方法 闫涵,张旭秀,张净丹 (大连交通大学 电气信息工程学院,辽宁 大连 116028) 摘 要:针对自然图像识别过程中不同深度学习模型关注兴趣区域不同的现象,本文引入深度卷积神经网络融 合机制,结合深度迁移学习方法,给出了一种基于多感知兴趣区域特征融合的图像识别方法。本文将迁移学习 方法引入牛津大学视觉组网络模型 (visual geometry group network,VGGNet) 和残差网络模型 (residual network, ResNet),通过对单个分类模型进行热力图可视化及特征可视化,得到了不同网络模型关联的特征区域不一样 的结论。然后在此基础上分别设计特征拼接、特征融合加特征拼接及融合投票方法将不同模型特征进行融合, 得到 3 种新的融合模型。实验结果表明,本文方法在 Kaggle 数据集上的识别准确率高于 VGG-16、VGG-19、 ResNet-50、DenseNet-201 模型。 关键词:深度学习;图像识别;迁移学习;特征融合;集成学习;特征提取;CAM 可视化;视觉组网络模型;残差 网络模型 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2021)02−0263−08 中文引用格式:闫涵, 张旭秀, 张净丹. 多感知兴趣区域特征融合的图像识别方法 [J]. 智能系统学报, 2021, 16(2): 263–270. 英文引用格式:YAN Han, ZHANG Xuxiu, ZHANG Jingdan. Image recognition method based on multi-perceptual interest region feature fusion[J]. CAAI transactions on intelligent systems, 2021, 16(2): 263–270. Image recognition method based on multi-perceptual interest region feature fusion YAN Han,ZHANG Xuxiu,ZHANG Jingdan (School of Electrical Information Engineering, Dalian Jiaotong University, Dalian 116028, China) Abstract: This paper presents the deep convolution neural network fusion mechanism and proposes an image recognition method based on multi-perceptual interest region feature fusion in combination with the deep-migration learning method. This is to solve the problem of different deep-learning models used on different interest regions when they recognize a natural image. The migration learning method is applied to the convolution neural net architectures, namely VGG and ResNet networks. Then, through the visualization of the heat map and the features of single classification model, a conclusion is drawn that the characteristic regions associated with different network models are different. Based on this, the methods of feature splicing, feature fusion and splicing, and fusion voting systems are designed to fuse different model features, obtaining three new fusion models. The experimental results show that the recognition accuracy of this method on Kaggle dataset is higher than that of VGG-16, VGG-19, ResNet-50, and DenseNet-201 models. Keywords: deep learning; image recognition; migration learning; feature fusion; integrated learning; feature extraction; CAM visualization; VGGNet; ResNet 图像识别是计算机视觉领域的一个分支[1-2] , 图像识别是指利用计算机对图像进行特征提取, 从而识别各种不同模式下的目标和对象。图像识 别在生活中的应用非常广泛,如人脸识别、指纹 识别、安防监控等各个领域[3]。 图像识别方法可分为传统的图像识别方法与 基于深度学习的图像识别方法。传统的图像识别 手段主要建立在特征提取的基础上[4] ,首先提取 收稿日期:2019−06−18. 网络出版日期:2020−06−30. 基金项目:国家自然科学基金项目 (61471080/F010408);国家支 撑计划 (2015BAF20B02);国家留学基金委资助计划 (201608210308);辽宁省自然科学基金指导计划 (2019-ZD-0108). 通信作者:闫涵. E-mail:1346917459@qq.com. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
·264· 智能系统学报 第16卷 图像的底层像素信息或图像的特征,如图像边缘 及集成,进一步提升网络的分类准确率,需要进 特征、纹理特征以及颜色特征等。也有学者采 行研究和讨论。 用小波变换、傅里叶变换、EMD(empirical mode 针对上述问题,本文提出了一种基于多感知兴 decomp-osition)变换等方法进行特征提取uo-12) 趣区域特征融合的图像识别方法,对深度卷积模 然后将提取的特征送入机器学习模型中进行分类 型VGG网络与残差网络引入融合机制与微调机 识别。传统的图像识别方法都需要一定的先验性 制,结合深度迁移学习方法,将网络模型的识别 知识,而且对于一些相似的图像依靠人为寻找特 能力进行增强。本文的主要工作如下:1)利用特 征仍较为困难,算法实现的精度较低且难以转 征可视化方法对模型的兴趣区域特征进行热力图 换。近年来,随着计算机性能的提升以及数据量 标注,获得的结论为不同模型在识别相同图像时 的爆炸式增长,深度学习(deep learning)作为一种 所关注兴趣区域有所差异;2)根据特征可视化结 新兴的机器学习手段取得了飞速的发展)。采用 论,引入模型多尺度性质和投票融合机制,设计 深度学习方法进行图像识别的优势在于图像识别 3种网络融合方法;3)在Kaggle数据集上进行对 精度高,无需特征工程,适应性强易于转换,可使 比实验以验证本文方法的有效性。实验结果表明 用数据进行有效缩放,方便实际应用与部署4。 本文方法比融合前方法具有更高的识别准确率。 现有的深度学习网络浅层主要通过对输入图像进 行特征提取与降采样获得图像低阶特征,深层网 1相关理论 络则通过更深层变换获得图像特征的语义信息与 更高分辨率特征图6。近年来,针对自然图像识 本文将迁移学习方法引入到VGG网络模型 别任务,一系列深度学习算法被提出,AlexNet是 和ResNet网络模型作为算法的模型基础。通过 最早的深度学习网络模型I刀。AlexNet有八层网 CAM可视化机制对模型的兴趣特征进行可视化 络结构,采用新的relu激活函数和dropout机制抵 分析。最后通过集成学习方法将含有不同兴趣特 抗过拟合以提高特征提取的有效性。VGGNet 征的网络模型进行融合得到本文算法。 采用多个尺寸更小的卷积核模拟大尺寸卷积核网, 1.1 迁移学习 在保证感受野的同时减少参数数量,同时引人 在机器学习、深度学习和数据挖掘的大多数任 1×1卷积核增加网络的表征能力、降低计算量。 务中都会假设训练和测试时采用的数据服从相同 ResNet的提出主要通过跨层连接和拟合残差项的 的分布并且来源于相同的特征空间”。然而在深 方法解决了随着网络层数的加深),网络模型难 度学习实现的过程中,由于网络模型的深度较大且 以训练的问题。DenseNet是一种密集连接卷积神 参数过多,在训练网络模型时往往会遇到以下 经网络,该模型设计了dense block模块,使得网 问题: 络结构更窄,参数更少2。同时该连接方式也使 1)带标记的训练样本数量不够。当处理 得特征和梯度的传递更加有效,网络更易训练。 A领域任务时,缺少足够数量训练样本和标签。 上述深度学习网络模型在图像识别任务中均有较 与A领域具有一定关联的B领域,却拥有数量巨 好表现,但现有深度学习方法的图像识别任务仍 大的训练样本。但由于B领域与A领域具有一 有如下难点n:I)AlexNet作为最早的深度学习模 定差异,因而导致其特征处于不同的空间分布, 型虽然取得较好的图像识别效果,但是由于其层 或样本服从不同分布。 数只有八层,导致其在特征的表征能力上仍有上 2)数据分布会发生变化。对于相同的任务, 升空间。2)VGGNet、ResNet以及DenseNet网络 在不同时期、地点或受其他动态因素影响,数据 模型各自采用创新技术达到模型层数加深的目 分布会发生一定变化,因此需要重新收集数据并 的,提升了网络的学习能力。但是对于特定任务, 建立模型。 从头训练上述模型成本代价过高。3)随着人工智 迁移学习作为一种机器学习的方法,可以把 能技术的发展,深度学习图像识别网络层出不 为任务A开发的模型作为初始点,重新应用在任 穷,但深度学习网络需要大量的数据进行训练及 务B的模型开发过程中。即把B领域中的知识迁 拟合,现实情况难以有足够的数据支撑网络进行 移到A领域中来,提高A领域分类效果,不需要花 训练。4)在研究过程中,通过可视化数据特征发 大量时间去标注A领域数据。对于深度学习目标 现,不同的网络模型关联和提取到的特征也是不 识别任务,在预训练模型中存在各种特征数据与 同的,关注的图像特征区域也有所差异。如何在 权重信息。其中一些是与分类识别对象本身关联 机器学习集成架构下,将不同的网络特征相融合 比较紧密的特征数据与权重信息,还有一些比较
图像的底层像素信息或图像的特征,如图像边缘 特征、纹理特征以及颜色特征等[5-9]。也有学者采 用小波变换、傅里叶变换、EMD(empirical mode decomp-osition) 变换等方法进行特征提取[10-12]。 然后将提取的特征送入机器学习模型中进行分类 识别。传统的图像识别方法都需要一定的先验性 知识,而且对于一些相似的图像依靠人为寻找特 征仍较为困难,算法实现的精度较低且难以转 换。近年来,随着计算机性能的提升以及数据量 的爆炸式增长,深度学习 (deep learning) 作为一种 新兴的机器学习手段取得了飞速的发展[13]。采用 深度学习方法进行图像识别的优势在于图像识别 精度高,无需特征工程,适应性强易于转换,可使 用数据进行有效缩放,方便实际应用与部署[14-15]。 现有的深度学习网络浅层主要通过对输入图像进 行特征提取与降采样获得图像低阶特征,深层网 络则通过更深层变换获得图像特征的语义信息与 更高分辨率特征图[16]。近年来,针对自然图像识 别任务,一系列深度学习算法被提出,AlexNet 是 最早的深度学习网络模型[17]。AlexNet 有八层网 络结构,采用新的 relu 激活函数和 dropout 机制抵 抗过拟合以提高特征提取的有效性。VGGNet 采用多个尺寸更小的卷积核模拟大尺寸卷积核[18] , 在保证感受野的同时减少参数数量,同时引入 1×1 卷积核增加网络的表征能力、降低计算量。 ResNet 的提出主要通过跨层连接和拟合残差项的 方法解决了随着网络层数的加深[19] ,网络模型难 以训练的问题。DenseNet 是一种密集连接卷积神 经网络,该模型设计了 dense block 模块,使得网 络结构更窄,参数更少[20]。同时该连接方式也使 得特征和梯度的传递更加有效,网络更易训练。 上述深度学习网络模型在图像识别任务中均有较 好表现,但现有深度学习方法的图像识别任务仍 有如下难点[21] :1)AlexNet 作为最早的深度学习模 型虽然取得较好的图像识别效果,但是由于其层 数只有八层,导致其在特征的表征能力上仍有上 升空间。2)VGGNet、ResNet 以及 DenseNet 网络 模型各自采用创新技术达到模型层数加深的目 的,提升了网络的学习能力。但是对于特定任务, 从头训练上述模型成本代价过高。3) 随着人工智 能技术的发展,深度学习图像识别网络层出不 穷,但深度学习网络需要大量的数据进行训练及 拟合,现实情况难以有足够的数据支撑网络进行 训练。4) 在研究过程中,通过可视化数据特征发 现,不同的网络模型关联和提取到的特征也是不 同的,关注的图像特征区域也有所差异。如何在 机器学习集成架构下,将不同的网络特征相融合 及集成,进一步提升网络的分类准确率,需要进 行研究和讨论。 针对上述问题,本文提出了一种基于多感知兴 趣区域特征融合的图像识别方法,对深度卷积模 型 VGG 网络与残差网络引入融合机制与微调机 制,结合深度迁移学习方法,将网络模型的识别 能力进行增强。本文的主要工作如下:1) 利用特 征可视化方法对模型的兴趣区域特征进行热力图 标注,获得的结论为不同模型在识别相同图像时 所关注兴趣区域有所差异;2) 根据特征可视化结 论,引入模型多尺度性质和投票融合机制,设计 3 种网络融合方法;3) 在 Kaggle 数据集上进行对 比实验以验证本文方法的有效性。实验结果表明 本文方法比融合前方法具有更高的识别准确率。 1 相关理论 本文将迁移学习方法引入到 VGG 网络模型 和 ResNet 网络模型作为算法的模型基础。通过 CAM 可视化机制对模型的兴趣特征进行可视化 分析。最后通过集成学习方法将含有不同兴趣特 征的网络模型进行融合得到本文算法。 1.1 迁移学习 在机器学习、深度学习和数据挖掘的大多数任 务中都会假设训练和测试时采用的数据服从相同 的分布并且来源于相同的特征空间[17]。然而在深 度学习实现的过程中,由于网络模型的深度较大且 参数过多,在训练网络模型时往往会遇到以下 问题: 1 ) 带标记的训练样本数量不够。当处 理 A 领域任务时,缺少足够数量训练样本和标签。 与 A 领域具有一定关联的 B 领域,却拥有数量巨 大的训练样本。但由于 B 领域与 A 领域具有一 定差异,因而导致其特征处于不同的空间分布, 或样本服从不同分布。 2) 数据分布会发生变化。对于相同的任务, 在不同时期、地点或受其他动态因素影响,数据 分布会发生一定变化,因此需要重新收集数据并 建立模型。 迁移学习作为一种机器学习的方法,可以把 为任务 A 开发的模型作为初始点,重新应用在任 务 B 的模型开发过程中。即把 B 领域中的知识迁 移到 A 领域中来,提高 A 领域分类效果,不需要花 大量时间去标注 A 领域数据。对于深度学习目标 识别任务,在预训练模型中存在各种特征数据与 权重信息。其中一些是与分类识别对象本身关联 比较紧密的特征数据与权重信息,还有一些比较 ·264· 智 能 系 统 学 报 第 16 卷
第2期 闫涵,等:多感知兴趣区域特征融合的图像识别方法 ·265· 共性的特征数据与信息,是可以被不同任务或者 快速学习。迁移学习微调示意图如图1所示,为 对象之间共享的。迁移学习是要迁移那些共性特 了方便图像进行卷积操作,首先使用函数F(O)对 征数据与信息,从而避免再次学习这些知识,实现 图像进行预处理,去掉边缘像素值,缩小图像尺寸。 卷积层 分类层 第一 第二层 64个7 7 64个特征图 64个5×5的16个特征图1000神经元1000神经元 卷1核步长为2127×127 卷积核 127×127 256×256 252×252 预处理 图像 FO) 后图 基于ImageNet预训练模型 微调门 图1迁移学习微调示意 Fig.1 Schematic diagram of migration learning fine-tuning 以上模型分为两部分,一部分是基于ImageN- 训练集 t训练的深度学习模型,另一部分为根据自身任 务微调的网络模型。在训练时可针对特定任务, 自主采集法或 自主采集法或 自主采集法或 固定原始网络的相关层,修改网络的输出层,以 交叉验证法 交叉验证法 交叉验证法 使结果更符合任务需要。 1.2集成学习 集成学习(ensemble learning)是使用一系列学 训练子集1 训练子集2 训练子集: 习器进行学习,并使用某种规则把各个学习器结 果进行整合,从而获得比单个学习器更加优越的泛 学习算法1 学习算法2 学习算法n 化性能刘。集成学习算法策略主要有Bagging算 法、Boosting算法以及Stacking算法。本文涉及到 学习器1 学习器2 学习器n 的算法为Bagging算法,算法示意图如图2所示。 集成学习优势在于: 投票法 1)使用相同数据对不同的个体学习器进行训 练会得到不同结果,进而导致分类器的分类边界 则试集 集成学习器 预测 不同,还可能影响最终分类结果,产生错误输 结果 出。将多个体学习器合并后,可获得更为合理的 图2集成学习Bagging算法示意 分类边界,提升分类准确率。 Fig.2 Schematic diagram of integrated learning Bagging 2)对于数据集包含样本数量差异较大的情 algorithm 况,可以对样本数量较大的数据集进行划分操作 1.3CAM可视化 并对样本数量较小的数据集进行放回操作,进而 CAM是深度学习中一种常用的网络可视化 产生不同数据子集,再使用数据子集训练不同学 方法。利用GAP(global average pooling)替换掉全 习器,最终合并成为一个强学习器。 连接层,以把GAP视为一个特殊的平均值池化 层,其池化核尺寸和整个特征图一样大,即求每 3)当数据划分边界过于复杂时,单一使用线 张特征图所有像素的均值。GAP的优点在于由 性分类器很难获得较好结果。可以考虑训练多个 于没有了全连接层,输入不需固定大小,因此可 模型,再进行模型融合。 支持任意大小的输入。此外,引入GAP更充分地 4)对于多个难以直接融合的异构特征集,可 利用了空间信息,且没有了全连接层的各种参 以考虑使用每个数据集单独构建分类模型,再将 数,避免过拟合。同时在最后的卷积层生成了和 多个模型进行融合。 目标类别数量一致的特征图,经过GAP以后再通
共性的特征数据与信息,是可以被不同任务或者 对象之间共享的。迁移学习是要迁移那些共性特 征数据与信息,从而避免再次学习这些知识,实现 快速学习[18]。迁移学习微调示意图如图 1 所示,为 了方便图像进行卷积操作,首先使用函数 F(0) 对 图像进行预处理,去掉边缘像素值,缩小图像尺寸。 256×256 252×252 F(0) 输入 图像 预处理 后图像 卷积层 基于 ImageNet 预训练模型 微调 第一层 64 个 7×7 卷积核步长为 2 第二层 64 个 5×5 的 卷积核 64 个特征图 127×127 16 个特征图 127×127 1 000 神经元 1 000 神经元 分类层 图 1 迁移学习微调示意 Fig. 1 Schematic diagram of migration learning fine-tuning 以上模型分为两部分,一部分是基于 ImageNet 训练的深度学习模型,另一部分为根据自身任 务微调的网络模型。在训练时可针对特定任务, 固定原始网络的相关层,修改网络的输出层,以 使结果更符合任务需要。 1.2 集成学习 集成学习 (ensemble learning) 是使用一系列学 习器进行学习,并使用某种规则把各个学习器结 果进行整合,从而获得比单个学习器更加优越的泛 化性能[19-20]。集成学习算法策略主要有 Bagging 算 法、Boosting 算法以及 Stacking 算法。本文涉及到 的算法为 Bagging 算法,算法示意图如图 2 所示。 集成学习优势在于: 1) 使用相同数据对不同的个体学习器进行训 练会得到不同结果,进而导致分类器的分类边界 不同,还可能影响最终分类结果,产生错误输 出。将多个体学习器合并后,可获得更为合理的 分类边界,提升分类准确率。 2) 对于数据集包含样本数量差异较大的情 况,可以对样本数量较大的数据集进行划分操作 并对样本数量较小的数据集进行放回操作,进而 产生不同数据子集,再使用数据子集训练不同学 习器,最终合并成为一个强学习器。 3) 当数据划分边界过于复杂时,单一使用线 性分类器很难获得较好结果。可以考虑训练多个 模型,再进行模型融合。 4) 对于多个难以直接融合的异构特征集,可 以考虑使用每个数据集单独构建分类模型,再将 多个模型进行融合。 训练集 自主采集法或 交叉验证法 训练子集 1 训练子集 2 ... 训练子集 n ... ... 学习算法 1 学习算法 2 学习算法 n 学习器 1 学习器 2 投票法 测试集 集成学习器 预测 结果 学习器 n 自主采集法或 交叉验证法 自主采集法或 交叉验证法 图 2 集成学习 Bagging 算法示意 Fig. 2 Schematic diagram of integrated learning Bagging algorithm 1.3 CAM 可视化 CAM 是深度学习中一种常用的网络可视化 方法。利用 GAP(global average pooling) 替换掉全 连接层,以把 GAP 视为一个特殊的平均值池化 层,其池化核尺寸和整个特征图一样大,即求每 张特征图所有像素的均值。GAP 的优点在于由 于没有了全连接层,输入不需固定大小,因此可 支持任意大小的输入。此外,引入 GAP 更充分地 利用了空间信息,且没有了全连接层的各种参 数,避免过拟合。同时在最后的卷积层生成了和 目标类别数量一致的特征图,经过 GAP 以后再通 第 2 期 闫涵,等:多感知兴趣区域特征融合的图像识别方法 ·265·
·266· 智能系统学报 第16卷 过softmax层得到结果,这样就给每个特征图赋 2.1VGG-l6、VGG-19、ResNet的CAM可视化实验 予了很明确的意义,也就是类别置信度特征图。 为了对比3种模型在图像识别时所关注的特 CAM模型示意图如图3所示。 征点,选取16张猫狗单独存在的图像和4张猫狗 33 共存的模糊语义图像对3种模型进行测试。在实 VGG-16 验前首先通过迁移学习与微调机制,固定网络模 GAP全局池化 全连接 型的浅层权重参数,设置分类层与深层部分权重 7×7×512 分类权重:512×1 参数可优化。以VGG-16网络模型为例,其迁移 去掉全连接层,GAP 直接将7×7×512的 替换全局平均池化 feature map乘以 学习微调示意图如图5所示。 全连接权重 图3CAM模型示意 CNN Fig.3 Schematic diagram of the CAM model 设置整个模型参数可以学习, VGG-16 学习率1-0.01,在训练数据集上 经过GAP得到最后一个卷积层每个特征图 训练模型 微调整个模型 的均值,通过加权和得到输出。对每一个类别C, Q 512 每个特征图k的均值对应Ψ。当解释模型分类依 据时,可将该类别对应的所有Ψ求取出,并求出 它们与自身对应的特征图的加权和。由于输出的 大小和特征图是一致的,需要对它进行上采样并 图5迁移学习微调结构示意 与原图进行叠加,得到CAM可视化图。CAM以 Fig.5 Schematic diagram of the migration learning fine- 热力图的形式表明模型对目标进行分类的特征。 tuning structure 图4是在kaggle数据集上VGG-16分类CAM可 图6、图7为VGG网络模型和ResNet网络模 视化图。如图4所示,对于猫或者狗的分类判断 型识别目标单独存在时的CAM可视化图。 区域全部集中在头部,头部特征的确能够区分猫 和狗。 图6单目标CAM可视化结果 Fig.6 Single target CAM visualization results 图4基于VGG16猫狗大战数据CAM模型可视化图 Fig.4 Visualization of CAM model based on VGG-16 cat and dog data figure VGG-16 2本文方法及实验 Resnet50 本文实验所采用的实验数据为自然图像猫狗 分类数据集。该数据集主要分为两类:猫、狗。 训练集为20832张,测试集为4168张。为了验证 VGG-19 本文算法的有效性,在猫狗数据集上进行对比实 验,同样的训练数据集和同样的测试集。实验在 2.2 GHz Intel Core i7处理器(4核),macOS Mojave 图7模糊语义下CAM可视化结果 10.14.4系统上进行。编程环境为python.2版本, Fig.7 CAM visualization results under fuzzy semantics 编程语言为python语言,编译器为jupyter note-. 通过模型识别单独目标的CAM可视化图可 book。仿真软件的深度学习框架为基于Tensor- 以看出,VGG网络模型更容易将猫分类成狗,而 Flow后端的keras,显卡为GTX1070TL,显存大小 Resnent识别结果与之相反,说明两种不同的网络 为8GB。 模型在进行目标识别时关注的兴趣区域不同。通
过 softmax 层得到结果,这样就给每个特征图赋 予了很明确的意义,也就是类别置信度特征图。 CAM 模型示意图如图 3 所示。 VGG-16 GAP 全局池化 去掉全连接层,GAP 替换全局平均池化 直接将 7×7×512 的 feature map 乘以 全连接权重 全连接 7×7×512 分类权重 :512×1 图 3 CAM 模型示意 Fig. 3 Schematic diagram of the CAM model 经过 GAP 得到最后一个卷积层每个特征图 的均值,通过加权和得到输出。对每一个类别 C, 每个特征图 k 的均值对应 w。当解释模型分类依 据时,可将该类别对应的所有 w 求取出,并求出 它们与自身对应的特征图的加权和。由于输出的 大小和特征图是一致的,需要对它进行上采样并 与原图进行叠加,得到 CAM 可视化图。CAM 以 热力图的形式表明模型对目标进行分类的特征。 图 4 是在 kaggle 数据集上 VGG-16 分类 CAM 可 视化图。如图 4 所示,对于猫或者狗的分类判断 区域全部集中在头部,头部特征的确能够区分猫 和狗。 图 4 基于 VGG-16 猫狗大战数据 CAM 模型可视化图 Fig. 4 Visualization of CAM model based on VGG-16 cat and dog data figure 2 本文方法及实验 本文实验所采用的实验数据为自然图像猫狗 分类数据集。该数据集主要分为两类:猫、狗。 训练集为 20 832 张,测试集为 4 168 张。为了验证 本文算法的有效性,在猫狗数据集上进行对比实 验,同样的训练数据集和同样的测试集。实验在 2.2 GHz Intel Core i7 处理器 (4 核),macOS Mojave 10.14.4 系统上进行。编程环境为 python2 版本, 编程语言为 python 语言,编译器为 jupyter notebook。仿真软件的深度学习框架为基于 TensorFlow 后端的 keras,显卡为 GTX 1070TI,显存大小 为 8 GB。 2.1 VGG-16、VGG-19、ResNet 的 CAM 可视化实验 为了对比 3 种模型在图像识别时所关注的特 征点,选取 16 张猫狗单独存在的图像和 4 张猫狗 共存的模糊语义图像对 3 种模型进行测试。在实 验前首先通过迁移学习与微调机制,固定网络模 型的浅层权重参数,设置分类层与深层部分权重 参数可优化。以 VGG-16 网络模型为例,其迁移 学习微调示意图如图 5 所示。 CNN 512 设置整个模型参数可以学习, 学习率 lr=0.01,在训练数据集上 微调整个模型 VGG-16 训练模型 图 5 迁移学习微调结构示意 Fig. 5 Schematic diagram of the migration learning finetuning structure 图 6、图 7 为 VGG 网络模型和 ResNet 网络模 型识别目标单独存在时的 CAM 可视化图。 图 6 单目标 CAM 可视化结果 Fig. 6 Single target CAM visualization results VGG-16 Resnet50 VGG-19 图 7 模糊语义下 CAM 可视化结果 Fig. 7 CAM visualization results under fuzzy semantics 通过模型识别单独目标的 CAM 可视化图可 以看出,VGG 网络模型更容易将猫分类成狗,而 Resnent 识别结果与之相反,说明两种不同的网络 模型在进行目标识别时关注的兴趣区域不同。通 ·266· 智 能 系 统 学 报 第 16 卷
第2期 闫涵,等:多感知兴趣区域特征融合的图像识别方法 ·267· 过模型识别模糊语义的CAM可视化图可以看 100 出,VGG网络模型将4张测试图像分类成猫,而 % ResNet将其分类成狗,该现象也可验证上述结论。 2.2本文方法 70 方案1特征拼接(Multi view Fusion方案) 60 一训练准确率 ·测试准确率 不同的模型在同一张图片关注的兴趣区域不 50 一,可考虑将多个模型特征进行融合,将会使得 0 500100015002000250030003500 批次次 融合后的模型具有关注多视角兴趣特征的功能。 (a)训练集准确率变化曲线 本方案运用DenseNet的思想,将不同尺度特征相 4.0 拼接,引入模型多尺度性质。设计的Multi view 3.5 Fusion模型结构如图8所示。 3.0 一训练损失值 2.5 ·测试损失值 ResNet-50 VGG-16 VGG-19 ImageNet 共20 Trained Trained Iraied 预训练 1.5 model model model 模型 1.0 000.0512000◆0 000.0512 0.5 00.01000000 001000 0 500100015002000250030003500 批次次 (b)测试集准确率变化曲线 直接去掉迁移模型后面的分类层,再将数据输 出的特征保存,然后拼接再训练后面的神经网络 图9多视图融合模型训练和测试的准确率和误差 ●●0.●51200005120●0.020483072 Fig.9 Accuracy and error of training and testing of the Multi view Fusion model 0 logistics classfication 方案2特征平均+特征拼接(Multi view Fu- 图8多视图融合模型融合示意 sion-tiny方案) Fig.8 Multi view Fusion model fusion diagram 方案1将3个不同的模型特征进行融合,但 将3个预训练模型提取特征之后,选择预训 是对于VGG-16和VGG-19来说,这两个模型构 练模型参数不进行更新,ResNet-50提取得到2048 造非常相似,即提取的特征也会非常类似。两个 个特征标量,而VGG-16和VGG-19分别提取 类似的模型提取的特征之间融合,造成特征的冗 512个特征标量,将2048+512+512=3072个特征 余,并干扰特征提取。针对上述问题,设计特征 合并成一个新的特征向量。然后加入Dropout层, 设置drop概率为0.5。最后加入1个神经元,指定 平均后再进行特征拼接的网络模型。采用Res 激活函数为sigmoid。对于二分类问题,可以通过 Net和DenseNet的思想,将VGG-l6和VGG-19的 logistic二分类实现。分类损失设置为二进制交叉 特征进行特征相加,然后与ResNet-50模型特征 嫡损失函数。二进制交叉嫡损失函数公式如下: 进行不同尺度特征拼接,引入模型多尺度性质。 1 该方法会使模型特征维度减少,减少网络运行的 sigmoid(y)= 1+e-y (1) 测试时间。设计的Multi view Fusion-tiny模型如图l0 L0y,)=-亏[log(sigmoid0(y)川+ 所示。 (2) (1-)log(sigmoid(1-y)) 将3个预训练模型提取特征之后,选择预训 式中:y为实际神经元输出;)为真实输出标签, 练模型参数不进行更新,ResNet-50提取得到2048 0表示第一类,1表示第二类。 个特征标量,而VGG-16和VGG-19分别提取 优化器选择Adadelta优化方式,基准学习率 512个特征标量,首先将VGG-16和VGG-19两个 设置为1.0。模型训练迭代次数为3500次,batch 模型特征进行平均,得到一个新的512维度特征, size设为16. 与ResNet-.50的2048特征合并成一个新的特征向 Multi view Fusion模型训练和测试的准确率 量,一共为2560维度特征。相比方案一减少了特 和损失示意图如图9所示,图9(a)为训练准确率 征维度,以及模型训练和测试的时间。加入Dro- 的变化,图9(b)为损失值变化。可以看出随着迭 pout层,设置drop概率为0.5。加入1个神经元, 代次数的增加,该算法准确率逐步上升,误差值 指定激活函数为sigmoid。 减小。 Multi view Fusion-tiny模型在每个批次上训练和
过模型识别模糊语义的 CAM 可视化图可以看 出,VGG 网络模型将 4 张测试图像分类成猫,而 ResNet 将其分类成狗,该现象也可验证上述结论。 2.2 本文方法 方案 1 特征拼接 (Multi view Fusion 方案) 不同的模型在同一张图片关注的兴趣区域不 一,可考虑将多个模型特征进行融合,将会使得 融合后的模型具有关注多视角兴趣特征的功能。 本方案运用 DenseNet 的思想,将不同尺度特征相 拼接,引入模型多尺度性质。设计的 Multi view Fusion 模型结构如图 8 所示。 ResNet-50 Trained model 512 512 512 2 048 3072 1 000 512 1 000 VGG-16 Trained model VGG-19 Trained model logistics classfication ImageNet 预训练 模型 直接去掉迁移模型后面的分类层,再将数据输 出的特征保存,然后拼接再训练后面的神经网络 图 8 多视图融合模型融合示意 Fig. 8 Multi view Fusion model fusion diagram 将 3 个预训练模型提取特征之后,选择预训 练模型参数不进行更新,ResNet-50 提取得到 2048 个特征标量,而 VGG-16 和 VGG-19 分别提取 512 个特征标量,将 2 048+512+512=3 072 个特征 合并成一个新的特征向量。然后加入 Dropout 层, 设置 drop 概率为 0.5。最后加入 1 个神经元,指定 激活函数为 sigmoid。对于二分类问题,可以通过 logistic 二分类实现。分类损失设置为二进制交叉 熵损失函数。二进制交叉熵损失函数公式如下: sigmoid(y) = 1 1+e −y (1) L(y, yˆ) = − 1 2 [ˆy log(sigmoid(y))]+ (1−yˆ)log(sigmoid(1−y)) (2) 式中:y 为实际神经元输出; yˆ 为真实输出标签, 0 表示第一类,1 表示第二类。 优化器选择 Adadelta 优化方式,基准学习率 设置为 1.0。模型训练迭代次数为 3 500 次,batch size 设为 16。 Multi view Fusion 模型训练和测试的准确率 和损失示意图如图 9 所示,图 9(a) 为训练准确率 的变化,图 9(b) 为损失值变化。可以看出随着迭 代次数的增加,该算法准确率逐步上升,误差值 减小。 准确率/% 50 0 0.5 1.0 1.5 2.0 损失 2.5 3.0 3.5 4.0 0 500 1 000 1 500 批次/次 训练准确率 测试准确率 2 000 2 500 3 000 3 500 0 500 1 000 1 500 批次/次 2 000 2 500 3 000 3 500 60 70 80 90 100 训练损失值 测试损失值 (a) 训练集准确率变化曲线 (b) 测试集准确率变化曲线 图 9 多视图融合模型训练和测试的准确率和误差 Fig. 9 Accuracy and error of training and testing of the Multi view Fusion model 方案 2 特征平均+特征拼接 (Multi view Fusion-tiny 方案) 方案 1 将 3 个不同的模型特征进行融合,但 是对于 VGG-16 和 VGG-19 来说,这两个模型构 造非常相似,即提取的特征也会非常类似。两个 类似的模型提取的特征之间融合,造成特征的冗 余,并干扰特征提取。针对上述问题,设计特征 平均后再进行特征拼接的网络模型。采用 ResNet 和 DenseNet 的思想,将 VGG-16 和 VGG-19 的 特征进行特征相加,然后与 ResNet-50 模型特征 进行不同尺度特征拼接,引入模型多尺度性质。 该方法会使模型特征维度减少,减少网络运行的 测试时间。设计的 Multi view Fusion-tiny 模型如图 10 所示。 将 3 个预训练模型提取特征之后,选择预训 练模型参数不进行更新,ResNet-50 提取得到 2048 个特征标量,而 VGG-16 和 VGG-19 分别提取 512 个特征标量,首先将 VGG-16 和 VGG-19 两个 模型特征进行平均,得到一个新的 512 维度特征, 与 ResNet-50 的 2 048 特征合并成一个新的特征向 量,一共为 2 560 维度特征。相比方案一减少了特 征维度,以及模型训练和测试的时间。加入 Dropout 层,设置 drop 概率为 0.5。加入 1 个神经元, 指定激活函数为 sigmoid。 Multi view Fusion-tiny 模型在每个批次上训练和 第 2 期 闫涵,等:多感知兴趣区域特征融合的图像识别方法 ·267·
·268· 智能系统学报 第16卷 测试的准确率及误差示意图如图11所示,图11(a) 后将这3个结果投票,投票策略采取投票结果最 为训练准确率的变化,即验证数据在每个迭代次 多的情况作为最后的分类结果。 数上准确率的变化。图11(b)为训练误差的变 化。同Multi view Fusion模型训练时的准确率及 ResNet-50 VGG-16 VGG-19 训练模型 训练模型 训练模型 误差图相比,Multi view Fusion-tiny模型准确率曲 线震荡减少,稳定上升,同时误差曲线下降。 label1-1 label1-2 label1-3 score-1 score-2 score-3 ResNet-50 VGG-16 VGG-19 ImageNet 预训练模型 ote(labell-l,labell-2,labell-3)多数 000,0 00000512000000512 图12投票决策模型融合示意 平均 VGG16与VGG19模 型类似,特征具有 Fig.12 Voted Model fusion diagram 定的相似性,两者平 为定量分析本文基于多感知兴趣区域图像识 2048●●●…0 。OO·0512均融合可以防止特征 冗余;同时可以减少 别方法3种模型性能,对本文算法与VGG-16、 。分类器 神经元数量,降低运 行时间 VGG-l9、ResNet模型及3种模型的微调模型, DenseNet模型在kaggle数据集上进行实验对比。 图10多视图融合微调模型融合示意 Fig.10 Multi view Fusion-tiny model fusion diagram 识别准确率实验结果如表1所示。 表1模型准确率对比 100 Table 1 Comparison of model accuracy ratio 90 对比模型 准确率(Acc)/% VGG-16-No-trainable 98.00 o VGG-16-trainable 98.02 一训练准确率 VGG-19-No-trainable 97.72 ·测试准确率 30 0 2000 4000 8000 VGG-19-trainable 97.84 6000 批次饮 ResNet-50-No-trainable 96.97 (a)训练集准确率变化曲线 ResNet-50-trainable 97.05 4.0 一训练损失值 3.5 。测试损失值 DenseNet-trainable 98.03 3.0 2.5 多视图融合模型 98.03 2.0 多视图融合微调模型 98.035 1.5 1.0 投票决策模型 98.52 0.5 0 从表1可以看出,本文设计的模型Multi view 0 2000 40006000 8000 批次吹 Fusion、Multi view Fusion-tiny和Voted Model模型 (b)测试集准确率变化曲线 比单个模型的准确率要高,说明了基于多感知兴 图11多视图融合微调模型训练和测试准确率及误差 趣区域特征融合的图像识别方法更为有效。同时 Fig.11 Accuracy and error of training and testing of the 也验证了不同的模型关注的图像兴趣区域不一, Multi view Fusion-tiny model 学习到的特征不一,多兴趣区域特征融合有利于 方案3结果融合投票(Voted Model) 提高分类精度的结论。同时VGG-16、VGG-19关 以上两种方案,融合之后还是单个模型的决 联的特征兴趣区域极其相似,为了防止特征冗 策,但对于VGG-16和VGG-19,ResNet-.503个模 余,将这两个模型特征平均,以降低特征维度和 型来说,可以通过大多数分类的结果来决定最终 分类时间。 模型的分类结果。即3个模型决策投票来决定 3结束语 分类。设计的模型投票决策如图12所示。 针对猫狗分类数据训练好的3个模型为 本文给出了一种基于多感知兴趣区域特征融 VGG-16、VGG-19、ResNet-50,将这3个模型对同 合的图像识别方法,通过对单独分类网络的复现 张数据做测试,会分别得到一个测试结果。然 与可视化分析,发现不同的模型关注的图像兴趣
测试的准确率及误差示意图如图 11 所示,图 11(a) 为训练准确率的变化,即验证数据在每个迭代次 数上准确率的变化。图 11(b) 为训练误差的变 化。同 Multi view Fusion 模型训练时的准确率及 误差图相比,Multi view Fusion-tiny 模型准确率曲 线震荡减少,稳定上升,同时误差曲线下降。 ResNet-50 512 2 048 512 平均 分类器 VGG16 与 VGG19 模 型类似,特征具有一 定的相似性,两者平 均融合可以防止特征 冗余;同时可以减少 神经元数量,降低运 行时间 512 VGG-16 VGG-19 ImageNet 预训练模型 图 10 多视图融合微调模型融合示意 Fig. 10 Multi view Fusion-tiny model fusion diagram 100 90 80 准确率/% 损失 70 60 50 40 30 0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 3.5 0 2 000 4 000 批次/次 训练准确率 测试准确率 训练损失值 测试损失值 6 000 8 000 0 4 000 2 000 批次/次 6 000 8 000 (a) 训练集准确率变化曲线 (b) 测试集准确率变化曲线 图 11 多视图融合微调模型训练和测试准确率及误差 Fig. 11 Accuracy and error of training and testing of the Multi view Fusion-tiny model 方案 3 结果融合投票 (Voted Model) 以上两种方案,融合之后还是单个模型的决 策,但对于 VGG-16 和 VGG-19,ResNet-50 3 个模 型来说,可以通过大多数分类的结果来决定最终 模型的分类结果。即 3 个模型决策投票来决定 分类。设计的模型投票决策如图 12 所示。 针对猫狗分类数据训练好 的 3 个模型 为 VGG-16、VGG-19、ResNet-50,将这 3 个模型对同 一张数据做测试,会分别得到一个测试结果。然 后将这 3 个结果投票,投票策略采取投票结果最 多的情况作为最后的分类结果。 ResNet-50 训练模型 label1-1 score-1 label1-2 score-2 label1-3 score-3 VGG-16 训练模型 Vote (label1-1, label1-2, label1-3) 多数 VGG-19 训练模型 图 12 投票决策模型融合示意 Fig. 12 Voted Model fusion diagram 为定量分析本文基于多感知兴趣区域图像识 别方法 3 种模型性能,对本文算法与 VGG-16、 VGG-19、ResNet 模型及 3 种模型的微调模型, DenseNet 模型在 kaggle 数据集上进行实验对比。 识别准确率实验结果如表 1 所示。 表 1 模型准确率对比 Table 1 Comparison of model accuracy ratio 对比模型 准确率(Acc)/% VGG-16-No-trainable 98.00 VGG-16-trainable 98.02 VGG-19-No-trainable 97.72 VGG-19-trainable 97.84 ResNet-50-No-trainable 96.97 ResNet-50-trainable 97.05 DenseNet-trainable 98.03 多视图融合模型 98.03 多视图融合微调模型 98.035 投票决策模型 98.52 从表 1 可以看出,本文设计的模型 Multi view Fusion、Multi view Fusion-tiny 和 Voted Model 模型 比单个模型的准确率要高,说明了基于多感知兴 趣区域特征融合的图像识别方法更为有效。同时 也验证了不同的模型关注的图像兴趣区域不一, 学习到的特征不一,多兴趣区域特征融合有利于 提高分类精度的结论。同时 VGG-16、VGG-19 关 联的特征兴趣区域极其相似,为了防止特征冗 余,将这两个模型特征平均,以降低特征维度和 分类时间。 3 结束语 本文给出了一种基于多感知兴趣区域特征融 合的图像识别方法,通过对单独分类网络的复现 与可视化分析,发现不同的模型关注的图像兴趣 ·268· 智 能 系 统 学 报 第 16 卷
第2期 闫涵,等:多感知兴趣区域特征融合的图像识别方法 ·269· 区域及学习到的特征有所差异。针对上述问题构 automatica sinica,2014,40(10):2346-2355. 建了多个模型融合机制,通过借鉴DenseNet模型 [10]YE Qihong,XIANG Ming,CUI Zhendong.Fingerprint 的多尺度特征拼接及ResNet特征相加机制,设计 image enhancement algorithm based on two dimension 了Multi view Fusion模型、Multi view Fusion EMD and Gabor filter[J].Procedia engineering,2012,29: tiny模型和Voted Model。实验结果表明本文算法 1840-1844. 在相似目标的二分类问题上具有更高的识别准确 [11]张丽琼,王炳和.基于小波变换的脉象信号特征提取方 率。下一步的研究方向可放在网络结构轻量化与 法).数据采集与处理,2004,19(3:323-328. 模型的加速上。 ZHANG Liqiong,WANG Binghe.Feature extraction methods for pulse signal based on wavelet transform[J]. 参考文献: Journal of data acquisition processing,2004,19(3): [1]SPENCER JR B F.HOSKERE V.NARAZAKI Y.Ad- 323-328. vances in computer vision-based civil infrastructure in- [12]YAGHOOBI H.MANSOURI H.FARSANGI MA E.et al spection and monitoring[J].Engineering,2019,5(2): Determining the fragmented rock size distribution using 199-222. textural feature extraction of images[J].Powder techno- [2]CHELLAPPA R.The changing fortunes of pattern recog- l1ogy,2019,342:630-641. nition and computer vision[J].Image and vision comput- [13]MESNIL G,BORDES A,WESTON J,et al.Learning se- ing,2016,55:3-5. mantic representations of objects and their parts[J].Ma- [3]雷明.机器学习与应用[M.北京:清华大学出版社, chine learning,2014,94(2):281-301. 2019:26-33 [14]胡越,罗东阳,花奎,等,关于深度学习的综述与讨 [4]MARY N A B,DHARMA D.Coral reef image classifica- 论[U.智能系统学报,2019,14(1):1-19 tion employing improved LDP for feature extraction[J]. HU Yue,LUO Dongyang,HUA Kui,et al.Overview on Journal of visual communication and image representation, deep learning[J].CAAI transactions on intelligent sys- 2017.49:225-242. tems,2019,141):1-19 [5]YU Hua,YANG Jie.A direct LDA algorithm for high-di- [15]SERMANET P,EIGEN D,ZHANG Xiang,et al.Over- mensional data-with application to face recognition[J]. feat:integrated recognition,localization and detection us- Pattern recognition,2001,34(10):2067-2070. ing convolutional networks[J].Computer science,2013. [6]刘丽,匡纲要.图像纹理特征提取方法综述)中国图象 [16]ZEILER M D.KRISHNAN D.TAYLOR G W.et al.De- 图形学报,2009,14(4):622-635 convolutional networks[C]//Proceedings of 2010 IEEE LIU Li,KUANG Gangyao.Overview of image textural Computer Society Conference on Computer Vision and feature extraction methods[J].Journal of image and graph- Pattern Recognition.San Francisco,USA,2010: ics.2009.14(4):622-635. 2528-2535. [7]李磊,董卓丽.利用改进图割的彩色图像分割算法】.武 [17]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- 汉大学学报·信息科学版,2014,39(12):1504-1508. ageNet classification with deep convolutional neural net- LI Lei.DONG Zhuoli.Color image segmentation using works[J].Communications of the ACM,2017,60(6) improved graph cuts[J].Geomatics and Information Sci- 84-90. ence of Wuhan University,2014,39(12):1504-1508 [18]SIMONYAN K.ZISSERMAN A.Very deep convolu- [8]弓晓虹,郑音飞,秦佳乐,等.基于乘性梯度的医学超声 tional networks for large-scale image recognition[EB/OL]. 图像边缘检测算法U.浙江大学学报(工学版),2014, https://arxiv.org/abs/1409.1556,2014. 48(10):1871-1878 [19]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. GONG Xiaohong,ZHENG Yinfei,QIN Jiale,et al.Multi- Deep residual learning for image recognition[C]//Proceed- plicative gradient based edge detection method for medic- ings of 2016 IEEE Conference on Computer Vision and al ultrasound image[J].Journal of Zhejiang University(En- Pattern Recognition.Las Vegas,USA,2016:770-778. gineering Science),2014,48(10):1871-1878. [20]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et [9]张桂梅,张松,储珺.一种新的基于局部轮廓特征的目标 al.Densely connected convolutional networks[C//Pro- 检测方法U.自动化学报,2014,40(10):2346-2355。 ceedings of 2017 IEEE Conference on Computer Vision ZHANG Guimei,ZHANG Song,CHU Jun.A new object and Pattern Recognition.Honolulu,USA,2017: detection algorithm using local contour features[].Acta 2261-2269
区域及学习到的特征有所差异。针对上述问题构 建了多个模型融合机制,通过借鉴 DenseNet 模型 的多尺度特征拼接及 ResNet 特征相加机制,设计 了 Multi view Fusion 模型、Multi view Fusion tiny 模型和 Voted Model。实验结果表明本文算法 在相似目标的二分类问题上具有更高的识别准确 率。下一步的研究方向可放在网络结构轻量化与 模型的加速上。 参考文献: SPENCER JR B F, HOSKERE V, NARAZAKI Y. Advances in computer vision-based civil infrastructure inspection and monitoring[J]. Engineering, 2019, 5(2): 199–222. [1] CHELLAPPA R. The changing fortunes of pattern recognition and computer vision[J]. Image and vision computing, 2016, 55: 3–5. [2] 雷明. 机器学习与应用 [M]. 北京: 清华大学出版社, 2019: 26−33. [3] MARY N A B, DHARMA D. Coral reef image classification employing improved LDP for feature extraction[J]. Journal of visual communication and image representation, 2017, 49: 225–242. [4] YU Hua, YANG Jie. A direct LDA algorithm for high-dimensional data—with application to face recognition[J]. Pattern recognition, 2001, 34(10): 2067–2070. [5] 刘丽, 匡纲要. 图像纹理特征提取方法综述 [J]. 中国图象 图形学报, 2009, 14(4): 622–635. LIU Li, KUANG Gangyao. Overview of image textural feature extraction methods[J]. Journal of image and graphics, 2009, 14(4): 622–635. [6] 李磊, 董卓丽. 利用改进图割的彩色图像分割算法 [J]. 武 汉大学学报 • 信息科学版, 2014, 39(12): 1504–1508. LI Lei, DONG Zhuoli. Color image segmentation using improved graph cuts[J]. Geomatics and Information Science of Wuhan University, 2014, 39(12): 1504–1508. [7] 弓晓虹, 郑音飞, 秦佳乐, 等. 基于乘性梯度的医学超声 图像边缘检测算法 [J]. 浙江大学学报(工学版), 2014, 48(10): 1871–1878. GONG Xiaohong, ZHENG Yinfei, QIN Jiale, et al. Multiplicative gradient based edge detection method for medical ultrasound image[J]. Journal of Zhejiang University (Engineering Science), 2014, 48(10): 1871–1878. [8] 张桂梅, 张松, 储珺. 一种新的基于局部轮廓特征的目标 检测方法 [J]. 自动化学报, 2014, 40(10): 2346–2355. ZHANG Guimei, ZHANG Song, CHU Jun. A new object detection algorithm using local contour features[J]. Acta [9] automatica sinica, 2014, 40(10): 2346–2355. YE Qihong, XIANG Ming, CUI Zhendong. Fingerprint image enhancement algorithm based on two dimension EMD and Gabor filter[J]. Procedia engineering, 2012, 29: 1840–1844. [10] 张丽琼, 王炳和. 基于小波变换的脉象信号特征提取方 法 [J]. 数据采集与处理, 2004, 19(3): 323–328. ZHANG Liqiong, WANG Binghe. Feature extraction methods for pulse signal based on wavelet transform[J]. Journal of data acquisition & processing, 2004, 19(3): 323–328. [11] YAGHOOBI H, MANSOURI H, FARSANGI M A E, et al. Determining the fragmented rock size distribution using textural feature extraction of images[J]. Powder technology, 2019, 342: 630–641. [12] MESNIL G, BORDES A, WESTON J, et al. Learning semantic representations of objects and their parts[J]. Machine learning, 2014, 94(2): 281–301. [13] 胡越, 罗东阳, 花奎, 等. 关于深度学习的综述与讨 论 [J]. 智能系统学报, 2019, 14(1): 1–19. HU Yue, LUO Dongyang, HUA Kui, et al. Overview on deep learning[J]. CAAI transactions on intelligent systems, 2019, 14(1): 1–19. [14] SERMANET P, EIGEN D, ZHANG Xiang, et al. Overfeat: integrated recognition, localization and detection using convolutional networks[J]. Computer science, 2013. [15] ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2528−2535. [16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. [17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. https: //arxiv.org/abs/1409.1556, 2014. [18] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [19] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2261−2269. [20] 第 2 期 闫涵,等:多感知兴趣区域特征融合的图像识别方法 ·269·
·270· 智能系统学报 第16卷 [21]郑远攀,李广阳,李晔.深度学习在图像识别中的应用 张旭秀,教授,博士后,主要研究 研究综述).计算机工程与应用,2019,55(12少:20-36. 方向为图像处理与模式识别、智能控 制、信号处理。主持和参与完成国家 ZHENG Yuanpan,LI Guangyang,LI Ye.Survey of ap- 自然科学基金项目、辽宁省自然科学 plication of deep learning in image recognition[J].Com- 基金项目9项。发表学术论文40余篇。 puter engineering and applications,2019,55(12):20-36. 作者简介: 闫涵,硕士研究生,主要研究方向 张净丹,硕士研究生,主要研究方 为图像处理与模式识别。 向为图像处理与模式识别。 第二十三届中国机器人及人工智能大赛正式启动 中国机器人及人工智能大赛是一项历史悠久、影响广泛的全国性学科竞赛。作为中国人工智能学会最 早主办的竞赛之一,大赛已为我国培养了大量“能动手”、“敢创新”、“可协同”的复合型人才。目前,大赛已 列入中国高等教育学会发布的《2020年全国普通高等学校学科竞赛排行榜》。 组织架构 主办单位: 中国人工智能学会 承办单位: CAAI机器人文化艺术专业委员会 乐聚(深圳)机器人技术有限公司 时间安排 大赛报名系统开放:2021年5月一6月: 省赛、区域赛、全国初赛完成时间:2021年7月底; 全国决赛时间:2021年8月下句: 注:视疫情防控情况,决定竞赛形式(线上或线下) 参赛详情 参赛对象: 普通高等教育组:研究生、本科生: 职业教育组:中职、高职(高专)、职业本科: 联系方式 大赛组委会联系人:谭庆吉 电话:15146409277 大赛组委会邮箱:craaic@126.com
郑远攀, 李广阳, 李晔. 深度学习在图像识别中的应用 研究综述 [J]. 计算机工程与应用, 2019, 55(12): 20–36. ZHENG Yuanpan, LI Guangyang, LI Ye. Survey of application of deep learning in image recognition[J]. Computer engineering and applications, 2019, 55(12): 20–36. [21] 作者简介: 闫涵,硕士研究生,主要研究方向 为图像处理与模式识别。 张旭秀,教授,博士后,主要研究 方向为图像处理与模式识别、智能控 制、信号处理。主持和参与完成国家 自然科学基金项目、辽宁省自然科学 基金项目 9 项。发表学术论文 40 余篇。 张净丹,硕士研究生,主要研究方 向为图像处理与模式识别。 第二十三届中国机器人及人工智能大赛正式启动 中国机器人及人工智能大赛是一项历史悠久、影响广泛的全国性学科竞赛。作为中国人工智能学会最 早主办的竞赛之一,大赛已为我国培养了大量“能动手”、“敢创新”、“可协同”的复合型人才。目前,大赛已 列入中国高等教育学会发布的《2020 年全国普通高等学校学科竞赛排行榜》。 组织架构 主办单位: 中国人工智能学会 承办单位: CAAI 机器人文化艺术专业委员会 乐聚(深圳)机器人技术有限公司 时间安排 大赛报名系统开放:2021 年 5 月—6 月; 省赛、区域赛、全国初赛完成时间:2021 年 7 月底; 全国决赛时间:2021 年 8 月下旬; 注:视疫情防控情况,决定竞赛形式(线上或线下) 参赛详情 参赛对象: 普通高等教育组:研究生、本科生; 职业教育组:中职、高职(高专)、职业本科; 联系方式 大赛组委会联系人:谭庆吉 电话:15146409277 大赛组委会邮箱:craaic@126.com ·270· 智 能 系 统 学 报 第 16 卷