【机器感知与模式识别】多感知兴趣区域特征融合的图像识别方法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：4.96MB

第16卷第2期智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.201906032 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20200630.1143.008.html 多感知兴趣区域特征融合的图像识别方法闫涵，张旭秀，张净丹 (大连交通大学电气信息工程学院，辽宁大连116028) 摘要：针对自然图像识别过程中不同深度学习模型关注兴趣区域不同的现象，本文引入深度卷积神经网络融合机制，结合深度迁移学习方法，给出了一种基于多感知兴趣区域特征融合的图像识别方法。本文将迁移学习方法引入牛津大学视觉组网络模型(visual geometry group network,.VGGNet)和残差网络模型(residual network, ResNet),通过对单个分类模型进行热力图可视化及特征可视化，得到了不同网络模型关联的特征区域不一样的结论。然后在此基础上分别设计特征拼接、特征融合加特征拼接及融合投票方法将不同模型特征进行融合，得到3种新的融合模型。实验结果表明，本文方法在Kaggle数据集上的识别准确率高于VGG-16、VGG-19 ResNet-50、DenseNet-.20l模型。关键词：深度学习：图像识别：迁移学习：特征融合：集成学习：特征提取：CAM可视化：视觉组网络模型：残差网络模型中图分类号：TP311文献标志码：A 文章编号：1673-4785(2021)02-0263-08 中文引用格式：闫涵，张旭秀，张净丹.多感知兴趣区域特征融合的图像识别方法小.智能系统学报，2021,16(2)：263-270. 英文引用格式：YAN Han,ZHANG Xuxiu,ZHANG Jingdan.Image recognition method based on multi-perceptual interest region feature fusion[J].CAAI transactions on intelligent systems,2021,16(2):263-270. Image recognition method based on multi-perceptual interest region feature fusion YAN Han,ZHANG Xuxiu,ZHANG Jingdan (School of Electrical Information Engineering,Dalian Jiaotong University,Dalian 116028,China) Abstract:This paper presents the deep convolution neural network fusion mechanism and proposes an image recogni- tion method based on multi-perceptual interest region feature fusion in combination with the deep-migration learning method.This is to solve the problem of different deep-learning models used on different interest regions when they re- cognize a natural image.The migration learning method is applied to the convolution neural net architectures,namely VGG and ResNet networks.Then,through the visualization of the heat map and the features of single classification model,a conclusion is drawn that the characteristic regions associated with different network models are different. Based on this,the methods of feature splicing,feature fusion and splicing,and fusion voting systems are designed to fuse different model features,obtaining three new fusion models.The experimental results show that the recognition ac- curacy of this method on Kaggle dataset is higher than that of VGG-16,VGG-19,ResNet-50,and DenseNet-201 models. Keywords:deep learning;image recognition;migration learning;feature fusion;integrated learning;feature extraction; CAM visualization:VGGNet;ResNet 图像识别是计算机视觉领域的一个分支刘从而识别各种不同模式下的目标和对象。图像识图像识别是指利用计算机对图像进行特征提取，别在生活中的应用非常广泛，如人脸识别、指纹收稿日期：2019-06-18.网络出版日期：2020-06-30. 识别、安防监控等各个领域。基金项目：国家自然科学基金项目(61471080/F010408:国家支撑计划(2015BAF20B02):国家留学基金委资助计划图像识别方法可分为传统的图像识别方法与 (201608210308):辽宁省自然科学基金指导计划基于深度学习的图像识别方法。传统的图像识别 2019-ZD-0108). 通信作者：闫涵.E-mail:1346917459@qq.com, 手段主要建立在特征提取的基础上，首先提取

DOI: 10.11992/tis.201906032 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200630.1143.008.html 多感知兴趣区域特征融合的图像识别方法闫涵，张旭秀，张净丹（大连交通大学电气信息工程学院，辽宁大连 116028）摘要：针对自然图像识别过程中不同深度学习模型关注兴趣区域不同的现象，本文引入深度卷积神经网络融合机制，结合深度迁移学习方法，给出了一种基于多感知兴趣区域特征融合的图像识别方法。本文将迁移学习方法引入牛津大学视觉组网络模型 (visual geometry group network，VGGNet) 和残差网络模型 (residual network， ResNet)，通过对单个分类模型进行热力图可视化及特征可视化，得到了不同网络模型关联的特征区域不一样的结论。然后在此基础上分别设计特征拼接、特征融合加特征拼接及融合投票方法将不同模型特征进行融合，得到 3 种新的融合模型。实验结果表明，本文方法在 Kaggle 数据集上的识别准确率高于 VGG-16、VGG-19、 ResNet-50、DenseNet-201 模型。关键词：深度学习；图像识别；迁移学习；特征融合；集成学习；特征提取；CAM 可视化；视觉组网络模型；残差网络模型中图分类号：TP311 文献标志码：A 文章编号：1673−4785(2021)02−0263−08 中文引用格式：闫涵, 张旭秀, 张净丹. 多感知兴趣区域特征融合的图像识别方法 [J]. 智能系统学报, 2021, 16(2): 263–270. 英文引用格式：YAN Han, ZHANG Xuxiu, ZHANG Jingdan. Image recognition method based on multi-perceptual interest region feature fusion[J]. CAAI transactions on intelligent systems, 2021, 16(2): 263–270. Image recognition method based on multi-perceptual interest region feature fusion YAN Han，ZHANG Xuxiu，ZHANG Jingdan (School of Electrical Information Engineering, Dalian Jiaotong University, Dalian 116028, China) Abstract: This paper presents the deep convolution neural network fusion mechanism and proposes an image recognition method based on multi-perceptual interest region feature fusion in combination with the deep-migration learning method. This is to solve the problem of different deep-learning models used on different interest regions when they recognize a natural image. The migration learning method is applied to the convolution neural net architectures, namely VGG and ResNet networks. Then, through the visualization of the heat map and the features of single classification model, a conclusion is drawn that the characteristic regions associated with different network models are different. Based on this, the methods of feature splicing, feature fusion and splicing, and fusion voting systems are designed to fuse different model features, obtaining three new fusion models. The experimental results show that the recognition accuracy of this method on Kaggle dataset is higher than that of VGG-16, VGG-19, ResNet-50, and DenseNet-201 models. Keywords: deep learning; image recognition; migration learning; feature fusion; integrated learning; feature extraction; CAM visualization; VGGNet; ResNet 图像识别是计算机视觉领域的一个分支[1-2] ，图像识别是指利用计算机对图像进行特征提取，从而识别各种不同模式下的目标和对象。图像识别在生活中的应用非常广泛，如人脸识别、指纹识别、安防监控等各个领域[3]。图像识别方法可分为传统的图像识别方法与基于深度学习的图像识别方法。传统的图像识别手段主要建立在特征提取的基础上[4] ，首先提取收稿日期：2019−06−18. 网络出版日期：2020−06−30. 基金项目：国家自然科学基金项目 (61471080/F010408)；国家支撑计划 (2015BAF20B02)；国家留学基金委资助计划 (201608210308)；辽宁省自然科学基金指导计划 (2019-ZD-0108). 通信作者：闫涵. E-mail：1346917459@qq.com. 第 16 卷第 2 期智能系统学报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021

·264· 智能系统学报第16卷图像的底层像素信息或图像的特征，如图像边缘及集成，进一步提升网络的分类准确率，需要进特征、纹理特征以及颜色特征等。也有学者采行研究和讨论。用小波变换、傅里叶变换、EMD(empirical mode 针对上述问题，本文提出了一种基于多感知兴 decomp-osition)变换等方法进行特征提取uo-12) 趣区域特征融合的图像识别方法，对深度卷积模然后将提取的特征送入机器学习模型中进行分类型VGG网络与残差网络引入融合机制与微调机识别。传统的图像识别方法都需要一定的先验性制，结合深度迁移学习方法，将网络模型的识别知识，而且对于一些相似的图像依靠人为寻找特能力进行增强。本文的主要工作如下：1)利用特征仍较为困难，算法实现的精度较低且难以转征可视化方法对模型的兴趣区域特征进行热力图换。近年来，随着计算机性能的提升以及数据量标注，获得的结论为不同模型在识别相同图像时的爆炸式增长，深度学习(deep learning)作为一种所关注兴趣区域有所差异；2)根据特征可视化结新兴的机器学习手段取得了飞速的发展)。采用论，引入模型多尺度性质和投票融合机制，设计深度学习方法进行图像识别的优势在于图像识别 3种网络融合方法；3)在Kaggle数据集上进行对精度高，无需特征工程，适应性强易于转换，可使比实验以验证本文方法的有效性。实验结果表明用数据进行有效缩放，方便实际应用与部署4。本文方法比融合前方法具有更高的识别准确率。现有的深度学习网络浅层主要通过对输入图像进行特征提取与降采样获得图像低阶特征，深层网 1相关理论络则通过更深层变换获得图像特征的语义信息与更高分辨率特征图6。近年来，针对自然图像识本文将迁移学习方法引入到VGG网络模型别任务，一系列深度学习算法被提出，AlexNet是和ResNet网络模型作为算法的模型基础。通过最早的深度学习网络模型I刀。AlexNet有八层网 CAM可视化机制对模型的兴趣特征进行可视化络结构，采用新的relu激活函数和dropout机制抵分析。最后通过集成学习方法将含有不同兴趣特抗过拟合以提高特征提取的有效性。VGGNet 征的网络模型进行融合得到本文算法。采用多个尺寸更小的卷积核模拟大尺寸卷积核网， 1.1 迁移学习在保证感受野的同时减少参数数量，同时引人在机器学习、深度学习和数据挖掘的大多数任 1×1卷积核增加网络的表征能力、降低计算量。务中都会假设训练和测试时采用的数据服从相同 ResNet的提出主要通过跨层连接和拟合残差项的的分布并且来源于相同的特征空间”。然而在深方法解决了随着网络层数的加深)，网络模型难度学习实现的过程中，由于网络模型的深度较大且以训练的问题。DenseNet是一种密集连接卷积神参数过多，在训练网络模型时往往会遇到以下经网络，该模型设计了dense block模块，使得网问题：络结构更窄，参数更少2。同时该连接方式也使 1)带标记的训练样本数量不够。当处理得特征和梯度的传递更加有效，网络更易训练。 A领域任务时，缺少足够数量训练样本和标签。上述深度学习网络模型在图像识别任务中均有较与A领域具有一定关联的B领域，却拥有数量巨好表现，但现有深度学习方法的图像识别任务仍大的训练样本。但由于B领域与A领域具有一有如下难点n:I)AlexNet作为最早的深度学习模定差异，因而导致其特征处于不同的空间分布，型虽然取得较好的图像识别效果，但是由于其层或样本服从不同分布。数只有八层，导致其在特征的表征能力上仍有上 2)数据分布会发生变化。对于相同的任务，升空间。2)VGGNet、ResNet以及DenseNet网络在不同时期、地点或受其他动态因素影响，数据模型各自采用创新技术达到模型层数加深的目分布会发生一定变化，因此需要重新收集数据并的，提升了网络的学习能力。但是对于特定任务，建立模型。从头训练上述模型成本代价过高。3)随着人工智迁移学习作为一种机器学习的方法，可以把能技术的发展，深度学习图像识别网络层出不为任务A开发的模型作为初始点，重新应用在任穷，但深度学习网络需要大量的数据进行训练及务B的模型开发过程中。即把B领域中的知识迁拟合，现实情况难以有足够的数据支撑网络进行移到A领域中来，提高A领域分类效果，不需要花训练。4)在研究过程中，通过可视化数据特征发大量时间去标注A领域数据。对于深度学习目标现，不同的网络模型关联和提取到的特征也是不识别任务，在预训练模型中存在各种特征数据与同的，关注的图像特征区域也有所差异。如何在权重信息。其中一些是与分类识别对象本身关联机器学习集成架构下，将不同的网络特征相融合比较紧密的特征数据与权重信息，还有一些比较

图像的底层像素信息或图像的特征，如图像边缘特征、纹理特征以及颜色特征等[5-9]。也有学者采用小波变换、傅里叶变换、EMD(empirical mode decomp-osition) 变换等方法进行特征提取[10-12]。然后将提取的特征送入机器学习模型中进行分类识别。传统的图像识别方法都需要一定的先验性知识，而且对于一些相似的图像依靠人为寻找特征仍较为困难，算法实现的精度较低且难以转换。近年来，随着计算机性能的提升以及数据量的爆炸式增长，深度学习 (deep learning) 作为一种新兴的机器学习手段取得了飞速的发展[13]。采用深度学习方法进行图像识别的优势在于图像识别精度高，无需特征工程，适应性强易于转换，可使用数据进行有效缩放，方便实际应用与部署[14-15]。现有的深度学习网络浅层主要通过对输入图像进行特征提取与降采样获得图像低阶特征，深层网络则通过更深层变换获得图像特征的语义信息与更高分辨率特征图[16]。近年来，针对自然图像识别任务，一系列深度学习算法被提出，AlexNet 是最早的深度学习网络模型[17]。AlexNet 有八层网络结构，采用新的 relu 激活函数和 dropout 机制抵抗过拟合以提高特征提取的有效性。VGGNet 采用多个尺寸更小的卷积核模拟大尺寸卷积核[18] ，在保证感受野的同时减少参数数量，同时引入 1×1 卷积核增加网络的表征能力、降低计算量。 ResNet 的提出主要通过跨层连接和拟合残差项的方法解决了随着网络层数的加深[19] ，网络模型难以训练的问题。DenseNet 是一种密集连接卷积神经网络，该模型设计了 dense block 模块，使得网络结构更窄，参数更少[20]。同时该连接方式也使得特征和梯度的传递更加有效，网络更易训练。上述深度学习网络模型在图像识别任务中均有较好表现，但现有深度学习方法的图像识别任务仍有如下难点[21] ：1)AlexNet 作为最早的深度学习模型虽然取得较好的图像识别效果，但是由于其层数只有八层，导致其在特征的表征能力上仍有上升空间。2)VGGNet、ResNet 以及 DenseNet 网络模型各自采用创新技术达到模型层数加深的目的，提升了网络的学习能力。但是对于特定任务，从头训练上述模型成本代价过高。3) 随着人工智能技术的发展，深度学习图像识别网络层出不穷，但深度学习网络需要大量的数据进行训练及拟合，现实情况难以有足够的数据支撑网络进行训练。4) 在研究过程中，通过可视化数据特征发现，不同的网络模型关联和提取到的特征也是不同的，关注的图像特征区域也有所差异。如何在机器学习集成架构下，将不同的网络特征相融合及集成，进一步提升网络的分类准确率，需要进行研究和讨论。针对上述问题，本文提出了一种基于多感知兴趣区域特征融合的图像识别方法，对深度卷积模型 VGG 网络与残差网络引入融合机制与微调机制，结合深度迁移学习方法，将网络模型的识别能力进行增强。本文的主要工作如下：1) 利用特征可视化方法对模型的兴趣区域特征进行热力图标注，获得的结论为不同模型在识别相同图像时所关注兴趣区域有所差异；2) 根据特征可视化结论，引入模型多尺度性质和投票融合机制，设计 3 种网络融合方法；3) 在 Kaggle 数据集上进行对比实验以验证本文方法的有效性。实验结果表明本文方法比融合前方法具有更高的识别准确率。 1 相关理论本文将迁移学习方法引入到 VGG 网络模型和 ResNet 网络模型作为算法的模型基础。通过 CAM 可视化机制对模型的兴趣特征进行可视化分析。最后通过集成学习方法将含有不同兴趣特征的网络模型进行融合得到本文算法。 1.1 迁移学习在机器学习、深度学习和数据挖掘的大多数任务中都会假设训练和测试时采用的数据服从相同的分布并且来源于相同的特征空间[17]。然而在深度学习实现的过程中，由于网络模型的深度较大且参数过多，在训练网络模型时往往会遇到以下问题： 1 ) 带标记的训练样本数量不够。当处理 A 领域任务时，缺少足够数量训练样本和标签。与 A 领域具有一定关联的 B 领域，却拥有数量巨大的训练样本。但由于 B 领域与 A 领域具有一定差异，因而导致其特征处于不同的空间分布，或样本服从不同分布。 2) 数据分布会发生变化。对于相同的任务，在不同时期、地点或受其他动态因素影响，数据分布会发生一定变化，因此需要重新收集数据并建立模型。迁移学习作为一种机器学习的方法，可以把为任务 A 开发的模型作为初始点，重新应用在任务 B 的模型开发过程中。即把 B 领域中的知识迁移到 A 领域中来，提高 A 领域分类效果，不需要花大量时间去标注 A 领域数据。对于深度学习目标识别任务，在预训练模型中存在各种特征数据与权重信息。其中一些是与分类识别对象本身关联比较紧密的特征数据与权重信息，还有一些比较 ·264· 智能系统学报第 16 卷

第2期闫涵，等：多感知兴趣区域特征融合的图像识别方法 ·265· 共性的特征数据与信息，是可以被不同任务或者快速学习。迁移学习微调示意图如图1所示，为对象之间共享的。迁移学习是要迁移那些共性特了方便图像进行卷积操作，首先使用函数F(O)对征数据与信息，从而避免再次学习这些知识，实现图像进行预处理，去掉边缘像素值，缩小图像尺寸。卷积层分类层第一第二层 64个7 7 64个特征图 64个5×5的16个特征图1000神经元1000神经元卷1核步长为2127×127 卷积核 127×127 256×256 252×252 预处理图像 FO) 后图基于ImageNet预训练模型微调门图1迁移学习微调示意 Fig.1 Schematic diagram of migration learning fine-tuning 以上模型分为两部分，一部分是基于ImageN- 训练集 t训练的深度学习模型，另一部分为根据自身任务微调的网络模型。在训练时可针对特定任务，自主采集法或自主采集法或自主采集法或固定原始网络的相关层，修改网络的输出层，以交叉验证法交叉验证法交叉验证法使结果更符合任务需要。 1.2集成学习集成学习(ensemble learning)是使用一系列学训练子集1 训练子集2 训练子集：习器进行学习，并使用某种规则把各个学习器结果进行整合，从而获得比单个学习器更加优越的泛学习算法1 学习算法2 学习算法n 化性能刘。集成学习算法策略主要有Bagging算法、Boosting算法以及Stacking算法。本文涉及到学习器1 学习器2 学习器n 的算法为Bagging算法，算法示意图如图2所示。集成学习优势在于：投票法 1)使用相同数据对不同的个体学习器进行训练会得到不同结果，进而导致分类器的分类边界则试集集成学习器预测不同，还可能影响最终分类结果，产生错误输结果出。将多个体学习器合并后，可获得更为合理的图2集成学习Bagging算法示意分类边界，提升分类准确率。 Fig.2 Schematic diagram of integrated learning Bagging 2)对于数据集包含样本数量差异较大的情 algorithm 况，可以对样本数量较大的数据集进行划分操作 1.3CAM可视化并对样本数量较小的数据集进行放回操作，进而 CAM是深度学习中一种常用的网络可视化产生不同数据子集，再使用数据子集训练不同学方法。利用GAP(global average pooling)替换掉全习器，最终合并成为一个强学习器。连接层，以把GAP视为一个特殊的平均值池化层，其池化核尺寸和整个特征图一样大，即求每 3)当数据划分边界过于复杂时，单一使用线张特征图所有像素的均值。GAP的优点在于由性分类器很难获得较好结果。可以考虑训练多个于没有了全连接层，输入不需固定大小，因此可模型，再进行模型融合。支持任意大小的输入。此外，引入GAP更充分地 4)对于多个难以直接融合的异构特征集，可利用了空间信息，且没有了全连接层的各种参以考虑使用每个数据集单独构建分类模型，再将数，避免过拟合。同时在最后的卷积层生成了和多个模型进行融合。目标类别数量一致的特征图，经过GAP以后再通

共性的特征数据与信息，是可以被不同任务或者对象之间共享的。迁移学习是要迁移那些共性特征数据与信息，从而避免再次学习这些知识，实现快速学习[18]。迁移学习微调示意图如图 1 所示，为了方便图像进行卷积操作，首先使用函数 F(0) 对图像进行预处理，去掉边缘像素值，缩小图像尺寸。 256×256 252×252 F(0) 输入图像预处理后图像卷积层基于 ImageNet 预训练模型微调第一层 64 个 7×7 卷积核步长为 2 第二层 64 个 5×5 的卷积核 64 个特征图 127×127 16 个特征图 127×127 1 000 神经元 1 000 神经元分类层图 1 迁移学习微调示意 Fig. 1 Schematic diagram of migration learning fine-tuning 以上模型分为两部分，一部分是基于 ImageNet 训练的深度学习模型，另一部分为根据自身任务微调的网络模型。在训练时可针对特定任务，固定原始网络的相关层，修改网络的输出层，以使结果更符合任务需要。 1.2 集成学习集成学习 (ensemble learning) 是使用一系列学习器进行学习，并使用某种规则把各个学习器结果进行整合，从而获得比单个学习器更加优越的泛化性能[19-20]。集成学习算法策略主要有 Bagging 算法、Boosting 算法以及 Stacking 算法。本文涉及到的算法为 Bagging 算法，算法示意图如图 2 所示。集成学习优势在于： 1) 使用相同数据对不同的个体学习器进行训练会得到不同结果，进而导致分类器的分类边界不同，还可能影响最终分类结果，产生错误输出。将多个体学习器合并后，可获得更为合理的分类边界，提升分类准确率。 2) 对于数据集包含样本数量差异较大的情况，可以对样本数量较大的数据集进行划分操作并对样本数量较小的数据集进行放回操作，进而产生不同数据子集，再使用数据子集训练不同学习器，最终合并成为一个强学习器。 3) 当数据划分边界过于复杂时，单一使用线性分类器很难获得较好结果。可以考虑训练多个模型，再进行模型融合。 4) 对于多个难以直接融合的异构特征集，可以考虑使用每个数据集单独构建分类模型，再将多个模型进行融合。训练集自主采集法或交叉验证法训练子集 1 训练子集 2 ... 训练子集 n ... ... 学习算法 1 学习算法 2 学习算法 n 学习器 1 学习器 2 投票法测试集集成学习器预测结果学习器 n 自主采集法或交叉验证法自主采集法或交叉验证法图 2 集成学习 Bagging 算法示意 Fig. 2 Schematic diagram of integrated learning Bagging algorithm 1.3 CAM 可视化 CAM 是深度学习中一种常用的网络可视化方法。利用 GAP(global average pooling) 替换掉全连接层，以把 GAP 视为一个特殊的平均值池化层，其池化核尺寸和整个特征图一样大，即求每张特征图所有像素的均值。GAP 的优点在于由于没有了全连接层，输入不需固定大小，因此可支持任意大小的输入。此外，引入 GAP 更充分地利用了空间信息，且没有了全连接层的各种参数，避免过拟合。同时在最后的卷积层生成了和目标类别数量一致的特征图，经过 GAP 以后再通第 2 期闫涵，等：多感知兴趣区域特征融合的图像识别方法 ·265·

·266· 智能系统学报第16卷过softmax层得到结果，这样就给每个特征图赋 2.1VGG-l6、VGG-19、ResNet的CAM可视化实验予了很明确的意义，也就是类别置信度特征图。为了对比3种模型在图像识别时所关注的特 CAM模型示意图如图3所示。征点，选取16张猫狗单独存在的图像和4张猫狗 33 共存的模糊语义图像对3种模型进行测试。在实 VGG-16 验前首先通过迁移学习与微调机制，固定网络模 GAP全局池化全连接型的浅层权重参数，设置分类层与深层部分权重 7×7×512 分类权重：512×1 参数可优化。以VGG-16网络模型为例，其迁移去掉全连接层，GAP 直接将7×7×512的替换全局平均池化 feature map乘以学习微调示意图如图5所示。全连接权重图3CAM模型示意 CNN Fig.3 Schematic diagram of the CAM model 设置整个模型参数可以学习， VGG-16 学习率1-0.01，在训练数据集上经过GAP得到最后一个卷积层每个特征图训练模型微调整个模型的均值，通过加权和得到输出。对每一个类别C, Q 512 每个特征图k的均值对应Ψ。当解释模型分类依据时，可将该类别对应的所有Ψ求取出，并求出它们与自身对应的特征图的加权和。由于输出的大小和特征图是一致的，需要对它进行上采样并图5迁移学习微调结构示意与原图进行叠加，得到CAM可视化图。CAM以 Fig.5 Schematic diagram of the migration learning fine- 热力图的形式表明模型对目标进行分类的特征。 tuning structure 图4是在kaggle数据集上VGG-16分类CAM可图6、图7为VGG网络模型和ResNet网络模视化图。如图4所示，对于猫或者狗的分类判断型识别目标单独存在时的CAM可视化图。区域全部集中在头部，头部特征的确能够区分猫和狗。图6单目标CAM可视化结果 Fig.6 Single target CAM visualization results 图4基于VGG16猫狗大战数据CAM模型可视化图 Fig.4 Visualization of CAM model based on VGG-16 cat and dog data figure VGG-16 2本文方法及实验 Resnet50 本文实验所采用的实验数据为自然图像猫狗分类数据集。该数据集主要分为两类：猫、狗。训练集为20832张，测试集为4168张。为了验证 VGG-19 本文算法的有效性，在猫狗数据集上进行对比实验，同样的训练数据集和同样的测试集。实验在 2.2 GHz Intel Core i7处理器(4核)，macOS Mojave 图7模糊语义下CAM可视化结果 10.14.4系统上进行。编程环境为python.2版本， Fig.7 CAM visualization results under fuzzy semantics 编程语言为python语言，编译器为jupyter note-. 通过模型识别单独目标的CAM可视化图可 book。仿真软件的深度学习框架为基于Tensor- 以看出，VGG网络模型更容易将猫分类成狗，而 Flow后端的keras,显卡为GTX1070TL,显存大小 Resnent识别结果与之相反，说明两种不同的网络为8GB。模型在进行目标识别时关注的兴趣区域不同。通

过 softmax 层得到结果，这样就给每个特征图赋予了很明确的意义，也就是类别置信度特征图。 CAM 模型示意图如图 3 所示。 VGG-16 GAP 全局池化去掉全连接层，GAP 替换全局平均池化直接将 7×7×512 的 feature map 乘以全连接权重全连接 7×7×512 分类权重：512×1 图 3 CAM 模型示意 Fig. 3 Schematic diagram of the CAM model 经过 GAP 得到最后一个卷积层每个特征图的均值，通过加权和得到输出。对每一个类别 C，每个特征图 k 的均值对应 w。当解释模型分类依据时，可将该类别对应的所有 w 求取出，并求出它们与自身对应的特征图的加权和。由于输出的大小和特征图是一致的，需要对它进行上采样并与原图进行叠加，得到 CAM 可视化图。CAM 以热力图的形式表明模型对目标进行分类的特征。图 4 是在 kaggle 数据集上 VGG-16 分类 CAM 可视化图。如图 4 所示，对于猫或者狗的分类判断区域全部集中在头部，头部特征的确能够区分猫和狗。图 4 基于 VGG-16 猫狗大战数据 CAM 模型可视化图 Fig. 4 Visualization of CAM model based on VGG-16 cat and dog data figure 2 本文方法及实验本文实验所采用的实验数据为自然图像猫狗分类数据集。该数据集主要分为两类：猫、狗。训练集为 20 832 张，测试集为 4 168 张。为了验证本文算法的有效性，在猫狗数据集上进行对比实验，同样的训练数据集和同样的测试集。实验在 2.2 GHz Intel Core i7 处理器 (4 核)，macOS Mojave 10.14.4 系统上进行。编程环境为 python2 版本，编程语言为 python 语言，编译器为 jupyter notebook。仿真软件的深度学习框架为基于 TensorFlow 后端的 keras，显卡为 GTX 1070TI，显存大小为 8 GB。 2.1 VGG-16、VGG-19、ResNet 的 CAM 可视化实验为了对比 3 种模型在图像识别时所关注的特征点，选取 16 张猫狗单独存在的图像和 4 张猫狗共存的模糊语义图像对 3 种模型进行测试。在实验前首先通过迁移学习与微调机制，固定网络模型的浅层权重参数，设置分类层与深层部分权重参数可优化。以 VGG-16 网络模型为例，其迁移学习微调示意图如图 5 所示。 CNN 512 设置整个模型参数可以学习，学习率 lr=0.01，在训练数据集上微调整个模型 VGG-16 训练模型图 5 迁移学习微调结构示意 Fig. 5 Schematic diagram of the migration learning finetuning structure 图 6、图 7 为 VGG 网络模型和 ResNet 网络模型识别目标单独存在时的 CAM 可视化图。图 6 单目标 CAM 可视化结果 Fig. 6 Single target CAM visualization results VGG-16 Resnet50 VGG-19 图 7 模糊语义下 CAM 可视化结果 Fig. 7 CAM visualization results under fuzzy semantics 通过模型识别单独目标的 CAM 可视化图可以看出，VGG 网络模型更容易将猫分类成狗，而 Resnent 识别结果与之相反，说明两种不同的网络模型在进行目标识别时关注的兴趣区域不同。通 ·266· 智能系统学报第 16 卷

第2期闫涵，等：多感知兴趣区域特征融合的图像识别方法 ·267· 过模型识别模糊语义的CAM可视化图可以看 100 出，VGG网络模型将4张测试图像分类成猫，而 % ResNet将其分类成狗，该现象也可验证上述结论。 2.2本文方法 70 方案1特征拼接(Multi view Fusion方案) 60 一训练准确率 ·测试准确率不同的模型在同一张图片关注的兴趣区域不 50 一，可考虑将多个模型特征进行融合，将会使得 0 500100015002000250030003500 批次次融合后的模型具有关注多视角兴趣特征的功能。 (a)训练集准确率变化曲线本方案运用DenseNet的思想，将不同尺度特征相 4.0 拼接，引入模型多尺度性质。设计的Multi view 3.5 Fusion模型结构如图8所示。 3.0 一训练损失值 2.5 ·测试损失值 ResNet-50 VGG-16 VGG-19 ImageNet 共20 Trained Trained Iraied 预训练 1.5 model model model 模型 1.0 000.0512000◆0 000.0512 0.5 00.01000000 001000 0 500100015002000250030003500 批次次 (b)测试集准确率变化曲线直接去掉迁移模型后面的分类层，再将数据输出的特征保存，然后拼接再训练后面的神经网络图9多视图融合模型训练和测试的准确率和误差 ●●0.●51200005120●0.020483072 Fig.9 Accuracy and error of training and testing of the Multi view Fusion model 0 logistics classfication 方案2特征平均+特征拼接(Multi view Fu- 图8多视图融合模型融合示意 sion-tiny方案) Fig.8 Multi view Fusion model fusion diagram 方案1将3个不同的模型特征进行融合，但将3个预训练模型提取特征之后，选择预训是对于VGG-16和VGG-19来说，这两个模型构练模型参数不进行更新，ResNet-50提取得到2048 造非常相似，即提取的特征也会非常类似。两个个特征标量，而VGG-16和VGG-19分别提取类似的模型提取的特征之间融合，造成特征的冗 512个特征标量，将2048+512+512=3072个特征余，并干扰特征提取。针对上述问题，设计特征合并成一个新的特征向量。然后加入Dropout层，设置drop概率为0.5。最后加入1个神经元，指定平均后再进行特征拼接的网络模型。采用Res 激活函数为sigmoid。对于二分类问题，可以通过 Net和DenseNet的思想，将VGG-l6和VGG-19的 logistic二分类实现。分类损失设置为二进制交叉特征进行特征相加，然后与ResNet-50模型特征嫡损失函数。二进制交叉嫡损失函数公式如下：进行不同尺度特征拼接，引入模型多尺度性质。 1 该方法会使模型特征维度减少，减少网络运行的 sigmoid(y)= 1+e-y (1) 测试时间。设计的Multi view Fusion-tiny模型如图l0 L0y,)=-亏[log(sigmoid0(y)川+ 所示。 (2) (1-)log(sigmoid(1-y)) 将3个预训练模型提取特征之后，选择预训式中：y为实际神经元输出；)为真实输出标签，练模型参数不进行更新，ResNet-50提取得到2048 0表示第一类，1表示第二类。个特征标量，而VGG-16和VGG-19分别提取优化器选择Adadelta优化方式，基准学习率 512个特征标量，首先将VGG-16和VGG-19两个设置为1.0。模型训练迭代次数为3500次，batch 模型特征进行平均，得到一个新的512维度特征， size设为16. 与ResNet-.50的2048特征合并成一个新的特征向 Multi view Fusion模型训练和测试的准确率量，一共为2560维度特征。相比方案一减少了特和损失示意图如图9所示，图9(a)为训练准确率征维度，以及模型训练和测试的时间。加入Dro- 的变化，图9(b)为损失值变化。可以看出随着迭 pout层，设置drop概率为0.5。加入1个神经元，代次数的增加，该算法准确率逐步上升，误差值指定激活函数为sigmoid。减小。 Multi view Fusion-tiny模型在每个批次上训练和

过模型识别模糊语义的 CAM 可视化图可以看出，VGG 网络模型将 4 张测试图像分类成猫，而 ResNet 将其分类成狗，该现象也可验证上述结论。 2.2 本文方法方案 1 特征拼接 (Multi view Fusion 方案) 不同的模型在同一张图片关注的兴趣区域不一，可考虑将多个模型特征进行融合，将会使得融合后的模型具有关注多视角兴趣特征的功能。本方案运用 DenseNet 的思想，将不同尺度特征相拼接，引入模型多尺度性质。设计的 Multi view Fusion 模型结构如图 8 所示。 ResNet-50 Trained model 512 512 512 2 048 3072 1 000 512 1 000 VGG-16 Trained model VGG-19 Trained model logistics classfication ImageNet 预训练模型直接去掉迁移模型后面的分类层，再将数据输出的特征保存，然后拼接再训练后面的神经网络图 8 多视图融合模型融合示意 Fig. 8 Multi view Fusion model fusion diagram 将 3 个预训练模型提取特征之后，选择预训练模型参数不进行更新，ResNet-50 提取得到 2048 个特征标量，而 VGG-16 和 VGG-19 分别提取 512 个特征标量，将 2 048+512+512=3 072 个特征合并成一个新的特征向量。然后加入 Dropout 层，设置 drop 概率为 0.5。最后加入 1 个神经元，指定激活函数为 sigmoid。对于二分类问题，可以通过 logistic 二分类实现。分类损失设置为二进制交叉熵损失函数。二进制交叉熵损失函数公式如下： sigmoid(y) = 1 1+e −y (1) L(y, yˆ) = − 1 2 [ˆy log(sigmoid(y))]+ (1−yˆ)log(sigmoid(1−y)) (2) 式中：y 为实际神经元输出； yˆ 为真实输出标签， 0 表示第一类，1 表示第二类。优化器选择 Adadelta 优化方式，基准学习率设置为 1.0。模型训练迭代次数为 3 500 次，batch size 设为 16。 Multi view Fusion 模型训练和测试的准确率和损失示意图如图 9 所示，图 9(a) 为训练准确率的变化，图 9(b) 为损失值变化。可以看出随着迭代次数的增加，该算法准确率逐步上升，误差值减小。准确率/% 50 0 0.5 1.0 1.5 2.0 损失 2.5 3.0 3.5 4.0 0 500 1 000 1 500 批次/次训练准确率测试准确率 2 000 2 500 3 000 3 500 0 500 1 000 1 500 批次/次 2 000 2 500 3 000 3 500 60 70 80 90 100 训练损失值测试损失值 (a) 训练集准确率变化曲线 (b) 测试集准确率变化曲线图 9 多视图融合模型训练和测试的准确率和误差 Fig. 9 Accuracy and error of training and testing of the Multi view Fusion model 方案 2 特征平均+特征拼接 (Multi view Fusion-tiny 方案) 方案 1 将 3 个不同的模型特征进行融合，但是对于 VGG-16 和 VGG-19 来说，这两个模型构造非常相似，即提取的特征也会非常类似。两个类似的模型提取的特征之间融合，造成特征的冗余，并干扰特征提取。针对上述问题，设计特征平均后再进行特征拼接的网络模型。采用 ResNet 和 DenseNet 的思想，将 VGG-16 和 VGG-19 的特征进行特征相加，然后与 ResNet-50 模型特征进行不同尺度特征拼接，引入模型多尺度性质。该方法会使模型特征维度减少，减少网络运行的测试时间。设计的 Multi view Fusion-tiny 模型如图 10 所示。将 3 个预训练模型提取特征之后，选择预训练模型参数不进行更新，ResNet-50 提取得到 2048 个特征标量，而 VGG-16 和 VGG-19 分别提取 512 个特征标量，首先将 VGG-16 和 VGG-19 两个模型特征进行平均，得到一个新的 512 维度特征，与 ResNet-50 的 2 048 特征合并成一个新的特征向量，一共为 2 560 维度特征。相比方案一减少了特征维度，以及模型训练和测试的时间。加入 Dropout 层，设置 drop 概率为 0.5。加入 1 个神经元，指定激活函数为 sigmoid。 Multi view Fusion-tiny 模型在每个批次上训练和第 2 期闫涵，等：多感知兴趣区域特征融合的图像识别方法 ·267·

·268· 智能系统学报第16卷测试的准确率及误差示意图如图11所示，图11(a) 后将这3个结果投票，投票策略采取投票结果最为训练准确率的变化，即验证数据在每个迭代次多的情况作为最后的分类结果。数上准确率的变化。图11(b)为训练误差的变化。同Multi view Fusion模型训练时的准确率及 ResNet-50 VGG-16 VGG-19 训练模型训练模型训练模型误差图相比，Multi view Fusion-tiny模型准确率曲线震荡减少，稳定上升，同时误差曲线下降。 label1-1 label1-2 label1-3 score-1 score-2 score-3 ResNet-50 VGG-16 VGG-19 ImageNet 预训练模型 ote(labell-l,labell-2,labell-3)多数 000,0 00000512000000512 图12投票决策模型融合示意平均 VGG16与VGG19模型类似，特征具有 Fig.12 Voted Model fusion diagram 定的相似性，两者平为定量分析本文基于多感知兴趣区域图像识 2048●●●…0 。OO·0512均融合可以防止特征冗余；同时可以减少别方法3种模型性能，对本文算法与VGG-16、。分类器神经元数量，降低运行时间 VGG-l9、ResNet模型及3种模型的微调模型， DenseNet模型在kaggle数据集上进行实验对比。图10多视图融合微调模型融合示意 Fig.10 Multi view Fusion-tiny model fusion diagram 识别准确率实验结果如表1所示。表1模型准确率对比 100 Table 1 Comparison of model accuracy ratio 90 对比模型准确率(Acc)/% VGG-16-No-trainable 98.00 o VGG-16-trainable 98.02 一训练准确率 VGG-19-No-trainable 97.72 ·测试准确率 30 0 2000 4000 8000 VGG-19-trainable 97.84 6000 批次饮 ResNet-50-No-trainable 96.97 (a)训练集准确率变化曲线 ResNet-50-trainable 97.05 4.0 一训练损失值 3.5 。测试损失值 DenseNet-trainable 98.03 3.0 2.5 多视图融合模型 98.03 2.0 多视图融合微调模型 98.035 1.5 1.0 投票决策模型 98.52 0.5 0 从表1可以看出，本文设计的模型Multi view 0 2000 40006000 8000 批次吹 Fusion、Multi view Fusion-tiny和Voted Model模型 (b)测试集准确率变化曲线比单个模型的准确率要高，说明了基于多感知兴图11多视图融合微调模型训练和测试准确率及误差趣区域特征融合的图像识别方法更为有效。同时 Fig.11 Accuracy and error of training and testing of the 也验证了不同的模型关注的图像兴趣区域不一， Multi view Fusion-tiny model 学习到的特征不一，多兴趣区域特征融合有利于方案3结果融合投票(Voted Model) 提高分类精度的结论。同时VGG-16、VGG-19关以上两种方案，融合之后还是单个模型的决联的特征兴趣区域极其相似，为了防止特征冗策，但对于VGG-16和VGG-19,ResNet-.503个模余，将这两个模型特征平均，以降低特征维度和型来说，可以通过大多数分类的结果来决定最终分类时间。模型的分类结果。即3个模型决策投票来决定 3结束语分类。设计的模型投票决策如图12所示。针对猫狗分类数据训练好的3个模型为本文给出了一种基于多感知兴趣区域特征融 VGG-16、VGG-19、ResNet-50,将这3个模型对同合的图像识别方法，通过对单独分类网络的复现张数据做测试，会分别得到一个测试结果。然与可视化分析，发现不同的模型关注的图像兴趣

测试的准确率及误差示意图如图 11 所示，图 11(a) 为训练准确率的变化，即验证数据在每个迭代次数上准确率的变化。图 11(b) 为训练误差的变化。同 Multi view Fusion 模型训练时的准确率及误差图相比，Multi view Fusion-tiny 模型准确率曲线震荡减少，稳定上升，同时误差曲线下降。 ResNet-50 512 2 048 512 平均分类器 VGG16 与 VGG19 模型类似，特征具有一定的相似性，两者平均融合可以防止特征冗余；同时可以减少神经元数量，降低运行时间 512 VGG-16 VGG-19 ImageNet 预训练模型图 10 多视图融合微调模型融合示意 Fig. 10 Multi view Fusion-tiny model fusion diagram 100 90 80 准确率/% 损失 70 60 50 40 30 0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 3.5 0 2 000 4 000 批次/次训练准确率测试准确率训练损失值测试损失值 6 000 8 000 0 4 000 2 000 批次/次 6 000 8 000 (a) 训练集准确率变化曲线 (b) 测试集准确率变化曲线图 11 多视图融合微调模型训练和测试准确率及误差 Fig. 11 Accuracy and error of training and testing of the Multi view Fusion-tiny model 方案 3 结果融合投票 (Voted Model) 以上两种方案，融合之后还是单个模型的决策，但对于 VGG-16 和 VGG-19，ResNet-50 3 个模型来说，可以通过大多数分类的结果来决定最终模型的分类结果。即 3 个模型决策投票来决定分类。设计的模型投票决策如图 12 所示。针对猫狗分类数据训练好的 3 个模型为 VGG-16、VGG-19、ResNet-50，将这 3 个模型对同一张数据做测试，会分别得到一个测试结果。然后将这 3 个结果投票，投票策略采取投票结果最多的情况作为最后的分类结果。 ResNet-50 训练模型 label1-1 score-1 label1-2 score-2 label1-3 score-3 VGG-16 训练模型 Vote (label1-1, label1-2, label1-3) 多数 VGG-19 训练模型图 12 投票决策模型融合示意 Fig. 12 Voted Model fusion diagram 为定量分析本文基于多感知兴趣区域图像识别方法 3 种模型性能，对本文算法与 VGG-16、 VGG-19、ResNet 模型及 3 种模型的微调模型， DenseNet 模型在 kaggle 数据集上进行实验对比。识别准确率实验结果如表 1 所示。表 1 模型准确率对比 Table 1 Comparison of model accuracy ratio 对比模型准确率(Acc)/% VGG-16-No-trainable 98.00 VGG-16-trainable 98.02 VGG-19-No-trainable 97.72 VGG-19-trainable 97.84 ResNet-50-No-trainable 96.97 ResNet-50-trainable 97.05 DenseNet-trainable 98.03 多视图融合模型 98.03 多视图融合微调模型 98.035 投票决策模型 98.52 从表 1 可以看出，本文设计的模型 Multi view Fusion、Multi view Fusion-tiny 和 Voted Model 模型比单个模型的准确率要高，说明了基于多感知兴趣区域特征融合的图像识别方法更为有效。同时也验证了不同的模型关注的图像兴趣区域不一，学习到的特征不一，多兴趣区域特征融合有利于提高分类精度的结论。同时 VGG-16、VGG-19 关联的特征兴趣区域极其相似，为了防止特征冗余，将这两个模型特征平均，以降低特征维度和分类时间。 3 结束语本文给出了一种基于多感知兴趣区域特征融合的图像识别方法，通过对单独分类网络的复现与可视化分析，发现不同的模型关注的图像兴趣 ·268· 智能系统学报第 16 卷

第2期闫涵，等：多感知兴趣区域特征融合的图像识别方法 ·269· 区域及学习到的特征有所差异。针对上述问题构 automatica sinica,2014,40(10):2346-2355. 建了多个模型融合机制，通过借鉴DenseNet模型 [10]YE Qihong,XIANG Ming,CUI Zhendong.Fingerprint 的多尺度特征拼接及ResNet特征相加机制，设计 image enhancement algorithm based on two dimension 了Multi view Fusion模型、Multi view Fusion EMD and Gabor filter[J].Procedia engineering,2012,29: tiny模型和Voted Model。实验结果表明本文算法 1840-1844. 在相似目标的二分类问题上具有更高的识别准确 [11]张丽琼，王炳和.基于小波变换的脉象信号特征提取方率。下一步的研究方向可放在网络结构轻量化与法).数据采集与处理，2004,19(3：323-328. 模型的加速上。 ZHANG Liqiong,WANG Binghe.Feature extraction methods for pulse signal based on wavelet transform[J]. 参考文献： Journal of data acquisition processing,2004,19(3): [1]SPENCER JR B F.HOSKERE V.NARAZAKI Y.Ad- 323-328. vances in computer vision-based civil infrastructure in- [12]YAGHOOBI H.MANSOURI H.FARSANGI MA E.et al spection and monitoring[J].Engineering,2019,5(2): Determining the fragmented rock size distribution using 199-222. textural feature extraction of images[J].Powder techno- [2]CHELLAPPA R.The changing fortunes of pattern recog- l1ogy,2019,342:630-641. nition and computer vision[J].Image and vision comput- [13]MESNIL G,BORDES A,WESTON J,et al.Learning se- ing,2016,55:3-5. mantic representations of objects and their parts[J].Ma- [3]雷明.机器学习与应用[M.北京：清华大学出版社， chine learning,2014,94(2):281-301. 2019:26-33 [14]胡越，罗东阳，花奎，等，关于深度学习的综述与讨 [4]MARY N A B,DHARMA D.Coral reef image classifica- 论[U.智能系统学报，2019,14(1)：1-19 tion employing improved LDP for feature extraction[J]. HU Yue,LUO Dongyang,HUA Kui,et al.Overview on Journal of visual communication and image representation, deep learning[J].CAAI transactions on intelligent sys- 2017.49:225-242. tems,2019,141):1-19 [5]YU Hua,YANG Jie.A direct LDA algorithm for high-di- [15]SERMANET P,EIGEN D,ZHANG Xiang,et al.Over- mensional data-with application to face recognition[J]. feat:integrated recognition,localization and detection us- Pattern recognition,2001,34(10):2067-2070. ing convolutional networks[J].Computer science,2013. [6]刘丽，匡纲要.图像纹理特征提取方法综述)中国图象 [16]ZEILER M D.KRISHNAN D.TAYLOR G W.et al.De- 图形学报，2009,14(4)：622-635 convolutional networks[C]//Proceedings of 2010 IEEE LIU Li,KUANG Gangyao.Overview of image textural Computer Society Conference on Computer Vision and feature extraction methods[J].Journal of image and graph- Pattern Recognition.San Francisco,USA,2010: ics.2009.14(4):622-635. 2528-2535. [7]李磊，董卓丽.利用改进图割的彩色图像分割算法】.武 [17]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- 汉大学学报·信息科学版，2014,39(12)：1504-1508. ageNet classification with deep convolutional neural net- LI Lei.DONG Zhuoli.Color image segmentation using works[J].Communications of the ACM,2017,60(6) improved graph cuts[J].Geomatics and Information Sci- 84-90. ence of Wuhan University,2014,39(12):1504-1508 [18]SIMONYAN K.ZISSERMAN A.Very deep convolu- [8]弓晓虹，郑音飞，秦佳乐，等.基于乘性梯度的医学超声 tional networks for large-scale image recognition[EB/OL]. 图像边缘检测算法U.浙江大学学报（工学版），2014， https://arxiv.org/abs/1409.1556,2014. 48(10):1871-1878 [19]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. GONG Xiaohong,ZHENG Yinfei,QIN Jiale,et al.Multi- Deep residual learning for image recognition[C]//Proceed- plicative gradient based edge detection method for medic- ings of 2016 IEEE Conference on Computer Vision and al ultrasound image[J].Journal of Zhejiang University(En- Pattern Recognition.Las Vegas,USA,2016:770-778. gineering Science),2014,48(10):1871-1878. [20]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et [9]张桂梅，张松，储珺.一种新的基于局部轮廓特征的目标 al.Densely connected convolutional networks[C//Pro- 检测方法U.自动化学报，2014,40(10)：2346-2355。 ceedings of 2017 IEEE Conference on Computer Vision ZHANG Guimei,ZHANG Song,CHU Jun.A new object and Pattern Recognition.Honolulu,USA,2017: detection algorithm using local contour features[].Acta 2261-2269

区域及学习到的特征有所差异。针对上述问题构建了多个模型融合机制，通过借鉴 DenseNet 模型的多尺度特征拼接及 ResNet 特征相加机制，设计了 Multi view Fusion 模型、Multi view Fusion tiny 模型和 Voted Model。实验结果表明本文算法在相似目标的二分类问题上具有更高的识别准确率。下一步的研究方向可放在网络结构轻量化与模型的加速上。参考文献： SPENCER JR B F, HOSKERE V, NARAZAKI Y. Advances in computer vision-based civil infrastructure inspection and monitoring[J]. Engineering, 2019, 5(2): 199–222. [1] CHELLAPPA R. The changing fortunes of pattern recognition and computer vision[J]. Image and vision computing, 2016, 55: 3–5. [2] 雷明. 机器学习与应用 [M]. 北京: 清华大学出版社, 2019: 26−33. [3] MARY N A B, DHARMA D. Coral reef image classification employing improved LDP for feature extraction[J]. Journal of visual communication and image representation, 2017, 49: 225–242. [4] YU Hua, YANG Jie. A direct LDA algorithm for high-dimensional data—with application to face recognition[J]. Pattern recognition, 2001, 34(10): 2067–2070. [5] 刘丽, 匡纲要. 图像纹理特征提取方法综述 [J]. 中国图象图形学报, 2009, 14(4): 622–635. LIU Li, KUANG Gangyao. Overview of image textural feature extraction methods[J]. Journal of image and graphics, 2009, 14(4): 622–635. [6] 李磊, 董卓丽. 利用改进图割的彩色图像分割算法 [J]. 武汉大学学报 • 信息科学版, 2014, 39(12): 1504–1508. LI Lei, DONG Zhuoli. Color image segmentation using improved graph cuts[J]. Geomatics and Information Science of Wuhan University, 2014, 39(12): 1504–1508. [7] 弓晓虹, 郑音飞, 秦佳乐, 等. 基于乘性梯度的医学超声图像边缘检测算法 [J]. 浙江大学学报(工学版), 2014, 48(10): 1871–1878. GONG Xiaohong, ZHENG Yinfei, QIN Jiale, et al. Multiplicative gradient based edge detection method for medical ultrasound image[J]. Journal of Zhejiang University (Engineering Science), 2014, 48(10): 1871–1878. [8] 张桂梅, 张松, 储珺. 一种新的基于局部轮廓特征的目标检测方法 [J]. 自动化学报, 2014, 40(10): 2346–2355. ZHANG Guimei, ZHANG Song, CHU Jun. A new object detection algorithm using local contour features[J]. Acta [9] automatica sinica, 2014, 40(10): 2346–2355. YE Qihong, XIANG Ming, CUI Zhendong. Fingerprint image enhancement algorithm based on two dimension EMD and Gabor filter[J]. Procedia engineering, 2012, 29: 1840–1844. [10] 张丽琼, 王炳和. 基于小波变换的脉象信号特征提取方法 [J]. 数据采集与处理, 2004, 19(3): 323–328. ZHANG Liqiong, WANG Binghe. Feature extraction methods for pulse signal based on wavelet transform[J]. Journal of data acquisition & processing, 2004, 19(3): 323–328. [11] YAGHOOBI H, MANSOURI H, FARSANGI M A E, et al. Determining the fragmented rock size distribution using textural feature extraction of images[J]. Powder technology, 2019, 342: 630–641. [12] MESNIL G, BORDES A, WESTON J, et al. Learning semantic representations of objects and their parts[J]. Machine learning, 2014, 94(2): 281–301. [13] 胡越, 罗东阳, 花奎, 等. 关于深度学习的综述与讨论 [J]. 智能系统学报, 2019, 14(1): 1–19. HU Yue, LUO Dongyang, HUA Kui, et al. Overview on deep learning[J]. CAAI transactions on intelligent systems, 2019, 14(1): 1–19. [14] SERMANET P, EIGEN D, ZHANG Xiang, et al. Overfeat: integrated recognition, localization and detection using convolutional networks[J]. Computer science, 2013. [15] ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2528−2535. [16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. [17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. https: //arxiv.org/abs/1409.1556, 2014. [18] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [19] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2261−2269. [20] 第 2 期闫涵，等：多感知兴趣区域特征融合的图像识别方法 ·269·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录