【机器学习】融合关系特征的半监督图像分类方法研究

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：5.25MB

第17卷第5期智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202109022 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.tp.20220615.1700.002.html 融合关系特征的半监督图像分类方法研究刘威2，王薪予日，刘光伟，王东‘，牛英杰 (1.辽宁工程技术大学理学院，辽宁阜新123000：2.辽宁工程技术大学智能工程与数学研究院，辽宁阜新 123000:3.辽宁工程技术大学数学与系统科学研究所，辽宁阜新123000：4.辽宁工程技术大学矿业学院，辽宁阜新123000) 摘要：半监督深度学习模型具有泛化能力强.所需样本数较少等特点，经过10多年的发展，在理论和实际应用方面都取得了巨大的进步，然而建模样本内部“隐含”关系时模型缺乏解释性以及构造无监督正则化项难度较大等问题限制了半监督深度学习的进一步发展。针对上述问题，从丰富样本特征表示的角度出发，构造了一种新的半监督图像分类模型一融合关系特征的半监督分类模型(semi-supervised classification model fused with relational features,.SCUTTLE),该模型在卷积神经网络模型(convolutional neural networks,CNN)基础上引入了图卷积神经网络(graph convolutional networks,.GCN),尝试通过GCN模型来提取CNN模型各层的低、高级特征间的关系，使得融合模型不仅具有特征提取能力，而且具有关系表示能力。通过对SCUTTLE模型泛化性能进行分析，进一步说明了该模型在解决半监督相关问题时的有效性。数值实验结果表明，三层CNN与一层GCN的融合模型在CIFAR10、CIFAR1O0、SVHN3种数据集上与CNN监督学习模型的精度相比均可提升5%6%的精度值，在最先进的ResNet、DenseNet、WRN(wide residual networks)与GCN的融合模型上同样证明了本文所提模型的有效性。关键词：关系表示：特征提取：图卷积神经网络：融合模型：半监督学习：图像分类：视觉卷积：泛化性能中图分类号：TP181文献标志码：A文章编号：1673-4785(2022)05-0886-14 中文引用格式：刘威，王薪予，刘光伟，等.融合关系特征的半监督图像分类方法研究.智能系统学报，2022,17(5)： 886-899. 英文引用格式：LIU Wei,,WANG Xinyu,LIU Guangwei,,ctal.Semi-supervised image classification method fused with relational featuresJ CAAI transactions on intelligent systems,2022,17(5):886-899. Semi-supervised image classification method fused with relational features LIU Wei2,WANG Xinyu'3,LIU Guangwei,WANG Dong',NIU Yingjie'3 (1.School of Sciences,Liaoning Technical University,Fuxin 123000,China;2.Institutes of Intelligent Engineering and Mathematics, Liaoning Technical University,Fuxin 123000,China;3.Institute of Mathematics and Systems Science,Liaoning Technical Uni- versity,Fuxin 123000,China;4.School of Mining,Liaoning Technical University,Fuxin 123000,China) Abstract:A semi-supervised deep learning model exhibits great generalization ability with minimal required samples and has made great progress in theory and practical application over the past ten years or so.However,the lack of the model's interpretability when modeling the internal "implicit"relationship of samples and the difficulty in constructing unsupervised regularization items have limited the further development of semi-supervised deep learning.To solve these problems and enrich the sample feature representation,this study has developed a novel semi-supervised model for im- age classification-semi-supervised classification model integrating the relational features(SCUTTLE).The model in- troduces the graph convolutional networks(GCN)based on the convolutional neural networks(CNN)and extracts the relationships between the low-and high-level features of each layer of the CNN model via the GCN model,thus extract- ing features and expressing relationships.By analyzing the generalization performance of the SCUTTLE model,the pa- per further illustrates its effectiveness in solving semi-supervised related problems.The numerical results indicate that the classification accuracy of the hybrid model with three layers of CNN and one layer of GCN can be improved by 5%-6%compared to that of the CNN model on the CIFAR10,CIFAR100,and SVHN datasets.The effectiveness of the model proposed in this paper is also proved in the most advanced fusion models of ResNet,DenseNet.WRN(wide re- sidual networks),and GCN. Keywords:relationship representation;feature extraction;graph convolutional neural network;hybrid model;semi-su- pervised learning;image classification;convolution in vision;generalization performance 收稿日期：2021-09-13.网络出版日期：2022-06-16. 基金项目：国家自然科学基金项目(51974144,51874160)：辽宁半监督学习，是一种介于监督学习和无监省教育厅项目(LJKZ0340):辽宁工程技术大学学科创新团队项目(LNTU20TD-01,LNTU20TD-07). 督学习之间的学习方法，其基本思想是在训练少通信作者：刘威.E-mail:v8218218@126.com. 量标签样本的过程中引入大量无标签样本来解决

DOI: 10.11992/tis.202109022 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20220615.1700.002.html 融合关系特征的半监督图像分类方法研究刘威1,2,3，王薪予1,3，刘光伟4 ，王东4 ，牛英杰1,3 （1. 辽宁工程技术大学理学院，辽宁阜新 123000; 2. 辽宁工程技术大学智能工程与数学研究院，辽宁阜新 123000; 3. 辽宁工程技术大学数学与系统科学研究所，辽宁阜新 123000; 4. 辽宁工程技术大学矿业学院，辽宁阜新 123000）摘要：半监督深度学习模型具有泛化能力强，所需样本数较少等特点，经过 10 多年的发展，在理论和实际应用方面都取得了巨大的进步，然而建模样本内部“隐含”关系时模型缺乏解释性以及构造无监督正则化项难度较大等问题限制了半监督深度学习的进一步发展。针对上述问题，从丰富样本特征表示的角度出发，构造了一种新的半监督图像分类模型—融合关系特征的半监督分类模型（semi-supervised classification model fused with relational features，SCUTTLE），该模型在卷积神经网络模型 (convolutional neural networks，CNN) 基础上引入了图卷积神经网络 (graph convolutional networks，GCN)，尝试通过 GCN 模型来提取 CNN 模型各层的低、高级特征间的关系，使得融合模型不仅具有特征提取能力，而且具有关系表示能力。通过对 SCUTTLE 模型泛化性能进行分析，进一步说明了该模型在解决半监督相关问题时的有效性。数值实验结果表明，三层 CNN 与一层 GCN 的融合模型在 CIFAR10、CIFAR100、SVHN 3 种数据集上与 CNN 监督学习模型的精度相比均可提升 5%~6% 的精度值，在最先进的 ResNet、DenseNet、WRN（wide residual networks）与 GCN 的融合模型上同样证明了本文所提模型的有效性。关键词：关系表示；特征提取；图卷积神经网络；融合模型；半监督学习；图像分类；视觉卷积；泛化性能中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2022)05−0886−14 中文引用格式：刘威, 王薪予, 刘光伟, 等. 融合关系特征的半监督图像分类方法研究 [J]. 智能系统学报, 2022, 17(5): 886–899. 英文引用格式：LIU Wei, WANG Xinyu, LIU Guangwei, et al. Semi-supervised image classification method fused with relational features[J]. CAAI transactions on intelligent systems, 2022, 17(5): 886–899. Semi-supervised image classification method fused with relational features LIU Wei1,2,3 ，WANG Xinyu1,3 ，LIU Guangwei4 ，WANG Dong4 ，NIU Yingjie1,3 (1. School of Sciences, Liaoning Technical University, Fuxin 123000, China; 2. Institutes of Intelligent Engineering and Mathematics, Liaoning Technical University, Fuxin 123000, China; 3. Institute of Mathematics and Systems Science, Liaoning Technical University, Fuxin 123000, China; 4. School of Mining, Liaoning Technical University, Fuxin 123000, China) Abstract: A semi-supervised deep learning model exhibits great generalization ability with minimal required samples and has made great progress in theory and practical application over the past ten years or so. However, the lack of the model’s interpretability when modeling the internal “implicit” relationship of samples and the difficulty in constructing unsupervised regularization items have limited the further development of semi-supervised deep learning. To solve these problems and enrich the sample feature representation, this study has developed a novel semi-supervised model for image classification—semi-supervised classification model integrating the relational features (SCUTTLE). The model introduces the graph convolutional networks (GCN) based on the convolutional neural networks (CNN) and extracts the relationships between the low- and high-level features of each layer of the CNN model via the GCN model, thus extracting features and expressing relationships. By analyzing the generalization performance of the SCUTTLE model, the paper further illustrates its effectiveness in solving semi-supervised related problems. The numerical results indicate that the classification accuracy of the hybrid model with three layers of CNN and one layer of GCN can be improved by 5%–6% compared to that of the CNN model on the CIFAR10, CIFAR100, and SVHN datasets. The effectiveness of the model proposed in this paper is also proved in the most advanced fusion models of ResNet, DenseNet, WRN (wide residual networks), and GCN. Keywords: relationship representation; feature extraction; graph convolutional neural network; hybrid model; semi-supervised learning; image classification; convolution in vision; generalization performance 半监督学习[1,2] 是一种介于监督学习和无监督学习之间的学习方法，其基本思想是在训练少量标签样本的过程中引入大量无标签样本来解决收稿日期：2021−09−13. 网络出版日期：2022−06−16. 基金项目：国家自然科学基金项目 (51974144, 51874160)；辽宁省教育厅项目 ( LJKZ0340)；辽宁工程技术大学学科创新团队项目 (LNTU20TD-01,LNTU20TD- 07). 通信作者：刘威. E-mail：lv8218218@126.com. 第 17 卷第 5 期智能系统学报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022

·887· 刘威，等：融合关系特征的半监督图像分类方法研究第5期监督学习由于标签样本不足所造成的模型退化问 (K-nearest neighbor,.KNN)图，以此来建模图像之题。早期的半监督学习算法与深度学习的结合相间的一阶关系信息。这种通过建图来建模GCN 对较少，随着深度学习在各界大放异彩，尤其在模型输入的相关文献91川大部分都是用随机参数图像分类问题上超人类的识别率使得半监督学习化或者依靠添加损失项的方式，所得图结构很大与深度学习的结合成为一种必然趋势。程度上取决于模型自身性能，且这种图结构忽略半监督深度学习的核心模型依然是卷积神经了数据的原始信息，使模型不具解释性。而构建网络，不同模型的区别在于添加不同的先验假设 KNN图的方式可以保持数据的原始信息不丢失。来建立不同的损失函数。Sajjadi等1认为相同的针对问题(2)，本文尝试将关系学习模型融样本在不同的扰动下，模型应该具有相同的输出合到特征提取模型的任意一层，考虑到特征提取 (被称为“一致性正则化原则”)。因此将标签样模型是一个复杂且多层的结构，每一层所学特征本与无标签样本经过随机增强、裁剪、随机池化信息皆不相同，因此关系信息与特征信息不同的等操作后输入模型中，强制模型对同一样本输出融合方式会对模型的泛化性能产生不同的影响。相同的预测类别。Laine等将上述的一致性正本文主要贡献有：1)提出基于图像间的关系则化原则建模为时序模型，认为模型在每次迭代表示模型，该模型可以提取到图像间的不同阶的的学习过程中都应该保持所谓的“一致性正则关系信息。2)设计新的半监督图像分类模型。将化”。L等的与上述两篇文献的做法不同，将这种图像数据的关系信息与特征信息相融合，可以极 “一致性正则化”方法加入了模型的参数之中，大地提升表示学习模型的泛化能力。3)对模型中他们认为相同的样本在经过模型参数的随机扰动提取样本间隐含关系的函数进行解释，进一步阐之后应该输出相同的类别。明其运行机理。4)在5个基准图像数据集上进行综上所述，半监督图像分类算法主要围绕一致数值实验，进一步验证本文提出的融合模型可以性原则进行建模，使用不同程度的数据增强、混在少样本情形下有效提升监督模型的分类精度。合等操作强制对同类样本输出相同的预测结果， 1相关工作希望模型能够习得图像的本质特征。但这种建模方式仅在模型的端首与端尾进行操作，缺乏半监本节主要介绍半监督深度学习模型的建模方督模型的内部机理分析，使模型不具可解释性。法。首先介绍半监督学习的基本思路。在引言中从本质上而言，半监督学习的建模思想描述提到的（预测样本分布、聚类假设、流形假设以及为：首先建立所给样本的隐含“关系”，然后将标前述的“一致性原则”)假设的前提下，即可约束签样本的标签信息通过上述“关系”传递到无标签相似的样本输出相同的结果。样本。而图卷积网络(graph convolutional net- 以图结构的标签传播(label propagation,LP) works,.GCN)的提出，正好从关系建模的角度出算法为例进行说明，该算法的目标函数如下：发，给出解析网络数据的一种思路。与视觉卷积 L+U min ∑Ifx)-HP+A∑Ifx)-fxrw(四模型相比，模型解释性大大增加。此外，该方法还为半监督图像分类提供建模思路，本文旨在利式中：样本被分为标签样本（用L表示）和无标签用图卷积网络来建模前述样本的隐含“关系”，然样本（用U表示），其中标签样本损失为f-y, 后进一步研究与视觉卷积模型融合后的融合模型在此基础上又添加与无标签样本相关的正则化项的机理性能。 ‖-fW,意味着相同标签的样本之间会有更一直以来，模型融合作为改进模型性能的技大的连接权重，从而使得与标签样本相连的权重术被广泛使用，著名的GoogLeNet!模型中作者较大的无标签样本更容易获得标签样本的标签信就表明视觉图像数据应在各种尺度处理后再进行息，进而实现全图的标签信息传播。融合，才能使得深度网络对输入图像的尺度具有上述半监督学习方法虽然取得了不错的效鲁棒性。而本文将GCN与卷积分类模型相融合果，但是随着深度学习的兴起，半监督深度学习则需考虑以下两个问题：(1)建模“关系”的目标算法成为了研究的重点。对象。(2)对于图像特征提取的多层神经网络模半监督深度图像分类模型是将包含无标签样型而言，需要考虑GCN模型如何与这些多层结构相本的正则化项引入多层结构的网络模型中。We- 融合。 ston等1针对传统的半监督学习算法无法充分地针对问题(1)，首先基于图像数据构建KNN 学习数据的特征，通过在多层神经网络的基础上

监督学习由于标签样本不足所造成的模型退化问题。早期的半监督学习算法与深度学习的结合相对较少，随着深度学习在各界大放异彩，尤其在图像分类问题上超人类的识别率使得半监督学习与深度学习的结合成为一种必然趋势。半监督深度学习的核心模型依然是卷积神经网络，不同模型的区别在于添加不同的先验假设来建立不同的损失函数。Sajjadi 等 [3] 认为相同的样本在不同的扰动下，模型应该具有相同的输出（被称为“一致性正则化原则”）。因此将标签样本与无标签样本经过随机增强[4] 、裁剪、随机池化等操作后输入模型中，强制模型对同一样本输出相同的预测类别。Laine 等 [5] 将上述的一致性正则化原则建模为时序模型，认为模型在每次迭代的学习过程中都应该保持所谓的“一致性正则化”。Li 等 [6] 与上述两篇文献的做法不同，将这种 “一致性正则化”方法加入了模型的参数[7] 之中，他们认为相同的样本在经过模型参数的随机扰动之后应该输出相同的类别。综上所述，半监督图像分类算法主要围绕一致性原则进行建模，使用不同程度的数据增强、混合等操作强制对同类样本输出相同的预测结果，希望模型能够习得图像的本质特征。但这种建模方式仅在模型的端首与端尾进行操作，缺乏半监督模型的内部机理分析，使模型不具可解释性。从本质上而言，半监督学习的建模思想描述为：首先建立所给样本的隐含“关系”，然后将标签样本的标签信息通过上述“关系”传递到无标签样本。而图卷积网络（graph convolutional networks，GCN）的提出，正好从关系建模的角度出发，给出解析网络数据的一种思路。与视觉卷积模型相比，模型解释性大大增加。此外，该方法还为半监督图像分类提供建模思路，本文旨在利用图卷积网络来建模前述样本的隐含“关系”，然后进一步研究与视觉卷积模型融合后的融合模型的机理性能。一直以来，模型融合作为改进模型性能的技术被广泛使用，著名的 GoogLeNet[8] 模型中作者就表明视觉图像数据应在各种尺度处理后再进行融合，才能使得深度网络对输入图像的尺度具有鲁棒性。而本文将 GCN 与卷积分类模型相融合则需考虑以下两个问题：（1）建模“关系”的目标对象。（2）对于图像特征提取的多层神经网络模型而言，需要考虑 GCN 模型如何与这些多层结构相融合。针对问题（1），首先基于图像数据构建 KNN （K-nearest neighbor，KNN）图，以此来建模图像之间的一阶关系信息。这种通过建图来建模 GCN 模型输入的相关文献[9-11] 大部分都是用随机参数化或者依靠添加损失项的方式，所得图结构很大程度上取决于模型自身性能，且这种图结构忽略了数据的原始信息，使模型不具解释性。而构建 KNN 图的方式可以保持数据的原始信息不丢失。针对问题（2），本文尝试将关系学习模型融合到特征提取模型的任意一层，考虑到特征提取模型是一个复杂且多层的结构，每一层所学特征信息皆不相同，因此关系信息与特征信息不同的融合方式会对模型的泛化性能产生不同的影响。本文主要贡献有：1）提出基于图像间的关系表示模型，该模型可以提取到图像间的不同阶的关系信息。2）设计新的半监督图像分类模型。将图像数据的关系信息与特征信息相融合，可以极大地提升表示学习模型的泛化能力。3）对模型中提取样本间隐含关系的函数进行解释，进一步阐明其运行机理。4）在 5 个基准图像数据集上进行数值实验，进一步验证本文提出的融合模型可以在少样本情形下有效提升监督模型的分类精度。 1 相关工作本节主要介绍半监督深度学习模型的建模方法。首先介绍半监督学习的基本思路。在引言中提到的（预测样本分布、聚类假设、流形假设以及前述的“一致性原则”）假设的前提下，即可约束相似的样本输出相同的结果。以图结构的标签传播（label propagation，LP）算法[12] 为例进行说明，该算法的目标函数如下： min f ∑L i ∥ f(xi)−yi∥ 2 +λ ∑L+U i, j ∥ f(xi)− f(xj)∥ 2Wi j (1) L U ∥ fi −yi∥ 2 ∥ fi − fj∥ 2Wi j 式中：样本被分为标签样本（用表示）和无标签样本（用表示），其中标签样本损失为，在此基础上又添加与无标签样本相关的正则化项，意味着相同标签的样本之间会有更大的连接权重，从而使得与标签样本相连的权重较大的无标签样本更容易获得标签样本的标签信息，进而实现全图的标签信息传播。上述半监督学习方法虽然取得了不错的效果，但是随着深度学习的兴起，半监督深度学习算法成为了研究的重点。半监督深度图像分类模型是将包含无标签样本的正则化项引入多层结构的网络模型中。Weston 等 [13] 针对传统的半监督学习算法无法充分地学习数据的特征，通过在多层神经网络的基础上 ·887· 刘威，等：融合关系特征的半监督图像分类方法研究第 5 期

第17卷智能系统学报 ·888· 显式地引入包含无标签样本的正则化项提出3种将学习到的关系特征与CNN提取到的图像特征通用的特征表示模型，从而实现半监督学习与神融合在一起进行端到端的学习。下面将描述模型经网络的结合。生成对抗网络(generative adversarial 的具体细节。 nets,GAN)也是一种学习数据表示的多层网络特征提取的CNN模型模型，由于此模型在模拟生成真实样本任务上的原始样本X conv 成功表现，自然而然的想法就是在标签样本较少的情况下，可以利用生成器生成的样本来提高模型的泛化能力。Springenberg等l提出的GAN模型是从部分标记数据中学习判别分类器的方法， KNN图通过在目标函数中添加标签样本的分类损失，使模型在标签样本的分布与其预测的无标签样本分表示关系函数的GCN模型☑ 布之间交换互信息，再结合判别器损失函数即可图1 SCUTTLE模型示意图实现半监督学习。Chang等u改进GAN的判别 Fig.1 Schematic diagram of SCUTTLE model 器函数，强制其输出为N+1类的样本(N为样本 2.1KNN图的构建类别数，额外的一类为生成器的样本类别)，这样对于N个样本数据X=(,x,…,xw),X∈Rw。判别器不再是二分类函数，而是多分类的函数。 X中的列向量x代表第i个样本的特征，N为样本同样地，上述过程也利用了无标记样本的隐含分的数量，d表示样本的维度。对于X中的任何一个布信息，通过结合改进的GAN模型完成半监督样本x,都可以通过某种映射p:R4xR4→R来建学习的过程。立该样本与其他N-1个样本xn的相似度S: 以上半监督图像分类算法皆是利用深层卷积 Sii=(xi,xi) (2) 模型在提取数据特征方面的优势来提升模型的泛上述映射函数如可以表示为化性能，但在描述数据内部隐含的“关系”信息时 s-x 均缺乏解释性。因此本文针对上述问题，在特征 Sy= e i≠j (3) 0 i=i 提取模型的基础上又设计了关系表示模型，而且式(3)即为常用的热核定义法叨，常用于连续给出了二者的融合方法，通过端到端的训练方式型数据之间的相似度定义，通过计算样本间的距提升模型的泛化能力。离，将d维连续空间中的两个样本映射到一维实 2融合关系特征的半监督分类模型空间中。通过计算N个样本中任意两个样本间的相似本节介绍提出的SCUTTLE模型。该模型结度，可得到一个对称的相似度稠密矩阵S∈Rw, 构如图1所示。由图可知模型大致可以分为两个即对于其中任意一个元素S)=S(i≠)。考虑S中模块：图像特征提取的CNN模块和表示关系函数任意行S.(S除外)的元素，分别表示第i个样本的GCN模块。模型设计整体思路如下：与其他N-1个样本的相似度，通过对这N-1个元 1)将原始样本数据输入CNN中学习样本的素进行排序，使得S1≥S2≥…≥Sw-(S表示相隐含特征，并且通过全连接层将学习到的样本特似度最大的元素)，即可找到最相似的K个元素征映射到样本标签。 {S,S2,…,Sx,同理对于S中的每一行都可以执 2)就监督学习而言，只依靠上述CNN模块，行上述操作，由此即可构建一个稀疏的KNN无模型就可以取得很好的泛化性能。但是对于半监向图。督学习，还需依赖模型习得的样本隐含“关系”函 2.2特征提取的CNN模型数。为了习得这些“关系”，在上述CNN提取特征正如引言所述，提取图像特征的CNN模型是的过程中，对于任意卷积层提取到的图像特征构实施半监督深度学习算法的关键。其建模过程可建KNN图，图中不仅包含了样本自身的特征信以描述为：息，而且将相邻样本间原本无关的样本集从离散对于任意一个多层卷积神经网络，第1层卷空间映射到一个关系度量空间。此时的KNN图积提取到的数据特征z表示如下：中仅显示了样本间的一阶关系信息.为了获取更 2(0)=Woy *a-1) (4) 高阶的关系信息，需要将KNN图和样本特征同式中：W心表示第I层的卷积核参数以及偏置参时输入GCN模型中，通过多层GCN的叠加，最终数，a)表示前一层卷积提取到的特征图经过非

显式地引入包含无标签样本的正则化项提出 3 种通用的特征表示模型，从而实现半监督学习与神经网络的结合。生成对抗网络（generative adversarial nets，GAN） [14] 也是一种学习数据表示的多层网络模型，由于此模型在模拟生成真实样本任务上的成功表现，自然而然的想法就是在标签样本较少的情况下，可以利用生成器生成的样本来提高模型的泛化能力。Springenberg 等 [15] 提出的 GAN 模型是从部分标记数据中学习判别分类器的方法，通过在目标函数中添加标签样本的分类损失，使模型在标签样本的分布与其预测的无标签样本分布之间交换互信息，再结合判别器损失函数即可实现半监督学习。Chang 等 [16] 改进 GAN 的判别器函数，强制其输出为 N+1 类的样本（N 为样本类别数，额外的一类为生成器的样本类别），这样判别器不再是二分类函数，而是多分类的函数。同样地，上述过程也利用了无标记样本的隐含分布信息，通过结合改进的 GAN 模型完成半监督学习的过程。以上半监督图像分类算法皆是利用深层卷积模型在提取数据特征方面的优势来提升模型的泛化性能，但在描述数据内部隐含的“关系”信息时均缺乏解释性。因此本文针对上述问题，在特征提取模型的基础上又设计了关系表示模型，而且给出了二者的融合方法，通过端到端的训练方式提升模型的泛化能力。 2 融合关系特征的半监督分类模型本节介绍提出的 SCUTTLE 模型。该模型结构如图 1 所示。由图可知模型大致可以分为两个模块：图像特征提取的 CNN 模块和表示关系函数的 GCN 模块。模型设计整体思路如下： 1）将原始样本数据输入 CNN 中学习样本的隐含特征，并且通过全连接层将学习到的样本特征映射到样本标签。 2）就监督学习而言，只依靠上述 CNN 模块，模型就可以取得很好的泛化性能。但是对于半监督学习，还需依赖模型习得的样本隐含“关系”函数。为了习得这些“关系”，在上述 CNN 提取特征的过程中，对于任意卷积层提取到的图像特征构建 KNN 图，图中不仅包含了样本自身的特征信息，而且将相邻样本间原本无关的样本集从离散空间映射到一个关系度量空间。此时的 KNN 图中仅显示了样本间的一阶关系信息．为了获取更高阶的关系信息，需要将 KNN 图和样本特征同时输入 GCN 模型中，通过多层 GCN 的叠加，最终将学习到的关系特征与 CNN 提取到的图像特征融合在一起进行端到端的学习。下面将描述模型的具体细节。 1 N N n=1 CNN= (y (n) , h (n) ∑ ) 1 N N n=1 GCN= (y (n) , z (n) ∑ ) … … conv1 conv2 conv3 特征提取的 CNN 模型 h (n) z (1) z (2) z (3) z (l) 表示关系函数的 GCN 模型 Z (1) Z (2) Z (l) Z (n) KNN 图原始样本 X + 图 1 SCUTTLE 模型示意图 Fig. 1 Schematic diagram of SCUTTLE model 2.1 KNN 图的构建 X = (x1, x2,··· , xN) X ∈ R d×N X xi X xi φ R d ×R d → R xj(i,j) S i j 对于 N 个样本数据，。中的列向量代表第 i 个样本的特征，N 为样本的数量，d 表示样本的维度。对于中的任何一个样本，都可以通过某种映射：来建立该样本与其他 N−1 个样本的相似度： S i j = ϕ(xi，xj) (2) 上述映射函数 φ 可以表示为 S i j =    e − ∥xi−xj∥ 2 t i , j 0 i = j (3) 式（3）即为常用的热核定义法[17] ，常用于连续型数据之间的相似度定义，通过计算样本间的距离，将 d 维连续空间中的两个样本映射到一维实空间中。 S ∈ R N×N S i j S ji i , j S S i· S ii S i,1 ⩾ S i,2 ⩾ ··· ⩾ S i,N−1 S i,1 {S i,1,S i,2,··· ,S i,K} S 通过计算 N 个样本中任意两个样本间的相似度，可得到一个对称的相似度稠密矩阵，即对于其中任意一个元素 = ( )。考虑中任意行（除外）的元素，分别表示第 i 个样本与其他 N−1 个样本的相似度，通过对这 N−1 个元素进行排序，使得（表示相似度最大的元素），即可找到最相似的 K 个元素，同理对于中的每一行都可以执行上述操作，由此即可构建一个稀疏的 KNN 无向图。 2.2 特征提取的 CNN 模型正如引言所述，提取图像特征的 CNN 模型是实施半监督深度学习算法的关键。其建模过程可以描述为： z (l) 对于任意一个多层卷积神经网络，第 l 层卷积提取到的数据特征表示如下： z (l) = W(l) conv ∗ a (l−1) (4) W(l) conv a (l−1) 式中：表示第 l 层的卷积核参数以及偏置参数，表示前一层卷积提取到的特征图经过非第 17 卷智能系统学报 ·888·

·889· 刘威，等：融合关系特征的半监督图像分类方法研究第5期线性激活函数（一般用RLUl8函数表示）后的输过激活函数σ（通常用ReLU函数表示）即可提取出。这里对于该模型的具体卷积过程不再赘述。第（层的相关特征。式(4)中的z0又可以写为与CNN模型类似，在模型的最后一层通过 20:=09:别 (5) softmax函数来获得样本标签的预测分布。同样表示第I层卷积提取到的F,个特征图，这些特征地，对于输入该模型的N个样本，模型的目标函图再经过非线性的激活函数中，即可得到该层最数为终的输出a,即 (9) a0=(z0) (6) 1分z, 对于输入该模型的N个样本，该模型的目标 2.4 SCUTTLE模型函数为本节介绍将前述两种模型相融合的SCUTTLE 1 L(ym,h) 模型，融合模型具有两种单一模型的双重属性， (7) 既具有特征提取能力，也具有关系表示能力。本式中：ym为第n个样本的真实标签；h为第n个节不仅给出模型融合的方法描述，也给出了融合样本的预测标签；￡为相应的损失函数。模型的训练算法流程。此外，对本文提到的关系 2.3关系表示函数的GCN模型函数的构建过程也加以解释。 2.2节阐述了CNN模型设计的整体思路，该 2.4.1 SCUTTLE模型的融合方法描述模型利用不同卷积核提取到了层次化的图像特本节介绍将2.2节中的CNN模型与2.3节中征，而忽视了图像间所蕴涵的内在联系。本节介的GCN模型融合在一个end-to-end的框架中的融绍图信号处理领域的GCN模型是如何通过图上合方法，实施步骤如下：节点的特征信息与图的结构信息来提取节点间的 I)对于输入CNN模型的N个样本，其中任意隐含关系。个样本在第1层学习到的特征z0表示为2.2 GCN模型在建模之前通常需要构造一个图节中的式(5)。假设每个特征图的大小为m×n, 位移算子T来表示所研究的图结构。位移算子则z0∈RmxnxFi,可以将z展成维度为m×n×F的一 T的作用就是将输入信号通过线性聚合的方式来维向量。对输入模型的N样本都执行上述操作。提取节点的一阶邻域内的信息，这个过程可以类此时的一维向量z依然具有特征图形状的z应有比CNN中的卷积核的作用（捕捉固定感受野范围的特性。内的信息)。其次只需要将T参数化后融入卷积 2)将上述样本特征z作为2.1节KNN模型的神经网络中进行学习即可构建图上的卷积操作。输入，即可构建一个关于N个样本的稀疏KNN 常用的图位移算子包括下面3种类型：图，也称为权重邻接矩阵，是2.3节提到的图位移 1)图的邻接矩阵A。对于其中的元素Am,如算子T的一种特殊形式，用T来表示。果(um,va)∈E,则Am=1,否则为0： 3)将步骤1)和步骤2)中得到的z0和T作为 2)图的拉普拉斯矩阵L=D-A。D为对角矩 2.3节中GCN模型的输入，则GCN模型同时具有阵，其中的D表示第i个节点的度；样本的高阶特征信息以及连接这些信息的位移 3)L归一化之后的类型：i=DAD-。算子T',通过图上的卷积操作即可学习这些特征本文采用Kipf等提出的GCN模型，该模之间的关系，GCN模型在第一层卷积学习到的特型基于归一化的图拉普拉斯矩阵而提出的，也征Z可以表示为即上述图位移算子中的第3种类型。模型第层 z)=(D-TD-2Wc) (10) 学习到的特征Z9可以表示为式中：下=T+1,T为步骤2)中的权重邻接矩阵， Z(0=(D-!AD-IZ-DWe) (8) D、W与式(8)代表的含义相同。式中：A=A+I,A表示图所对应的邻接矩阵，I是 4)为了使得CNN模型与GCN模型在习得的单位对角阵，A表示在邻接矩阵A中的每个节点上样本特征上实现维度对齐，本文在GCN的最后添加自环的操作；D为对角阵，D:=∑，A,表示第层后又添加了全连接层，假设GCN模型共有L"层， i个节点（包含自己）的度，W表示第(-1层的卷 W为全连接层的权重参数，则上述过程表示为积核参数且包括偏置参数。在式(8)中，第(-1层 Zu=ReLU(Wie(ReLU(D-AD-!Zu-W 卷积提取到的特征Z-通过与归一化的图位移算 (11) 子相乘来捕捉图中一阶邻域内的节点信息，再通在融合模型的最后一层分别将两个模型得到

z (l) 线性激活函数（一般用 ReLU[18] 函数表示）后的输出。这里对于该模型的具体卷积过程不再赘述。式 (4) 中的又可以写为 z (l)： = [ z (l) 1 ;z (l) 2 ;z (l) Fl ] (5) Fl ϕ a (l) 表示第 l 层卷积提取到的个特征图，这些特征图再经过非线性的激活函数，即可得到该层最终的输出，即 a (l) = ϕ(z (l) ) (6) 对于输入该模型的 N 个样本，该模型的目标函数为 LCNN = 1 N ∑N n=1 L(y (n) , h (n) ) (7) y (n) h (n) L 式中：为第 n 个样本的真实标签；为第 n 个样本的预测标签；为相应的损失函数。 2.3 关系表示函数的 GCN 模型 2.2 节阐述了 CNN 模型设计的整体思路，该模型利用不同卷积核提取到了层次化的图像特征，而忽视了图像间所蕴涵的内在联系。本节介绍图信号处理领域的 GCN 模型是如何通过图上节点的特征信息与图的结构信息来提取节点间的隐含关系。 T T T GCN 模型在建模之前通常需要构造一个图位移算子来表示所研究的图结构。位移算子的作用就是将输入信号通过线性聚合的方式来提取节点的一阶邻域内的信息，这个过程可以类比 CNN 中的卷积核的作用（捕捉固定感受野范围内的信息）。其次只需要将参数化后融入卷积神经网络中进行学习即可构建图上的卷积操作。常用的图位移算子包括下面 3 种类型： A Amn (υm, υn) ∈ ε Amn = 1 1）图的邻接矩阵。对于其中的元素，如果，则，否则为 0； L D− A D Dii 2）图的拉普拉斯矩阵 = 。为对角矩阵，其中的表示第 i 个节点的度； L L¯ = D˜ − 1 2 A˜ D˜ − 1 3）归一化之后的类型： 2。 L¯ ℓ Z (ℓ) 本文采用 Kipf 等 [19] 提出的 GCN 模型，该模型基于归一化的图拉普拉斯矩阵而提出的，也即上述图位移算子中的第 3 种类型。模型第层学习到的特征可以表示为 Z (ℓ) = σ(D˜ − 1 2 A˜ D˜ − 1 2 Z (ℓ−1)W(ℓ−1) gcn ) (8) A˜ = A+ I A I A˜ A D˜ D˜ ii = ∑ j A˜ i j W(ℓ−1) gcn ℓ−1 ℓ−1 Z (ℓ−1) 式中：，表示图所对应的邻接矩阵，是单位对角阵，表示在邻接矩阵中的每个节点上添加自环的操作；为对角阵，表示第 i 个节点（包含自己）的度，表示第层的卷积核参数且包括偏置参数。在式 (8) 中，第层卷积提取到的特征通过与归一化的图位移算子相乘来捕捉图中一阶邻域内的节点信息，再通 σ ℓ 过激活函数（通常用 ReLU 函数表示）即可提取第层的相关特征。与 CNN 模型类似，在模型的最后一层通过 softmax 函数来获得样本标签的预测分布。同样地，对于输入该模型的 N 个样本，模型的目标函数为 LGCN = 1 N ∑N n=1 L(Z (n)，y (n) ) (9) 2.4 SCUTTLE 模型本节介绍将前述两种模型相融合的 SCUTTLE 模型，融合模型具有两种单一模型的双重属性，既具有特征提取能力，也具有关系表示能力。本节不仅给出模型融合的方法描述，也给出了融合模型的训练算法流程。此外，对本文提到的关系函数的构建过程也加以解释。 2.4.1 SCUTTLE 模型的融合方法描述本节介绍将 2.2 节中的 CNN 模型与 2.3 节中的 GCN 模型融合在一个 end-to-end 的框架中的融合方法，实施步骤如下： z (l) m×n z (l) ∈ R m×n×Fl z (l) m×n× Fl z (l) z (l) 1) 对于输入 CNN 模型的 N 个样本，其中任意一个样本在第 l 层学习到的特征表示为 2.2 节中的式 (5)。假设每个特征图的大小为，则，可以将展成维度为的一维向量。对输入模型的 N 样本都执行上述操作。此时的一维向量依然具有特征图形状的应有的特性。 z (l) T T ′ 2) 将上述样本特征作为 2.1 节 KNN 模型的输入，即可构建一个关于 N 个样本的稀疏 KNN 图，也称为权重邻接矩阵，是 2.3 节提到的图位移算子的一种特殊形式，用来表示。 z (l) T ′ z (l) T ′ Z (1) 3) 将步骤 1) 和步骤 2) 中得到的和作为 2.3 节中 GCN 模型的输入，则 GCN 模型同时具有样本的高阶特征信息以及连接这些信息的位移算子，通过图上的卷积操作即可学习这些特征之间的关系，GCN 模型在第一层卷积学习到的特征可以表示为 Z (1) = σ(D˜ − 1 2 T˜ ′ D˜ − 1 2 z (l)W(0) gcn) (10) T˜ ′ = T ′ + I T ′ D˜ W(0) gcn 式中：，为步骤 2) 中的权重邻接矩阵，、与式 (8) 代表的含义相同。 L ′′ Wf c 4）为了使得 CNN 模型与 GCN 模型在习得的样本特征上实现维度对齐，本文在 GCN 的最后一层后又添加了全连接层，假设 GCN 模型共有层，为全连接层的权重参数，则上述过程表示为 Z (L ′′) = ReLU( Wf c ( ReLU( D˜ − 1 2 A˜ D˜ − 1 2 Z (L ′′−1)W(L ′′−1) gcn ))) (11) 在融合模型的最后一层分别将两个模型得到 ·889· 刘威，等：融合关系特征的半监督图像分类方法研究第 5 期

第17卷智能系统学报 ·890· 的关系特征ZL和样本特征α相结合得到样本的图如图2所示。预测标签分布，这里假设CNN模型共有L层，表开始示如下： =softmax(Zu)+H)) (12) SCUTTLE模型参数初始化 5)计算模型最终的损失函数： LCNN_GCN= 2, 数据集预处理，设置批次数量、每批次样本数 (13) 、每批次标记样本数、选代次数等超参数 2.4.2 SCUTTLE模型的训练算法描述将一个批次N。个样本传入 CNN网络中正向训练设训练样本总数为N,每个批次的样本数量挑选CNN任一隐层的也即batchsize设定为Nata,则批次数量为输出作为KNN的输入设每批次标记样本数量为Vabl,此时计算得到标 KNN+GCN模型进行记样木这数为N×心，后续哭到的所有标记样本隐含关系特征提取样本数量皆通过上式计算得到。将GCN的输出结果与CNN的输出结果进行融合操作算法1 SCUTTLE模型训练方法输入N个样本X=(c1,x2,…,xN)以及Nae个只计算Ne个标i记样本损失值并进行梯度反向传播样本的标签。输出N个样本的预测标签值。装本 1)随机初始化SCUTTLE模型的网络参数。 Y 2)将全部样本作数据预处理且随机打乱顺 SCUTTLE模型精度测试序，同时设定样本批次数量为一，，且设定每批次标记样本数量为Niable,epoch数量为e。 SCUTTLE模型N 收敛 3)将第一个批次的Nah个样本输入CNN模型中进行正向传播。结束 4)随机挑选步骤3)中CNN的任一隐层输出特征作为KNN图的输入，再经过GCN模型进行图2 SCUTTLE模型训练方法流程图 Fig.2 Flow chart of SCUTTLE model training method 正向传播。 5)步骤3)4)属于并行前向传播，在两个模型 2.4.3 SCUTTLE模型的关系函数解释最后输出层通过式(12)进行特征融合并计算损失对于常见的半监督学习模型（包括引言和相值，此时的损失值只包括步骤2)中提前设定好的关工作中提到的)，其优化目标函数为 L+U Viable个样本的损失，同时通过梯度反向传播优化 min∑Ifx)-yP+∑cfx,x,W） (14) 模型参数。 6)测试模型精度。式中：W即为表示相邻两个样本间的关系参数； )将步骤3小6)循环一次，为全部样本一次 L表示标签样本；U表示无标签样本。为了后续表迭代。述的方便，将式(14)中的两项分别记为(14)与 8)步骤3))循环e次，直至模型收敛。 (14)。(14)为标签样本的损失函数，(14)为反映上述算法即为SCUTTLE模型的批量训练算样本隐含关系的函数。根据前两小节所述的建模法，从步骤4)中可知，SCUTTLE融合算法对于任流程，CNN与GCN模型都利用标签样本的标签一批量的样本都会建立KNN图，相较于其他算信息来构建监督信息的损失函数，因此(14)可以法的随机参数化方法，本文所构建KNN图在很写为大程度上可以保证数据的先验性质，同时使模型 I+),-yl (15) 具有解释性。在步骤5)中，将CNN模型的特征与GCN模型的特征进行融合，可以看作二者之间在构建样本的隐含关系函数时，CNN模型不的相互约束过程，对于卷积特征不够清晰且明确具有建模样本间关系的能力，因此需依靠GCN模的样本可以通过GCN的关系特征进行补充，从而型来捕捉这些信息，因此对于(14)而言，结合式提升泛化性能。SCUTTLE模型的训练方法流程 (8)或(10)可得

Z (L ′′) a (L ′ ) L ′ 的关系特征和样本特征相结合得到样本的预测标签分布，这里假设 CNN 模型共有层，表示如下： yˆ = softmax(Z (L ′′′) + H (L ′ ) ) (12) 5）计算模型最终的损失函数： LCNN_GCN = 1 N ∑N n=1 L(by (n)，y (n) ) (13) 2.4.2 SCUTTLE 模型的训练算法描述 N Nbatch Nlable × N Nbatch 设训练样本总数为 N，每个批次的样本数量也即 batch_size 设定为 Nbatch，则批次数量为，设每批次标记样本数量为 Nlable，此时计算得到标记样本总数为，后续提到的所有标记样本数量皆通过上式计算得到。算法 1 SCUTTLE 模型训练方法输入 N 个样本 X = (x1, x2,··· , xN) 以及 Nlable 个样本的标签。输出 N 个样本的预测标签值。 1) 随机初始化 SCUTTLE 模型的网络参数。 N Nbatch 2) 将全部样本作数据预处理且随机打乱顺序，同时设定样本批次数量为，且设定每批次标记样本数量为 Nlable，epoch 数量为 e。 3) 将第一个批次的 Nbatch 个样本输入 CNN 模型中进行正向传播。 4) 随机挑选步骤 3) 中 CNN 的任一隐层输出特征作为 KNN 图的输入，再经过 GCN 模型进行正向传播。 5) 步骤 3)~4) 属于并行前向传播，在两个模型最后输出层通过式 (12) 进行特征融合并计算损失值，此时的损失值只包括步骤 2) 中提前设定好的 Nlable 个样本的损失，同时通过梯度反向传播优化模型参数。 6) 测试模型精度。 N Nbatch 7) 将步骤 3)~6) 循环次，为全部样本一次迭代。 8) 步骤 3)~7) 循环 e 次，直至模型收敛。上述算法即为 SCUTTLE 模型的批量训练算法，从步骤 4) 中可知，SCUTTLE 融合算法对于任一批量的样本都会建立 KNN 图，相较于其他算法的随机参数化方法，本文所构建 KNN 图在很大程度上可以保证数据的先验性质，同时使模型具有解释性。在步骤 5) 中，将 CNN 模型的特征与 GCN 模型的特征进行融合，可以看作二者之间的相互约束过程，对于卷积特征不够清晰且明确的样本可以通过 GCN 的关系特征进行补充，从而提升泛化性能。SCUTTLE 模型的训练方法流程图如图 2 所示。 SCUTTLE 模型参数初始化数据集预处理，设置批次数量、每批次样本数 Nbatch、每批次标记样本数、迭代次数等超参数将一个批次 Nbatch 个样本传入 CNN 网络中正向训练只计算 Nlable 个标记样本损失值并进行梯度反向传播全部样本训练完毕 Y Y N N SCUTTLE 模型精度测试挑选 CNN 任一隐层的输出作为 KNN 的输入 KNN+GCN 模型进行样本隐含关系特征提取将 GCN 的输出结果与 CNN 的输出结果进行融合操作 SCUTTLE 模型收敛开始结束图 2 SCUTTLE 模型训练方法流程图 Fig. 2 Flow chart of SCUTTLE model training method 2.4.3 SCUTTLE 模型的关系函数解释对于常见的半监督学习模型（包括引言和相关工作中提到的），其优化目标函数为 min W ∑L i ∥ f(xi)−yi∥ 2 + ∑L+U i, j L(f(xi , xj ,Wi j) (14) Wi j L U 式中：即为表示相邻两个样本间的关系参数；表示标签样本；表示无标签样本。为了后续表述的方便，将式 (14) 中的两项分别记为 (141 ) 与 (142 )。(141 ) 为标签样本的损失函数，(142 ) 为反映样本隐含关系的函数。根据前两小节所述的建模流程，CNN 与 GCN 模型都利用标签样本的标签信息来构建监督信息的损失函数，因此 (141 ) 可以写为 ∑L i ||(fcnn + fgcn) i −yi ||2 (15) 在构建样本的隐含关系函数时，CNN 模型不具有建模样本间关系的能力，因此需依靠 GCN 模型来捕捉这些信息，因此对于 (142 ) 而言，结合式 (8) 或 (10)，可得第 17 卷智能系统学报 ·890·

·891· 刘威，等：融合关系特征的半监督图像分类方法研究第5期 f(X,W)=fn(X.W)=D-AD-XWgen (16) 3.1数据集以及实验环境对于式(16)中，任意两个样本间的关系又可为了验证半监督融合模型的有效性，模型需以表示为要在已知的一些公开数据集上进行测试并且给出对应的实验结果。本节介绍将要进行测试的4种 fx,W）= (17) EN(DaDi 数据集：NIST、CIFAR10、CIFAR100、SVHN。令R= A 由于众多研究者对于MNIST、CIFAR10、CIFAR1000 等常用图像数据集较为熟悉，关于它们的详细信 V历VDi 息这里不再赘述，下面主要介绍SVHN数据集以其中，N)表示第i个样本的邻居节点。由式(17) 及各数据集之间属性的对比。可以看出，相邻样本间的关系由R以及参数W来 SVHN:该数据集摘自Google街景图像中门牌度量，W为模型需要学习的参数，实际值应当由号码，共包括73257张训练图像和26032张测试所训练的样本集来确定；而R,可以看作某种先验图像，每张图像像素为32x32的彩色图像。MNIST 信息。数据集不同的是，每张图像中包含多个手写体数从式中可以看出，对于给定的某个节点，A 字。相比MNIST数据集，识别难度有所增加。和D:是确定的，当邻居节点的度D较大时，R较后续全部实验所用软硬件环境为：Intel(R) 小；当邻居节点的度D较小时，R较大；换言之， Core(TM)i7-6850KCPU@3.60GHz处理器，关系函数对于度较小的邻居分配较大的权值，对 NVIDIA GeForce GTX1080Ti12GB显卡，12GB内于度较大的邻居分配较小的权值。再结合视觉模存，操作系统为CentOS7.8.2003(Core),编程语言型特征进行分析，假设习得的特征图不能很好地为Python3.7,深度学习框架为Pytorchl..4。将不同类别分隔开，对应关系函数可以理解为，表14种数据集的属性信息一个节点的邻居节点度较小，此时关系函数会赋 Table 1 Attribute information of four datasets 予这些节点较大的权重，以致于不丢失这部分信名称样本数训练集测试集类别息，这样无论是好的特征图还是差的特征图，关 MNIST 70000 60000 10000 10 系函数总可以将他们的信息相融合，进而增强融 CIFARI0 60000 50000 10000 10 合模型的泛化能力。 CIFAR100 60000 50000 10000 100 2.4.4 SCUTTLE模型的复杂度分析设N为输入模型的样本数量，CNN模型第 SVHN 99289 73257 26032 10 1个卷积层的输出z的维度为M,卷积核维度为 3.2 SCUTTLE模型（三层CNN-GCN)性能分析 K,上一层的输出通道数为F-1,全连接层的第I层 3.2.1实验模型神经元数量为C,则CNN模型的时间复杂度为由于本文所提模型是CNN模型与GCN模型式(3)在构建的融合模型，有必要设置横向对比实验来说明融合模型的有效性。鉴于2.4节所述的模型融合方 KNN图时采用KD树算法2OI可以将时间复杂度法，在将二者融合时需要考虑如下问题：GCN模降为ONog3Mi),GCN模型第l层卷积W维型应该与CNN模型哪一层的特征图相连接。度为Md1,因此式(10)的时间复杂度为为了公平对比两种模型融合的不同方式所产 oN∑2M+MMdd 所以模型的总时间复杂生的模型性能，本文设计了简单的三层CNN(隐层通道数：128-256-512，卷积核大小：3×3)与单层度为ON M.KF-+C Nlog3M+ GCN的融合模型。因此对比的模型共有以下 N∑2Mi+MMd- 5种结构（一个监督学习的基准模型和4个半监由此可知，本文所提模型督学习融合模型)：CNN、CNN-O-GCN、CNN-l- 的时间复杂度与输入模型的样本数量之间均为线 GCN、CNN-2-GCN、CNN-3-GCN,分别代表监督性关系。模型、GCN与CNN的输人层相连接、GCN与 3数值实验与结果分析 CNN第1层卷积相连接、GCN与CNN第2层卷积相连接、GCN与CNN第3层卷积相连接。为了更好地测试和分析半监督融合模型的泛 3.2.2实验设置化能力，本文采用数值实验的方式对模型进行性本节实验数据集划分与Jiang等u的划分类能评估。似，分别从4类数据集的训练样本中随机取10000

f(X,W) = fgcn(X,W) = D˜ − 1 2 A˜ D˜ − 1 2 XWgcn (16) 对于式 (16) 中，任意两个样本间的关系又可以表示为 f(xi , xj ,Wi j) = ∑ j∈N(i) A˜ i j √ D˜ ii √ D˜ j j xi jWi j (17) 令Ri j= A˜ i j √ D˜ ii √ D˜ j j N(i) Ri j Wi j Wi j Ri j 其中，表示第 i 个样本的邻居节点。由式 (17) 可以看出，相邻样本间的关系由以及参数来度量，为模型需要学习的参数，实际值应当由所训练的样本集来确定；而可以看作某种先验信息。 A˜ i j D˜ ii D˜ j j Ri j D˜ j j Ri j 从式中可以看出，对于给定的某个节点，和是确定的，当邻居节点的度较大时，较小；当邻居节点的度较小时，较大；换言之，关系函数对于度较小的邻居分配较大的权值，对于度较大的邻居分配较小的权值。再结合视觉模型特征进行分析，假设习得的特征图不能很好地将不同类别分隔开，对应关系函数可以理解为，一个节点的邻居节点度较小，此时关系函数会赋予这些节点较大的权重，以致于不丢失这部分信息，这样无论是好的特征图还是差的特征图，关系函数总可以将他们的信息相融合，进而增强融合模型的泛化能力。 2.4.4 SCUTTLE 模型的复杂度分析 z (l) Ml Kl Fl−1 l ′ Cl ′ O   N   ∑ l MlKlFl−1 + ∑ l ′ Cl ′−1Cl ′     O(Nlog3Mℓ+1) ℓ W(ℓ−1) gcn Mldℓ−1 O   N ∑ ℓ 2(Ml + MlMldℓ−1)   O   N   ∑ l MlKlFl−1 + ∑ l ′ Cl ′−1Cl ′   Nlog3Mℓ+1 ∑ ℓ 2(Ml + MlMldℓ−1)   设 N 为输入模型的样本数量，CNN 模型第 l 个卷积层的输出的维度为，卷积核维度为，上一层的输出通道数为，全连接层的第层神经元数量为，则 CNN 模型的时间复杂度为，式 ( 3 ) 在构建 KNN 图时采用 KD 树算法[20] 可以将时间复杂度降为， GCN 模型第层卷积维度为，因此式 (10 ) 的时间复杂度为，所以模型的总时间复杂度为 + + N 。由此可知，本文所提模型的时间复杂度与输入模型的样本数量之间均为线性关系。 3 数值实验与结果分析为了更好地测试和分析半监督融合模型的泛化能力，本文采用数值实验的方式对模型进行性能评估。 3.1 数据集以及实验环境为了验证半监督融合模型的有效性，模型需要在已知的一些公开数据集上进行测试并且给出对应的实验结果。本节介绍将要进行测试的 4 种数据集：MNIST、CIFAR10、CIFAR100、SVHN。由于众多研究者对于 MNIST、CIFAR10、CIFAR100 等常用图像数据集较为熟悉，关于它们的详细信息这里不再赘述，下面主要介绍 SVHN 数据集以及各数据集之间属性的对比。 × SVHN：该数据集摘自 Google 街景图像中门牌号码，共包括 73 257 张训练图像和 26 032 张测试图像，每张图像像素为 32 32 的彩色图像。MNIST 数据集不同的是，每张图像中包含多个手写体数字。相比 MNIST 数据集，识别难度有所增加。后续全部实验所用软硬件环境为：Intel（R） Core（TM） i7-6850K CPU@3.60GHz 处理器， NVIDIA GeForce GTX 1080Ti 12GB 显卡，12GB 内存，操作系统为 CentOS 7.8.200 3(Core)，编程语言为 Python3.7，深度学习框架为 Pytorch1.4。表 1 4 种数据集的属性信息 Table 1 Attribute information of four datasets 名称样本数训练集测试集类别 MNIST 70 000 60000 10000 10 CIFAR10 60 000 50000 10000 10 CIFAR100 60 000 50000 10000 100 SVHN 99 289 73257 26032 10 3.2 SCUTTLE 模型 (三层 CNN-GCN) 性能分析 3.2.1 实验模型由于本文所提模型是 CNN 模型与 GCN 模型的融合模型，有必要设置横向对比实验来说明融合模型的有效性。鉴于 2.4 节所述的模型融合方法，在将二者融合时需要考虑如下问题：GCN 模型应该与 CNN 模型哪一层的特征图相连接。为了公平对比两种模型融合的不同方式所产生的模型性能，本文设计了简单的三层 CNN（隐层通道数：128-256-512，卷积核大小：3×3）与单层 GCN 的融合模型。因此对比的模型共有以下 5 种结构（一个监督学习的基准模型和 4 个半监督学习融合模型）：CNN、CNN-0-GCN、CNN-1- GCN、CNN-2-GCN、CNN-3-GCN，分别代表监督模型、GCN 与 CNN 的输入层相连接、GCN 与 CNN 第 1 层卷积相连接、GCN 与 CNN 第 2 层卷积相连接、GCN 与 CNN 第 3 层卷积相连接。 3.2.2 实验设置本节实验数据集划分与 Jiang 等 [11] 的划分类似，分别从 4 类数据集的训练样本中随机取 10000 ·891· 刘威，等：融合关系特征的半监督图像分类方法研究第 5 期

第17卷智能系统学报 ·892· 个样本进行训练，与Jiang等不同的是，本文的 1000个样本作为标记样本，剩余的9500、9250、 10000个样本是随机选取，并没有针对每类样本 9000个样本作为无标记样本。的均衡性进行选择，其次没有设置验证集，而是在实验过程中，对3.2.1节提到的5种模型直接在数据集的测试集上进行测试。其中，对于均采用Adam优化器进行优化，且KNN图的K值 MNIST、CIFAR10、CIFAR100从10000个样本中设定为经验值4，设置初始学习率为0.0001，整个随机选取1000、2000、3000个样本作为标记样本，模型训练300次epochs,且进行10次相同的实剩余的9000、8000、7000个样本作为无标记样本。验，将这10次实验结果的均值和标准差记录在对于SVHN,从10000个训练样本中选取500、750、表2中。表2五种模型在四种数据集上的分类精度 Table 2 Classification accuracy of five models on four datasets 分类精度/% 数据集样本数量 CNN(监督) CNN-0-GCN CNN-1-GCN CNN-2-GCN CNN-3-GCN 1000 99.34±0.07 99.26±0.02 99.26±0.03 99.25±0.05 MNIST 2000 99.41±0.02 99.38±0.05 99.30±0.04 99.23±0.01 99.27±0.06 3000 99.40±0.03 99.33±0.01 99.24±0.07 99.35±0.01 1000 79.73±0.13 79.40±0.12 79.06±0.43 76.56±0.19 CIFAR10 2000 74.21±0.32 79.93±0.31 80.07±0.34 79.53±0.22 79.26±0.16 3000 80.48±0.15 80.47±0.21 80.04±0.13 79.95±0.10 500 90.07±0.24 89.67±0.08 89.57±0.10 89.74±0.23 SVHN 750 84.46±0.27 89.94±0.20 89.44±0.12 89.45±0.40 89.61±0.13 1000 89.88±0.09 89.34±0.07 89.52±0.22 89.34±0.16 1000 49.94±0.02 49.35±0.13 49.72±0.09 49.63±0.08 CIFAR100 2000 47.72±0.31 50.98±0.12 49.74±0.25 50.21±0.21 50.82±0.17 3000 52.03±0.06 51.42±0.04 51.19±0.12 51.4440.15 3.2.3实验结果分析单张图像中不仅包含了要识别的数字信息，还包分析表2实验结果，可得如下结论：括数字的边缘、门框、阳光产生的阴影等无关信 1)对比4种半监督融合模型与CNN监督模息的干扰，但是添加了GCN模型的融合模型，相型的精度值，对于CIFAR10、CIFAR1O0、SVHN数反并没有受到这些冗余信息的影响，相反较少的据集，4种融合模型均可在CNN分类精度的基础标记样本实现了较高的精度提升，再次说明了本上提升5%~6%，说明本文所提融合模型是一种有文所提模型具有极好的泛化性能。效的且分类泛化性能较好的模型。 3.24融合模型的特征图可视化 2)单独对比4种融合模型的实验结果，总体为了进一步验证融合模型的有效性，本节对上模型之间的精度相差不大，但是CNN-0-GCN CNN和CNN-O-GCN、CNN-1-GCN、CNN-2-GCN 是融合模型中表现最突出的，说明将GCN连接 CNN-3-GCN等模型的特征图进行可视化分析，到CNN卷积层之后会对模型整体的性能产生轻从CFAR10数据集中取了3类标签的样本（分别微的影响，但是与监督学习的CNN相比融合模型是马、卡车、鸟)进行可视化，如图3所示。表中的精度提升效果还是比较显著的。从左到右的4列分别展示了4种不同的卷积核 3)通过对单个数据集的4种融合模型的实验对应的特征图，其中每列从左至右依次为不同迭结果进行对比，MNIST、CIFAR10、CIFAR100 代次数下的可视化输出结果。从上到下每5行为中随着标记样本的数量减少，模型的分类精度均一类样本的可视化结果，每类样本的第1行为CNN 呈现逐渐递减的趋势，但是对于SVHN数据集，模型特征输出结果，第2行为CNN-O-GCN的可视随着标记样本数量的减少，模型分类泛化性能反化输出结果，CNN-1-GCN、CNN-2-GCN等以此而有所提高。考虑到SVHN数据集2)的特殊性，类推

个样本进行训练，与 Jiang 等不同的是，本文的 10 000 个样本是随机选取，并没有针对每类样本的均衡性进行选择，其次没有设置验证集，而是直接在数据集的测试集上进行测试。其中，对于 MNIST、CIFAR10、CIFAR100 从 10 000 个样本中随机选取 1000、2000、3000 个样本作为标记样本，剩余的 9000、8000、7000 个样本作为无标记样本。对于 SVHN，从 10000 个训练样本中选取 500、750、 1 000 个样本作为标记样本，剩余的 9 500、9 250、 9000 个样本作为无标记样本。在实验过程中，对 3.2.1 节提到的 5 种模型均采用 Adam 优化器进行优化，且 KNN 图的 K 值设定为经验值 4，设置初始学习率为 0.000 1，整个模型训练 300 次 epochs，且进行 10 次相同的实验，将这 10 次实验结果的均值和标准差记录在表 2 中。表 2 五种模型在四种数据集上的分类精度 Table 2 Classification accuracy of five models on four datasets 数据集样本数量分类精度/% CNN(监督) CNN-0-GCN CNN-1-GCN CNN-2-GCN CNN-3-GCN MNIST 1 000 99.41±0.02 99.34±0.07 99.26±0.02 99.26±0.03 99.25±0.05 2000 99.38±0.05 99.30±0.04 99.23±0.01 99.27±0.06 3 000 99.40±0.03 99.33±0.01 99.24±0.07 99.35±0.01 CIFAR10 1 000 74.21±0.32 79.73±0.13 79.40±0.12 79.06±0.43 76.56±0.19 2000 79.93±0.31 80.07±0.34 79.53±0.22 79.26±0.16 3 000 80.48±0.15 80.47±0.21 80.04±0.13 79.95±0.10 SVHN 500 84.46±0.27 90.07±0.24 89.67±0.08 89.57±0.10 89.74±0.23 750 89.94±0.20 89.44±0.12 89.45±0.40 89.61±0.13 1 000 89.88±0.09 89.34±0.07 89.52±0.22 89.34±0.16 CIFAR100 1 000 47.72±0.31 49.94±0.02 49.35±0.13 49.72±0.09 49.63±0.08 2000 50.98±0.12 49.74±0.25 50.21±0.21 50.82±0.17 3 000 52.03±0.06 51.42±0.04 51.19±0.12 51.44±0.15 3.2.3 实验结果分析分析表 2 实验结果，可得如下结论： 1）对比 4 种半监督融合模型与 CNN 监督模型的精度值，对于 CIFAR10、CIFAR100、SVHN 数据集，4 种融合模型均可在 CNN 分类精度的基础上提升 5%~6%，说明本文所提融合模型是一种有效的且分类泛化性能较好的模型。 2）单独对比 4 种融合模型的实验结果，总体上模型之间的精度相差不大，但是 CNN-0-GCN 是融合模型中表现最突出的，说明将 GCN 连接到 CNN 卷积层之后会对模型整体的性能产生轻微的影响，但是与监督学习的 CNN 相比融合模型的精度提升效果还是比较显著的。 3）通过对单个数据集的 4 种融合模型的实验结果进行对比，MNIST、CIFAR10、CIFAR100 中随着标记样本的数量减少，模型的分类精度均呈现逐渐递减的趋势，但是对于 SVHN 数据集，随着标记样本数量的减少，模型分类泛化性能反而有所提高。考虑到 SVHN 数据集[21] 的特殊性，单张图像中不仅包含了要识别的数字信息，还包括数字的边缘、门框、阳光产生的阴影等无关信息的干扰，但是添加了 GCN 模型的融合模型，相反并没有受到这些冗余信息的影响，相反较少的标记样本实现了较高的精度提升，再次说明了本文所提模型具有极好的泛化性能。 3.2.4 融合模型的特征图可视化为了进一步验证融合模型的有效性，本节对 CNN 和 CNN-0-GCN、CNN-1-GCN、CNN-2-GCN、 CNN-3-GCN 等模型的特征图进行可视化分析，从 CIFAR10 数据集中取了 3 类标签的样本（分别是马、卡车、鸟）进行可视化，如图 3 所示。表中从左到右的 4 列分别展示了 4 种不同的卷积核对应的特征图，其中每列从左至右依次为不同迭代次数下的可视化输出结果。从上到下每 5 行为一类样本的可视化结果，每类样本的第 1 行为 CNN 模型特征输出结果，第 2 行为 CNN-0-GCN 的可视化输出结果，CNN-1-GCN、CNN-2-GCN 等以此类推。第 17 卷智能系统学报 ·892·

·893· 刘威，等：融合关系特征的半监督图像分类方法研究第5期 050100150200 050100150200 050100150200 050100150200 树 (a)第1类卷积核 (b)第2类卷积核 (c)第3类卷积核 (d第4类卷积核图35种模型在3个样本不同次迭代的特征图对比 Fig.3 Comparison of feature maps of three samples of five models at different iterations 对比图3中每次迭代得到的特征图，CNN-0- 构建SCUTTLE模型过程中GCN模型与CNN模 GCN模型的物体轮廓、清晰度、纹理特征、细腻型哪一层特征图连接的问题、SCUTTLE自身泛程度相比于其他模型都有很大优势。以样本类别化性能等问题做出了深入研究。实验结果表明：为马的第一类卷积核对应的特征图为例，CNN模 1)CNN-O-GCN模型相比于其他融合模型具有较型将图像上边缘的深黑色背景特征也提取出来，好的泛化性能；2)特征图可视化结果同时也证明这样使得特征图中马的轮廓变的不清晰，而CNN- 了CNN-0-GCN模型的优良性；3)4种融合模型 0-GCN模型中显然将这些冗余特征去除，通过不在4种数据集上的测试结果相较于CNN模型有同的灰度值，清晰地将马的轮廓显现出来。明显提升。研究结果充分证明本文所提SCUTTLE 同样地.还是以样本类别是马的特征图为例，模型是一种良好的半监督分类模型。通过观察会发现，CNN-0-GCN模型对应的第50 3.3 SCUTTLE模型(VGG-GCN)性能分析次迭代的特征图无论是清晰度还是纹理特征相比 3.3.1实验内容与实验设置于CNN要差很多，但是50次迭代之后，马的轮廓 1)为了进一步验证SCUTTLE模型的泛化性以及图像的细腻程度明显好转，而且变的比50次能，本节将三层卷积模型替换为VGG模型2，分迭代之前的特征更清晰，再一次证明了融合模型别将VGG11、VGG13、VGG16、VGG19与GCN融具有很好的泛化性能。合在3.1节的4种数据集上测试其泛化性能，并此外，通过对比CNN-O-GCN与其他3种融将实验结果记录在图4中。合模型的特征图，发现CNN-0-GCN的特征图效 2)设置消融实验来研究各个模型在融合模型果依然优于其他3种模型。以鸟的特征图为例，中所起作用。在图4中，用4幅图表示所测试的其余3种融合模型的前150次迭代图中均有明显 4种数据集，虚线部分表示单独的VGG模型实验的噪声值：迭代到200次后，特征图的效果才有结果；红色虚线表示单独的GCN模型结果；而实提升。其余两类样本的特征图对比情况不再详细线部分表示SCUTTLE模型的结果，通过对比虚分析。线结果与实线结果的差异，即可分析单一VGG 本节从数值实验、特征图可视化两个方面对模型与SCUTTLE各模型之间的性能差异

0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 (a) 第 1 类卷积核 (b) 第 2 类卷积核 (c) 第 3 类卷积核 (d) 第 4 类卷积核图 3 5 种模型在 3 个样本不同次迭代的特征图对比 Fig. 3 Comparison of feature maps of three samples of five models at different iterations 对比图 3 中每次迭代得到的特征图，CNN-0- GCN 模型的物体轮廓、清晰度、纹理特征、细腻程度相比于其他模型都有很大优势。以样本类别为马的第一类卷积核对应的特征图为例，CNN 模型将图像上边缘的深黑色背景特征也提取出来，这样使得特征图中马的轮廓变的不清晰，而 CNN- 0-GCN 模型中显然将这些冗余特征去除，通过不同的灰度值，清晰地将马的轮廓显现出来。同样地，还是以样本类别是马的特征图为例，通过观察会发现，CNN-0-GCN 模型对应的第 50 次迭代的特征图无论是清晰度还是纹理特征相比于 CNN 要差很多，但是 50 次迭代之后，马的轮廓以及图像的细腻程度明显好转，而且变的比 50 次迭代之前的特征更清晰，再一次证明了融合模型具有很好的泛化性能。此外，通过对比 CNN-0-GCN 与其他 3 种融合模型的特征图，发现 CNN-0-GCN 的特征图效果依然优于其他 3 种模型。以鸟的特征图为例，其余 3 种融合模型的前 150 次迭代图中均有明显的噪声值；迭代到 200 次后，特征图的效果才有提升。其余两类样本的特征图对比情况不再详细分析。本节从数值实验、特征图可视化两个方面对构建 SCUTTLE 模型过程中 GCN 模型与 CNN 模型哪一层特征图连接的问题、SCUTTLE 自身泛化性能等问题做出了深入研究。实验结果表明： 1) CNN-0-GCN 模型相比于其他融合模型具有较好的泛化性能；2) 特征图可视化结果同时也证明了 CNN-0-GCN 模型的优良性；3) 4 种融合模型在 4 种数据集上的测试结果相较于 CNN 模型有明显提升。研究结果充分证明本文所提 SCUTTLE 模型是一种良好的半监督分类模型。 3.3 SCUTTLE 模型 (VGG-GCN) 性能分析 3.3.1 实验内容与实验设置 1）为了进一步验证 SCUTTLE 模型的泛化性能，本节将三层卷积模型替换为 VGG 模型[22] ，分别将 VGG11、VGG13、VGG16、VGG19 与 GCN 融合在 3.1 节的 4 种数据集上测试其泛化性能，并将实验结果记录在图 4 中。 2）设置消融实验来研究各个模型在融合模型中所起作用。在图 4 中，用 4 幅图表示所测试的 4 种数据集，虚线部分表示单独的 VGG 模型实验结果；红色虚线表示单独的 GCN 模型结果；而实线部分表示 SCUTTLE 模型的结果，通过对比虚线结果与实线结果的差异，即可分析单一 VGG 模型与 SCUTTLE 各模型之间的性能差异。 ·893· 刘威，等：融合关系特征的半监督图像分类方法研究第 5 期

第17卷智能系统学报 ·894· -。-GCN-。-VGG11--VGG13 -.-VGG16-.-VGG19 3)实验设置：本节的所有模型对于标记样本 ◆VGG11-0-GCN -VGG13-0-GCN 的选取都与3.2.2节所述相同。此外，超参数的设 VGG16-0-GCN -VGG19-0-GCN 100 置也与3.2.2节相同。下面首先对4种融合模型实验结果进行分析。 96 3.3.2实验结果分析 1)4种SCUTTLE模型的泛化性能分析 SCUTTLE模型在4种数据集上的数值实验 92 结果见图4。为了公平地对比每种模型的泛化性能，实验中设置4种SCUTTLE模型的参数都相 10 1250 同，因此在CIFAR100上的实验结果只作为对比结果而不作为最佳精度。通过分析表中结果，可标记样本的数量 (a)MNIST 得如下结论： 90 ①对比MNIST数据集的4种融合模型的实 80 验结果，VGG13-0-GCN获得最佳精度值；对比CI- FAR10数据集，当标记样本数量为1000、2000时在VGG11-0-GCN中获得最佳精度，而当标记样 60 本为3000时，在VGG13-0-GCN上得到最佳精 50 度。因此对VGG-GCN的融合模型而言，并没有所谓的最优模型，不同模型在不同数量的标记样本下会呈现出不同的结果。 ②对比4种融合模型各自在不同数量标记样标记样本的数量本的结果，随着标记样本数量的增加，大部分模 (b)CIFAR10 型的精度呈现上升趋势，而对于VGG11-0-GCN 在CIFAR10数据集的标记样本数量为3000时，模型性能有所下降。此外，MNST数据集随着标 20 记样本数量的增加，4种融合模型的精度只有小范围的提升；而CIFAR10,VGG13-0-GCN、VGG16- 0-GCN、VGG19-0-GCN随着标记样本数量的增加，模型精度提升幅度较大。综上所述，采用VGG11 0-GCN作为CFAR10的半监督学习模型，只用1000 个样本即可达到较高的精度。而其余两个数据集标记样本的数量仍可得出类似结论。 (c)CIFAR100 100 以上只是对4种融合模型的实验结果进行简 % 单地概括，为了充分说明模型的有效性，还需设置消融实验，分析VGG模型与GCN模型在融合 70 模型中的作用效果。 60 50 2)消融实验结果分析 40 在4种数据集上，分别设置了VGG11、VGG13 吃 VGG16、VGG19、GCN5种模型，得到的实验结果 20 也记录在图4中，通过对比图中实线与虚线之间 10 500 600700800 9001000 的差值即可分析VGG模型与融合模型的性能差标记样本的数量 (d)SVHN 异。通过对比分析，可得如下结论： ①对比图中单一GCN的实验结果，只有在图4VGG、SCUTTLE模型在4种数据集上的精度折线图 Fig.4 Accuracy line graphs of VGG and SCUTTLE on MNIST数据集上精度较高，在其余3种数据集上 four datasets 的精度都无法与CNN模型相比较，因此本节并没

100 98 96 94 92 90 88 1 000 1 250 1 500 1 750 2 000 2 250 2 500 2 750 3 000 测试精度/% 标记样本的数量 90 100 80 70 60 50 20 10 30 40 500 600 700 800 900 1 000 测试精度/% 标记样本的数量 80 90 70 60 50 40 1 000 1 250 1 500 1 750 2 000 2 250 2 500 2 750 3 000 测试精度/% 标记样本的数量 25 30 20 15 5 10 1 000 1 250 1 500 1 750 2 000 2 250 2 500 2 750 3 000 测试精度/% 标记样本的数量 GCN VGG11 VGG13 VGG19 VGG11-0-GCN VGG16 VGG13-0-GCN VGG16-0-GCN VGG19-0-GCN (a) MNIST (b) CIFAR10 (c) CIFAR100 (d) SVHN 图 4 VGG、SCUTTLE 模型在 4 种数据集上的精度折线图 Fig. 4 Accuracy line graphs of VGG and SCUTTLE on four datasets 3）实验设置：本节的所有模型对于标记样本的选取都与 3.2.2 节所述相同。此外，超参数的设置也与 3.2.2 节相同。下面首先对 4 种融合模型实验结果进行分析。 3.3.2 实验结果分析 1) 4 种 SCUTTLE 模型的泛化性能分析 SCUTTLE 模型在 4 种数据集上的数值实验结果见图 4。为了公平地对比每种模型的泛化性能，实验中设置 4 种 SCUTTLE 模型的参数都相同，因此在 CIFAR100 上的实验结果只作为对比结果而不作为最佳精度。通过分析表中结果，可得如下结论： ①对比 MNIST 数据集的 4 种融合模型的实验结果，VGG13-0-GCN 获得最佳精度值；对比 CIFAR10 数据集，当标记样本数量为 1 000、2 000 时在 VGG11-0-GCN 中获得最佳精度，而当标记样本为 3 000 时，在 VGG13-0-GCN 上得到最佳精度。因此对 VGG-GCN 的融合模型而言，并没有所谓的最优模型，不同模型在不同数量的标记样本下会呈现出不同的结果。 ②对比 4 种融合模型各自在不同数量标记样本的结果，随着标记样本数量的增加，大部分模型的精度呈现上升趋势，而对于 VGG11-0-GCN 在 CIFAR10 数据集的标记样本数量为 3 000 时，模型性能有所下降。此外，MNIST 数据集随着标记样本数量的增加，4 种融合模型的精度只有小范围的提升；而 CIFAR10，VGG13-0-GCN、VGG16- 0-GCN、VGG19-0-GCN 随着标记样本数量的增加，模型精度提升幅度较大。综上所述，采用 VGG11- 0-GCN 作为 CIFAR10 的半监督学习模型，只用 1000 个样本即可达到较高的精度。而其余两个数据集仍可得出类似结论。以上只是对 4 种融合模型的实验结果进行简单地概括，为了充分说明模型的有效性，还需设置消融实验，分析 VGG 模型与 GCN 模型在融合模型中的作用效果。 2）消融实验结果分析在 4 种数据集上，分别设置了 VGG11、VGG13、 VGG16、VGG19、GCN 5 种模型，得到的实验结果也记录在图 4 中，通过对比图中实线与虚线之间的差值即可分析 VGG 模型与融合模型的性能差异。通过对比分析，可得如下结论： ①对比图中单一 GCN 的实验结果，只有在 MNIST 数据集上精度较高，在其余 3 种数据集上的精度都无法与 CNN 模型相比较，因此本节并没第 17 卷智能系统学报 ·894·

·895· 刘威，等：融合关系特征的半监督图像分类方法研究第5期有计算GCN与融合模型的分类精度差值。 88r ②对比虚线与实线之间的差异，几乎所有模 86 型在不同数量的标记样本上都实现了性能提升， 84 再次验证了本文所提融合模型的有效性，而所提心升的幅度在不同数据集上自然呈现出不同的特 80 点，对MNIST数据集，融合模型提升的精度值在 78 --ResNet18 1%内；对CIFAR10数据集，当标记样本数量较少 76 ◆ResNet1&-GCN -4-ResNet32 时，提升幅度较大，而当标记样本数量较多时，反 74 ResNet32-GCN 而提升幅度较小，此结论验证了CNN模型只有在 500 大量标记样本的前提下才能取得不错的精度，当 1000 标记样本的数量只有少量标记样本时，其性能急剧下降。因此融 (a)CIFAR10 合模型在少样本上的性能较单一模型的性能更 100 优，充分说明了融合模型在半监督图像分类任务 95 方向上的优越性。而对于CIFAR1O0以及SVHN 亦可得到类似的结论。 90 本节从数值实验的角度对VGG与GCN的融 85 -●-ResNetl8 合模型性能进行分析。与前一节实验的结果对 ◆ResNet1&-GCN 比可知三层CNN的融合模型与VGG的融合模 80 -ResNet32 ResNet32-GCN 型在性能上的差异较小，甚至在CIFAR100数据 75 集上无论是VGG还是融合模型的性能都出现 500 急剧下降的现象。所谓更深的模型有更好的性标记样本的数量能，只是从理论的角度而言，但是实践中还应另 (b)SVHN 6 当别论。 60 注意：后续所有模型都是将GCN与输入层进行连接，所以在命名时去掉了表示输入层的数字0。 3.4 SCUTTLE模型(ResNet、DenseNet-.GCN)性 50 能分析 -ResNet18 45 -ResNet18-GCN 3.4.1实验内容与实验设置 -4-ResNet32 40 ResNet32-GCN 1)本节选取ResNet18、ResNet3.2、DenseNet-40、 DenseNet100与GCN融合进行实验，且在CIFAR10、 500 400 SVHN、CIFAR1O0、STL10数据集上给出对应的实标记样本的数量验结果。 (c)CIFAR100 15 2)本节实验设置与前两节稍有不同，本节中 70 对每个数据集均采用全部的训练集进行训练，且 65 设定CIFAR10、CIFAR1O0、SVHN中的标记样本 60 数量为500、1000、2000、4000，STL10中的标记样 ★ 本数量为250、500、750、1000。以CIFAR10为例， 50 --ResNet18 在全部的50000个训练样本中挑选500、1000、 45 ResNet18-GCN -4-ResNet32 2000、4000个样本作为标记样本，剩余49500、 40 ResNet32-GCN 49000、48000、46000个样本为无标记样本进行 35 SCUTTLE模型的性能测试。此外超参数的设置心、标记样本的数量与前两节相同。 (d)STL1O 3.4.2 ResNet-GCN融合模型的实验结果分析图5 ResNet18-GCN、ResNet32-GCN在4种数据集上的图5中的4幅图是在ResNet与GCN融合模精度折线图型上测试的实验结果，图例中的ResNet18、Res- Fig.5 Accuracy line graphs of ResNet18-GCN and Res- Net32均指监督学习的精度折线。 Net32-GCN on four datasets

有计算 GCN 与融合模型的分类精度差值。 ②对比虚线与实线之间的差异，几乎所有模型在不同数量的标记样本上都实现了性能提升，再次验证了本文所提融合模型的有效性，而所提升的幅度在不同数据集上自然呈现出不同的特点，对 MNIST 数据集，融合模型提升的精度值在 1% 内；对 CIFAR10 数据集，当标记样本数量较少时，提升幅度较大，而当标记样本数量较多时，反而提升幅度较小，此结论验证了 CNN 模型只有在大量标记样本的前提下才能取得不错的精度，当只有少量标记样本时，其性能急剧下降。因此融合模型在少样本上的性能较单一模型的性能更优，充分说明了融合模型在半监督图像分类任务方向上的优越性。而对于 CIFAR100 以及 SVHN 亦可得到类似的结论。本节从数值实验的角度对 VGG 与 GCN 的融合模型性能进行分析。与前一节实验的结果对比可知三层 CNN 的融合模型与 VGG 的融合模型在性能上的差异较小，甚至在 CIFAR100 数据集上无论是 VGG 还是融合模型的性能都出现急剧下降的现象。所谓更深的模型有更好的性能，只是从理论的角度而言，但是实践中还应另当别论。注意：后续所有模型都是将 GCN 与输入层进行连接，所以在命名时去掉了表示输入层的数字 0。 3.4 SCUTTLE 模型 (ResNet、DenseNet-GCN) 性能分析 3.4.1 实验内容与实验设置 1）本节选取 ResNet18、ResNet32、DenseNet40、 DenseNet100 与 GCN 融合进行实验，且在 CIFAR10、 SVHN、CIFAR100、STL10 数据集上给出对应的实验结果。 2）本节实验设置与前两节稍有不同，本节中对每个数据集均采用全部的训练集进行训练，且设定 CIFAR10、CIFAR100、SVHN 中的标记样本数量为 500、1 000、2000、4 000，STL10 中的标记样本数量为 250、500、750、1 000。以 CIFAR10 为例，在全部的 50 000 个训练样本中挑选 500、1 000、 2000、4 000 个样本作为标记样本，剩余 49 500、 49 000、48 000、46 000 个样本为无标记样本进行 SCUTTLE 模型的性能测试。此外超参数的设置与前两节相同。 3.4.2 ResNet-GCN 融合模型的实验结果分析图 5 中的 4 幅图是在 ResNet 与 GCN 融合模型上测试的实验结果，图例中的 ResNet18、ResNet32 均指监督学习的精度折线。 500 1 000 1 500 2 000 2 500 3 000 3 500 4 000 86 88 84 82 80 76 74 测试精度 78 /% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN 500 1 000 1 500 2 000 2 500 3 000 3 500 4 000 100 95 90 85 80 75 测试精度/% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN 300 400 500 600 700 800 900 1 000 75 70 65 60 50 45 40 35 55 测试精度/% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN 500 1 000 1 500 2 000 2 500 3 000 3 500 4 000 65 55 50 40 45 60 测试精度/% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN (a) CIFAR10 (b) SVHN (c) CIFAR100 (d) STL10 图 5 ResNet18-GCN、ResNet32-GCN 在 4 种数据集上的精度折线图 Fig. 5 Accuracy line graphs of ResNet18-GCN and ResNet32-GCN on four datasets ·895· 刘威，等：融合关系特征的半监督图像分类方法研究第 5 期

点击进入文档下载页（PDF格式）

共14页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录