第17卷第5期 智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202109022 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.tp.20220615.1700.002.html 融合关系特征的半监督图像分类方法研究 刘威2,王薪予日,刘光伟,王东‘,牛英杰 (1.辽宁工程技术大学理学院,辽宁阜新123000:2.辽宁工程技术大学智能工程与数学研究院,辽宁阜新 123000:3.辽宁工程技术大学数学与系统科学研究所,辽宁阜新123000:4.辽宁工程技术大学矿业学院,辽宁 阜新123000) 摘要:半监督深度学习模型具有泛化能力强.所需样本数较少等特点,经过10多年的发展,在理论和实际应 用方面都取得了巨大的进步,然而建模样本内部“隐含”关系时模型缺乏解释性以及构造无监督正则化项难度 较大等问题限制了半监督深度学习的进一步发展。针对上述问题,从丰富样本特征表示的角度出发,构造了一 种新的半监督图像分类模型一融合关系特征的半监督分类模型(semi-supervised classification model fused with relational features,.SCUTTLE),该模型在卷积神经网络模型(convolutional neural networks,CNN)基础上引入了图 卷积神经网络(graph convolutional networks,.GCN),尝试通过GCN模型来提取CNN模型各层的低、高级特征间 的关系,使得融合模型不仅具有特征提取能力,而且具有关系表示能力。通过对SCUTTLE模型泛化性能进行 分析,进一步说明了该模型在解决半监督相关问题时的有效性。数值实验结果表明,三层CNN与一层GCN的 融合模型在CIFAR10、CIFAR1O0、SVHN3种数据集上与CNN监督学习模型的精度相比均可提升5%6%的精 度值,在最先进的ResNet、DenseNet、WRN(wide residual networks)与GCN的融合模型上同样证明了本文所提模 型的有效性。 关键词:关系表示:特征提取:图卷积神经网络:融合模型:半监督学习:图像分类:视觉卷积:泛化性能 中图分类号:TP181文献标志码:A文章编号:1673-4785(2022)05-0886-14 中文引用格式:刘威,王薪予,刘光伟,等.融合关系特征的半监督图像分类方法研究.智能系统学报,2022,17(5): 886-899. 英文引用格式:LIU Wei,,WANG Xinyu,LIU Guangwei,,ctal.Semi-supervised image classification method fused with relational featuresJ CAAI transactions on intelligent systems,2022,17(5):886-899. Semi-supervised image classification method fused with relational features LIU Wei2,WANG Xinyu'3,LIU Guangwei,WANG Dong',NIU Yingjie'3 (1.School of Sciences,Liaoning Technical University,Fuxin 123000,China;2.Institutes of Intelligent Engineering and Mathematics, Liaoning Technical University,Fuxin 123000,China;3.Institute of Mathematics and Systems Science,Liaoning Technical Uni- versity,Fuxin 123000,China;4.School of Mining,Liaoning Technical University,Fuxin 123000,China) Abstract:A semi-supervised deep learning model exhibits great generalization ability with minimal required samples and has made great progress in theory and practical application over the past ten years or so.However,the lack of the model's interpretability when modeling the internal "implicit"relationship of samples and the difficulty in constructing unsupervised regularization items have limited the further development of semi-supervised deep learning.To solve these problems and enrich the sample feature representation,this study has developed a novel semi-supervised model for im- age classification-semi-supervised classification model integrating the relational features(SCUTTLE).The model in- troduces the graph convolutional networks(GCN)based on the convolutional neural networks(CNN)and extracts the relationships between the low-and high-level features of each layer of the CNN model via the GCN model,thus extract- ing features and expressing relationships.By analyzing the generalization performance of the SCUTTLE model,the pa- per further illustrates its effectiveness in solving semi-supervised related problems.The numerical results indicate that the classification accuracy of the hybrid model with three layers of CNN and one layer of GCN can be improved by 5%-6%compared to that of the CNN model on the CIFAR10,CIFAR100,and SVHN datasets.The effectiveness of the model proposed in this paper is also proved in the most advanced fusion models of ResNet,DenseNet.WRN(wide re- sidual networks),and GCN. Keywords:relationship representation;feature extraction;graph convolutional neural network;hybrid model;semi-su- pervised learning;image classification;convolution in vision;generalization performance 收稿日期:2021-09-13.网络出版日期:2022-06-16. 基金项目:国家自然科学基金项目(51974144,51874160):辽宁 半监督学习,是一种介于监督学习和无监 省教育厅项目(LJKZ0340):辽宁工程技术大学学科 创新团队项目(LNTU20TD-01,LNTU20TD-07). 督学习之间的学习方法,其基本思想是在训练少 通信作者:刘威.E-mail:v8218218@126.com. 量标签样本的过程中引入大量无标签样本来解决
DOI: 10.11992/tis.202109022 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20220615.1700.002.html 融合关系特征的半监督图像分类方法研究 刘威1,2,3,王薪予1,3,刘光伟4 ,王东4 ,牛英杰1,3 (1. 辽宁工程技术大学 理学院,辽宁 阜新 123000; 2. 辽宁工程技术大学 智能工程与数学研究院,辽宁 阜新 123000; 3. 辽宁工程技术大学 数学与系统科学研究所,辽宁 阜新 123000; 4. 辽宁工程技术大学 矿业学院,辽宁 阜新 123000) 摘 要:半监督深度学习模型具有泛化能力强,所需样本数较少等特点,经过 10 多年的发展,在理论和实际应 用方面都取得了巨大的进步,然而建模样本内部“隐含”关系时模型缺乏解释性以及构造无监督正则化项难度 较大等问题限制了半监督深度学习的进一步发展。针对上述问题,从丰富样本特征表示的角度出发,构造了一 种新的半监督图像分类模型—融合关系特征的半监督分类模型(semi-supervised classification model fused with relational features,SCUTTLE),该模型在卷积神经网络模型 (convolutional neural networks,CNN) 基础上引入了图 卷积神经网络 (graph convolutional networks,GCN),尝试通过 GCN 模型来提取 CNN 模型各层的低、高级特征间 的关系,使得融合模型不仅具有特征提取能力,而且具有关系表示能力。通过对 SCUTTLE 模型泛化性能进行 分析,进一步说明了该模型在解决半监督相关问题时的有效性。数值实验结果表明,三层 CNN 与一层 GCN 的 融合模型在 CIFAR10、CIFAR100、SVHN 3 种数据集上与 CNN 监督学习模型的精度相比均可提升 5%~6% 的精 度值,在最先进的 ResNet、DenseNet、WRN(wide residual networks)与 GCN 的融合模型上同样证明了本文所提模 型的有效性。 关键词:关系表示;特征提取;图卷积神经网络;融合模型;半监督学习;图像分类;视觉卷积;泛化性能 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2022)05−0886−14 中文引用格式:刘威, 王薪予, 刘光伟, 等. 融合关系特征的半监督图像分类方法研究 [J]. 智能系统学报, 2022, 17(5): 886–899. 英文引用格式:LIU Wei, WANG Xinyu, LIU Guangwei, et al. Semi-supervised image classification method fused with relational features[J]. CAAI transactions on intelligent systems, 2022, 17(5): 886–899. Semi-supervised image classification method fused with relational features LIU Wei1,2,3 ,WANG Xinyu1,3 ,LIU Guangwei4 ,WANG Dong4 ,NIU Yingjie1,3 (1. School of Sciences, Liaoning Technical University, Fuxin 123000, China; 2. Institutes of Intelligent Engineering and Mathematics, Liaoning Technical University, Fuxin 123000, China; 3. Institute of Mathematics and Systems Science, Liaoning Technical University, Fuxin 123000, China; 4. School of Mining, Liaoning Technical University, Fuxin 123000, China) Abstract: A semi-supervised deep learning model exhibits great generalization ability with minimal required samples and has made great progress in theory and practical application over the past ten years or so. However, the lack of the model’s interpretability when modeling the internal “implicit” relationship of samples and the difficulty in constructing unsupervised regularization items have limited the further development of semi-supervised deep learning. To solve these problems and enrich the sample feature representation, this study has developed a novel semi-supervised model for image classification—semi-supervised classification model integrating the relational features (SCUTTLE). The model introduces the graph convolutional networks (GCN) based on the convolutional neural networks (CNN) and extracts the relationships between the low- and high-level features of each layer of the CNN model via the GCN model, thus extracting features and expressing relationships. By analyzing the generalization performance of the SCUTTLE model, the paper further illustrates its effectiveness in solving semi-supervised related problems. The numerical results indicate that the classification accuracy of the hybrid model with three layers of CNN and one layer of GCN can be improved by 5%–6% compared to that of the CNN model on the CIFAR10, CIFAR100, and SVHN datasets. The effectiveness of the model proposed in this paper is also proved in the most advanced fusion models of ResNet, DenseNet, WRN (wide residual networks), and GCN. Keywords: relationship representation; feature extraction; graph convolutional neural network; hybrid model; semi-supervised learning; image classification; convolution in vision; generalization performance 半监督学习[1,2] 是一种介于监督学习和无监 督学习之间的学习方法,其基本思想是在训练少 量标签样本的过程中引入大量无标签样本来解决 收稿日期:2021−09−13. 网络出版日期:2022−06−16. 基金项目:国家自然科学基金项目 (51974144, 51874160);辽宁 省教育厅项目 ( LJKZ0340);辽宁工程技术大学学科 创新团队项目 (LNTU20TD-01,LNTU20TD- 07). 通信作者:刘威. E-mail:lv8218218@126.com. 第 17 卷第 5 期 智 能 系 统 学 报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022
·887· 刘威,等:融合关系特征的半监督图像分类方法研究 第5期 监督学习由于标签样本不足所造成的模型退化问 (K-nearest neighbor,.KNN)图,以此来建模图像之 题。早期的半监督学习算法与深度学习的结合相 间的一阶关系信息。这种通过建图来建模GCN 对较少,随着深度学习在各界大放异彩,尤其在 模型输入的相关文献91川大部分都是用随机参数 图像分类问题上超人类的识别率使得半监督学习 化或者依靠添加损失项的方式,所得图结构很大 与深度学习的结合成为一种必然趋势。 程度上取决于模型自身性能,且这种图结构忽略 半监督深度学习的核心模型依然是卷积神经 了数据的原始信息,使模型不具解释性。而构建 网络,不同模型的区别在于添加不同的先验假设 KNN图的方式可以保持数据的原始信息不丢失。 来建立不同的损失函数。Sajjadi等1认为相同的 针对问题(2),本文尝试将关系学习模型融 样本在不同的扰动下,模型应该具有相同的输出 合到特征提取模型的任意一层,考虑到特征提取 (被称为“一致性正则化原则”)。因此将标签样 模型是一个复杂且多层的结构,每一层所学特征 本与无标签样本经过随机增强、裁剪、随机池化 信息皆不相同,因此关系信息与特征信息不同的 等操作后输入模型中,强制模型对同一样本输出 融合方式会对模型的泛化性能产生不同的影响。 相同的预测类别。Laine等将上述的一致性正 本文主要贡献有:1)提出基于图像间的关系 则化原则建模为时序模型,认为模型在每次迭代 表示模型,该模型可以提取到图像间的不同阶的 的学习过程中都应该保持所谓的“一致性正则 关系信息。2)设计新的半监督图像分类模型。将 化”。L等的与上述两篇文献的做法不同,将这种 图像数据的关系信息与特征信息相融合,可以极 “一致性正则化”方法加入了模型的参数之中, 大地提升表示学习模型的泛化能力。3)对模型中 他们认为相同的样本在经过模型参数的随机扰动 提取样本间隐含关系的函数进行解释,进一步阐 之后应该输出相同的类别。 明其运行机理。4)在5个基准图像数据集上进行 综上所述,半监督图像分类算法主要围绕一致 数值实验,进一步验证本文提出的融合模型可以 性原则进行建模,使用不同程度的数据增强、混 在少样本情形下有效提升监督模型的分类精度。 合等操作强制对同类样本输出相同的预测结果, 1相关工作 希望模型能够习得图像的本质特征。但这种建模 方式仅在模型的端首与端尾进行操作,缺乏半监 本节主要介绍半监督深度学习模型的建模方 督模型的内部机理分析,使模型不具可解释性。 法。首先介绍半监督学习的基本思路。在引言中 从本质上而言,半监督学习的建模思想描述 提到的(预测样本分布、聚类假设、流形假设以及 为:首先建立所给样本的隐含“关系”,然后将标 前述的“一致性原则”)假设的前提下,即可约束 签样本的标签信息通过上述“关系”传递到无标签 相似的样本输出相同的结果。 样本。而图卷积网络(graph convolutional net- 以图结构的标签传播(label propagation,LP) works,.GCN)的提出,正好从关系建模的角度出 算法为例进行说明,该算法的目标函数如下: 发,给出解析网络数据的一种思路。与视觉卷积 L+U min ∑Ifx)-HP+A∑Ifx)-fxrw(四 模型相比,模型解释性大大增加。此外,该方法 还为半监督图像分类提供建模思路,本文旨在利 式中:样本被分为标签样本(用L表示)和无标签 用图卷积网络来建模前述样本的隐含“关系”,然 样本(用U表示),其中标签样本损失为f-y, 后进一步研究与视觉卷积模型融合后的融合模型 在此基础上又添加与无标签样本相关的正则化项 的机理性能。 ‖-fW,意味着相同标签的样本之间会有更 一直以来,模型融合作为改进模型性能的技 大的连接权重,从而使得与标签样本相连的权重 术被广泛使用,著名的GoogLeNet!模型中作者 较大的无标签样本更容易获得标签样本的标签信 就表明视觉图像数据应在各种尺度处理后再进行 息,进而实现全图的标签信息传播。 融合,才能使得深度网络对输入图像的尺度具有 上述半监督学习方法虽然取得了不错的效 鲁棒性。而本文将GCN与卷积分类模型相融合 果,但是随着深度学习的兴起,半监督深度学习 则需考虑以下两个问题:(1)建模“关系”的目标 算法成为了研究的重点。 对象。(2)对于图像特征提取的多层神经网络模 半监督深度图像分类模型是将包含无标签样 型而言,需要考虑GCN模型如何与这些多层结构相 本的正则化项引入多层结构的网络模型中。We- 融合。 ston等1针对传统的半监督学习算法无法充分地 针对问题(1),首先基于图像数据构建KNN 学习数据的特征,通过在多层神经网络的基础上
监督学习由于标签样本不足所造成的模型退化问 题。早期的半监督学习算法与深度学习的结合相 对较少,随着深度学习在各界大放异彩,尤其在 图像分类问题上超人类的识别率使得半监督学习 与深度学习的结合成为一种必然趋势。 半监督深度学习的核心模型依然是卷积神经 网络,不同模型的区别在于添加不同的先验假设 来建立不同的损失函数。Sajjadi 等 [3] 认为相同的 样本在不同的扰动下,模型应该具有相同的输出 (被称为“一致性正则化原则”)。因此将标签样 本与无标签样本经过随机增强[4] 、裁剪、随机池化 等操作后输入模型中,强制模型对同一样本输出 相同的预测类别。Laine 等 [5] 将上述的一致性正 则化原则建模为时序模型,认为模型在每次迭代 的学习过程中都应该保持所谓的“一致性正则 化”。Li 等 [6] 与上述两篇文献的做法不同,将这种 “一致性正则化”方法加入了模型的参数[7] 之中, 他们认为相同的样本在经过模型参数的随机扰动 之后应该输出相同的类别。 综上所述,半监督图像分类算法主要围绕一致 性原则进行建模,使用不同程度的数据增强、混 合等操作强制对同类样本输出相同的预测结果, 希望模型能够习得图像的本质特征。但这种建模 方式仅在模型的端首与端尾进行操作,缺乏半监 督模型的内部机理分析,使模型不具可解释性。 从本质上而言,半监督学习的建模思想描述 为:首先建立所给样本的隐含“关系”,然后将标 签样本的标签信息通过上述“关系”传递到无标签 样本。而图卷积网络(graph convolutional networks,GCN)的提出,正好从关系建模的角度出 发,给出解析网络数据的一种思路。与视觉卷积 模型相比,模型解释性大大增加。此外,该方法 还为半监督图像分类提供建模思路,本文旨在利 用图卷积网络来建模前述样本的隐含“关系”,然 后进一步研究与视觉卷积模型融合后的融合模型 的机理性能。 一直以来,模型融合作为改进模型性能的技 术被广泛使用,著名的 GoogLeNet[8] 模型中作者 就表明视觉图像数据应在各种尺度处理后再进行 融合,才能使得深度网络对输入图像的尺度具有 鲁棒性。而本文将 GCN 与卷积分类模型相融合 则需考虑以下两个问题:(1)建模“关系”的目标 对象。(2)对于图像特征提取的多层神经网络模 型而言,需要考虑 GCN 模型如何与这些多层结构相 融合。 针对问题(1),首先基于图像数据构建 KNN (K-nearest neighbor,KNN)图,以此来建模图像之 间的一阶关系信息。这种通过建图来建模 GCN 模型输入的相关文献[9-11] 大部分都是用随机参数 化或者依靠添加损失项的方式,所得图结构很大 程度上取决于模型自身性能,且这种图结构忽略 了数据的原始信息,使模型不具解释性。而构建 KNN 图的方式可以保持数据的原始信息不丢失。 针对问题(2),本文尝试将关系学习模型融 合到特征提取模型的任意一层,考虑到特征提取 模型是一个复杂且多层的结构,每一层所学特征 信息皆不相同,因此关系信息与特征信息不同的 融合方式会对模型的泛化性能产生不同的影响。 本文主要贡献有:1)提出基于图像间的关系 表示模型,该模型可以提取到图像间的不同阶的 关系信息。2)设计新的半监督图像分类模型。将 图像数据的关系信息与特征信息相融合,可以极 大地提升表示学习模型的泛化能力。3)对模型中 提取样本间隐含关系的函数进行解释,进一步阐 明其运行机理。4)在 5 个基准图像数据集上进行 数值实验,进一步验证本文提出的融合模型可以 在少样本情形下有效提升监督模型的分类精度。 1 相关工作 本节主要介绍半监督深度学习模型的建模方 法。首先介绍半监督学习的基本思路。在引言中 提到的(预测样本分布、聚类假设、流形假设以及 前述的“一致性原则”)假设的前提下,即可约束 相似的样本输出相同的结果。 以图结构的标签传播(label propagation,LP) 算法[12] 为例进行说明,该算法的目标函数如下: min f ∑L i ∥ f(xi)−yi∥ 2 +λ ∑L+U i, j ∥ f(xi)− f(xj)∥ 2Wi j (1) L U ∥ fi −yi∥ 2 ∥ fi − fj∥ 2Wi j 式中:样本被分为标签样本(用 表示)和无标签 样本(用 表示),其中标签样本损失为 , 在此基础上又添加与无标签样本相关的正则化项 ,意味着相同标签的样本之间会有更 大的连接权重,从而使得与标签样本相连的权重 较大的无标签样本更容易获得标签样本的标签信 息,进而实现全图的标签信息传播。 上述半监督学习方法虽然取得了不错的效 果,但是随着深度学习的兴起,半监督深度学习 算法成为了研究的重点。 半监督深度图像分类模型是将包含无标签样 本的正则化项引入多层结构的网络模型中。Weston 等 [13] 针对传统的半监督学习算法无法充分地 学习数据的特征,通过在多层神经网络的基础上 ·887· 刘威,等:融合关系特征的半监督图像分类方法研究 第 5 期
第17卷 智能系统学报 ·888· 显式地引入包含无标签样本的正则化项提出3种 将学习到的关系特征与CNN提取到的图像特征 通用的特征表示模型,从而实现半监督学习与神 融合在一起进行端到端的学习。下面将描述模型 经网络的结合。生成对抗网络(generative adversarial 的具体细节。 nets,GAN)也是一种学习数据表示的多层网络 特征提取的CNN模型 模型,由于此模型在模拟生成真实样本任务上的 原始样本X conv 成功表现,自然而然的想法就是在标签样本较少 的情况下,可以利用生成器生成的样本来提高模 型的泛化能力。Springenberg等l提出的GAN模 型是从部分标记数据中学习判别分类器的方法, KNN图 通过在目标函数中添加标签样本的分类损失,使 模型在标签样本的分布与其预测的无标签样本分 表示关系函数的GCN模型☑ 布之间交换互信息,再结合判别器损失函数即可 图1 SCUTTLE模型示意图 实现半监督学习。Chang等u改进GAN的判别 Fig.1 Schematic diagram of SCUTTLE model 器函数,强制其输出为N+1类的样本(N为样本 2.1KNN图的构建 类别数,额外的一类为生成器的样本类别),这样 对于N个样本数据X=(,x,…,xw),X∈Rw。 判别器不再是二分类函数,而是多分类的函数。 X中的列向量x代表第i个样本的特征,N为样本 同样地,上述过程也利用了无标记样本的隐含分 的数量,d表示样本的维度。对于X中的任何一个 布信息,通过结合改进的GAN模型完成半监督 样本x,都可以通过某种映射p:R4xR4→R来建 学习的过程。 立该样本与其他N-1个样本xn的相似度S: 以上半监督图像分类算法皆是利用深层卷积 Sii=(xi,xi) (2) 模型在提取数据特征方面的优势来提升模型的泛 上述映射函数如可以表示为 化性能,但在描述数据内部隐含的“关系”信息时 s-x 均缺乏解释性。因此本文针对上述问题,在特征 Sy= e i≠j (3) 0 i=i 提取模型的基础上又设计了关系表示模型,而且 式(3)即为常用的热核定义法叨,常用于连续 给出了二者的融合方法,通过端到端的训练方式 型数据之间的相似度定义,通过计算样本间的距 提升模型的泛化能力。 离,将d维连续空间中的两个样本映射到一维实 2融合关系特征的半监督分类模型 空间中。 通过计算N个样本中任意两个样本间的相似 本节介绍提出的SCUTTLE模型。该模型结 度,可得到一个对称的相似度稠密矩阵S∈Rw, 构如图1所示。由图可知模型大致可以分为两个 即对于其中任意一个元素S)=S(i≠)。考虑S中 模块:图像特征提取的CNN模块和表示关系函数 任意行S.(S除外)的元素,分别表示第i个样本 的GCN模块。模型设计整体思路如下: 与其他N-1个样本的相似度,通过对这N-1个元 1)将原始样本数据输入CNN中学习样本的 素进行排序,使得S1≥S2≥…≥Sw-(S表示相 隐含特征,并且通过全连接层将学习到的样本特 似度最大的元素),即可找到最相似的K个元素 征映射到样本标签。 {S,S2,…,Sx,同理对于S中的每一行都可以执 2)就监督学习而言,只依靠上述CNN模块, 行上述操作,由此即可构建一个稀疏的KNN无 模型就可以取得很好的泛化性能。但是对于半监 向图。 督学习,还需依赖模型习得的样本隐含“关系”函 2.2特征提取的CNN模型 数。为了习得这些“关系”,在上述CNN提取特征 正如引言所述,提取图像特征的CNN模型是 的过程中,对于任意卷积层提取到的图像特征构 实施半监督深度学习算法的关键。其建模过程可 建KNN图,图中不仅包含了样本自身的特征信 以描述为: 息,而且将相邻样本间原本无关的样本集从离散 对于任意一个多层卷积神经网络,第1层卷 空间映射到一个关系度量空间。此时的KNN图 积提取到的数据特征z表示如下: 中仅显示了样本间的一阶关系信息.为了获取更 2(0)=Woy *a-1) (4) 高阶的关系信息,需要将KNN图和样本特征同 式中:W心表示第I层的卷积核参数以及偏置参 时输入GCN模型中,通过多层GCN的叠加,最终 数,a)表示前一层卷积提取到的特征图经过非
显式地引入包含无标签样本的正则化项提出 3 种 通用的特征表示模型,从而实现半监督学习与神 经网络的结合。生成对抗网络(generative adversarial nets,GAN) [14] 也是一种学习数据表示的多层网络 模型,由于此模型在模拟生成真实样本任务上的 成功表现,自然而然的想法就是在标签样本较少 的情况下,可以利用生成器生成的样本来提高模 型的泛化能力。Springenberg 等 [15] 提出的 GAN 模 型是从部分标记数据中学习判别分类器的方法, 通过在目标函数中添加标签样本的分类损失,使 模型在标签样本的分布与其预测的无标签样本分 布之间交换互信息,再结合判别器损失函数即可 实现半监督学习。Chang 等 [16] 改进 GAN 的判别 器函数,强制其输出为 N+1 类的样本(N 为样本 类别数,额外的一类为生成器的样本类别),这样 判别器不再是二分类函数,而是多分类的函数。 同样地,上述过程也利用了无标记样本的隐含分 布信息,通过结合改进的 GAN 模型完成半监督 学习的过程。 以上半监督图像分类算法皆是利用深层卷积 模型在提取数据特征方面的优势来提升模型的泛 化性能,但在描述数据内部隐含的“关系”信息时 均缺乏解释性。因此本文针对上述问题,在特征 提取模型的基础上又设计了关系表示模型,而且 给出了二者的融合方法,通过端到端的训练方式 提升模型的泛化能力。 2 融合关系特征的半监督分类模型 本节介绍提出的 SCUTTLE 模型。该模型结 构如图 1 所示。由图可知模型大致可以分为两个 模块:图像特征提取的 CNN 模块和表示关系函数 的 GCN 模块。模型设计整体思路如下: 1)将原始样本数据输入 CNN 中学习样本的 隐含特征,并且通过全连接层将学习到的样本特 征映射到样本标签。 2)就监督学习而言,只依靠上述 CNN 模块, 模型就可以取得很好的泛化性能。但是对于半监 督学习,还需依赖模型习得的样本隐含“关系”函 数。为了习得这些“关系”,在上述 CNN 提取特征 的过程中,对于任意卷积层提取到的图像特征构 建 KNN 图,图中不仅包含了样本自身的特征信 息,而且将相邻样本间原本无关的样本集从离散 空间映射到一个关系度量空间。此时的 KNN 图 中仅显示了样本间的一阶关系信息.为了获取更 高阶的关系信息,需要将 KNN 图和样本特征同 时输入 GCN 模型中,通过多层 GCN 的叠加,最终 将学习到的关系特征与 CNN 提取到的图像特征 融合在一起进行端到端的学习。下面将描述模型 的具体细节。 1 N N n=1 CNN= (y (n) , h (n) ∑ ) 1 N N n=1 GCN= (y (n) , z (n) ∑ ) … … conv1 conv2 conv3 特征提取的 CNN 模型 h (n) z (1) z (2) z (3) z (l) 表示关系函数的 GCN 模型 Z (1) Z (2) Z (l) Z (n) KNN 图 原始样本 X + 图 1 SCUTTLE 模型示意图 Fig. 1 Schematic diagram of SCUTTLE model 2.1 KNN 图的构建 X = (x1, x2,··· , xN) X ∈ R d×N X xi X xi φ R d ×R d → R xj(i,j) S i j 对于 N 个样本数据 , 。 中的列向量 代表第 i 个样本的特征,N 为样本 的数量,d 表示样本的维度。对于 中的任何一个 样本 ,都可以通过某种映射 : 来建 立该样本与其他 N−1 个样本 的相似度 : S i j = ϕ(xi,xj) (2) 上述映射函数 φ 可以表示为 S i j = e − ∥xi−xj∥ 2 t i , j 0 i = j (3) 式(3)即为常用的热核定义法[17] ,常用于连续 型数据之间的相似度定义,通过计算样本间的距 离,将 d 维连续空间中的两个样本映射到一维实 空间中。 S ∈ R N×N S i j S ji i , j S S i· S ii S i,1 ⩾ S i,2 ⩾ ··· ⩾ S i,N−1 S i,1 {S i,1,S i,2,··· ,S i,K} S 通过计算 N 个样本中任意两个样本间的相似 度,可得到一个对称的相似度稠密矩阵 , 即对于其中任意一个元素 = ( )。考虑 中 任意行 ( 除外)的元素,分别表示第 i 个样本 与其他 N−1 个样本的相似度,通过对这 N−1 个元 素进行排序,使得 ( 表示相 似度最大的元素),即可找到最相似的 K 个元素 ,同理对于 中的每一行都可以执 行上述操作,由此即可构建一个稀疏的 KNN 无 向图。 2.2 特征提取的 CNN 模型 正如引言所述,提取图像特征的 CNN 模型是 实施半监督深度学习算法的关键。其建模过程可 以描述为: z (l) 对于任意一个多层卷积神经网络,第 l 层卷 积提取到的数据特征 表示如下: z (l) = W(l) conv ∗ a (l−1) (4) W(l) conv a (l−1) 式中: 表示第 l 层的卷积核参数以及偏置参 数, 表示前一层卷积提取到的特征图经过非 第 17 卷 智 能 系 统 学 报 ·888·
·889· 刘威,等:融合关系特征的半监督图像分类方法研究 第5期 线性激活函数(一般用RLUl8函数表示)后的输 过激活函数σ(通常用ReLU函数表示)即可提取 出。这里对于该模型的具体卷积过程不再赘述。 第(层的相关特征。 式(4)中的z0又可以写为 与CNN模型类似,在模型的最后一层通过 20:=09:别 (5) softmax函数来获得样本标签的预测分布。同样 表示第I层卷积提取到的F,个特征图,这些特征 地,对于输入该模型的N个样本,模型的目标函 图再经过非线性的激活函数中,即可得到该层最 数为 终的输出a,即 (9) a0=(z0) (6) 1分z, 对于输入该模型的N个样本,该模型的目标 2.4 SCUTTLE模型 函数为 本节介绍将前述两种模型相融合的SCUTTLE 1 L(ym,h) 模型,融合模型具有两种单一模型的双重属性, (7) 既具有特征提取能力,也具有关系表示能力。本 式中:ym为第n个样本的真实标签;h为第n个 节不仅给出模型融合的方法描述,也给出了融合 样本的预测标签;£为相应的损失函数。 模型的训练算法流程。此外,对本文提到的关系 2.3关系表示函数的GCN模型 函数的构建过程也加以解释。 2.2节阐述了CNN模型设计的整体思路,该 2.4.1 SCUTTLE模型的融合方法描述 模型利用不同卷积核提取到了层次化的图像特 本节介绍将2.2节中的CNN模型与2.3节中 征,而忽视了图像间所蕴涵的内在联系。本节介 的GCN模型融合在一个end-to-end的框架中的融 绍图信号处理领域的GCN模型是如何通过图上 合方法,实施步骤如下: 节点的特征信息与图的结构信息来提取节点间的 I)对于输入CNN模型的N个样本,其中任意 隐含关系。 个样本在第1层学习到的特征z0表示为2.2 GCN模型在建模之前通常需要构造一个图 节中的式(5)。假设每个特征图的大小为m×n, 位移算子T来表示所研究的图结构。位移算子 则z0∈RmxnxFi,可以将z展成维度为m×n×F的一 T的作用就是将输入信号通过线性聚合的方式来 维向量。对输入模型的N样本都执行上述操作。 提取节点的一阶邻域内的信息,这个过程可以类 此时的一维向量z依然具有特征图形状的z应有 比CNN中的卷积核的作用(捕捉固定感受野范围 的特性。 内的信息)。其次只需要将T参数化后融入卷积 2)将上述样本特征z作为2.1节KNN模型的 神经网络中进行学习即可构建图上的卷积操作。 输入,即可构建一个关于N个样本的稀疏KNN 常用的图位移算子包括下面3种类型: 图,也称为权重邻接矩阵,是2.3节提到的图位移 1)图的邻接矩阵A。对于其中的元素Am,如 算子T的一种特殊形式,用T来表示。 果(um,va)∈E,则Am=1,否则为0: 3)将步骤1)和步骤2)中得到的z0和T作为 2)图的拉普拉斯矩阵L=D-A。D为对角矩 2.3节中GCN模型的输入,则GCN模型同时具有 阵,其中的D表示第i个节点的度; 样本的高阶特征信息以及连接这些信息的位移 3)L归一化之后的类型:i=DAD-。 算子T',通过图上的卷积操作即可学习这些特征 本文采用Kipf等提出的GCN模型,该模 之间的关系,GCN模型在第一层卷积学习到的特 型基于归一化的图拉普拉斯矩阵而提出的,也 征Z可以表示为 即上述图位移算子中的第3种类型。模型第层 z)=(D-TD-2Wc) (10) 学习到的特征Z9可以表示为 式中:下=T+1,T为步骤2)中的权重邻接矩阵, Z(0=(D-!AD-IZ-DWe) (8) D、W与式(8)代表的含义相同。 式中:A=A+I,A表示图所对应的邻接矩阵,I是 4)为了使得CNN模型与GCN模型在习得的 单位对角阵,A表示在邻接矩阵A中的每个节点上 样本特征上实现维度对齐,本文在GCN的最后 添加自环的操作;D为对角阵,D:=∑,A,表示第 层后又添加了全连接层,假设GCN模型共有L"层, i个节点(包含自己)的度,W表示第(-1层的卷 W为全连接层的权重参数,则上述过程表示为 积核参数且包括偏置参数。在式(8)中,第(-1层 Zu=ReLU(Wie(ReLU(D-AD-!Zu-W 卷积提取到的特征Z-通过与归一化的图位移算 (11) 子相乘来捕捉图中一阶邻域内的节点信息,再通 在融合模型的最后一层分别将两个模型得到
z (l) 线性激活函数(一般用 ReLU[18] 函数表示)后的输 出。这里对于该模型的具体卷积过程不再赘述。 式 (4) 中的 又可以写为 z (l): = [ z (l) 1 ;z (l) 2 ;z (l) Fl ] (5) Fl ϕ a (l) 表示第 l 层卷积提取到的 个特征图,这些特征 图再经过非线性的激活函数 ,即可得到该层最 终的输出 ,即 a (l) = ϕ(z (l) ) (6) 对于输入该模型的 N 个样本,该模型的目标 函数为 LCNN = 1 N ∑N n=1 L(y (n) , h (n) ) (7) y (n) h (n) L 式中: 为第 n 个样本的真实标签; 为第 n 个 样本的预测标签; 为相应的损失函数。 2.3 关系表示函数的 GCN 模型 2.2 节阐述了 CNN 模型设计的整体思路,该 模型利用不同卷积核提取到了层次化的图像特 征,而忽视了图像间所蕴涵的内在联系。本节介 绍图信号处理领域的 GCN 模型是如何通过图上 节点的特征信息与图的结构信息来提取节点间的 隐含关系。 T T T GCN 模型在建模之前通常需要构造一个图 位移算子 来表示所研究的图结构。位移算子 的作用就是将输入信号通过线性聚合的方式来 提取节点的一阶邻域内的信息,这个过程可以类 比 CNN 中的卷积核的作用(捕捉固定感受野范围 内的信息)。其次只需要将 参数化后融入卷积 神经网络中进行学习即可构建图上的卷积操作。 常用的图位移算子包括下面 3 种类型: A Amn (υm, υn) ∈ ε Amn = 1 1)图的邻接矩阵 。对于其中的元素 ,如 果 ,则 ,否则为 0; L D− A D Dii 2)图的拉普拉斯矩阵 = 。 为对角矩 阵,其中的 表示第 i 个节点的度; L L¯ = D˜ − 1 2 A˜ D˜ − 1 3) 归一化之后的类型: 2。 L¯ ℓ Z (ℓ) 本文采用 Kipf 等 [19] 提出的 GCN 模型,该模 型基于归一化的图拉普拉斯矩阵 而提出的,也 即上述图位移算子中的第 3 种类型。模型第 层 学习到的特征 可以表示为 Z (ℓ) = σ(D˜ − 1 2 A˜ D˜ − 1 2 Z (ℓ−1)W(ℓ−1) gcn ) (8) A˜ = A+ I A I A˜ A D˜ D˜ ii = ∑ j A˜ i j W(ℓ−1) gcn ℓ−1 ℓ−1 Z (ℓ−1) 式中: , 表示图所对应的邻接矩阵, 是 单位对角阵, 表示在邻接矩阵 中的每个节点上 添加自环的操作; 为对角阵, 表示第 i 个节点(包含自己)的度, 表示第 层的卷 积核参数且包括偏置参数。在式 (8) 中,第 层 卷积提取到的特征 通过与归一化的图位移算 子相乘来捕捉图中一阶邻域内的节点信息,再通 σ ℓ 过激活函数 (通常用 ReLU 函数表示)即可提取 第 层的相关特征。 与 CNN 模型类似,在模型的最后一层通过 softmax 函数来获得样本标签的预测分布。同样 地,对于输入该模型的 N 个样本,模型的目标函 数为 LGCN = 1 N ∑N n=1 L(Z (n),y (n) ) (9) 2.4 SCUTTLE 模型 本节介绍将前述两种模型相融合的 SCUTTLE 模型,融合模型具有两种单一模型的双重属性, 既具有特征提取能力,也具有关系表示能力。本 节不仅给出模型融合的方法描述,也给出了融合 模型的训练算法流程。此外,对本文提到的关系 函数的构建过程也加以解释。 2.4.1 SCUTTLE 模型的融合方法描述 本节介绍将 2.2 节中的 CNN 模型与 2.3 节中 的 GCN 模型融合在一个 end-to-end 的框架中的融 合方法,实施步骤如下: z (l) m×n z (l) ∈ R m×n×Fl z (l) m×n× Fl z (l) z (l) 1) 对于输入 CNN 模型的 N 个样本,其中任意 一个样本在第 l 层学习到的特征 表示为 2.2 节中的式 (5)。假设每个特征图的大小为 , 则 ,可以将 展成维度为 的一 维向量。对输入模型的 N 样本都执行上述操作。 此时的一维向量 依然具有特征图形状的 应有 的特性。 z (l) T T ′ 2) 将上述样本特征 作为 2.1 节 KNN 模型的 输入,即可构建一个关于 N 个样本的稀疏 KNN 图,也称为权重邻接矩阵,是 2.3 节提到的图位移 算子 的一种特殊形式,用 来表示。 z (l) T ′ z (l) T ′ Z (1) 3) 将步骤 1) 和步骤 2) 中得到的 和 作为 2.3 节中 GCN 模型的输入,则 GCN 模型同时具有 样本的高阶特征信息 以及连接这些信息的位移 算子 ,通过图上的卷积操作即可学习这些特征 之间的关系,GCN 模型在第一层卷积学习到的特 征 可以表示为 Z (1) = σ(D˜ − 1 2 T˜ ′ D˜ − 1 2 z (l)W(0) gcn) (10) T˜ ′ = T ′ + I T ′ D˜ W(0) gcn 式中: , 为步骤 2) 中的权重邻接矩阵, 、 与式 (8) 代表的含义相同。 L ′′ Wf c 4)为了使得 CNN 模型与 GCN 模型在习得的 样本特征上实现维度对齐,本文在 GCN 的最后一 层后又添加了全连接层,假设 GCN 模型共有 层, 为全连接层的权重参数,则上述过程表示为 Z (L ′′) = ReLU( Wf c ( ReLU( D˜ − 1 2 A˜ D˜ − 1 2 Z (L ′′−1)W(L ′′−1) gcn ))) (11) 在融合模型的最后一层分别将两个模型得到 ·889· 刘威,等:融合关系特征的半监督图像分类方法研究 第 5 期
第17卷 智能系统学报 ·890· 的关系特征ZL和样本特征α相结合得到样本的 图如图2所示。 预测标签分布,这里假设CNN模型共有L层,表 开始 示如下: =softmax(Zu)+H)) (12) SCUTTLE模型参数初始化 5)计算模型最终的损失函数: LCNN_GCN= 2, 数据集预处理,设置批次数量、每批次样本数 (13) 、每批次标记样本数、选代次数等超参数 2.4.2 SCUTTLE模型的训练算法描述 将一个批次N。个样本传入 CNN网络中正向训练 设训练样本总数为N,每个批次的样本数量 挑选CNN任一隐层的 也即batchsize设定为Nata,则批次数量为 输出作为KNN的输入 设每批次标记样本数量为Vabl,此时计算得到标 KNN+GCN模型进行 记样木这数为N×心,后续哭到的所有标记 样本隐含关系特征提取 样本数量皆通过上式计算得到。 将GCN的输出结果与CNN的输出结果进行融合操作 算法1 SCUTTLE模型训练方法 输入N个样本X=(c1,x2,…,xN)以及Nae个 只计算Ne个标i记样本损失值并进行梯度反向传播 样本的标签。 输出N个样本的预测标签值。 装本 1)随机初始化SCUTTLE模型的网络参数。 Y 2)将全部样本作数据预处理且随机打乱顺 SCUTTLE模型精度测试 序,同时设定样本批次数量为一, ,且设定每批次 标记样本数量为Niable,epoch数量为e。 SCUTTLE模型N 收敛 3)将第一个批次的Nah个样本输入CNN模 型中进行正向传播。 结束 4)随机挑选步骤3)中CNN的任一隐层输出 特征作为KNN图的输入,再经过GCN模型进行 图2 SCUTTLE模型训练方法流程图 Fig.2 Flow chart of SCUTTLE model training method 正向传播。 5)步骤3)4)属于并行前向传播,在两个模型 2.4.3 SCUTTLE模型的关系函数解释 最后输出层通过式(12)进行特征融合并计算损失 对于常见的半监督学习模型(包括引言和相 值,此时的损失值只包括步骤2)中提前设定好的 关工作中提到的),其优化目标函数为 L+U Viable个样本的损失,同时通过梯度反向传播优化 min∑Ifx)-yP+∑cfx,x,W) (14) 模型参数。 6)测试模型精度。 式中:W即为表示相邻两个样本间的关系参数; )将步骤3小6)循环 一次,为全部样本一次 L表示标签样本;U表示无标签样本。为了后续表 迭代。 述的方便,将式(14)中的两项分别记为(14)与 8)步骤3))循环e次,直至模型收敛。 (14)。(14)为标签样本的损失函数,(14)为反映 上述算法即为SCUTTLE模型的批量训练算 样本隐含关系的函数。根据前两小节所述的建模 法,从步骤4)中可知,SCUTTLE融合算法对于任 流程,CNN与GCN模型都利用标签样本的标签 一批量的样本都会建立KNN图,相较于其他算 信息来构建监督信息的损失函数,因此(14)可以 法的随机参数化方法,本文所构建KNN图在很 写为 大程度上可以保证数据的先验性质,同时使模型 I+),-yl (15) 具有解释性。在步骤5)中,将CNN模型的特征 与GCN模型的特征进行融合,可以看作二者之间 在构建样本的隐含关系函数时,CNN模型不 的相互约束过程,对于卷积特征不够清晰且明确 具有建模样本间关系的能力,因此需依靠GCN模 的样本可以通过GCN的关系特征进行补充,从而 型来捕捉这些信息,因此对于(14)而言,结合式 提升泛化性能。SCUTTLE模型的训练方法流程 (8)或(10)可得
Z (L ′′) a (L ′ ) L ′ 的关系特征 和样本特征 相结合得到样本的 预测标签分布,这里假设 CNN 模型共有 层,表 示如下: yˆ = softmax(Z (L ′′′) + H (L ′ ) ) (12) 5)计算模型最终的损失函数: LCNN_GCN = 1 N ∑N n=1 L(by (n),y (n) ) (13) 2.4.2 SCUTTLE 模型的训练算法描述 N Nbatch Nlable × N Nbatch 设训练样本总数为 N,每个批次的样本数量 也即 batch_size 设定为 Nbatch,则批次数量为 , 设每批次标记样本数量为 Nlable,此时计算得到标 记样本总数为 ,后续提到的所有标记 样本数量皆通过上式计算得到。 算法 1 SCUTTLE 模型训练方法 输入 N 个样本 X = (x1, x2,··· , xN) 以及 Nlable 个 样本的标签。 输出 N 个样本的预测标签值。 1) 随机初始化 SCUTTLE 模型的网络参数。 N Nbatch 2) 将全部样本作数据预处理且随机打乱顺 序,同时设定样本批次数量为 ,且设定每批次 标记样本数量为 Nlable,epoch 数量为 e。 3) 将第一个批次的 Nbatch 个样本输入 CNN 模 型中进行正向传播。 4) 随机挑选步骤 3) 中 CNN 的任一隐层输出 特征作为 KNN 图的输入,再经过 GCN 模型进行 正向传播。 5) 步骤 3)~4) 属于并行前向传播,在两个模型 最后输出层通过式 (12) 进行特征融合并计算损失 值,此时的损失值只包括步骤 2) 中提前设定好的 Nlable 个样本的损失,同时通过梯度反向传播优化 模型参数。 6) 测试模型精度。 N Nbatch 7) 将步骤 3)~6) 循环 次,为全部样本一次 迭代。 8) 步骤 3)~7) 循环 e 次,直至模型收敛。 上述算法即为 SCUTTLE 模型的批量训练算 法,从步骤 4) 中可知,SCUTTLE 融合算法对于任 一批量的样本都会建立 KNN 图,相较于其他算 法的随机参数化方法,本文所构建 KNN 图在很 大程度上可以保证数据的先验性质,同时使模型 具有解释性。在步骤 5) 中,将 CNN 模型的特征 与 GCN 模型的特征进行融合,可以看作二者之间 的相互约束过程,对于卷积特征不够清晰且明确 的样本可以通过 GCN 的关系特征进行补充,从而 提升泛化性能。SCUTTLE 模型的训练方法流程 图如图 2 所示。 SCUTTLE 模型参数初始化 数据集预处理,设置批次数量、每批次样本数 Nbatch、每批次标记样本数、迭代次数等超参数 将一个批次 Nbatch 个样本传入 CNN 网络中正向训练 只计算 Nlable 个标记样本损失值并进行梯度反向传播 全部样本 训练完毕 Y Y N N SCUTTLE 模型精度测试 挑选 CNN 任一隐层的 输出作为 KNN 的输入 KNN+GCN 模型进行 样本隐含关系特征提取 将 GCN 的输出结果与 CNN 的输出结果进行融合操作 SCUTTLE 模型 收敛 开始 结束 图 2 SCUTTLE 模型训练方法流程图 Fig. 2 Flow chart of SCUTTLE model training method 2.4.3 SCUTTLE 模型的关系函数解释 对于常见的半监督学习模型(包括引言和相 关工作中提到的),其优化目标函数为 min W ∑L i ∥ f(xi)−yi∥ 2 + ∑L+U i, j L(f(xi , xj ,Wi j) (14) Wi j L U 式中: 即为表示相邻两个样本间的关系参数; 表示标签样本; 表示无标签样本。为了后续表 述的方便,将式 (14) 中的两项分别记为 (141 ) 与 (142 )。(141 ) 为标签样本的损失函数,(142 ) 为反映 样本隐含关系的函数。根据前两小节所述的建模 流程,CNN 与 GCN 模型都利用标签样本的标签 信息来构建监督信息的损失函数,因此 (141 ) 可以 写为 ∑L i ||(fcnn + fgcn) i −yi ||2 (15) 在构建样本的隐含关系函数时,CNN 模型不 具有建模样本间关系的能力,因此需依靠 GCN 模 型来捕捉这些信息,因此对于 (142 ) 而言,结合式 (8) 或 (10),可得 第 17 卷 智 能 系 统 学 报 ·890·
·891· 刘威,等:融合关系特征的半监督图像分类方法研究 第5期 f(X,W)=fn(X.W)=D-AD-XWgen (16) 3.1数据集以及实验环境 对于式(16)中,任意两个样本间的关系又可 为了验证半监督融合模型的有效性,模型需 以表示为 要在已知的一些公开数据集上进行测试并且给出 对应的实验结果。本节介绍将要进行测试的4种 fx,W)= (17) EN(DaDi 数据集:NIST、CIFAR10、CIFAR100、SVHN。 令R= A 由于众多研究者对于MNIST、CIFAR10、CIFAR1000 等常用图像数据集较为熟悉,关于它们的详细信 V历VDi 息这里不再赘述,下面主要介绍SVHN数据集以 其中,N)表示第i个样本的邻居节点。由式(17) 及各数据集之间属性的对比。 可以看出,相邻样本间的关系由R以及参数W来 SVHN:该数据集摘自Google街景图像中门牌 度量,W为模型需要学习的参数,实际值应当由 号码,共包括73257张训练图像和26032张测试 所训练的样本集来确定;而R,可以看作某种先验 图像,每张图像像素为32x32的彩色图像。MNIST 信息。 数据集不同的是,每张图像中包含多个手写体数 从式中可以看出,对于给定的某个节点,A 字。相比MNIST数据集,识别难度有所增加。 和D:是确定的,当邻居节点的度D较大时,R较 后续全部实验所用软硬件环境为:Intel(R) 小;当邻居节点的度D较小时,R较大;换言之, Core(TM)i7-6850KCPU@3.60GHz处理器, 关系函数对于度较小的邻居分配较大的权值,对 NVIDIA GeForce GTX1080Ti12GB显卡,12GB内 于度较大的邻居分配较小的权值。再结合视觉模 存,操作系统为CentOS7.8.2003(Core),编程语言 型特征进行分析,假设习得的特征图不能很好地 为Python3.7,深度学习框架为Pytorchl..4。 将不同类别分隔开,对应关系函数可以理解为, 表14种数据集的属性信息 一个节点的邻居节点度较小,此时关系函数会赋 Table 1 Attribute information of four datasets 予这些节点较大的权重,以致于不丢失这部分信 名称 样本数 训练集 测试集 类别 息,这样无论是好的特征图还是差的特征图,关 MNIST 70000 60000 10000 10 系函数总可以将他们的信息相融合,进而增强融 CIFARI0 60000 50000 10000 10 合模型的泛化能力。 CIFAR100 60000 50000 10000 100 2.4.4 SCUTTLE模型的复杂度分析 设N为输入模型的样本数量,CNN模型第 SVHN 99289 73257 26032 10 1个卷积层的输出z的维度为M,卷积核维度为 3.2 SCUTTLE模型(三层CNN-GCN)性能分析 K,上一层的输出通道数为F-1,全连接层的第I层 3.2.1实验模型 神经元数量为C,则CNN模型的时间复杂度为 由于本文所提模型是CNN模型与GCN模型 式(3)在构建 的融合模型,有必要设置横向对比实验来说明融 合模型的有效性。鉴于2.4节所述的模型融合方 KNN图时采用KD树算法2OI可以将时间复杂度 法,在将二者融合时需要考虑如下问题:GCN模 降为ONog3Mi),GCN模型第l层卷积W维 型应该与CNN模型哪一层的特征图相连接。 度为Md1,因此式(10)的时间复杂度为 为了公平对比两种模型融合的不同方式所产 oN∑2M+MMdd 所以模型的总时间复杂 生的模型性能,本文设计了简单的三层CNN(隐 层通道数:128-256-512,卷积核大小:3×3)与单层 度为ON M.KF-+C Nlog3M+ GCN的融合模型。因此对比的模型共有以下 N∑2Mi+MMd- 5种结构(一个监督学习的基准模型和4个半监 由此可知,本文所提模型 督学习融合模型):CNN、CNN-O-GCN、CNN-l- 的时间复杂度与输入模型的样本数量之间均为线 GCN、CNN-2-GCN、CNN-3-GCN,分别代表监督 性关系。 模型、GCN与CNN的输人层相连接、GCN与 3数值实验与结果分析 CNN第1层卷积相连接、GCN与CNN第2层卷 积相连接、GCN与CNN第3层卷积相连接。 为了更好地测试和分析半监督融合模型的泛 3.2.2实验设置 化能力,本文采用数值实验的方式对模型进行性 本节实验数据集划分与Jiang等u的划分类 能评估。 似,分别从4类数据集的训练样本中随机取10000
f(X,W) = fgcn(X,W) = D˜ − 1 2 A˜ D˜ − 1 2 XWgcn (16) 对于式 (16) 中,任意两个样本间的关系又可 以表示为 f(xi , xj ,Wi j) = ∑ j∈N(i) A˜ i j √ D˜ ii √ D˜ j j xi jWi j (17) 令Ri j= A˜ i j √ D˜ ii √ D˜ j j N(i) Ri j Wi j Wi j Ri j 其中, 表示第 i 个样本的邻居节点。由式 (17) 可以看出,相邻样本间的关系由 以及参数 来 度量, 为模型需要学习的参数,实际值应当由 所训练的样本集来确定;而 可以看作某种先验 信息。 A˜ i j D˜ ii D˜ j j Ri j D˜ j j Ri j 从式中可以看出,对于给定的某个节点, 和 是确定的,当邻居节点的度 较大时, 较 小;当邻居节点的度 较小时, 较大;换言之, 关系函数对于度较小的邻居分配较大的权值,对 于度较大的邻居分配较小的权值。再结合视觉模 型特征进行分析,假设习得的特征图不能很好地 将不同类别分隔开,对应关系函数可以理解为, 一个节点的邻居节点度较小,此时关系函数会赋 予这些节点较大的权重,以致于不丢失这部分信 息,这样无论是好的特征图还是差的特征图,关 系函数总可以将他们的信息相融合,进而增强融 合模型的泛化能力。 2.4.4 SCUTTLE 模型的复杂度分析 z (l) Ml Kl Fl−1 l ′ Cl ′ O N ∑ l MlKlFl−1 + ∑ l ′ Cl ′−1Cl ′ O(Nlog3Mℓ+1) ℓ W(ℓ−1) gcn Mldℓ−1 O N ∑ ℓ 2(Ml + MlMldℓ−1) O N ∑ l MlKlFl−1 + ∑ l ′ Cl ′−1Cl ′ Nlog3Mℓ+1 ∑ ℓ 2(Ml + MlMldℓ−1) 设 N 为输入模型的样本数量,CNN 模型第 l 个卷积层的输出 的维度为 ,卷积核维度为 ,上一层的输出通道数为 ,全连接层的第 层 神经元数量为 ,则 CNN 模型的时间复杂度为 , 式 ( 3 ) 在 构 建 KNN 图时采用 KD 树算法[20] 可以将时间复杂度 降为 , GCN 模型第 层卷积 维 度 为 ,因此 式 (10 ) 的时间复杂度为 ,所以模型的总时间复杂 度 为 + + N 。由此可知,本文所提模型 的时间复杂度与输入模型的样本数量之间均为线 性关系。 3 数值实验与结果分析 为了更好地测试和分析半监督融合模型的泛 化能力,本文采用数值实验的方式对模型进行性 能评估。 3.1 数据集以及实验环境 为了验证半监督融合模型的有效性,模型需 要在已知的一些公开数据集上进行测试并且给出 对应的实验结果。本节介绍将要进行测试的 4 种 数据集:MNIST、CIFAR10、CIFAR100、SVHN。 由于众多研究者对于 MNIST、CIFAR10、CIFAR100 等常用图像数据集较为熟悉,关于它们的详细信 息这里不再赘述,下面主要介绍 SVHN 数据集以 及各数据集之间属性的对比。 × SVHN:该数据集摘自 Google 街景图像中门牌 号码,共包括 73 257 张训练图像和 26 032 张测试 图像,每张图像像素为 32 32 的彩色图像。MNIST 数据集不同的是,每张图像中包含多个手写体数 字。相比 MNIST 数据集,识别难度有所增加。 后续全部实验所用软硬件环境为:Intel(R) Core(TM) i7-6850K CPU@3.60GHz 处理器, NVIDIA GeForce GTX 1080Ti 12GB 显卡,12GB 内 存,操作系统为 CentOS 7.8.200 3(Core),编程语言 为 Python3.7,深度学习框架为 Pytorch1.4。 表 1 4 种数据集的属性信息 Table 1 Attribute information of four datasets 名称 样本数 训练集 测试集 类别 MNIST 70 000 60000 10000 10 CIFAR10 60 000 50000 10000 10 CIFAR100 60 000 50000 10000 100 SVHN 99 289 73257 26032 10 3.2 SCUTTLE 模型 (三层 CNN-GCN) 性能分析 3.2.1 实验模型 由于本文所提模型是 CNN 模型与 GCN 模型 的融合模型,有必要设置横向对比实验来说明融 合模型的有效性。鉴于 2.4 节所述的模型融合方 法,在将二者融合时需要考虑如下问题:GCN 模 型应该与 CNN 模型哪一层的特征图相连接。 为了公平对比两种模型融合的不同方式所产 生的模型性能,本文设计了简单的三层 CNN(隐 层通道数:128-256-512,卷积核大小:3×3)与单层 GCN 的融合模型。因此对比的模型共有以下 5 种结构(一个监督学习的基准模型和 4 个半监 督学习融合模型):CNN、CNN-0-GCN、CNN-1- GCN、CNN-2-GCN、CNN-3-GCN,分别代表监督 模型、GCN 与 CNN 的输入层相连接、GCN 与 CNN 第 1 层卷积相连接、GCN 与 CNN 第 2 层卷 积相连接、GCN 与 CNN 第 3 层卷积相连接。 3.2.2 实验设置 本节实验数据集划分与 Jiang 等 [11] 的划分类 似,分别从 4 类数据集的训练样本中随机取 10000 ·891· 刘威,等:融合关系特征的半监督图像分类方法研究 第 5 期
第17卷 智能系统学报 ·892· 个样本进行训练,与Jiang等不同的是,本文的 1000个样本作为标记样本,剩余的9500、9250、 10000个样本是随机选取,并没有针对每类样本 9000个样本作为无标记样本。 的均衡性进行选择,其次没有设置验证集,而是 在实验过程中,对3.2.1节提到的5种模型 直接在数据集的测试集上进行测试。其中,对于 均采用Adam优化器进行优化,且KNN图的K值 MNIST、CIFAR10、CIFAR100从10000个样本中 设定为经验值4,设置初始学习率为0.0001,整个 随机选取1000、2000、3000个样本作为标记样本, 模型训练300次epochs,且进行10次相同的实 剩余的9000、8000、7000个样本作为无标记样本。 验,将这10次实验结果的均值和标准差记录在 对于SVHN,从10000个训练样本中选取500、750、 表2中。 表2五种模型在四种数据集上的分类精度 Table 2 Classification accuracy of five models on four datasets 分类精度/% 数据集 样本数量 CNN(监督) CNN-0-GCN CNN-1-GCN CNN-2-GCN CNN-3-GCN 1000 99.34±0.07 99.26±0.02 99.26±0.03 99.25±0.05 MNIST 2000 99.41±0.02 99.38±0.05 99.30±0.04 99.23±0.01 99.27±0.06 3000 99.40±0.03 99.33±0.01 99.24±0.07 99.35±0.01 1000 79.73±0.13 79.40±0.12 79.06±0.43 76.56±0.19 CIFAR10 2000 74.21±0.32 79.93±0.31 80.07±0.34 79.53±0.22 79.26±0.16 3000 80.48±0.15 80.47±0.21 80.04±0.13 79.95±0.10 500 90.07±0.24 89.67±0.08 89.57±0.10 89.74±0.23 SVHN 750 84.46±0.27 89.94±0.20 89.44±0.12 89.45±0.40 89.61±0.13 1000 89.88±0.09 89.34±0.07 89.52±0.22 89.34±0.16 1000 49.94±0.02 49.35±0.13 49.72±0.09 49.63±0.08 CIFAR100 2000 47.72±0.31 50.98±0.12 49.74±0.25 50.21±0.21 50.82±0.17 3000 52.03±0.06 51.42±0.04 51.19±0.12 51.4440.15 3.2.3实验结果分析 单张图像中不仅包含了要识别的数字信息,还包 分析表2实验结果,可得如下结论: 括数字的边缘、门框、阳光产生的阴影等无关信 1)对比4种半监督融合模型与CNN监督模 息的干扰,但是添加了GCN模型的融合模型,相 型的精度值,对于CIFAR10、CIFAR1O0、SVHN数 反并没有受到这些冗余信息的影响,相反较少的 据集,4种融合模型均可在CNN分类精度的基础 标记样本实现了较高的精度提升,再次说明了本 上提升5%~6%,说明本文所提融合模型是一种有 文所提模型具有极好的泛化性能。 效的且分类泛化性能较好的模型。 3.24融合模型的特征图可视化 2)单独对比4种融合模型的实验结果,总体 为了进一步验证融合模型的有效性,本节对 上模型之间的精度相差不大,但是CNN-0-GCN CNN和CNN-O-GCN、CNN-1-GCN、CNN-2-GCN 是融合模型中表现最突出的,说明将GCN连接 CNN-3-GCN等模型的特征图进行可视化分析, 到CNN卷积层之后会对模型整体的性能产生轻 从CFAR10数据集中取了3类标签的样本(分别 微的影响,但是与监督学习的CNN相比融合模型 是马、卡车、鸟)进行可视化,如图3所示。表中 的精度提升效果还是比较显著的。 从左到右的4列分别展示了4种不同的卷积核 3)通过对单个数据集的4种融合模型的实验 对应的特征图,其中每列从左至右依次为不同迭 结果进行对比,MNIST、CIFAR10、CIFAR100 代次数下的可视化输出结果。从上到下每5行为 中随着标记样本的数量减少,模型的分类精度均 一类样本的可视化结果,每类样本的第1行为CNN 呈现逐渐递减的趋势,但是对于SVHN数据集, 模型特征输出结果,第2行为CNN-O-GCN的可视 随着标记样本数量的减少,模型分类泛化性能反 化输出结果,CNN-1-GCN、CNN-2-GCN等以此 而有所提高。考虑到SVHN数据集2)的特殊性, 类推
个样本进行训练,与 Jiang 等不同的是,本文的 10 000 个样本是随机选取,并没有针对每类样本 的均衡性进行选择,其次没有设置验证集,而是 直接在数据集的测试集上进行测试。其中,对于 MNIST、CIFAR10、CIFAR100 从 10 000 个样本中 随机选取 1000、2000、3000 个样本作为标记样本, 剩余的 9000、8000、7000 个样本作为无标记样本。 对于 SVHN,从 10000 个训练样本中选取 500、750、 1 000 个样本作为标记样本,剩余的 9 500、9 250、 9000 个样本作为无标记样本。 在实验过程中,对 3.2.1 节提到的 5 种模型 均采用 Adam 优化器进行优化,且 KNN 图的 K 值 设定为经验值 4,设置初始学习率为 0.000 1,整个 模型训练 300 次 epochs,且进行 10 次相同的实 验,将这 10 次实验结果的均值和标准差记录在 表 2 中。 表 2 五种模型在四种数据集上的分类精度 Table 2 Classification accuracy of five models on four datasets 数据集 样本数量 分类精度/% CNN(监督) CNN-0-GCN CNN-1-GCN CNN-2-GCN CNN-3-GCN MNIST 1 000 99.41±0.02 99.34±0.07 99.26±0.02 99.26±0.03 99.25±0.05 2000 99.38±0.05 99.30±0.04 99.23±0.01 99.27±0.06 3 000 99.40±0.03 99.33±0.01 99.24±0.07 99.35±0.01 CIFAR10 1 000 74.21±0.32 79.73±0.13 79.40±0.12 79.06±0.43 76.56±0.19 2000 79.93±0.31 80.07±0.34 79.53±0.22 79.26±0.16 3 000 80.48±0.15 80.47±0.21 80.04±0.13 79.95±0.10 SVHN 500 84.46±0.27 90.07±0.24 89.67±0.08 89.57±0.10 89.74±0.23 750 89.94±0.20 89.44±0.12 89.45±0.40 89.61±0.13 1 000 89.88±0.09 89.34±0.07 89.52±0.22 89.34±0.16 CIFAR100 1 000 47.72±0.31 49.94±0.02 49.35±0.13 49.72±0.09 49.63±0.08 2000 50.98±0.12 49.74±0.25 50.21±0.21 50.82±0.17 3 000 52.03±0.06 51.42±0.04 51.19±0.12 51.44±0.15 3.2.3 实验结果分析 分析表 2 实验结果,可得如下结论: 1)对比 4 种半监督融合模型与 CNN 监督模 型的精度值,对于 CIFAR10、CIFAR100、SVHN 数 据集,4 种融合模型均可在 CNN 分类精度的基础 上提升 5%~6%,说明本文所提融合模型是一种有 效的且分类泛化性能较好的模型。 2)单独对比 4 种融合模型的实验结果,总体 上模型之间的精度相差不大,但是 CNN-0-GCN 是融合模型中表现最突出的,说明将 GCN 连接 到 CNN 卷积层之后会对模型整体的性能产生轻 微的影响,但是与监督学习的 CNN 相比融合模型 的精度提升效果还是比较显著的。 3)通过对单个数据集的 4 种融合模型的实验 结果进行对比,MNIST、CIFAR10、CIFAR100 中随着标记样本的数量减少,模型的分类精度均 呈现逐渐递减的趋势,但是对于 SVHN 数据集, 随着标记样本数量的减少,模型分类泛化性能反 而有所提高。考虑到 SVHN 数据集[21] 的特殊性, 单张图像中不仅包含了要识别的数字信息,还包 括数字的边缘、门框、阳光产生的阴影等无关信 息的干扰,但是添加了 GCN 模型的融合模型,相 反并没有受到这些冗余信息的影响,相反较少的 标记样本实现了较高的精度提升,再次说明了本 文所提模型具有极好的泛化性能。 3.2.4 融合模型的特征图可视化 为了进一步验证融合模型的有效性,本节对 CNN 和 CNN-0-GCN、CNN-1-GCN、CNN-2-GCN、 CNN-3-GCN 等模型的特征图进行可视化分析, 从 CIFAR10 数据集中取了 3 类标签的样本(分别 是马、卡车、鸟)进行可视化,如图 3 所示。表中 从左到右的 4 列分别展示了 4 种不同的卷积核 对应的特征图,其中每列从左至右依次为不同迭 代次数下的可视化输出结果。从上到下每 5 行为 一类样本的可视化结果,每类样本的第 1 行为 CNN 模型特征输出结果,第 2 行为 CNN-0-GCN 的可视 化输出结果,CNN-1-GCN、CNN-2-GCN 等以此 类推。 第 17 卷 智 能 系 统 学 报 ·892·
·893· 刘威,等:融合关系特征的半监督图像分类方法研究 第5期 050100150200 050100150200 050100150200 050100150200 树 (a)第1类卷积核 (b)第2类卷积核 (c)第3类卷积核 (d第4类卷积核 图35种模型在3个样本不同次迭代的特征图对比 Fig.3 Comparison of feature maps of three samples of five models at different iterations 对比图3中每次迭代得到的特征图,CNN-0- 构建SCUTTLE模型过程中GCN模型与CNN模 GCN模型的物体轮廓、清晰度、纹理特征、细腻 型哪一层特征图连接的问题、SCUTTLE自身泛 程度相比于其他模型都有很大优势。以样本类别 化性能等问题做出了深入研究。实验结果表明: 为马的第一类卷积核对应的特征图为例,CNN模 1)CNN-O-GCN模型相比于其他融合模型具有较 型将图像上边缘的深黑色背景特征也提取出来, 好的泛化性能;2)特征图可视化结果同时也证明 这样使得特征图中马的轮廓变的不清晰,而CNN- 了CNN-0-GCN模型的优良性;3)4种融合模型 0-GCN模型中显然将这些冗余特征去除,通过不 在4种数据集上的测试结果相较于CNN模型有 同的灰度值,清晰地将马的轮廓显现出来。 明显提升。研究结果充分证明本文所提SCUTTLE 同样地.还是以样本类别是马的特征图为例, 模型是一种良好的半监督分类模型。 通过观察会发现,CNN-0-GCN模型对应的第50 3.3 SCUTTLE模型(VGG-GCN)性能分析 次迭代的特征图无论是清晰度还是纹理特征相比 3.3.1实验内容与实验设置 于CNN要差很多,但是50次迭代之后,马的轮廓 1)为了进一步验证SCUTTLE模型的泛化性 以及图像的细腻程度明显好转,而且变的比50次 能,本节将三层卷积模型替换为VGG模型2,分 迭代之前的特征更清晰,再一次证明了融合模型 别将VGG11、VGG13、VGG16、VGG19与GCN融 具有很好的泛化性能。 合在3.1节的4种数据集上测试其泛化性能,并 此外,通过对比CNN-O-GCN与其他3种融 将实验结果记录在图4中。 合模型的特征图,发现CNN-0-GCN的特征图效 2)设置消融实验来研究各个模型在融合模型 果依然优于其他3种模型。以鸟的特征图为例, 中所起作用。在图4中,用4幅图表示所测试的 其余3种融合模型的前150次迭代图中均有明显 4种数据集,虚线部分表示单独的VGG模型实验 的噪声值:迭代到200次后,特征图的效果才有 结果;红色虚线表示单独的GCN模型结果;而实 提升。其余两类样本的特征图对比情况不再详细 线部分表示SCUTTLE模型的结果,通过对比虚 分析。 线结果与实线结果的差异,即可分析单一VGG 本节从数值实验、特征图可视化两个方面对 模型与SCUTTLE各模型之间的性能差异
0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 (a) 第 1 类卷积核 (b) 第 2 类卷积核 (c) 第 3 类卷积核 (d) 第 4 类卷积核 图 3 5 种模型在 3 个样本不同次迭代的特征图对比 Fig. 3 Comparison of feature maps of three samples of five models at different iterations 对比图 3 中每次迭代得到的特征图,CNN-0- GCN 模型的物体轮廓、清晰度、纹理特征、细腻 程度相比于其他模型都有很大优势。以样本类别 为马的第一类卷积核对应的特征图为例,CNN 模 型将图像上边缘的深黑色背景特征也提取出来, 这样使得特征图中马的轮廓变的不清晰,而 CNN- 0-GCN 模型中显然将这些冗余特征去除,通过不 同的灰度值,清晰地将马的轮廓显现出来。 同样地,还是以样本类别是马的特征图为例, 通过观察会发现,CNN-0-GCN 模型对应的第 50 次迭代的特征图无论是清晰度还是纹理特征相比 于 CNN 要差很多,但是 50 次迭代之后,马的轮廓 以及图像的细腻程度明显好转,而且变的比 50 次 迭代之前的特征更清晰,再一次证明了融合模型 具有很好的泛化性能。 此外,通过对比 CNN-0-GCN 与其他 3 种融 合模型的特征图,发现 CNN-0-GCN 的特征图效 果依然优于其他 3 种模型。以鸟的特征图为例, 其余 3 种融合模型的前 150 次迭代图中均有明显 的噪声值;迭代到 200 次后,特征图的效果才有 提升。其余两类样本的特征图对比情况不再详细 分析。 本节从数值实验、特征图可视化两个方面对 构建 SCUTTLE 模型过程中 GCN 模型与 CNN 模 型哪一层特征图连接的问题、SCUTTLE 自身泛 化性能等问题做出了深入研究。实验结果表明: 1) CNN-0-GCN 模型相比于其他融合模型具有较 好的泛化性能;2) 特征图可视化结果同时也证明 了 CNN-0-GCN 模型的优良性;3) 4 种融合模型 在 4 种数据集上的测试结果相较于 CNN 模型有 明显提升。研究结果充分证明本文所提 SCUTTLE 模型是一种良好的半监督分类模型。 3.3 SCUTTLE 模型 (VGG-GCN) 性能分析 3.3.1 实验内容与实验设置 1)为了进一步验证 SCUTTLE 模型的泛化性 能,本节将三层卷积模型替换为 VGG 模型[22] ,分 别将 VGG11、VGG13、VGG16、VGG19 与 GCN 融 合在 3.1 节的 4 种数据集上测试其泛化性能,并 将实验结果记录在图 4 中。 2)设置消融实验来研究各个模型在融合模型 中所起作用。在图 4 中,用 4 幅图表示所测试的 4 种数据集,虚线部分表示单独的 VGG 模型实验 结果;红色虚线表示单独的 GCN 模型结果;而实 线部分表示 SCUTTLE 模型的结果,通过对比虚 线结果与实线结果的差异,即可分析单一 VGG 模型与 SCUTTLE 各模型之间的性能差异。 ·893· 刘威,等:融合关系特征的半监督图像分类方法研究 第 5 期
第17卷 智能系统学报 ·894· -。-GCN-。-VGG11--VGG13 -.-VGG16-.-VGG19 3)实验设置:本节的所有模型对于标记样本 ◆VGG11-0-GCN -VGG13-0-GCN 的选取都与3.2.2节所述相同。此外,超参数的设 VGG16-0-GCN -VGG19-0-GCN 100 置也与3.2.2节相同。下面首先对4种融合模型 实验结果进行分析。 96 3.3.2实验结果分析 1)4种SCUTTLE模型的泛化性能分析 SCUTTLE模型在4种数据集上的数值实验 92 结果见图4。为了公平地对比每种模型的泛化性 能,实验中设置4种SCUTTLE模型的参数都相 10 1250 同,因此在CIFAR100上的实验结果只作为对比 结果而不作为最佳精度。通过分析表中结果,可 标记样本的数量 (a)MNIST 得如下结论: 90 ①对比MNIST数据集的4种融合模型的实 80 验结果,VGG13-0-GCN获得最佳精度值;对比CI- FAR10数据集,当标记样本数量为1000、2000时 在VGG11-0-GCN中获得最佳精度,而当标记样 60 本为3000时,在VGG13-0-GCN上得到最佳精 50 度。因此对VGG-GCN的融合模型而言,并没有 所谓的最优模型,不同模型在不同数量的标记样 本下会呈现出不同的结果。 ②对比4种融合模型各自在不同数量标记样 标记样本的数量 本的结果,随着标记样本数量的增加,大部分模 (b)CIFAR10 型的精度呈现上升趋势,而对于VGG11-0-GCN 在CIFAR10数据集的标记样本数量为3000时, 模型性能有所下降。此外,MNST数据集随着标 20 记样本数量的增加,4种融合模型的精度只有小 范围的提升;而CIFAR10,VGG13-0-GCN、VGG16- 0-GCN、VGG19-0-GCN随着标记样本数量的增 加,模型精度提升幅度较大。综上所述,采用VGG11 0-GCN作为CFAR10的半监督学习模型,只用1000 个样本即可达到较高的精度。而其余两个数据集 标记样本的数量 仍可得出类似结论。 (c)CIFAR100 100 以上只是对4种融合模型的实验结果进行简 % 单地概括,为了充分说明模型的有效性,还需设 置消融实验,分析VGG模型与GCN模型在融合 70 模型中的作用效果。 60 50 2)消融实验结果分析 40 在4种数据集上,分别设置了VGG11、VGG13 吃 VGG16、VGG19、GCN5种模型,得到的实验结果 20 也记录在图4中,通过对比图中实线与虚线之间 10 500 600700800 9001000 的差值即可分析VGG模型与融合模型的性能差 标记样本的数量 (d)SVHN 异。通过对比分析,可得如下结论: ①对比图中单一GCN的实验结果,只有在 图4VGG、SCUTTLE模型在4种数据集上的精度折线图 Fig.4 Accuracy line graphs of VGG and SCUTTLE on MNIST数据集上精度较高,在其余3种数据集上 four datasets 的精度都无法与CNN模型相比较,因此本节并没
100 98 96 94 92 90 88 1 000 1 250 1 500 1 750 2 000 2 250 2 500 2 750 3 000 测试精度/% 标记样本的数量 90 100 80 70 60 50 20 10 30 40 500 600 700 800 900 1 000 测试精度/% 标记样本的数量 80 90 70 60 50 40 1 000 1 250 1 500 1 750 2 000 2 250 2 500 2 750 3 000 测试精度/% 标记样本的数量 25 30 20 15 5 10 1 000 1 250 1 500 1 750 2 000 2 250 2 500 2 750 3 000 测试精度/% 标记样本的数量 GCN VGG11 VGG13 VGG19 VGG11-0-GCN VGG16 VGG13-0-GCN VGG16-0-GCN VGG19-0-GCN (a) MNIST (b) CIFAR10 (c) CIFAR100 (d) SVHN 图 4 VGG、SCUTTLE 模型在 4 种数据集上的精度折线图 Fig. 4 Accuracy line graphs of VGG and SCUTTLE on four datasets 3)实验设置:本节的所有模型对于标记样本 的选取都与 3.2.2 节所述相同。此外,超参数的设 置也与 3.2.2 节相同。下面首先对 4 种融合模型 实验结果进行分析。 3.3.2 实验结果分析 1) 4 种 SCUTTLE 模型的泛化性能分析 SCUTTLE 模型在 4 种数据集上的数值实验 结果见图 4。为了公平地对比每种模型的泛化性 能,实验中设置 4 种 SCUTTLE 模型的参数都相 同,因此在 CIFAR100 上的实验结果只作为对比 结果而不作为最佳精度。通过分析表中结果,可 得如下结论: ①对比 MNIST 数据集的 4 种融合模型的实 验结果,VGG13-0-GCN 获得最佳精度值;对比 CIFAR10 数据集,当标记样本数量为 1 000、2 000 时 在 VGG11-0-GCN 中获得最佳精度,而当标记样 本为 3 000 时,在 VGG13-0-GCN 上得到最佳精 度。因此对 VGG-GCN 的融合模型而言,并没有 所谓的最优模型,不同模型在不同数量的标记样 本下会呈现出不同的结果。 ②对比 4 种融合模型各自在不同数量标记样 本的结果,随着标记样本数量的增加,大部分模 型的精度呈现上升趋势,而对于 VGG11-0-GCN 在 CIFAR10 数据集的标记样本数量为 3 000 时, 模型性能有所下降。此外,MNIST 数据集随着标 记样本数量的增加,4 种融合模型的精度只有小 范围的提升;而 CIFAR10,VGG13-0-GCN、VGG16- 0-GCN、VGG19-0-GCN 随着标记样本数量的增 加,模型精度提升幅度较大。综上所述,采用 VGG11- 0-GCN 作为 CIFAR10 的半监督学习模型,只用 1000 个样本即可达到较高的精度。而其余两个数据集 仍可得出类似结论。 以上只是对 4 种融合模型的实验结果进行简 单地概括,为了充分说明模型的有效性,还需设 置消融实验,分析 VGG 模型与 GCN 模型在融合 模型中的作用效果。 2)消融实验结果分析 在 4 种数据集上,分别设置了 VGG11、VGG13、 VGG16、VGG19、GCN 5 种模型,得到的实验结果 也记录在图 4 中,通过对比图中实线与虚线之间 的差值即可分析 VGG 模型与融合模型的性能差 异。通过对比分析,可得如下结论: ①对比图中单一 GCN 的实验结果,只有在 MNIST 数据集上精度较高,在其余 3 种数据集上 的精度都无法与 CNN 模型相比较,因此本节并没 第 17 卷 智 能 系 统 学 报 ·894·
·895· 刘威,等:融合关系特征的半监督图像分类方法研究 第5期 有计算GCN与融合模型的分类精度差值。 88r ②对比虚线与实线之间的差异,几乎所有模 86 型在不同数量的标记样本上都实现了性能提升, 84 再次验证了本文所提融合模型的有效性,而所提 心 升的幅度在不同数据集上自然呈现出不同的特 80 点,对MNIST数据集,融合模型提升的精度值在 78 --ResNet18 1%内;对CIFAR10数据集,当标记样本数量较少 76 ◆ResNet1&-GCN -4-ResNet32 时,提升幅度较大,而当标记样本数量较多时,反 74 ResNet32-GCN 而提升幅度较小,此结论验证了CNN模型只有在 500 大量标记样本的前提下才能取得不错的精度,当 1000 标记样本的数量 只有少量标记样本时,其性能急剧下降。因此融 (a)CIFAR10 合模型在少样本上的性能较单一模型的性能更 100 优,充分说明了融合模型在半监督图像分类任务 95 方向上的优越性。而对于CIFAR1O0以及SVHN 亦可得到类似的结论。 90 本节从数值实验的角度对VGG与GCN的融 85 -●-ResNetl8 合模型性能进行分析。与前一节实验的结果对 ◆ResNet1&-GCN 比可知三层CNN的融合模型与VGG的融合模 80 -ResNet32 ResNet32-GCN 型在性能上的差异较小,甚至在CIFAR100数据 75 集上无论是VGG还是融合模型的性能都出现 500 急剧下降的现象。所谓更深的模型有更好的性 标记样本的数量 能,只是从理论的角度而言,但是实践中还应另 (b)SVHN 6 当别论。 60 注意:后续所有模型都是将GCN与输入层进 行连接,所以在命名时去掉了表示输入层的数字0。 3.4 SCUTTLE模型(ResNet、DenseNet-.GCN)性 50 能分析 -ResNet18 45 -ResNet18-GCN 3.4.1实验内容与实验设置 -4-ResNet32 40 ResNet32-GCN 1)本节选取ResNet18、ResNet3.2、DenseNet-40、 DenseNet100与GCN融合进行实验,且在CIFAR10、 500 400 SVHN、CIFAR1O0、STL10数据集上给出对应的实 标记样本的数量 验结果。 (c)CIFAR100 15 2)本节实验设置与前两节稍有不同,本节中 70 对每个数据集均采用全部的训练集进行训练,且 65 设定CIFAR10、CIFAR1O0、SVHN中的标记样本 60 数量为500、1000、2000、4000,STL10中的标记样 ★ 本数量为250、500、750、1000。以CIFAR10为例, 50 --ResNet18 在全部的50000个训练样本中挑选500、1000、 45 ResNet18-GCN -4-ResNet32 2000、4000个样本作为标记样本,剩余49500、 40 ResNet32-GCN 49000、48000、46000个样本为无标记样本进行 35 SCUTTLE模型的性能测试。此外超参数的设置 心、 标记样本的数量 与前两节相同。 (d)STL1O 3.4.2 ResNet-GCN融合模型的实验结果分析 图5 ResNet18-GCN、ResNet32-GCN在4种数据集上的 图5中的4幅图是在ResNet与GCN融合模 精度折线图 型上测试的实验结果,图例中的ResNet18、Res- Fig.5 Accuracy line graphs of ResNet18-GCN and Res- Net32均指监督学习的精度折线。 Net32-GCN on four datasets
有计算 GCN 与融合模型的分类精度差值。 ②对比虚线与实线之间的差异,几乎所有模 型在不同数量的标记样本上都实现了性能提升, 再次验证了本文所提融合模型的有效性,而所提 升的幅度在不同数据集上自然呈现出不同的特 点,对 MNIST 数据集,融合模型提升的精度值在 1% 内;对 CIFAR10 数据集,当标记样本数量较少 时,提升幅度较大,而当标记样本数量较多时,反 而提升幅度较小,此结论验证了 CNN 模型只有在 大量标记样本的前提下才能取得不错的精度,当 只有少量标记样本时,其性能急剧下降。因此融 合模型在少样本上的性能较单一模型的性能更 优,充分说明了融合模型在半监督图像分类任务 方向上的优越性。而对于 CIFAR100 以及 SVHN 亦可得到类似的结论。 本节从数值实验的角度对 VGG 与 GCN 的融 合模型性能进行分析。与前一节实验的结果对 比可知三层 CNN 的融合模型与 VGG 的融合模 型在性能上的差异较小,甚至在 CIFAR100 数据 集上无论是 VGG 还是融合模型的性能都出现 急剧下降的现象。所谓更深的模型有更好的性 能,只是从理论的角度而言,但是实践中还应另 当别论。 注意:后续所有模型都是将 GCN 与输入层进 行连接,所以在命名时去掉了表示输入层的数字 0。 3.4 SCUTTLE 模型 (ResNet、DenseNet-GCN) 性 能分析 3.4.1 实验内容与实验设置 1)本节选取 ResNet18、ResNet32、DenseNet40、 DenseNet100 与 GCN 融合进行实验,且在 CIFAR10、 SVHN、CIFAR100、STL10 数据集上给出对应的实 验结果。 2)本节实验设置与前两节稍有不同,本节中 对每个数据集均采用全部的训练集进行训练,且 设定 CIFAR10、CIFAR100、SVHN 中的标记样本 数量为 500、1 000、2000、4 000,STL10 中的标记样 本数量为 250、500、750、1 000。以 CIFAR10 为例, 在全部的 50 000 个训练样本中挑选 500、1 000、 2000、4 000 个样本作为标记样本,剩余 49 500、 49 000、48 000、46 000 个样本为无标记样本进行 SCUTTLE 模型的性能测试。此外超参数的设置 与前两节相同。 3.4.2 ResNet-GCN 融合模型的实验结果分析 图 5 中的 4 幅图是在 ResNet 与 GCN 融合模 型上测试的实验结果,图例中的 ResNet18、ResNet32 均指监督学习的精度折线。 500 1 000 1 500 2 000 2 500 3 000 3 500 4 000 86 88 84 82 80 76 74 测试精度 78 /% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN 500 1 000 1 500 2 000 2 500 3 000 3 500 4 000 100 95 90 85 80 75 测试精度/% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN 300 400 500 600 700 800 900 1 000 75 70 65 60 50 45 40 35 55 测试精度/% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN 500 1 000 1 500 2 000 2 500 3 000 3 500 4 000 65 55 50 40 45 60 测试精度/% 标记样本的数量 ResNet18 ResNet18-GCN ResNet32 ResNet32-GCN (a) CIFAR10 (b) SVHN (c) CIFAR100 (d) STL10 图 5 ResNet18-GCN、ResNet32-GCN 在 4 种数据集上的 精度折线图 Fig. 5 Accuracy line graphs of ResNet18-GCN and ResNet32-GCN on four datasets ·895· 刘威,等:融合关系特征的半监督图像分类方法研究 第 5 期