第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.201906022 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20200714.0932.004html 基于孪生变分自编码器的小样本图像分类方法 王德文,魏波涛 (华北电力大学控制与计算机工程学院,河北保定071000) 摘要:当前深度学习大都基于大量数据通过构建深层次的网络实现自动识别,但在很多场景中难以获得大量 的样本数据。针对这一问题,提出一种基于李生变分自编码器(siamese variational auto-encoder,.S-VAE)的小样 本图像分类方法。通过变分自编码器提取原始训练数据的高层语义特征,然后由两个训练好的变分自编码器 的编码器部分组建孪生网络的输入结构,最后通过分类器对样本进行识别。变分自编码器可以解决样本数据 量少带来的过拟合问题,孪生网络的结构增加了样本数量较少的情况下的训练次数。在Omniglot数据集上进 行的实验结果表明:本方法与原始孪生神经网络相比正确率平均提高了31%,模型收敛速度更快,证明了孪生 变分自编码器能够较好地完成小样本数据分类任务。 关键词:小样本;变分自编码器:孪生网络:图像识别;过拟合;特征向量;深度学习;数据增强 中图分类号:TP183文献标志码:A文章编号:1673-4785(2021)02-0254-09 中文引用格式:王德文,魏波涛.基于李生变分自编码器的小样本图像分类方法J智能系统学报,2021,16(2):254-262. 英文引用格式:VANG Dewen,WEI Botao..A small--sample image classification method based on a Siamese variational auto-en- coder[J].CAAI transactions on intelligent systems,2021,16(2):254-262. A small-sample image classification method based on a Siamese variational auto-encoder WANG Dewen,WEI Botao (School of Control and Computer Engineering,North China Electric Power University,Baoding 071000,China) Abstract:Currently,most deep learning is based on the use of large amounts of data and the construction of a deep net- work to achieve automatic recognition,but it is difficult to obtain a large amount of sample data in many scenarios.To solve this problem,we propose the use of a small-sample image classification method based on a Siamese variational auto- encoder(S-VAE).First,the high-level semantic features of the original training data are extracted by the variational auto- encoder.Then,the input structure of the Siamese network is constructed by the encoders of two trained variational auto-en- coders.Lastly,the samples are identified by the classifier.The variational auto-encoder can solve the over-fitting problem caused by small amounts of sample data,and the structure of the Siamese network increases the training number when the sample size is small.The experimental results on the Omniglot dataset show that this method has a 3.1%average improve- ment in accuracy compared with the original Siamese network.The model convergence speed is also faster,which proves that the S-VAE can better complete the classification task when using small-sample data. Keywords:small sample;variational auto-encoder(VAE);siamese network;image recognition;over-fitting;eigen- vector:deep learning:data augmentation 大量的图像样本数据和强大的计算资源,使 景。深度学习从大量的样本中学习样本的特征分 得深度学习在图像处理领域有着广阔的应用前 布,然后经过多次迭代优化各层权重,最后通过 分类器实现图像分类。但是在一些特殊或者 收稿日期:2019-06-12.网络出版日期:2020-07-14. 基金项目:国家自然科学基金项目(51677072) 难以复现的场景中,难以获得足够的样本。由 通信作者:魏波涛.E-mail:764387445@qq.com 于样本数量很少,使用深层神经网络往往会导致
DOI: 10.11992/tis.201906022 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200714.0932.004.html 基于孪生变分自编码器的小样本图像分类方法 王德文,魏波涛 (华北电力大学 控制与计算机工程学院,河北 保定 071000) 摘 要:当前深度学习大都基于大量数据通过构建深层次的网络实现自动识别,但在很多场景中难以获得大量 的样本数据。针对这一问题,提出一种基于孪生变分自编码器 (siamese variational auto-encoder,S-VAE) 的小样 本图像分类方法。通过变分自编码器提取原始训练数据的高层语义特征,然后由两个训练好的变分自编码器 的编码器部分组建孪生网络的输入结构,最后通过分类器对样本进行识别。变分自编码器可以解决样本数据 量少带来的过拟合问题,孪生网络的结构增加了样本数量较少的情况下的训练次数。在 Omniglot 数据集上进 行的实验结果表明:本方法与原始孪生神经网络相比正确率平均提高了 3.1%,模型收敛速度更快,证明了孪生 变分自编码器能够较好地完成小样本数据分类任务。 关键词:小样本;变分自编码器;孪生网络;图像识别;过拟合;特征向量;深度学习;数据增强 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2021)02−0254−09 中文引用格式:王德文, 魏波涛. 基于孪生变分自编码器的小样本图像分类方法 [J]. 智能系统学报, 2021, 16(2): 254–262. 英文引用格式:WANG Dewen, WEI Botao. A small-sample image classification method based on a Siamese variational auto-encoder[J]. CAAI transactions on intelligent systems, 2021, 16(2): 254–262. A small-sample image classification method based on a Siamese variational auto-encoder WANG Dewen,WEI Botao (School of Control and Computer Engineering, North China Electric Power University, Baoding 071000, China) Abstract: Currently, most deep learning is based on the use of large amounts of data and the construction of a deep network to achieve automatic recognition, but it is difficult to obtain a large amount of sample data in many scenarios. To solve this problem, we propose the use of a small-sample image classification method based on a Siamese variational autoencoder (S-VAE). First, the high-level semantic features of the original training data are extracted by the variational autoencoder. Then, the input structure of the Siamese network is constructed by the encoders of two trained variational auto-encoders. Lastly, the samples are identified by the classifier. The variational auto-encoder can solve the over-fitting problem caused by small amounts of sample data, and the structure of the Siamese network increases the training number when the sample size is small. The experimental results on the Omniglot dataset show that this method has a 3.1% average improvement in accuracy compared with the original Siamese network. The model convergence speed is also faster, which proves that the S-VAE can better complete the classification task when using small-sample data. Keywords: small sample; variational auto-encoder (VAE); siamese network; image recognition; over-fitting; eigenvector; deep learning; data augmentation 大量的图像样本数据和强大的计算资源,使 得深度学习在图像处理领域有着广阔的应用前 景。深度学习从大量的样本中学习样本的特征分 布,然后经过多次迭代优化各层权重,最后通过 分类器实现图像分类[1-3]。但是在一些特殊或者 难以复现的场景中,难以获得足够的样本[4]。由 于样本数量很少,使用深层神经网络往往会导致 收稿日期:2019−06−12. 网络出版日期:2020−07−14. 基金项目:国家自然科学基金项目 (51677072). 通信作者:魏波涛. E-mail:764387445@qq.com. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
第2期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·255· 过拟合的现象出现,减少网络层数则会影响特征 自编码器为核心的孪生网络结构来实现对小样本 提取,导致分类正确率下降。小样本图像分类 图像数据的分类。特征提取通过变分自编码器来 现在仍是深度学习中一个重要的研究问题。 实现,无需人工提取,而孪生网络的相似度匹配 小样本学习问题由李飞飞等”于2006年提 结构,可以有效地提高分类的正确率。 出,使用贝叶斯的方法在一个或少数几个图像学 习问题中成功提取出了信息模型。文献[8]于 1相关理论 2015年提出分层贝叶斯模型,该模型能从少量 1.1李生网络 样本中完成计算任务,并且达到了相当于人类水 孪生网络是一种特殊类型的神经网络结构 平的识别率。随后迁移学习的提出给小样本学 与传统一个学习过程对应一个输入然后进行分类 习带来了新的处理方法9。文献[10]提出一种基 的模型不同,该神经网络每个学习过程具有两个 于堆栈降噪自编码与支持向量回归机的混合模 输入,使用相同权重的神经网络对两个输入数据 型,在相似源域大数据上预训练混合模型借助对 进行处理,计算提取到的特征的相似度来分辨两 该知识的迁移,在目标域微调该混合模型,从而 个数据的是否为同一类别。孪生网络结构如图1 提升支持向量回归机在小样本噪声数据上的学 所示。 习预测精度。 输人层 隐藏层 距离层 输出层 目前对于小样本图像分类问题,主要有增加 样本数量和根据问题选择特定算法两种方式。 ,1 w出 h,1 最初的样本数量增强技术,例如原始样本的旋 转、翻转和增加对比度等方法,在一定程度上解 决了样本的数量问题,但是往往因为相似度过 大,产生过拟合现象。如今,统计学上的各种采 Xi N hy N 样方法、生成对抗网络的提出,为样本的数量增 强提供了新的解决思路1。文献[14采用Boot- w出 strap法来解决电力负荷数据少的问题,利用放回 重复抽样的方法得到新的样本,利用一种类比关 系来进行统计推断,将小样本转换为大样本问 题,但是该方法会造成被估参数的均值过分依赖 样本子集的情况,不利于参数估计的稳健性。根 图1李生网络结构 据研究问题的不同,选择特定的算法也可以显著 Fig.1 Siamese network 地提高实验效果5。文献17刀提出了利用蒙特 最初的孪生网络基于全连接网络。网络有L 卡洛随机试验可以对特征参量进行统计估计的特 个全连接层,每层有N个神经元,hu表示在第一 性,计算高光谱图像的最优降维特征数,对小样 个李生网络分支I层的隐向量,2表示在第二个 本的高光谱图像进行降维,实验证明使用该方法 李生网络分支1层的隐向量,网络在前L-1层中 后图像的分类精度有了较大提高。但是,蒙特卡 使用ReLU作为激活函数,对于1∈1,2,…,L-1 罗的结果和准确性很大程度依赖于母体所建立的 层网络中隐向量h1m、h2m按式(I)和式(2)计算: 数学模型。 hm max(0.WL hid-1+bi) (1) 2005年Chopra等1第一次提出了孪生网络 h2m max(0,WL h2d-1)+bi) (2) 的结构,该方法在人脸识别数据集上进行训练和 式中:W-1为N-1×N共享的权值矩阵;b为I层向 测试,取得了很好的识别效果。孪生网络创新地 量的偏置;max为求最大值。 采用了两个样本组成一对作为神经网络的输入的 经过输入层和隐藏层的前馈操作后,在距离 结构。在不改变样本数量的条件下,增加了整体 层按式(3)比较孪生网络生成的特征的距离 样本循环一个批次的训练次数,更有效地完成特 E(,用来评估特征的相似程度。 征的提取,减少因样本少带来的过拟合问题。在 E(W)=llhm-hzmll (3) 处理类别较多、每个类别样本少的分类任务有着 孪生网络结构具有两个权重相同、结构相同 极强的优势。 的姐妹网络。输入图像两两组成一对,图像对中 为了解决小样本图像分类问题,采用以变分 的两个图像将分别送到两个姐妹网络中,然后使
过拟合的现象出现,减少网络层数则会影响特征 提取,导致分类正确率下降[5]。小样本图像分类 现在仍是深度学习中一个重要的研究问题[6]。 小样本学习问题由李飞飞等[7] 于 2006 年提 出,使用贝叶斯的方法在一个或少数几个图像学 习问题中成功提取出了信息模型。文献 [8] 于 2015 年提出分层贝叶斯模型,该模型能从少量 样本中完成计算任务,并且达到了相当于人类水 平的识别率。随后迁移学习的提出给小样本学 习带来了新的处理方法[9]。文献 [10] 提出一种基 于堆栈降噪自编码与支持向量回归机的混合模 型,在相似源域大数据上预训练混合模型借助对 该知识的迁移,在目标域微调该混合模型,从而 提升支持向量回归机在小样本噪声数据上的学 习预测精度。 目前对于小样本图像分类问题,主要有增加 样本数量和根据问题选择特定算法两种方式[11-12]。 最初的样本数量增强技术,例如原始样本的旋 转、翻转和增加对比度等方法,在一定程度上解 决了样本的数量问题,但是往往因为相似度过 大,产生过拟合现象。如今,统计学上的各种采 样方法、生成对抗网络的提出,为样本的数量增 强提供了新的解决思路[13]。文献 [14] 采用 Bootstrap 法来解决电力负荷数据少的问题,利用放回 重复抽样的方法得到新的样本,利用一种类比关 系来进行统计推断,将小样本转换为大样本问 题,但是该方法会造成被估参数的均值过分依赖 样本子集的情况,不利于参数估计的稳健性。根 据研究问题的不同,选择特定的算法也可以显著 地提高实验效果[15-16]。文献 [17] 提出了利用蒙特 卡洛随机试验可以对特征参量进行统计估计的特 性,计算高光谱图像的最优降维特征数,对小样 本的高光谱图像进行降维,实验证明使用该方法 后图像的分类精度有了较大提高。但是,蒙特卡 罗的结果和准确性很大程度依赖于母体所建立的 数学模型。 2005 年 Chopra 等 [18] 第一次提出了孪生网络 的结构,该方法在人脸识别数据集上进行训练和 测试,取得了很好的识别效果。孪生网络创新地 采用了两个样本组成一对作为神经网络的输入的 结构。在不改变样本数量的条件下,增加了整体 样本循环一个批次的训练次数,更有效地完成特 征的提取,减少因样本少带来的过拟合问题。在 处理类别较多、每个类别样本少的分类任务有着 极强的优势。 为了解决小样本图像分类问题,采用以变分 自编码器为核心的孪生网络结构来实现对小样本 图像数据的分类。特征提取通过变分自编码器来 实现,无需人工提取,而孪生网络的相似度匹配 结构,可以有效地提高分类的正确率。 1 相关理论 1.1 孪生网络 孪生网络是一种特殊类型的神经网络结构, 与传统一个学习过程对应一个输入然后进行分类 的模型不同,该神经网络每个学习过程具有两个 输入,使用相同权重的神经网络对两个输入数据 进行处理,计算提取到的特征的相似度来分辨两 个数据的是否为同一类别。孪生网络结构如图 1 所示。 h2 , 1 h1 , 1 x2 , 1 x1 , 1 h1 , N1 h2 , N1 x1 , N1 x2 , N1 d1 dN2 p w(1) 1,1 w(1) 1,1 w(1) 3, N1 w(1) 3, N1 (1) w1, N1 (1) w1, N1 (1) w3,1 (1) w3,1 输入层 隐藏层 距离层 输出层 . . . . . . . . . . . . . . . 图 1 孪生网络结构 Fig. 1 Siamese network L Nl h1,l h2,l L−1 l ∈ {1,2,··· ,L−1} h1,m h2,m 最初的孪生网络基于全连接网络。网络有 个全连接层,每层有 个神经元, 表示在第一 个孪生网络分支 l 层的隐向量, 表示在第二个 孪生网络分支 l 层的隐向量,网络在前 层中 使用 ReLU 作为激活函数,对于 层网络中隐向量 、 按式 (1) 和式 (2) 计算: h1,m = max(0,WT l−1h1,(l−1) +bl) (1) h2,m = max(0,WT l−1h2,(l−1) +bl) (2) 式中: Wl−1 为 Nl−1 ×Nl 共享的权值矩阵; bl 为 l 层向 量的偏置;max 为求最大值。 经过输入层和隐藏层的前馈操作后,在距离 层 按 式 ( 3 ) 比较孪生网络生成的特征的距 离 E(W),用来评估特征的相似程度。 E (W) = ||h1,m − h2,m|| (3) 孪生网络结构具有两个权重相同、结构相同 的姐妹网络。输入图像两两组成一对,图像对中 的两个图像将分别送到两个姐妹网络中,然后使 第 2 期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·255·
·256· 智能系统学报 第16卷 用对比损失函数来优化网络。原始的姐妹网络使 征向量的相似度,得到输入样本的分类结果。最 用的是全连接结构,全连接网络参数众多,训练 后,对神经网络权重进行训练、调整。孪生变分 效率低。文献[19]对网络的特征提取过程进行改 自编码器结构如图2所示。 进,使用卷积神经网络作为姐妹网络来提取图像 特征提取 特征,取得了很好的效果。但是,卷积神经网络 Encoder 在样本数据量小时,易于产生过拟合现象。 使用孪生网络训练时,由于其逐对训练的原 理,将有平方级别对的数据可以来训练模型,这 Input】 分类 让模型很难过拟合。假设数据集样本有E类,每 类有C个样本,则一共有C×E张图片,总共可组 成的样本对数计算公式为 (C.E) Npln=21(C.E-2) (4) Input 2 以Omniglot数据集为例,对于数据集中的 964类(每类20个样本),别除其中相同类别的配 对,仍有183160对组合。孪生网络在不增加样本 的前提下,通过输入对匹配的方式,增加了样本 图2李生变分自编码器结构 的训练次数,从而提高了网络的学习能力,避免 Fig.2 Siamese variational auto-encoder 出现过拟合问题。 Input_1、Input2是样本数据的一组组合输 1.2变分自编码器 入,特征提取功能由变分自编码器的Encoder实 变分自编码器是2014年提出的一种基于变 现,(,D、(2,)为Input_1、Input2展开得到的输 分贝叶斯推断的生成式结构模型。变分自编码 入向量。(h,)为Input1输入第一个Encoder结 器总体上分为两个神经网络:Encoder和De- 构得到的隐向量,(h2,)为Input2输入第二个En- coder。Encoder通过变分参数的不断迭代、更新 coder结构后得到的隐向量。BT及B2T为En- 来最大化观测数据的边缘似然函数的下界,近似 coder的权重,并且两个Encoder结构的权重完全 不可观测变量的后验概率,输出隐变量的概率分 相同。4、o为输人数据经由Encoder结构提取到 布。Decoder则是根据Encoder输出的隐变量概 的期望与方差,该部分的计算原理同变分自编码 率分布还原生产原始数据的近似概率分布。 器相同,、2分别为Input1、Input2提取到的 变分自编码器具有和Dropout类似正则化作 特征向量。d为距离层,针对获得的特征选择欧 用的隐层采样过程,这使得模型的整个训练过程 式距离计算相似度,最后将输出归一化到[0,1]之 不容易发生过拟合问题与传统特征提取模型 间,使用sigmoid函数使之成为一个概率。 相比,更加适合解决样本数量较少的问题。变分 根据图2的孪生变分自编码器结构,给出相 自编码器现在已经广泛应用于高维数据降维、特 应孪生变分自编码器的计算流程,如图3所示。 征提取等方面2。 2基于李生变分自编码器的小样本 图像分类 2.1孪生变分自编码结构 综合变分自编码器减少过拟合问题和孪生网 络扩大样本训练次数的优点,对孪生网络进行改 进,使用变分自编码器的Encoder结构代替全连 接网络提取样本特征,减少了网络参数,提高训 E(W)-kzall 练效率。孪生变分自编码器首先建立变分自编码 器网络进行特征提取的无监督学习,然后使用两 个权重完全相同的变分自编码器Encoder结构搭 图3孪生变分自编码器的计算流程 建李生网络用于提取样本特征,在距离层计算特 Fig.3 Computation process of S-VAE
用对比损失函数来优化网络。原始的姐妹网络使 用的是全连接结构,全连接网络参数众多,训练 效率低。文献 [19] 对网络的特征提取过程进行改 进,使用卷积神经网络作为姐妹网络来提取图像 特征,取得了很好的效果。但是,卷积神经网络 在样本数据量小时,易于产生过拟合现象。 E C C × E 使用孪生网络训练时,由于其逐对训练的原 理,将有平方级别对的数据可以来训练模型,这 让模型很难过拟合。假设数据集样本有 类,每 类有 个样本,则一共有 张图片,总共可组 成的样本对数计算公式为 Npairs = (C · E) 2!(C · E −2) (4) 以 Omniglot 数据集为例,对于数据集中的 964 类 (每类 20 个样本),剔除其中相同类别的配 对,仍有 183 160 对组合。孪生网络在不增加样本 的前提下,通过输入对匹配的方式,增加了样本 的训练次数,从而提高了网络的学习能力,避免 出现过拟合问题。 1.2 变分自编码器 变分自编码器是 2014 年提出的一种基于变 分贝叶斯推断的生成式结构模型[20]。变分自编码 器总体上分为两个神经网络: Encoder 和 Decoder。Encoder 通过变分参数的不断迭代、更新 来最大化观测数据的边缘似然函数的下界,近似 不可观测变量的后验概率,输出隐变量的概率分 布。Decoder 则是根据 Encoder 输出的隐变量概 率分布还原生产原始数据的近似概率分布。 变分自编码器具有和 Dropout 类似正则化作 用的隐层采样过程,这使得模型的整个训练过程 不容易发生过拟合问题[21] ,与传统特征提取模型 相比,更加适合解决样本数量较少的问题。变分 自编码器现在已经广泛应用于高维数据降维、特 征提取等方面[17-24]。 2 基于孪生变分自编码器的小样本 图像分类 2.1 孪生变分自编码结构 综合变分自编码器减少过拟合问题和孪生网 络扩大样本训练次数的优点,对孪生网络进行改 进,使用变分自编码器的 Encoder 结构代替全连 接网络提取样本特征,减少了网络参数,提高训 练效率。孪生变分自编码器首先建立变分自编码 器网络进行特征提取的无监督学习,然后使用两 个权重完全相同的变分自编码器 Encoder 结构搭 建孪生网络用于提取样本特征,在距离层计算特 征向量的相似度,得到输入样本的分类结果。最 后,对神经网络权重进行训练、调整。孪生变分 自编码器结构如图 2 所示。 h1 ,i μenc1 σenc1 h1 ,1 Input_1 h1 ,m z1 z2 d Input_2 Encoder 分类 p 特征提取 x1 ,1 x1 ,i x1 ,m … … h2 ,i μenc2 σenc2 h2 ,1 β2 T β2 T β1 T β1 T h2 ,m Encoder x2 ,1 x2 ,i x2 ,m … … . . . . . . . . . . . . 图 2 孪生变分自编码器结构 Fig. 2 Siamese variational auto-encoder (x1,l) (x2,l) (h1,l) (h2,l) β1 T β2 T z1、z2 Input_1、Input_2 是样本数据的一组组合输 入,特征提取功能由变分自编码器的 Encoder 实 现, 、 为 Input_1、Input_2 展开得到的输 入向量。 为 Input_1 输入第一个 Encoder 结 构得到的隐向量, 为 Input_2 输入第二个 Encoder 结构后得到的隐向量。 及 为 Encoder 的权重,并且两个 Encoder 结构的权重完全 相同。μ、σ 为输入数据经由 Encoder 结构提取到 的期望与方差,该部分的计算原理同变分自编码 器相同, 分别为 Input_1、Input_2 提取到的 特征向量。d 为距离层,针对获得的特征选择欧 式距离计算相似度,最后将输出归一化到 [0,1] 之 间,使用 sigmoid 函数使之成为一个概率。 根据图 2 的孪生变分自编码器结构,给出相 应孪生变分自编码器的计算流程,如图 3 所示。 X1 X2 h1 μenc σenc μenc σenc h2 z1 E(W)=||z1−z2 || z2 p 图 3 孪生变分自编码器的计算流程 Fig. 3 Computation process of S-VAE ·256· 智 能 系 统 学 报 第 16 卷
第2期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·257· 图3中X、X2为输入样本对展开后得到的 程度。 维向量;hi、h2为网络第1层的输出;4ec、gemc (6) 为网络第2层的输出。z1、2为输人对经由变分 D(p(()=∑p()og g(zlx) 自编码器提取到的特征向量;E(W)在距离层计算 根据变分贝叶斯方法,样本数据x的边缘似 两个特征向量的欧式距离;p为归一化后得到的 然函数可以简化为 分类准确率。输入样本对经过两个权重相同的 log po(x)=DxL(qe(zx)po(x)+L0,:x)(7) Encoder结构提取到特征,组建成孪生网络,通过 式中:P为真实后验分布参数;0为隐层的近似分 相似度匹配算法,得到最终分类的类别以及正 布参数;式(7)中第一项为隐层的近似分布与真 确率。 实后验分布之间的KL散度,由于KL散度为非负 利用上述孪生变分自编码器的结构和计算流 值,仅当两个分布完全一致时,KL散度为0,因 程对小样本图片进行分类的具体过程如下: 此,可以展开为 1)将数据集以适当的比例分为训练数据集和 log po(x)L(0,:)=-DxL(qe(zlx)lp(z))+ (8) 测试数据集,对训练数据集使用变分自编码器进 E og p 行无监督的学习,训练特征提取模型。 通过最大化变分下界,即可以得到样本集的 2)初始化孪生变分自编码器结构,载入训练 最优估计。同时,可以将式(8)重写为 好的特征提取模型,将训练数据集作为输入对网 L(0,;x)= 络进行训练,调整网络各层权值。 3)将测试数据集作为输入,利用训练好的网 ∑+-og)-ei-aa (9) 络来进行分类任务。 2.2孪生变分自编码器特征提取 李生变分自编码器特征提取采用的是变分 2 自编码器的Encoder结构。变分自编码器是一个 式中:4ec、mc为编码器的输出;uec、dc为解 无监督学习的神经网络,本质上是构建了一个从 码器的输出;j为隐变量z的维度;L为隐变量z 隐变量z(隐含特征)生成目标数据Y的模型,通 在后验分布上的采样次数。然后,选择随机梯度 过缩小原始输入X与输出Y之间的重构误差进 下降法(stochastic gradient descent,SGD)来优化神 行学习。变分自编码器的“瓶颈”的结构可以有 经网络的参数,当式(9)收敛,编码器部分的输出 效地降低原始数据的维数,提取样本特征,实现 即为提取的特征值,解码器的输出为重构的原始 对原始样本的表示学习。变分自编码器结构如 样本。 图4所示。 针对图3孪生变分自编码器的计算流程,孪 生变分自编码器特征提取过程可以表示为 Encode Decode h1=f(Whx+bh) μemc=f(Waex+bus) (10) logene f(Wx+b) z=eme+Uee⊙E,8~N(0,1)》 式中:W、b为各层的权重和偏置项;x为输人数 据,实际使用的是变换为一维数据的Omniglot图 图4变分自编码器 像;h,为网络第1层的输出;hec、Teac为网络第二 Fig.4 Variational auto-encoder 层的输出;f是激活函数,基于高斯分布参数4、 对于原始样本集X,定义其特征值为隐变量 o,利用qo(dx)采样得到隐层输出z,其中,N(0,1) 乙,根据贝叶斯准则,z的后验概率密度函数为 为标准正态分布。 p()=P(k)p(a) 2.3孪生变分自编码器图像分类 p(x) (5) 两个原始数据成对输入Encoder,通过训练好 但是,边缘似然概率密度函数p(x)计算复 的编码器网络进行分布参数提取,可以得到两个 杂,因此变分贝叶斯推理中,通过引入近似分布 输入数据的特征向量、2,在距离层计算两个特 函数q(w)来拟合真实后验分布p(x),并利用 征向量的欧式距离,Ew为两个样本对输出特征的 Kullback-Leibler(KL)散度来比较两个分布的相似 欧式距离
X1、X2 h1、h2 µenc、σenc z1、z2 E(W) p 图 3 中 为输入样本对展开后得到的 一维向量; 为网络第 1 层的输出; 为网络第 2 层的输出。 为输入对经由变分 自编码器提取到的特征向量; 在距离层计算 两个特征向量的欧式距离; 为归一化后得到的 分类准确率。输入样本对经过两个权重相同的 Encoder 结构提取到特征,组建成孪生网络,通过 相似度匹配算法,得到最终分类的类别以及正 确率。 利用上述孪生变分自编码器的结构和计算流 程对小样本图片进行分类的具体过程如下: 1) 将数据集以适当的比例分为训练数据集和 测试数据集,对训练数据集使用变分自编码器进 行无监督的学习,训练特征提取模型。 2) 初始化孪生变分自编码器结构,载入训练 好的特征提取模型,将训练数据集作为输入对网 络进行训练,调整网络各层权值。 3) 将测试数据集作为输入,利用训练好的网 络来进行分类任务。 2.2 孪生变分自编码器特征提取 z 孪生变分自编码器特征提取采用的是变分 自编码器的 Encoder 结构。变分自编码器是一个 无监督学习的神经网络,本质上是构建了一个从 隐变量 (隐含特征) 生成目标数据 Y 的模型,通 过缩小原始输入 X 与输出 Y 之间的重构误差进 行学习。变分自编码器的“瓶颈”的结构可以有 效地降低原始数据的维数,提取样本特征,实现 对原始样本的表示学习。变分自编码器结构如 图 4 所示。 1 i μenc σenc μdec σdec z n... 1 i n... Encoder X ... ... Y Decoder 图 4 变分自编码器 Fig. 4 Variational auto-encoder z z 对于原始样本集 X,定义其特征值为隐变量 ,根据贝叶斯准则, 的后验概率密度函数为 p(z|x) = p(x|z)p(z) p(x) (5) p(x) q(z|x) p(z|x) 但是,边缘似然概率密度函数 计算复 杂,因此变分贝叶斯推理中,通过引入近似分布 函数 来拟合真实后验分布 ,并利用 Kullback-Leibler (KL) 散度来比较两个分布的相似 程度。 DKL(p(z|x)||q(z|x)) = ∑ p(z|x)log p(z|x) q(z|x) (6) 根据变分贝叶斯方法,样本数据 x 的边缘似 然函数可以简化为 log pθ(x (i) ) = DKL(qφ(z|x (i) )||pθ(z|x (i) ))+ L(θ,φ; x (i) ) (7) 式中: φ 为真实后验分布参数; θ 为隐层的近似分 布参数;式 (7) 中第一项为隐层的近似分布与真 实后验分布之间的 KL 散度,由于 KL 散度为非负 值,仅当两个分布完全一致时,KL 散度为 0,因 此,可以展开为 log pθ(x i ) ⩾ L(θ,φ; x (i) ) = −DKL(qφ(z|x (i) )||pθ(z))+ Eqφ(z|x (i) )[log pθ(x (i) |z)] (8) 通过最大化变分下界,即可以得到样本集的 最优估计。同时,可以将式 (8) 重写为 L ( θ, ϕ; x (i) ) = 1 2 ∑J j=1 ( 1+log(( σ (i) enc j )2 ) − ( µ (i) enc j )2 − ( σ (i) enc j )2 ) + 1 L ∑L l=1 −log( σ (i, j) dec √ 2π ) − ( x i −µ (i, j) dec )2 2σ (i, j) 2 dec (9) µenc、σenc µdec、σdec j z L z 式中: 为编码器的输出; 为解 码器的输出; 为隐变量 的维度; 为隐变量 在后验分布上的采样次数。然后,选择随机梯度 下降法 (stochastic gradient descent,SGD) 来优化神 经网络的参数,当式 (9) 收敛,编码器部分的输出 即为提取的特征值,解码器的输出为重构的原始 样本。 针对图 3 孪生变分自编码器的计算流程,孪 生变分自编码器特征提取过程可以表示为 h1 = f(Wh1 x+bh1 ) µenc = f(Wµenc x+bµenc ) logσenc = f(Wσenc x+bσenc ) z = µenc +σenc ⊙ε,ε ∼ N(0,1) (10) W b h1 µenc σenc f qϕ(z|x (i) ) z N(0,1) 式中: 、 为各层的权重和偏置项;x 为输入数 据,实际使用的是变换为一维数据的 Omniglot 图 像; 为网络第 1 层的输出; 、 为网络第二 层的输出; 是激活函数,基于高斯分布参数 μ、 σ,利用 采样得到隐层输出 ,其中, 为标准正态分布。 2.3 孪生变分自编码器图像分类 z1 z2 EW 两个原始数据成对输入 Encoder,通过训练好 的编码器网络进行分布参数提取,可以得到两个 输入数据的特征向量 、 ,在距离层计算两个特 征向量的欧式距离, 为两个样本对输出特征的 欧式距离。 第 2 期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·257·
·258· 智能系统学报 第16卷 Ew =lk-zll (11) 组属于N类中不相交的未标记样本进行分类。 使用sigmoid函数将匹配度映射到[0,1]之间 本文进行的实验是5-way1-shot、5-way5-shot、20- 成为一个分类结果的概率,同时方便使用交叉熵 way1-shot和20-way5-shot。 作为训练网络的代价函数。相似度为 3.2 Omniglot分类实验分析 p=∑- 整个模型分为5层,特征提取部分网络层数 (12) 为3层。第1层输入层为22050个节点,第2层为 孪生网络的对比损失函数为 2048个节点,第3层为4个节点,第4层为4个节 L(W)=L(w.x.) 点,第5层输出层为1个节点。训练该模型提取 (13) 样本图像的高层语义特征,然后再针对样本图像 式(13)可以展开为 提取的高层语义特征利用孪生变分自编码器模型 L(w,(YX1,X2月=(1-Y)(E(X1,X2)+ 进一步进行训练,最后使用分类器进行分类。 (14) Y(-En(X1,X2) 通过Omniglot数据集对孪生变分自编码器进 行测试,与原始孪生网络以及其他针对小样本图 式中:p表示输入的总样本数;i为当前样本的下 像分类方法实验结果进行对比。实验中用于对比 标。其中Y表示样本对的标签,Y∈1,0,。当Y=0 的小样本分类方法主要有文献[25]中引用的原始 时,表明本次输入样本对是同一类图片。此时的 孪生网络实验结果、文献[19]中提出的卷积孪生 样本对的损失函数(W)越小说明模型的参数越 网络、文献[26]提出的分层贝叶斯学习方法 合理。若(W)很大,则需要网络使用反向传播机 (HBPL)以及文献[27]提出的预采样匹配网络 制,对模型参数进行优化。当Y=1时,表明本次 (SSMN)。实验结果如表1所示。 输入样本对X1、X2不是同一类。此时,优化损失 函数L(W)会使使得来自不类别图像的损失尽可 表1 Omniglot数据集N-wayK-shot平均正确率 Table 1 Average accuracy of N-way K-shot of Omni- 能变大。结合式(12),本文模型的代价函数为 glot dataset % L(W,(Yz1,2月=(1-Yog(p31,2月+ 模型 5-way 5-way 20-way 20-way (15) Y1og1-p(a,z2) 1-shot 5-shot 1-shot 5-shot 式中:Y为输入对是否是同类的标签;p(a,2为 Siamese nets 93.7 98.4 88.2 97.0 第ⅰ个样本对输入网络后得到的归一化后的特征 HBPL1261 95.2 距离。代价函数可以使用标准反向传播算法进行 Convolution net 96.7 98.4 92.0 96.5 模型训练。 SSMN R7I 97.4 98.6 93.3 98.7 3实验结果与分析 S-VAE 98.0 98.7 94.1 98.9 3.1 Omniglot数据集构建 从表1中可以看出,S-VAE实验结果中,4种 实验使用Tensorflow框架设计神经网络并进 条件下孪生变分自编码器分类结果均高于卷积孪 行训练和测试,实验的硬件环境为i5-8300H处理 生神经网络。20-way1-shot情况下略微低于 器,8GB内存,软件环境为Windows 10操作系统。 HBPL模型,较其他方法,孪生变分自编码器具有 Omniglot数据集拥有50种文字,1623类手写 更高的分类正确率。20-way5-shot情况下本文提 字符。对于每类字符仅有20个样本,每个样本分 出的模型正确率最高,为98.9%。从表中可以看 别由不同的人绘制而成,分辨率为105×105。图5 出,S-VAE相较于原始的孪生网络分类正确率在 为数据集的4个示例。 4个对比实验下均有所提高,平均提高3.1%。 由于HBPL模型是一种针对Omniglot进行特 a Y 定处理的方法,在Omniglot笔画层次上进行图像 的分割,继而进行学习,缺乏在其他问题上的拓 图5 Omniglot数据集 展能力。因此,对余下3种算法和本文提出的模 Fig.5 Omniglot dataset 型,进行训练时间的比较,结果如表2所示。 针对Omniglot数据集的测试实验主要围绕 从表2的训练时间来看,孪生变分自编码器 N-wayK-shot展开:每种方法利用未经训练的 在训练接近2个小时后,可以完成训练,并且训练 N类中的K个已标记的样本进行训练,然后对一 用时最短,这说明李生变分自编码器可以实现对
EW = ||z1 −z2|| (11) 使用 sigmoid 函数将匹配度映射到 [0,1] 之间 成为一个分类结果的概率,同时方便使用交叉熵 作为训练网络的代价函数。相似度为 p = σ ∑ j ||z1 −z2 || (12) 孪生网络的对比损失函数为 L(W) = ∑p i=1 L ( W,(Y,X1,X2) i ) (13) 式 (13) 可以展开为 L ( W,(Y,X1 ,X2) i ) = (1−Y) ( Ew(X1 ,X2) i ) + Y ( −Ew(X1 ,X2) i ) (14) p i Y Y ∈ {1,0} Y= 0 L(W) L(W) Y= 1 X1、X2 L(W) 式中: 表示输入的总样本数; 为当前样本的下 标。其中 表示样本对的标签, 。当 时,表明本次输入样本对是同一类图片。此时的 样本对的损失函数 越小说明模型的参数越 合理。若 很大,则需要网络使用反向传播机 制,对模型参数进行优化。当 时,表明本次 输入样本对 不是同一类。此时,优化损失 函数 会使使得来自不类别图像的损失尽可 能变大。结合式 (12),本文模型的代价函数为 L ( W,(Y,z1 ,z2) i ) = (1−Y)log( p(z1 ,z2) i ) + Y log( 1− p(z1 ,z2) i ) (15) p(z1,z2) 式中: i Y 为输入对是否是同类的标签; 为 第 i 个样本对输入网络后得到的归一化后的特征 距离。代价函数可以使用标准反向传播算法进行 模型训练。 3 实验结果与分析 3.1 Omniglot 数据集构建 实验使用 Tensorflow 框架设计神经网络并进 行训练和测试,实验的硬件环境为 i5-8300H 处理 器,8 GB 内存,软件环境为 Windows 10 操作系统。 105×105 Omniglot 数据集拥有 50 种文字,1 623 类手写 字符。对于每类字符仅有 20 个样本,每个样本分 别由不同的人绘制而成,分辨率为 。图 5 为数据集的 4 个示例。 图 5 Omniglot 数据集 Fig. 5 Omniglot dataset 针对 Omniglot 数据集的测试实验主要围绕 N-way K-shot 展开:每种方法利用未经训练的 N 类中的 K 个已标记的样本进行训练,然后对一 组属于 N 类中不相交的未标记样本进行分类。 本文进行的实验是 5-way 1-shot、5-way 5-shot、20- way 1-shot 和 20-way 5-shot。 3.2 Omniglot 分类实验分析 整个模型分为 5 层,特征提取部分网络层数 为 3 层。第 1 层输入层为 22050 个节点,第 2 层为 2 048 个节点,第 3 层为 4 个节点,第 4 层为 4 个节 点,第 5 层输出层为 1 个节点。训练该模型提取 样本图像的高层语义特征,然后再针对样本图像 提取的高层语义特征利用孪生变分自编码器模型 进一步进行训练,最后使用分类器进行分类。 通过 Omniglot 数据集对孪生变分自编码器进 行测试,与原始孪生网络以及其他针对小样本图 像分类方法实验结果进行对比。实验中用于对比 的小样本分类方法主要有文献 [25] 中引用的原始 孪生网络实验结果、文献 [19] 中提出的卷积孪生 网络、文 献 [26] 提出的分层贝叶斯学习方 法 (HBPL) 以及文献 [27] 提出的预采样匹配网络 (SSMN)。实验结果如表 1 所示。 表 1 Omniglot 数据集 N-way K-shot 平均正确率 Table 1 Average accuracy of N-way K-shot of Omniglot dataset % 模型 5-way 1-shot 5-way 5-shot 20-way 1-shot 20-way 5-shot Siamese net[25] 93.7 98.4 88.2 97.0 HBPL[26] − − 95.2 − Convolution net[25] 96.7 98.4 92.0 96.5 SSMN [27] 97.4 98.6 93.3 98.7 S-VAE 98.0 98.7 94.1 98.9 从表 1 中可以看出,S-VAE 实验结果中,4 种 条件下孪生变分自编码器分类结果均高于卷积孪 生神经网络。20-way 1-shot 情况下略微低于 HBPL 模型,较其他方法,孪生变分自编码器具有 更高的分类正确率。20-way 5-shot 情况下本文提 出的模型正确率最高,为 98.9%。从表中可以看 出,S-VAE 相较于原始的孪生网络分类正确率在 4 个对比实验下均有所提高,平均提高 3.1%。 由于 HBPL 模型是一种针对 Omniglot 进行特 定处理的方法,在 Omniglot 笔画层次上进行图像 的分割,继而进行学习,缺乏在其他问题上的拓 展能力。因此,对余下 3 种算法和本文提出的模 型,进行训练时间的比较,结果如表 2 所示。 从表 2 的训练时间来看,孪生变分自编码器 在训练接近 2 个小时后,可以完成训练,并且训练 用时最短,这说明孪生变分自编码器可以实现对 ·258· 智 能 系 统 学 报 第 16 卷
第2期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·259· 小样本数据的快速分类,相较于另外3种算法,效 1.00 正确率 0.04 率更高。 0.98 损失 0.96 表2 Omniglot数据集N-wayK-shot训练时间 0.03 0.94 Table 2 Training time of N-way K-shot of Omniglot 能 0.92 dataset 0.90 .02 0.88 5-way 5-way 20-way 20-way 模型 0.86 0 1-shot 5-shot 1-shot 5-shot 0.84 Siamese net 21337.9 21663.121545.421581.3 0.82 0.80 Convolution net 17943.6 17736.4 17898.1 17975.1 020406080100120140160180200 迭代次数 SSMN 15936.5 15081.7 15573.6 15459.4 图820-way1-shot测试正确率和损失函数值 S-VAE 6954.69 7031.606714.38 7366.87 Fig.8 Test accuracy and loss of 20-way 1-shot 图6~9为本文提出模型的实验结果,主要包 1.00 括5-way1-shot、5-way5-shot、20-way1-shot和20- 0.98 0.96 way5-shot的测试错误率以及损失函数值的结 0.94 果。结合表1中的平均正确率,从图6中5-way1- 0.92 正确率 shot的测试实验结果可以看出,整体样本正确率 0.90 损失 02 0.88 达到98.0%,一部分样本可以100%地识别出来, 0.86 与原始孪生网络相比,分类正确率提高了4.3%。 0.84 0.82 结合图8可以看出,当样本类别数量增加到20类 时,20-way1-shot场景下整体测试样本正确率达 40 60 80100120140160180200 迭代次数 到了94.1%,与原始孪生网络相比,分类正确率提 图920-way5-shot测试正确率和损失函数值 高了5.9%。 Fig.9 Test accuracy and loss of 20-way 5-shot 正确率 损失 1.00 0.02 图10~12是以20-way1-shot和5-way1- shot为例,反映了不同类别,相同的训练样本数据 0.98 集经过测试后的结果有着明显差距。当训练数据 集样本数相同时,随着训练样本类别的增加,最 0.01 0.94 终识别难度变大,分类正确率下降。当样本类别 达到20,训练样本只有一个时,训练难度最大,图10 0.92 体现出20-way1-shot收敛速度明显慢于5-way1- shot条件下的收敛速度,正确率也略微下降。结 020406080100120140160180200 迭代次数 合图7以及表1中的平均正确率可以看出在难度 图65-way1-shot测试正确率和损失函数值 最大的20-way1-shot条件下,样本在迭代700次 Fig.6 Test accuracy and loss of 5-way 1-shot 之后收敛,测试正确率达到941%。 一正确率 一损失 ×10 100 2.5 -20-way 1-shot 20 -5-way 1-shot 0.98 0.96 1.5 2 94 1.0 0.92 0.5 0.9 020406080100120140160180200 01002003004005006007008009001000 迭代次数 迭代次数 图75-way5-shot测试正确率和损失函数值 图l0 different-way1-shot训练损失函数值 Fig.7 Test accuracy and loss of 5-way 5-shot Fig.10 Training loss of different-way 1-shot
小样本数据的快速分类,相较于另外 3 种算法,效 率更高。 表 2 Omniglot 数据集 N-way K-shot 训练时间 Table 2 Training time of N-way K-shot of Omniglot dataset s 模型 5-way 1-shot 5-way 5-shot 20-way 1-shot 20-way 5-shot Siamese net 21 337.9 21663.1 21 545.4 21581.3 Convolution net 17 943.6 17736.4 17 898.1 17975.1 SSMN 15 936.5 15081.7 15 573.6 15459.4 S-VAE 6 954.69 7031.60 6 714.38 7366.87 图 6~9 为本文提出模型的实验结果,主要包 括 5-way 1-shot、5-way 5-shot、20-way 1-shot 和 20- way 5-shot 的测试错误率以及损失函数值的结 果。结合表 1 中的平均正确率,从图 6 中 5-way 1- shot 的测试实验结果可以看出,整体样本正确率 达到 98.0%,一部分样本可以 100% 地识别出来, 与原始孪生网络相比,分类正确率提高了 4.3%。 结合图 8 可以看出,当样本类别数量增加到 20 类 时,20-way 1-shot 场景下整体测试样本正确率达 到了 94.1%,与原始孪生网络相比,分类正确率提 高了 5.9%。 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.92 0.94 0.96 0.98 1.00 正确率 0 0.01 0.02 损失 正确率 损失 图 6 5-way 1-shot 测试正确率和损失函数值 Fig. 6 Test accuracy and loss of 5-way 1-shot 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.9 0.92 0.94 0.96 0.98 1.00 正确率 0 2 4 损失 ×10-3 正确率 损失 图 7 5-way 5-shot 测试正确率和损失函数值 Fig. 7 Test accuracy and loss of 5-way 5-shot 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.80 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 0 0.01 0.02 0.03 0.04 损失 正确率 损失 图 8 20-way 1-shot 测试正确率和损失函数值 Fig. 8 Test accuracy and loss of 20-way 1-shot 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 0 0.02 0.04 损失 正确率 损失 图 9 20-way 5-shot 测试正确率和损失函数值 Fig. 9 Test accuracy and loss of 20-way 5-shot 图 10~12 是以 20-way 1-shot 和 5-way 1- shot 为例,反映了不同类别,相同的训练样本数据 集经过测试后的结果有着明显差距。当训练数据 集样本数相同时,随着训练样本类别的增加,最 终识别难度变大,分类正确率下降。当样本类别 达到 20,训练样本只有一个时,训练难度最大,图 10 体现出 20-way 1-shot 收敛速度明显慢于 5-way 1- shot 条件下的收敛速度,正确率也略微下降。结 合图 7 以及表 1 中的平均正确率可以看出在难度 最大的 20-way 1-shot 条件下,样本在迭代 700 次 之后收敛,测试正确率达到 94.1%。 0 100 200 300 400 500 600 700 800 900 1000 0.5 1.0 1.5 2.0 2.5 损失 20-way 1-shot 5-way 1-shot 迭代次数 图 10 different-way 1-shot 训练损失函数值 Fig. 10 Training loss of different-way 1-shot 第 2 期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·259·
·260· 智能系统学报 第16卷 1.0 2.5 -20-way 5-shot 09 20 -20-way 1-shot 0.8 1.5 0.7 1.0 -20-way 1-shot 0.5 0.5 5-way 1-shot 04 01002003004005006007008009001000 01002003004005006007008009001000 迭代次数 迭代次数 图11 different-.way1-shot训练正确率 图1320-way different-shot训练损失函数值 Fig.11 Training accuracy of different-way 1-shot Fig.13 Training loss of 20-way different-shot 1.0 1.00 0.9 0.98 0.96 0.8 0 8 0.6 0.88 -20-way 5-shot 0.5 -20-way 1-shot 0.86 0.84 -20-way 1-shot 04 -5-way 1-shot 01002003004005006007008009001000 0.82 迭代次数 0 20406080100120140160180200 迭代次数 图1420-way different-shot训练正确率 Fig.14 Training accuracy of 20-way different-shot 图l2 different-way1-shot测试正确率 Fig.12 Test accuracy of different-way 1-shot 1.00 0.98 图13-15是以20-way5-shot和20-way1- 0.96 shot为例,反映了相同类别,不同的训l练样本数 0.94 据集经过测试后的结果。当训练数据集样本数 0.92 相同时,随着训练样本类别的增加,最终识别难 090 0.88 度变大,分类正确率下降。结合表1中平均正 0.86 确率的实验结果对比,与原始的Siamese 0.84 -20-way 5-shot -20-way 1-shot Net2相比,在难度最高的20-way1-shot情况下, 0.82 20406080100120140160180200 李生变分自编码器分类正确率提高了5.9%,其 迭代次数 他情况下最低提高了0.3%,可以在说明本文所 图1520-way different-shot测试正确率 提出的混合模型的先进性。与Lake等o提出 Fig.15 Test accuracy of 20-way different-shot 的分层贝叶斯学习结构相比,李生变分自编码 器正确率低0.9%,但是Lake的方法使用的不是 4结束语 原始图像的像素,而是Omniglot的笔画数据,虽 针对小样本图像分类问题,本文提出了李生 然在Omniglot数据集上具有极高的分类正确率 变分自编码器网络模型。首先对训练样本数据使 却失去了向其他数据集拓展的能力,本文所提 用变分自编码器进行降维处理,提取样本的隐含 出的模型与之相比具有更好的泛化能力。从 特征,然后通过孪生网络,对成对输人的两个样 4种条件下的损失函数结合表2中几个方法的 本进行相似度匹配,返回与待测样本标签为同类 训练时间对比,孪生变分自编码器可以很快速 的样本类别以及正确率,完成物体的分类。通过 的收敛,在训练1000次后就已经达到了比较不 Omniglot数据集对模型效果进行4组实验验证, 错的分类效果。 本文提出的改进模型与原始孪生神经网络相比最
0 100 200 300 400 500 600 700 800 900 1000 0.4 0.5 0.6 0.7 0.8 0.9 1.0 正确率 20-way 1-shot 5-way 1-shot 迭代次数 图 11 different-way 1-shot 训练正确率 Fig. 11 Training accuracy of different-way 1-shot 0 20 40 60 80 100 120 140 160 180 200 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 20-way 1-shot 5-way 1-shot 迭代次数 图 12 different-way 1-shot 测试正确率 Fig. 12 Test accuracy of different-way 1-shot 图 13~15 是以 20-way 5-shot 和 20-way 1- shot 为例,反映了相同类别,不同的训练样本数 据集经过测试后的结果。当训练数据集样本数 相同时,随着训练样本类别的增加,最终识别难 度变大,分类正确率下降。结合表 1 中平均正 确率的实验结果对比,与原始 的 Siamese Net[25] 相比,在难度最高的 20-way 1-shot 情况下, 孪生变分自编码器分类正确率提高了 5.9%,其 他情况下最低提高了 0.3%,可以在说明本文所 提出的混合模型的先进性。与 Lake 等 [26] 提出 的分层贝叶斯学习结构相比,孪生变分自编码 器正确率低 0.9%,但是 Lake 的方法使用的不是 原始图像的像素,而是 Omniglot 的笔画数据,虽 然在 Omniglot 数据集上具有极高的分类正确率 却失去了向其他数据集拓展的能力,本文所提 出的模型与之相比具有更好的泛化能力。从 4 种条件下的损失函数结合表 2 中几个方法的 训练时间对比,孪生变分自编码器可以很快速 的收敛,在训练 1 000 次后就已经达到了比较不 错的分类效果。 0 100 200 300 400 500 600 700 800 900 1000 0.5 1.0 1.5 2.0 2.5 损失 20-way 5-shot 20-way 1-shot 迭代次数 图 13 20-way different-shot 训练损失函数值 Fig. 13 Training loss of 20-way different-shot 0 100 200 300 400 500 600 700 800 900 1000 0.4 0.5 0.6 0.7 0.8 0.9 1.0 正确率 20-way 5-shot 20-way 1-shot 迭代次数 图 14 20-way different-shot 训练正确率 Fig. 14 Training accuracy of 20-way different-shot 0 20 40 60 80 100 120 140 160 180 200 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 20-way 5-shot 20-way 1-shot 迭代次数 图 15 20-way different-shot 测试正确率 Fig. 15 Test accuracy of 20-way different-shot 4 结束语 针对小样本图像分类问题,本文提出了孪生 变分自编码器网络模型。首先对训练样本数据使 用变分自编码器进行降维处理,提取样本的隐含 特征,然后通过孪生网络,对成对输入的两个样 本进行相似度匹配,返回与待测样本标签为同类 的样本类别以及正确率,完成物体的分类。通过 Omniglot 数据集对模型效果进行 4 组实验验证, 本文提出的改进模型与原始孪生神经网络相比最 ·260· 智 能 系 统 学 报 第 16 卷
第2期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·261· 高提高了5.9%,平均提高3.1%。 [8]LAKE B M.SALAKHUTDINOV R.TENENBAUMJ B. 下一步工作将本文方法拓展应用到实际问题 Human-level concept learning through probabilistic pro- 中。在电力设备故障诊断中,只有很少的实际采 gram induction[J].Science,2015,350(6266):1332-1338. 集样本,因此,通常会额外生成模拟数据进行实 [9]宋丽丽.迁移度量学习行人再识别算法)计算机工程 验,本文下一步工作即通过孪生变分自编码器在 与应用,2019,5520):170-176,201. 仅使用实际采集样本的情况下对故障类型进行分类。 SONG Lili.Transfer metric learning for person re-identi- fication[J].Computer engineering and applications,2019, 参考文献: 5520:170-176,201 [10]任俊,胡晓峰,朱丰.基于深度学习特征迁移的装备体 [1]胡越,罗东阳,花奎,等.关于深度学习的综述与讨论) 系效能预测[.系统工程与电子技术,2017,39(12): 智能系统学报,2019,141上1-19. 2745-2749. HU Yue,LUO Dongyang,HUA Kui,et al.Overview on REN Jun,HU Xiaofeng.ZHU Feng.Effectiveness predic- deep learning[J].CAAI transactions on intelligent systems, tion of weapon equipment system-of-systems based on 2019,141):1-19 deep learning feature transfJ].Systems engineering and [2]马世龙,乌尼日其其格,李小平.大数据与深度学习综述 electronics.2017,39(12):2745-2749. [).智能系统学报,2016,11(6):728-742. [11]谭本东,杨军,赖秋频,等.基于改进CGAN的电力系统 MA Shilong,WUNIRI Qiqige,LI Xiaoping.Deep learn- 暂态稳定评估样本增强方法[刀.电力系统自动化, ing with big data:state of the art and development[J]. 2019,43(1:149-160 CAAI transactions on intelligent systems,2016,11(6): TAN Bendong,YANG Jun,LAI QiuPin,et al.Data aug- 728-742, ment method for power system transient stability assess- [3]王吴,刘高军,段建勇,等.基于特征自学习的交通模式 ment based on improved conditional generative adversari- 识别研究[J].哈尔滨工程大学学报,2019,40(2): al network[J].Automation of electric power systems, 354358. 2019,43(1):149-160. WANG Hao,LIU GaoJun,DUAN Jianyong,et al.Trans- [12]王建敏,吴云洁.基于聚类云模型的小样本数据可信度 portation mode detection based on self-learning of fea- 评估[.系统仿真学报,2019,31(7):1263-1271 tures[J].Journal of Harbin Engineering University,2019, WANG Jianmin,WU Yunjie.Credibility evaluation 40(2):354-358 method of small sample data based on cluster cloud mod- [4]张程熠,唐雅洁,李永杰,等.适用于小样本的神经网络 el[J].Journal of system simulation,2019,31(7)3 光伏预测方法[J].电力自动化设备,2017,37(1): 1263-1271 101-106,111. [13]杨懿男,齐林海,王红,等.基于生成对抗网络的小样本 ZHANG Chengyi,TANG Yajie,LI Yongjie,et al.Photo- 数据生成技术研究.电力建设,2019,40(5):71-77. voltaic power forecast based on neural network with a YANG Yinan,QI Linhai,WANG Hong,et al.Research small number of samples[J].Electric power automation on generation technology of small sample data based on Equipment,2017,37(1:101-106,111. generative adversarial network[J].Electric power con- [5]洪雁飞,魏本征,刘川,等.基于深度学习的椎间孔狭窄 struction,,2019,40(S):71-77. 自动多分级研究[.智能系统学报,2019,14(4):1-9. [I4]韩冬,马进,贺仁睦.基于Bootstrap的实测负荷模型参 HONG Feiyan,WEI Benzheng,LIU Chuan,et al.Deep 数优选J.电工技术学报,2012,27(8):141-146 learning based automatic multi-classification algorithm for HAN Dong,MA Jin,HE Renmu.Parameter optimization intervertebral foraminal stenosis[J].CAAI transactions on of measurement-based load model based on bootstrap[J]. intelligent systems,2019,14(4):1-9. Transactions of China electrotechnical society,2012, [6]王翔,胡学钢.高维小样本分类问题中特征选择研究综 27(8):141-146 述[).计算机应用,2017,37(9):2433-2438,2448 [15]马晓,张番栋,封举富.基于深度学习特征的稀疏表示 WANG Xiang,HU Xuegang.Overview on feature selec- 的人脸识别方法[J.智能系统学报,2016,11(3): tion in high-dimensional and small-sample-size classifica- 279-286. tion[J].Journal of computer applications,2017,37(9): MA Xiao,ZHANG Fandong,FENG Jufu.Sparse repres- 2433-2438.2448. entation via deep learning features based face recognition [7]LI Feifei,FERGUS R.PERONA P.One-shot learning of method[J].Transactions of China electrotechnical society, object categories[J].IEEE trans pattern anal mach intell, 2016,11(3:279-286. 2006,28(4):594-611. [16]马忠丽,刘权勇,武凌羽,等.一种基于联合表示的图像
高提高了 5.9%,平均提高 3.1%。 下一步工作将本文方法拓展应用到实际问题 中。在电力设备故障诊断中,只有很少的实际采 集样本,因此,通常会额外生成模拟数据进行实 验,本文下一步工作即通过孪生变分自编码器在 仅使用实际采集样本的情况下对故障类型进行分类。 参考文献: 胡越, 罗东阳, 花奎, 等. 关于深度学习的综述与讨论 [J]. 智能系统学报, 2019, 14(1): 1–19. HU Yue, LUO Dongyang, HUA Kui, et al. Overview on deep learning[J]. CAAI transactions on intelligent systems, 2019, 14(1): 1–19. [1] 马世龙, 乌尼日其其格, 李小平. 大数据与深度学习综述 [J]. 智能系统学报, 2016, 11(6): 728–742. MA Shilong, WUNIRI Qiqige, LI Xiaoping. Deep learning with big data: state of the art and development[J]. CAAI transactions on intelligent systems, 2016, 11(6): 728–742. [2] 王昊, 刘高军, 段建勇, 等. 基于特征自学习的交通模式 识别研究 [J]. 哈尔滨工程大学学报, 2019, 40(2): 354–358. WANG Hao, LIU GaoJun, DUAN Jianyong, et al. Transportation mode detection based on self-learning of features[J]. Journal of Harbin Engineering University, 2019, 40(2): 354–358. [3] 张程熠, 唐雅洁, 李永杰, 等. 适用于小样本的神经网络 光伏预测方法 [J]. 电力自动化设备, 2017, 37(1): 101–106, 111. ZHANG Chengyi, TANG Yajie, LI Yongjie, et al. Photovoltaic power forecast based on neural network with a small number of samples[J]. Electric power automation Equipment, 2017, 37(1): 101–106, 111. [4] 洪雁飞, 魏本征, 刘川, 等. 基于深度学习的椎间孔狭窄 自动多分级研究 [J]. 智能系统学报, 2019, 14(4): 1–9. HONG Feiyan, WEI Benzheng, LIU Chuan, et al. Deep learning based automatic multi-classification algorithm for intervertebral foraminal stenosis[J]. CAAI transactions on intelligent systems, 2019, 14(4): 1–9. [5] 王翔, 胡学钢. 高维小样本分类问题中特征选择研究综 述 [J]. 计算机应用, 2017, 37(9): 2433–2438, 2448. WANG Xiang, HU Xuegang. Overview on feature selection in high-dimensional and small-sample-size classification[J]. Journal of computer applications, 2017, 37(9): 2433–2438, 2448. [6] LI Feifei, FERGUS R, PERONA P. One-shot learning of object categories[J]. IEEE trans pattern anal mach intell, 2006, 28(4): 594–611. [7] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332–1338. [8] 宋丽丽. 迁移度量学习行人再识别算法 [J]. 计算机工程 与应用, 2019, 55(20): 170–176, 201. SONG Lili. Transfer metric learning for person re-identification[J]. Computer engineering and applications, 2019, 55(20): 170–176, 201. [9] 任俊, 胡晓峰, 朱丰. 基于深度学习特征迁移的装备体 系效能预测 [J]. 系统工程与电子技术, 2017, 39(12): 2745–2749. REN Jun, HU Xiaofeng, ZHU Feng. Effectiveness prediction of weapon equipment system-of-systems based on deep learning feature transf[J]. Systems engineering and electronics, 2017, 39(12): 2745–2749. [10] 谭本东, 杨军, 赖秋频, 等. 基于改进 CGAN 的电力系统 暂态稳定评估样本增强方法 [J]. 电力系统自动化, 2019, 43(1): 149–160. TAN Bendong, YANG Jun, LAI QiuPin, et al. Data augment method for power system transient stability assessment based on improved conditional generative adversarial network[J]. Automation of electric power systems, 2019, 43(1): 149–160. [11] 王建敏, 吴云洁. 基于聚类云模型的小样本数据可信度 评估 [J]. 系统仿真学报, 2019, 31(7): 1263–1271. WANG Jianmin, WU Yunjie. Credibility evaluation method of small sample data based on cluster cloud model[J]. Journal of system simulation, 2019, 31(7): 1263–1271. [12] 杨懿男, 齐林海, 王红, 等. 基于生成对抗网络的小样本 数据生成技术研究 [J]. 电力建设, 2019, 40(5): 71–77. YANG Yinan, QI Linhai, WANG Hong, et al. Research on generation technology of small sample data based on generative adversarial network[J]. Electric power construction, 2019, 40(5): 71–77. [13] 韩冬, 马进, 贺仁睦. 基于 Bootstrap 的实测负荷模型参 数优选 [J]. 电工技术学报, 2012, 27(8): 141–146. HAN Dong, MA Jin, HE Renmu. Parameter optimization of measurement-based load model based on bootstrap[J]. Transactions of China electrotechnical society, 2012, 27(8): 141–146. [14] 马晓, 张番栋, 封举富. 基于深度学习特征的稀疏表示 的人脸识别方法 [J]. 智能系统学报, 2016, 11(3): 279–286. MA Xiao, ZHANG Fandong, FENG Jufu. Sparse representation via deep learning features based face recognition method[J]. Transactions of China electrotechnical society, 2016, 11(3): 279–286. [15] [16] 马忠丽, 刘权勇, 武凌羽, 等. 一种基于联合表示的图像 第 2 期 王德文,等:基于孪生变分自编码器的小样本图像分类方法 ·261·
·262· 智能系统学报 第16卷 分类方法U.智能系统学报,2018,13(2):220-226 2018,38(19):5869-5877,5945 MA Zhongli,LIU Quanyong,WU Lingyu,et al.Syncret- [23]Lu Guangquan,Zhao Xishun,Yin Jian,et al.Multi-task ic representation method for image classification[J]. learning using variational auto-Encoder for sentiment CAAI transactions on intelligent systems,2018,13(2): classification[J].Pattern recognition letters,2018. 220-226. [24]ZAKHAROV N,SU H.ZHU J,et al.Towards control- [l7刀赵春晖,齐滨,Eunseog Youn.基于蒙特卡罗特征降维 lable image descriptions with semi-supervised VAE[J]. 算法的小样本高光谱图像分类).红外与毫米波学报, Journal of visual communication and image representa- 2013.32(1上62-67. tion,2019,63:102574. ZHAO Chun Hui,QI Bin,EUNSEOG Youn.Hyperspec- [25]VINYALS O,BLUNDELL C.LILLICRAP T.et al. tral image classification based on Monte Carlo feature re- Matching networks for one shot learning [C]//Proc of the duction method[J].Journal of infrared and millimeter Advances in Neural Information Processing Systems, waves.2013,32(162-67. 2016:3630-3638 [18]CHOPRA S,HADSELL R,LECUN Y.Learning a simil- [26]LAKE B M,SALAKHUTDINOV R,TENENBAUM J B. arity metric discriminatively,with application to face One-shot learning by inverting a compositional causal verification[C]//2005 IEEE Computer Society Confer- process[C]//International Conference on Neural Informa- ence on Computer Vision and Pattern Recognition(CV- tion Processing Systems.Curran Associates Inc 2013. PR'05),San Diego,USA,2005:539-546. [27]ZHANG Ling,IIU Jun,LUO Minnan,et al.Hauptmann, [19]KOCH G,ZEMEL R,SALAKHUTDINOV R.Siamese Scheduled sampling for one-shot learning via matching network[J].Pattern Recongnition,2019,96:106962 neural networks for one-shot image recognition[C]//Proc of the ICML Deep Learning Workshop,Lille,France 作者简介: 2015. 王德文,副教授,博士,主要研究 [20]KINGMA D P.WELLING M.Auto-encoding variational 方向为人工智能与大数据。发表学术 bayes[C]//International Conference on Learning Repres- 论文60余篇。 entations,[S.1.],2014. [21]LIU Guojun,LIUYang,GUO Maozu,et al.Variational inference with Gaussian mixture model and householder flow[J].Neural networks,2019,109:43-55. [22]宋辉,代杰杰,张卫东,等.基于变分贝叶斯自编码器的 魏波涛,硕士研究生,主要研究方 局部放电数据匹配方法[刀.中国电机工程学报,2018, 向为人工智能与图像处理。 38(19):5869-5877,5945 SONG Hui,DAI Jiejie,ZHANG Weidong,et al.A data matching method of partial discharge data based on auto- encoding briational Bayes[J].Proceedings of the CSEE
分类方法 [J]. 智能系统学报, 2018, 13(2): 220–226. MA Zhongli, LIU Quanyong, WU Lingyu, et al. Syncretic representation method for image classification[J]. CAAI transactions on intelligent systems, 2018, 13(2): 220–226. 赵春晖, 齐滨, Eunseog Youn. 基于蒙特卡罗特征降维 算法的小样本高光谱图像分类 [J]. 红外与毫米波学报, 2013, 32(1): 62–67. ZHAO Chun Hui, QI Bin, EUNSEOG Youn. Hyperspectral image classification based on Monte Carlo feature reduction method[J]. Journal of infrared and millimeter waves, 2013, 32(1): 62–67. [17] CHOPRA S, HADSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego, USA, 2005: 539−546. [18] KOCH G, ZEMEL R, SALAKHUTDINOV R. Siamese neural networks for one-shot image recognition[C]// Proc of the ICML Deep Learning Workshop, Lille, France 2015. [19] KINGMA D P, WELLING M. Auto-encoding variational bayes[C]//International Conference on Learning Representations, [S.l.], 2014. [20] LIU Guojun, LIUYang, GUO Maozu, et al. Variational inference with Gaussian mixture model and householder flow[J]. Neural networks, 2019, 109: 43–55. [21] 宋辉, 代杰杰, 张卫东, 等. 基于变分贝叶斯自编码器的 局部放电数据匹配方法 [J]. 中国电机工程学报, 2018, 38(19): 5869–5877, 5945. SONG Hui, DAI Jiejie, ZHANG Weidong, et al. A data matching method of partial discharge data based on autoencoding briational Bayes[J]. Proceedings of the CSEE, [22] 2018, 38(19): 5869–5877, 5945. Lu Guangquan, Zhao Xishun, Yin Jian, et al. Multi-task learning using variational auto-Encoder for sentiment classification[J]. Pattern recognition letters, 2018. [23] ZAKHAROV N, SU H, ZHU J, et al. Towards controllable image descriptions with semi-supervised VAE[J]. Journal of visual communication and image representation, 2019, 63: 102574. [24] VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning [C]// Proc of the Advances in Neural Information Processing Systems, 2016: 3630−3638 [25] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. One-shot learning by inverting a compositional causal process[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc 2013. [26] ZHANG Ling, lIU Jun, LUO Minnan, et al. Hauptmann, Scheduled sampling for one-shot learning via matching network[J]. Pattern Recongnition, 2019, 96: 106962. [27] 作者简介: 王德文,副教授,博士,主要研究 方向为人工智能与大数据。发表学术 论文 60 余篇。 魏波涛,硕士研究生,主要研究方 向为人工智能与图像处理。 ·262· 智 能 系 统 学 报 第 16 卷