【机器感知与模式识别】基于孪生变分自编码器的小样本图像分类方法

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：3.82MB

第16卷第2期智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.201906022 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20200714.0932.004html 基于孪生变分自编码器的小样本图像分类方法王德文，魏波涛 (华北电力大学控制与计算机工程学院，河北保定071000) 摘要：当前深度学习大都基于大量数据通过构建深层次的网络实现自动识别，但在很多场景中难以获得大量的样本数据。针对这一问题，提出一种基于李生变分自编码器(siamese variational auto-encoder,.S-VAE)的小样本图像分类方法。通过变分自编码器提取原始训练数据的高层语义特征，然后由两个训练好的变分自编码器的编码器部分组建孪生网络的输入结构，最后通过分类器对样本进行识别。变分自编码器可以解决样本数据量少带来的过拟合问题，孪生网络的结构增加了样本数量较少的情况下的训练次数。在Omniglot数据集上进行的实验结果表明：本方法与原始孪生神经网络相比正确率平均提高了31%，模型收敛速度更快，证明了孪生变分自编码器能够较好地完成小样本数据分类任务。关键词：小样本；变分自编码器：孪生网络：图像识别；过拟合；特征向量；深度学习；数据增强中图分类号：TP183文献标志码：A文章编号：1673-4785(2021)02-0254-09 中文引用格式：王德文，魏波涛.基于李生变分自编码器的小样本图像分类方法J智能系统学报，2021,16(2)：254-262. 英文引用格式：VANG Dewen,WEI Botao..A small--sample image classification method based on a Siamese variational auto-en- coder[J].CAAI transactions on intelligent systems,2021,16(2):254-262. A small-sample image classification method based on a Siamese variational auto-encoder WANG Dewen,WEI Botao (School of Control and Computer Engineering,North China Electric Power University,Baoding 071000,China) Abstract:Currently,most deep learning is based on the use of large amounts of data and the construction of a deep net- work to achieve automatic recognition,but it is difficult to obtain a large amount of sample data in many scenarios.To solve this problem,we propose the use of a small-sample image classification method based on a Siamese variational auto- encoder(S-VAE).First,the high-level semantic features of the original training data are extracted by the variational auto- encoder.Then,the input structure of the Siamese network is constructed by the encoders of two trained variational auto-en- coders.Lastly,the samples are identified by the classifier.The variational auto-encoder can solve the over-fitting problem caused by small amounts of sample data,and the structure of the Siamese network increases the training number when the sample size is small.The experimental results on the Omniglot dataset show that this method has a 3.1%average improve- ment in accuracy compared with the original Siamese network.The model convergence speed is also faster,which proves that the S-VAE can better complete the classification task when using small-sample data. Keywords:small sample;variational auto-encoder(VAE);siamese network;image recognition;over-fitting;eigen- vector:deep learning:data augmentation 大量的图像样本数据和强大的计算资源，使景。深度学习从大量的样本中学习样本的特征分得深度学习在图像处理领域有着广阔的应用前布，然后经过多次迭代优化各层权重，最后通过分类器实现图像分类。但是在一些特殊或者收稿日期：2019-06-12.网络出版日期：2020-07-14. 基金项目：国家自然科学基金项目(51677072) 难以复现的场景中，难以获得足够的样本。由通信作者：魏波涛.E-mail:764387445@qq.com 于样本数量很少，使用深层神经网络往往会导致

DOI: 10.11992/tis.201906022 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200714.0932.004.html 基于孪生变分自编码器的小样本图像分类方法王德文，魏波涛（华北电力大学控制与计算机工程学院，河北保定 071000）摘要：当前深度学习大都基于大量数据通过构建深层次的网络实现自动识别，但在很多场景中难以获得大量的样本数据。针对这一问题，提出一种基于孪生变分自编码器 (siamese variational auto-encoder，S-VAE) 的小样本图像分类方法。通过变分自编码器提取原始训练数据的高层语义特征，然后由两个训练好的变分自编码器的编码器部分组建孪生网络的输入结构，最后通过分类器对样本进行识别。变分自编码器可以解决样本数据量少带来的过拟合问题，孪生网络的结构增加了样本数量较少的情况下的训练次数。在 Omniglot 数据集上进行的实验结果表明：本方法与原始孪生神经网络相比正确率平均提高了 3.1%，模型收敛速度更快，证明了孪生变分自编码器能够较好地完成小样本数据分类任务。关键词：小样本；变分自编码器；孪生网络；图像识别；过拟合；特征向量；深度学习；数据增强中图分类号：TP183 文献标志码：A 文章编号：1673−4785(2021)02−0254−09 中文引用格式：王德文, 魏波涛. 基于孪生变分自编码器的小样本图像分类方法 [J]. 智能系统学报, 2021, 16(2): 254–262. 英文引用格式：WANG Dewen, WEI Botao. A small-sample image classification method based on a Siamese variational auto-encoder[J]. CAAI transactions on intelligent systems, 2021, 16(2): 254–262. A small-sample image classification method based on a Siamese variational auto-encoder WANG Dewen，WEI Botao (School of Control and Computer Engineering, North China Electric Power University, Baoding 071000, China) Abstract: Currently, most deep learning is based on the use of large amounts of data and the construction of a deep network to achieve automatic recognition, but it is difficult to obtain a large amount of sample data in many scenarios. To solve this problem, we propose the use of a small-sample image classification method based on a Siamese variational autoencoder (S-VAE). First, the high-level semantic features of the original training data are extracted by the variational autoencoder. Then, the input structure of the Siamese network is constructed by the encoders of two trained variational auto-encoders. Lastly, the samples are identified by the classifier. The variational auto-encoder can solve the over-fitting problem caused by small amounts of sample data, and the structure of the Siamese network increases the training number when the sample size is small. The experimental results on the Omniglot dataset show that this method has a 3.1% average improvement in accuracy compared with the original Siamese network. The model convergence speed is also faster, which proves that the S-VAE can better complete the classification task when using small-sample data. Keywords: small sample; variational auto-encoder (VAE); siamese network; image recognition; over-fitting; eigenvector; deep learning; data augmentation 大量的图像样本数据和强大的计算资源，使得深度学习在图像处理领域有着广阔的应用前景。深度学习从大量的样本中学习样本的特征分布，然后经过多次迭代优化各层权重，最后通过分类器实现图像分类[1-3]。但是在一些特殊或者难以复现的场景中，难以获得足够的样本[4]。由于样本数量很少，使用深层神经网络往往会导致收稿日期：2019−06−12. 网络出版日期：2020−07−14. 基金项目：国家自然科学基金项目 (51677072). 通信作者：魏波涛. E-mail：764387445@qq.com. 第 16 卷第 2 期智能系统学报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021

第2期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·255· 过拟合的现象出现，减少网络层数则会影响特征自编码器为核心的孪生网络结构来实现对小样本提取，导致分类正确率下降。小样本图像分类图像数据的分类。特征提取通过变分自编码器来现在仍是深度学习中一个重要的研究问题。实现，无需人工提取，而孪生网络的相似度匹配小样本学习问题由李飞飞等”于2006年提结构，可以有效地提高分类的正确率。出，使用贝叶斯的方法在一个或少数几个图像学习问题中成功提取出了信息模型。文献[8]于 1相关理论 2015年提出分层贝叶斯模型，该模型能从少量 1.1李生网络样本中完成计算任务，并且达到了相当于人类水孪生网络是一种特殊类型的神经网络结构平的识别率。随后迁移学习的提出给小样本学与传统一个学习过程对应一个输入然后进行分类习带来了新的处理方法9。文献[10]提出一种基的模型不同，该神经网络每个学习过程具有两个于堆栈降噪自编码与支持向量回归机的混合模输入，使用相同权重的神经网络对两个输入数据型，在相似源域大数据上预训练混合模型借助对进行处理，计算提取到的特征的相似度来分辨两该知识的迁移，在目标域微调该混合模型，从而个数据的是否为同一类别。孪生网络结构如图1 提升支持向量回归机在小样本噪声数据上的学所示。习预测精度。输人层隐藏层距离层输出层目前对于小样本图像分类问题，主要有增加样本数量和根据问题选择特定算法两种方式。 ,1 w出 h,1 最初的样本数量增强技术，例如原始样本的旋转、翻转和增加对比度等方法，在一定程度上解决了样本的数量问题，但是往往因为相似度过大，产生过拟合现象。如今，统计学上的各种采 Xi N hy N 样方法、生成对抗网络的提出，为样本的数量增强提供了新的解决思路1。文献[14采用Boot- w出 strap法来解决电力负荷数据少的问题，利用放回重复抽样的方法得到新的样本，利用一种类比关系来进行统计推断，将小样本转换为大样本问题，但是该方法会造成被估参数的均值过分依赖样本子集的情况，不利于参数估计的稳健性。根图1李生网络结构据研究问题的不同，选择特定的算法也可以显著 Fig.1 Siamese network 地提高实验效果5。文献17刀提出了利用蒙特最初的孪生网络基于全连接网络。网络有L 卡洛随机试验可以对特征参量进行统计估计的特个全连接层，每层有N个神经元，hu表示在第一性，计算高光谱图像的最优降维特征数，对小样个李生网络分支I层的隐向量，2表示在第二个本的高光谱图像进行降维，实验证明使用该方法李生网络分支1层的隐向量，网络在前L-1层中后图像的分类精度有了较大提高。但是，蒙特卡使用ReLU作为激活函数，对于1∈1,2，…，L-1 罗的结果和准确性很大程度依赖于母体所建立的层网络中隐向量h1m、h2m按式(I)和式(2)计算：数学模型。 hm max(0.WL hid-1+bi) (1) 2005年Chopra等1第一次提出了孪生网络 h2m max(0,WL h2d-1)+bi) (2) 的结构，该方法在人脸识别数据集上进行训练和式中：W-1为N-1×N共享的权值矩阵；b为I层向测试，取得了很好的识别效果。孪生网络创新地量的偏置；max为求最大值。采用了两个样本组成一对作为神经网络的输入的经过输入层和隐藏层的前馈操作后，在距离结构。在不改变样本数量的条件下，增加了整体层按式(3)比较孪生网络生成的特征的距离样本循环一个批次的训练次数，更有效地完成特 E(,用来评估特征的相似程度。征的提取，减少因样本少带来的过拟合问题。在 E(W)=llhm-hzmll (3) 处理类别较多、每个类别样本少的分类任务有着孪生网络结构具有两个权重相同、结构相同极强的优势。的姐妹网络。输入图像两两组成一对，图像对中为了解决小样本图像分类问题，采用以变分的两个图像将分别送到两个姐妹网络中，然后使

过拟合的现象出现，减少网络层数则会影响特征提取，导致分类正确率下降[5]。小样本图像分类现在仍是深度学习中一个重要的研究问题[6]。小样本学习问题由李飞飞等[7] 于 2006 年提出，使用贝叶斯的方法在一个或少数几个图像学习问题中成功提取出了信息模型。文献 [8] 于 2015 年提出分层贝叶斯模型，该模型能从少量样本中完成计算任务，并且达到了相当于人类水平的识别率。随后迁移学习的提出给小样本学习带来了新的处理方法[9]。文献 [10] 提出一种基于堆栈降噪自编码与支持向量回归机的混合模型，在相似源域大数据上预训练混合模型借助对该知识的迁移，在目标域微调该混合模型，从而提升支持向量回归机在小样本噪声数据上的学习预测精度。目前对于小样本图像分类问题，主要有增加样本数量和根据问题选择特定算法两种方式[11-12]。最初的样本数量增强技术，例如原始样本的旋转、翻转和增加对比度等方法，在一定程度上解决了样本的数量问题，但是往往因为相似度过大，产生过拟合现象。如今，统计学上的各种采样方法、生成对抗网络的提出，为样本的数量增强提供了新的解决思路[13]。文献 [14] 采用 Bootstrap 法来解决电力负荷数据少的问题，利用放回重复抽样的方法得到新的样本，利用一种类比关系来进行统计推断，将小样本转换为大样本问题，但是该方法会造成被估参数的均值过分依赖样本子集的情况，不利于参数估计的稳健性。根据研究问题的不同，选择特定的算法也可以显著地提高实验效果[15-16]。文献 [17] 提出了利用蒙特卡洛随机试验可以对特征参量进行统计估计的特性，计算高光谱图像的最优降维特征数，对小样本的高光谱图像进行降维，实验证明使用该方法后图像的分类精度有了较大提高。但是，蒙特卡罗的结果和准确性很大程度依赖于母体所建立的数学模型。 2005 年 Chopra 等 [18] 第一次提出了孪生网络的结构，该方法在人脸识别数据集上进行训练和测试，取得了很好的识别效果。孪生网络创新地采用了两个样本组成一对作为神经网络的输入的结构。在不改变样本数量的条件下，增加了整体样本循环一个批次的训练次数，更有效地完成特征的提取，减少因样本少带来的过拟合问题。在处理类别较多、每个类别样本少的分类任务有着极强的优势。为了解决小样本图像分类问题，采用以变分自编码器为核心的孪生网络结构来实现对小样本图像数据的分类。特征提取通过变分自编码器来实现，无需人工提取，而孪生网络的相似度匹配结构，可以有效地提高分类的正确率。 1 相关理论 1.1 孪生网络孪生网络是一种特殊类型的神经网络结构，与传统一个学习过程对应一个输入然后进行分类的模型不同，该神经网络每个学习过程具有两个输入，使用相同权重的神经网络对两个输入数据进行处理，计算提取到的特征的相似度来分辨两个数据的是否为同一类别。孪生网络结构如图 1 所示。 h2 , 1 h1 , 1 x2 , 1 x1 , 1 h1 , N1 h2 , N1 x1 , N1 x2 , N1 d1 dN2 p w(1) 1,1 w(1) 1,1 w(1) 3, N1 w(1) 3, N1 (1) w1, N1 (1) w1, N1 (1) w3,1 (1) w3,1 输入层隐藏层距离层输出层 . . . . . . . . . . . . . . . 图 1 孪生网络结构 Fig. 1 Siamese network L Nl h1,l h2,l L−1 l ∈ {1,2,··· ,L−1} h1,m h2,m 最初的孪生网络基于全连接网络。网络有个全连接层，每层有个神经元，表示在第一个孪生网络分支 l 层的隐向量，表示在第二个孪生网络分支 l 层的隐向量，网络在前层中使用 ReLU 作为激活函数，对于层网络中隐向量、按式 (1) 和式 (2) 计算： h1,m = max(0,WT l−1h1,(l−1) +bl) (1) h2,m = max(0,WT l−1h2,(l−1) +bl) (2) 式中： Wl−1 为 Nl−1 ×Nl 共享的权值矩阵； bl 为 l 层向量的偏置；max 为求最大值。经过输入层和隐藏层的前馈操作后，在距离层按式 ( 3 ) 比较孪生网络生成的特征的距离 E(W)，用来评估特征的相似程度。 E (W) = ||h1,m − h2,m|| (3) 孪生网络结构具有两个权重相同、结构相同的姐妹网络。输入图像两两组成一对，图像对中的两个图像将分别送到两个姐妹网络中，然后使第 2 期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·255·

·256· 智能系统学报第16卷用对比损失函数来优化网络。原始的姐妹网络使征向量的相似度，得到输入样本的分类结果。最用的是全连接结构，全连接网络参数众多，训练后，对神经网络权重进行训练、调整。孪生变分效率低。文献[19]对网络的特征提取过程进行改自编码器结构如图2所示。进，使用卷积神经网络作为姐妹网络来提取图像特征提取特征，取得了很好的效果。但是，卷积神经网络 Encoder 在样本数据量小时，易于产生过拟合现象。使用孪生网络训练时，由于其逐对训练的原理，将有平方级别对的数据可以来训练模型，这 Input】分类让模型很难过拟合。假设数据集样本有E类，每类有C个样本，则一共有C×E张图片，总共可组成的样本对数计算公式为 (C.E) Npln=21(C.E-2) (4) Input 2 以Omniglot数据集为例，对于数据集中的 964类（每类20个样本），别除其中相同类别的配对，仍有183160对组合。孪生网络在不增加样本的前提下，通过输入对匹配的方式，增加了样本图2李生变分自编码器结构的训练次数，从而提高了网络的学习能力，避免 Fig.2 Siamese variational auto-encoder 出现过拟合问题。 Input_1、Input2是样本数据的一组组合输 1.2变分自编码器入，特征提取功能由变分自编码器的Encoder实变分自编码器是2014年提出的一种基于变现，(，D、(2,)为Input_1、Input2展开得到的输分贝叶斯推断的生成式结构模型。变分自编码入向量。(h,)为Input1输入第一个Encoder结器总体上分为两个神经网络：Encoder和De- 构得到的隐向量，(h2,)为Input2输入第二个En- coder。Encoder通过变分参数的不断迭代、更新 coder结构后得到的隐向量。BT及B2T为En- 来最大化观测数据的边缘似然函数的下界，近似 coder的权重，并且两个Encoder结构的权重完全不可观测变量的后验概率，输出隐变量的概率分相同。4、o为输人数据经由Encoder结构提取到布。Decoder则是根据Encoder输出的隐变量概的期望与方差，该部分的计算原理同变分自编码率分布还原生产原始数据的近似概率分布。器相同，、2分别为Input1、Input2提取到的变分自编码器具有和Dropout类似正则化作特征向量。d为距离层，针对获得的特征选择欧用的隐层采样过程，这使得模型的整个训练过程式距离计算相似度，最后将输出归一化到[0,1]之不容易发生过拟合问题与传统特征提取模型间，使用sigmoid函数使之成为一个概率。相比，更加适合解决样本数量较少的问题。变分根据图2的孪生变分自编码器结构，给出相自编码器现在已经广泛应用于高维数据降维、特应孪生变分自编码器的计算流程，如图3所示。征提取等方面2。 2基于李生变分自编码器的小样本图像分类 2.1孪生变分自编码结构综合变分自编码器减少过拟合问题和孪生网络扩大样本训练次数的优点，对孪生网络进行改进，使用变分自编码器的Encoder结构代替全连接网络提取样本特征，减少了网络参数，提高训 E(W)-kzall 练效率。孪生变分自编码器首先建立变分自编码器网络进行特征提取的无监督学习，然后使用两个权重完全相同的变分自编码器Encoder结构搭图3孪生变分自编码器的计算流程建李生网络用于提取样本特征，在距离层计算特 Fig.3 Computation process of S-VAE

用对比损失函数来优化网络。原始的姐妹网络使用的是全连接结构，全连接网络参数众多，训练效率低。文献 [19] 对网络的特征提取过程进行改进，使用卷积神经网络作为姐妹网络来提取图像特征，取得了很好的效果。但是，卷积神经网络在样本数据量小时，易于产生过拟合现象。 E C C × E 使用孪生网络训练时，由于其逐对训练的原理，将有平方级别对的数据可以来训练模型，这让模型很难过拟合。假设数据集样本有类，每类有个样本，则一共有张图片，总共可组成的样本对数计算公式为 Npairs = (C · E) 2!(C · E −2) (4) 以 Omniglot 数据集为例，对于数据集中的 964 类 (每类 20 个样本)，剔除其中相同类别的配对，仍有 183 160 对组合。孪生网络在不增加样本的前提下，通过输入对匹配的方式，增加了样本的训练次数，从而提高了网络的学习能力，避免出现过拟合问题。 1.2 变分自编码器变分自编码器是 2014 年提出的一种基于变分贝叶斯推断的生成式结构模型[20]。变分自编码器总体上分为两个神经网络： Encoder 和 Decoder。Encoder 通过变分参数的不断迭代、更新来最大化观测数据的边缘似然函数的下界，近似不可观测变量的后验概率，输出隐变量的概率分布。Decoder 则是根据 Encoder 输出的隐变量概率分布还原生产原始数据的近似概率分布。变分自编码器具有和 Dropout 类似正则化作用的隐层采样过程，这使得模型的整个训练过程不容易发生过拟合问题[21] ，与传统特征提取模型相比，更加适合解决样本数量较少的问题。变分自编码器现在已经广泛应用于高维数据降维、特征提取等方面[17-24]。 2 基于孪生变分自编码器的小样本图像分类 2.1 孪生变分自编码结构综合变分自编码器减少过拟合问题和孪生网络扩大样本训练次数的优点，对孪生网络进行改进，使用变分自编码器的 Encoder 结构代替全连接网络提取样本特征，减少了网络参数，提高训练效率。孪生变分自编码器首先建立变分自编码器网络进行特征提取的无监督学习，然后使用两个权重完全相同的变分自编码器 Encoder 结构搭建孪生网络用于提取样本特征，在距离层计算特征向量的相似度，得到输入样本的分类结果。最后，对神经网络权重进行训练、调整。孪生变分自编码器结构如图 2 所示。 h1 ,i μenc1 σenc1 h1 ,1 Input_1 h1 ,m z1 z2 d Input_2 Encoder 分类 p 特征提取 x1 ,1 x1 ,i x1 ,m … … h2 ,i μenc2 σenc2 h2 ,1 β2 T β2 T β1 T β1 T h2 ,m Encoder x2 ,1 x2 ,i x2 ,m … … . . . . . . . . . . . . 图 2 孪生变分自编码器结构 Fig. 2 Siamese variational auto-encoder (x1,l) (x2,l) (h1,l) (h2,l) β1 T β2 T z1、z2 Input_1、Input_2 是样本数据的一组组合输入，特征提取功能由变分自编码器的 Encoder 实现，、为 Input_1、Input_2 展开得到的输入向量。为 Input_1 输入第一个 Encoder 结构得到的隐向量，为 Input_2 输入第二个 Encoder 结构后得到的隐向量。及为 Encoder 的权重，并且两个 Encoder 结构的权重完全相同。μ、σ 为输入数据经由 Encoder 结构提取到的期望与方差，该部分的计算原理同变分自编码器相同，分别为 Input_1、Input_2 提取到的特征向量。d 为距离层，针对获得的特征选择欧式距离计算相似度，最后将输出归一化到 [0,1] 之间，使用 sigmoid 函数使之成为一个概率。根据图 2 的孪生变分自编码器结构，给出相应孪生变分自编码器的计算流程，如图 3 所示。 X1 X2 h1 μenc σenc μenc σenc h2 z1 E(W)=||z1−z2 || z2 p 图 3 孪生变分自编码器的计算流程 Fig. 3 Computation process of S-VAE ·256· 智能系统学报第 16 卷

第2期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·257· 图3中X、X2为输入样本对展开后得到的程度。维向量；hi、h2为网络第1层的输出；4ec、gemc (6) 为网络第2层的输出。z1、2为输人对经由变分 D(p(()=∑p()og g(zlx) 自编码器提取到的特征向量；E(W)在距离层计算根据变分贝叶斯方法，样本数据x的边缘似两个特征向量的欧式距离；p为归一化后得到的然函数可以简化为分类准确率。输入样本对经过两个权重相同的 log po(x)=DxL(qe(zx)po(x)+L0,:x)(7) Encoder结构提取到特征，组建成孪生网络，通过式中：P为真实后验分布参数；0为隐层的近似分相似度匹配算法，得到最终分类的类别以及正布参数；式(7)中第一项为隐层的近似分布与真确率。实后验分布之间的KL散度，由于KL散度为非负利用上述孪生变分自编码器的结构和计算流值，仅当两个分布完全一致时，KL散度为0，因程对小样本图片进行分类的具体过程如下：此，可以展开为 1)将数据集以适当的比例分为训练数据集和 log po(x)L(0,:)=-DxL(qe(zlx)lp(z))+ (8) 测试数据集，对训练数据集使用变分自编码器进 E og p 行无监督的学习，训练特征提取模型。通过最大化变分下界，即可以得到样本集的 2)初始化孪生变分自编码器结构，载入训练最优估计。同时，可以将式(8)重写为好的特征提取模型，将训练数据集作为输入对网 L(0,;x）= 络进行训练，调整网络各层权值。 3)将测试数据集作为输入，利用训练好的网 ∑+-og）-ei-aa (9) 络来进行分类任务。 2.2孪生变分自编码器特征提取李生变分自编码器特征提取采用的是变分 2 自编码器的Encoder结构。变分自编码器是一个式中：4ec、mc为编码器的输出；uec、dc为解无监督学习的神经网络，本质上是构建了一个从码器的输出；j为隐变量z的维度；L为隐变量z 隐变量z(隐含特征)生成目标数据Y的模型，通在后验分布上的采样次数。然后，选择随机梯度过缩小原始输入X与输出Y之间的重构误差进下降法(stochastic gradient descent,SGD)来优化神行学习。变分自编码器的“瓶颈”的结构可以有经网络的参数，当式(9)收敛，编码器部分的输出效地降低原始数据的维数，提取样本特征，实现即为提取的特征值，解码器的输出为重构的原始对原始样本的表示学习。变分自编码器结构如样本。图4所示。针对图3孪生变分自编码器的计算流程，孪生变分自编码器特征提取过程可以表示为 Encode Decode h1=f(Whx+bh) μemc=f(Waex+bus) (10) logene f(Wx+b) z=eme+Uee⊙E,8~N(0,1)》式中：W、b为各层的权重和偏置项；x为输人数据，实际使用的是变换为一维数据的Omniglot图图4变分自编码器像；h,为网络第1层的输出；hec、Teac为网络第二 Fig.4 Variational auto-encoder 层的输出；f是激活函数，基于高斯分布参数4、对于原始样本集X,定义其特征值为隐变量 o,利用qo(dx)采样得到隐层输出z,其中，N(0,1) 乙，根据贝叶斯准则，z的后验概率密度函数为为标准正态分布。 p()=P(k)p(a) 2.3孪生变分自编码器图像分类 p(x) (5) 两个原始数据成对输入Encoder,通过训练好但是，边缘似然概率密度函数p(x)计算复的编码器网络进行分布参数提取，可以得到两个杂，因此变分贝叶斯推理中，通过引入近似分布输入数据的特征向量、2，在距离层计算两个特函数q(w)来拟合真实后验分布p(x),并利用征向量的欧式距离，Ew为两个样本对输出特征的 Kullback-Leibler(KL)散度来比较两个分布的相似欧式距离

X1、X2 h1、h2 µenc、σenc z1、z2 E(W) p 图 3 中为输入样本对展开后得到的一维向量；为网络第 1 层的输出；为网络第 2 层的输出。为输入对经由变分自编码器提取到的特征向量；在距离层计算两个特征向量的欧式距离；为归一化后得到的分类准确率。输入样本对经过两个权重相同的 Encoder 结构提取到特征，组建成孪生网络，通过相似度匹配算法，得到最终分类的类别以及正确率。利用上述孪生变分自编码器的结构和计算流程对小样本图片进行分类的具体过程如下： 1) 将数据集以适当的比例分为训练数据集和测试数据集，对训练数据集使用变分自编码器进行无监督的学习，训练特征提取模型。 2) 初始化孪生变分自编码器结构，载入训练好的特征提取模型，将训练数据集作为输入对网络进行训练，调整网络各层权值。 3) 将测试数据集作为输入，利用训练好的网络来进行分类任务。 2.2 孪生变分自编码器特征提取 z 孪生变分自编码器特征提取采用的是变分自编码器的 Encoder 结构。变分自编码器是一个无监督学习的神经网络，本质上是构建了一个从隐变量 (隐含特征) 生成目标数据 Y 的模型，通过缩小原始输入 X 与输出 Y 之间的重构误差进行学习。变分自编码器的“瓶颈”的结构可以有效地降低原始数据的维数，提取样本特征，实现对原始样本的表示学习。变分自编码器结构如图 4 所示。 1 i μenc σenc μdec σdec z n... 1 i n... Encoder X ... ... Y Decoder 图 4 变分自编码器 Fig. 4 Variational auto-encoder z z 对于原始样本集 X，定义其特征值为隐变量，根据贝叶斯准则，的后验概率密度函数为 p(z|x) = p(x|z)p(z) p(x) (5) p(x) q(z|x) p(z|x) 但是，边缘似然概率密度函数计算复杂，因此变分贝叶斯推理中，通过引入近似分布函数来拟合真实后验分布，并利用 Kullback-Leibler (KL) 散度来比较两个分布的相似程度。 DKL(p(z|x)||q(z|x)) = ∑ p(z|x)log p(z|x) q(z|x) (6) 根据变分贝叶斯方法，样本数据 x 的边缘似然函数可以简化为 log pθ(x (i) ) = DKL(qφ(z|x (i) )||pθ(z|x (i) ))+ L(θ,φ; x (i) ) (7) 式中： φ 为真实后验分布参数； θ 为隐层的近似分布参数；式 (7) 中第一项为隐层的近似分布与真实后验分布之间的 KL 散度，由于 KL 散度为非负值，仅当两个分布完全一致时，KL 散度为 0，因此，可以展开为 log pθ(x i ) ⩾ L(θ,φ; x (i) ) = −DKL(qφ(z|x (i) )||pθ(z))+ Eqφ(z|x (i) )[log pθ(x (i) |z)] (8) 通过最大化变分下界，即可以得到样本集的最优估计。同时，可以将式 (8) 重写为 L ( θ, ϕ; x (i) ) = 1 2 ∑J j=1 ( 1+log(( σ (i) enc j )2 ) − ( µ (i) enc j )2 − ( σ (i) enc j )2 ) + 1 L ∑L l=1   −log( σ (i, j) dec √ 2π ) − ( x i −µ (i, j) dec )2 2σ (i, j) 2 dec   (9) µenc、σenc µdec、σdec j z L z 式中：为编码器的输出；为解码器的输出；为隐变量的维度；为隐变量在后验分布上的采样次数。然后，选择随机梯度下降法 (stochastic gradient descent，SGD) 来优化神经网络的参数，当式 (9) 收敛，编码器部分的输出即为提取的特征值，解码器的输出为重构的原始样本。针对图 3 孪生变分自编码器的计算流程，孪生变分自编码器特征提取过程可以表示为    h1 = f(Wh1 x+bh1 ) µenc = f(Wµenc x+bµenc ) logσenc = f(Wσenc x+bσenc ) z = µenc +σenc ⊙ε,ε ∼ N(0,1) (10) W b h1 µenc σenc f qϕ(z|x (i) ) z N(0,1) 式中：、为各层的权重和偏置项；x 为输入数据，实际使用的是变换为一维数据的 Omniglot 图像；为网络第 1 层的输出；、为网络第二层的输出；是激活函数，基于高斯分布参数 μ、 σ，利用采样得到隐层输出，其中，为标准正态分布。 2.3 孪生变分自编码器图像分类 z1 z2 EW 两个原始数据成对输入 Encoder，通过训练好的编码器网络进行分布参数提取，可以得到两个输入数据的特征向量、，在距离层计算两个特征向量的欧式距离，为两个样本对输出特征的欧式距离。第 2 期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·257·

·258· 智能系统学报第16卷 Ew =lk-zll (11) 组属于N类中不相交的未标记样本进行分类。使用sigmoid函数将匹配度映射到[0,1]之间本文进行的实验是5-way1-shot、5-way5-shot、20- 成为一个分类结果的概率，同时方便使用交叉熵 way1-shot和20-way5-shot。作为训练网络的代价函数。相似度为 3.2 Omniglot分类实验分析 p=∑- 整个模型分为5层，特征提取部分网络层数 (12) 为3层。第1层输入层为22050个节点，第2层为孪生网络的对比损失函数为 2048个节点，第3层为4个节点，第4层为4个节 L(W)=L(w.x.) 点，第5层输出层为1个节点。训练该模型提取 (13) 样本图像的高层语义特征，然后再针对样本图像式(13)可以展开为提取的高层语义特征利用孪生变分自编码器模型 L(w,(YX1,X2月=(1-Y)(E(X1,X2)+ 进一步进行训练，最后使用分类器进行分类。 (14) Y(-En(X1,X2）通过Omniglot数据集对孪生变分自编码器进行测试，与原始孪生网络以及其他针对小样本图式中：p表示输入的总样本数；i为当前样本的下像分类方法实验结果进行对比。实验中用于对比标。其中Y表示样本对的标签，Y∈1,0，。当Y=0 的小样本分类方法主要有文献[25]中引用的原始时，表明本次输入样本对是同一类图片。此时的孪生网络实验结果、文献[19]中提出的卷积孪生样本对的损失函数(W)越小说明模型的参数越网络、文献[26]提出的分层贝叶斯学习方法合理。若(W)很大，则需要网络使用反向传播机 (HBPL)以及文献[27]提出的预采样匹配网络制，对模型参数进行优化。当Y=1时，表明本次 (SSMN)。实验结果如表1所示。输入样本对X1、X2不是同一类。此时，优化损失函数L(W)会使使得来自不类别图像的损失尽可表1 Omniglot数据集N-wayK-shot平均正确率 Table 1 Average accuracy of N-way K-shot of Omni- 能变大。结合式(12)，本文模型的代价函数为 glot dataset % L(W,(Yz1,2月=(1-Yog(p31,2月+ 模型 5-way 5-way 20-way 20-way (15) Y1og1-p(a,z2） 1-shot 5-shot 1-shot 5-shot 式中：Y为输入对是否是同类的标签；p(a,2为 Siamese nets 93.7 98.4 88.2 97.0 第ⅰ个样本对输入网络后得到的归一化后的特征 HBPL1261 95.2 距离。代价函数可以使用标准反向传播算法进行 Convolution net 96.7 98.4 92.0 96.5 模型训练。 SSMN R7I 97.4 98.6 93.3 98.7 3实验结果与分析 S-VAE 98.0 98.7 94.1 98.9 3.1 Omniglot数据集构建从表1中可以看出，S-VAE实验结果中，4种实验使用Tensorflow框架设计神经网络并进条件下孪生变分自编码器分类结果均高于卷积孪行训练和测试，实验的硬件环境为i5-8300H处理生神经网络。20-way1-shot情况下略微低于器，8GB内存，软件环境为Windows 10操作系统。 HBPL模型，较其他方法，孪生变分自编码器具有 Omniglot数据集拥有50种文字，1623类手写更高的分类正确率。20-way5-shot情况下本文提字符。对于每类字符仅有20个样本，每个样本分出的模型正确率最高，为98.9%。从表中可以看别由不同的人绘制而成，分辨率为105×105。图5 出，S-VAE相较于原始的孪生网络分类正确率在为数据集的4个示例。 4个对比实验下均有所提高，平均提高3.1%。由于HBPL模型是一种针对Omniglot进行特 a Y 定处理的方法，在Omniglot笔画层次上进行图像的分割，继而进行学习，缺乏在其他问题上的拓图5 Omniglot数据集展能力。因此，对余下3种算法和本文提出的模 Fig.5 Omniglot dataset 型，进行训练时间的比较，结果如表2所示。针对Omniglot数据集的测试实验主要围绕从表2的训练时间来看，孪生变分自编码器 N-wayK-shot展开：每种方法利用未经训练的在训练接近2个小时后，可以完成训练，并且训练 N类中的K个已标记的样本进行训练，然后对一用时最短，这说明李生变分自编码器可以实现对

EW = ||z1 −z2|| (11) 使用 sigmoid 函数将匹配度映射到 [0,1] 之间成为一个分类结果的概率，同时方便使用交叉熵作为训练网络的代价函数。相似度为 p = σ   ∑ j ||z1 −z2 ||   (12) 孪生网络的对比损失函数为 L(W) = ∑p i=1 L ( W,(Y,X1,X2) i ) (13) 式 (13) 可以展开为 L ( W,(Y,X1 ,X2) i ) = (1−Y) ( Ew(X1 ,X2) i ) + Y ( −Ew(X1 ,X2) i ) (14) p i Y Y ∈ {1,0} Y= 0 L(W) L(W) Y= 1 X1、X2 L(W) 式中：表示输入的总样本数；为当前样本的下标。其中表示样本对的标签，。当时，表明本次输入样本对是同一类图片。此时的样本对的损失函数越小说明模型的参数越合理。若很大，则需要网络使用反向传播机制，对模型参数进行优化。当时，表明本次输入样本对不是同一类。此时，优化损失函数会使使得来自不类别图像的损失尽可能变大。结合式 (12)，本文模型的代价函数为 L ( W,(Y,z1 ,z2) i ) = (1−Y)log( p(z1 ,z2) i ) + Y log( 1− p(z1 ,z2) i ) (15) p(z1,z2) 式中： i Y 为输入对是否是同类的标签；为第 i 个样本对输入网络后得到的归一化后的特征距离。代价函数可以使用标准反向传播算法进行模型训练。 3 实验结果与分析 3.1 Omniglot 数据集构建实验使用 Tensorflow 框架设计神经网络并进行训练和测试，实验的硬件环境为 i5-8300H 处理器，8 GB 内存，软件环境为 Windows 10 操作系统。 105×105 Omniglot 数据集拥有 50 种文字，1 623 类手写字符。对于每类字符仅有 20 个样本，每个样本分别由不同的人绘制而成，分辨率为。图 5 为数据集的 4 个示例。图 5 Omniglot 数据集 Fig. 5 Omniglot dataset 针对 Omniglot 数据集的测试实验主要围绕 N-way K-shot 展开：每种方法利用未经训练的 N 类中的 K 个已标记的样本进行训练，然后对一组属于 N 类中不相交的未标记样本进行分类。本文进行的实验是 5-way 1-shot、5-way 5-shot、20- way 1-shot 和 20-way 5-shot。 3.2 Omniglot 分类实验分析整个模型分为 5 层，特征提取部分网络层数为 3 层。第 1 层输入层为 22050 个节点，第 2 层为 2 048 个节点，第 3 层为 4 个节点，第 4 层为 4 个节点，第 5 层输出层为 1 个节点。训练该模型提取样本图像的高层语义特征，然后再针对样本图像提取的高层语义特征利用孪生变分自编码器模型进一步进行训练，最后使用分类器进行分类。通过 Omniglot 数据集对孪生变分自编码器进行测试，与原始孪生网络以及其他针对小样本图像分类方法实验结果进行对比。实验中用于对比的小样本分类方法主要有文献 [25] 中引用的原始孪生网络实验结果、文献 [19] 中提出的卷积孪生网络、文献 [26] 提出的分层贝叶斯学习方法 (HBPL) 以及文献 [27] 提出的预采样匹配网络 (SSMN)。实验结果如表 1 所示。表 1 Omniglot 数据集 N-way K-shot 平均正确率 Table 1 Average accuracy of N-way K-shot of Omniglot dataset % 模型 5-way 1-shot 5-way 5-shot 20-way 1-shot 20-way 5-shot Siamese net[25] 93.7 98.4 88.2 97.0 HBPL[26] − − 95.2 − Convolution net[25] 96.7 98.4 92.0 96.5 SSMN [27] 97.4 98.6 93.3 98.7 S-VAE 98.0 98.7 94.1 98.9 从表 1 中可以看出，S-VAE 实验结果中，4 种条件下孪生变分自编码器分类结果均高于卷积孪生神经网络。20-way 1-shot 情况下略微低于 HBPL 模型，较其他方法，孪生变分自编码器具有更高的分类正确率。20-way 5-shot 情况下本文提出的模型正确率最高，为 98.9%。从表中可以看出，S-VAE 相较于原始的孪生网络分类正确率在 4 个对比实验下均有所提高，平均提高 3.1%。由于 HBPL 模型是一种针对 Omniglot 进行特定处理的方法，在 Omniglot 笔画层次上进行图像的分割，继而进行学习，缺乏在其他问题上的拓展能力。因此，对余下 3 种算法和本文提出的模型，进行训练时间的比较，结果如表 2 所示。从表 2 的训练时间来看，孪生变分自编码器在训练接近 2 个小时后，可以完成训练，并且训练用时最短，这说明孪生变分自编码器可以实现对 ·258· 智能系统学报第 16 卷

第2期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·259· 小样本数据的快速分类，相较于另外3种算法，效 1.00 正确率 0.04 率更高。 0.98 损失 0.96 表2 Omniglot数据集N-wayK-shot训练时间 0.03 0.94 Table 2 Training time of N-way K-shot of Omniglot 能 0.92 dataset 0.90 .02 0.88 5-way 5-way 20-way 20-way 模型 0.86 0 1-shot 5-shot 1-shot 5-shot 0.84 Siamese net 21337.9 21663.121545.421581.3 0.82 0.80 Convolution net 17943.6 17736.4 17898.1 17975.1 020406080100120140160180200 迭代次数 SSMN 15936.5 15081.7 15573.6 15459.4 图820-way1-shot测试正确率和损失函数值 S-VAE 6954.69 7031.606714.38 7366.87 Fig.8 Test accuracy and loss of 20-way 1-shot 图6~9为本文提出模型的实验结果，主要包 1.00 括5-way1-shot、5-way5-shot、20-way1-shot和20- 0.98 0.96 way5-shot的测试错误率以及损失函数值的结 0.94 果。结合表1中的平均正确率，从图6中5-way1- 0.92 正确率 shot的测试实验结果可以看出，整体样本正确率 0.90 损失 02 0.88 达到98.0%，一部分样本可以100%地识别出来， 0.86 与原始孪生网络相比，分类正确率提高了4.3%。 0.84 0.82 结合图8可以看出，当样本类别数量增加到20类时，20-way1-shot场景下整体测试样本正确率达 40 60 80100120140160180200 迭代次数到了94.1%，与原始孪生网络相比，分类正确率提图920-way5-shot测试正确率和损失函数值高了5.9%。 Fig.9 Test accuracy and loss of 20-way 5-shot 正确率损失 1.00 0.02 图10~12是以20-way1-shot和5-way1- shot为例，反映了不同类别，相同的训练样本数据 0.98 集经过测试后的结果有着明显差距。当训练数据集样本数相同时，随着训练样本类别的增加，最 0.01 0.94 终识别难度变大，分类正确率下降。当样本类别达到20，训练样本只有一个时，训练难度最大，图10 0.92 体现出20-way1-shot收敛速度明显慢于5-way1- shot条件下的收敛速度，正确率也略微下降。结 020406080100120140160180200 迭代次数合图7以及表1中的平均正确率可以看出在难度图65-way1-shot测试正确率和损失函数值最大的20-way1-shot条件下，样本在迭代700次 Fig.6 Test accuracy and loss of 5-way 1-shot 之后收敛，测试正确率达到941%。一正确率一损失 ×10 100 2.5 -20-way 1-shot 20 -5-way 1-shot 0.98 0.96 1.5 2 94 1.0 0.92 0.5 0.9 020406080100120140160180200 01002003004005006007008009001000 迭代次数迭代次数图75-way5-shot测试正确率和损失函数值图l0 different-way1-shot训练损失函数值 Fig.7 Test accuracy and loss of 5-way 5-shot Fig.10 Training loss of different-way 1-shot

小样本数据的快速分类，相较于另外 3 种算法，效率更高。表 2 Omniglot 数据集 N-way K-shot 训练时间 Table 2 Training time of N-way K-shot of Omniglot dataset s 模型 5-way 1-shot 5-way 5-shot 20-way 1-shot 20-way 5-shot Siamese net 21 337.9 21663.1 21 545.4 21581.3 Convolution net 17 943.6 17736.4 17 898.1 17975.1 SSMN 15 936.5 15081.7 15 573.6 15459.4 S-VAE 6 954.69 7031.60 6 714.38 7366.87 图 6~9 为本文提出模型的实验结果，主要包括 5-way 1-shot、5-way 5-shot、20-way 1-shot 和 20- way 5-shot 的测试错误率以及损失函数值的结果。结合表 1 中的平均正确率，从图 6 中 5-way 1- shot 的测试实验结果可以看出，整体样本正确率达到 98.0%，一部分样本可以 100% 地识别出来，与原始孪生网络相比，分类正确率提高了 4.3%。结合图 8 可以看出，当样本类别数量增加到 20 类时，20-way 1-shot 场景下整体测试样本正确率达到了 94.1%，与原始孪生网络相比，分类正确率提高了 5.9%。 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.92 0.94 0.96 0.98 1.00 正确率 0 0.01 0.02 损失正确率损失图 6 5-way 1-shot 测试正确率和损失函数值 Fig. 6 Test accuracy and loss of 5-way 1-shot 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.9 0.92 0.94 0.96 0.98 1.00 正确率 0 2 4 损失 ×10-3 正确率损失图 7 5-way 5-shot 测试正确率和损失函数值 Fig. 7 Test accuracy and loss of 5-way 5-shot 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.80 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 0 0.01 0.02 0.03 0.04 损失正确率损失图 8 20-way 1-shot 测试正确率和损失函数值 Fig. 8 Test accuracy and loss of 20-way 1-shot 0 20 40 60 80 100 120 140 160 180 200 迭代次数 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 0 0.02 0.04 损失正确率损失图 9 20-way 5-shot 测试正确率和损失函数值 Fig. 9 Test accuracy and loss of 20-way 5-shot 图 10~12 是以 20-way 1-shot 和 5-way 1- shot 为例，反映了不同类别，相同的训练样本数据集经过测试后的结果有着明显差距。当训练数据集样本数相同时，随着训练样本类别的增加，最终识别难度变大，分类正确率下降。当样本类别达到 20，训练样本只有一个时，训练难度最大，图 10 体现出 20-way 1-shot 收敛速度明显慢于 5-way 1- shot 条件下的收敛速度，正确率也略微下降。结合图 7 以及表 1 中的平均正确率可以看出在难度最大的 20-way 1-shot 条件下，样本在迭代 700 次之后收敛，测试正确率达到 94.1%。 0 100 200 300 400 500 600 700 800 900 1000 0.5 1.0 1.5 2.0 2.5 损失 20-way 1-shot 5-way 1-shot 迭代次数图 10 different-way 1-shot 训练损失函数值 Fig. 10 Training loss of different-way 1-shot 第 2 期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·259·

·260· 智能系统学报第16卷 1.0 2.5 -20-way 5-shot 09 20 -20-way 1-shot 0.8 1.5 0.7 1.0 -20-way 1-shot 0.5 0.5 5-way 1-shot 04 01002003004005006007008009001000 01002003004005006007008009001000 迭代次数迭代次数图11 different-.way1-shot训练正确率图1320-way different-shot训练损失函数值 Fig.11 Training accuracy of different-way 1-shot Fig.13 Training loss of 20-way different-shot 1.0 1.00 0.9 0.98 0.96 0.8 0 8 0.6 0.88 -20-way 5-shot 0.5 -20-way 1-shot 0.86 0.84 -20-way 1-shot 04 -5-way 1-shot 01002003004005006007008009001000 0.82 迭代次数 0 20406080100120140160180200 迭代次数图1420-way different-shot训练正确率 Fig.14 Training accuracy of 20-way different-shot 图l2 different-way1-shot测试正确率 Fig.12 Test accuracy of different-way 1-shot 1.00 0.98 图13-15是以20-way5-shot和20-way1- 0.96 shot为例，反映了相同类别，不同的训l练样本数 0.94 据集经过测试后的结果。当训练数据集样本数 0.92 相同时，随着训练样本类别的增加，最终识别难 090 0.88 度变大，分类正确率下降。结合表1中平均正 0.86 确率的实验结果对比，与原始的Siamese 0.84 -20-way 5-shot -20-way 1-shot Net2相比，在难度最高的20-way1-shot情况下， 0.82 20406080100120140160180200 李生变分自编码器分类正确率提高了5.9%，其迭代次数他情况下最低提高了0.3%，可以在说明本文所图1520-way different-shot测试正确率提出的混合模型的先进性。与Lake等o提出 Fig.15 Test accuracy of 20-way different-shot 的分层贝叶斯学习结构相比，李生变分自编码器正确率低0.9%，但是Lake的方法使用的不是 4结束语原始图像的像素，而是Omniglot的笔画数据，虽针对小样本图像分类问题，本文提出了李生然在Omniglot数据集上具有极高的分类正确率变分自编码器网络模型。首先对训练样本数据使却失去了向其他数据集拓展的能力，本文所提用变分自编码器进行降维处理，提取样本的隐含出的模型与之相比具有更好的泛化能力。从特征，然后通过孪生网络，对成对输人的两个样 4种条件下的损失函数结合表2中几个方法的本进行相似度匹配，返回与待测样本标签为同类训练时间对比，孪生变分自编码器可以很快速的样本类别以及正确率，完成物体的分类。通过的收敛，在训练1000次后就已经达到了比较不 Omniglot数据集对模型效果进行4组实验验证，错的分类效果。本文提出的改进模型与原始孪生神经网络相比最

0 100 200 300 400 500 600 700 800 900 1000 0.4 0.5 0.6 0.7 0.8 0.9 1.0 正确率 20-way 1-shot 5-way 1-shot 迭代次数图 11 different-way 1-shot 训练正确率 Fig. 11 Training accuracy of different-way 1-shot 0 20 40 60 80 100 120 140 160 180 200 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 20-way 1-shot 5-way 1-shot 迭代次数图 12 different-way 1-shot 测试正确率 Fig. 12 Test accuracy of different-way 1-shot 图 13~15 是以 20-way 5-shot 和 20-way 1- shot 为例，反映了相同类别，不同的训练样本数据集经过测试后的结果。当训练数据集样本数相同时，随着训练样本类别的增加，最终识别难度变大，分类正确率下降。结合表 1 中平均正确率的实验结果对比，与原始的 Siamese Net[25] 相比，在难度最高的 20-way 1-shot 情况下，孪生变分自编码器分类正确率提高了 5.9%，其他情况下最低提高了 0.3%，可以在说明本文所提出的混合模型的先进性。与 Lake 等 [26] 提出的分层贝叶斯学习结构相比，孪生变分自编码器正确率低 0.9%，但是 Lake 的方法使用的不是原始图像的像素，而是 Omniglot 的笔画数据，虽然在 Omniglot 数据集上具有极高的分类正确率却失去了向其他数据集拓展的能力，本文所提出的模型与之相比具有更好的泛化能力。从 4 种条件下的损失函数结合表 2 中几个方法的训练时间对比，孪生变分自编码器可以很快速的收敛，在训练 1 000 次后就已经达到了比较不错的分类效果。 0 100 200 300 400 500 600 700 800 900 1000 0.5 1.0 1.5 2.0 2.5 损失 20-way 5-shot 20-way 1-shot 迭代次数图 13 20-way different-shot 训练损失函数值 Fig. 13 Training loss of 20-way different-shot 0 100 200 300 400 500 600 700 800 900 1000 0.4 0.5 0.6 0.7 0.8 0.9 1.0 正确率 20-way 5-shot 20-way 1-shot 迭代次数图 14 20-way different-shot 训练正确率 Fig. 14 Training accuracy of 20-way different-shot 0 20 40 60 80 100 120 140 160 180 200 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 正确率 20-way 5-shot 20-way 1-shot 迭代次数图 15 20-way different-shot 测试正确率 Fig. 15 Test accuracy of 20-way different-shot 4 结束语针对小样本图像分类问题，本文提出了孪生变分自编码器网络模型。首先对训练样本数据使用变分自编码器进行降维处理，提取样本的隐含特征，然后通过孪生网络，对成对输入的两个样本进行相似度匹配，返回与待测样本标签为同类的样本类别以及正确率，完成物体的分类。通过 Omniglot 数据集对模型效果进行 4 组实验验证，本文提出的改进模型与原始孪生神经网络相比最 ·260· 智能系统学报第 16 卷

第2期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·261· 高提高了5.9%，平均提高3.1%。 [8]LAKE B M.SALAKHUTDINOV R.TENENBAUMJ B. 下一步工作将本文方法拓展应用到实际问题 Human-level concept learning through probabilistic pro- 中。在电力设备故障诊断中，只有很少的实际采 gram induction[J].Science,2015,350(6266):1332-1338. 集样本，因此，通常会额外生成模拟数据进行实 [9]宋丽丽.迁移度量学习行人再识别算法)计算机工程验，本文下一步工作即通过孪生变分自编码器在与应用，2019,5520)：170-176,201. 仅使用实际采集样本的情况下对故障类型进行分类。 SONG Lili.Transfer metric learning for person re-identi- fication[J].Computer engineering and applications,2019, 参考文献： 5520:170-176,201 [10]任俊，胡晓峰，朱丰.基于深度学习特征迁移的装备体 [1]胡越，罗东阳，花奎，等.关于深度学习的综述与讨论) 系效能预测[.系统工程与电子技术，2017,39(12)：智能系统学报，2019,141上1-19. 2745-2749. HU Yue,LUO Dongyang,HUA Kui,et al.Overview on REN Jun,HU Xiaofeng.ZHU Feng.Effectiveness predic- deep learning[J].CAAI transactions on intelligent systems, tion of weapon equipment system-of-systems based on 2019,141):1-19 deep learning feature transfJ].Systems engineering and [2]马世龙，乌尼日其其格，李小平.大数据与深度学习综述 electronics.2017,39(12):2745-2749. [).智能系统学报，2016,11(6)：728-742. [11]谭本东，杨军，赖秋频，等.基于改进CGAN的电力系统 MA Shilong,WUNIRI Qiqige,LI Xiaoping.Deep learn- 暂态稳定评估样本增强方法[刀.电力系统自动化， ing with big data:state of the art and development[J]. 2019,43(1:149-160 CAAI transactions on intelligent systems,2016,11(6): TAN Bendong,YANG Jun,LAI QiuPin,et al.Data aug- 728-742, ment method for power system transient stability assess- [3]王吴，刘高军，段建勇，等.基于特征自学习的交通模式 ment based on improved conditional generative adversari- 识别研究[J].哈尔滨工程大学学报，2019,40(2)： al network[J].Automation of electric power systems, 354358. 2019,43(1):149-160. WANG Hao,LIU GaoJun,DUAN Jianyong,et al.Trans- [12]王建敏，吴云洁.基于聚类云模型的小样本数据可信度 portation mode detection based on self-learning of fea- 评估[.系统仿真学报，2019,31(7)：1263-1271 tures[J].Journal of Harbin Engineering University,2019, WANG Jianmin,WU Yunjie.Credibility evaluation 40(2):354-358 method of small sample data based on cluster cloud mod- [4]张程熠，唐雅洁，李永杰，等.适用于小样本的神经网络 el[J].Journal of system simulation,2019,31(7)3 光伏预测方法[J].电力自动化设备，2017,37(1)： 1263-1271 101-106,111. [13]杨懿男，齐林海，王红，等.基于生成对抗网络的小样本 ZHANG Chengyi,TANG Yajie,LI Yongjie,et al.Photo- 数据生成技术研究.电力建设，2019,40(5)：71-77. voltaic power forecast based on neural network with a YANG Yinan,QI Linhai,WANG Hong,et al.Research small number of samples[J].Electric power automation on generation technology of small sample data based on Equipment,2017,37(1:101-106,111. generative adversarial network[J].Electric power con- [5]洪雁飞，魏本征，刘川，等.基于深度学习的椎间孔狭窄 struction,,2019,40(S):71-77. 自动多分级研究[.智能系统学报，2019,14(4)：1-9. [I4]韩冬，马进，贺仁睦.基于Bootstrap的实测负荷模型参 HONG Feiyan,WEI Benzheng,LIU Chuan,et al.Deep 数优选J.电工技术学报，2012,27(8)：141-146 learning based automatic multi-classification algorithm for HAN Dong,MA Jin,HE Renmu.Parameter optimization intervertebral foraminal stenosis[J].CAAI transactions on of measurement-based load model based on bootstrap[J]. intelligent systems,2019,14(4):1-9. Transactions of China electrotechnical society,2012, [6]王翔，胡学钢.高维小样本分类问题中特征选择研究综 27(8):141-146 述[).计算机应用，2017,37(9)：2433-2438,2448 [15]马晓，张番栋，封举富.基于深度学习特征的稀疏表示 WANG Xiang,HU Xuegang.Overview on feature selec- 的人脸识别方法[J.智能系统学报，2016,11(3)： tion in high-dimensional and small-sample-size classifica- 279-286. tion[J].Journal of computer applications,2017,37(9): MA Xiao,ZHANG Fandong,FENG Jufu.Sparse repres- 2433-2438.2448. entation via deep learning features based face recognition [7]LI Feifei,FERGUS R.PERONA P.One-shot learning of method[J].Transactions of China electrotechnical society, object categories[J].IEEE trans pattern anal mach intell, 2016,11(3:279-286. 2006,28(4):594-611. [16]马忠丽，刘权勇，武凌羽，等.一种基于联合表示的图像

高提高了 5.9%，平均提高 3.1%。下一步工作将本文方法拓展应用到实际问题中。在电力设备故障诊断中，只有很少的实际采集样本，因此，通常会额外生成模拟数据进行实验，本文下一步工作即通过孪生变分自编码器在仅使用实际采集样本的情况下对故障类型进行分类。参考文献：胡越, 罗东阳, 花奎, 等. 关于深度学习的综述与讨论 [J]. 智能系统学报, 2019, 14(1): 1–19. HU Yue, LUO Dongyang, HUA Kui, et al. Overview on deep learning[J]. CAAI transactions on intelligent systems, 2019, 14(1): 1–19. [1] 马世龙, 乌尼日其其格, 李小平. 大数据与深度学习综述 [J]. 智能系统学报, 2016, 11(6): 728–742. MA Shilong, WUNIRI Qiqige, LI Xiaoping. Deep learning with big data: state of the art and development[J]. CAAI transactions on intelligent systems, 2016, 11(6): 728–742. [2] 王昊, 刘高军, 段建勇, 等. 基于特征自学习的交通模式识别研究 [J]. 哈尔滨工程大学学报, 2019, 40(2): 354–358. WANG Hao, LIU GaoJun, DUAN Jianyong, et al. Transportation mode detection based on self-learning of features[J]. Journal of Harbin Engineering University, 2019, 40(2): 354–358. [3] 张程熠, 唐雅洁, 李永杰, 等. 适用于小样本的神经网络光伏预测方法 [J]. 电力自动化设备, 2017, 37(1): 101–106, 111. ZHANG Chengyi, TANG Yajie, LI Yongjie, et al. Photovoltaic power forecast based on neural network with a small number of samples[J]. Electric power automation Equipment, 2017, 37(1): 101–106, 111. [4] 洪雁飞, 魏本征, 刘川, 等. 基于深度学习的椎间孔狭窄自动多分级研究 [J]. 智能系统学报, 2019, 14(4): 1–9. HONG Feiyan, WEI Benzheng, LIU Chuan, et al. Deep learning based automatic multi-classification algorithm for intervertebral foraminal stenosis[J]. CAAI transactions on intelligent systems, 2019, 14(4): 1–9. [5] 王翔, 胡学钢. 高维小样本分类问题中特征选择研究综述 [J]. 计算机应用, 2017, 37(9): 2433–2438, 2448. WANG Xiang, HU Xuegang. Overview on feature selection in high-dimensional and small-sample-size classification[J]. Journal of computer applications, 2017, 37(9): 2433–2438, 2448. [6] LI Feifei, FERGUS R, PERONA P. One-shot learning of object categories[J]. IEEE trans pattern anal mach intell, 2006, 28(4): 594–611. [7] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332–1338. [8] 宋丽丽. 迁移度量学习行人再识别算法 [J]. 计算机工程与应用, 2019, 55(20): 170–176, 201. SONG Lili. Transfer metric learning for person re-identification[J]. Computer engineering and applications, 2019, 55(20): 170–176, 201. [9] 任俊, 胡晓峰, 朱丰. 基于深度学习特征迁移的装备体系效能预测 [J]. 系统工程与电子技术, 2017, 39(12): 2745–2749. REN Jun, HU Xiaofeng, ZHU Feng. Effectiveness prediction of weapon equipment system-of-systems based on deep learning feature transf[J]. Systems engineering and electronics, 2017, 39(12): 2745–2749. [10] 谭本东, 杨军, 赖秋频, 等. 基于改进 CGAN 的电力系统暂态稳定评估样本增强方法 [J]. 电力系统自动化, 2019, 43(1): 149–160. TAN Bendong, YANG Jun, LAI QiuPin, et al. Data augment method for power system transient stability assessment based on improved conditional generative adversarial network[J]. Automation of electric power systems, 2019, 43(1): 149–160. [11] 王建敏, 吴云洁. 基于聚类云模型的小样本数据可信度评估 [J]. 系统仿真学报, 2019, 31(7): 1263–1271. WANG Jianmin, WU Yunjie. Credibility evaluation method of small sample data based on cluster cloud model[J]. Journal of system simulation, 2019, 31(7): 1263–1271. [12] 杨懿男, 齐林海, 王红, 等. 基于生成对抗网络的小样本数据生成技术研究 [J]. 电力建设, 2019, 40(5): 71–77. YANG Yinan, QI Linhai, WANG Hong, et al. Research on generation technology of small sample data based on generative adversarial network[J]. Electric power construction, 2019, 40(5): 71–77. [13] 韩冬, 马进, 贺仁睦. 基于 Bootstrap 的实测负荷模型参数优选 [J]. 电工技术学报, 2012, 27(8): 141–146. HAN Dong, MA Jin, HE Renmu. Parameter optimization of measurement-based load model based on bootstrap[J]. Transactions of China electrotechnical society, 2012, 27(8): 141–146. [14] 马晓, 张番栋, 封举富. 基于深度学习特征的稀疏表示的人脸识别方法 [J]. 智能系统学报, 2016, 11(3): 279–286. MA Xiao, ZHANG Fandong, FENG Jufu. Sparse representation via deep learning features based face recognition method[J]. Transactions of China electrotechnical society, 2016, 11(3): 279–286. [15] [16] 马忠丽, 刘权勇, 武凌羽, 等. 一种基于联合表示的图像第 2 期王德文，等：基于孪生变分自编码器的小样本图像分类方法 ·261·

·262· 智能系统学报第16卷分类方法U.智能系统学报，2018,13(2)：220-226 2018,38(19):5869-5877,5945 MA Zhongli,LIU Quanyong,WU Lingyu,et al.Syncret- [23]Lu Guangquan,Zhao Xishun,Yin Jian,et al.Multi-task ic representation method for image classification[J]. learning using variational auto-Encoder for sentiment CAAI transactions on intelligent systems,2018,13(2): classification[J].Pattern recognition letters,2018. 220-226. [24]ZAKHAROV N,SU H.ZHU J,et al.Towards control- [l7刀赵春晖，齐滨，Eunseog Youn.基于蒙特卡罗特征降维 lable image descriptions with semi-supervised VAE[J]. 算法的小样本高光谱图像分类).红外与毫米波学报， Journal of visual communication and image representa- 2013.32(1上62-67. tion,2019,63:102574. ZHAO Chun Hui,QI Bin,EUNSEOG Youn.Hyperspec- [25]VINYALS O,BLUNDELL C.LILLICRAP T.et al. tral image classification based on Monte Carlo feature re- Matching networks for one shot learning [C]//Proc of the duction method[J].Journal of infrared and millimeter Advances in Neural Information Processing Systems, waves.2013,32(162-67. 2016:3630-3638 [18]CHOPRA S,HADSELL R,LECUN Y.Learning a simil- [26]LAKE B M,SALAKHUTDINOV R,TENENBAUM J B. arity metric discriminatively,with application to face One-shot learning by inverting a compositional causal verification[C]//2005 IEEE Computer Society Confer- process[C]//International Conference on Neural Informa- ence on Computer Vision and Pattern Recognition(CV- tion Processing Systems.Curran Associates Inc 2013. PR'05),San Diego,USA,2005:539-546. [27]ZHANG Ling,IIU Jun,LUO Minnan,et al.Hauptmann, [19]KOCH G,ZEMEL R,SALAKHUTDINOV R.Siamese Scheduled sampling for one-shot learning via matching network[J].Pattern Recongnition,2019,96:106962 neural networks for one-shot image recognition[C]//Proc of the ICML Deep Learning Workshop,Lille,France 作者简介： 2015. 王德文，副教授，博士，主要研究 [20]KINGMA D P.WELLING M.Auto-encoding variational 方向为人工智能与大数据。发表学术 bayes[C]//International Conference on Learning Repres- 论文60余篇。 entations,[S.1.],2014. [21]LIU Guojun,LIUYang,GUO Maozu,et al.Variational inference with Gaussian mixture model and householder flow[J].Neural networks,2019,109:43-55. [22]宋辉，代杰杰，张卫东，等.基于变分贝叶斯自编码器的魏波涛，硕士研究生，主要研究方局部放电数据匹配方法[刀.中国电机工程学报，2018，向为人工智能与图像处理。 38(19):5869-5877,5945 SONG Hui,DAI Jiejie,ZHANG Weidong,et al.A data matching method of partial discharge data based on auto- encoding briational Bayes[J].Proceedings of the CSEE

分类方法 [J]. 智能系统学报, 2018, 13(2): 220–226. MA Zhongli, LIU Quanyong, WU Lingyu, et al. Syncretic representation method for image classification[J]. CAAI transactions on intelligent systems, 2018, 13(2): 220–226. 赵春晖, 齐滨, Eunseog Youn. 基于蒙特卡罗特征降维算法的小样本高光谱图像分类 [J]. 红外与毫米波学报, 2013, 32(1): 62–67. ZHAO Chun Hui, QI Bin, EUNSEOG Youn. Hyperspectral image classification based on Monte Carlo feature reduction method[J]. Journal of infrared and millimeter waves, 2013, 32(1): 62–67. [17] CHOPRA S, HADSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego, USA, 2005: 539−546. [18] KOCH G, ZEMEL R, SALAKHUTDINOV R. Siamese neural networks for one-shot image recognition[C]// Proc of the ICML Deep Learning Workshop, Lille, France 2015. [19] KINGMA D P, WELLING M. Auto-encoding variational bayes[C]//International Conference on Learning Representations, [S.l.], 2014. [20] LIU Guojun, LIUYang, GUO Maozu, et al. Variational inference with Gaussian mixture model and householder flow[J]. Neural networks, 2019, 109: 43–55. [21] 宋辉, 代杰杰, 张卫东, 等. 基于变分贝叶斯自编码器的局部放电数据匹配方法 [J]. 中国电机工程学报, 2018, 38(19): 5869–5877, 5945. SONG Hui, DAI Jiejie, ZHANG Weidong, et al. A data matching method of partial discharge data based on autoencoding briational Bayes[J]. Proceedings of the CSEE, [22] 2018, 38(19): 5869–5877, 5945. Lu Guangquan, Zhao Xishun, Yin Jian, et al. Multi-task learning using variational auto-Encoder for sentiment classification[J]. Pattern recognition letters, 2018. [23] ZAKHAROV N, SU H, ZHU J, et al. Towards controllable image descriptions with semi-supervised VAE[J]. Journal of visual communication and image representation, 2019, 63: 102574. [24] VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning [C]// Proc of the Advances in Neural Information Processing Systems, 2016: 3630−3638 [25] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. One-shot learning by inverting a compositional causal process[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc 2013. [26] ZHANG Ling, lIU Jun, LUO Minnan, et al. Hauptmann, Scheduled sampling for one-shot learning via matching network[J]. Pattern Recongnition, 2019, 96: 106962. [27] 作者简介：王德文，副教授，博士，主要研究方向为人工智能与大数据。发表学术论文 60 余篇。魏波涛，硕士研究生，主要研究方向为人工智能与图像处理。 ·262· 智能系统学报第 16 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录