正在加载图片...
·90· 智能系统学报 第13卷 卷积操作 反卷积操作 方法在KTH数据集上生成的图像有更高的语义 性,均方误差也更低。然而,该模型存在诸多不足, 条件信息 例如生成的人体动作具有歧义,不能很好地建模快 速移动的物体,不能充分地处理前景和背景信息等。 Lu等提出一种深度体元流模型,该模型是 种全卷积自编码器架构,由3个卷积层、3个反卷 编码 解码 积层和一个瓶颈层组成。为更好地保留空间信息, 图2基于自编码器的视频预测模型架构 在每个卷积层和反卷积层之间有跳跃连接。在 Fig.2 Architecture of video prediction based on UCF-101和THUMOS-15数据集上的内插和外推 auto encoder 视频实验上的结果表明,该模型比文献[70]中提到 Yan等8提出了一种深度动态编码器模型 的多尺度对抗训练架构和光流法的结果要更优。 (deep DynEncoder),该模型输入原始像素图像,经编 Xue等7提出一种基于变分自编码器和交叉卷 码器编码成隐状态变量,然后使用动态预测器 积网络的模型,该模型可以从一张图片生成可能的 (DynPredictor)将时序动态编码。使用合适的堆叠 未来帧。该模型通过条件变分自编码器来建模未来 策略、逐层预训练和联合微调,可以构建多层深度 帧的复杂条件分布。另外,该模型利用了图像差分 动态编码器。实验表明,文献[81]提到的方法可以 (欧拉运动)原理,因为图像差分是稀疏的,并且比原 描绘复杂的视频动态,合成高质量的纹理序列视 始图像更容易建模。Xue等还在合成数据集与自然 频。作者还构造了基于深度动态编码器模型的分类 图像上验证了模型的有效性,另外,作者还通过实 和聚类方法,在交通场景分类和运动分割上取得了 验证明了该模型在无监督、零样本类比学习上取得 接近甚至优于之前最好的模型的效果。 了很好的结果。 Vukoti等6提出基于时间差△r的卷积自编码器 4.2递归神经网络(RNN)架构 模型。编码器有两个分支,一个接收输入图像,另 递归神经网络可以很好地进行序列数据建模, 外一个接收期望预测的时间差△1,解码器根据编码 视频预测本身也是一种序列学习问题,很多研究人 器输出的潜在变量生成可信的图像。以没有时间差 员采用递归神经网络来解决视频预测问题。基于编 输入的常规卷积自编码器模型为基准,作者提出的 解码的递归神经网络架构如图3(a)所示。 输入图像序列化,x,,x) 预测图像代) 编码器 RNN/LSTM 解码器 (a)基于编码-递归-解码的视频预测模型架构 输入图像序列(化,x,x) 预测图像(伦) 编码器 RNN/LSTM 解码器 输入图像序列 c,2,“,xi 鉴别器 真/假 输入图像序列 r…,xe无 (b)基于生成对抗网络的视频预测模型架构 图3视频预测模型的抽象结构 Fig.3 Abstract architecture of video prediction model Ranzato等s从自然语言处理领域借鉴了经典给出了一个视频预测和视频插值的基准。Ranzato 的n-grams算法,将之与CNN和RNN结合起来,还在RNN架构基础上提出了递归卷积神经网络Yan 等 [ 8 1 ]提出了一种深度动态编码器模型 (deep DynEncoder),该模型输入原始像素图像,经编 码器编码成隐状态变量,然后使用动态预测器 (DynPredictor) 将时序动态编码。使用合适的堆叠 策略、逐层预训练和联合微调,可以构建多层深度 动态编码器。实验表明,文献[81]提到的方法可以 描绘复杂的视频动态,合成高质量的纹理序列视 频。作者还构造了基于深度动态编码器模型的分类 和聚类方法,在交通场景分类和运动分割上取得了 接近甚至优于之前最好的模型的效果。 ∆t ∆t Vukoti 等 [65]提出基于时间差 的卷积自编码器 模型。编码器有两个分支,一个接收输入图像,另 外一个接收期望预测的时间差 ,解码器根据编码 器输出的潜在变量生成可信的图像。以没有时间差 输入的常规卷积自编码器模型为基准,作者提出的 方法在 KTH 数据集上生成的图像有更高的语义 性,均方误差也更低。然而,该模型存在诸多不足, 例如生成的人体动作具有歧义,不能很好地建模快 速移动的物体,不能充分地处理前景和背景信息等。 Liu 等 [73]提出一种深度体元流模型,该模型是 一种全卷积自编码器架构,由 3 个卷积层、3 个反卷 积层和一个瓶颈层组成。为更好地保留空间信息, 在每个卷积层和反卷积层之间有跳跃连接。在 UCF-101 和 THUMOS-15 数据集上的内插和外推 视频实验上的结果表明,该模型比文献[70]中提到 的多尺度对抗训练架构和光流法的结果要更优。 Xue 等 [87]提出一种基于变分自编码器和交叉卷 积网络的模型,该模型可以从一张图片生成可能的 未来帧。该模型通过条件变分自编码器来建模未来 帧的复杂条件分布。另外,该模型利用了图像差分 (欧拉运动) 原理,因为图像差分是稀疏的,并且比原 始图像更容易建模。Xue 等还在合成数据集与自然 图像上验证了模型的有效性,另外,作者还通过实 验证明了该模型在无监督、零样本类比学习上取得 了很好的结果。 4.2 递归神经网络 (RNN) 架构 递归神经网络可以很好地进行序列数据建模, 视频预测本身也是一种序列学习问题,很多研究人 员采用递归神经网络来解决视频预测问题。基于编 解码的递归神经网络架构如图 3(a) 所示。 Ranzato 等 [82]从自然语言处理领域借鉴了经典 的 n-grams 算法,将之与 CNN 和 RNN 结合起来, 给出了一个视频预测和视频插值的基准。Ranzato 还在 RNN 架构基础上提出了递归卷积神经网络 㕆⸱ ᶑԦؑ᚟ 䀓⸱ ধ〟᫽֌ ৽ধ〟᫽֌ 图 2 基于自编码器的视频预测模型架构 Fig. 2 Architecture of video prediction based on auto encoder (a) สҾ㕆⸱-䙂ᖂ-䀓⸱Ⲵ㿶仁亴⍻⁑රᷦᶴ (b) สҾ⭏ᡀሩᣇ㖁㔌Ⲵ㿶仁亴⍻⁑රᷦᶴ 㕆⸱ಘ RNN/LSTM 䀓⸱ಘ 䗃ޕമۿᒿࡇ) x1 , x2 , ..., xn ) 亴⍻മۿ) x ^ n+1) ࡇᒿۿമޕ䗃 (x1 , x2 , ..., xn , x ^ n+1) ࡇᒿۿമޕ䗃 (x1 , x2 , ... , xn , x ^ n+1) 䢤࡛ಘ ⵏ/ۇٴ 㕆⸱ಘ RNN/LSTM 䀓⸱ಘ 䗃ޕമۿᒿࡇ) x1 , x2 , ... , xn ) 亴⍻മۿ) x ^ n+1) 图 3 视频预测模型的抽象结构 Fig. 3 Abstract architecture of video prediction model ·90· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有