第13卷第1期 智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0:10.11992/tis.201707032 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180121.1457.002.html 基于深度学习的视频预测研究综述 莫凌飞,蒋红亮,李煊鹏 (东南大学仪器科学与工程学院,江苏南京210096) 摘要:近年来,深度学习算法在众多有监督学习问题上取得了卓越的成果,其在精度、效率和智能化等方面的性能 远超传统机器学习算法,部分甚至超越了人类水平。当前,深度学习研究者的研究兴趣逐渐从监督学习转移到强化 学习、半监督学习以及无监督学习领域。视频预测算法,因其可以利用海量无标注自然数据去学习视频的内在表征 且在机器人决策、无人驾驶和视频理解等领域具有广泛的应用价值,近两年来得到快速发展。本文论述了视频预测 算法的发展背景和深度学习的发展历史,简要介绍了人体动作、物体运动和移动轨迹的预测,重点介绍了基于深度学 习的视频预测的主流方法和模型,最后总结了当前该领域存在的问题和发展前景。 关键词:视频预测;深度学习;无监督学习:运动预测:动作识别;卷积神经网络:递归神经网铬;自编码器 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2018)01-0085-12 中文引用格式:莫凌飞,蒋红亮,李煊鹏.基于深度学习的视频预测研究综述J智能系统学报,2018,13(1):85-96. 英文引用格式:MO Lingfei,JIANG Hongliang,LI Xuanpeng..Review of deep learning-based video predictionJl..CAAI transac-. tions on intelligent systems,2018,13(1):85-96. Review of deep learning-based video prediction MO Lingfei,JIANG Hongliang,LI Xuanpeng (College of Instrument Science and Engineering,Southeast University,Nanjing 210096,China) Abstract:In recent years,deep learning algorithms have made significant achievements on various supervised learning problems,with their accuracy,efficiency,and intelligence outperforming traditional machine learning algorithms,in some instances even beyond human capability.Currently,deep learning researchers are gradually turning their interests from supervised learning to the areas of reinforcement learning,weakly supervised learning,and unsupervised learning. Video prediction algorithms have developed rapidly in the last two years due to its capability of using a large amount of unlabeled and naturalistic data to construct the forthcoming video as well as its widespread application value in decision making,autonomous driving,video comprehension,and other fields.In this paper,we review the development back- ground of the video prediction algorithms and the history of deep learning.Then,we briefly introduce the human activity, object movement,and trajectory prediction algorithms,with a focus on mainstream video prediction methods that are based on deep learning.We summarize current problems related to this research and consider the future prospects of this field. Keywords:video prediction;deep learning;unsupervised learning;motion prediction;action recognition;convolution neural network:recurrent neural network;auto encoder “我们缺乏的一个关键要素是预测(或无监 泛的发展和应用,其在计算机视觉2、语音识别m 督)学习:机器具有模拟环境,预测未来的可能性, 自然语言处理3以及游戏策略01等众多领域取得 以及通过观察和参与理解世界如何运作的能力。如 丰硕成果,在某些领域甚至取得了超越人类的表 近年来,深度学习在学术界和工业界得到了广 现。但当前的深度学习算法模型大部分都是以有监 督的方式训练,模型严重依赖于大量的标注数据和 收稿日期:2017-07-19.网络出版日期:201801-22 基金项目:国家十二五科技支撑计划重点项目(2015BAG09B01) 长时间的训练。以知名的ImageNet数据集为例, 通信作者:莫凌飞.E-mail:lmo@seu.edu.cn. 其包含1500万张人工标注的图片,超过2.2万个类
DOI: 10.11992/tis.201707032 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180121.1457.002.html 基于深度学习的视频预测研究综述 莫凌飞,蒋红亮,李煊鹏 (东南大学 仪器科学与工程学院,江苏 南京 210096) 摘 要:近年来,深度学习算法在众多有监督学习问题上取得了卓越的成果,其在精度、效率和智能化等方面的性能 远超传统机器学习算法,部分甚至超越了人类水平。当前,深度学习研究者的研究兴趣逐渐从监督学习转移到强化 学习、半监督学习以及无监督学习领域。视频预测算法,因其可以利用海量无标注自然数据去学习视频的内在表征, 且在机器人决策、无人驾驶和视频理解等领域具有广泛的应用价值,近两年来得到快速发展。本文论述了视频预测 算法的发展背景和深度学习的发展历史,简要介绍了人体动作、物体运动和移动轨迹的预测,重点介绍了基于深度学 习的视频预测的主流方法和模型,最后总结了当前该领域存在的问题和发展前景。 关键词:视频预测;深度学习;无监督学习;运动预测;动作识别;卷积神经网络;递归神经网络;自编码器 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)01−0085−12 中文引用格式:莫凌飞, 蒋红亮, 李煊鹏. 基于深度学习的视频预测研究综述[J]. 智能系统学报, 2018, 13(1): 85–96. 英文引用格式:MO Lingfei, JIANG Hongliang, LI Xuanpeng. Review of deep learning-based video prediction[J]. CAAI transactions on intelligent systems, 2018, 13(1): 85–96. Review of deep learning-based video prediction MO Lingfei,JIANG Hongliang,LI Xuanpeng (College of Instrument Science and Engineering, Southeast University, Nanjing 210096, China) Abstract: In recent years, deep learning algorithms have made significant achievements on various supervised learning problems, with their accuracy, efficiency, and intelligence outperforming traditional machine learning algorithms, in some instances even beyond human capability. Currently, deep learning researchers are gradually turning their interests from supervised learning to the areas of reinforcement learning, weakly supervised learning, and unsupervised learning. Video prediction algorithms have developed rapidly in the last two years due to its capability of using a large amount of unlabeled and naturalistic data to construct the forthcoming video as well as its widespread application value in decision making, autonomous driving, video comprehension, and other fields. In this paper, we review the development background of the video prediction algorithms and the history of deep learning. Then, we briefly introduce the human activity, object movement, and trajectory prediction algorithms, with a focus on mainstream video prediction methods that are based on deep learning. We summarize current problems related to this research and consider the future prospects of this field. Keywords: video prediction; deep learning; unsupervised learning; motion prediction; action recognition; convolution neural network; recurrent neural network; auto encoder “我们缺乏的一个关键要素是预测 (或无监 督) 学习:机器具有模拟环境,预测未来的可能性, 以及通过观察和参与理解世界如何运作的能力。” [1] 近年来,深度学习在学术界和工业界得到了广 泛的发展和应用,其在计算机视觉[2-6] 、语音识别[7] 、 自然语言处理[8-9]以及游戏策略[10-11]等众多领域取得 丰硕成果,在某些领域甚至取得了超越人类的表 现。但当前的深度学习算法模型大部分都是以有监 督的方式训练,模型严重依赖于大量的标注数据和 长时间的训练。以知名的 ImageNet 数据集[12]为例, 其包含 1 500 万张人工标注的图片,超过 2.2 万个类 收稿日期:2017−07−19. 网络出版日期:2018−01−22. 基金项目:国家十二五科技支撑计划重点项目 (2015BAG09B01). 通信作者:莫凌飞. E-mail: lfmo@seu.edu.cn. 第 13 卷第 1 期 智 能 系 统 学 报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018
·86· 智能系统学报 第13卷 别,创建和标注一个如此大规模的数据集需要耗费 深度学习是人工神经网络(artificial neural net-- 许多人数月的时间才能完成。另外,依赖大量的标 work,ANN)的一个分支。最早的人工神经网络研 记数据来获取概念和知识与人类的学习机制不符, 究可以追溯到Mcculloch和Pitts在1943年提出 人类依赖很少的样本就可以获取一个新的概念。当 的阈值逻辑单元,他们从原理上证明了人工神经网 儿童第一次观察到“猫”并被告知这种动物是“猫”以 络可以计算任何算术和逻辑函数。随后Hebb学习 后,儿童并不需要长期被重复告知这是“猫”,但监督 规则)、感知机、反向传播算法1等概念先后被 学习的方式需要大量的样本以及多次重复训练,才 提出,并得到了一定的应用,例如手写数字识别和 能掌握“猫”的概念。以类似人类的方式,通过有限 语音识别。然而,由于当时人们对神经网络认识 样本或者无监督的方式获取知识和表征,成为当前 有限,计算机的计算能力也有限,神经网络并未得 人工智能领域的热点研究问题。 到过多关注。2006年,Hinton等提出以无监督限制 另外,人类与其他动物的一个重要区别是人类 玻尔兹曼机(restricted Boltzmann machine,RBM) 有很强的预测能力。尽管一些动物也有一些预测能 进行逐层预训练的方法来高效地训练多层神经网 力,例如在围捕猎物、躲避天敌和预测天气变化上 络1,深度学习的概念开始进入公众视野。2012年 等;但人类显然有更强的推理和预测能力,例如,人 Krizhevsky等使用深度卷积神经网络(convolution- 类驾驶汽车时可以推理其他汽车的运行轨迹,提前 al neural network,.CNN)Is构建的AlexNet模型以 决策。当前计算机视觉领域的研究,也逐渐开始借 绝对优势赢得了ImageNet大规模图像识别竞赛 鉴人类这种预测编码能力。 (LSVRC2012)的冠军,AlexNet的成功成为了计算 在这种背景下,视频预测因其可以用海量的无 机视觉发展史上的转折点,自此深度学习得到了飞 标注自然视频数据来训练,而且具有广泛的应用场 速发展。卷积神经网络(convolutional neural net- 景,成为了当前深度学习研究领域的一个热点研究 work,CNN)、递归神经网铬(recurrent neural net-. 方向,并且已经取得了一定的研究成果。 work,RNN)Po、自编码网络(auto encoder)P和生成 给出一个视频序列,预测未来视频,这需要构 对抗网络(generative adversarial networks,.GANs) 建一个可以精准建模视频内容和动态变化的内部表 及其各种变种得到了广泛的发展和应用。 征模型,这也是视频预测被视为无监督表征学习的 表征学习(或特征学习,representation learn- 一个很有前景的研究方向的原因。视频预测模型学 ing)2旨在利用机器自动从原始高维数据中获得可 习到的表征可以迁移到监督学习任务中。例如,文 以被机器学习算法高效利用的特征。深度学习可 献[13]通过实验证明,通过无监督视频预测模型学 看作一种通过简单、非线性映射方式获取多层特征 习到的表征可以在动作识别数据集上提升分类结 的表征学习方法,它把原始输入数据通过逐层映 果,因此建模视频动态是一种有效的无监督表征学 射,转变为高阶的、更为抽象的特征。以分类问题 习方法。另外,在视频中推断未来的场景可以使机 为例,高层的表征放大了那些更有区分度的特征, 器人、自动驾驶汽车和无人机提前决策,因此有广 而抑制了那些无关变量。深度学习被证明非常擅长 泛的应用价值。 发现高维度数据中的复杂特征,因此在科学界和工 业界得到广泛应用,并打破了图像识别、语音识别 1深度学习概述 和机器翻译的记录。 机器学习算法是一种可以自动从数据中发现规 2深度学习主要模型 律,并利用此规律对未知数据进行预测的算法,机 器学习在数据挖掘、计算机视觉、自然语言处理、搜 近些年来,有越来越多的深度学习模型被提 索、推荐系统以及策略游戏等众多领域得到了广泛 出,其中最基础、最重要的模型主要有卷积神经网 的应用,取得了突出的成果。然而,自然界的原始 络、递归神经网络、自编码器以及生成对抗网络,这 数据,例如图像、视频和传感器测量数据等一般具 几种模型构成了视频预测模型的基础,下面我们简 有高维度、高复杂性和高冗余性的特点,人工提取 要介绍这4种主流模型。 特征需要依赖专家知识,费时费力且提取到的特征 2.1卷积神经网络 通常不太好。而传统机器学习算法往往依赖人工提 卷积神经网络是前馈神经网络的一种,这种神 取特征,导致实际的机器学习问题退化为数据预处 经元连接模式受动物视觉皮层检测光学信号原理的 理和特征工程四,成为机器学习应用和发展的一大 启发。1980年Fukushima等提出了CNN的前 障碍。 身一一NeoCognitron,20世纪90年代,Lecun等l割
别,创建和标注一个如此大规模的数据集需要耗费 许多人数月的时间才能完成。另外,依赖大量的标 记数据来获取概念和知识与人类的学习机制不符, 人类依赖很少的样本就可以获取一个新的概念。当 儿童第一次观察到“猫”并被告知这种动物是“猫”以 后,儿童并不需要长期被重复告知这是“猫”,但监督 学习的方式需要大量的样本以及多次重复训练,才 能掌握“猫”的概念。以类似人类的方式,通过有限 样本或者无监督的方式获取知识和表征,成为当前 人工智能领域的热点研究问题。 另外,人类与其他动物的一个重要区别是人类 有很强的预测能力。尽管一些动物也有一些预测能 力,例如在围捕猎物、躲避天敌和预测天气变化上 等;但人类显然有更强的推理和预测能力,例如,人 类驾驶汽车时可以推理其他汽车的运行轨迹,提前 决策。当前计算机视觉领域的研究,也逐渐开始借 鉴人类这种“预测编码”能力。 在这种背景下,视频预测因其可以用海量的无 标注自然视频数据来训练,而且具有广泛的应用场 景,成为了当前深度学习研究领域的一个热点研究 方向,并且已经取得了一定的研究成果。 给出一个视频序列,预测未来视频,这需要构 建一个可以精准建模视频内容和动态变化的内部表 征模型,这也是视频预测被视为无监督表征学习的 一个很有前景的研究方向的原因。视频预测模型学 习到的表征可以迁移到监督学习任务中。例如,文 献[13]通过实验证明,通过无监督视频预测模型学 习到的表征可以在动作识别数据集上提升分类结 果,因此建模视频动态是一种有效的无监督表征学 习方法。另外,在视频中推断未来的场景可以使机 器人、自动驾驶汽车和无人机提前决策,因此有广 泛的应用价值。 1 深度学习概述 机器学习算法是一种可以自动从数据中发现规 律,并利用此规律对未知数据进行预测的算法,机 器学习在数据挖掘、计算机视觉、自然语言处理、搜 索、推荐系统以及策略游戏等众多领域得到了广泛 的应用,取得了突出的成果。然而,自然界的原始 数据,例如图像、视频和传感器测量数据等一般具 有高维度、高复杂性和高冗余性的特点,人工提取 特征需要依赖专家知识,费时费力且提取到的特征 通常不太好。而传统机器学习算法往往依赖人工提 取特征,导致实际的机器学习问题退化为数据预处 理和特征工程[2] ,成为机器学习应用和发展的一大 障碍。 深度学习是人工神经网络 (artificial neural network, ANN) 的一个分支。最早的人工神经网络研 究可以追溯到 Mcculloch 和 Pitts[14]在 1943 年提出 的阈值逻辑单元,他们从原理上证明了人工神经网 络可以计算任何算术和逻辑函数。随后 Hebb 学习 规则[15] 、感知机[16] 、反向传播算法[17]等概念先后被 提出,并得到了一定的应用,例如手写数字识别[18]和 语音识别[7]。然而,由于当时人们对神经网络认识 有限,计算机的计算能力也有限,神经网络并未得 到过多关注。2006 年,Hinton 等提出以无监督限制 玻尔兹曼机 (restricted Boltzmann machine, RBM) 进行逐层预训练的方法来高效地训练多层神经网 络 [19] ,深度学习的概念开始进入公众视野。2012 年 Krizhevsky 等使用深度卷积神经网络 (convolutional neural network, CNN)[18]构建的 AlexNet 模型[3]以 绝对优势赢得了 ImageNet 大规模图像识别竞赛 (ILSVRC2012) 的冠军,AlexNet 的成功成为了计算 机视觉发展史上的转折点,自此深度学习得到了飞 速发展。卷积神经网络 (convolutional neural network, CNN)、递归神经网络 (recurrent neural network, RNN)[20] 、自编码网络 (auto encoder)[21]和生成 对抗网络 (generative adversarial networks, GANs)[22] 及其各种变种得到了广泛的发展和应用。 表征学习 (或特征学习, representation learning)[23]旨在利用机器自动从原始高维数据中获得可 以被机器学习算法高效利用的特征[21]。深度学习可 看作一种通过简单、非线性映射方式获取多层特征 的表征学习方法,它把原始输入数据通过逐层映 射,转变为高阶的、更为抽象的特征。以分类问题 为例,高层的表征放大了那些更有区分度的特征, 而抑制了那些无关变量。深度学习被证明非常擅长 发现高维度数据中的复杂特征,因此在科学界和工 业界得到广泛应用,并打破了图像识别、语音识别 和机器翻译的记录。 2 深度学习主要模型 近些年来,有越来越多的深度学习模型被提 出,其中最基础、最重要的模型主要有卷积神经网 络、递归神经网络、自编码器以及生成对抗网络,这 几种模型构成了视频预测模型的基础,下面我们简 要介绍这 4 种主流模型。 2.1 卷积神经网络 卷积神经网络是前馈神经网络的一种,这种神 经元连接模式受动物视觉皮层检测光学信号原理的 启发[24]。1980 年 Fukushima 等 [25]提出了 CNN 的前 身——NeoCognitron,20 世纪 90 年代,Lecun 等 [18] ·86· 智 能 系 统 学 报 第 13 卷
第1期 莫凌飞,等:基于深度学习的视频预测研究综述 ·87· 发表论文,确立了CNN的现代结构,这是一种多层 编码为潜在变量,解码器将潜在变量重建为原 的人工神经网络,取名为LeNet--5。自2012年起, 数据。 研究人员又不断提出更深、性能更强的卷积神经网 自编码器有很多变体,例如降噪自编码器3 络模型:AlexNet、VGGNet和ResNet等。卷积 稀疏自编码器31、变分自编码器(VAE)3637。因为 神经网铬一般是由多个卷积层和全连接层组成,卷 自编码器可以高效地进行数据降维,相当一部分视 积操作、局部连接性和权值共享是卷积神经网络最 频预测模型采用了自编码器架构。 显著的特点。卷积神经网络通常用来处理2D结构 2.4生成对抗网络 的数据,其在图像领域和语音识别上都得到了广泛 Goodfellow等2在2014年提出了生成对抗网 的应用。 络的概念,其为生成模型提供了一种全新的高效训 2010年,Zeiler等2首次提出了反卷积(卷积转 练模式,近两年来生成对抗网络成为了机器学习领 置或小数步进卷积,Deconvolution)的概念,用于卷 域最热门的研究方向之一。LeCun认为“生成对抗 积神经网络的特征可视化以及图像无监督特征学 网络是过去十年来机器学习领域最有趣的想法”,很 习。反卷积网络被越来越多的模型所采用,例如图 多GAN的衍生模型,如条件GAN(condition GAN)、 像语义分割2”、生成模型2割等。另外,为处理序列 InfoGANt9、DCGAN2相继被提出。 图像,Ji等2使用3-D卷积去提取数据的空间和时 生成对抗网络由一个生成器(generator,G)和 间特征,从而可以使卷积神经网络能很好地处理序 一个判别器(discriminator,D)组成。生成器输人一 列信息,3-D卷积在人体动作识别等领域取得了显 个潜在编码,其输出需无限逼近真实样本;判别器 著的结果。 的输入为真实样本和生成器的输出,并识别出真实 2.2递归神经网络 样本和生成样本。两个网络以零和博弈的方式交替 递归神经网络2是一种处理序列数据的神经网 训练,训练鉴别器时最小化鉴别误差,训练生成器 络,它把状态在自身网络中循环传递,能够处理任 时最大化鉴别误差,最终目的是使鉴别器无法鉴别 意长度的序列,递归神经网络比前馈神经网络更加 出生成样本和真实样本,生成器的输出与真实样本 符合生物神经网络的结构。 分布一致。生成对抗网络的架构如图1所示。 因为RNN容易受到梯度消失或者梯度爆炸的 潜在编码或噪声 影响,Schmidhuber等Bo在1997年提出了长短期记 真实样本 忆(long short term memory,LSTM)神经网络,该模 型增加了“遗忘门”和“更新门”。实验表明,LSTM 生成器 模型能有效避免梯度消失或者梯度爆炸的问题,很 好地解决了长期依赖问题。随后学者提出了很多 生成 LSTM模型的变体。Gers等于2001年提出了窥 样本 视孔LSTM(peephole LSTM),该模型增加了一个窥 视孔连接,意味着可以让门限层监视神经元状态。 新生成器 Cho等于2014年提出了门递归单元(gated recur-- rent unit,,GRU),它组合遗忘门和输入门为一个“更 更新鉴别器 鉴别器 D 新门”,合并了神经元状态和隐层状态,这个模型比 标准的LSTM模型更简单。Shi等B别在2015年提 误差反向传播 出了卷积LSTM(convolutional LSTM),把卷积层和 什算误差 递归层做了很好的结合,卷积LSTM与常规LSTM 图1生成对抗网络架构 的区别是把部分矩阵乘积操作换成了卷积操作。因 Fig.1 Architecture of generative adversarial nets 为卷积LSTM可以很好地处理图像的空间信息和时 间动态信息,它在图像生成模型和视频处理等领域 生成对抗网络的目标函数可以用式(I)描述: 得到了广泛应用。 min max V(D.G)=EllogD()]+ (1) 2.3自编码器 E:-p:([log(1-D(G())] 自编码器是一种以无监督的方式来学习数据表 生成对抗网络在生成逼真的自然样本2、图像 征的神经网络,通常用来做数据降维2。自编码器 超分辨率o、三维建模u、图像风格迁移2和视频 通常分为编码器和解码器两部分,编码器将数据 预测领域得到了广泛应用
发表论文,确立了 CNN 的现代结构,这是一种多层 的人工神经网络,取名为 LeNet-5。自 2012 年起, 研究人员又不断提出更深、性能更强的卷积神经网 络模型:AlexNet[3] 、VGGNet[5]和 ResNet[6]等。卷积 神经网络一般是由多个卷积层和全连接层组成,卷 积操作、局部连接性和权值共享是卷积神经网络最 显著的特点。卷积神经网络通常用来处理 2-D 结构 的数据,其在图像领域和语音识别上都得到了广泛 的应用。 2010 年,Zeiler 等 [26]首次提出了反卷积 (卷积转 置或小数步进卷积,Deconvolution) 的概念,用于卷 积神经网络的特征可视化以及图像无监督特征学 习。反卷积网络被越来越多的模型所采用,例如图 像语义分割[27] 、生成模型[28]等。另外,为处理序列 图像,Ji 等 [29]使用 3-D 卷积去提取数据的空间和时 间特征,从而可以使卷积神经网络能很好地处理序 列信息,3-D 卷积在人体动作识别等领域取得了显 著的结果。 2.2 递归神经网络 递归神经网络[20]是一种处理序列数据的神经网 络,它把状态在自身网络中循环传递,能够处理任 意长度的序列,递归神经网络比前馈神经网络更加 符合生物神经网络的结构。 因为 RNN 容易受到梯度消失或者梯度爆炸的 影响,Schmidhuber 等 [30]在 1997 年提出了长短期记 忆 (long short term memory, LSTM) 神经网络,该模 型增加了“遗忘门”和“更新门”。实验表明,LSTM 模型能有效避免梯度消失或者梯度爆炸的问题,很 好地解决了长期依赖问题。随后学者提出了很多 LSTM 模型的变体。Gers 等 [31]于 2001 年提出了窥 视孔 LSTM(peephole LSTM),该模型增加了一个窥 视孔连接,意味着可以让门限层监视神经元状态。 Cho 等 [32]于 2014 年提出了门递归单元 (gated recurrent unit, GRU),它组合遗忘门和输入门为一个“更 新门”,合并了神经元状态和隐层状态,这个模型比 标准的 LSTM 模型更简单。Shi 等 [33]在 2015 年提 出了卷积 LSTM(convolutional LSTM),把卷积层和 递归层做了很好的结合,卷积 LSTM 与常规 LSTM 的区别是把部分矩阵乘积操作换成了卷积操作。因 为卷积 LSTM 可以很好地处理图像的空间信息和时 间动态信息,它在图像生成模型和视频处理等领域 得到了广泛应用。 2.3 自编码器 自编码器是一种以无监督的方式来学习数据表 征的神经网络,通常用来做数据降维[21]。自编码器 通常分为编码器和解码器两部分,编码器将数据 编码为潜在变量,解码器将潜在变量重建为原 数据。 自编码器有很多变体,例如降噪自编码器[34] 、 稀疏自编码器[35] 、变分自编码器 (VAE)[36-37]。因为 自编码器可以高效地进行数据降维,相当一部分视 频预测模型采用了自编码器架构。 2.4 生成对抗网络 Goodfellow 等 [22]在 2014 年提出了生成对抗网 络的概念,其为生成模型提供了一种全新的高效训 练模式,近两年来生成对抗网络成为了机器学习领 域最热门的研究方向之一。LeCun 认为“生成对抗 网络是过去十年来机器学习领域最有趣的想法”,很 多 GAN 的衍生模型,如条件 GAN(condition GAN)[38] 、 InfoGAN[39] 、DCGAN[28]相继被提出。 生成对抗网络由一个生成器 (generator, G) 和 一个判别器 (discriminator,D) 组成。生成器输入一 个潜在编码,其输出需无限逼近真实样本;判别器 的输入为真实样本和生成器的输出,并识别出真实 样本和生成样本。两个网络以零和博弈的方式交替 训练,训练鉴别器时最小化鉴别误差,训练生成器 时最大化鉴别误差,最终目的是使鉴别器无法鉴别 出生成样本和真实样本,生成器的输出与真实样本 分布一致。生成对抗网络的架构如图 1 所示。 生成对抗网络的目标函数可以用式 (1) 描述: min G max D V(D,G) = Ex∼pdata (x)[logD(x)]+ Ez∼pz(z)[log(1− D(G(z)))] (1) 生成对抗网络在生成逼真的自然样本[28] 、图像 超分辨率[40] 、三维建模[41] 、图像风格迁移[42]和视频 预测领域[43]得到了广泛应用。 ⭏ᡀಘ G 䢤࡛ಘ D ▌൘㕆⸱ᡆಚ༠ ⵏᇎṧᵜ ⭏ᡀ ṧᵜ 䈟ᐞ৽ੁՐ ᴤᯠ䢤࡛ಘ ᴤ ᯠ ⭏ ᡀ ಘ 䇑㇇䈟ᐞ 图 1 生成对抗网络架构 Fig. 1 Architecture of generative adversarial nets 第 1 期 莫凌飞,等:基于深度学习的视频预测研究综述 ·87·
·88 智能系统学报 第13卷 3运动预测研究 3.2物体移动轨迹预测 除人体动作和运动预测外,物体轨迹预测也具 给出一张静态图片或者一段场景视频,人类不 有广泛的应用价值。Kitani等s提出了一种基于马 仅可以迅速地获取图像中的即时内容,还可以推断 尔可夫决策过程和反转最优控制的动作理解和轨迹 出图像中的场景动态。然而,对于计算机来说,推 预测方法,并在运动分析(包括运动平滑、路径和目 演出图像中的场景动态是一个比较困难的任务,因 的地预测)以及场景迁移学习上做了定量和定性的 为它依赖计算机利用自然界大量难以参数化的知识 评估。Kitani等s6和Gong等sm都提出用行人轨迹 来建模。 预测来辅助多目标追踪,并取得了高效的结果。 在视频预测研究兴起之前,学术界比较关注的 KOoi等s提出了一种动态贝叶斯网络来做行 是运动预测。运动预测一般是指从静态图像或视频 人路径预测;Walker等s例使用条件变分自编码器来 前几帧中推断出人体动作、物体移动轨迹等动态信 预测静态图像中每个像素的运动轨迹:Walker等6o 息;而视频预测是从静态图片或视频前几帧中直接 使用光流算法来标记视频,进而训练一个光流预测 预测未来图像。本节我们对动作、运动和物体移动 模型,该模型可以预测每个像素的运动:Walker等6 轨迹预测算法进行简要回顾。 还尝试了通过奖赏函数选择最优目标的方式建模汽 3.1动作和运动预测 车运动的轨迹。 从静态图像或有限帧视频中预测人类动作和行 Yuen等6提出一种基于大数据的方法,通过检 为是一个比较基础也比较重要的任务。在动作预测 索大数据中与被检索图片或视频相似场景的方式来 方面,研究人员主要使用统计学习方法和传统的机 预测物体可能的位置,该方法类似于k近邻算法,不 器学习方法来建模。Lan等49和Hoai等使用最 需要训练模型,在数据量足够大的情况下可以取得 大化边界框架来推测动作场景;Ryoo7把动作预测 比较好的效果;Mottaghi等I6使用两个CNN和一 问题概率化,使用时空特征积分直方图来建模特征 个RNN来建模物体移动动态,从而预测可能移动 分布如何随时间变化:Vù等4提出了一种使用动作 的物体。 和场景之间的关联信息,从静态场景中预测人类动 运动预测模型一般从建模移动物体的运动轨迹 作的方法:Pi等9提出了一种基于随机场景感知语 出发,能较好地预测前景物体的瞬时运动轨迹,其 法的事件解析、推断事件目标和预测可信动作的算 处理的数据维度低于视频预测,但不能预测图像的 法,与Vù的方法类似,该方法使用事件的层次组成 结构信息,且其学习到的特征无法迁移到有监督学 和子事件间的时态关系来鉴别不同事件以及预测动 习领域,因而其应用范围和价值有限。 作;Fouhey等so和Koppula等s通过使用条件随机 场来建模人的可能动作从而来做未来场景的预测。 4视频预测模型架构 Huang等提出了一种基于双实体交互的方式 “不是我创造的,我就不能理解。”著名物理学 来理解一个实体的动作如何影响另外一个实体的动 家Feynman这句话背后的内涵是:通过构建验证过 作。本文把双实体交互模型看作一种最优控制问 的概念来理解事物。在人工智能领域,可以理解 题,该模型使用一种基于核以及增强学习的近似软 为:如果一个机器能够生成高度真实的数据,那么 最大值函数去处理高维度的自然人体运动,另外还 它就发展出了对自然数据的理解能力。 使用了连续代价函数的均值转移方法来平滑动作 视频预测是指给出一段连续视频帧X1,X,… 序列。 X.,构造一个模型可以精准地生成随后的帧X+1, Pickup等Is)、Lampert等s和Pintea等分别 X+2,…,X(1是需要预测的帧的数量)。或者,给出 用统计流方法、向量值回归和随机森林回归算法回 一段序列X,X2,…,Xw,其中X(1<n<N)是缺失的, 归物体移动方向;Pintea等还论证了运动预测在动 模型可以推断缺失的帧(插值)。视频预测不需要额 作识别、运动显著性检测等方面有很大的应用价 外的标注信息,因此属于无监督学习的范畴。 值。也有学者使用深度学习进行动作预测。Von- 般常用于评估视频质量的指标有均方误差 drick等4提出一种用深度回归网络的方法来学习 (mean square error,MSE)、峰值信噪比(peak signal 视频表征,结合动作识别模型,能够很好地根据静 to noise ratio,PSNR)和结构相似性(structural simil- 态图像来推测未来动作。 arity index,SSIM。用Y来表示真实帧,Y表示预测
3 运动预测研究 给出一张静态图片或者一段场景视频,人类不 仅可以迅速地获取图像中的即时内容,还可以推断 出图像中的场景动态。然而,对于计算机来说,推 演出图像中的场景动态是一个比较困难的任务,因 为它依赖计算机利用自然界大量难以参数化的知识 来建模[44]。 在视频预测研究兴起之前,学术界比较关注的 是运动预测。运动预测一般是指从静态图像或视频 前几帧中推断出人体动作、物体移动轨迹等动态信 息;而视频预测是从静态图片或视频前几帧中直接 预测未来图像。本节我们对动作、运动和物体移动 轨迹预测算法进行简要回顾。 3.1 动作和运动预测 从静态图像或有限帧视频中预测人类动作和行 为是一个比较基础也比较重要的任务。在动作预测 方面,研究人员主要使用统计学习方法和传统的机 器学习方法来建模。Lan 等 [45]和 Hoai 等 [46]使用最 大化边界框架来推测动作场景;Ryoo[47]把动作预测 问题概率化,使用时空特征积分直方图来建模特征 分布如何随时间变化;Vu 等 [48]提出了一种使用动作 和场景之间的关联信息,从静态场景中预测人类动 作的方法;Pei 等 [49]提出了一种基于随机场景感知语 法的事件解析、推断事件目标和预测可信动作的算 法,与 Vu 的方法类似,该方法使用事件的层次组成 和子事件间的时态关系来鉴别不同事件以及预测动 作;Fouhey 等 [50]和 Koppula 等 [51]通过使用条件随机 场来建模人的可能动作从而来做未来场景的预测。 Huang 等 [52]提出了一种基于双实体交互的方式 来理解一个实体的动作如何影响另外一个实体的动 作。本文把双实体交互模型看作一种最优控制问 题,该模型使用一种基于核以及增强学习的近似软 最大值函数去处理高维度的自然人体运动,另外还 使用了连续代价函数的均值转移方法来平滑动作 序列。 Pickup 等 [53] 、Lampert 等 [54]和 Pintea 等 [55]分别 用统计流方法、向量值回归和随机森林回归算法回 归物体移动方向;Pintea 等还论证了运动预测在动 作识别、运动显著性检测等方面有很大的应用价 值。也有学者使用深度学习进行动作预测。Vondrick 等 [44]提出一种用深度回归网络的方法来学习 视频表征,结合动作识别模型,能够很好地根据静 态图像来推测未来动作。 3.2 物体移动轨迹预测 除人体动作和运动预测外,物体轨迹预测也具 有广泛的应用价值。Kitani 等 [56]提出了一种基于马 尔可夫决策过程和反转最优控制的动作理解和轨迹 预测方法,并在运动分析 (包括运动平滑、路径和目 的地预测) 以及场景迁移学习上做了定量和定性的 评估。Kitani 等 [56]和 Gong 等 [57]都提出用行人轨迹 预测来辅助多目标追踪,并取得了高效的结果。 Kooij 等 [58]提出了一种动态贝叶斯网络来做行 人路径预测;Walker 等 [59]使用条件变分自编码器来 预测静态图像中每个像素的运动轨迹;Walker 等 [60] 使用光流算法来标记视频,进而训练一个光流预测 模型,该模型可以预测每个像素的运动;Walker 等 [61] 还尝试了通过奖赏函数选择最优目标的方式建模汽 车运动的轨迹。 Yuen 等 [62]提出一种基于大数据的方法,通过检 索大数据中与被检索图片或视频相似场景的方式来 预测物体可能的位置,该方法类似于 k 近邻算法,不 需要训练模型,在数据量足够大的情况下可以取得 比较好的效果;Mottaghi 等 [63]使用两个 CNN 和一 个 RNN 来建模物体移动动态,从而预测可能移动 的物体。 运动预测模型一般从建模移动物体的运动轨迹 出发,能较好地预测前景物体的瞬时运动轨迹,其 处理的数据维度低于视频预测,但不能预测图像的 结构信息,且其学习到的特征无法迁移到有监督学 习领域,因而其应用范围和价值有限。 4 视频预测模型架构 “不是我创造的,我就不能理解。”著名物理学 家 Feynman 这句话背后的内涵是:通过构建验证过 的概念来理解事物。在人工智能领域,可以理解 为:如果一个机器能够生成高度真实的数据,那么 它就发展出了对自然数据的理解能力。 X1,X2,···, Xn+1, Xn+2,···,Xn+t X1,X2,···,XN Xn(1 < n < N) 视频预测是指给出一段连续视频帧 Xn,构造一个模型可以精准地生成随后的帧 (t 是需要预测的帧的数量)。或者,给出 一段序列 ,其中 是缺失的, 模型可以推断缺失的帧 (插值)。视频预测不需要额 外的标注信息,因此属于无监督学习的范畴。 Yˆ 一般常用于评估视频质量的指标有均方误差 (mean square error, MSE)、峰值信噪比 (peak signal to noise ratio,PSNR) 和结构相似性 (structural similarity index,SSIM)。用 Y 来表示真实帧, 表示预测 ·88· 智 能 系 统 学 报 第 13 卷
第1期 莫凌飞,等:基于深度学习的视频预测研究综述 ·89· 帧,MSE、PSNR和SSIM的定义如式(2)(4): 经网络架构和生成对抗网络架构,表2为部分基于 1 以上3类架构的视频预测文献概览。下面我们按照 MsE)=N∑Y- (2) =0 这3类进行介绍。 max2 max' 表1视频预测算法常用数据集 PSNR(YY)=101g- =10lg (3) Y- MSE(Y.P Table 1 Common datasets used by video prediction algorithms 0 式中max2,是像素的最大值,例如8位的像素表示 公开数据集 使用该数据集的视频预测文献 法,其像素最大值是255。PSNR的值越大,代表失 KTH6网 文献[65] 真越小。 Human3.6M166] 文献[67-68] SSIM(Y.Y)= (2μ44+C1)(2oy+c2) (4) UCP-10169 文献[13,43.70-73] (+5+c1)(+。+c2) THUMOS-15741 文献73) 式中:y是Y的均值;4是?的均值;σ是Y的方差; σ是?的方差;c是Y?的协方差;c1=(kL和 KITTP阿 文献73,76] c2=(2L)是用于维持稳定的常数;L是像素值的动 HMDB-51177 文献[13] 态范围,k=0.01,k2=0.03;SSIM的范围是-1~1,值 CityScape7网 文献79] 越大表示相似度越大。 视频预测为一个较新的研究领域,目前尚未有 4.1 自编码器架构 专用于视频预测的数据集,学者一般使用视频动作 自编码器因其可以进行高效的压缩编码,因而 数据集进行训练和测试。表1给出了部分常用数据 很多视频预测模型采用自编码器来进行视频的降维 集和使用该数据集的部分文献。 和生成。基于自编码器的视频预测常用架构如图2 视频预测模型一般基于自编码器架构、递归神 所示。 表2视频预测算法概览 Table 2 Overview of video prediction algorithms 架构基础 算法 初始化模型帧数 单次输出帧数/有效预测帧数 备注 文献[65] 1/15+ 在生成第15帧处仍未模糊 文献73] 1/1 插值或预测图像较清晰,未给出多帧预测结果 自编码器 文献80] 1/1 侧重可以生成多种可信的动作图像 文献[8] 120 1/1200+ 合成纹理图片,可以生成接近无限张图片 文献[13) 10 1/10 可以同时重构、预测图像 文献68) 10 1/128 基于骨架结构信息 文献[72] 2 1/30 基于运动差分 递归神经网络文献[76 1/9 可以在KITTI数据上高效预测视频 文献[82] 1/4 图像容易模糊 文献[83] 1/100+ 基于动作,能够生成大于100帧有效视频 文献[84 1/8 基于动作和快捷连接 文献43] 32/32 从单幅图像上直接预测32帧图像 文献67刀1+1(前景+骨架图) 1/10+ 使用骨架作为辅助信息 文献70) 4/8 预测图像锐利性较好 生成对抗网络 文献[80] 10 1/8 在合成数据集上验证,难度稍低 文献8) 1/8 视频预测与语义分割解析结合在一起 文献[86 2 1/14 视频差值模型,双向输入
帧,MSE、PSNR 和 SSIM 的定义如式 (2)~(4): MSE(Y,Yˆ) = 1 N ∑N i=0 (Yi−Yˆ i) 2 (2) PSNR(Y,Yˆ) = 10lg max2 Yˆ 1 N ∑N i=0 (Yi−Yˆ i) 2 = 10lg max2 Yˆ MSE(Y,Yˆ) (3) max2 式中 Yˆ 是像素的最大值,例如 8 位的像素表示 法,其像素最大值是 255。PSNR 的值越大,代表失 真越小。 SSIM(Y,Yˆ) = (2µY µYˆ +c1)(2σYYˆ +c2) (µ 2 Y +µ 2 Yˆ +c1)(σ 2 Y +σ 2 Yˆ +c2) (4) µY µYˆ Yˆ σ 2 Y Y σ 2 Yˆ Yˆ σYYˆ YYˆ c1 = (k1L) 2 c2 = (k2L) 2 式中: 是 Y 的均值; 是 的均值; 是 的方差; 是 的方差; 是 的协方差; 和 是用于维持稳定的常数;L 是像素值的动 态范围,k1=0.01,k2=0.03;SSIM 的范围是 –1~1,值 越大表示相似度越大。 视频预测为一个较新的研究领域,目前尚未有 专用于视频预测的数据集,学者一般使用视频动作 数据集进行训练和测试。表 1 给出了部分常用数据 集和使用该数据集的部分文献。 视频预测模型一般基于自编码器架构、递归神 经网络架构和生成对抗网络架构,表 2 为部分基于 以上 3 类架构的视频预测文献概览。下面我们按照 这 3 类进行介绍。 4.1 自编码器架构 自编码器因其可以进行高效的压缩编码,因而 很多视频预测模型采用自编码器来进行视频的降维 和生成。基于自编码器的视频预测常用架构如图 2 所示。 表 1 视频预测算法常用数据集 Table 1 Common datasets used by video prediction algorithms 公开数据集 使用该数据集的视频预测文献 KTH[64] 文献[65] Human3.6M [66] 文献[67-68] UCF-101[69] 文献[13, 43, 70-73] THUMOS-15[74] 文献[73] KITTI[75] 文献[73, 76] HMDB-51[77] 文献[13] CityScape[78] 文献[79] 表 2 视频预测算法概览 Table 2 Overview of video prediction algorithms 架构基础 算法 初始化模型帧数 单次输出帧数/有效预测帧数 备注 自编码器 文献[65] 1 1/15+ 在生成第15帧处仍未模糊 文献[73] 1 1/1 插值或预测图像较清晰,未给出多帧预测结果 文献[80] 1 1/1 侧重可以生成多种可信的动作图像 文献[81] 120 1/1200+ 合成纹理图片,可以生成接近无限张图片 递归神经网络 文献[13] 10 1/10 可以同时重构、预测图像 文献[68] 10 1/128 基于骨架结构信息 文献[72] 2 1/30 基于运动差分 文献[76] 1 1/9 可以在KITTI数据上高效预测视频 文献[82] 2 1/4 图像容易模糊 文献[83] 1 1/100+ 基于动作,能够生成大于100帧有效视频 文献[84] 1 1/8 基于动作和快捷连接 生成对抗网络 文献[43] 1 32/32 从单幅图像上直接预测32帧图像 文献[67] 1+1(前景+骨架图) 1/10+ 使用骨架作为辅助信息 文献[70] 4 4/8 预测图像锐利性较好 文献[80] 10 1/8 在合成数据集上验证,难度稍低 文献[85] 4 1/8 视频预测与语义分割解析结合在一起 文献[86] 2 1/14 视频差值模型,双向输入 第 1 期 莫凌飞,等:基于深度学习的视频预测研究综述 ·89·
·90· 智能系统学报 第13卷 卷积操作 反卷积操作 方法在KTH数据集上生成的图像有更高的语义 性,均方误差也更低。然而,该模型存在诸多不足, 条件信息 例如生成的人体动作具有歧义,不能很好地建模快 速移动的物体,不能充分地处理前景和背景信息等。 Lu等提出一种深度体元流模型,该模型是 种全卷积自编码器架构,由3个卷积层、3个反卷 编码 解码 积层和一个瓶颈层组成。为更好地保留空间信息, 图2基于自编码器的视频预测模型架构 在每个卷积层和反卷积层之间有跳跃连接。在 Fig.2 Architecture of video prediction based on UCF-101和THUMOS-15数据集上的内插和外推 auto encoder 视频实验上的结果表明,该模型比文献[70]中提到 Yan等8提出了一种深度动态编码器模型 的多尺度对抗训练架构和光流法的结果要更优。 (deep DynEncoder),该模型输入原始像素图像,经编 Xue等7提出一种基于变分自编码器和交叉卷 码器编码成隐状态变量,然后使用动态预测器 积网络的模型,该模型可以从一张图片生成可能的 (DynPredictor)将时序动态编码。使用合适的堆叠 未来帧。该模型通过条件变分自编码器来建模未来 策略、逐层预训练和联合微调,可以构建多层深度 帧的复杂条件分布。另外,该模型利用了图像差分 动态编码器。实验表明,文献[81]提到的方法可以 (欧拉运动)原理,因为图像差分是稀疏的,并且比原 描绘复杂的视频动态,合成高质量的纹理序列视 始图像更容易建模。Xue等还在合成数据集与自然 频。作者还构造了基于深度动态编码器模型的分类 图像上验证了模型的有效性,另外,作者还通过实 和聚类方法,在交通场景分类和运动分割上取得了 验证明了该模型在无监督、零样本类比学习上取得 接近甚至优于之前最好的模型的效果。 了很好的结果。 Vukoti等6提出基于时间差△r的卷积自编码器 4.2递归神经网络(RNN)架构 模型。编码器有两个分支,一个接收输入图像,另 递归神经网络可以很好地进行序列数据建模, 外一个接收期望预测的时间差△1,解码器根据编码 视频预测本身也是一种序列学习问题,很多研究人 器输出的潜在变量生成可信的图像。以没有时间差 员采用递归神经网络来解决视频预测问题。基于编 输入的常规卷积自编码器模型为基准,作者提出的 解码的递归神经网络架构如图3(a)所示。 输入图像序列化,x,,x) 预测图像代) 编码器 RNN/LSTM 解码器 (a)基于编码-递归-解码的视频预测模型架构 输入图像序列(化,x,x) 预测图像(伦) 编码器 RNN/LSTM 解码器 输入图像序列 c,2,“,xi 鉴别器 真/假 输入图像序列 r…,xe无 (b)基于生成对抗网络的视频预测模型架构 图3视频预测模型的抽象结构 Fig.3 Abstract architecture of video prediction model Ranzato等s从自然语言处理领域借鉴了经典给出了一个视频预测和视频插值的基准。Ranzato 的n-grams算法,将之与CNN和RNN结合起来,还在RNN架构基础上提出了递归卷积神经网络
Yan 等 [ 8 1 ]提出了一种深度动态编码器模型 (deep DynEncoder),该模型输入原始像素图像,经编 码器编码成隐状态变量,然后使用动态预测器 (DynPredictor) 将时序动态编码。使用合适的堆叠 策略、逐层预训练和联合微调,可以构建多层深度 动态编码器。实验表明,文献[81]提到的方法可以 描绘复杂的视频动态,合成高质量的纹理序列视 频。作者还构造了基于深度动态编码器模型的分类 和聚类方法,在交通场景分类和运动分割上取得了 接近甚至优于之前最好的模型的效果。 ∆t ∆t Vukoti 等 [65]提出基于时间差 的卷积自编码器 模型。编码器有两个分支,一个接收输入图像,另 外一个接收期望预测的时间差 ,解码器根据编码 器输出的潜在变量生成可信的图像。以没有时间差 输入的常规卷积自编码器模型为基准,作者提出的 方法在 KTH 数据集上生成的图像有更高的语义 性,均方误差也更低。然而,该模型存在诸多不足, 例如生成的人体动作具有歧义,不能很好地建模快 速移动的物体,不能充分地处理前景和背景信息等。 Liu 等 [73]提出一种深度体元流模型,该模型是 一种全卷积自编码器架构,由 3 个卷积层、3 个反卷 积层和一个瓶颈层组成。为更好地保留空间信息, 在每个卷积层和反卷积层之间有跳跃连接。在 UCF-101 和 THUMOS-15 数据集上的内插和外推 视频实验上的结果表明,该模型比文献[70]中提到 的多尺度对抗训练架构和光流法的结果要更优。 Xue 等 [87]提出一种基于变分自编码器和交叉卷 积网络的模型,该模型可以从一张图片生成可能的 未来帧。该模型通过条件变分自编码器来建模未来 帧的复杂条件分布。另外,该模型利用了图像差分 (欧拉运动) 原理,因为图像差分是稀疏的,并且比原 始图像更容易建模。Xue 等还在合成数据集与自然 图像上验证了模型的有效性,另外,作者还通过实 验证明了该模型在无监督、零样本类比学习上取得 了很好的结果。 4.2 递归神经网络 (RNN) 架构 递归神经网络可以很好地进行序列数据建模, 视频预测本身也是一种序列学习问题,很多研究人 员采用递归神经网络来解决视频预测问题。基于编 解码的递归神经网络架构如图 3(a) 所示。 Ranzato 等 [82]从自然语言处理领域借鉴了经典 的 n-grams 算法,将之与 CNN 和 RNN 结合起来, 给出了一个视频预测和视频插值的基准。Ranzato 还在 RNN 架构基础上提出了递归卷积神经网络 㕆⸱ ᶑԦؑ 䀓⸱ ধ〟 ৽ধ〟 图 2 基于自编码器的视频预测模型架构 Fig. 2 Architecture of video prediction based on auto encoder (a) สҾ㕆⸱-䙂ᖂ-䀓⸱Ⲵ㿶仁亴⍻⁑රᷦᶴ (b) สҾ⭏ᡀሩᣇ㖁㔌Ⲵ㿶仁亴⍻⁑රᷦᶴ 㕆⸱ಘ RNN/LSTM 䀓⸱ಘ 䗃ޕമۿᒿࡇ) x1 , x2 , ..., xn ) 亴⍻മۿ) x ^ n+1) ࡇᒿۿമޕ䗃 (x1 , x2 , ..., xn , x ^ n+1) ࡇᒿۿമޕ䗃 (x1 , x2 , ... , xn , x ^ n+1) 䢤࡛ಘ ⵏ/ۇٴ 㕆⸱ಘ RNN/LSTM 䀓⸱ಘ 䗃ޕമۿᒿࡇ) x1 , x2 , ... , xn ) 亴⍻മۿ) x ^ n+1) 图 3 视频预测模型的抽象结构 Fig. 3 Abstract architecture of video prediction model ·90· 智 能 系 统 学 报 第 13 卷
第1期 莫凌飞,等:基于深度学习的视频预测研究综述 ·91· (recurrent convolution neural network,RCNN)架构, Villegas等m提出一种基于自编码器、CNN和卷积 RCNN是在RNN输入和输出端连接卷积层,使其 LSTM架构的模型,该模型有两个编码器输人,其中 能够更好地处理图像结构信息。 一个编码器接收图像序列差分作为运动输入,使用 Srivastava等提出了一种使用LSTM架构的 LSTM建模运动动态,另一个编码器接收最后一帧 无监督视频表征学习模型。该模型将图像经过编码 静态图像,然后将LSTM的输出与静态图像的编码 器编码后送入LSTM网络,解码器可以重建原视 输出组合起来,经由解码器解码为预测图像。作者 频,或者预测未来视频。然而,一个高容量的自编 还提出多尺度残差版本,将编码器各个池化层的输 码器网络倾向于记忆输入数据,预测模型倾向于仅 出通过快捷连接接入到解码器,以更好地保存图像 仅存储最近几帧,因此本文提出了一个复合模型, 的结构信息。 复合模型可以同时重构原图像、预测未来图像,强 4.3 生成对抗训练架构 迫模型来更好地学习视频表征。Srivastava最后把 生成对抗网络为机器学习领域引入了一种新的 无监督学习过程学习到的表征应用到有监督学习一 训练模式,其优越的性能引起了众多学者的关注, 动作分类中,实验结果表明,在训练样本很少的情 也有很多学者采用对抗训练的方式来进行视频预 况下,无监督视频预测学习到的特征显著提升了分 测。一种常用的基于编解码与生成对抗网络的视频 类结果。 预测架构如图3(b)所示。 Lotter等从神经科学的预测编码”概念获得 Lotter等so提出了基于编码器、LSTM和解码 启发,提出了一种视频预测架构一PredNet,该架 器的预测生成模型,通过对抗训练的方式,在“弹球 构的每一层只做局部预测,向后面的层传递残差。 数据集和计算机生成的旋转人脸数据集上取得了很 PredNet在KITTI数据集上的结果表明其可以统一 建模背景和移动物体(车辆、行人)的运动。 好的结果,作者还论证了无监督预测学习是一种有 力的表征学习方法。 Oh等Ia受DeepMind使用雅利达(Atari)游戏 进行增强学习研究的启发,提出未来图像不仅与过 在度量生成样本和真实样本的距离上,学者通 去的图像有关,还与当前的操作行为有关。Oh因此 常使用1,或者2距离,然而,实验表明,仅使用1或 提出一种由编码器、操作变换和基于CNN和RNN 者,距离作为损失函数会导致生成图像较为模糊, 的解码器组成的模型。实验结果表明,基于操作信 当向前预测更多帧的时候,该问题更为严重。Mathieu 息的条件模型可以生成视觉上较真实的、可用于游 等为解决预测图像模糊的问题,提出3个互补的 戏控制的大约100帧预测视频。Fin等随后也提 解决策略:多尺度架构、对抗训练方法和图像梯度 出了基于动作的视频预测模型,该模型可以根据不 差分损失函数。 同的动作预测不同的视频,该模型主要由卷积LSTM 受限于卷积核的大小问题,卷积操作仅能处理 构成,通过跳跃连接(skip connection)保存图形背景 短范围的依赖:另外,使用池化还会导致分辨率降 信息,最后通过掩膜(mask)把背景和转变图像拼接 低,文献[70]使用多尺度网络,通过在多个不同尺度 起来。作者提出3个不同的架构:动态神经平流、 的图像进行上采样和线性组合操作来更好的保持高 卷积动态神经平流和空间变换预测器。这3个模型 分辨率。 在视频预测上都取得了不错的结果。 为解决使用11或者12损失函数导致的图像模 以上提到的方法都是直接预测高阶的视频,由 糊问题,文献[70]使用对抗训练方法。使用对抗训 于误差累积和放大,预测多帧视频是一个非常困难 练方法,模型生成的图像更锐利。然而仅优化对抗 的任务。Villegas等6用高阶结构信息辅助进行视 损失函数会产生训练不稳定问题,生成器生成的图 频预测。他们提出的算法先从输入图像中提取人体 像通常可以生成“迷惑”鉴别器的样本,然而却与真 骨架结构,然后预测骨架结构的变化,与参考图片 实样本Y并不相似。为解决这个问题,作者使生成 联结在一起生成动作视频。实验表明,这种以高阶 器采用对抗损失和1,组合损失函数。通过加入损 结构信息为条件的视频生成策略有效减小了误差传 失函数迫使预测图像的分布与真实图像的分布保持 播和累积,在Human3.6M等数据集上取得了较好 致。 的效果,且可以预测多达128帧的视频。但是该方 Mathieu等o还提出一种图像梯度差分损失, 法仅能预测一种可能的运动,而且背景信息保持不 通过引入近邻图像强度差异来惩罚预测样本和真实 变,不能建模背景的变化,因此有一定的局限性。 样本之间的梯度不一致性。最终生成器损失函数为 有些研究人员试图将背景和运动分开建模。 对抗损失、12损失和图像梯度差分损失的加权和
(recurrent convolution neural network, RCNN) 架构, RCNN 是在 RNN 输入和输出端连接卷积层,使其 能够更好地处理图像结构信息。 Srivastava 等 [13]提出了一种使用 LSTM 架构的 无监督视频表征学习模型。该模型将图像经过编码 器编码后送入 LSTM 网络,解码器可以重建原视 频,或者预测未来视频。然而,一个高容量的自编 码器网络倾向于记忆输入数据,预测模型倾向于仅 仅存储最近几帧,因此本文提出了一个复合模型, 复合模型可以同时重构原图像、预测未来图像,强 迫模型来更好地学习视频表征。Srivastava 最后把 无监督学习过程学习到的表征应用到有监督学习—— 动作分类中,实验结果表明,在训练样本很少的情 况下,无监督视频预测学习到的特征显著提升了分 类结果。 Lotter 等 [76]从神经科学的“预测编码”概念获得 启发,提出了一种视频预测架构——PredNet,该架 构的每一层只做局部预测,向后面的层传递残差。 PredNet 在 KITTI 数据集上的结果表明其可以统一 建模背景和移动物体 (车辆、行人) 的运动。 Oh 等 [83]受 DeepMind 使用雅利达 (Atari) 游戏 进行增强学习研究的启发,提出未来图像不仅与过 去的图像有关,还与当前的操作行为有关。Oh 因此 提出一种由编码器、操作变换和基于 CNN 和 RNN 的解码器组成的模型。实验结果表明,基于操作信 息的条件模型可以生成视觉上较真实的、可用于游 戏控制的大约 100 帧预测视频。Finn 等 [84]随后也提 出了基于动作的视频预测模型,该模型可以根据不 同的动作预测不同的视频,该模型主要由卷积 LSTM 构成,通过跳跃连接 (skip connection) 保存图形背景 信息,最后通过掩膜 (mask) 把背景和转变图像拼接 起来。作者提出 3 个不同的架构:动态神经平流、 卷积动态神经平流和空间变换预测器。这 3 个模型 在视频预测上都取得了不错的结果。 以上提到的方法都是直接预测高阶的视频,由 于误差累积和放大,预测多帧视频是一个非常困难 的任务。Villegas 等 [68]用高阶结构信息辅助进行视 频预测。他们提出的算法先从输入图像中提取人体 骨架结构,然后预测骨架结构的变化,与参考图片 联结在一起生成动作视频。实验表明,这种以高阶 结构信息为条件的视频生成策略有效减小了误差传 播和累积,在 Human3.6M 等数据集上取得了较好 的效果,且可以预测多达 128 帧的视频。但是该方 法仅能预测一种可能的运动,而且背景信息保持不 变,不能建模背景的变化,因此有一定的局限性。 有些研究人员试图将背景和运动分开建模。 Villegas 等 [72]提出一种基于自编码器、CNN 和卷积 LSTM 架构的模型,该模型有两个编码器输入,其中 一个编码器接收图像序列差分作为运动输入,使用 LSTM 建模运动动态,另一个编码器接收最后一帧 静态图像,然后将 LSTM 的输出与静态图像的编码 输出组合起来,经由解码器解码为预测图像。作者 还提出多尺度残差版本,将编码器各个池化层的输 出通过快捷连接接入到解码器,以更好地保存图像 的结构信息。 4.3 生成对抗训练架构 生成对抗网络为机器学习领域引入了一种新的 训练模式,其优越的性能引起了众多学者的关注, 也有很多学者采用对抗训练的方式来进行视频预 测。一种常用的基于编解码与生成对抗网络的视频 预测架构如图 3(b) 所示。 Lotter 等 [80]提出了基于编码器、LSTM 和解码 器的预测生成模型,通过对抗训练的方式,在“弹球” 数据集和计算机生成的旋转人脸数据集上取得了很 好的结果,作者还论证了无监督预测学习是一种有 力的表征学习方法。 在度量生成样本和真实样本的距离上,学者通 常使用 l1 或者 l2 距离,然而,实验表明,仅使用 l1 或 者 l2 距离作为损失函数会导致生成图像较为模糊, 当向前预测更多帧的时候,该问题更为严重。Mathieu 等 [70]为解决预测图像模糊的问题,提出 3 个互补的 解决策略:多尺度架构、对抗训练方法和图像梯度 差分损失函数。 受限于卷积核的大小问题,卷积操作仅能处理 短范围的依赖;另外,使用池化还会导致分辨率降 低,文献[70]使用多尺度网络,通过在多个不同尺度 的图像进行上采样和线性组合操作来更好的保持高 分辨率。 为解决使用 l1 或者 l2 损失函数导致的图像模 糊问题,文献[70]使用对抗训练方法。使用对抗训 练方法,模型生成的图像更锐利。然而仅优化对抗 损失函数会产生训练不稳定问题,生成器生成的图 像通常可以生成“迷惑”鉴别器的样本,然而却与真 实样本 Y 并不相似。为解决这个问题,作者使生成 器采用对抗损失和 lp 组合损失函数。通过加入损 失函数迫使预测图像的分布与真实图像的分布保持 一致。 Mathieu 等 [70]还提出一种图像梯度差分损失, 通过引入近邻图像强度差异来惩罚预测样本和真实 样本之间的梯度不一致性。最终生成器损失函数为 对抗损失、l2 损失和图像梯度差分损失的加权和。 第 1 期 莫凌飞,等:基于深度学习的视频预测研究综述 ·91·
·92· 智能系统学报 第13卷 Mathieu的实验结果表明,使用对抗损失函数和梯 KTH数据集上的实验结果表明,文献[88]的视频预 度差分损失函数,性能要超过仅使用,损失函数: 测在准确性和图像锐利性方面要好于文献[80]。作 并且在图像锐利度上要远好于!损失函数。Hintz四 者还提出,背景内容编码器可以构建图像分类模 受文献[70]的启发,将生成器替换为储蓄池计算,鉴 型,运动前景编码器可以构建视频动作分类模型。 别器结构以及训练方法与文献[70]保持相同。作者 50r .VGAN初始化 在UCF-101数据集上的实验结果表明,虽然其在 45随机初始化 -随机猜测 40 PSNR和SSIM评测上结果略低于文献[7O],但其收 35 敛时间明显快于前者,也取得了相当好的结果。 30 图像语义分割具有广泛的应用价值。Luc等 25 在文献[70]的基础上,使用多尺度架构和对抗训练 20 方法来预测语义分割图像。实验结果表明,预测语 15 义分割图像的精度要好于直接预测RGB图像,且 10 预测分割图像的平均IoU达到了真实图像分割结果 5 的2/3。 102 10 10 Vondrick等提出使用时空卷积生成对抗网络 带标签的训练集视频数量/条 的视频预测模型VGNN,该模型利用时空卷积网络 图4在UCF101数据集上,VGAN鉴别器参数初始化分 将前景和背景解耦。本文使用生成对抗网络从潜在 类器、随机值初始化分类器以及随机猜测类别的性能 对比 编码向量生成高维视频,分别提出了由时空卷积和 Fig.4 Performance comparison of classifier initialized by 反卷积组成的单流架构,以及可以建模静态的背景 VGAN discriminator's parameters,classifier initial- 和动态的前景的双流架构。该模型在超过200万条 ized by random value and random classification on UCF101 视频上训练后可以自己“创作视频内容。作者以自 与文献[68]类似,Yan等6基于条件GAN架 编码器架构作为基准,经“亚马逊土耳其机器人”测 构,用人体骨骼作为辅助信息,可以生成多帧栩栩 试。结果表明,双流对抗网络性能优于对应的单流 如生的运动视频。 对抗网络,远优于自编码器网络,甚至有20%的人 Chen等ls提出一种双向预测网络来进行视频 认为模型生成的视频比自然视频更“真实”。在预测 插值,该模型采用编码器一解码器架构,通过两个 未来帧问题上,Vondrick等在生成器前加入一个编 编码器分别编码起始帧和结尾帧,从而产生一个潜 码器,将静态图片编码为潜在编码向量,作为双流 在表征,解码器以潜在表征作为输入来生成多帧插 生成对抗网络的输入,生成模型可以生成32帧的视 值视频。该模型采用多尺度架构,其损失函数为 频(一般视频是25帧/秒,因此模型可以生成约1.5s ,重建损失、特征空间损失(以AlexNet最后一个卷 的视频)。结果表明,生成器生成的视频虽然不是严 积层提取到的特征作为基准)与对抗损失的加权 格意义上的正确视频,但在语义上是可接受的。 和。该模型在合成2D数据集和UCF101数据集上 Vondrick等最终把通过无监督方式学习到的鉴 的结果表明,其比基于光流场的模型的效果要更好。 别模型参数用在监督学习任务上(例如动作分类), 将鉴别器最后一层替换为Softmax分类器。实验结 5结束语 果表明,使用无监督学习到的参数初始化分类器, 当前深度有监督学习在计算机视觉、自然语言 在同样样本量大小情况下,其分类性能高于随机初 处理和机器翻译等领域取得了远超传统方法的性 始化的网络,对比效果图见图4。Jin等网使用基于 能,但这些成就多属于深度学习在感知层面的工 生成对抗网络的时空特征学习方法,结合预测转向 作,这属于人工智能的第一步;下一步就是让机器 解析模型,可以增强现有的场景解析模型。其实验 能够理解自然界变化的规律,对自然界动态进行建 结果表明,其在Cityscapes视频分割数据集上取得 模,使其能够对现实世界中将要发生的事情进行预 了较好的结果。 测,要达到这一步,需要借助于无监督学习。无监 Denton等ss1也提出将视频背景内容和运动前 督学习因其可以在自然界海量的无标注数据上进行 景分开编码的视频表征分解模型,与文献[80]不同 训练,且应用范围广泛,因而被誉为深度学习的圣杯。 的是,文献[88]是以生成对抗网络的方式训练背景 视频预测作为无监督学习的一个最新的也是最 内容编码器、运动姿势编码器以及解码器。在 有前景的研究方向之一,其意义不仅在于能够很好
Mathieu 的实验结果表明,使用对抗损失函数和梯 度差分损失函数,性能要超过仅使用 l2 损失函数, 并且在图像锐利度上要远好于 l2 损失函数。Hintz[71] 受文献[70]的启发,将生成器替换为储蓄池计算,鉴 别器结构以及训练方法与文献[70]保持相同。作者 在 UCF-101 数据集上的实验结果表明,虽然其在 PSNR 和 SSIM 评测上结果略低于文献[70],但其收 敛时间明显快于前者,也取得了相当好的结果。 图像语义分割具有广泛的应用价值。Luc 等 [85] 在文献[70]的基础上,使用多尺度架构和对抗训练 方法来预测语义分割图像。实验结果表明,预测语 义分割图像的精度要好于直接预测 RGB 图像,且 预测分割图像的平均 IoU 达到了真实图像分割结果 的 2/3。 Vondrick 等 [43]提出使用时空卷积生成对抗网络 的视频预测模型 VGNN,该模型利用时空卷积网络 将前景和背景解耦。本文使用生成对抗网络从潜在 编码向量生成高维视频,分别提出了由时空卷积和 反卷积组成的单流架构,以及可以建模静态的背景 和动态的前景的双流架构。该模型在超过 200 万条 视频上训练后可以自己“创作”视频内容。作者以自 编码器架构作为基准,经“亚马逊土耳其机器人”测 试。结果表明,双流对抗网络性能优于对应的单流 对抗网络,远优于自编码器网络,甚至有 20% 的人 认为模型生成的视频比自然视频更“真实”。在预测 未来帧问题上,Vondrick 等在生成器前加入一个编 码器,将静态图片编码为潜在编码向量,作为双流 生成对抗网络的输入,生成模型可以生成 32 帧的视 频 (一般视频是 25 帧/秒,因此模型可以生成约 1.5 s 的视频)。结果表明,生成器生成的视频虽然不是严 格意义上的正确视频,但在语义上是可接受的。 Vondrick 等最终把通过无监督方式学习到的鉴 别模型参数用在监督学习任务上 (例如动作分类), 将鉴别器最后一层替换为 Softmax 分类器。实验结 果表明,使用无监督学习到的参数初始化分类器, 在同样样本量大小情况下,其分类性能高于随机初 始化的网络,对比效果图见图 4。Jin 等 [79]使用基于 生成对抗网络的时空特征学习方法,结合预测转向 解析模型,可以增强现有的场景解析模型。其实验 结果表明,其在 Cityscapes 视频分割数据集上取得 了较好的结果。 Denton 等 [88]也提出将视频背景内容和运动前 景分开编码的视频表征分解模型,与文献[80]不同 的是,文献[88]是以生成对抗网络的方式训练背景 内容编码器、运动姿势编码器以及解码器。在 KTH 数据集上的实验结果表明,文献[88]的视频预 测在准确性和图像锐利性方面要好于文献[80]。作 者还提出,背景内容编码器可以构建图像分类模 型,运动前景编码器可以构建视频动作分类模型。 与文献[68]类似,Yan 等 [67]基于条件 GAN 架 构,用人体骨骼作为辅助信息,可以生成多帧栩栩 如生的运动视频。 Chen 等 [86]提出一种双向预测网络来进行视频 插值,该模型采用编码器—解码器架构,通过两个 编码器分别编码起始帧和结尾帧,从而产生一个潜 在表征,解码器以潜在表征作为输入来生成多帧插 值视频。该模型采用多尺度架构,其损失函数为 l2 重建损失、特征空间损失 (以 AlexNet 最后一个卷 积层提取到的特征作为基准) 与对抗损失的加权 和。该模型在合成 2D 数据集和 UCF101 数据集上 的结果表明,其比基于光流场的模型的效果要更好。 5 结束语 当前深度有监督学习在计算机视觉、自然语言 处理和机器翻译等领域取得了远超传统方法的性 能,但这些成就多属于深度学习在感知层面的工 作,这属于人工智能的第一步;下一步就是让机器 能够理解自然界变化的规律,对自然界动态进行建 模,使其能够对现实世界中将要发生的事情进行预 测,要达到这一步,需要借助于无监督学习。无监 督学习因其可以在自然界海量的无标注数据上进行 训练,且应用范围广泛,因而被誉为“深度学习的圣杯”。 视频预测作为无监督学习的一个最新的也是最 有前景的研究方向之一,其意义不仅在于能够很好 102 103 104 0 5 10 15 20 25 30 35 40 45 50 ፒᴳオ⮰䃙㏯䯲㻲䶽䛻 ࡂ݉VGAN ࡂ݉䮻ᱦ 䮻ᱦ⡈≷ Ꮢ/% 图 4 在 UCF101 数据集上,VGAN 鉴别器参数初始化分 类器、随机值初始化分类器以及随机猜测类别的性能 对比 Fig. 4 Performance comparison of classifier initialized by VGAN discriminator’s parameters, classifier initialized by random value and random classification on UCF101 ·92· 智 能 系 统 学 报 第 13 卷
第1期 莫凌飞,等:基于深度学习的视频预测研究综述 ·93· 地建模视频场景来推测未来视频,从而帮助机器能 formance on imagenet classification[C]//Proceedings of the 够更好地决策,还在于其以无监督方式学习到的内 2015 IEEE International Conference on Computer Vision. 部视觉表征可以加速或提升弱监督学习和有监督学 Santiago,Chile,2015:1026-1034. 习的性能,因此得到了越来越多学者的关注,也取 [5]SIMONYAN K,ZISSERMAN A.Very deep convolutional 得了非常多的进展。但是,现有的方法仍旧存在许 networks for large-scale image recognition[Z].arXiv pre- 多不足: print arXiv:1409.1556,2014. 1)当前提出的各种模型,结构比较单一,多数 [6]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep 是基于自编码器、递归神经网络(包括LSTM)和生 residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern 成对抗网络,虽然这些架构取得了不错的效果,但 Recognition.Las Vegas,NV,USA.2016:770-778. 是仍无法高效建模自然界复杂的动态结构,导致当 [7]HINTON G,DENG Li,YU Dong,et al.Deep neural net- 前的模型仅能预测有限的几帧或者几十帧图像,且 works for acoustic modeling in speech recognition:The 在预测的后期画面会变模糊或者失去语义信息。 shared views of four research groups[J].IEEE signal pro- 2)日前学术界使用的视频预测损失函数比较 cessing magazine,2012,29(6):82-97 单一,常使用的损失函数是均方误差损失、对抗损 [8]SUTSKEVER I,VINYALS O,LE Q V.Sequence to se- 失函数和图像梯度差分损失函数。因为图像具有高 quence learning with neural networks[C]//Proceedings of 维复杂结构信息,当前常用损失函数没有充分考虑 the 27th International Conference on Neural Information 结构信息,导致模型预测的图像缺乏语义信息。另 Processing Systems.Montreal,Quebec,Canada,2014: 外,使用峰值信噪比、结构相似性作为图像评价标 3104-3112 准,与人眼的视觉感知并不完全一致,人眼的视觉 [9]BENGIO Y,DUCHARME R,VINCENT P,et al.A neural 对于误差的敏感度并不是绝对的,其感知结果会受 probabilistic language model[J].Journal of machine learn- 到许多因素的影响而产生变化,因此在图形评价指 ing research,.2003,3:1137-1155 标上仍有待研究。 [10]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing 3)理论上,预测视频动态在机器人决策、无人 atari with deep reinforcement learning[Z].arXiv preprint 驾驶和视频监控系统等领域具有广泛的应用价值, arXiv:1312.5602.2013. 但当前视频预测的研究多数在学术界,且研究处于 [11]SILVER D,HUANG A,MADDISON C J,et al.Master- ing the game of Go with deep neural networks and tree 早期阶段,具体在工业界的应用还未起步。 search[J.Nature,2016,529(7587):484-489. 视频预测学习是理解和建模自然界场景动态的 [12]DENG Jia,DONG Wei,SOCHER R,et al.ImageNet:A 有力手段,也是无监督学习的一个新的、重要的突 large-scale hierarchical image database[C]//Proceedings of 破点,尽管该领域的研究面临着不少挑战和未解决 the 2009 IEEE Conference on Computer Vision and Pat- 的问题,但当前认知科学和深度学习领域发展非常 tern Recognition.Miami,FL,USA,2009:248-255 迅速,尤其是在增强学习、半监督学习和无监督学 [13]SRIVASTAVA N.MANSIMOV E,SALAKHUDINOV R 习方向,且当前的计算机计算能力越来越强,这些 Unsupervised learning of video representations using 有利因素定会加速视频预测研究的进展。 LSTMs[Cl//Proceedings of the 32nd International Confer- ence on Machine Learning.Lille,France,2015:843-852. 参考文献: [14]MCCULLOCH WS,PITTS W.A logical calculus of the [1]LECUN Y.Predictive Learning[R]//Proceedings of the 30th ideas immanent in nervous activity[J].The bulletin of Annual Conference on Neural Information Processing Sys- mathematical biophysics,1943,5(4):115-133 tems.Barcelona,Spain,2016 [15]HEBB D O.The organization of behavior:A neuropsycho- [2]LECUN Y,BENGIO Y,HINTON G.Deep learning[J]. logical theory[M].New York:Chapman Hall,1949. Nature,2015,521(7553):436-444. [16]MINSKY ML,PAPERT S A.Perceptrons:an introduc- [3]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- tion to computational geometry[M].2nd ed.Cambridge, ageNet classification with deep convolutional neural net- UK:MIT Press,1988. works[C]//Proceedings of the 26th Annual Conference on [17]RUMELHART D E,HINTON G E,WILLIAMS R J. Neural Information Processing Systems 2012.South Lake Learning representations by back-propagating errors[J]. Tahoe,NV,USA2012:1097-1105 Nature,1986,323(6088):533-536. [4]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [18]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based Delving deep into rectifiers:Surpassing human-level per- learning applied to document recognition[J].Proceedings
地建模视频场景来推测未来视频,从而帮助机器能 够更好地决策,还在于其以无监督方式学习到的内 部视觉表征可以加速或提升弱监督学习和有监督学 习的性能,因此得到了越来越多学者的关注,也取 得了非常多的进展。但是,现有的方法仍旧存在许 多不足: 1) 当前提出的各种模型,结构比较单一,多数 是基于自编码器、递归神经网络 (包括 LSTM) 和生 成对抗网络,虽然这些架构取得了不错的效果,但 是仍无法高效建模自然界复杂的动态结构,导致当 前的模型仅能预测有限的几帧或者几十帧图像,且 在预测的后期画面会变模糊或者失去语义信息。 2) 目前学术界使用的视频预测损失函数比较 单一,常使用的损失函数是均方误差损失、对抗损 失函数和图像梯度差分损失函数。因为图像具有高 维复杂结构信息,当前常用损失函数没有充分考虑 结构信息,导致模型预测的图像缺乏语义信息。另 外,使用峰值信噪比、结构相似性作为图像评价标 准,与人眼的视觉感知并不完全一致,人眼的视觉 对于误差的敏感度并不是绝对的,其感知结果会受 到许多因素的影响而产生变化,因此在图形评价指 标上仍有待研究。 3) 理论上,预测视频动态在机器人决策、无人 驾驶和视频监控系统等领域具有广泛的应用价值, 但当前视频预测的研究多数在学术界,且研究处于 早期阶段,具体在工业界的应用还未起步。 视频预测学习是理解和建模自然界场景动态的 有力手段,也是无监督学习的一个新的、重要的突 破点,尽管该领域的研究面临着不少挑战和未解决 的问题,但当前认知科学和深度学习领域发展非常 迅速,尤其是在增强学习、半监督学习和无监督学 习方向,且当前的计算机计算能力越来越强,这些 有利因素定会加速视频预测研究的进展。 参考文献: LECUN Y. Predictive Learning[R]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016 [1] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. [2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. South Lake Tahoe, NV, USA, 2012: 1097–1105. [3] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Delving deep into rectifiers: Surpassing human-level per- [4] formance on imagenet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1026–1034. SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[Z]. arXiv preprint arXiv: 1409.1556, 2014. [5] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778. [6] HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97. [7] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 3104–3112. [8] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3: 1137–1155. [9] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[Z]. arXiv preprint arXiv: 1312.5602, 2013. [10] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [11] DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255. [12] SRIVASTAVA N, MANSIMOV E, SALAKHUDINOV R. Unsupervised learning of video representations using LSTMs[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 843–852. [13] MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5(4): 115–133. [14] HEBB D O. The organization of behavior: A neuropsychological theory[M]. New York: Chapman & Hall, 1949. [15] MINSKY M L, PAPERT S A. Perceptrons: an introduction to computational geometry[M]. 2nd ed. Cambridge, UK: MIT Press, 1988. [16] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533–536. [17] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings [18] 第 1 期 莫凌飞,等:基于深度学习的视频预测研究综述 ·93·
·94· 智能系统学报 第13卷 of the IEEE,1998,86(11):2278-2324 Learning phrase representations using RNN encoder-de- [19]HINTON G E,OSINDERO S,TEH Y W.A fast learning coder for statistical machine translation[Z].arXiv preprint algorithm for deep belief nets[J].Neural computation, arXiv:1406.1078,2014 2006,18(7):1527-1554. [33]SHI Xingjian,CHEN Zhourong,WANG Hao,et al.Con- [20]JORDAN M I.Serial order:A parallel distributed pro- volutional LSTM network:a machine learning approach cessing approach[J].Advances in psychology,1997,121: for precipitation nowcasting[C]//Proceedings of the 28th 471-495. International Conference on Neural Information Pro- [21]BENGIO Y.Learning deep architectures for AI[J].Found- cessing Systems.Montreal,Quebec,Canada,2015: ations and trends in machine learning,2009,2(1):1-127. 802-810. [22]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et [34]VINCENT P,LAROCHELLE H,LAJOIE I,et al.Stacked al.Generative adversarial nets[Cl//Proceedings of the 27th denoising autoencoders:Learning useful representations in International Conference on Neural Information Pro- a deep network with a local denoising criterion[J].Journal cessing Systems.Montreal,Quebec,Canada,2014: of machine learning research,2010,11:3371-3408 2672-2680. [35]NG A.Sparse autoencoder[R].CS294A Lecture Notes, [23]BENGIO Y,COURVILLE A,VINCENT P.Representa- 2011:72. tion learning:a review and new perspectives[J].IEEE [36]KINGMA D P,WELLING M.Auto-encoding variational transactions on pattern analysis and machine intelligence, bayes[Z].arXiv preprint arXiv:1312.6114,2013. 2013,35(8):1798-1828. [37]REZENDE D J,MOHAMED S,WIERSTRA D.Stochast- [24]HUBEL D H,WIESEL T N.Receptive fields and function- ic backpropagation and approximate inference in deep gen- al architecture of monkey striate cortex[J].The journal of erative models[Z].arXiv preprint arXiv:1401.4082,2014. physiology,.1968,195(1):215-243 [38]MIRZA M,OSINDERO S.Conditional generative ad- [25]FUKUSHIMA K,MIYAKE S.Neocognitron:a self-organ- versarial nets[Z].arXiv preprint arXiv:1411.1784,2014. izing neural network model for a mechanism of visual pat- [39]CHEN Xi,DUAN Yan,HOUTHOOFT R,et al.InfoGAN: tern recognition[Ml//AMARI S I.ARBIB M A.Competi- interpretable representation learning by information max- tion and Cooperation in Neural Nets.Berlin Heidelberg: imizing generative adversarial nets[C]//Proceedings of the Springer,1982:267-285. 30th Annual Conference on Neural Information Processing 26]ZEILER M D,KRISHNAN D,TAYLOR G W,et al.De- Systems.Barcelona,Spain,2016:2172-2180. convolutional networks[Cl//Proceedings of the 2010 IEEE [40]LEDIG C,THEIS L,HUSZaR F,et al.Photo-realistic Conference on Computer Vision and Pattern Recognition. single image super-resolution using a generative adversari- San Francisco,CA,USA,2010:2528-2535. al network[Z].arXiv preprint arXiv:1609.04802,2016. [27]NOH H,HONG S,HAN B.Learning deconvolution net- [41]WU Jiajun,ZHANG Chengkai,XUE Tianfan,et al.Learn- work for semantic segmentation[C]//Proceedings of the ing a probabilistic latent space of object shapes via 3D gen- 2015 IEEE International Conference on Computer Vision. erative-adversarial modeling[C]//Proceedings of the 30th Santiago,Chile,2015:1520-1528. Annual Conference on Neural Information Processing Sys- [28]RADFORD A,METZ L,CHINTALA S.Unsupervised tems.Barcelona,Spain,2016:82-90. representation learning with deep convolutional generative [42]ISOLA P,ZHU Junyan,ZHOU Tinghui,et al.Image-to- adversarial networks[Z].arXiv preprint ar Xiv:1511.06434, image translation with conditional adversarial networks[Z]. 2015. arXiv preprint arXiv:1611.07004,2016. [29]JI Shuiwang,XU Wei,YANG Ming,et al.3D convolu- [43]VONDRICK C,PIRSIAVASH H,TORRALBA A.Gener- tional neural networks for human action recognition[J]. ating videos with scene dynamics[Cl//Proceedings of the IEEE transactions on pattern analysis and machine intelli- 30th Annual Conference on Neural Information Processing gence,.2013,35(1):221-231 Systems.Barcelona,Spain,2016:613-621 [30]HOCHREITER S,SCHMIDHUBER J.Long short-term [44]VONDRICK C,PIRSIAVASH H,TORRALBA A.Anti- memory[J].Neural computation,1997,9(8):1735-1780. cipating visual representations from unlabeled video[Cl// [31]GERS F A,SCHMIDHUBER J.Recurrent nets that time Proceedings of the 2016 IEEE Conference on Computer and count[C]//Proceedings of the IEEE-INNS-ENNS Inter- Vision and Pattern Recognition.Las Vegas,Nevada,USA, national Joint Conference on Neural Networks.Como, 2016:98-106. taly,2000,3:189-194. 45]LAN Tian,CHEN T C,SAVARESE S.A hierarchical rep- [32]CHO K,VAN MERRIENBOER B,GULCEHRE C,et al. resentation for future action prediction[C]//Proceedings of
of the IEEE, 1998, 86(11): 2278–2324. HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527–1554. [19] JORDAN M I. Serial order: A parallel distributed processing approach[J]. Advances in psychology, 1997, 121: 471–495. [20] BENGIO Y. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2009, 2(1): 1–127. [21] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 2672–2680. [22] BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798–1828. [23] HUBEL D H, WIESEL T N. Receptive fields and functional architecture of monkey striate cortex[J]. The journal of physiology, 1968, 195(1): 215–243. [24] FUKUSHIMA K, MIYAKE S. Neocognitron: a self-organizing neural network model for a mechanism of visual pattern recognition[M]//AMARI S I, ARBIB M A. Competition and Cooperation in Neural Nets. Berlin Heidelberg: Springer, 1982: 267–285. [25] ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA, 2010: 2528–2535. [26] NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1520–1528. [27] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[Z]. arXiv preprint arXiv: 1511.06434, 2015. [28] JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221–231. [29] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [30] GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como, Italy, 2000, 3: 189–194. [31] [32] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[Z]. arXiv preprint arXiv: 1406.1078, 2014. SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2015: 802–810. [33] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11: 3371–3408. [34] NG A. Sparse autoencoder[R]. CS294A Lecture Notes, 2011: 72. [35] KINGMA D P, WELLING M. Auto-encoding variational bayes[Z]. arXiv preprint arXiv: 1312.6114, 2013. [36] REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[Z]. arXiv preprint arXiv: 1401.4082, 2014. [37] MIRZA M, OSINDERO S. Conditional generative adversarial nets[Z]. arXiv preprint arXiv: 1411.1784, 2014. [38] CHEN Xi, DUAN Yan, HOUTHOOFT R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 2172–2180. [39] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[Z]. arXiv preprint arXiv: 1609.04802, 2016. [40] WU Jiajun, ZHANG Chengkai, XUE Tianfan, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 82–90. [41] ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-toimage translation with conditional adversarial networks[Z]. arXiv preprint arXiv: 1611.07004, 2016. [42] VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 613–621. [43] VONDRICK C, PIRSIAVASH H, TORRALBA A. Anticipating visual representations from unlabeled video[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA, 2016: 98–106. [44] LAN Tian, CHEN T C, SAVARESE S. A hierarchical representation for future action prediction[C]//Proceedings of [45] ·94· 智 能 系 统 学 报 第 13 卷