正在加载图片...
第6期 宋婉茹,等:行人重识别研究综述 ·775· Market--1501数据集包含1501个行人,超过30000 行人重识别也有所应用。以往的数据集规模不大, 幅图像,视频图像来源于6个摄像机。在大数据化 因此Zheng等建立了一个更大规模的基于视频序 的今天,以往的行人重识别数据集规模比较小, 列的行人重识别数据集MARS,并用深度学习的方 Market--1501的提出,弥补了这点 法在此数据集上进行实验,获得了不错的结果。未 来的研究中,包括MARS在内的越来越多的大规模 3基于视频的行人重识别研究 数据集将会作为基准数据集使用,将深度学习的方 研究者们将行人重识别分为single-shot和multi-- 法引入到研究中,可以获得较好的重识别结果。在 shot两种。single-shot行人再识别是指每个行人在 基于视频的行人重识别任务中,数据集是由行人序 每个场景中只有一幅图像,而multi--shot行人重识 列构成,仅采用和基于图像相同的研究方法不能很 别主要是指每个行人在一个摄像机场景中对应一个 好地利用数据的时间信息。然而,由于行人重识别 视频或者图像序列中每个行人在每个场景有多幅图 的数据集本身较为模糊,具有很大的挑战性,传统 像或图像序列。与single-shot相比,该类方法可利 的光流、HOG3D以及步态等提取图像运动信息的 用的信息较多,同时研究工作也更具有挑战性:一 方法已经很难取得突破性进展。随着CNN在基于 方面,multi-shot包含较多冗余信息,如何提取行人 图像的任务中应用的成熟,部分研究者把其运用到 图像序列的关键部分是该类问题的难点;另一方 了基于视频的领域中,此外,为了弥补CNN只能处 面,如何有效地利用行人序列特征设计度量模型, 理空间维度信息的缺陷,获取更多的时间信息,研 也是该类问题需要考虑的部分。下面将介绍基于视 究者们开始将RNN以及其改进模型LSTM等用于 频序列的multi-.shot行人重识别的方法。 序列建模。不同于CNN的深度体现在网络层数及 3.1传统方法 参数规模上,RNN/LSTM的深度主要体现在时间节 由于摄像机拍摄的数据大多都是视频信息,可 点上的深度。Yan等6提出提出了一种recurrent 以提供更多的信息帮助我们更好地进行行人匹配与 feature aggregation network(RFA-Net),先提取图像 再识别,因此随着图像的深入研究,基于视频序列 的颜色特征和LBP特征,获得基于图像的特征,然 的行人再识别问题也应运而生。不少方法尝试去提 后与LSTM结合,获得基于序列的特征,充分利用 取视频中的三维数据来进行外貌表征,如HOG3D] 序列数据集的信息。Mclaughlin等B提出将输入的 以及3 DSIFT60等特征都是从广泛使用的2-D扩展 信息分为外观特征和光流信息,将CNN和RNN网 而来的。不少工作拿步态来研究基于视频的行人再 络相结合,在CNN的基础上加入RNN使得该网络 识别问题)。然而步态的获取需要行人轮廓信息域 可以处理视频序列,而在RNN层上加入时域池化 者身体部位信息等,而没有考虑行人的外貌信息。 层使得该网络可以处理任意长度的视频,进行联合 在遮挡较多、背景较复杂的监控环境下,如何提取 调参。Zou等6提出利用深度神经网络将特征学 到精确的行人轮廓或身体部位信息,仍是一个比较 棘手的问题。Simonnet等6提出了用动态时间弯曲 习和度量学习统一在一个框架下,进行端到端的训 距离,对视频序列进行度量学习。Wang等2提出 练和推理。在特征学习阶段,我们利用基于时序的 一种基于时空描述子对行人进行重识别的方法,融 注意模型(temporal attention model)来自动识别具 合了HOG3D、步态能量图(GEI)61,提取视频中光 有判别力的帧,使其在特征学习阶段具有较大的权 流强度值(FEP)进行步态周期检测,进而提取出运 重:度量学习阶段,我们首先逐个位置计算一对视 动特征。提出通过运动能量强度,将视频在时间上 频片段的相似度量,然后利用基于空间的循环神经 分割为不同的片段,并在匹配的过程中通过学习的 网络模型(spatial recurrent model.)来考虑空间位置 方法训练一个排序模型,自动地选择最具判定性的 的信息,使得相似度度量融合进了上下文信息而变 片段。You等2提出top-push distance learning model 得鲁棒,目前都取得了不错的效果。Liu等6提出 (TDL),在特征提取上融合了颜色特征、LBP特征 基于是累积运动上下文的视频人重识别,采用了时 和HOG3D特征,并通过改进了LMNN算法提出 间和空间分离的两路卷积网络结构,之后将获得的 TDL算法。LMNN的目标是缩小附近正样本间的 表观特征和运动特征融合,作为RNN的输人,和目 差异,惩罚附近所有的负样本;而TDL的目标是缩 前现有的方法相比,该方法的rank-l非常高。 小正样本间的差异,惩罚离得最近的负样本;所以 3.3数据集 TDL比LMNN有更强的约束。 现已存在不少基于视频序列的行人重识别数据 3.2结合深度学习方法 库,主要数据集见表4与图4。 近些年来,随着深度学习发展,在基于视频的 iLIDS-VID2u数据集也是基于视频情况下的行Market-1501 数据集包含 1 501 个行人,超过 30 000 幅图像,视频图像来源于 6 个摄像机。在大数据化 的今天,以往的行人重识别数据集规模比较小, Market-1501 的提出,弥补了这点 3 基于视频的行人重识别研究 研究者们将行人重识别分为 single-shot 和 multi￾shot 两种。single-shot 行人再识别是指每个行人在 每个场景中只有一幅图像,而 multi-shot 行人重识 别主要是指每个行人在一个摄像机场景中对应一个 视频或者图像序列中每个行人在每个场景有多幅图 像或图像序列。与 single-shot 相比,该类方法可利 用的信息较多,同时研究工作也更具有挑战性:一 方面,multi-shot 包含较多冗余信息,如何提取行人 图像序列的关键部分是该类问题的难点;另一方 面,如何有效地利用行人序列特征设计度量模型, 也是该类问题需要考虑的部分。下面将介绍基于视 频序列的 multi-shot 行人重识别的方法。 3.1 传统方法 由于摄像机拍摄的数据大多都是视频信息,可 以提供更多的信息帮助我们更好地进行行人匹配与 再识别,因此随着图像的深入研究,基于视频序列 的行人再识别问题也应运而生。不少方法尝试去提 取视频中的三维数据来进行外貌表征,如 HOG3D[23] 以及 3DSIFT[60]等特征都是从广泛使用的 2-D 扩展 而来的。不少工作拿步态来研究基于视频的行人再 识别问题[61]。然而步态的获取需要行人轮廓信息域 者身体部位信息等,而没有考虑行人的外貌信息。 在遮挡较多、背景较复杂的监控环境下,如何提取 到精确的行人轮廓或身体部位信息,仍是一个比较 棘手的问题。Simonnet 等 [62]提出了用动态时间弯曲 距离,对视频序列进行度量学习。Wang 等 [21]提出 一种基于时空描述子对行人进行重识别的方法,融 合了 HOG3D、步态能量图 (GEI)[63] ,提取视频中光 流强度值 (FEP) 进行步态周期检测,进而提取出运 动特征。提出通过运动能量强度,将视频在时间上 分割为不同的片段,并在匹配的过程中通过学习的 方法训练一个排序模型,自动地选择最具判定性的 片段。You 等 [24]提出 top-push distance learning model (TDL),在特征提取上融合了颜色特征、LBP 特征 和 HOG3D 特征, 并通过改进了 LMNN 算法提出 TDL 算法。LMNN 的目标是缩小附近正样本间的 差异,惩罚附近所有的负样本;而 TDL 的目标是缩 小正样本间的差异,惩罚离得最近的负样本;所以 TDL 比 LMNN 有更强的约束。 3.2 结合深度学习方法 近些年来,随着深度学习发展,在基于视频的 行人重识别也有所应用。以往的数据集规模不大, 因此 Zheng 等 [22]建立了一个更大规模的基于视频序 列的行人重识别数据集 MARS,并用深度学习的方 法在此数据集上进行实验,获得了不错的结果。未 来的研究中,包括 MARS 在内的越来越多的大规模 数据集将会作为基准数据集使用,将深度学习的方 法引入到研究中,可以获得较好的重识别结果。在 基于视频的行人重识别任务中,数据集是由行人序 列构成,仅采用和基于图像相同的研究方法不能很 好地利用数据的时间信息。然而,由于行人重识别 的数据集本身较为模糊,具有很大的挑战性,传统 的光流、HOG3D 以及步态等提取图像运动信息的 方法已经很难取得突破性进展。随着 CNN 在基于 图像的任务中应用的成熟,部分研究者把其运用到 了基于视频的领域中,此外,为了弥补 CNN 只能处 理空间维度信息的缺陷,获取更多的时间信息,研 究者们开始将 RNN 以及其改进模型 LSTM 等用于 序列建模。不同于 CNN 的深度体现在网络层数及 参数规模上,RNN/LSTM 的深度主要体现在时间节 点上的深度。Yan 等 [64]提出提出了一种 recurrent feature aggregation network (RFA-Net),先提取图像 的颜色特征和 LBP 特征,获得基于图像的特征,然 后与 LSTM 结合,获得基于序列的特征,充分利用 序列数据集的信息。Mclaughlin 等 [39]提出将输入的 信息分为外观特征和光流信息,将 CNN 和 RNN 网 络相结合,在 CNN 的基础上加入 RNN 使得该网络 可以处理视频序列,而在 RNN 层上加入时域池化 层使得该网络可以处理任意长度的视频,进行联合 调参。Zhou 等 [65]提出利用深度神经网络将特征学 习和度量学习统一在一个框架下,进行端到端的训 练和推理。在特征学习阶段,我们利用基于时序的 注意模型(temporal attention model)来自动识别具 有判别力的帧,使其在特征学习阶段具有较大的权 重;度量学习阶段,我们首先逐个位置计算一对视 频片段的相似度量,然后利用基于空间的循环神经 网络模型(spatial recurrent model)来考虑空间位置 的信息,使得相似度度量融合进了上下文信息而变 得鲁棒,目前都取得了不错的效果。Liu 等 [66]提出 基于是累积运动上下文的视频人重识别,采用了时 间和空间分离的两路卷积网络结构, 之后将获得的 表观特征和运动特征融合,作为 RNN 的输入,和目 前现有的方法相比,该方法的 rank-1 非常高。 3.3 数据集 现已存在不少基于视频序列的行人重识别数据 库,主要数据集见表 4 与图 4。 iLIDS-VID[21]数据集也是基于视频情况下的行 第 6 期 宋婉茹,等:行人重识别研究综述 ·775·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有