Market-1501 数据集包含 1 501 个行人，超过 30 000

点击下载：行人重识别研究综述（南京邮电大学：宋婉茹、赵晴晴、陈昌红、干宗良、刘峰）

正在加载图片...

第6期宋婉茹，等：行人重识别研究综述 ·775· Market--1501数据集包含1501个行人，超过30000 行人重识别也有所应用。以往的数据集规模不大，幅图像，视频图像来源于6个摄像机。在大数据化因此Zheng等建立了一个更大规模的基于视频序的今天，以往的行人重识别数据集规模比较小，列的行人重识别数据集MARS,并用深度学习的方 Market--1501的提出，弥补了这点法在此数据集上进行实验，获得了不错的结果。未来的研究中，包括MARS在内的越来越多的大规模 3基于视频的行人重识别研究数据集将会作为基准数据集使用，将深度学习的方研究者们将行人重识别分为single-shot和multi-- 法引入到研究中，可以获得较好的重识别结果。在 shot两种。single-shot行人再识别是指每个行人在基于视频的行人重识别任务中，数据集是由行人序每个场景中只有一幅图像，而multi--shot行人重识列构成，仅采用和基于图像相同的研究方法不能很别主要是指每个行人在一个摄像机场景中对应一个好地利用数据的时间信息。然而，由于行人重识别视频或者图像序列中每个行人在每个场景有多幅图的数据集本身较为模糊，具有很大的挑战性，传统像或图像序列。与single-shot相比，该类方法可利的光流、HOG3D以及步态等提取图像运动信息的用的信息较多，同时研究工作也更具有挑战性：一方法已经很难取得突破性进展。随着CNN在基于方面，multi-shot包含较多冗余信息，如何提取行人图像的任务中应用的成熟，部分研究者把其运用到图像序列的关键部分是该类问题的难点；另一方了基于视频的领域中，此外，为了弥补CNN只能处面，如何有效地利用行人序列特征设计度量模型，理空间维度信息的缺陷，获取更多的时间信息，研也是该类问题需要考虑的部分。下面将介绍基于视究者们开始将RNN以及其改进模型LSTM等用于频序列的multi-.shot行人重识别的方法。序列建模。不同于CNN的深度体现在网络层数及 3.1传统方法参数规模上，RNN/LSTM的深度主要体现在时间节由于摄像机拍摄的数据大多都是视频信息，可点上的深度。Yan等6提出提出了一种recurrent 以提供更多的信息帮助我们更好地进行行人匹配与 feature aggregation network(RFA-Net),先提取图像再识别，因此随着图像的深入研究，基于视频序列的颜色特征和LBP特征，获得基于图像的特征，然的行人再识别问题也应运而生。不少方法尝试去提后与LSTM结合，获得基于序列的特征，充分利用取视频中的三维数据来进行外貌表征，如HOG3D] 序列数据集的信息。Mclaughlin等B提出将输入的以及3 DSIFT60等特征都是从广泛使用的2-D扩展信息分为外观特征和光流信息，将CNN和RNN网而来的。不少工作拿步态来研究基于视频的行人再络相结合，在CNN的基础上加入RNN使得该网络识别问题)。然而步态的获取需要行人轮廓信息域可以处理视频序列，而在RNN层上加入时域池化者身体部位信息等，而没有考虑行人的外貌信息。层使得该网络可以处理任意长度的视频，进行联合在遮挡较多、背景较复杂的监控环境下，如何提取调参。Zou等6提出利用深度神经网络将特征学到精确的行人轮廓或身体部位信息，仍是一个比较棘手的问题。Simonnet等6提出了用动态时间弯曲习和度量学习统一在一个框架下，进行端到端的训距离，对视频序列进行度量学习。Wang等2提出练和推理。在特征学习阶段，我们利用基于时序的一种基于时空描述子对行人进行重识别的方法，融注意模型(temporal attention model)来自动识别具合了HOG3D、步态能量图(GEI)61,提取视频中光有判别力的帧，使其在特征学习阶段具有较大的权流强度值(FEP)进行步态周期检测，进而提取出运重：度量学习阶段，我们首先逐个位置计算一对视动特征。提出通过运动能量强度，将视频在时间上频片段的相似度量，然后利用基于空间的循环神经分割为不同的片段，并在匹配的过程中通过学习的网络模型(spatial recurrent model.)来考虑空间位置方法训练一个排序模型，自动地选择最具判定性的的信息，使得相似度度量融合进了上下文信息而变片段。You等2提出top-push distance learning model 得鲁棒，目前都取得了不错的效果。Liu等6提出 (TDL),在特征提取上融合了颜色特征、LBP特征基于是累积运动上下文的视频人重识别，采用了时和HOG3D特征，并通过改进了LMNN算法提出间和空间分离的两路卷积网络结构，之后将获得的 TDL算法。LMNN的目标是缩小附近正样本间的表观特征和运动特征融合，作为RNN的输人，和目差异，惩罚附近所有的负样本；而TDL的目标是缩前现有的方法相比，该方法的rank-l非常高。小正样本间的差异，惩罚离得最近的负样本；所以 3.3数据集 TDL比LMNN有更强的约束。现已存在不少基于视频序列的行人重识别数据 3.2结合深度学习方法库，主要数据集见表4与图4。近些年来，随着深度学习发展，在基于视频的 iLIDS-VID2u数据集也是基于视频情况下的行Market-1501 数据集包含 1 501 个行人，超过 30 000 幅图像，视频图像来源于 6 个摄像机。在大数据化的今天，以往的行人重识别数据集规模比较小， Market-1501 的提出，弥补了这点 3 基于视频的行人重识别研究研究者们将行人重识别分为 single-shot 和 multishot 两种。single-shot 行人再识别是指每个行人在每个场景中只有一幅图像，而 multi-shot 行人重识别主要是指每个行人在一个摄像机场景中对应一个视频或者图像序列中每个行人在每个场景有多幅图像或图像序列。与 single-shot 相比，该类方法可利用的信息较多，同时研究工作也更具有挑战性：一方面，multi-shot 包含较多冗余信息，如何提取行人图像序列的关键部分是该类问题的难点；另一方面，如何有效地利用行人序列特征设计度量模型，也是该类问题需要考虑的部分。下面将介绍基于视频序列的 multi-shot 行人重识别的方法。 3.1 传统方法由于摄像机拍摄的数据大多都是视频信息，可以提供更多的信息帮助我们更好地进行行人匹配与再识别，因此随着图像的深入研究，基于视频序列的行人再识别问题也应运而生。不少方法尝试去提取视频中的三维数据来进行外貌表征，如 HOG3D[23] 以及 3DSIFT[60]等特征都是从广泛使用的 2-D 扩展而来的。不少工作拿步态来研究基于视频的行人再识别问题[61]。然而步态的获取需要行人轮廓信息域者身体部位信息等，而没有考虑行人的外貌信息。在遮挡较多、背景较复杂的监控环境下，如何提取到精确的行人轮廓或身体部位信息，仍是一个比较棘手的问题。Simonnet 等 [62]提出了用动态时间弯曲距离，对视频序列进行度量学习。Wang 等 [21]提出一种基于时空描述子对行人进行重识别的方法，融合了 HOG3D、步态能量图 (GEI)[63] ，提取视频中光流强度值 (FEP) 进行步态周期检测，进而提取出运动特征。提出通过运动能量强度，将视频在时间上分割为不同的片段，并在匹配的过程中通过学习的方法训练一个排序模型，自动地选择最具判定性的片段。You 等 [24]提出 top-push distance learning model (TDL)，在特征提取上融合了颜色特征、LBP 特征和 HOG3D 特征, 并通过改进了 LMNN 算法提出 TDL 算法。LMNN 的目标是缩小附近正样本间的差异，惩罚附近所有的负样本；而 TDL 的目标是缩小正样本间的差异，惩罚离得最近的负样本；所以 TDL 比 LMNN 有更强的约束。 3.2 结合深度学习方法近些年来，随着深度学习发展，在基于视频的行人重识别也有所应用。以往的数据集规模不大，因此 Zheng 等 [22]建立了一个更大规模的基于视频序列的行人重识别数据集 MARS，并用深度学习的方法在此数据集上进行实验，获得了不错的结果。未来的研究中，包括 MARS 在内的越来越多的大规模数据集将会作为基准数据集使用，将深度学习的方法引入到研究中，可以获得较好的重识别结果。在基于视频的行人重识别任务中，数据集是由行人序列构成，仅采用和基于图像相同的研究方法不能很好地利用数据的时间信息。然而，由于行人重识别的数据集本身较为模糊，具有很大的挑战性，传统的光流、HOG3D 以及步态等提取图像运动信息的方法已经很难取得突破性进展。随着 CNN 在基于图像的任务中应用的成熟，部分研究者把其运用到了基于视频的领域中，此外，为了弥补 CNN 只能处理空间维度信息的缺陷，获取更多的时间信息，研究者们开始将 RNN 以及其改进模型 LSTM 等用于序列建模。不同于 CNN 的深度体现在网络层数及参数规模上，RNN/LSTM 的深度主要体现在时间节点上的深度。Yan 等 [64]提出提出了一种 recurrent feature aggregation network (RFA-Net)，先提取图像的颜色特征和 LBP 特征，获得基于图像的特征，然后与 LSTM 结合，获得基于序列的特征，充分利用序列数据集的信息。Mclaughlin 等 [39]提出将输入的信息分为外观特征和光流信息，将 CNN 和 RNN 网络相结合，在 CNN 的基础上加入 RNN 使得该网络可以处理视频序列，而在 RNN 层上加入时域池化层使得该网络可以处理任意长度的视频，进行联合调参。Zhou 等 [65]提出利用深度神经网络将特征学习和度量学习统一在一个框架下，进行端到端的训练和推理。在特征学习阶段，我们利用基于时序的注意模型（temporal attention model）来自动识别具有判别力的帧，使其在特征学习阶段具有较大的权重；度量学习阶段，我们首先逐个位置计算一对视频片段的相似度量，然后利用基于空间的循环神经网络模型（spatial recurrent model）来考虑空间位置的信息，使得相似度度量融合进了上下文信息而变得鲁棒，目前都取得了不错的效果。Liu 等 [66]提出基于是累积运动上下文的视频人重识别，采用了时间和空间分离的两路卷积网络结构, 之后将获得的表观特征和运动特征融合，作为 RNN 的输入，和目前现有的方法相比，该方法的 rank-1 非常高。 3.3 数据集现已存在不少基于视频序列的行人重识别数据库，主要数据集见表 4 与图 4。 iLIDS-VID[21]数据集也是基于视频情况下的行第 6 期宋婉茹，等：行人重识别研究综述 ·775·

<<向上翻页向下翻页>>

点击下载：行人重识别研究综述（南京邮电大学：宋婉茹、赵晴晴、陈昌红、干宗良、刘峰）