人重识别最为常用的数据集之一。该数据集包含 319 个行人。每个视频序列包

点击下载：行人重识别研究综述（南京邮电大学：宋婉茹、赵晴晴、陈昌红、干宗良、刘峰）

正在加载图片...

·776· 智能系统学报第12卷人重识别最为常用的数据集之一。该数据集包含集的背景比较干净，图像中较少存在遮挡这种干扰 319个行人。每个视频序列包含23~192个行人图信息，图像的成像效果比较好。和iLIDS-VID类像，平均帧数为73帧。由于该数据集在一个机场大似，两个摄像机成像视角和光照强度也存在很大的厅拍摄，很多行人的外观特征比较接近，两个摄像差异，见图2(b)。机的成像效果比较差，成像视角和光照强度都存在随着深度学习在行人重识别中的应用，小规模较大差异，每个图像中存在遮挡等不少干扰信息，的数据集逐渐难以满足需求，因此近些年，在基于因此是很有挑战性的数据集，见图2(a)。视频序列的行人重识别研究中，也有大规模的数据表4常见基于视频序列的行人重识别数据集集提出，如MARS2。 Table 4 Common dataset in person re-identification based on video 4发展趋势数据库时间行人数相机数由于智能监控系统在国防建设、人民日常生活 ETHZ167 2007 85 1 中的巨大应用前景，以及其所涉及的领域广泛性 3DPES6 研究的巨大挑战性，因此国内外很多研究者对该研 2011 192 8 PRID201169 究方向越来越重视。同时行人再识别问题也是很多 2011 200 2 知名的学术会议和国际期刊的重点研究方向之一， iLIDS-VIDRI 2014 300 例如2016年，在CVPR上有关于行人重识别的文章 MARSP☒ 2016 1261 就高达12篇。由于不断对方法进行革新，行人重识别的研究在各大数据集上都取得了不错的进展。在基于图像的行人重识别研究中，VIPeR作为最广泛被采用的数据集，rank-1的准确率从2008年的12.0%提高了2015年的63.9%0：同时，CUHK01 上的rank-1自2010-2016年，也取得了56.7% 的提升。由于这些数据集的规模都不大，因此，即使使用了深度学习的方法，依然和手工设计出的特征以及度量方法取得的最好结果近似。但是在 Market-l501上，深度学习的应用明显提高了rank (a)来自iLDS-VD 1的准确率，从2015年该数据集刚开始应用到行人重识别的研究中时，rank-1的准确率从44.42%2o提高到了2016年的76.04%7四。基于视频的行人重识别研究起步相较图像稍晚一点，但是近几年来引起了很大的重视。早期的ETH亿数据集由于情况简单，相对LIDS-VID来说，情况复杂了很多，但rank-1准确率从2014年的23.3%2 到在2016年McLaughlin等B提出的方法，可达到 58%,在2017年的出现的文章，有研究者提出基于是累积运动上下文以及联合CNN、RNN的AMOC (b)来自PRID2011 方法66，rank-1可以达到68.7%.具体结果可见图5：图4不同摄像机下的行人同样Zheng等22利用对从数据集MARS上获得的 Fig.4 Sample person under different cameras CNN特征进行微调运用到PRID2OI1上，使得其 PRID20116数据集也是基于视频的情况下行 rank-1准确率可以达到77.3%。MARS数据集被提出，rank-1准确率可达到68.3%，同时，作者提出了人重识别最为常用的数据集之一。该数据集由两个另外一钟补充评价标准mAP。2017年，Zhou等61 摄像机拍摄，cam_a视角下有385组行人序列，提出利用深度神经网络将特征学习和度量学习统一 camb视角下有749组行人序列，其中两个视角下在一个框架下的方法，在iLIDS-VID、PRID2011 有200个行人相同，每个视频序列包含5-675帧图以及MARS上的rank-l准确率分别达到了55.2% 像，平均帧数100。与iLIDS-VID不同的是，该数据 79.4%以及70.6%，在MARS上的mAP也有所提高。人重识别最为常用的数据集之一。该数据集包含 319 个行人。每个视频序列包含 23~192 个行人图像，平均帧数为 73 帧。由于该数据集在一个机场大厅拍摄，很多行人的外观特征比较接近，两个摄像机的成像效果比较差，成像视角和光照强度都存在较大差异，每个图像中存在遮挡等不少干扰信息，因此是很有挑战性的数据集，见图 2(a)。 PRID2011[69]数据集也是基于视频的情况下行人重识别最为常用的数据集之一。该数据集由两个摄像机拍摄，cam_a 视角下有 385 组行人序列， cam_b 视角下有 749 组行人序列，其中两个视角下有 200 个行人相同，每个视频序列包含 5-675 帧图像，平均帧数 100。与 iLIDS-VID 不同的是，该数据集的背景比较干净，图像中较少存在遮挡这种干扰信息，图像的成像效果比较好。和 iLIDS-VID 类似，两个摄像机成像视角和光照强度也存在很大的差异, 见图 2(b)。随着深度学习在行人重识别中的应用，小规模的数据集逐渐难以满足需求，因此近些年，在基于视频序列的行人重识别研究中，也有大规模的数据集提出，如 MARS[22]。 4 发展趋势由于智能监控系统在国防建设、人民日常生活中的巨大应用前景，以及其所涉及的领域广泛性、研究的巨大挑战性，因此国内外很多研究者对该研究方向越来越重视。同时行人再识别问题也是很多知名的学术会议和国际期刊的重点研究方向之一，例如 2016 年，在 CVPR 上有关于行人重识别的文章就高达 12 篇。由于不断对方法进行革新，行人重识别的研究在各大数据集上都取得了不错的进展。在基于图像的行人重识别研究中，VIPeR 作为最广泛被采用的数据集，rank-1 的准确率从 2008 年的 12.0%[4]提高了 2015 年的 63.9%[70] ；同时，CUHK01 上的 rank-1 自 2010—2016 年，也取得了 56.7% 的提升。由于这些数据集的规模都不大，因此，即使使用了深度学习的方法，依然和手工设计出的特征以及度量方法取得的最好结果近似。但是在 Market-1501 上，深度学习的应用明显提高了 rank- 1 的准确率，从 2015 年该数据集刚开始应用到行人重识别的研究中时，rank-1 的准确率从 44.42%[20]提高到了 2016 年的 76.04%[71]。基于视频的行人重识别研究起步相较图像稍晚一点，但是近几年来引起了很大的重视。早期的 ETHZ 数据集由于情况简单，相对 iLIDS-VID 来说，情况复杂了很多，但 rank-1 准确率从 2014 年的 23.3%[21] 到在 2016 年 McLaughlin 等 [39]提出的方法，可达到 58%，在 2017 年的出现的文章，有研究者提出基于是累积运动上下文以及联合 CNN、RNN 的 AMOC 方法[66] ，rank-1 可以达到 68.7%, 具体结果可见图 5；同样 Zheng 等 [22]利用对从数据集 MARS 上获得的 CNN 特征进行微调运用到 PRID2011 上，使得其 rank-1 准确率可以达到 77.3%。MARS 数据集被提出，rank-1 准确率可达到 68.3%，同时，作者提出了另外一钟补充评价标准 mAP。2017 年，Zhou 等 [65] 提出利用深度神经网络将特征学习和度量学习统一在一个框架下的方法，在 iLIDS-VID、PRID2011 以及 MARS 上的 rank-1 准确率分别达到了 55.2%、 79.4% 以及 70.6%，在 MARS 上的 mAP 也有所提高。表 4 常见基于视频序列的行人重识别数据集 Table 4 Common dataset in person re-identification based on video 数据库时间行人数相机数 ETHZ[67] 2007 85 1 3DPES[68] 2011 192 8 PRID2011[69] 2011 200 2 iLIDS-VID[21] 2014 300 2 MARS[22] 2016 1 261 6 (a) Ბ㜖 iLIDS-VID (b) Ბ㜖 PRID2011 图 4 不同摄像机下的行人 Fig. 4 Sample person under different cameras ·776· 智能系统学报第 12 卷

<<向上翻页向下翻页>>

点击下载：行人重识别研究综述（南京邮电大学：宋婉茹、赵晴晴、陈昌红、干宗良、刘峰）