正在加载图片...
·776· 智能系统学报 第12卷 人重识别最为常用的数据集之一。该数据集包含 集的背景比较干净,图像中较少存在遮挡这种干扰 319个行人。每个视频序列包含23~192个行人图 信息,图像的成像效果比较好。和iLIDS-VID类 像,平均帧数为73帧。由于该数据集在一个机场大 似,两个摄像机成像视角和光照强度也存在很大的 厅拍摄,很多行人的外观特征比较接近,两个摄像 差异,见图2(b)。 机的成像效果比较差,成像视角和光照强度都存在 随着深度学习在行人重识别中的应用,小规模 较大差异,每个图像中存在遮挡等不少干扰信息, 的数据集逐渐难以满足需求,因此近些年,在基于 因此是很有挑战性的数据集,见图2(a)。 视频序列的行人重识别研究中,也有大规模的数据 表4常见基于视频序列的行人重识别数据集 集提出,如MARS2。 Table 4 Common dataset in person re-identification based on video 4发展趋势 数据库 时间 行人数 相机数 由于智能监控系统在国防建设、人民日常生活 ETHZ167 2007 85 1 中的巨大应用前景,以及其所涉及的领域广泛性 3DPES6 研究的巨大挑战性,因此国内外很多研究者对该研 2011 192 8 PRID201169 究方向越来越重视。同时行人再识别问题也是很多 2011 200 2 知名的学术会议和国际期刊的重点研究方向之一, iLIDS-VIDRI 2014 300 例如2016年,在CVPR上有关于行人重识别的文章 MARSP☒ 2016 1261 就高达12篇。由于不断对方法进行革新,行人重识 别的研究在各大数据集上都取得了不错的进展。 在基于图像的行人重识别研究中,VIPeR作为 最广泛被采用的数据集,rank-1的准确率从2008年 的12.0%提高了2015年的63.9%0:同时,CUHK01 上的rank-1自2010-2016年,也取得了56.7% 的提升。由于这些数据集的规模都不大,因此,即 使使用了深度学习的方法,依然和手工设计出的特 征以及度量方法取得的最好结果近似。但是在 Market-l501上,深度学习的应用明显提高了rank (a)来自iLDS-VD 1的准确率,从2015年该数据集刚开始应用到行人 重识别的研究中时,rank-1的准确率从44.42%2o提 高到了2016年的76.04%7四。 基于视频的行人重识别研究起步相较图像稍晚 一点,但是近几年来引起了很大的重视。早期的ETH亿 数据集由于情况简单,相对LIDS-VID来说,情况 复杂了很多,但rank-1准确率从2014年的23.3%2 到在2016年McLaughlin等B提出的方法,可达到 58%,在2017年的出现的文章,有研究者提出基于 是累积运动上下文以及联合CNN、RNN的AMOC (b)来自PRID2011 方法66,rank-1可以达到68.7%.具体结果可见图5: 图4不同摄像机下的行人 同样Zheng等22利用对从数据集MARS上获得的 Fig.4 Sample person under different cameras CNN特征进行微调运用到PRID2OI1上,使得其 PRID20116数据集也是基于视频的情况下行 rank-1准确率可以达到77.3%。MARS数据集被提 出,rank-1准确率可达到68.3%,同时,作者提出了 人重识别最为常用的数据集之一。该数据集由两个 另外一钟补充评价标准mAP。2017年,Zhou等61 摄像机拍摄,cam_a视角下有385组行人序列, 提出利用深度神经网络将特征学习和度量学习统一 camb视角下有749组行人序列,其中两个视角下 在一个框架下的方法,在iLIDS-VID、PRID2011 有200个行人相同,每个视频序列包含5-675帧图 以及MARS上的rank-l准确率分别达到了55.2% 像,平均帧数100。与iLIDS-VID不同的是,该数据 79.4%以及70.6%,在MARS上的mAP也有所提高。人重识别最为常用的数据集之一。该数据集包含 319 个行人。每个视频序列包含 23~192 个行人图 像,平均帧数为 73 帧。由于该数据集在一个机场大 厅拍摄,很多行人的外观特征比较接近,两个摄像 机的成像效果比较差,成像视角和光照强度都存在 较大差异,每个图像中存在遮挡等不少干扰信息, 因此是很有挑战性的数据集,见图 2(a)。 PRID2011[69]数据集也是基于视频的情况下行 人重识别最为常用的数据集之一。该数据集由两个 摄像机拍摄,cam_a 视角下有 385 组行人序列, cam_b 视角下有 749 组行人序列,其中两个视角下 有 200 个行人相同,每个视频序列包含 5-675 帧图 像,平均帧数 100。与 iLIDS-VID 不同的是,该数据 集的背景比较干净,图像中较少存在遮挡这种干扰 信息,图像的成像效果比较好。和 iLIDS-VID 类 似,两个摄像机成像视角和光照强度也存在很大的 差异, 见图 2(b)。 随着深度学习在行人重识别中的应用,小规模 的数据集逐渐难以满足需求,因此近些年,在基于 视频序列的行人重识别研究中,也有大规模的数据 集提出,如 MARS[22]。 4 发展趋势 由于智能监控系统在国防建设、人民日常生活 中的巨大应用前景,以及其所涉及的领域广泛性、 研究的巨大挑战性,因此国内外很多研究者对该研 究方向越来越重视。同时行人再识别问题也是很多 知名的学术会议和国际期刊的重点研究方向之一, 例如 2016 年,在 CVPR 上有关于行人重识别的文章 就高达 12 篇。由于不断对方法进行革新,行人重识 别的研究在各大数据集上都取得了不错的进展。 在基于图像的行人重识别研究中,VIPeR 作为 最广泛被采用的数据集,rank-1 的准确率从 2008 年 的 12.0%[4]提高了 2015 年的 63.9%[70] ;同时,CUHK01 上的 rank-1 自 2010—2016 年,也取得了 56.7% 的提升。由于这些数据集的规模都不大,因此,即 使使用了深度学习的方法,依然和手工设计出的特 征以及度量方法取得的最好结果近似。但是在 Market-1501 上,深度学习的应用明显提高了 rank- 1 的准确率,从 2015 年该数据集刚开始应用到行人 重识别的研究中时,rank-1 的准确率从 44.42%[20]提 高到了 2016 年的 76.04%[71]。 基于视频的行人重识别研究起步相较图像稍晚 一点,但是近几年来引起了很大的重视。早期的 ETHZ 数据集由于情况简单,相对 iLIDS-VID 来说,情况 复杂了很多,但 rank-1 准确率从 2014 年的 23.3%[21] 到在 2016 年 McLaughlin 等 [39]提出的方法,可达到 58%,在 2017 年的出现的文章,有研究者提出基于 是累积运动上下文以及联合 CNN、RNN 的 AMOC 方法[66] ,rank-1 可以达到 68.7%, 具体结果可见图 5; 同样 Zheng 等 [22]利用对从数据集 MARS 上获得的 CNN 特征进行微调运用到 PRID2011 上,使得其 rank-1 准确率可以达到 77.3%。MARS 数据集被提 出,rank-1 准确率可达到 68.3%,同时,作者提出了 另外一钟补充评价标准 mAP。2017 年,Zhou 等 [65] 提出利用深度神经网络将特征学习和度量学习统一 在一个框架下的方法,在 iLIDS-VID、PRID2011 以及 MARS 上的 rank-1 准确率分别达到了 55.2%、 79.4% 以及 70.6%,在 MARS 上的 mAP 也有所提高。 表 4 常见基于视频序列的行人重识别数据集 Table 4 Common dataset in person re-identification based on video 数据库 时间 行人数 相机数 ETHZ[67] 2007 85 1 3DPES[68] 2011 192 8 PRID2011[69] 2011 200 2 iLIDS-VID[21] 2014 300 2 MARS[22] 2016 1 261 6 (a) Ბ㜖 iLIDS-VID (b) Ბ㜖 PRID2011 图 4 不同摄像机下的行人 Fig. 4 Sample person under different cameras ·776· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有