工程科学学报 Chinese Journal of Engineering 基于深度学习的行人重识别方法综述 李擎胡伟阳李江昀刘艳李梦璇 A survey of person re-identification based on deep learning LI Qing.HU Wei-yang.LI Jiang-yun,LIU Yan,LI Meng-xuan 引用本文: 李擎,胡伟阳,李江昀,刘艳,李梦璇.基于深度学习的行人重识别方法综述刀.工程科学学报,优先发表.do: 10.13374j.issn2095-9389.2020.12.22.004 LI Qing.HU Wei-yang.LI Jiang-yun,LIU Yan,LI Meng-xuan.A survey of person re-identification based on deep learning[J]. Chinese Journal of Engineering.In press.doi:10.13374/j.issn2095-9389.2020.12.22.004 在线阅读View online::https:ldoi.org/10.13374.issn2095-9389.2020.12.22.004 您可能感兴趣的其他文章 Articles you may be interested in
基于深度学习的行人重识别方法综述 李擎 胡伟阳 李江昀 刘艳 李梦璇 A survey of person re-identification based on deep learning LI Qing, HU Wei-yang, LI Jiang-yun, LIU Yan, LI Meng-xuan 引用本文: 李擎, 胡伟阳, 李江昀, 刘艳, 李梦璇. 基于深度学习的行人重识别方法综述[J]. 工程科学学报, 优先发表. doi: 10.13374/j.issn2095-9389.2020.12.22.004 LI Qing, HU Wei-yang, LI Jiang-yun, LIU Yan, LI Meng-xuan. A survey of person re-identification based on deep learning[J]. Chinese Journal of Engineering, In press. doi: 10.13374/j.issn2095-9389.2020.12.22.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004 您可能感兴趣的其他文章 Articles you may be interested in
工程科学学报.第44卷,第X期:1-13.2021年X月 Chinese Journal of Engineering,Vol.44,No.X:1-13,X 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004;http://cje.ustb.edu.cn 基于深度学习的行人重识别方法综述 李擎12,,胡伟阳l2),李江昀,2)四,刘艳,2),李梦璇2 1)北京科技大学自动化学院,北京1000832)工业过程知识自动化教育部重点实验室,北京1000833)北京科技大学顺德研究生院.佛 山528000 ☒通信作者,E-mail:leejy@ustb.edu.cn 摘要对深度学习在行人重识别领域的应用现状进行总结与评价.首先,对行人重识别进行介绍,包括行人重识别的应用 场景、数据集与评价指标,并对基于深度学习的行人重识别的基本方法进行总结.之后,针对行人重识别的研究现状,将近年 来国内外学者的研究工作归纳为基于局部特征、基于生成对抗网络、基于视频以及基于重排序4个方向,并对每个方向所使 用的方法分别进行梳理、性能对比以及总结.最后,对行人重识别领域现存的问题进行了分析与讨论,并探讨了行人重识别 未来的发展方向 关键词深度学习:行人重识别:局部特征;生成对抗网络;视频数据:重排序 分类号TG183 A survey of person re-identification based on deep learning LI Qing2,HU Wei-yang2,LI Jiang-yun LIU Yan 2,LI Meng-xuan2) 1)School of Automation&Electrical Engineering.University of Science and Technology Beijing.Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)Shunde Graduate School,University of Science and Technology Beijing.Foshan 528000,China Corresponding author,E-mail:leejy@ustb.edu.cn ABSTRACT Person re-identification is an important part of multi-target tracking across cameras;its aim is to identify the same person across different cameras.Given a query image,the purpose of person re-identification is to find the best match for the query image in an image set.Person re-identification is a key component in an intelligent security system;it is beneficial for building a smart bank or smart factory and plays a crucial role in the construction of a smart city.Nowadays,with the development of artificial intelligence and increasing demand for precise identification in practical scenarios,deep learning-based person re-identification technology has become a popular research topic;this technology has achieved state-of-the-art results in comparison with conventional approaches.Although there are many recently proposed networks with stronger representation ability and a high level of accuracy for person re-identification,there also exist some problems that should be considered and solved.These include the insufficient generalization ability of various poses,the inability to fully utilize the temporal information,and the ineffective identification of occluded objects.As a result,many scholars have researched this field and have pointed out some promising solutions to cope with the aforementioned problems.This paper aims to summarize the application of deep learning in the field of person re-identification along with its advantages and shortcomings.First,the background of person re-identification is introduced,including the application scenarios,datasets,and evaluation indicators. Additionally,some basic methods of person re-identification based on deep learning are summarized.According to the existing research on person re-identification,the main approaches proposed by scholars worldwide can be summarized into four aspects,which are based 收稿日期:2020-12-22 基金项目:中央高校基本科研业务费专项资金资助项目(FFDF19-0O2):北京科技大学顺德研究生院科技创新专项资金资助项目 (BK20BE014)
基于深度学习的行人重识别方法综述 李 擎1,2,3),胡伟阳1,2),李江昀1,2,3) 苣,刘 艳1,2),李梦璇1,2) 1) 北京科技大学自动化学院,北京 100083 2) 工业过程知识自动化教育部重点实验室,北京 100083 3) 北京科技大学顺德研究生院,佛 山 528000 苣通信作者, E-mail:leejy@ustb.edu.cn 摘 要 对深度学习在行人重识别领域的应用现状进行总结与评价. 首先,对行人重识别进行介绍,包括行人重识别的应用 场景、数据集与评价指标,并对基于深度学习的行人重识别的基本方法进行总结. 之后,针对行人重识别的研究现状,将近年 来国内外学者的研究工作归纳为基于局部特征、基于生成对抗网络、基于视频以及基于重排序 4 个方向,并对每个方向所使 用的方法分别进行梳理、性能对比以及总结. 最后,对行人重识别领域现存的问题进行了分析与讨论,并探讨了行人重识别 未来的发展方向. 关键词 深度学习;行人重识别;局部特征;生成对抗网络;视频数据;重排序 分类号 TG183 A survey of person re-identification based on deep learning LI Qing1,2,3) ,HU Wei-yang1,2) ,LI Jiang-yun1,2,3) 苣 ,LIU Yan1,2) ,LI Meng-xuan1,2) 1) School of Automation & Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528000, China 苣 Corresponding author, E-mail: leejy@ustb.edu.cn ABSTRACT Person re-identification is an important part of multi-target tracking across cameras; its aim is to identify the same person across different cameras. Given a query image, the purpose of person re-identification is to find the best match for the query image in an image set. Person re-identification is a key component in an intelligent security system; it is beneficial for building a smart bank or smart factory and plays a crucial role in the construction of a smart city. Nowadays, with the development of artificial intelligence and increasing demand for precise identification in practical scenarios, deep learning-based person re-identification technology has become a popular research topic; this technology has achieved state-of-the-art results in comparison with conventional approaches. Although there are many recently proposed networks with stronger representation ability and a high level of accuracy for person re-identification, there also exist some problems that should be considered and solved. These include the insufficient generalization ability of various poses, the inability to fully utilize the temporal information, and the ineffective identification of occluded objects. As a result, many scholars have researched this field and have pointed out some promising solutions to cope with the aforementioned problems. This paper aims to summarize the application of deep learning in the field of person re-identification along with its advantages and shortcomings. First, the background of person re-identification is introduced, including the application scenarios, datasets, and evaluation indicators. Additionally, some basic methods of person re-identification based on deep learning are summarized. According to the existing research on person re-identification, the main approaches proposed by scholars worldwide can be summarized into four aspects, which are based 收稿日期: 2020−12−22 基金项目: 中央高校基本科研业务费专项资金资助项目(FRF-DF-19-002);北京科技大学顺德研究生院科技创新专项资金资助项目 (BK20BE014) 工程科学学报,第 44 卷,第 X 期:1−13,2021 年 X 月 Chinese Journal of Engineering, Vol. 44, No. X: 1−13, X 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004; http://cje.ustb.edu.cn
2 工程科学学报,第44卷,第X期 on local features,generative adversarial networks,video data,and re-ranking.A detailed comparative study of these four methods is then conducted.Finally,the existing problems and future studies that can be done in the field of person re-identification are analyzed and discussed KEY WORDS deep learning;person re-identification;local feature;generating adversarial networks;video data;reranking 行人重识别(Personre-identification,Person RelD), Result 是利用计算机视觉技术对跨摄像头的人员图像进 行特征提取,从而进行人员匹配的技术,广泛应用 Cam I Cam 2 于智慧安防、智慧零售等领域,是人工智能技术与 产业结合的重要支点.在早期的行人重识别研究 中,大量的工作是基于传统计算机视觉方法,利用 手工提取的图像特征,进行行人重识别的研究.近 年来,随着深度学习在许多领域的成功应用,研究 Query Gallery Rank-1 人员们开始尝试将深度学习应用到行人重识别 图1行人重识别的应用场景示例 上,并已取得一定的成果.其主要研究思路为采用 Fig.1 An example of person re-identification application scenarios 深度学习方法进行特征向量提取,再利用度量学 法进行了梳理 习对特征向量进行判别,将图像之间的差异量化, 1.1行人重识别数据集介绍 并使用大量标注数据对模型进行训练迭代.本文 行人重识别的研究方法从基于传统的人工特 首先对行人重识别的概念、数据集以及两个基本 征发展为基于深度学习方法,离不开大规模数据 方法进行介绍,之后,根据研究思路的不同,将当 集的发展四目前常用的行人重识别数据集主要有 前的方法分为基于局部特征、基于生成对抗网 以下几种:CUHK03数据集),Marketl501数据集 络、基于视频以及基于重排序4个方向并分别对 以及DukeMTMC-reID!s,其中CUHKO3数据集的ID 其进行分析和讨论.最后,对行人重识别现存问题 划分分为新旧两种协议,即1367/100与767/7006, 进行归纳整理,并对未来的研究方向进行展望 具体信息如表1所示.在基于视频的行人重识别 1行人重识别 领域广泛应用的数据集主要有PRID20I1☑以及 LIDS-VID1,分别收录了984与300个行人的视频 行人重识别是长时、跨域多目标跟踪的核心 信息,其他视频数据集信息如表2所示 技术川,其主要目标是对同一个行人进行跨摄像头 除了以上几个已经开源的常用数据集以外, 的再识别.在研究中,通常给定一个目标行人图像 近几年内还有一些优秀的数据集被提出,其中比 或者视频片段,在待匹配的图像序列或者视频片 较典型的有:北京大学采集的MSMT179数据集, 段中,识别出目标行人,并给出目标图像与匹配图 包含室内室外15个相机的12万多张行人图像, 像的相似度.如图1所示,两个视野不重合的监控 有4千多个行人ID,是目前最大的单帧RelD数据 摄像头,在不同的时段分别采集了一些行人图像, 集;北京大学和微软研究院联合采集的LvrelD数 从摄像头1采集的图像中选择一张作为目标图像 据集,包含室内室外15个相机的3千多个行人ID 行人重识别的目标就是在摄像头2所采集的图像 的序列图像,总共14943个序列的3百多万张图 中,通过寻找和目标图像匹配度最高的图像,再次 像;北京航空航天大学等采集的LPWo数据集, 将该人物识别出来,实现对行人的跨摄像头跟踪. 包含2731个行人的7694个轨迹序列,总共有56万 行人重识别是一项具有挑战性的任务,它的 多张图像,该数据集的特点是有多个独立的场景, 数据一般来自于安防系统.在系统中,不同摄像设 每个场景都可以作为一个独立的数据集,训练集 备之间的背景、风格具有较大差异,同时行人外观 和侧试集按照场景分开,因此更加接近真实使用 易受遮挡、穿着、视角和姿态等多种因素的影响, 情况:Yu等]提出一种衣着变换的数据集COCAS, 这就使得行人重识别成为一个具有一定挑战性的 含有5266个行人D,共62382个行人检测框,由手 研究课题,同时具有较高的研究价值.图2对当前 工标注得到.2020年以来,一些优秀的行人重识别数 基于深度学习的行人重识别存在的问题与解决方 据集也被相继提出;由中山大学提出的SYSU-302
on local features, generative adversarial networks, video data, and re-ranking. A detailed comparative study of these four methods is then conducted. Finally, the existing problems and future studies that can be done in the field of person re-identification are analyzed and discussed. KEY WORDS deep learning;person re-identification;local feature;generating adversarial networks;video data;reranking 行人重识别(Person re-identification,Person ReID), 是利用计算机视觉技术对跨摄像头的人员图像进 行特征提取,从而进行人员匹配的技术,广泛应用 于智慧安防、智慧零售等领域,是人工智能技术与 产业结合的重要支点. 在早期的行人重识别研究 中,大量的工作是基于传统计算机视觉方法,利用 手工提取的图像特征,进行行人重识别的研究. 近 年来,随着深度学习在许多领域的成功应用,研究 人员们开始尝试将深度学习应用到行人重识别 上,并已取得一定的成果. 其主要研究思路为采用 深度学习方法进行特征向量提取,再利用度量学 习对特征向量进行判别,将图像之间的差异量化, 并使用大量标注数据对模型进行训练迭代. 本文 首先对行人重识别的概念、数据集以及两个基本 方法进行介绍. 之后,根据研究思路的不同,将当 前的方法分为基于局部特征、基于生成对抗网 络、基于视频以及基于重排序 4 个方向并分别对 其进行分析和讨论. 最后,对行人重识别现存问题 进行归纳整理,并对未来的研究方向进行展望. 1 行人重识别 行人重识别是长时、跨域多目标跟踪的核心 技术[1] ,其主要目标是对同一个行人进行跨摄像头 的再识别. 在研究中,通常给定一个目标行人图像 或者视频片段,在待匹配的图像序列或者视频片 段中,识别出目标行人,并给出目标图像与匹配图 像的相似度. 如图 1 所示,两个视野不重合的监控 摄像头,在不同的时段分别采集了一些行人图像, 从摄像头 1 采集的图像中选择一张作为目标图像. 行人重识别的目标就是在摄像头 2 所采集的图像 中,通过寻找和目标图像匹配度最高的图像,再次 将该人物识别出来,实现对行人的跨摄像头跟踪. 行人重识别是一项具有挑战性的任务,它的 数据一般来自于安防系统. 在系统中,不同摄像设 备之间的背景、风格具有较大差异,同时行人外观 易受遮挡、穿着、视角和姿态等多种因素的影响, 这就使得行人重识别成为一个具有一定挑战性的 研究课题,同时具有较高的研究价值. 图 2 对当前 基于深度学习的行人重识别存在的问题与解决方 法进行了梳理. 1.1 行人重识别数据集介绍 行人重识别的研究方法从基于传统的人工特 征发展为基于深度学习方法,离不开大规模数据 集的发展[2] . 目前常用的行人重识别数据集主要有 以下几种:CUHK03 数据集[3] ,Market1501[4] 数据集 以及 DukeMTMC-reID[5] ,其中 CUHK03 数据集的 ID 划分分为新旧两种协议,即 1367/100 与 767/700[6] , 具体信息如表 1 所示. 在基于视频的行人重识别 领域广泛应用的数据集主要有 PRID2011[7] 以及 iLIDS-VID[8] ,分别收录了 984 与 300 个行人的视频 信息,其他视频数据集信息如表 2 所示. 除了以上几个已经开源的常用数据集以外, 近几年内还有一些优秀的数据集被提出,其中比 较典型的有:北京大学采集的 MSMT17[9] 数据集, 包含室内室外 15 个相机的 12 万多张行人图像, 有 4 千多个行人 ID,是目前最大的单帧 ReID 数据 集;北京大学和微软研究院联合采集的 LvreID 数 据集,包含室内室外 15 个相机的 3 千多个行人 ID 的序列图像,总共 14943 个序列的 3 百多万张图 像;北京航空航天大学等采集的 LPW[10] 数据集, 包含 2731 个行人的 7694 个轨迹序列,总共有 56 万 多张图像,该数据集的特点是有多个独立的场景, 每个场景都可以作为一个独立的数据集,训练集 和测试集按照场景分开,因此更加接近真实使用 情况;Yu 等[11] 提出一种衣着变换的数据集 COCAS, 含有 5266 个行人 ID,共 62382 个行人检测框,由手 工标注得到. 2020 年以来,一些优秀的行人重识别数 据集也被相继提出;由中山大学提出的 SYSU-30[12] Result Cam 1 Cam 2 Query Gallery Rank-1 图 1 行人重识别的应用场景示例 Fig.1 An example of person re-identification application scenarios · 2 · 工程科学学报,第 44 卷,第 X 期
李擎等:基于深度学习的行人重识别方法综述 3 Occlusion Misalignment Pose variation Existing problem Tnformation redundancy Low utilization of temporal information Lack of generalizability PCB+RPP Person re-identification based on deep learning Local feature SPRelD SMC-RelD DCGAN CycleGAN GAN PTGAN PNGAN DeepRCN Methods RFA-Net Video SCAN ResNet3D+Non-Local CSTNet k-reciprocal encoding Re-ranking/HVIL Distance based re-ranking 图2基于深度学习的行人重识别研究问题与方法归纳 Fig.2 Research problems and methods of person re-identification based on deep leaming 表1部分行人重识别公开数据集 利用一种随机自动生成大量三维人物模型的方 Table 1 Part of person re-identification public datasets 法,并在游戏环境中进行渲染而得到,包含8000 Dataset Camera D Image Body 个行人ID,38段视频以及1801816张行人切片图像 numbers numbers numbers images 为了研究黑衣人问题而建立的首个黑衣人数据集 Market-1501441 6 1501 32668 DPM DukeMTMC. Black-relD,该数据集图像来自于Market--l50l、 relD间 P 1812 36411 Hand DukeMTMC-relD、Partial等几个数据集,建立者从中 MSMT17I例 5 4101 126441 Faster RCNN 选取对应的图像建立黑衣人数据集,该数据集训 CUHK0301 1467 14096 Hand 练集包含688个行人ID,测试集包含1644个行人ID LPWtio 11 2731 562438 DPM+Hand 1.2行人重识别评价指标 COCAS 30 5266 62382 Hand 行人重识别的评测指标主要有以下儿种 (1I)Rank-n Accuracyl9:这是一种在图像分类、 表2部分行人重识别视颜数据集 检索领域广泛使用的评价指标.给定一张目标图 Table 2 Part of person re-identification video datasets 像,训练好的行人重识别模型会给出一个按照置 ID Dataset Camera Sequence numbers Body images numbers length 信度排序的识别结果序列.最常用的Rank-l PRID2011 2 200 400 Hand Accuracy与Rank-5 Accuracy2种评价指标,分别代 DukeMTMC VideoRelD!sI 6 702 4832 一 表在测试中,第1位即为正确匹配的比例,以及前 iLIDS.VID周 2 300 600 Hand 5位存在正确匹配的比例. MARSI6I 1261 20715 DPM+GMMCP (2)CMC (Cumulative match characteristic): EgoRelDl7 900 10200 YOLO9000+FS 累积匹配曲线,通过绘制Rank-n accuracy随着参 3 DSC LS-VID 数n变化的曲线,直观地了解top-n击中概率的变 15 3772 14943 Faster R-CNN 化,主要用来评估闭集中排序结果的正确率 数据集包含了30000个行人D,同时数据集涵盖 (3)ROC(Receiver operating characteristic 了剧烈的光照变化、遮挡、低像素、俯视拍摄以及 curve):ROC曲线是检测、分类、识别任务中常用 真实场景下的复杂背景等多种复杂情况;由起源 的一项评价指标,表示随着分类阈值的变化,行人 人工智能研究院提出的RandPerson!]行人数据集, 重识别模型对正样本与负样本的区分情况
数据集包含了 30000 个行人 ID,同时数据集涵盖 了剧烈的光照变化、遮挡、低像素、俯视拍摄以及 真实场景下的复杂背景等多种复杂情况;由起源 人工智能研究院提出的 RandPerson[13] 行人数据集, 利用一种随机自动生成大量三维人物模型的方 法,并在游戏环境中进行渲染而得到,包含 8000 个行人 ID,38 段视频以及 1801816 张行人切片图像. 为了研究黑衣人问题而建立的首个黑衣人数据集 Black-reID[14] ,该数据集图像来自于 Market-1501、 DukeMTMC-reID、Partial 等几个数据集,建立者从中 选取对应的图像建立黑衣人数据集,该数据集训 练集包含 688 个行人 ID,测试集包含 1644 个行人 ID. 1.2 行人重识别评价指标 行人重识别的评测指标主要有以下几种. (1)Rank-n Accuracy[19] :这是一种在图像分类、 检索领域广泛使用的评价指标. 给定一张目标图 像,训练好的行人重识别模型会给出一个按照置 信度排序的识别结果序列 . 最常用 的 Rank-1 Accuracy 与 Rank-5 Accuracy 2 种评价指标,分别代 表在测试中,第 1 位即为正确匹配的比例,以及前 5 位存在正确匹配的比例. (2)CMC 曲线[19] (Cumulative match characteristic): 累积匹配曲线,通过绘制 Rank-n accuracy 随着参 数 n 变化的曲线,直观地了解 top-n 击中概率的变 化,主要用来评估闭集中排序结果的正确率. ( 3)ROC 曲线(Receiver operating characteristic curve):ROC 曲线是检测、分类、识别任务中常用 的一项评价指标,表示随着分类阈值的变化,行人 重识别模型对正样本与负样本的区分情况. 表 1 部分行人重识别公开数据集 Table 1 Part of person re-identification public datasets Dataset Camera numbers ID numbers Image numbers Body images Market-1501[4] 6 1501 32668 DPM DukeMTMCreID [5] 8 1812 36411 Hand MSMT17[9] 15 4101 126441 Faster RCNN CUHK03[3] 2 1467 14096 Hand LPW[10] 11 2731 562438 DPM+Hand COCAS[11] 30 5266 62382 Hand 表 2 部分行人重识别视频数据集 Table 2 Part of person re-identification video datasets Dataset Camera numbers ID numbers Sequence length Body images PRID2011[7] 2 200 400 Hand DukeMTMC VideoReID[15] 6 702 4832 — iLIDS-VID [8] 2 300 600 Hand MARS[16] 6 1261 20715 DPM+GMMCP EgoReID[17] 3 900 10200 YOLO9000+FS DSC LS-VID[18] 15 3772 14943 Faster R-CNN Occlusion Local feature GAN Video Re-ranking Misalignment Pose variation Tnformation redundancy Low utilization of temporal information Lack of generalizability Existing problems Methods PCB+RPP SPReID SMC-ReID DCGAN CycleGAN PTGAN PNGAN DeepRCN RFA-Net CSTNet ResNet3D+Non-Local HVIL k-reciprocal encoding Distance based re-ranking SCAN Person re-identification based on deep learning 图 2 基于深度学习的行人重识别研究问题与方法归纳 Fig.2 Research problems and methods of person re-identification based on deep learning 李 擎等: 基于深度学习的行人重识别方法综述 · 3 ·
工程科学学报,第44卷,第X期 (4)mAPl(mean Average Precision):平均精度 2.1表征学习 均值,是多目标检测与多标签分类的常用评价指 表征学习,即特征表示学习,它的目的是提取 标,绘制精确率与召回率的关系曲线(P-R曲线), 图像特征,即将图像数据抽象为高维特征向量,便 该曲线与坐标轴的面积即为平均精确率(Average 于图像之间差异的量化.随着深度学习的发展,广 precision),对所有类别测试得到各自的平均精确 泛使用卷积神经网络作为特征提取器,提取图像 率,取均值得到平均精度均值mAP.平均精度指标 或者视频的特征向量 不仅体现了模型的精确率,还能对模型给出的排 在图像分类领域,已有一些较为有效的特征 名顺序做出评价 提取方法2s7,因此在行人重识别研究的初期,一 行人重识别模型最为常用的评价指标为Rank-n 些学者将行人重识别转换为分类问题进行研究 Accuracy与mAP,表3整理了目前各个数据集上表 将行人的D作为标签对数据进行标注,使用图像 现最优的模型(State of the art,.SOTA)以及其他一些 分类方法进行行人的分类.在之后的研究中,一些 优秀模型的精度数据,其中OSNet与DG-Net的精度 学者受到图像检索方法的启发,提出了CIR(Cross- 数据测试于按照新版协议划分的CUHK03数据集 image representation)方法,使用图像对作为输入, 表3各数据集的性能最优模型以及精度数据 最终输出两者的相似度.该方法基于孪生卷积神 Table 3 State-of-the-art models and their precision for each dataset 经网络(Siamese CNN)p,将2张图像分别输入到 Dataset SOTA Rank-1 accuracy mAP 2个独立的子网络中,得到图像的特征图,再通过 St-RelD(RE.RK)D 97.20 86.70 度量学习的方法判断图像对是否属于同一个行 Market- Viewpoint-Aware Loss21 96.79 95.43 人.Yi等2首次将孪生卷积神经网络应用到行人 15019 DG-Netl2 94.80 84.00 重识别领域,考虑到行人重识别图像数据的背景、 St-ReID(RE,RK,Cam)20 94.50 92.70 光照等特征的不同,舍弃了原网络共享权值的做 DukeMTMC- ABD-Net(ResNet-50)2 89.00 78.95 法,使2个子网络相互独立.Ahmed等0基于孪生 reIDls1 Viewpoint-Aware LossP 93.90 91.80 卷积神经网络,针对行人重识别提出了一种深度 FD-GANI 92.60 91.30 网络,将图像对作为网络输入,计算图像特征图差 CUHK036 OSNetE4 67.80 异,最终判断图像对是否属于同一类别.在此基础 DG-Netz 61.10 一 上,Wu等B提出了PersonNet,.在原有的结构上, ABD-Net(ResNet-50)2 82.30 60.80 使用多个3×3卷积层加深网络,使得效果得到显 OSNet4 78.70 52.90 著提升.CIR方法强调输入的两张图像的相互关 MSMT17 DG-Net22 77.20 52.30 系,在网络结构中可以很好地体现出来.Wang等四 提出一种名为Wconv的卷积结构,让每张输入图 2 行人重识别方法研究框架 像都经过两个独立的卷积层,生成两张特征图并 进行融合,从而得到两张图像各自的特征图 行人重识别框架与大多数基于深度学习的图 Wang等B]提出了一种结合单张图像特征的方法, 像处理问题相似,首先使用卷积神经网络(CNN), 对输入的图像对,分别使用独立的卷积神经网络 利用表征学习对数据进行特征提取得到特征向量, 提取各自的特征,并抽取特征提取过程中的特征 之后再利用度量学习的方法进行类别判断.行人 图进行融合,这种方法结合了提取单张图像特征 重识别的研究框架如图3所示,本章对表征学习 的高效率以及CIR方法对图像间信息提取的优 与度量学习的定义以及基本方法进行简要介绍. 势.熊炜等两提出了一种深层特征融合行人重识 Result Representation learing 别模型,利用卷积层与池化层多次提取网络深层 特征,使用融合后的深层特征作为行人的特征属 性,提升了网络提取全局特征的能力.同样的思 想,该作者在文献[35]中提出,将特征提取网络最 Gallery ank-I 后三个卷积层提取的特征图进行拼接,再使用卷 积神经网络提取深层特征,提升了网络的深层特 因3行人重识别研究方法框架 征提取能力.Wang等提出的St-RelD方法,利 Fig.3 Research method framework of person re-identification methods 用跨模态融合方法,将图像的视觉特征以及时空
(4)mAP[11] (mean Average Precision):平均精度 均值,是多目标检测与多标签分类的常用评价指 标,绘制精确率与召回率的关系曲线(P‒R 曲线), 该曲线与坐标轴的面积即为平均精确率(Average precision),对所有类别测试得到各自的平均精确 率,取均值得到平均精度均值 mAP. 平均精度指标 不仅体现了模型的精确率,还能对模型给出的排 名顺序做出评价. 行人重识别模型最为常用的评价指标为 Rank-n Accuracy 与 mAP,表 3 整理了目前各个数据集上表 现最优的模型(State of the art, SOTA)以及其他一些 优秀模型的精度数据,其中 OSNet 与 DG-Net 的精度 数据测试于按照新版协议划分的 CUHK03 数据集. 表 3 各数据集的性能最优模型以及精度数据 Table 3 State-of-the-art models and their precision for each dataset Dataset SOTA Rank-1 accuracy mAP Market- 1501[4] St-ReID(RE, RK)[20] 97.20 86.70 Viewpoint-Aware Loss[21] 96.79 95.43 DG-Net[22] 94.80 84.00 DukeMTMCreID[5] St-ReID(RE, RK, Cam)[20] 94.50 92.70 ABD-Net(ResNet-50)[23] 89.00 78.95 Viewpoint-Aware Loss[21] 93.90 91.80 CUHK03[3][6] FD-GAN[19] 92.60 91.30 OSNet[24] 67.80 — DG-Net[22] 61.10 — ABD-Net(ResNet-50)[23] 82.30 60.80 MSMT17[9] OSNet[24] 78.70 52.90 DG-Net[22] 77.20 52.30 2 行人重识别方法研究框架 行人重识别框架与大多数基于深度学习的图 像处理问题相似,首先使用卷积神经网络(CNN), 利用表征学习对数据进行特征提取得到特征向量, 之后再利用度量学习的方法进行类别判断. 行人 重识别的研究框架如图 3 所示,本章对表征学习 与度量学习的定义以及基本方法进行简要介绍. Quary Result Representation learing Feature map Metric learning Gallery Rank-1 图 3 行人重识别研究方法框架 Fig.3 Research method framework of person re-identification methods 2.1 表征学习 表征学习,即特征表示学习,它的目的是提取 图像特征,即将图像数据抽象为高维特征向量,便 于图像之间差异的量化. 随着深度学习的发展,广 泛使用卷积神经网络作为特征提取器,提取图像 或者视频的特征向量. 在图像分类领域,已有一些较为有效的特征 提取方法[25−27] ,因此在行人重识别研究的初期,一 些学者将行人重识别转换为分类问题进行研究. 将行人的 ID 作为标签对数据进行标注,使用图像 分类方法进行行人的分类. 在之后的研究中,一些 学者受到图像检索方法的启发,提出了 CIR(Crossimage representation)方法,使用图像对作为输入, 最终输出两者的相似度. 该方法基于孪生卷积神 经网络(Siamese CNN) [28] ,将 2 张图像分别输入到 2 个独立的子网络中,得到图像的特征图,再通过 度量学习的方法判断图像对是否属于同一个行 人. Yi 等[29] 首次将孪生卷积神经网络应用到行人 重识别领域,考虑到行人重识别图像数据的背景、 光照等特征的不同,舍弃了原网络共享权值的做 法,使 2 个子网络相互独立. Ahmed 等[30] 基于孪生 卷积神经网络,针对行人重识别提出了一种深度 网络,将图像对作为网络输入,计算图像特征图差 异,最终判断图像对是否属于同一类别. 在此基础 上 ,Wu 等[31] 提出了 PersonNet,在原有的结构上, 使用多个 3×3 卷积层加深网络,使得效果得到显 著提升. CIR 方法强调输入的两张图像的相互关 系,在网络结构中可以很好地体现出来. Wang 等[32] 提出一种名为 Wconv 的卷积结构,让每张输入图 像都经过两个独立的卷积层,生成两张特征图并 进行融合 ,从而得到两张图像各自的特征图 . Wang 等[33] 提出了一种结合单张图像特征的方法, 对输入的图像对,分别使用独立的卷积神经网络 提取各自的特征,并抽取特征提取过程中的特征 图进行融合,这种方法结合了提取单张图像特征 的高效率以及 CIR 方法对图像间信息提取的优 势. 熊炜等[34] 提出了一种深层特征融合行人重识 别模型,利用卷积层与池化层多次提取网络深层 特征,使用融合后的深层特征作为行人的特征属 性,提升了网络提取全局特征的能力. 同样的思 想,该作者在文献 [35] 中提出,将特征提取网络最 后三个卷积层提取的特征图进行拼接,再使用卷 积神经网络提取深层特征,提升了网络的深层特 征提取能力. Wang 等[20] 提出的 St-ReID 方法,利 用跨模态融合方法,将图像的视觉特征以及时空 · 4 · 工程科学学报,第 44 卷,第 X 期
李擎等:基于深度学习的行人重识别方法综述 5 特征进行融合,该方法在多个数据集上取得了较 而完成分类任务.该方法整合了排名方法和分类 好的性能表现. 方法的优点,并使两者的缺点得到互补.同样的思 评价与总结:表征学习是提取图像特征的基 想,Chen等B7提出了整合分类与排名的训练方法, 本方法,在行人重识别上的应用也取得了一定效 使用GoogleNet 5进行特征提取,便于迁移训练 果.但是,由于行人重识别数据的特殊性,存在遮 三元组损失:三元组损失是图像检索领域广 挡、部位不对齐以及姿态差异等问题,直接提取图 泛应用的损失函数B-0它来源于人脸识别的方 像的全局特征并不能达到最好的识别精度.针对 法FaceNet!,应用三元组损失函数的网络架构输 这些问题,学者们相继提出了提取局部特征以及 入为3张图像,分别是目标图像、正样本和负样 引入注意力机制等方法,在后文中予以归纳总结 本.三元组损失函数通过调整系数,拉近正样本特 2.2度量学习 征向量I,与目标图像特征向量Ia的距离,扩大负 对于行人重识别,首先需要利用特征提取器 样本特征向量I。与目标图像特征向量L的距离 得到行人图像的特征向量,然后利用度量学习方 最终相同D的图像在特征空间内聚类,完成行人 法判断目标图像与待匹配图像的相似度.度量学 重识别任务,同时三元组损失函数可以将行人重 习是机器学习的常用方法,通过定量方法,确定特 识别作为一个端对端的问题进行研究. 征向量的相似程度.在网络的训练过程中,度量学 Lri =max(dia.lp-dia.!n+margin,0) (2) 习方法主要体现在损失函数上,用以更新深度网 三元组损失函数的缺点在于构造简单,如果 络的参数,从而提取更具判别力的图像特征.行人 在网络中直接优化三元组损失函数,会导致网络 重识别使用的损失函数主要有以下几种 的鉴别能力降低,一些学者通过加入更丰富的信 对照损失:在最初的行人重识别研究中,通过 息,设计出性能更强的三元组损失函数,Hermans 提取图像对的特征并进行距离的计算B,2,根据特 等阳指出,让网络一直学习简单的样本组合会限 征向量a与,的距离d判断图像对是否属于同一 制网络的泛化能力,针对这一问题,提出三元组损 个行人.通常给定网络输入为图像对,变量y值 失函数的改进方法,通过选择一个批次中较难区 为+1或-1,作为图像对的标签,引入阈值margin, 分的正样本和负样本,来对三元组损失函数进行 对图像对距离加以约束 训练,加强三元组损失函数对于困难样本对的挖 Lcon =ydia.+(1-y)max (margin-dia,0)2 (1) 掘能力,从而提升三元组损失函数的性能 Yi等29将对照损失应用在行人重识别中,网 Cheng等1提出一种改进的三元组损失函数,原 络输入为图像对,分别提取图像的特征向量,计算 始的三元组损失函数旨在拉近正样本与目标图像 特征向量的余弦(Cosine)距离,输出一个介于+l、 的距离,扩大负样本与目标图像的距离,但是损 -1之间的相似度.这种方法的优点在于对于一张 失函数并没有对样本距离进行约束,导致正样本 目标图像,相同类别图像的相似度往往会高于不 与目标图像的绝对距离很远,作者通过在原始三 同类别图像的相似度.在之后的研究中,学者们提 元组损失函数中加入了一个新的阈值,用于限制 出对每一张待匹配的图像,根据相似度进行排名, 类内图像的最大距离,保证网络不仅能够在特征 将排名最高的图像作为行人重识别的结果,这也 空间把正负样本推开,也能保证正样本对的距离 是现在广泛使用的确定识别结果的方法.但是一 处于一定的阈值之下 些学者发现,分类方法和排名方法都有各自的优 四元组损失:为了解决三元组损失函数类内 缺点,分类方法难以确定一个固定的区分阈值,而 距离较大的问题,一些学者在三元组损失函数的 排名方法得出的Topl图像相似度最高,却很容易 基础上,提出了四元组损失函数.Chen在文章 因为丢失细节信息导致匹配错误.针对这一问题, 中提出了一种应用四元组损失函数的行人重识别 Chen等B提出了一种多任务深度网络MTDNet,,文 网络架构.网络输入为4张图像,相对于三元组损 章指出应用排名方法往往更为关注全局特征,而 失,又增加了一张不同D的负样本2.四元组损 分类方法则更关注图像对之间的联系,比较注重 失不仅可以学习正负样本的相对距离,同时限制 局部特征.MTDNet的输入为3张图像,首先通过 最小的类间距离高于最大的类内距离,同时引入 卷积神经网络提取低维特征后,执行排名任务,之 阈值margin,与margin2对损失函数的值域加以约 后通过三元组损失函数,判断正负样本的距离,从 束,使网络的性能得到提升
特征进行融合,该方法在多个数据集上取得了较 好的性能表现. 评价与总结:表征学习是提取图像特征的基 本方法,在行人重识别上的应用也取得了一定效 果. 但是,由于行人重识别数据的特殊性,存在遮 挡、部位不对齐以及姿态差异等问题,直接提取图 像的全局特征并不能达到最好的识别精度. 针对 这些问题,学者们相继提出了提取局部特征以及 引入注意力机制等方法,在后文中予以归纳总结. 2.2 度量学习 对于行人重识别,首先需要利用特征提取器 得到行人图像的特征向量,然后利用度量学习方 法判断目标图像与待匹配图像的相似度. 度量学 习是机器学习的常用方法,通过定量方法,确定特 征向量的相似程度. 在网络的训练过程中,度量学 习方法主要体现在损失函数上,用以更新深度网 络的参数,从而提取更具判别力的图像特征. 行人 重识别使用的损失函数主要有以下几种. 对照损失:在最初的行人重识别研究中,通过 提取图像对的特征并进行距离的计算[3,29] ,根据特 征向量 Ia 与 Ib 的距离 d 判断图像对是否属于同一 个行人. 通常给定网络输入为图像对,变量 y 值 为+1 或−1,作为图像对的标签,引入阈值 margin, 对图像对距离加以约束. Lcon = ydIa,Ib 2 +(1−y)max (margin−dIa,Ib ,0)2 (1) Yi 等[29] 将对照损失应用在行人重识别中,网 络输入为图像对,分别提取图像的特征向量,计算 特征向量的余弦(Cosine)距离,输出一个介于+1、 −1 之间的相似度. 这种方法的优点在于对于一张 目标图像,相同类别图像的相似度往往会高于不 同类别图像的相似度. 在之后的研究中,学者们提 出对每一张待匹配的图像,根据相似度进行排名, 将排名最高的图像作为行人重识别的结果,这也 是现在广泛使用的确定识别结果的方法. 但是一 些学者发现,分类方法和排名方法都有各自的优 缺点,分类方法难以确定一个固定的区分阈值,而 排名方法得出的 Top1 图像相似度最高,却很容易 因为丢失细节信息导致匹配错误. 针对这一问题, Chen 等[36] 提出了一种多任务深度网络 MTDNet,文 章指出应用排名方法往往更为关注全局特征,而 分类方法则更关注图像对之间的联系,比较注重 局部特征. MTDNet 的输入为 3 张图像,首先通过 卷积神经网络提取低维特征后,执行排名任务,之 后通过三元组损失函数,判断正负样本的距离,从 而完成分类任务. 该方法整合了排名方法和分类 方法的优点,并使两者的缺点得到互补. 同样的思 想,Chen 等[37] 提出了整合分类与排名的训练方法, 使用 GoogleNet[25] 进行特征提取,便于迁移训练. 三元组损失:三元组损失是图像检索领域广 泛应用的损失函数[38−40] . 它来源于人脸识别的方 法 FaceNet[41] ,应用三元组损失函数的网络架构输 入为 3 张图像,分别是目标图像、正样本和负样 本. 三元组损失函数通过调整系数,拉近正样本特 征向量 Ip 与目标图像特征向量 Ia 的距离,扩大负 样本特征向量 In 与目标图像特征向量 Ia 的距离. 最终相同 ID 的图像在特征空间内聚类,完成行人 重识别任务,同时三元组损失函数可以将行人重 识别作为一个端对端的问题进行研究. Ltri = max(dIa,Ip −dIa,In +margin,0) (2) 三元组损失函数的缺点在于构造简单,如果 在网络中直接优化三元组损失函数,会导致网络 的鉴别能力降低,一些学者通过加入更丰富的信 息,设计出性能更强的三元组损失函数,Hermans 等[42] 指出,让网络一直学习简单的样本组合会限 制网络的泛化能力,针对这一问题,提出三元组损 失函数的改进方法,通过选择一个批次中较难区 分的正样本和负样本,来对三元组损失函数进行 训练,加强三元组损失函数对于困难样本对的挖 掘 能 力 , 从 而 提 升 三 元 组 损 失 函 数 的 性 能 . Cheng 等[43] 提出一种改进的三元组损失函数,原 始的三元组损失函数旨在拉近正样本与目标图像 的距离,扩大负样本与目标图像的距离[41] ,但是损 失函数并没有对样本距离进行约束,导致正样本 与目标图像的绝对距离很远,作者通过在原始三 元组损失函数中加入了一个新的阈值,用于限制 类内图像的最大距离,保证网络不仅能够在特征 空间把正负样本推开,也能保证正样本对的距离 处于一定的阈值之下. 四元组损失:为了解决三元组损失函数类内 距离较大的问题,一些学者在三元组损失函数的 基础上,提出了四元组损失函数. Chen 在文章[44] 中提出了一种应用四元组损失函数的行人重识别 网络架构. 网络输入为 4 张图像,相对于三元组损 失,又增加了一张不同 ID 的负样本 n2 . 四元组损 失不仅可以学习正负样本的相对距离,同时限制 最小的类间距离高于最大的类内距离,同时引入 阈值 margin1 与 margin2 对损失函数的值域加以约 束,使网络的性能得到提升. 李 擎等: 基于深度学习的行人重识别方法综述 · 5 ·
工程科学学报,第44卷,第X期 Lqua =max(dia.!p-din+margin1,0)+ 性能.Li等M提出MSCAN,利用空洞卷积完成多 max(dia.lp-di.!+margin,0) (3) 个尺度下的特征提取,充分利用了图像的上下文 现有的行人重识别方法在训练过程中,广泛 信息.引入STN(Spatial transformer networks)用于 使用交叉嫡损失函数与三元组损失函数联合对网 图像的分割,利用MSCAN网络提取局部特征,并 络的训练过程进行约束,在训练过程中,使用网络 将提取的全局特征与局部特征向量进行融合 层最后输出的特征向量进行三元组损失函数的计 Kalayeh等sI提出了一种SPReID架构,为了避免 算,之后连接全连接层进行交叉嫡损失函数的计 背景信息的干扰,使用语义分割方法替换常用的 算,在这一过程中,由于2种损失函数的收敛方向 检测方法来确定目标区域,从而进行局部特征的 不同,在训练过程中会产生一定冲突.Luo等啊提 提取.Xu等9利用多任务金字塔重叠匹配的方 出BNneck分类器,在最后一个网络层与全连接层 法,将全局信息与多尺度的局部信息进行融合,并 之间插人一个批次正则化层,从而实现两种损失 结合各分块的边缘信息,提升了网络的识别性能 函数的解耦,统一网络训练的收敛方向,使网络模 Zhu等so提出一种ISP(Identity-guided humansemantic 型的性能得到有效提升 parsing)模型,通过人体语义解析的方法,仅通过 评价与总结:利用度量学习对卷积神经网络 人的身份标签,进行人体部位的定位与像素级别 提取的特征向量进行处理,从而得到行人重识别 的分类 的结果.对照损失注重图像对之间的联系,但是在 Image crop Feature capture Feature fusion 类别较多的问题中,又会损失类间的相互关系.三 元组损失函数则通过拉近类内图像距离、扩大类 Feature map 间距离的方法,使行人重识别的性能得到有效提 升.它的问题在于类内距离与类间距离没有一个 明确的阈值,导致类内距离有时会大于类间距离 图4采取固定分块方式的局部特征提取方法 针对这个问题,学者们提出改进的三元组损失函 Fig.Local feature extraction method based on fixed blocks 数以及四元组损失函数,对图像对距离加以约束, 些学者引入注意力机制进行局部特征的提 从而取得了识别精度的提升 取.Zhao等s提出一种方法,没有使用固定的区 3基于深度学习的行人重识别方法 域分割方法,而是在注意力机制的启发下,在网络 中根据不同权值分为了K个分支,用于提取不同 3.1基于局部特征的行人重识别方法 区域的特征,解决了关键点未对齐的问题.董亚超 在行人重识别的研究中,针对行人遮挡与部 等四利用注意力机制提取注意力特征图,并与卷 位不对齐等问题,学者们通过提取局部特征来代 积神经网络提取的全局特征进行融合,之后将特 替全局特征,提出了固定分块、基于注意力机制以 征图进行切块,相邻块之间进行协作式融合,保持 及其他融合局部特征的方法,对这些固有问题进 了特征块之间的联系.Wang等s]提取一种有效 行研究与探讨.下面对基于局部特征的行人重识 地解决遮挡问题的行人重识别方法,将图像的局 别方法的研究进展进行总结与讨论 部特征作为图的节点,通过一种自适应方向的图 早期的一些方法,将图像按照预设的划分方 卷积(ADGC)来聚合节点间的信息 式进行划分,但当使用从不同角度拍摄的数据时, 此外,Yang等I使用LSTM(Long short--term 固定的分割方式并不能很好地将图像中身体各部 memory)对局部特征进行融合,有效地改善了 位分开,图像间对应区域包含的部位也不能很好 遮挡问题.Varior等s阿在孪生卷积神经网络的中 地对应.Sun等I使用PCB(Part-based convolutional 间层加入了匹配门(Matching gate)机制,通过对比 baseline)方法,如图4所示,在提取特征的过程中, 图像对在卷积中间层的特征,有选择地增强局部 将特征图分为多个水平特征块后进行池化操作, 细节,提升了网络的判别能力.杨婉香等57提出 再通过小尺寸卷积核进行特征降维生成多个特征 了一种多尺度生成对抗网络,使用低分辨率图像 向量输入到分类器中,进行D的区分.同时为了 作为输入重构高分辨率的行人图像,有效融合不 解决在划分过程中伴随的部位不一致问题,提出 同尺度的图像细节信息,提升了行人图像去遮挡 了改良的局部池化方法,进一步地提升了PCB的 的性能,表4给出了不同方法在多个数据集上的
Lqua = max(dIa,Ip −dIa,In +margin1,0)+ max(dIa,Ip −dIn,In2 +margin2 ,0) (3) 现有的行人重识别方法在训练过程中,广泛 使用交叉熵损失函数与三元组损失函数联合对网 络的训练过程进行约束,在训练过程中,使用网络 层最后输出的特征向量进行三元组损失函数的计 算,之后连接全连接层进行交叉熵损失函数的计 算,在这一过程中,由于 2 种损失函数的收敛方向 不同,在训练过程中会产生一定冲突. Luo 等[45] 提 出 BNneck 分类器,在最后一个网络层与全连接层 之间插入一个批次正则化层,从而实现两种损失 函数的解耦,统一网络训练的收敛方向,使网络模 型的性能得到有效提升. 评价与总结:利用度量学习对卷积神经网络 提取的特征向量进行处理,从而得到行人重识别 的结果. 对照损失注重图像对之间的联系,但是在 类别较多的问题中,又会损失类间的相互关系. 三 元组损失函数则通过拉近类内图像距离、扩大类 间距离的方法,使行人重识别的性能得到有效提 升. 它的问题在于类内距离与类间距离没有一个 明确的阈值,导致类内距离有时会大于类间距离. 针对这个问题,学者们提出改进的三元组损失函 数以及四元组损失函数,对图像对距离加以约束, 从而取得了识别精度的提升. 3 基于深度学习的行人重识别方法 3.1 基于局部特征的行人重识别方法 在行人重识别的研究中,针对行人遮挡与部 位不对齐等问题,学者们通过提取局部特征来代 替全局特征,提出了固定分块、基于注意力机制以 及其他融合局部特征的方法,对这些固有问题进 行研究与探讨. 下面对基于局部特征的行人重识 别方法的研究进展进行总结与讨论. 早期的一些方法,将图像按照预设的划分方 式进行划分,但当使用从不同角度拍摄的数据时, 固定的分割方式并不能很好地将图像中身体各部 位分开,图像间对应区域包含的部位也不能很好 地对应. Sun 等[46] 使用 PCB(Part-based convolutional baseline)方法,如图 4 所示,在提取特征的过程中, 将特征图分为多个水平特征块后进行池化操作, 再通过小尺寸卷积核进行特征降维生成多个特征 向量输入到分类器中,进行 ID 的区分. 同时为了 解决在划分过程中伴随的部位不一致问题,提出 了改良的局部池化方法,进一步地提升了 PCB 的 性能. Li 等[47] 提出 MSCAN,利用空洞卷积完成多 个尺度下的特征提取,充分利用了图像的上下文 信息. 引入 STN(Spatial transformer networks)用于 图像的分割,利用 MSCAN 网络提取局部特征,并 将提取的全局特征与局部特征向量进行融合. Kalayeh 等[48] 提出了一种 SPReID 架构,为了避免 背景信息的干扰,使用语义分割方法替换常用的 检测方法来确定目标区域,从而进行局部特征的 提取. Xu 等[49] 利用多任务金字塔重叠匹配的方 法,将全局信息与多尺度的局部信息进行融合,并 结合各分块的边缘信息,提升了网络的识别性能. Zhu 等[50] 提出一种ISP(Identity-guided human semantic parsing)模型,通过人体语义解析的方法,仅通过 人的身份标签,进行人体部位的定位与像素级别 的分类. Image crop Feature capture Feature fusion Feature map 图 4 采取固定分块方式的局部特征提取方法[46] Fig.4 Local feature extraction method based on fixed blocks[46] 一些学者引入注意力机制进行局部特征的提 取. Zhao 等[51] 提出一种方法,没有使用固定的区 域分割方法,而是在注意力机制的启发下,在网络 中根据不同权值分为了 K 个分支,用于提取不同 区域的特征,解决了关键点未对齐的问题. 董亚超 等[52] 利用注意力机制提取注意力特征图,并与卷 积神经网络提取的全局特征进行融合,之后将特 征图进行切块,相邻块之间进行协作式融合,保持 了特征块之间的联系. Wang 等[53] 提取一种有效 地解决遮挡问题的行人重识别方法,将图像的局 部特征作为图的节点,通过一种自适应方向的图 卷积(ADGC)来聚合节点间的信息. 此外 , Yang 等 [54] 使 用 LSTM( Long short-term memory) [55] 对局部特征进行融合,有效地改善了 遮挡问题. Varior 等[56] 在孪生卷积神经网络的中 间层加入了匹配门(Matching gate)机制,通过对比 图像对在卷积中间层的特征,有选择地增强局部 细节,提升了网络的判别能力. 杨婉香等[57] 提出 了一种多尺度生成对抗网络,使用低分辨率图像 作为输入重构高分辨率的行人图像,有效融合不 同尺度的图像细节信息,提升了行人图像去遮挡 的性能,表 4 给出了不同方法在多个数据集上的 · 6 · 工程科学学报,第 44 卷,第 X 期
李擎等:基于深度学习的行人重识别方法综述 7 精度表现,其中PCB方法的识别精度测试于按照 据扩充提供了新思路.在这个方法的基础上,Zhong 新版协议划分的CUHKO3数据集. 等6o使用CycleGAN!对数据集进行训练,对不 同摄像机拍下的图像数据进行迁移,生成一个行 表4基于局部特征的行人重识别方法的性能表现 Table 4 Performance of person re-identification method based on local 人在不同摄像机风格下的新图像,保留了行人的 feature 标签信息.同时文章对前文提出的LSRO进行了 Market-1501 DukeMTMC-relD CUHK03 推广,提出了一种LSR(Label smoothing regularization) Methods Year- Rank-1 mAP Rank-1 mAP Rank-1mAP 方法,减轻了生成数据噪声对模型训练的影响 PCB+RPPI6I 201893.881.683.3 69.2 63.757.5 Deng等6将CycleGAN与孪生网络结合,提出了 SPRelD+re-ranking!201894.6 90.9 88.9 84.9 一种图像在数据集之间迁移的方法,在将图像由 RNLSTM 54 201990.376.4 77.0 62.1 86.183.6 原数据集向目标数据集迁移的过程中,保留了图 mGD+RNLSTMA2020 91.3 77.9 80.8 63.9 88.084.2 像的标签信息.Wei等提出PTGAN,完成了行人 SMC-ReID41202095.393.0 图像在不同数据集之间的风格迁移,并提出了 HORelDl531 202094.284.986.9 75.6 MSMTI7数据集.Li等Is提出了一种ReadNet用 ISPlsol 202095.388.689.680.0 于解决数据不平衡问题.Zhai等6提出增广判别 聚类方法实现了数据的迁移.Zhang等I6根据源 评价与总结:为了解决行人图像的遮挡问题, 域图像与目标与图像的语义一致性,基于弱标注 学者们提出了基于局部特征的方法.提取局部特 的源域行人图像,将源域图像的语义信息迁移到 征可以使网络更加关注图像的细节信息.但由于 目标域上,增强了跨域的行人重识别特征表达能 固定的分块方式,并不能解决部位不对齐问题,因 力.Liu等6提出UnityGAN,学习不同摄像机之 此学者们引入了注意力机制增强重要部位的显著 间的背景风格差异,并生成基于这些背景风格差 性,能够实现部位对齐.对于行人重识别中存在的 异的平均风格图像,提升了行人重识别模型对于 遮挡与部位不对齐问题,基于注意力机制是目前 相机背景风格的泛化能力.表5给出了部分基于 主流的方法,也是未来的研究热点 生成对抗网络的行人重识别方法的性能表现 3.2基于生成对抗网络的行人重识别方法 表5基于生成对抗网络的行人重识别方法的性能表现 在行人重识别任务的研究中,对于训练数据 Table 5 Performance of person re-identification method based on GAN 的处理具有较高的要求,首先需要对从监控系统 Market-1501 DukeMTMC CUHK03 中采集的图像进行切割,得到行人的切片图像.之 Methods Year Rank-1 mAP Rank-1 mAP Rank-1 mAP 后还要对图像进行标注,标明行人D以及图像采 DCGAN+LSRO 2017 一 84.687.4 集时间、摄像头编号等信息.所以,行人重识别的 DE+CamStyle+RE6201889.571.678.358.6 一些主流数据集,训练数据都相对较少,在数据集 Pose-Transfer 201887.768.9 78.556.9 45.142.0 Market--1501上,平均每一个行人类别只有17.2张图 PNGANI67I 201889.472.673.653.279.8- 像,CUHK03数据集平均为9.6张,DukeMTMC-reID PCB+UnityGAN%202095.893.689.396.2 数据集平均为23.5张.由于数据集之间背景差异较 st-ReID+UnityGANI202098.595.895.193.6 大,导致模型的泛化能力较差.针对这些问题,学者 们利用生成对抗网络(Generative adversarial networks,, 为了解决数据集之间姿态的差异,利用生成 GAN)S,来进行数据集的扩充,从而加强行人重 对抗网络进行姿态的迁移,成为了行人重识别数 识别模型的泛化能力 据集扩充的重要方向.一些优秀的神经网络模型 Zheng等间首次将生成对抗网络用于行人重 可以在一定程度上弥补数据集中行人姿态较少的 识别的问题上来,他们使用行人重识别数据集对 缺点,但是扩充姿态多样性的数据仍然是提升模 DCGAN!9进行训练,输入随机向量生成新的行人 型性能的关键.Liu等68提出了一种姿态迁移的 图像,对数据集进行了有效扩充,同时提出一种标 方法,选择姿态丰富的数据集,利用姿态检测算法6侧 签平滑正则化(Label Smoothing Regularization for 提取图像中行人的姿态信息,并使用RGB图像进 Outliers.LSRO)的方法,进行半监督学习.作为生 行表征,将姿态信息与待迁移数据集中的行人图 成对抗网络在行人重识别领域的首次应用,该方 像作为输入数据,训练CGAN四生成新的行人图 法在精度上取得了小幅提升,为行人重识别的数 像,完成姿态信息的迁移.同时提出了一种指导模
精度表现,其中 PCB 方法的识别精度测试于按照 新版协议划分的 CUHK03 数据集. 表 4 基于局部特征的行人重识别方法的性能表现 Table 4 Performance of person re-identification method based on local feature Methods Year Market-1501 DukeMTMC-reID CUHK03 Rank-1 mAP Rank-1 mAP Rank-1mAP PCB+RPP[46] 2018 93.8 81.6 83.3 69.2 63.7 57.5 SPReID+re-ranking[48] 2018 94.6 90.9 88.9 84.9 — — RNLSTMA [54] 2019 90.3 76.4 77.0 62.1 86.1 83.6 mGD+ RNLSTMA [56] 2020 91.3 77.9 80.8 63.9 88.0 84.2 SMC-ReID[49] 2020 95.3 93.0 — — — — HOReID[53] 2020 94.2 84.9 86.9 75.6 — — ISP[50] 2020 95.3 88.6 89.6 80.0 — — 评价与总结:为了解决行人图像的遮挡问题, 学者们提出了基于局部特征的方法. 提取局部特 征可以使网络更加关注图像的细节信息. 但由于 固定的分块方式,并不能解决部位不对齐问题,因 此学者们引入了注意力机制增强重要部位的显著 性,能够实现部位对齐. 对于行人重识别中存在的 遮挡与部位不对齐问题,基于注意力机制是目前 主流的方法,也是未来的研究热点. 3.2 基于生成对抗网络的行人重识别方法 在行人重识别任务的研究中,对于训练数据 的处理具有较高的要求,首先需要对从监控系统 中采集的图像进行切割,得到行人的切片图像. 之 后还要对图像进行标注,标明行人 ID 以及图像采 集时间、摄像头编号等信息. 所以,行人重识别的 一些主流数据集,训练数据都相对较少,在数据集 Market-1501 上,平均每一个行人类别只有 17.2 张图 像,CUHK03 数据集平均为 9.6 张,DukeMTMC-reID 数据集平均为 23.5 张. 由于数据集之间背景差异较 大,导致模型的泛化能力较差. 针对这些问题,学者 们利用生成对抗网络(Generative adversarial networks, GAN) [58] ,来进行数据集的扩充,从而加强行人重 识别模型的泛化能力. Zheng 等[5] 首次将生成对抗网络用于行人重 识别的问题上来,他们使用行人重识别数据集对 DCGAN[59] 进行训练,输入随机向量生成新的行人 图像,对数据集进行了有效扩充,同时提出一种标 签平滑正则化( Label Smoothing Regularization for Outliers, LSRO)的方法,进行半监督学习. 作为生 成对抗网络在行人重识别领域的首次应用,该方 法在精度上取得了小幅提升,为行人重识别的数 据扩充提供了新思路. 在这个方法的基础上,Zhong 等[60] 使用 CycleGAN[61] 对数据集进行训练,对不 同摄像机拍下的图像数据进行迁移,生成一个行 人在不同摄像机风格下的新图像,保留了行人的 标签信息. 同时文章对前文提出的 LSRO 进行了 推广,提出了一种 LSR (Label smoothing regularization) 方法,减轻了生成数据噪声对模型训练的影响. Deng 等[62] 将 CycleGAN 与孪生网络结合,提出了 一种图像在数据集之间迁移的方法,在将图像由 原数据集向目标数据集迁移的过程中,保留了图 像的标签信息. Wei 等[9] 提出 PTGAN,完成了行人 图像在不同数据集之间的风格迁移 ,并提出了 MSMT17 数据集. Li 等[63] 提出了一种 ReadNet 用 于解决数据不平衡问题. Zhai 等[64] 提出増广判别 聚类方法实现了数据的迁移. Zhang 等[65] 根据源 域图像与目标与图像的语义一致性,基于弱标注 的源域行人图像,将源域图像的语义信息迁移到 目标域上,增强了跨域的行人重识别特征表达能 力. Liu 等[66] 提出 UnityGAN,学习不同摄像机之 间的背景风格差异,并生成基于这些背景风格差 异的平均风格图像,提升了行人重识别模型对于 相机背景风格的泛化能力. 表 5 给出了部分基于 生成对抗网络的行人重识别方法的性能表现. 表 5 基于生成对抗网络的行人重识别方法的性能表现 Table 5 Performance of person re-identification method based on GAN Methods Year Market-1501 DukeMTMC CUHK03 Rank-1 mAP Rank-1 mAP Rank-1 mAP DCGAN+LSRO[59] 2017 — — — — 84.6 87.4 IDE+CamStyle+RE[62] 2018 89.5 71.6 78.3 58.6 — — Pose-Transfer[9] 2018 87.7 68.9 78.5 56.9 45.1 42.0 PNGAN[67] 2018 89.4 72.6 73.6 53.2 79.8 — PCB+UnityGAN[66] 2020 95.8 93.6 89.3 96.2 — — st-ReID+UnityGAN[66] 2020 98.5 95.8 95.1 93.6 — — 为了解决数据集之间姿态的差异,利用生成 对抗网络进行姿态的迁移,成为了行人重识别数 据集扩充的重要方向. 一些优秀的神经网络模型 可以在一定程度上弥补数据集中行人姿态较少的 缺点,但是扩充姿态多样性的数据仍然是提升模 型性能的关键. Liu 等[68] 提出了一种姿态迁移的 方法,选择姿态丰富的数据集,利用姿态检测算法[69] 提取图像中行人的姿态信息,并使用 RGB 图像进 行表征,将姿态信息与待迁移数据集中的行人图 像作为输入数据,训练 CGAN[70] 生成新的行人图 像,完成姿态信息的迁移. 同时提出了一种指导模 李 擎等: 基于深度学习的行人重识别方法综述 · 7 ·
工程科学学报,第44卷,第X期 型,对生成的行人图像进行选择,之后使用LS9 图像数据在时序信息上的缺失使得精度达到了瓶 方法对生成数据进行标注,完成了对数据集的扩 颈,这就引发了基于视频的行人重识别的研究热潮. 充.Qian等66提出一种一般性的生成对抗网络模 3.3基于视频的行人重识别方法 型PNGAN,预设8种行人姿势,以一张原始图像 基于图像的行人重识别方法虽然在大部分数 为基准,利用生成对抗网络生成八张预设姿态的 据集上取得了较好的效果,但是由于数据集较小, 图像,将原始数据集扩大了8倍,姿态的多样性与 导致基于单帧图像的行人重识别方法没有很好的 统一性使网络有能力学习一些更具判别力的特 泛化能力.同时,单帧图像很难获得行人的动作以 征,该方法使行人重识别模型的泛化能力得到了 及姿态变化等信息,导致当行人被遮挡或者光线 有效地提升,不再需要重新训练就可以进行跨数 变化较大时,模型的判别能力大大下降.针对这些 据集的应用 问题,学者们提出了基于视频的行人重识别方法, 评价与总结:为了扩充数据集与实现数据集的 在提取单帧特征的基础上,能有效地考虑到帧间 域适应,学者们引入了生成对抗网络.但是,生成 关系.基于视频的行人重识别方法主要由3个部 对抗网络产生了大量未标注的数据,因此需要结 分组成:单帧图像特征提取、视频序列时序特征提 合半监督学习方法进行训练.以上方法的应用使 取以及度量学习,表6给出了部分基于视频的行 基于图像的行人重识别方法的精度达到了峰值,但 人重识别方法的性能表现 表6基于视频的的行人重识别方法的性能表现 Table 6 Performance of video-based person re-identification method Rank-1 MARS DukeMTMC VideoRelDlsI Methods Year PRID2011 iLIDS-VIDI Rank-1 mAP Rank-1 mAP CNN+RNN+Temporal Poolingmm 2016 70.0 58.0 Deep RCNI+KISSME 2016 69.0 46.1 RFA-Nett8o 2016 58.2 49.3 SCAN+ResNet501811 2018 92.0 81.3 86.6 76.7 ResNet3D-50+Non-Local 2018 91.2 81.3 84.3 77.0 Spatial Attention+Temporal Attentionl 2018 93.2 80.2 82.3 65.8 AP3D两 2020 、 86.7 90.1 85.1 96.3 95.6 STCNetl86 2020 一 83.4 88.5 82.3 95.0 93.5 MGH8] 2020 94.8 85.6 90.0 85.8 对于单帧图像的特征提取与损失函数,学者 对网络进行了修改,使用GRU模块四代替LSTM 仍然沿用基于图像的行人重识别领域的方法-) 模块,在效果基本不变的情况下,降低了参数量 基于视频的行人重识别方法的重点在于对时序信 上述方法中,都采用了平均池化层用于时序 息的处理,目前最为广泛应用的方法是递归神经 信息的融合,这种方法的优点在于每一时刻的信 (Recurrent neural network,RNN)1761.McLaughlin 息都占有相同的比重.但针对行人重识别,一段视 等m提出了一种基于CNN与RNN的行人重识别 频中只有行人出现的段落具有特征提取的价值, 方法,如图5所示,基于孪生网络,网络以视频对 同时,某一异常值会对结果造成影响.针对这一问 作为输入,首先通过CNN提取视频里每一帧图像 题,Yan等s提出RFA-net,提取单帧图像的特征, 的特征,按照时间顺序送入RNN中.之后,RNN 表示行人外观信息,使用LSTM提取图像序列特 结合时序信息得到特征向量序列.最后,为了避免 征,表示行人动态信息.融合外观信息与动态信息, 对前一时刻信息的过度依赖,加入了时序池化层, 获得更好的识别精度.Zhang等8提出了一种SCAN 对所有时间的信息进行聚合,得到视频序列的特 行人重识别架构,利用无参数注意力机制,在视频 征向量.该方法的优点在于可以使用任意长度的 序列中选取具有辨别力的关键帧,并最终通过计 视频序列作为输入,同时使得每一时刻的信息都 算视频对的相似度得出识别结果.Liao等2]将 能占有一定的比重.在这个方法的基础上,Wu等 3D卷积应用到行人重识别领域进行视频特征的
型,对生成的行人图像进行选择,之后使用 LSR[59] 方法对生成数据进行标注,完成了对数据集的扩 充. Qian 等[66] 提出一种一般性的生成对抗网络模 型 PNGAN,预设 8 种行人姿势,以一张原始图像 为基准,利用生成对抗网络生成八张预设姿态的 图像,将原始数据集扩大了 8 倍,姿态的多样性与 统一性使网络有能力学习一些更具判别力的特 征,该方法使行人重识别模型的泛化能力得到了 有效地提升,不再需要重新训练就可以进行跨数 据集的应用. 评价与总结:为了扩充数据集与实现数据集的 域适应,学者们引入了生成对抗网络. 但是,生成 对抗网络产生了大量未标注的数据,因此需要结 合半监督学习方法进行训练. 以上方法的应用使 基于图像的行人重识别方法的精度达到了峰值,但 图像数据在时序信息上的缺失使得精度达到了瓶 颈,这就引发了基于视频的行人重识别的研究热潮. 3.3 基于视频的行人重识别方法 基于图像的行人重识别方法虽然在大部分数 据集上取得了较好的效果,但是由于数据集较小, 导致基于单帧图像的行人重识别方法没有很好的 泛化能力. 同时,单帧图像很难获得行人的动作以 及姿态变化等信息,导致当行人被遮挡或者光线 变化较大时,模型的判别能力大大下降. 针对这些 问题,学者们提出了基于视频的行人重识别方法, 在提取单帧特征的基础上,能有效地考虑到帧间 关系. 基于视频的行人重识别方法主要由 3 个部 分组成:单帧图像特征提取、视频序列时序特征提 取以及度量学习,表 6 给出了部分基于视频的行 人重识别方法的性能表现. 表 6 基于视频的的行人重识别方法的性能表现 Table 6 Performance of video-based person re-identification method Methods Year Rank-1 MARS DukeMTMC VideoReID[15] PRID2011[7] iLIDS-VID[8] Rank-1 mAP Rank-1 mAP CNN+RNN+Temporal Pooling[77] 2016 70.0 58.0 — — Deep RCN[78]+KISSME 2016 69.0 46.1 RFA-Net[80] 2016 58.2 49.3 SCAN+ResNet50[81] 2018 92.0 81.3 86.6 76.7 ResNet3D-50+Non-Local[82] 2018 91.2 81.3 84.3 77.0 Spatial Attention+Temporal Attention[83] 2018 93.2 80.2 82.3 65.8 AP3D[84] 2020 — 86.7 90.1 85.1 96.3 95.6 STCNet[86] 2020 — 83.4 88.5 82.3 95.0 93.5 MGH[88] 2020 94.8 85.6 90.0 85.8 对于单帧图像的特征提取与损失函数,学者 仍然沿用基于图像的行人重识别领域的方法[71−75] , 基于视频的行人重识别方法的重点在于对时序信 息的处理,目前最为广泛应用的方法是递归神经 网络(Recurrent neural network,RNN)[76] . McLaughlin 等[77] 提出了一种基于 CNN 与 RNN 的行人重识别 方法,如图 5 所示,基于孪生网络,网络以视频对 作为输入,首先通过 CNN 提取视频里每一帧图像 的特征,按照时间顺序送入 RNN 中. 之后,RNN 结合时序信息得到特征向量序列. 最后,为了避免 对前一时刻信息的过度依赖,加入了时序池化层, 对所有时间的信息进行聚合,得到视频序列的特 征向量. 该方法的优点在于可以使用任意长度的 视频序列作为输入,同时使得每一时刻的信息都 能占有一定的比重. 在这个方法的基础上,Wu 等[78] 对网络进行了修改,使用 GRU 模块[79] 代替 LSTM 模块,在效果基本不变的情况下,降低了参数量. 上述方法中,都采用了平均池化层用于时序 信息的融合,这种方法的优点在于每一时刻的信 息都占有相同的比重. 但针对行人重识别,一段视 频中只有行人出现的段落具有特征提取的价值, 同时,某一异常值会对结果造成影响. 针对这一问 题,Yan 等[80] 提出 RFA-net,提取单帧图像的特征, 表示行人外观信息,使用 LSTM 提取图像序列特 征,表示行人动态信息. 融合外观信息与动态信息, 获得更好的识别精度. Zhang 等[81] 提出了一种 SCAN 行人重识别架构,利用无参数注意力机制,在视频 序列中选取具有辨别力的关键帧,并最终通过计 算视频对的相似度得出识别结果. Liao 等[82] 将 3D 卷积应用到行人重识别领域进行视频特征的 · 8 · 工程科学学报,第 44 卷,第 X 期
李擎等:基于深度学习的行人重识别方法综述 9 Classfication loss Contrast loss Classfication loss MG-RAFA)用于空间信息与时序信息的融合.Liu 等o为了抑制背景信息的干扰,提出了CSTNet, Feature map Feature map 捕获视频帧之间常见的突出前景区域,并从这些 区域探索了时空长程文本的相互依赖关系,以学 Temporal pooling Temporal pooling 习更具判别力的行人特征 RNN RNN RNN RNN RNN RNN 评价与总结:与图像数据相比,视频数据具有 较强的时序信息,所以如何将这些时序信息进行 CNN CNN CNN CNN CNN CNN 融合是基于视频的重识别问题的重要研究方向 现有的方法主要包括利用RNN结合平均池化进 行时序信息的融合,以及利用3D卷积的方法进行 图5视颜帧序列的时序信息融合方法可 融合.学者们在此基础上对细节部分加以创新,使 Fig.5 Temporal information fusion of video frames sequencel 得识别精度不断提升.基于视频的行人重识别方 提取,并使用非局部块(Non-local blocks)来解决部 法更加接近实际应用,需要大量的数据标注工作, 位失调问题.并捕获时空远程依赖关系.表6给出 同时模型的参数量与计算量较大,因此结合半监 了部分基于视频的行人重识别方法的性能表现. 督学习与无监督学习方法以及对网络轻量化的研 以上对单帧特征融合的几种方法进行了介绍 究会成为今后的热点研究方向 在基于视频的行人重识别中,主要存在的问题有 3.4基于重排序的行人重识别 行人姿态失调与遮挡、视频数据冗余信息过多等 除了对于表征学习与度量学习的探索,近年 为了解决视频序列中存在的遮挡问题以及部位不 来,一些研究学者将主要精力集中于对行人重识 对齐问题,Li等在行人重识别的模型中引入注 别结果排序的优化上,即结果重排序(Re-ranking) 意力机制,在连续的图像序列中,某一帧的信息并 一般情况下,给定一张目标图像,通过提取图像特 不会影响全局的信息,所以使用限定随机抽样法 征并计算目标图像与待匹配图像(Gallary)的距 在视频序列中提取部分数据作为网络的输入,提 离,得到匹配图像的排序结果,根据该结果计算 取图像特征后,应用空间注意力模型自动发现突 Rank-n Accuracy,并绘制CMC曲线.重排序就是 出的图像区域.这种方法很好地解决了遮挡问题, 利用相关方法,对当前的排序结果进行优化,从而 同时有效提取了行人的一些非常规特征,使得网 提升行人重识别的精度 络的辨别力得到显著提升.针对3D卷积在行人部 在图像检索领域,Shen使用K最近邻算法 位不对齐时,存在的特征抓取性能不佳的问题,Gu (k-Nearest Neighbor,.KNN)对模型输出排序结果进 等剧提出一种AP3D方法,在卷积层之前,通过像 行二次优化.在行人重识别领域,Li等四率先提 素级的特征对齐,解决由于行人部位失调带来的 出了利用最近邻算法对行人重识别的排序结果进 问题.Feng等提出一种门控机制,判断哪些区 行优化的方法.YeI等提出了一种基于KNN的 域有助于人的重新识别,让这些区域通过门,不相 排序聚合方法,分别提取图像的全局特征与局部 关的背景区域被门过滤掉.Hou等s%提出STCnet, 特征,分别根据两者得到结果的排序,通过对2种 利用时空补全网络,基于未被遮挡的部分精确地 特征的结合,利用最近邻算法对排序结果进行优 恢复遮挡部分的信息,增强了网络的鲁棒性,为解 化.Zhong等利用K最近邻互编码(k--reciprocal 决行人重识别中的遮挡问题提供了新的思路, encoding)的方法对识别结果进行重排序,使用该 Gao等87提出了一种姿态匹配方法用于学习局部 编码方法,对匹配图像与目标图像在特征空间内 特征,并判别该部分是否被遮挡.Yan等s1提出一 求取最近邻,利用该距离并联合度量学习中的图 种多粒度超图网络框架,在空间角度,通过不同细 像特征距离,对匹配图像进行重排序,从而提升行 粒度的图像分割,获取不同尺度的信息;时序角 人重识别的精度.Wang9等提出一种在线优化排 度,则通过连接不同视频帧的相同部位构建超图, 序结果的方法,即人体验证在线机机器学习 实现时序信息的捕捉 (Human verification incremental learning,HVIL), 对于视频数据的过多冗余信息,Zhang等[89提 预设的周期内,人工地从排序结果中找出正确匹 出多细粒度参考辅助注意力特征聚合方法(Muti- 配,并给出Rank-l结果的相似度(True match/similar/ granularity reference-aided attentive feature aggregation, dissimilar),根据以上结果进行误差计算并更新网
提取,并使用非局部块(Non-local blocks)来解决部 位失调问题,并捕获时空远程依赖关系. 表 6 给出 了部分基于视频的行人重识别方法的性能表现. 以上对单帧特征融合的几种方法进行了介绍. 在基于视频的行人重识别中,主要存在的问题有 行人姿态失调与遮挡、视频数据冗余信息过多等. 为了解决视频序列中存在的遮挡问题以及部位不 对齐问题,Li 等[83] 在行人重识别的模型中引入注 意力机制,在连续的图像序列中,某一帧的信息并 不会影响全局的信息,所以使用限定随机抽样法 在视频序列中提取部分数据作为网络的输入,提 取图像特征后,应用空间注意力模型自动发现突 出的图像区域. 这种方法很好地解决了遮挡问题, 同时有效提取了行人的一些非常规特征,使得网 络的辨别力得到显著提升. 针对 3D 卷积在行人部 位不对齐时,存在的特征抓取性能不佳的问题,Gu 等[84] 提出一种 AP3D 方法,在卷积层之前,通过像 素级的特征对齐,解决由于行人部位失调带来的 问题. Feng 等[85] 提出一种门控机制,判断哪些区 域有助于人的重新识别,让这些区域通过门,不相 关的背景区域被门过滤掉. Hou 等[86] 提出 STCnet, 利用时空补全网络,基于未被遮挡的部分精确地 恢复遮挡部分的信息,增强了网络的鲁棒性,为解 决行人重识别中的遮挡问题提供了新的思路. Gao 等[87] 提出了一种姿态匹配方法用于学习局部 特征,并判别该部分是否被遮挡. Yan 等[88] 提出一 种多粒度超图网络框架,在空间角度,通过不同细 粒度的图像分割,获取不同尺度的信息;时序角 度,则通过连接不同视频帧的相同部位构建超图, 实现时序信息的捕捉. 对于视频数据的过多冗余信息,Zhang 等[89] 提 出多细粒度参考辅助注意力特征聚合方法(Multigranularity reference-aided attentive feature aggregation, MG-RAFA)用于空间信息与时序信息的融合. Liu 等[90] 为了抑制背景信息的干扰,提出了 CSTNet, 捕获视频帧之间常见的突出前景区域,并从这些 区域探索了时空长程文本的相互依赖关系,以学 习更具判别力的行人特征. 评价与总结:与图像数据相比,视频数据具有 较强的时序信息,所以如何将这些时序信息进行 融合是基于视频的重识别问题的重要研究方向. 现有的方法主要包括利用 RNN 结合平均池化进 行时序信息的融合,以及利用 3D 卷积的方法进行 融合. 学者们在此基础上对细节部分加以创新,使 得识别精度不断提升. 基于视频的行人重识别方 法更加接近实际应用,需要大量的数据标注工作, 同时模型的参数量与计算量较大,因此结合半监 督学习与无监督学习方法以及对网络轻量化的研 究会成为今后的热点研究方向. 3.4 基于重排序的行人重识别 除了对于表征学习与度量学习的探索,近年 来,一些研究学者将主要精力集中于对行人重识 别结果排序的优化上,即结果重排序(Re-ranking). 一般情况下,给定一张目标图像,通过提取图像特 征并计算目标图像与待匹配图像(Gallary)的距 离,得到匹配图像的排序结果,根据该结果计算 Rank-n Accuracy,并绘制 CMC 曲线. 重排序就是 利用相关方法,对当前的排序结果进行优化,从而 提升行人重识别的精度. 在图像检索领域,Shen[91] 使用 K 最近邻算法 (k-Nearest Neighbor,KNN)对模型输出排序结果进 行二次优化. 在行人重识别领域,Li 等[92] 率先提 出了利用最近邻算法对行人重识别的排序结果进 行优化的方法. Ye[93] 等提出了一种基于 KNN 的 排序聚合方法,分别提取图像的全局特征与局部 特征,分别根据两者得到结果的排序,通过对 2 种 特征的结合,利用最近邻算法对排序结果进行优 化. Zhong[6] 等利用 K 最近邻互编码( k-reciprocal encoding)的方法对识别结果进行重排序,使用该 编码方法,对匹配图像与目标图像在特征空间内 求取最近邻,利用该距离并联合度量学习中的图 像特征距离,对匹配图像进行重排序,从而提升行 人重识别的精度. Wang[94] 等提出一种在线优化排 序结果的方法 ,即人体验证在线机机器学习 (Human verification incremental learning,HVIL),在 预设的周期内,人工地从排序结果中找出正确匹 配,并给出 Rank-1 结果的相似度(True match/similar/ dissimilar),根据以上结果进行误差计算并更新网 Classfication loss Contrast loss Temporal pooling Feature map Classfication loss CNN RNN CNN RNN CNN RNN CNN RNN CNN RNN CNN RNN Temporal pooling Feature map 图 5 视频帧序列的时序信息融合方法[77] Fig.5 Temporal information fusion of video frames sequence[77] 李 擎等: 基于深度学习的行人重识别方法综述 · 9 ·