《工程科学学报》：基于深度学习的行人重识别方法综述

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：1.26MB

工程科学学报.第44卷，第X期：1-13.2021年X月 Chinese Journal of Engineering,Vol.44,No.X:1-13,X 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004;http://cje.ustb.edu.cn 基于深度学习的行人重识别方法综述李擎12，，胡伟阳l2)，李江昀，2)四，刘艳，2)，李梦璇2 1)北京科技大学自动化学院，北京1000832)工业过程知识自动化教育部重点实验室，北京1000833)北京科技大学顺德研究生院.佛山528000 ☒通信作者，E-mail:leejy@ustb.edu.cn 摘要对深度学习在行人重识别领域的应用现状进行总结与评价.首先，对行人重识别进行介绍，包括行人重识别的应用场景、数据集与评价指标，并对基于深度学习的行人重识别的基本方法进行总结.之后，针对行人重识别的研究现状，将近年来国内外学者的研究工作归纳为基于局部特征、基于生成对抗网络、基于视频以及基于重排序4个方向，并对每个方向所使用的方法分别进行梳理、性能对比以及总结.最后，对行人重识别领域现存的问题进行了分析与讨论，并探讨了行人重识别未来的发展方向关键词深度学习：行人重识别：局部特征；生成对抗网络；视频数据：重排序分类号TG183 A survey of person re-identification based on deep learning LI Qing2,HU Wei-yang2,LI Jiang-yun LIU Yan 2,LI Meng-xuan2) 1)School of Automation&Electrical Engineering.University of Science and Technology Beijing.Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)Shunde Graduate School,University of Science and Technology Beijing.Foshan 528000,China Corresponding author,E-mail:leejy@ustb.edu.cn ABSTRACT Person re-identification is an important part of multi-target tracking across cameras;its aim is to identify the same person across different cameras.Given a query image,the purpose of person re-identification is to find the best match for the query image in an image set.Person re-identification is a key component in an intelligent security system;it is beneficial for building a smart bank or smart factory and plays a crucial role in the construction of a smart city.Nowadays,with the development of artificial intelligence and increasing demand for precise identification in practical scenarios,deep learning-based person re-identification technology has become a popular research topic;this technology has achieved state-of-the-art results in comparison with conventional approaches.Although there are many recently proposed networks with stronger representation ability and a high level of accuracy for person re-identification,there also exist some problems that should be considered and solved.These include the insufficient generalization ability of various poses,the inability to fully utilize the temporal information,and the ineffective identification of occluded objects.As a result,many scholars have researched this field and have pointed out some promising solutions to cope with the aforementioned problems.This paper aims to summarize the application of deep learning in the field of person re-identification along with its advantages and shortcomings.First,the background of person re-identification is introduced,including the application scenarios,datasets,and evaluation indicators. Additionally,some basic methods of person re-identification based on deep learning are summarized.According to the existing research on person re-identification,the main approaches proposed by scholars worldwide can be summarized into four aspects,which are based 收稿日期：2020-12-22 基金项目：中央高校基本科研业务费专项资金资助项目(FFDF19-0O2):北京科技大学顺德研究生院科技创新专项资金资助项目 (BK20BE014)

基于深度学习的行人重识别方法综述李擎1,2,3)，胡伟阳1,2)，李江昀1,2,3) 苣，刘艳1,2)，李梦璇1,2) 1) 北京科技大学自动化学院，北京 100083 2) 工业过程知识自动化教育部重点实验室，北京 100083 3) 北京科技大学顺德研究生院，佛山 528000 苣通信作者， E-mail:leejy@ustb.edu.cn 摘要对深度学习在行人重识别领域的应用现状进行总结与评价. 首先，对行人重识别进行介绍，包括行人重识别的应用场景、数据集与评价指标，并对基于深度学习的行人重识别的基本方法进行总结. 之后，针对行人重识别的研究现状，将近年来国内外学者的研究工作归纳为基于局部特征、基于生成对抗网络、基于视频以及基于重排序 4 个方向，并对每个方向所使用的方法分别进行梳理、性能对比以及总结. 最后，对行人重识别领域现存的问题进行了分析与讨论，并探讨了行人重识别未来的发展方向. 关键词深度学习；行人重识别；局部特征；生成对抗网络；视频数据；重排序分类号 TG183 A survey of person re-identification based on deep learning LI Qing1,2,3) ，HU Wei-yang1,2) ，LI Jiang-yun1,2,3) 苣，LIU Yan1,2) ，LI Meng-xuan1,2) 1) School of Automation & Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528000, China 苣 Corresponding author, E-mail: leejy@ustb.edu.cn ABSTRACT Person re-identification is an important part of multi-target tracking across cameras; its aim is to identify the same person across different cameras. Given a query image, the purpose of person re-identification is to find the best match for the query image in an image set. Person re-identification is a key component in an intelligent security system; it is beneficial for building a smart bank or smart factory and plays a crucial role in the construction of a smart city. Nowadays, with the development of artificial intelligence and increasing demand for precise identification in practical scenarios, deep learning-based person re-identification technology has become a popular research topic; this technology has achieved state-of-the-art results in comparison with conventional approaches. Although there are many recently proposed networks with stronger representation ability and a high level of accuracy for person re-identification, there also exist some problems that should be considered and solved. These include the insufficient generalization ability of various poses, the inability to fully utilize the temporal information, and the ineffective identification of occluded objects. As a result, many scholars have researched this field and have pointed out some promising solutions to cope with the aforementioned problems. This paper aims to summarize the application of deep learning in the field of person re-identification along with its advantages and shortcomings. First, the background of person re-identification is introduced, including the application scenarios, datasets, and evaluation indicators. Additionally, some basic methods of person re-identification based on deep learning are summarized. According to the existing research on person re-identification, the main approaches proposed by scholars worldwide can be summarized into four aspects, which are based 收稿日期: 2020−12−22 基金项目: 中央高校基本科研业务费专项资金资助项目（FRF-DF-19-002）；北京科技大学顺德研究生院科技创新专项资金资助项目（BK20BE014）工程科学学报，第 44 卷，第 X 期：1−13，2021 年 X 月 Chinese Journal of Engineering, Vol. 44, No. X: 1−13, X 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004; http://cje.ustb.edu.cn

2 工程科学学报，第44卷，第X期 on local features,generative adversarial networks,video data,and re-ranking.A detailed comparative study of these four methods is then conducted.Finally,the existing problems and future studies that can be done in the field of person re-identification are analyzed and discussed KEY WORDS deep learning;person re-identification;local feature;generating adversarial networks;video data;reranking 行人重识别(Personre-identification,Person RelD), Result 是利用计算机视觉技术对跨摄像头的人员图像进行特征提取，从而进行人员匹配的技术，广泛应用 Cam I Cam 2 于智慧安防、智慧零售等领域，是人工智能技术与产业结合的重要支点.在早期的行人重识别研究中，大量的工作是基于传统计算机视觉方法，利用手工提取的图像特征，进行行人重识别的研究.近年来，随着深度学习在许多领域的成功应用，研究 Query Gallery Rank-1 人员们开始尝试将深度学习应用到行人重识别图1行人重识别的应用场景示例上，并已取得一定的成果.其主要研究思路为采用 Fig.1 An example of person re-identification application scenarios 深度学习方法进行特征向量提取，再利用度量学法进行了梳理习对特征向量进行判别，将图像之间的差异量化， 1.1行人重识别数据集介绍并使用大量标注数据对模型进行训练迭代.本文行人重识别的研究方法从基于传统的人工特首先对行人重识别的概念、数据集以及两个基本征发展为基于深度学习方法，离不开大规模数据方法进行介绍，之后，根据研究思路的不同，将当集的发展四目前常用的行人重识别数据集主要有前的方法分为基于局部特征、基于生成对抗网以下几种：CUHK03数据集)，Marketl501数据集络、基于视频以及基于重排序4个方向并分别对以及DukeMTMC-reID!s,其中CUHKO3数据集的ID 其进行分析和讨论.最后，对行人重识别现存问题划分分为新旧两种协议，即1367/100与767/7006，进行归纳整理，并对未来的研究方向进行展望具体信息如表1所示.在基于视频的行人重识别 1行人重识别领域广泛应用的数据集主要有PRID20I1☑以及 LIDS-VID1,分别收录了984与300个行人的视频行人重识别是长时、跨域多目标跟踪的核心信息，其他视频数据集信息如表2所示技术川，其主要目标是对同一个行人进行跨摄像头除了以上几个已经开源的常用数据集以外，的再识别.在研究中，通常给定一个目标行人图像近几年内还有一些优秀的数据集被提出，其中比或者视频片段，在待匹配的图像序列或者视频片较典型的有：北京大学采集的MSMT179数据集，段中，识别出目标行人，并给出目标图像与匹配图包含室内室外15个相机的12万多张行人图像，像的相似度.如图1所示，两个视野不重合的监控有4千多个行人ID,是目前最大的单帧RelD数据摄像头，在不同的时段分别采集了一些行人图像，集；北京大学和微软研究院联合采集的LvrelD数从摄像头1采集的图像中选择一张作为目标图像据集，包含室内室外15个相机的3千多个行人ID 行人重识别的目标就是在摄像头2所采集的图像的序列图像，总共14943个序列的3百多万张图中，通过寻找和目标图像匹配度最高的图像，再次像；北京航空航天大学等采集的LPWo数据集，将该人物识别出来，实现对行人的跨摄像头跟踪. 包含2731个行人的7694个轨迹序列，总共有56万行人重识别是一项具有挑战性的任务，它的多张图像，该数据集的特点是有多个独立的场景，数据一般来自于安防系统.在系统中，不同摄像设每个场景都可以作为一个独立的数据集，训练集备之间的背景、风格具有较大差异，同时行人外观和侧试集按照场景分开，因此更加接近真实使用易受遮挡、穿着、视角和姿态等多种因素的影响，情况：Yu等]提出一种衣着变换的数据集COCAS, 这就使得行人重识别成为一个具有一定挑战性的含有5266个行人D,共62382个行人检测框，由手研究课题，同时具有较高的研究价值.图2对当前工标注得到.2020年以来，一些优秀的行人重识别数基于深度学习的行人重识别存在的问题与解决方据集也被相继提出；由中山大学提出的SYSU-302

on local features, generative adversarial networks, video data, and re-ranking. A detailed comparative study of these four methods is then conducted. Finally, the existing problems and future studies that can be done in the field of person re-identification are analyzed and discussed. KEY WORDS deep learning；person re-identification；local feature；generating adversarial networks；video data；reranking 行人重识别（Person re-identification，Person ReID），是利用计算机视觉技术对跨摄像头的人员图像进行特征提取，从而进行人员匹配的技术，广泛应用于智慧安防、智慧零售等领域，是人工智能技术与产业结合的重要支点. 在早期的行人重识别研究中，大量的工作是基于传统计算机视觉方法，利用手工提取的图像特征，进行行人重识别的研究. 近年来，随着深度学习在许多领域的成功应用，研究人员们开始尝试将深度学习应用到行人重识别上，并已取得一定的成果. 其主要研究思路为采用深度学习方法进行特征向量提取，再利用度量学习对特征向量进行判别，将图像之间的差异量化，并使用大量标注数据对模型进行训练迭代. 本文首先对行人重识别的概念、数据集以及两个基本方法进行介绍. 之后，根据研究思路的不同，将当前的方法分为基于局部特征、基于生成对抗网络、基于视频以及基于重排序 4 个方向并分别对其进行分析和讨论. 最后，对行人重识别现存问题进行归纳整理，并对未来的研究方向进行展望. 1 行人重识别行人重识别是长时、跨域多目标跟踪的核心技术[1] ，其主要目标是对同一个行人进行跨摄像头的再识别. 在研究中，通常给定一个目标行人图像或者视频片段，在待匹配的图像序列或者视频片段中，识别出目标行人，并给出目标图像与匹配图像的相似度. 如图 1 所示，两个视野不重合的监控摄像头，在不同的时段分别采集了一些行人图像，从摄像头 1 采集的图像中选择一张作为目标图像. 行人重识别的目标就是在摄像头 2 所采集的图像中，通过寻找和目标图像匹配度最高的图像，再次将该人物识别出来，实现对行人的跨摄像头跟踪. 行人重识别是一项具有挑战性的任务，它的数据一般来自于安防系统. 在系统中，不同摄像设备之间的背景、风格具有较大差异，同时行人外观易受遮挡、穿着、视角和姿态等多种因素的影响，这就使得行人重识别成为一个具有一定挑战性的研究课题，同时具有较高的研究价值. 图 2 对当前基于深度学习的行人重识别存在的问题与解决方法进行了梳理. 1.1 行人重识别数据集介绍行人重识别的研究方法从基于传统的人工特征发展为基于深度学习方法，离不开大规模数据集的发展[2] . 目前常用的行人重识别数据集主要有以下几种：CUHK03 数据集[3] ，Market1501[4] 数据集以及 DukeMTMC-reID[5] ，其中 CUHK03 数据集的 ID 划分分为新旧两种协议，即 1367/100 与 767/700[6] ，具体信息如表 1 所示. 在基于视频的行人重识别领域广泛应用的数据集主要有 PRID2011[7] 以及 iLIDS-VID[8] ，分别收录了 984 与 300 个行人的视频信息，其他视频数据集信息如表 2 所示. 除了以上几个已经开源的常用数据集以外，近几年内还有一些优秀的数据集被提出，其中比较典型的有：北京大学采集的 MSMT17[9] 数据集，包含室内室外 15 个相机的 12 万多张行人图像，有 4 千多个行人 ID，是目前最大的单帧 ReID 数据集；北京大学和微软研究院联合采集的 LvreID 数据集，包含室内室外 15 个相机的 3 千多个行人 ID 的序列图像，总共 14943 个序列的 3 百多万张图像；北京航空航天大学等采集的 LPW[10] 数据集，包含 2731 个行人的 7694 个轨迹序列，总共有 56 万多张图像，该数据集的特点是有多个独立的场景，每个场景都可以作为一个独立的数据集，训练集和测试集按照场景分开，因此更加接近真实使用情况；Yu 等[11] 提出一种衣着变换的数据集 COCAS，含有 5266 个行人 ID，共 62382 个行人检测框，由手工标注得到. 2020 年以来，一些优秀的行人重识别数据集也被相继提出；由中山大学提出的 SYSU-30[12] Result Cam 1 Cam 2 Query Gallery Rank-1 图 1 行人重识别的应用场景示例 Fig.1 An example of person re-identification application scenarios · 2 · 工程科学学报，第 44 卷，第 X 期

李擎等：基于深度学习的行人重识别方法综述 3 Occlusion Misalignment Pose variation Existing problem Tnformation redundancy Low utilization of temporal information Lack of generalizability PCB+RPP Person re-identification based on deep learning Local feature SPRelD SMC-RelD DCGAN CycleGAN GAN PTGAN PNGAN DeepRCN Methods RFA-Net Video SCAN ResNet3D+Non-Local CSTNet k-reciprocal encoding Re-ranking/HVIL Distance based re-ranking 图2基于深度学习的行人重识别研究问题与方法归纳 Fig.2 Research problems and methods of person re-identification based on deep leaming 表1部分行人重识别公开数据集利用一种随机自动生成大量三维人物模型的方 Table 1 Part of person re-identification public datasets 法，并在游戏环境中进行渲染而得到，包含8000 Dataset Camera D Image Body 个行人ID,38段视频以及1801816张行人切片图像 numbers numbers numbers images 为了研究黑衣人问题而建立的首个黑衣人数据集 Market-1501441 6 1501 32668 DPM DukeMTMC. Black-relD,该数据集图像来自于Market--l50l、 relD间 P 1812 36411 Hand DukeMTMC-relD、Partial等几个数据集，建立者从中 MSMT17I例 5 4101 126441 Faster RCNN 选取对应的图像建立黑衣人数据集，该数据集训 CUHK0301 1467 14096 Hand 练集包含688个行人ID,测试集包含1644个行人ID LPWtio 11 2731 562438 DPM+Hand 1.2行人重识别评价指标 COCAS 30 5266 62382 Hand 行人重识别的评测指标主要有以下儿种 (1I)Rank-n Accuracyl9:这是一种在图像分类、表2部分行人重识别视颜数据集检索领域广泛使用的评价指标.给定一张目标图 Table 2 Part of person re-identification video datasets 像，训练好的行人重识别模型会给出一个按照置 ID Dataset Camera Sequence numbers Body images numbers length 信度排序的识别结果序列.最常用的Rank-l PRID2011 2 200 400 Hand Accuracy与Rank-5 Accuracy2种评价指标，分别代 DukeMTMC VideoRelD!sI 6 702 4832 一表在测试中，第1位即为正确匹配的比例，以及前 iLIDS.VID周 2 300 600 Hand 5位存在正确匹配的比例. MARSI6I 1261 20715 DPM+GMMCP (2)CMC (Cumulative match characteristic): EgoRelDl7 900 10200 YOLO9000+FS 累积匹配曲线，通过绘制Rank-n accuracy随着参 3 DSC LS-VID 数n变化的曲线，直观地了解top-n击中概率的变 15 3772 14943 Faster R-CNN 化，主要用来评估闭集中排序结果的正确率数据集包含了30000个行人D,同时数据集涵盖 (3)ROC(Receiver operating characteristic 了剧烈的光照变化、遮挡、低像素、俯视拍摄以及 curve):ROC曲线是检测、分类、识别任务中常用真实场景下的复杂背景等多种复杂情况；由起源的一项评价指标，表示随着分类阈值的变化，行人人工智能研究院提出的RandPerson!]行人数据集，重识别模型对正样本与负样本的区分情况

数据集包含了 30000 个行人 ID，同时数据集涵盖了剧烈的光照变化、遮挡、低像素、俯视拍摄以及真实场景下的复杂背景等多种复杂情况；由起源人工智能研究院提出的 RandPerson[13] 行人数据集，利用一种随机自动生成大量三维人物模型的方法，并在游戏环境中进行渲染而得到，包含 8000 个行人 ID，38 段视频以及 1801816 张行人切片图像. 为了研究黑衣人问题而建立的首个黑衣人数据集 Black-reID[14] ，该数据集图像来自于 Market-1501、 DukeMTMC-reID、Partial 等几个数据集，建立者从中选取对应的图像建立黑衣人数据集，该数据集训练集包含 688 个行人 ID，测试集包含 1644 个行人 ID. 1.2 行人重识别评价指标行人重识别的评测指标主要有以下几种. （1）Rank-n Accuracy[19] ：这是一种在图像分类、检索领域广泛使用的评价指标. 给定一张目标图像，训练好的行人重识别模型会给出一个按照置信度排序的识别结果序列 . 最常用的 Rank-1 Accuracy 与 Rank-5 Accuracy 2 种评价指标，分别代表在测试中，第 1 位即为正确匹配的比例，以及前 5 位存在正确匹配的比例. （2）CMC 曲线[19] （Cumulative match characteristic）：累积匹配曲线，通过绘制 Rank-n accuracy 随着参数 n 变化的曲线，直观地了解 top-n 击中概率的变化，主要用来评估闭集中排序结果的正确率. （ 3）ROC 曲线（Receiver operating characteristic curve）：ROC 曲线是检测、分类、识别任务中常用的一项评价指标，表示随着分类阈值的变化，行人重识别模型对正样本与负样本的区分情况. 表 1 部分行人重识别公开数据集 Table 1 Part of person re-identification public datasets Dataset Camera numbers ID numbers Image numbers Body images Market-1501[4] 6 1501 32668 DPM DukeMTMCreID [5] 8 1812 36411 Hand MSMT17[9] 15 4101 126441 Faster RCNN CUHK03[3] 2 1467 14096 Hand LPW[10] 11 2731 562438 DPM+Hand COCAS[11] 30 5266 62382 Hand 表 2 部分行人重识别视频数据集 Table 2 Part of person re-identification video datasets Dataset Camera numbers ID numbers Sequence length Body images PRID2011[7] 2 200 400 Hand DukeMTMC VideoReID[15] 6 702 4832 — iLIDS-VID [8] 2 300 600 Hand MARS[16] 6 1261 20715 DPM+GMMCP EgoReID[17] 3 900 10200 YOLO9000+FS DSC LS-VID[18] 15 3772 14943 Faster R-CNN Occlusion Local feature GAN Video Re-ranking Misalignment Pose variation Tnformation redundancy Low utilization of temporal information Lack of generalizability Existing problems Methods PCB+RPP SPReID SMC-ReID DCGAN CycleGAN PTGAN PNGAN DeepRCN RFA-Net CSTNet ResNet3D+Non-Local HVIL k-reciprocal encoding Distance based re-ranking SCAN Person re-identification based on deep learning 图 2 基于深度学习的行人重识别研究问题与方法归纳 Fig.2 Research problems and methods of person re-identification based on deep learning 李擎等：基于深度学习的行人重识别方法综述 · 3 ·

工程科学学报，第44卷，第X期 (4)mAPl(mean Average Precision):平均精度 2.1表征学习均值，是多目标检测与多标签分类的常用评价指表征学习，即特征表示学习，它的目的是提取标，绘制精确率与召回率的关系曲线(P-R曲线)，图像特征，即将图像数据抽象为高维特征向量，便该曲线与坐标轴的面积即为平均精确率(Average 于图像之间差异的量化.随着深度学习的发展，广 precision),对所有类别测试得到各自的平均精确泛使用卷积神经网络作为特征提取器，提取图像率，取均值得到平均精度均值mAP.平均精度指标或者视频的特征向量不仅体现了模型的精确率，还能对模型给出的排在图像分类领域，已有一些较为有效的特征名顺序做出评价提取方法2s7,因此在行人重识别研究的初期，一行人重识别模型最为常用的评价指标为Rank-n 些学者将行人重识别转换为分类问题进行研究 Accuracy与mAP,表3整理了目前各个数据集上表将行人的D作为标签对数据进行标注，使用图像现最优的模型(State of the art,.SOTA)以及其他一些分类方法进行行人的分类.在之后的研究中，一些优秀模型的精度数据，其中OSNet与DG-Net的精度学者受到图像检索方法的启发，提出了CIR(Cross- 数据测试于按照新版协议划分的CUHK03数据集 image representation)方法，使用图像对作为输入，表3各数据集的性能最优模型以及精度数据最终输出两者的相似度.该方法基于孪生卷积神 Table 3 State-of-the-art models and their precision for each dataset 经网络(Siamese CNN)p,将2张图像分别输入到 Dataset SOTA Rank-1 accuracy mAP 2个独立的子网络中，得到图像的特征图，再通过 St-RelD(RE.RK)D 97.20 86.70 度量学习的方法判断图像对是否属于同一个行 Market- Viewpoint-Aware Loss21 96.79 95.43 人.Yi等2首次将孪生卷积神经网络应用到行人 15019 DG-Netl2 94.80 84.00 重识别领域，考虑到行人重识别图像数据的背景、 St-ReID(RE,RK,Cam)20 94.50 92.70 光照等特征的不同，舍弃了原网络共享权值的做 DukeMTMC- ABD-Net(ResNet-50)2 89.00 78.95 法，使2个子网络相互独立.Ahmed等0基于孪生 reIDls1 Viewpoint-Aware LossP 93.90 91.80 卷积神经网络，针对行人重识别提出了一种深度 FD-GANI 92.60 91.30 网络，将图像对作为网络输入，计算图像特征图差 CUHK036 OSNetE4 67.80 异，最终判断图像对是否属于同一类别.在此基础 DG-Netz 61.10 一上，Wu等B提出了PersonNet,.在原有的结构上， ABD-Net(ResNet-50)2 82.30 60.80 使用多个3×3卷积层加深网络，使得效果得到显 OSNet4 78.70 52.90 著提升.CIR方法强调输入的两张图像的相互关 MSMT17 DG-Net22 77.20 52.30 系，在网络结构中可以很好地体现出来.Wang等四提出一种名为Wconv的卷积结构，让每张输入图 2 行人重识别方法研究框架像都经过两个独立的卷积层，生成两张特征图并进行融合，从而得到两张图像各自的特征图行人重识别框架与大多数基于深度学习的图 Wang等B]提出了一种结合单张图像特征的方法，像处理问题相似，首先使用卷积神经网络(CNN), 对输入的图像对，分别使用独立的卷积神经网络利用表征学习对数据进行特征提取得到特征向量，提取各自的特征，并抽取特征提取过程中的特征之后再利用度量学习的方法进行类别判断.行人图进行融合，这种方法结合了提取单张图像特征重识别的研究框架如图3所示，本章对表征学习的高效率以及CIR方法对图像间信息提取的优与度量学习的定义以及基本方法进行简要介绍. 势.熊炜等两提出了一种深层特征融合行人重识 Result Representation learing 别模型，利用卷积层与池化层多次提取网络深层特征，使用融合后的深层特征作为行人的特征属性，提升了网络提取全局特征的能力.同样的思想，该作者在文献[35]中提出，将特征提取网络最 Gallery ank-I 后三个卷积层提取的特征图进行拼接，再使用卷积神经网络提取深层特征，提升了网络的深层特因3行人重识别研究方法框架征提取能力.Wang等提出的St-RelD方法，利 Fig.3 Research method framework of person re-identification methods 用跨模态融合方法，将图像的视觉特征以及时空

（4）mAP[11] （mean Average Precision）：平均精度均值，是多目标检测与多标签分类的常用评价指标，绘制精确率与召回率的关系曲线（P‒R 曲线），该曲线与坐标轴的面积即为平均精确率（Average precision），对所有类别测试得到各自的平均精确率，取均值得到平均精度均值 mAP. 平均精度指标不仅体现了模型的精确率，还能对模型给出的排名顺序做出评价. 行人重识别模型最为常用的评价指标为 Rank-n Accuracy 与 mAP，表 3 整理了目前各个数据集上表现最优的模型（State of the art, SOTA）以及其他一些优秀模型的精度数据，其中 OSNet 与 DG-Net 的精度数据测试于按照新版协议划分的 CUHK03 数据集. 表 3 各数据集的性能最优模型以及精度数据 Table 3 State-of-the-art models and their precision for each dataset Dataset SOTA Rank-1 accuracy mAP Market- 1501[4] St-ReID(RE, RK)[20] 97.20 86.70 Viewpoint-Aware Loss[21] 96.79 95.43 DG-Net[22] 94.80 84.00 DukeMTMCreID[5] St-ReID(RE, RK, Cam)[20] 94.50 92.70 ABD-Net(ResNet-50)[23] 89.00 78.95 Viewpoint-Aware Loss[21] 93.90 91.80 CUHK03[3][6] FD-GAN[19] 92.60 91.30 OSNet[24] 67.80 — DG-Net[22] 61.10 — ABD-Net(ResNet-50)[23] 82.30 60.80 MSMT17[9] OSNet[24] 78.70 52.90 DG-Net[22] 77.20 52.30 2 行人重识别方法研究框架行人重识别框架与大多数基于深度学习的图像处理问题相似，首先使用卷积神经网络（CNN），利用表征学习对数据进行特征提取得到特征向量，之后再利用度量学习的方法进行类别判断. 行人重识别的研究框架如图 3 所示，本章对表征学习与度量学习的定义以及基本方法进行简要介绍. Quary Result Representation learing Feature map Metric learning Gallery Rank-1 图 3 行人重识别研究方法框架 Fig.3 Research method framework of person re-identification methods 2.1 表征学习表征学习，即特征表示学习，它的目的是提取图像特征，即将图像数据抽象为高维特征向量，便于图像之间差异的量化. 随着深度学习的发展，广泛使用卷积神经网络作为特征提取器，提取图像或者视频的特征向量. 在图像分类领域，已有一些较为有效的特征提取方法[25−27] ，因此在行人重识别研究的初期，一些学者将行人重识别转换为分类问题进行研究. 将行人的 ID 作为标签对数据进行标注，使用图像分类方法进行行人的分类. 在之后的研究中，一些学者受到图像检索方法的启发，提出了 CIR（Crossimage representation）方法，使用图像对作为输入，最终输出两者的相似度. 该方法基于孪生卷积神经网络（Siamese CNN） [28] ，将 2 张图像分别输入到 2 个独立的子网络中，得到图像的特征图，再通过度量学习的方法判断图像对是否属于同一个行人. Yi 等[29] 首次将孪生卷积神经网络应用到行人重识别领域，考虑到行人重识别图像数据的背景、光照等特征的不同，舍弃了原网络共享权值的做法，使 2 个子网络相互独立. Ahmed 等[30] 基于孪生卷积神经网络，针对行人重识别提出了一种深度网络，将图像对作为网络输入，计算图像特征图差异，最终判断图像对是否属于同一类别. 在此基础上，Wu 等[31] 提出了 PersonNet，在原有的结构上，使用多个 3×3 卷积层加深网络，使得效果得到显著提升. CIR 方法强调输入的两张图像的相互关系，在网络结构中可以很好地体现出来. Wang 等[32] 提出一种名为 Wconv 的卷积结构，让每张输入图像都经过两个独立的卷积层，生成两张特征图并进行融合，从而得到两张图像各自的特征图 . Wang 等[33] 提出了一种结合单张图像特征的方法，对输入的图像对，分别使用独立的卷积神经网络提取各自的特征，并抽取特征提取过程中的特征图进行融合，这种方法结合了提取单张图像特征的高效率以及 CIR 方法对图像间信息提取的优势. 熊炜等[34] 提出了一种深层特征融合行人重识别模型，利用卷积层与池化层多次提取网络深层特征，使用融合后的深层特征作为行人的特征属性，提升了网络提取全局特征的能力. 同样的思想，该作者在文献 [35] 中提出，将特征提取网络最后三个卷积层提取的特征图进行拼接，再使用卷积神经网络提取深层特征，提升了网络的深层特征提取能力. Wang 等[20] 提出的 St-ReID 方法，利用跨模态融合方法，将图像的视觉特征以及时空 · 4 · 工程科学学报，第 44 卷，第 X 期

李擎等：基于深度学习的行人重识别方法综述 5 特征进行融合，该方法在多个数据集上取得了较而完成分类任务.该方法整合了排名方法和分类好的性能表现. 方法的优点，并使两者的缺点得到互补.同样的思评价与总结：表征学习是提取图像特征的基想，Chen等B7提出了整合分类与排名的训练方法，本方法，在行人重识别上的应用也取得了一定效使用GoogleNet 5进行特征提取，便于迁移训练果.但是，由于行人重识别数据的特殊性，存在遮三元组损失：三元组损失是图像检索领域广挡、部位不对齐以及姿态差异等问题，直接提取图泛应用的损失函数B-0它来源于人脸识别的方像的全局特征并不能达到最好的识别精度.针对法FaceNet!,应用三元组损失函数的网络架构输这些问题，学者们相继提出了提取局部特征以及入为3张图像，分别是目标图像、正样本和负样引入注意力机制等方法，在后文中予以归纳总结本.三元组损失函数通过调整系数，拉近正样本特 2.2度量学习征向量I,与目标图像特征向量Ia的距离，扩大负对于行人重识别，首先需要利用特征提取器样本特征向量I。与目标图像特征向量L的距离得到行人图像的特征向量，然后利用度量学习方最终相同D的图像在特征空间内聚类，完成行人法判断目标图像与待匹配图像的相似度.度量学重识别任务，同时三元组损失函数可以将行人重习是机器学习的常用方法，通过定量方法，确定特识别作为一个端对端的问题进行研究. 征向量的相似程度.在网络的训练过程中，度量学 Lri =max(dia.lp-dia.!n+margin,0) (2) 习方法主要体现在损失函数上，用以更新深度网三元组损失函数的缺点在于构造简单，如果络的参数，从而提取更具判别力的图像特征.行人在网络中直接优化三元组损失函数，会导致网络重识别使用的损失函数主要有以下几种的鉴别能力降低，一些学者通过加入更丰富的信对照损失：在最初的行人重识别研究中，通过息，设计出性能更强的三元组损失函数，Hermans 提取图像对的特征并进行距离的计算B,2,根据特等阳指出，让网络一直学习简单的样本组合会限征向量a与，的距离d判断图像对是否属于同一制网络的泛化能力，针对这一问题，提出三元组损个行人.通常给定网络输入为图像对，变量y值失函数的改进方法，通过选择一个批次中较难区为+1或-1，作为图像对的标签，引入阈值margin, 分的正样本和负样本，来对三元组损失函数进行对图像对距离加以约束训练，加强三元组损失函数对于困难样本对的挖 Lcon =ydia.+(1-y)max (margin-dia,0)2 (1) 掘能力，从而提升三元组损失函数的性能 Yi等29将对照损失应用在行人重识别中，网 Cheng等1提出一种改进的三元组损失函数，原络输入为图像对，分别提取图像的特征向量，计算始的三元组损失函数旨在拉近正样本与目标图像特征向量的余弦(Cosine)距离，输出一个介于+l、的距离，扩大负样本与目标图像的距离，但是损 -1之间的相似度.这种方法的优点在于对于一张失函数并没有对样本距离进行约束，导致正样本目标图像，相同类别图像的相似度往往会高于不与目标图像的绝对距离很远，作者通过在原始三同类别图像的相似度.在之后的研究中，学者们提元组损失函数中加入了一个新的阈值，用于限制出对每一张待匹配的图像，根据相似度进行排名，类内图像的最大距离，保证网络不仅能够在特征将排名最高的图像作为行人重识别的结果，这也空间把正负样本推开，也能保证正样本对的距离是现在广泛使用的确定识别结果的方法.但是一处于一定的阈值之下些学者发现，分类方法和排名方法都有各自的优四元组损失：为了解决三元组损失函数类内缺点，分类方法难以确定一个固定的区分阈值，而距离较大的问题，一些学者在三元组损失函数的排名方法得出的Topl图像相似度最高，却很容易基础上，提出了四元组损失函数.Chen在文章因为丢失细节信息导致匹配错误.针对这一问题，中提出了一种应用四元组损失函数的行人重识别 Chen等B提出了一种多任务深度网络MTDNet,,文网络架构.网络输入为4张图像，相对于三元组损章指出应用排名方法往往更为关注全局特征，而失，又增加了一张不同D的负样本2.四元组损分类方法则更关注图像对之间的联系，比较注重失不仅可以学习正负样本的相对距离，同时限制局部特征.MTDNet的输入为3张图像，首先通过最小的类间距离高于最大的类内距离，同时引入卷积神经网络提取低维特征后，执行排名任务，之阈值margin,与margin2对损失函数的值域加以约后通过三元组损失函数，判断正负样本的距离，从束，使网络的性能得到提升

特征进行融合，该方法在多个数据集上取得了较好的性能表现. 评价与总结：表征学习是提取图像特征的基本方法，在行人重识别上的应用也取得了一定效果. 但是，由于行人重识别数据的特殊性，存在遮挡、部位不对齐以及姿态差异等问题，直接提取图像的全局特征并不能达到最好的识别精度. 针对这些问题，学者们相继提出了提取局部特征以及引入注意力机制等方法，在后文中予以归纳总结. 2.2 度量学习对于行人重识别，首先需要利用特征提取器得到行人图像的特征向量，然后利用度量学习方法判断目标图像与待匹配图像的相似度. 度量学习是机器学习的常用方法，通过定量方法，确定特征向量的相似程度. 在网络的训练过程中，度量学习方法主要体现在损失函数上，用以更新深度网络的参数，从而提取更具判别力的图像特征. 行人重识别使用的损失函数主要有以下几种. 对照损失：在最初的行人重识别研究中，通过提取图像对的特征并进行距离的计算[3,29] ，根据特征向量 Ia 与 Ib 的距离 d 判断图像对是否属于同一个行人. 通常给定网络输入为图像对，变量 y 值为+1 或−1，作为图像对的标签，引入阈值 margin，对图像对距离加以约束. Lcon = ydIa,Ib 2 +(1−y)max (margin−dIa,Ib ,0)2 （1） Yi 等[29] 将对照损失应用在行人重识别中，网络输入为图像对，分别提取图像的特征向量，计算特征向量的余弦（Cosine）距离，输出一个介于+1、 −1 之间的相似度. 这种方法的优点在于对于一张目标图像，相同类别图像的相似度往往会高于不同类别图像的相似度. 在之后的研究中，学者们提出对每一张待匹配的图像，根据相似度进行排名，将排名最高的图像作为行人重识别的结果，这也是现在广泛使用的确定识别结果的方法. 但是一些学者发现，分类方法和排名方法都有各自的优缺点，分类方法难以确定一个固定的区分阈值，而排名方法得出的 Top1 图像相似度最高，却很容易因为丢失细节信息导致匹配错误. 针对这一问题， Chen 等[36] 提出了一种多任务深度网络 MTDNet，文章指出应用排名方法往往更为关注全局特征，而分类方法则更关注图像对之间的联系，比较注重局部特征. MTDNet 的输入为 3 张图像，首先通过卷积神经网络提取低维特征后，执行排名任务，之后通过三元组损失函数，判断正负样本的距离，从而完成分类任务. 该方法整合了排名方法和分类方法的优点，并使两者的缺点得到互补. 同样的思想，Chen 等[37] 提出了整合分类与排名的训练方法，使用 GoogleNet[25] 进行特征提取，便于迁移训练. 三元组损失：三元组损失是图像检索领域广泛应用的损失函数[38−40] . 它来源于人脸识别的方法 FaceNet[41] ，应用三元组损失函数的网络架构输入为 3 张图像，分别是目标图像、正样本和负样本. 三元组损失函数通过调整系数，拉近正样本特征向量 Ip 与目标图像特征向量 Ia 的距离，扩大负样本特征向量 In 与目标图像特征向量 Ia 的距离. 最终相同 ID 的图像在特征空间内聚类，完成行人重识别任务，同时三元组损失函数可以将行人重识别作为一个端对端的问题进行研究. Ltri = max(dIa,Ip −dIa,In +margin,0) （2）三元组损失函数的缺点在于构造简单，如果在网络中直接优化三元组损失函数，会导致网络的鉴别能力降低，一些学者通过加入更丰富的信息，设计出性能更强的三元组损失函数，Hermans 等[42] 指出，让网络一直学习简单的样本组合会限制网络的泛化能力，针对这一问题，提出三元组损失函数的改进方法，通过选择一个批次中较难区分的正样本和负样本，来对三元组损失函数进行训练，加强三元组损失函数对于困难样本对的挖掘能力，从而提升三元组损失函数的性能 . Cheng 等[43] 提出一种改进的三元组损失函数，原始的三元组损失函数旨在拉近正样本与目标图像的距离，扩大负样本与目标图像的距离[41] ，但是损失函数并没有对样本距离进行约束，导致正样本与目标图像的绝对距离很远，作者通过在原始三元组损失函数中加入了一个新的阈值，用于限制类内图像的最大距离，保证网络不仅能够在特征空间把正负样本推开，也能保证正样本对的距离处于一定的阈值之下. 四元组损失：为了解决三元组损失函数类内距离较大的问题，一些学者在三元组损失函数的基础上，提出了四元组损失函数. Chen 在文章[44] 中提出了一种应用四元组损失函数的行人重识别网络架构. 网络输入为 4 张图像，相对于三元组损失，又增加了一张不同 ID 的负样本 n2 . 四元组损失不仅可以学习正负样本的相对距离，同时限制最小的类间距离高于最大的类内距离，同时引入阈值 margin1 与 margin2 对损失函数的值域加以约束，使网络的性能得到提升. 李擎等：基于深度学习的行人重识别方法综述 · 5 ·

工程科学学报，第44卷，第X期 Lqua =max(dia.!p-din+margin1,0)+ 性能.Li等M提出MSCAN,利用空洞卷积完成多 max(dia.lp-di.!+margin,0) (3) 个尺度下的特征提取，充分利用了图像的上下文现有的行人重识别方法在训练过程中，广泛信息.引入STN(Spatial transformer networks)用于使用交叉嫡损失函数与三元组损失函数联合对网图像的分割，利用MSCAN网络提取局部特征，并络的训练过程进行约束，在训练过程中，使用网络将提取的全局特征与局部特征向量进行融合层最后输出的特征向量进行三元组损失函数的计 Kalayeh等sI提出了一种SPReID架构，为了避免算，之后连接全连接层进行交叉嫡损失函数的计背景信息的干扰，使用语义分割方法替换常用的算，在这一过程中，由于2种损失函数的收敛方向检测方法来确定目标区域，从而进行局部特征的不同，在训练过程中会产生一定冲突.Luo等啊提提取.Xu等9利用多任务金字塔重叠匹配的方出BNneck分类器，在最后一个网络层与全连接层法，将全局信息与多尺度的局部信息进行融合，并之间插人一个批次正则化层，从而实现两种损失结合各分块的边缘信息，提升了网络的识别性能函数的解耦，统一网络训练的收敛方向，使网络模 Zhu等so提出一种ISP(Identity-guided humansemantic 型的性能得到有效提升 parsing)模型，通过人体语义解析的方法，仅通过评价与总结：利用度量学习对卷积神经网络人的身份标签，进行人体部位的定位与像素级别提取的特征向量进行处理，从而得到行人重识别的分类的结果.对照损失注重图像对之间的联系，但是在 Image crop Feature capture Feature fusion 类别较多的问题中，又会损失类间的相互关系.三元组损失函数则通过拉近类内图像距离、扩大类 Feature map 间距离的方法，使行人重识别的性能得到有效提升.它的问题在于类内距离与类间距离没有一个明确的阈值，导致类内距离有时会大于类间距离图4采取固定分块方式的局部特征提取方法针对这个问题，学者们提出改进的三元组损失函 Fig.Local feature extraction method based on fixed blocks 数以及四元组损失函数，对图像对距离加以约束，些学者引入注意力机制进行局部特征的提从而取得了识别精度的提升取.Zhao等s提出一种方法，没有使用固定的区 3基于深度学习的行人重识别方法域分割方法，而是在注意力机制的启发下，在网络中根据不同权值分为了K个分支，用于提取不同 3.1基于局部特征的行人重识别方法区域的特征，解决了关键点未对齐的问题.董亚超在行人重识别的研究中，针对行人遮挡与部等四利用注意力机制提取注意力特征图，并与卷位不对齐等问题，学者们通过提取局部特征来代积神经网络提取的全局特征进行融合，之后将特替全局特征，提出了固定分块、基于注意力机制以征图进行切块，相邻块之间进行协作式融合，保持及其他融合局部特征的方法，对这些固有问题进了特征块之间的联系.Wang等s]提取一种有效行研究与探讨.下面对基于局部特征的行人重识地解决遮挡问题的行人重识别方法，将图像的局别方法的研究进展进行总结与讨论部特征作为图的节点，通过一种自适应方向的图早期的一些方法，将图像按照预设的划分方卷积(ADGC)来聚合节点间的信息式进行划分，但当使用从不同角度拍摄的数据时，此外，Yang等I使用LSTM(Long short--term 固定的分割方式并不能很好地将图像中身体各部 memory)对局部特征进行融合，有效地改善了位分开，图像间对应区域包含的部位也不能很好遮挡问题.Varior等s阿在孪生卷积神经网络的中地对应.Sun等I使用PCB(Part-based convolutional 间层加入了匹配门(Matching gate)机制，通过对比 baseline)方法，如图4所示，在提取特征的过程中，图像对在卷积中间层的特征，有选择地增强局部将特征图分为多个水平特征块后进行池化操作，细节，提升了网络的判别能力.杨婉香等57提出再通过小尺寸卷积核进行特征降维生成多个特征了一种多尺度生成对抗网络，使用低分辨率图像向量输入到分类器中，进行D的区分.同时为了作为输入重构高分辨率的行人图像，有效融合不解决在划分过程中伴随的部位不一致问题，提出同尺度的图像细节信息，提升了行人图像去遮挡了改良的局部池化方法，进一步地提升了PCB的的性能，表4给出了不同方法在多个数据集上的

Lqua = max(dIa,Ip −dIa,In +margin1,0)+ max(dIa,Ip −dIn,In2 +margin2 ,0) （3）现有的行人重识别方法在训练过程中，广泛使用交叉熵损失函数与三元组损失函数联合对网络的训练过程进行约束，在训练过程中，使用网络层最后输出的特征向量进行三元组损失函数的计算，之后连接全连接层进行交叉熵损失函数的计算，在这一过程中，由于 2 种损失函数的收敛方向不同，在训练过程中会产生一定冲突. Luo 等[45] 提出 BNneck 分类器，在最后一个网络层与全连接层之间插入一个批次正则化层，从而实现两种损失函数的解耦，统一网络训练的收敛方向，使网络模型的性能得到有效提升. 评价与总结：利用度量学习对卷积神经网络提取的特征向量进行处理，从而得到行人重识别的结果. 对照损失注重图像对之间的联系，但是在类别较多的问题中，又会损失类间的相互关系. 三元组损失函数则通过拉近类内图像距离、扩大类间距离的方法，使行人重识别的性能得到有效提升. 它的问题在于类内距离与类间距离没有一个明确的阈值，导致类内距离有时会大于类间距离. 针对这个问题，学者们提出改进的三元组损失函数以及四元组损失函数，对图像对距离加以约束，从而取得了识别精度的提升. 3 基于深度学习的行人重识别方法 3.1 基于局部特征的行人重识别方法在行人重识别的研究中，针对行人遮挡与部位不对齐等问题，学者们通过提取局部特征来代替全局特征，提出了固定分块、基于注意力机制以及其他融合局部特征的方法，对这些固有问题进行研究与探讨. 下面对基于局部特征的行人重识别方法的研究进展进行总结与讨论. 早期的一些方法，将图像按照预设的划分方式进行划分，但当使用从不同角度拍摄的数据时，固定的分割方式并不能很好地将图像中身体各部位分开，图像间对应区域包含的部位也不能很好地对应. Sun 等[46] 使用 PCB（Part-based convolutional baseline）方法，如图 4 所示，在提取特征的过程中，将特征图分为多个水平特征块后进行池化操作，再通过小尺寸卷积核进行特征降维生成多个特征向量输入到分类器中，进行 ID 的区分. 同时为了解决在划分过程中伴随的部位不一致问题，提出了改良的局部池化方法，进一步地提升了 PCB 的性能. Li 等[47] 提出 MSCAN，利用空洞卷积完成多个尺度下的特征提取，充分利用了图像的上下文信息. 引入 STN（Spatial transformer networks）用于图像的分割，利用 MSCAN 网络提取局部特征，并将提取的全局特征与局部特征向量进行融合. Kalayeh 等[48] 提出了一种 SPReID 架构，为了避免背景信息的干扰，使用语义分割方法替换常用的检测方法来确定目标区域，从而进行局部特征的提取. Xu 等[49] 利用多任务金字塔重叠匹配的方法，将全局信息与多尺度的局部信息进行融合，并结合各分块的边缘信息，提升了网络的识别性能. Zhu 等[50] 提出一种ISP（Identity-guided human semantic parsing）模型，通过人体语义解析的方法，仅通过人的身份标签，进行人体部位的定位与像素级别的分类. Image crop Feature capture Feature fusion Feature map 图 4 采取固定分块方式的局部特征提取方法[46] Fig.4 Local feature extraction method based on fixed blocks[46] 一些学者引入注意力机制进行局部特征的提取. Zhao 等[51] 提出一种方法，没有使用固定的区域分割方法，而是在注意力机制的启发下，在网络中根据不同权值分为了 K 个分支，用于提取不同区域的特征，解决了关键点未对齐的问题. 董亚超等[52] 利用注意力机制提取注意力特征图，并与卷积神经网络提取的全局特征进行融合，之后将特征图进行切块，相邻块之间进行协作式融合，保持了特征块之间的联系. Wang 等[53] 提取一种有效地解决遮挡问题的行人重识别方法，将图像的局部特征作为图的节点，通过一种自适应方向的图卷积（ADGC）来聚合节点间的信息. 此外， Yang 等 [54] 使用 LSTM（ Long short-term memory） [55] 对局部特征进行融合，有效地改善了遮挡问题. Varior 等[56] 在孪生卷积神经网络的中间层加入了匹配门（Matching gate）机制，通过对比图像对在卷积中间层的特征，有选择地增强局部细节，提升了网络的判别能力. 杨婉香等[57] 提出了一种多尺度生成对抗网络，使用低分辨率图像作为输入重构高分辨率的行人图像，有效融合不同尺度的图像细节信息，提升了行人图像去遮挡的性能，表 4 给出了不同方法在多个数据集上的 · 6 · 工程科学学报，第 44 卷，第 X 期

李擎等：基于深度学习的行人重识别方法综述 7 精度表现，其中PCB方法的识别精度测试于按照据扩充提供了新思路.在这个方法的基础上，Zhong 新版协议划分的CUHKO3数据集. 等6o使用CycleGAN!对数据集进行训练，对不同摄像机拍下的图像数据进行迁移，生成一个行表4基于局部特征的行人重识别方法的性能表现 Table 4 Performance of person re-identification method based on local 人在不同摄像机风格下的新图像，保留了行人的 feature 标签信息.同时文章对前文提出的LSRO进行了 Market-1501 DukeMTMC-relD CUHK03 推广，提出了一种LSR(Label smoothing regularization) Methods Year- Rank-1 mAP Rank-1 mAP Rank-1mAP 方法，减轻了生成数据噪声对模型训练的影响 PCB+RPPI6I 201893.881.683.3 69.2 63.757.5 Deng等6将CycleGAN与孪生网络结合，提出了 SPRelD+re-ranking!201894.6 90.9 88.9 84.9 一种图像在数据集之间迁移的方法，在将图像由 RNLSTM 54 201990.376.4 77.0 62.1 86.183.6 原数据集向目标数据集迁移的过程中，保留了图 mGD+RNLSTMA2020 91.3 77.9 80.8 63.9 88.084.2 像的标签信息.Wei等提出PTGAN,完成了行人 SMC-ReID41202095.393.0 图像在不同数据集之间的风格迁移，并提出了 HORelDl531 202094.284.986.9 75.6 MSMTI7数据集.Li等Is提出了一种ReadNet用 ISPlsol 202095.388.689.680.0 于解决数据不平衡问题.Zhai等6提出增广判别聚类方法实现了数据的迁移.Zhang等I6根据源评价与总结：为了解决行人图像的遮挡问题，域图像与目标与图像的语义一致性，基于弱标注学者们提出了基于局部特征的方法.提取局部特的源域行人图像，将源域图像的语义信息迁移到征可以使网络更加关注图像的细节信息.但由于目标域上，增强了跨域的行人重识别特征表达能固定的分块方式，并不能解决部位不对齐问题，因力.Liu等6提出UnityGAN,学习不同摄像机之此学者们引入了注意力机制增强重要部位的显著间的背景风格差异，并生成基于这些背景风格差性，能够实现部位对齐.对于行人重识别中存在的异的平均风格图像，提升了行人重识别模型对于遮挡与部位不对齐问题，基于注意力机制是目前相机背景风格的泛化能力.表5给出了部分基于主流的方法，也是未来的研究热点生成对抗网络的行人重识别方法的性能表现 3.2基于生成对抗网络的行人重识别方法表5基于生成对抗网络的行人重识别方法的性能表现在行人重识别任务的研究中，对于训练数据 Table 5 Performance of person re-identification method based on GAN 的处理具有较高的要求，首先需要对从监控系统 Market-1501 DukeMTMC CUHK03 中采集的图像进行切割，得到行人的切片图像.之 Methods Year Rank-1 mAP Rank-1 mAP Rank-1 mAP 后还要对图像进行标注，标明行人D以及图像采 DCGAN+LSRO 2017 一 84.687.4 集时间、摄像头编号等信息.所以，行人重识别的 DE+CamStyle+RE6201889.571.678.358.6 一些主流数据集，训练数据都相对较少，在数据集 Pose-Transfer 201887.768.9 78.556.9 45.142.0 Market--1501上，平均每一个行人类别只有17.2张图 PNGANI67I 201889.472.673.653.279.8- 像，CUHK03数据集平均为9.6张，DukeMTMC-reID PCB+UnityGAN%202095.893.689.396.2 数据集平均为23.5张.由于数据集之间背景差异较 st-ReID+UnityGANI202098.595.895.193.6 大，导致模型的泛化能力较差.针对这些问题，学者们利用生成对抗网络(Generative adversarial networks,, 为了解决数据集之间姿态的差异，利用生成 GAN)S,来进行数据集的扩充，从而加强行人重对抗网络进行姿态的迁移，成为了行人重识别数识别模型的泛化能力据集扩充的重要方向.一些优秀的神经网络模型 Zheng等间首次将生成对抗网络用于行人重可以在一定程度上弥补数据集中行人姿态较少的识别的问题上来，他们使用行人重识别数据集对缺点，但是扩充姿态多样性的数据仍然是提升模 DCGAN!9进行训练，输入随机向量生成新的行人型性能的关键.Liu等68提出了一种姿态迁移的图像，对数据集进行了有效扩充，同时提出一种标方法，选择姿态丰富的数据集，利用姿态检测算法6侧签平滑正则化(Label Smoothing Regularization for 提取图像中行人的姿态信息，并使用RGB图像进 Outliers.LSRO)的方法，进行半监督学习.作为生行表征，将姿态信息与待迁移数据集中的行人图成对抗网络在行人重识别领域的首次应用，该方像作为输入数据，训练CGAN四生成新的行人图法在精度上取得了小幅提升，为行人重识别的数像，完成姿态信息的迁移.同时提出了一种指导模

精度表现，其中 PCB 方法的识别精度测试于按照新版协议划分的 CUHK03 数据集. 表 4 基于局部特征的行人重识别方法的性能表现 Table 4 Performance of person re-identification method based on local feature Methods Year Market-1501 DukeMTMC-reID CUHK03 Rank-1 mAP Rank-1 mAP Rank-1mAP PCB+RPP[46] 2018 93.8 81.6 83.3 69.2 63.7 57.5 SPReID+re-ranking[48] 2018 94.6 90.9 88.9 84.9 — — RNLSTMA [54] 2019 90.3 76.4 77.0 62.1 86.1 83.6 mGD+ RNLSTMA [56] 2020 91.3 77.9 80.8 63.9 88.0 84.2 SMC-ReID[49] 2020 95.3 93.0 — — — — HOReID[53] 2020 94.2 84.9 86.9 75.6 — — ISP[50] 2020 95.3 88.6 89.6 80.0 — — 评价与总结：为了解决行人图像的遮挡问题，学者们提出了基于局部特征的方法. 提取局部特征可以使网络更加关注图像的细节信息. 但由于固定的分块方式，并不能解决部位不对齐问题，因此学者们引入了注意力机制增强重要部位的显著性，能够实现部位对齐. 对于行人重识别中存在的遮挡与部位不对齐问题，基于注意力机制是目前主流的方法，也是未来的研究热点. 3.2 基于生成对抗网络的行人重识别方法在行人重识别任务的研究中，对于训练数据的处理具有较高的要求，首先需要对从监控系统中采集的图像进行切割，得到行人的切片图像. 之后还要对图像进行标注，标明行人 ID 以及图像采集时间、摄像头编号等信息. 所以，行人重识别的一些主流数据集，训练数据都相对较少，在数据集 Market-1501 上，平均每一个行人类别只有 17.2 张图像，CUHK03 数据集平均为 9.6 张，DukeMTMC-reID 数据集平均为 23.5 张. 由于数据集之间背景差异较大，导致模型的泛化能力较差. 针对这些问题，学者们利用生成对抗网络（Generative adversarial networks, GAN） [58] ，来进行数据集的扩充，从而加强行人重识别模型的泛化能力. Zheng 等[5] 首次将生成对抗网络用于行人重识别的问题上来，他们使用行人重识别数据集对 DCGAN[59] 进行训练，输入随机向量生成新的行人图像，对数据集进行了有效扩充，同时提出一种标签平滑正则化（ Label Smoothing Regularization for Outliers, LSRO）的方法，进行半监督学习. 作为生成对抗网络在行人重识别领域的首次应用，该方法在精度上取得了小幅提升，为行人重识别的数据扩充提供了新思路. 在这个方法的基础上，Zhong 等[60] 使用 CycleGAN[61] 对数据集进行训练，对不同摄像机拍下的图像数据进行迁移，生成一个行人在不同摄像机风格下的新图像，保留了行人的标签信息. 同时文章对前文提出的 LSRO 进行了推广，提出了一种 LSR (Label smoothing regularization) 方法，减轻了生成数据噪声对模型训练的影响. Deng 等[62] 将 CycleGAN 与孪生网络结合，提出了一种图像在数据集之间迁移的方法，在将图像由原数据集向目标数据集迁移的过程中，保留了图像的标签信息. Wei 等[9] 提出 PTGAN，完成了行人图像在不同数据集之间的风格迁移，并提出了 MSMT17 数据集. Li 等[63] 提出了一种 ReadNet 用于解决数据不平衡问题. Zhai 等[64] 提出増广判别聚类方法实现了数据的迁移. Zhang 等[65] 根据源域图像与目标与图像的语义一致性，基于弱标注的源域行人图像，将源域图像的语义信息迁移到目标域上，增强了跨域的行人重识别特征表达能力. Liu 等[66] 提出 UnityGAN，学习不同摄像机之间的背景风格差异，并生成基于这些背景风格差异的平均风格图像，提升了行人重识别模型对于相机背景风格的泛化能力. 表 5 给出了部分基于生成对抗网络的行人重识别方法的性能表现. 表 5 基于生成对抗网络的行人重识别方法的性能表现 Table 5 Performance of person re-identification method based on GAN Methods Year Market-1501 DukeMTMC CUHK03 Rank-1 mAP Rank-1 mAP Rank-1 mAP DCGAN+LSRO[59] 2017 — — — — 84.6 87.4 IDE+CamStyle+RE[62] 2018 89.5 71.6 78.3 58.6 — — Pose-Transfer[9] 2018 87.7 68.9 78.5 56.9 45.1 42.0 PNGAN[67] 2018 89.4 72.6 73.6 53.2 79.8 — PCB+UnityGAN[66] 2020 95.8 93.6 89.3 96.2 — — st-ReID+UnityGAN[66] 2020 98.5 95.8 95.1 93.6 — — 为了解决数据集之间姿态的差异，利用生成对抗网络进行姿态的迁移，成为了行人重识别数据集扩充的重要方向. 一些优秀的神经网络模型可以在一定程度上弥补数据集中行人姿态较少的缺点，但是扩充姿态多样性的数据仍然是提升模型性能的关键. Liu 等[68] 提出了一种姿态迁移的方法，选择姿态丰富的数据集，利用姿态检测算法[69] 提取图像中行人的姿态信息，并使用 RGB 图像进行表征，将姿态信息与待迁移数据集中的行人图像作为输入数据，训练 CGAN[70] 生成新的行人图像，完成姿态信息的迁移. 同时提出了一种指导模李擎等：基于深度学习的行人重识别方法综述 · 7 ·

工程科学学报，第44卷，第X期型，对生成的行人图像进行选择，之后使用LS9 图像数据在时序信息上的缺失使得精度达到了瓶方法对生成数据进行标注，完成了对数据集的扩颈，这就引发了基于视频的行人重识别的研究热潮. 充.Qian等66提出一种一般性的生成对抗网络模 3.3基于视频的行人重识别方法型PNGAN,预设8种行人姿势，以一张原始图像基于图像的行人重识别方法虽然在大部分数为基准，利用生成对抗网络生成八张预设姿态的据集上取得了较好的效果，但是由于数据集较小，图像，将原始数据集扩大了8倍，姿态的多样性与导致基于单帧图像的行人重识别方法没有很好的统一性使网络有能力学习一些更具判别力的特泛化能力.同时，单帧图像很难获得行人的动作以征，该方法使行人重识别模型的泛化能力得到了及姿态变化等信息，导致当行人被遮挡或者光线有效地提升，不再需要重新训练就可以进行跨数变化较大时，模型的判别能力大大下降.针对这些据集的应用问题，学者们提出了基于视频的行人重识别方法，评价与总结：为了扩充数据集与实现数据集的在提取单帧特征的基础上，能有效地考虑到帧间域适应，学者们引入了生成对抗网络.但是，生成关系.基于视频的行人重识别方法主要由3个部对抗网络产生了大量未标注的数据，因此需要结分组成：单帧图像特征提取、视频序列时序特征提合半监督学习方法进行训练.以上方法的应用使取以及度量学习，表6给出了部分基于视频的行基于图像的行人重识别方法的精度达到了峰值，但人重识别方法的性能表现表6基于视频的的行人重识别方法的性能表现 Table 6 Performance of video-based person re-identification method Rank-1 MARS DukeMTMC VideoRelDlsI Methods Year PRID2011 iLIDS-VIDI Rank-1 mAP Rank-1 mAP CNN+RNN+Temporal Poolingmm 2016 70.0 58.0 Deep RCNI+KISSME 2016 69.0 46.1 RFA-Nett8o 2016 58.2 49.3 SCAN+ResNet501811 2018 92.0 81.3 86.6 76.7 ResNet3D-50+Non-Local 2018 91.2 81.3 84.3 77.0 Spatial Attention+Temporal Attentionl 2018 93.2 80.2 82.3 65.8 AP3D两 2020 、 86.7 90.1 85.1 96.3 95.6 STCNetl86 2020 一 83.4 88.5 82.3 95.0 93.5 MGH8] 2020 94.8 85.6 90.0 85.8 对于单帧图像的特征提取与损失函数，学者对网络进行了修改，使用GRU模块四代替LSTM 仍然沿用基于图像的行人重识别领域的方法-) 模块，在效果基本不变的情况下，降低了参数量基于视频的行人重识别方法的重点在于对时序信上述方法中，都采用了平均池化层用于时序息的处理，目前最为广泛应用的方法是递归神经信息的融合，这种方法的优点在于每一时刻的信 (Recurrent neural network,RNN)1761.McLaughlin 息都占有相同的比重.但针对行人重识别，一段视等m提出了一种基于CNN与RNN的行人重识别频中只有行人出现的段落具有特征提取的价值，方法，如图5所示，基于孪生网络，网络以视频对同时，某一异常值会对结果造成影响.针对这一问作为输入，首先通过CNN提取视频里每一帧图像题，Yan等s提出RFA-net,提取单帧图像的特征，的特征，按照时间顺序送入RNN中.之后，RNN 表示行人外观信息，使用LSTM提取图像序列特结合时序信息得到特征向量序列.最后，为了避免征，表示行人动态信息.融合外观信息与动态信息，对前一时刻信息的过度依赖，加入了时序池化层，获得更好的识别精度.Zhang等8提出了一种SCAN 对所有时间的信息进行聚合，得到视频序列的特行人重识别架构，利用无参数注意力机制，在视频征向量.该方法的优点在于可以使用任意长度的序列中选取具有辨别力的关键帧，并最终通过计视频序列作为输入，同时使得每一时刻的信息都算视频对的相似度得出识别结果.Liao等2]将能占有一定的比重.在这个方法的基础上，Wu等 3D卷积应用到行人重识别领域进行视频特征的

型，对生成的行人图像进行选择，之后使用 LSR[59] 方法对生成数据进行标注，完成了对数据集的扩充. Qian 等[66] 提出一种一般性的生成对抗网络模型 PNGAN，预设 8 种行人姿势，以一张原始图像为基准，利用生成对抗网络生成八张预设姿态的图像，将原始数据集扩大了 8 倍，姿态的多样性与统一性使网络有能力学习一些更具判别力的特征，该方法使行人重识别模型的泛化能力得到了有效地提升，不再需要重新训练就可以进行跨数据集的应用. 评价与总结：为了扩充数据集与实现数据集的域适应，学者们引入了生成对抗网络. 但是，生成对抗网络产生了大量未标注的数据，因此需要结合半监督学习方法进行训练. 以上方法的应用使基于图像的行人重识别方法的精度达到了峰值，但图像数据在时序信息上的缺失使得精度达到了瓶颈，这就引发了基于视频的行人重识别的研究热潮. 3.3 基于视频的行人重识别方法基于图像的行人重识别方法虽然在大部分数据集上取得了较好的效果，但是由于数据集较小，导致基于单帧图像的行人重识别方法没有很好的泛化能力. 同时，单帧图像很难获得行人的动作以及姿态变化等信息，导致当行人被遮挡或者光线变化较大时，模型的判别能力大大下降. 针对这些问题，学者们提出了基于视频的行人重识别方法，在提取单帧特征的基础上，能有效地考虑到帧间关系. 基于视频的行人重识别方法主要由 3 个部分组成：单帧图像特征提取、视频序列时序特征提取以及度量学习，表 6 给出了部分基于视频的行人重识别方法的性能表现. 表 6 基于视频的的行人重识别方法的性能表现 Table 6 Performance of video-based person re-identification method Methods Year Rank-1 MARS DukeMTMC VideoReID[15] PRID2011[7] iLIDS-VID[8] Rank-1 mAP Rank-1 mAP CNN+RNN+Temporal Pooling[77] 2016 70.0 58.0 — — Deep RCN[78]+KISSME 2016 69.0 46.1 RFA-Net[80] 2016 58.2 49.3 SCAN+ResNet50[81] 2018 92.0 81.3 86.6 76.7 ResNet3D-50+Non-Local[82] 2018 91.2 81.3 84.3 77.0 Spatial Attention+Temporal Attention[83] 2018 93.2 80.2 82.3 65.8 AP3D[84] 2020 — 86.7 90.1 85.1 96.3 95.6 STCNet[86] 2020 — 83.4 88.5 82.3 95.0 93.5 MGH[88] 2020 94.8 85.6 90.0 85.8 对于单帧图像的特征提取与损失函数，学者仍然沿用基于图像的行人重识别领域的方法[71−75] ，基于视频的行人重识别方法的重点在于对时序信息的处理，目前最为广泛应用的方法是递归神经网络（Recurrent neural network，RNN)[76] . McLaughlin 等[77] 提出了一种基于 CNN 与 RNN 的行人重识别方法，如图 5 所示，基于孪生网络，网络以视频对作为输入，首先通过 CNN 提取视频里每一帧图像的特征，按照时间顺序送入 RNN 中. 之后，RNN 结合时序信息得到特征向量序列. 最后，为了避免对前一时刻信息的过度依赖，加入了时序池化层，对所有时间的信息进行聚合，得到视频序列的特征向量. 该方法的优点在于可以使用任意长度的视频序列作为输入，同时使得每一时刻的信息都能占有一定的比重. 在这个方法的基础上，Wu 等[78] 对网络进行了修改，使用 GRU 模块[79] 代替 LSTM 模块，在效果基本不变的情况下，降低了参数量. 上述方法中，都采用了平均池化层用于时序信息的融合，这种方法的优点在于每一时刻的信息都占有相同的比重. 但针对行人重识别，一段视频中只有行人出现的段落具有特征提取的价值，同时，某一异常值会对结果造成影响. 针对这一问题，Yan 等[80] 提出 RFA-net，提取单帧图像的特征，表示行人外观信息，使用 LSTM 提取图像序列特征，表示行人动态信息. 融合外观信息与动态信息，获得更好的识别精度. Zhang 等[81] 提出了一种 SCAN 行人重识别架构，利用无参数注意力机制，在视频序列中选取具有辨别力的关键帧，并最终通过计算视频对的相似度得出识别结果. Liao 等[82] 将 3D 卷积应用到行人重识别领域进行视频特征的 · 8 · 工程科学学报，第 44 卷，第 X 期

李擎等：基于深度学习的行人重识别方法综述 9 Classfication loss Contrast loss Classfication loss MG-RAFA)用于空间信息与时序信息的融合.Liu 等o为了抑制背景信息的干扰，提出了CSTNet, Feature map Feature map 捕获视频帧之间常见的突出前景区域，并从这些区域探索了时空长程文本的相互依赖关系，以学 Temporal pooling Temporal pooling 习更具判别力的行人特征 RNN RNN RNN RNN RNN RNN 评价与总结：与图像数据相比，视频数据具有较强的时序信息，所以如何将这些时序信息进行 CNN CNN CNN CNN CNN CNN 融合是基于视频的重识别问题的重要研究方向现有的方法主要包括利用RNN结合平均池化进行时序信息的融合，以及利用3D卷积的方法进行图5视颜帧序列的时序信息融合方法可融合.学者们在此基础上对细节部分加以创新，使 Fig.5 Temporal information fusion of video frames sequencel 得识别精度不断提升.基于视频的行人重识别方提取，并使用非局部块(Non-local blocks)来解决部法更加接近实际应用，需要大量的数据标注工作，位失调问题.并捕获时空远程依赖关系.表6给出同时模型的参数量与计算量较大，因此结合半监了部分基于视频的行人重识别方法的性能表现. 督学习与无监督学习方法以及对网络轻量化的研以上对单帧特征融合的几种方法进行了介绍究会成为今后的热点研究方向在基于视频的行人重识别中，主要存在的问题有 3.4基于重排序的行人重识别行人姿态失调与遮挡、视频数据冗余信息过多等除了对于表征学习与度量学习的探索，近年为了解决视频序列中存在的遮挡问题以及部位不来，一些研究学者将主要精力集中于对行人重识对齐问题，Li等在行人重识别的模型中引入注别结果排序的优化上，即结果重排序(Re-ranking) 意力机制，在连续的图像序列中，某一帧的信息并一般情况下，给定一张目标图像，通过提取图像特不会影响全局的信息，所以使用限定随机抽样法征并计算目标图像与待匹配图像(Gallary)的距在视频序列中提取部分数据作为网络的输入，提离，得到匹配图像的排序结果，根据该结果计算取图像特征后，应用空间注意力模型自动发现突 Rank-n Accuracy,并绘制CMC曲线.重排序就是出的图像区域.这种方法很好地解决了遮挡问题，利用相关方法，对当前的排序结果进行优化，从而同时有效提取了行人的一些非常规特征，使得网提升行人重识别的精度络的辨别力得到显著提升.针对3D卷积在行人部在图像检索领域，Shen使用K最近邻算法位不对齐时，存在的特征抓取性能不佳的问题，Gu (k-Nearest Neighbor,.KNN)对模型输出排序结果进等剧提出一种AP3D方法，在卷积层之前，通过像行二次优化.在行人重识别领域，Li等四率先提素级的特征对齐，解决由于行人部位失调带来的出了利用最近邻算法对行人重识别的排序结果进问题.Feng等提出一种门控机制，判断哪些区行优化的方法.YeI等提出了一种基于KNN的域有助于人的重新识别，让这些区域通过门，不相排序聚合方法，分别提取图像的全局特征与局部关的背景区域被门过滤掉.Hou等s%提出STCnet, 特征，分别根据两者得到结果的排序，通过对2种利用时空补全网络，基于未被遮挡的部分精确地特征的结合，利用最近邻算法对排序结果进行优恢复遮挡部分的信息，增强了网络的鲁棒性，为解化.Zhong等利用K最近邻互编码(k--reciprocal 决行人重识别中的遮挡问题提供了新的思路， encoding)的方法对识别结果进行重排序，使用该 Gao等87提出了一种姿态匹配方法用于学习局部编码方法，对匹配图像与目标图像在特征空间内特征，并判别该部分是否被遮挡.Yan等s1提出一求取最近邻，利用该距离并联合度量学习中的图种多粒度超图网络框架，在空间角度，通过不同细像特征距离，对匹配图像进行重排序，从而提升行粒度的图像分割，获取不同尺度的信息；时序角人重识别的精度.Wang9等提出一种在线优化排度，则通过连接不同视频帧的相同部位构建超图，序结果的方法，即人体验证在线机机器学习实现时序信息的捕捉 (Human verification incremental learning,HVIL), 对于视频数据的过多冗余信息，Zhang等[89提预设的周期内，人工地从排序结果中找出正确匹出多细粒度参考辅助注意力特征聚合方法(Muti- 配，并给出Rank-l结果的相似度(True match/similar/ granularity reference-aided attentive feature aggregation, dissimilar),根据以上结果进行误差计算并更新网

提取，并使用非局部块（Non-local blocks）来解决部位失调问题，并捕获时空远程依赖关系. 表 6 给出了部分基于视频的行人重识别方法的性能表现. 以上对单帧特征融合的几种方法进行了介绍. 在基于视频的行人重识别中，主要存在的问题有行人姿态失调与遮挡、视频数据冗余信息过多等. 为了解决视频序列中存在的遮挡问题以及部位不对齐问题，Li 等[83] 在行人重识别的模型中引入注意力机制，在连续的图像序列中，某一帧的信息并不会影响全局的信息，所以使用限定随机抽样法在视频序列中提取部分数据作为网络的输入，提取图像特征后，应用空间注意力模型自动发现突出的图像区域. 这种方法很好地解决了遮挡问题，同时有效提取了行人的一些非常规特征，使得网络的辨别力得到显著提升. 针对 3D 卷积在行人部位不对齐时，存在的特征抓取性能不佳的问题，Gu 等[84] 提出一种 AP3D 方法，在卷积层之前，通过像素级的特征对齐，解决由于行人部位失调带来的问题. Feng 等[85] 提出一种门控机制，判断哪些区域有助于人的重新识别，让这些区域通过门，不相关的背景区域被门过滤掉. Hou 等[86] 提出 STCnet，利用时空补全网络，基于未被遮挡的部分精确地恢复遮挡部分的信息，增强了网络的鲁棒性，为解决行人重识别中的遮挡问题提供了新的思路. Gao 等[87] 提出了一种姿态匹配方法用于学习局部特征，并判别该部分是否被遮挡. Yan 等[88] 提出一种多粒度超图网络框架，在空间角度，通过不同细粒度的图像分割，获取不同尺度的信息；时序角度，则通过连接不同视频帧的相同部位构建超图，实现时序信息的捕捉. 对于视频数据的过多冗余信息，Zhang 等[89] 提出多细粒度参考辅助注意力特征聚合方法（Multigranularity reference-aided attentive feature aggregation, MG-RAFA）用于空间信息与时序信息的融合. Liu 等[90] 为了抑制背景信息的干扰，提出了 CSTNet，捕获视频帧之间常见的突出前景区域，并从这些区域探索了时空长程文本的相互依赖关系，以学习更具判别力的行人特征. 评价与总结：与图像数据相比，视频数据具有较强的时序信息，所以如何将这些时序信息进行融合是基于视频的重识别问题的重要研究方向. 现有的方法主要包括利用 RNN 结合平均池化进行时序信息的融合，以及利用 3D 卷积的方法进行融合. 学者们在此基础上对细节部分加以创新，使得识别精度不断提升. 基于视频的行人重识别方法更加接近实际应用，需要大量的数据标注工作，同时模型的参数量与计算量较大，因此结合半监督学习与无监督学习方法以及对网络轻量化的研究会成为今后的热点研究方向. 3.4 基于重排序的行人重识别除了对于表征学习与度量学习的探索，近年来，一些研究学者将主要精力集中于对行人重识别结果排序的优化上，即结果重排序（Re-ranking）. 一般情况下，给定一张目标图像，通过提取图像特征并计算目标图像与待匹配图像（Gallary）的距离，得到匹配图像的排序结果，根据该结果计算 Rank-n Accuracy，并绘制 CMC 曲线. 重排序就是利用相关方法，对当前的排序结果进行优化，从而提升行人重识别的精度. 在图像检索领域，Shen[91] 使用 K 最近邻算法（k-Nearest Neighbor，KNN）对模型输出排序结果进行二次优化. 在行人重识别领域，Li 等[92] 率先提出了利用最近邻算法对行人重识别的排序结果进行优化的方法. Ye[93] 等提出了一种基于 KNN 的排序聚合方法，分别提取图像的全局特征与局部特征，分别根据两者得到结果的排序，通过对 2 种特征的结合，利用最近邻算法对排序结果进行优化. Zhong[6] 等利用 K 最近邻互编码（ k-reciprocal encoding）的方法对识别结果进行重排序，使用该编码方法，对匹配图像与目标图像在特征空间内求取最近邻，利用该距离并联合度量学习中的图像特征距离，对匹配图像进行重排序，从而提升行人重识别的精度. Wang[94] 等提出一种在线优化排序结果的方法，即人体验证在线机机器学习（Human verification incremental learning，HVIL），在预设的周期内，人工地从排序结果中找出正确匹配，并给出 Rank-1 结果的相似度（True match/similar/ dissimilar），根据以上结果进行误差计算并更新网 Classfication loss Contrast loss Temporal pooling Feature map Classfication loss CNN RNN CNN RNN CNN RNN CNN RNN CNN RNN CNN RNN Temporal pooling Feature map 图 5 视频帧序列的时序信息融合方法[77] Fig.5 Temporal information fusion of video frames sequence[77] 李擎等：基于深度学习的行人重识别方法综述 · 9 ·

点击下载完整版文档（PDF格式）

共14页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录