正在加载图片...
工程科学学报,第44卷,第X期 型,对生成的行人图像进行选择,之后使用LS9 图像数据在时序信息上的缺失使得精度达到了瓶 方法对生成数据进行标注,完成了对数据集的扩 颈,这就引发了基于视频的行人重识别的研究热潮. 充.Qian等66提出一种一般性的生成对抗网络模 3.3基于视频的行人重识别方法 型PNGAN,预设8种行人姿势,以一张原始图像 基于图像的行人重识别方法虽然在大部分数 为基准,利用生成对抗网络生成八张预设姿态的 据集上取得了较好的效果,但是由于数据集较小, 图像,将原始数据集扩大了8倍,姿态的多样性与 导致基于单帧图像的行人重识别方法没有很好的 统一性使网络有能力学习一些更具判别力的特 泛化能力.同时,单帧图像很难获得行人的动作以 征,该方法使行人重识别模型的泛化能力得到了 及姿态变化等信息,导致当行人被遮挡或者光线 有效地提升,不再需要重新训练就可以进行跨数 变化较大时,模型的判别能力大大下降.针对这些 据集的应用 问题,学者们提出了基于视频的行人重识别方法, 评价与总结:为了扩充数据集与实现数据集的 在提取单帧特征的基础上,能有效地考虑到帧间 域适应,学者们引入了生成对抗网络.但是,生成 关系.基于视频的行人重识别方法主要由3个部 对抗网络产生了大量未标注的数据,因此需要结 分组成:单帧图像特征提取、视频序列时序特征提 合半监督学习方法进行训练.以上方法的应用使 取以及度量学习,表6给出了部分基于视频的行 基于图像的行人重识别方法的精度达到了峰值,但 人重识别方法的性能表现 表6基于视频的的行人重识别方法的性能表现 Table 6 Performance of video-based person re-identification method Rank-1 MARS DukeMTMC VideoRelDlsI Methods Year PRID2011 iLIDS-VIDI Rank-1 mAP Rank-1 mAP CNN+RNN+Temporal Poolingmm 2016 70.0 58.0 Deep RCNI+KISSME 2016 69.0 46.1 RFA-Nett8o 2016 58.2 49.3 SCAN+ResNet501811 2018 92.0 81.3 86.6 76.7 ResNet3D-50+Non-Local 2018 91.2 81.3 84.3 77.0 Spatial Attention+Temporal Attentionl 2018 93.2 80.2 82.3 65.8 AP3D两 2020 、 86.7 90.1 85.1 96.3 95.6 STCNetl86 2020 一 83.4 88.5 82.3 95.0 93.5 MGH8] 2020 94.8 85.6 90.0 85.8 对于单帧图像的特征提取与损失函数,学者 对网络进行了修改,使用GRU模块四代替LSTM 仍然沿用基于图像的行人重识别领域的方法-) 模块,在效果基本不变的情况下,降低了参数量 基于视频的行人重识别方法的重点在于对时序信 上述方法中,都采用了平均池化层用于时序 息的处理,目前最为广泛应用的方法是递归神经 信息的融合,这种方法的优点在于每一时刻的信 (Recurrent neural network,RNN)1761.McLaughlin 息都占有相同的比重.但针对行人重识别,一段视 等m提出了一种基于CNN与RNN的行人重识别 频中只有行人出现的段落具有特征提取的价值, 方法,如图5所示,基于孪生网络,网络以视频对 同时,某一异常值会对结果造成影响.针对这一问 作为输入,首先通过CNN提取视频里每一帧图像 题,Yan等s提出RFA-net,提取单帧图像的特征, 的特征,按照时间顺序送入RNN中.之后,RNN 表示行人外观信息,使用LSTM提取图像序列特 结合时序信息得到特征向量序列.最后,为了避免 征,表示行人动态信息.融合外观信息与动态信息, 对前一时刻信息的过度依赖,加入了时序池化层, 获得更好的识别精度.Zhang等8提出了一种SCAN 对所有时间的信息进行聚合,得到视频序列的特 行人重识别架构,利用无参数注意力机制,在视频 征向量.该方法的优点在于可以使用任意长度的 序列中选取具有辨别力的关键帧,并最终通过计 视频序列作为输入,同时使得每一时刻的信息都 算视频对的相似度得出识别结果.Liao等2]将 能占有一定的比重.在这个方法的基础上,Wu等 3D卷积应用到行人重识别领域进行视频特征的型,对生成的行人图像进行选择,之后使用 LSR[59] 方法对生成数据进行标注,完成了对数据集的扩 充. Qian 等[66] 提出一种一般性的生成对抗网络模 型 PNGAN,预设 8 种行人姿势,以一张原始图像 为基准,利用生成对抗网络生成八张预设姿态的 图像,将原始数据集扩大了 8 倍,姿态的多样性与 统一性使网络有能力学习一些更具判别力的特 征,该方法使行人重识别模型的泛化能力得到了 有效地提升,不再需要重新训练就可以进行跨数 据集的应用. 评价与总结:为了扩充数据集与实现数据集的 域适应,学者们引入了生成对抗网络. 但是,生成 对抗网络产生了大量未标注的数据,因此需要结 合半监督学习方法进行训练. 以上方法的应用使 基于图像的行人重识别方法的精度达到了峰值,但 图像数据在时序信息上的缺失使得精度达到了瓶 颈,这就引发了基于视频的行人重识别的研究热潮. 3.3    基于视频的行人重识别方法 基于图像的行人重识别方法虽然在大部分数 据集上取得了较好的效果,但是由于数据集较小, 导致基于单帧图像的行人重识别方法没有很好的 泛化能力. 同时,单帧图像很难获得行人的动作以 及姿态变化等信息,导致当行人被遮挡或者光线 变化较大时,模型的判别能力大大下降. 针对这些 问题,学者们提出了基于视频的行人重识别方法, 在提取单帧特征的基础上,能有效地考虑到帧间 关系. 基于视频的行人重识别方法主要由 3 个部 分组成:单帧图像特征提取、视频序列时序特征提 取以及度量学习,表 6 给出了部分基于视频的行 人重识别方法的性能表现. 表 6 基于视频的的行人重识别方法的性能表现 Table 6   Performance of video-based person re-identification method Methods Year Rank-1 MARS DukeMTMC VideoReID[15] PRID2011[7] iLIDS-VID[8] Rank-1 mAP Rank-1 mAP CNN+RNN+Temporal Pooling[77] 2016 70.0 58.0 — — Deep RCN[78]+KISSME 2016 69.0 46.1 RFA-Net[80] 2016 58.2 49.3 SCAN+ResNet50[81] 2018 92.0 81.3 86.6 76.7 ResNet3D-50+Non-Local[82] 2018 91.2 81.3 84.3 77.0 Spatial Attention+Temporal Attention[83] 2018 93.2 80.2 82.3 65.8 AP3D[84] 2020 — 86.7 90.1 85.1 96.3 95.6 STCNet[86] 2020 — 83.4 88.5 82.3 95.0 93.5 MGH[88] 2020 94.8 85.6 90.0 85.8 对于单帧图像的特征提取与损失函数,学者 仍然沿用基于图像的行人重识别领域的方法[71−75] , 基于视频的行人重识别方法的重点在于对时序信 息的处理,目前最为广泛应用的方法是递归神经 网络(Recurrent neural network,RNN)[76] . McLaughlin 等[77] 提出了一种基于 CNN 与 RNN 的行人重识别 方法,如图 5 所示,基于孪生网络,网络以视频对 作为输入,首先通过 CNN 提取视频里每一帧图像 的特征,按照时间顺序送入 RNN 中. 之后,RNN 结合时序信息得到特征向量序列. 最后,为了避免 对前一时刻信息的过度依赖,加入了时序池化层, 对所有时间的信息进行聚合,得到视频序列的特 征向量. 该方法的优点在于可以使用任意长度的 视频序列作为输入,同时使得每一时刻的信息都 能占有一定的比重. 在这个方法的基础上,Wu 等[78] 对网络进行了修改,使用 GRU 模块[79] 代替 LSTM 模块,在效果基本不变的情况下,降低了参数量. 上述方法中,都采用了平均池化层用于时序 信息的融合,这种方法的优点在于每一时刻的信 息都占有相同的比重. 但针对行人重识别,一段视 频中只有行人出现的段落具有特征提取的价值, 同时,某一异常值会对结果造成影响. 针对这一问 题,Yan 等[80] 提出 RFA-net,提取单帧图像的特征, 表示行人外观信息,使用 LSTM 提取图像序列特 征,表示行人动态信息. 融合外观信息与动态信息, 获得更好的识别精度. Zhang 等[81] 提出了一种 SCAN 行人重识别架构,利用无参数注意力机制,在视频 序列中选取具有辨别力的关键帧,并最终通过计 算视频对的相似度得出识别结果. Liao 等[82] 将 3D 卷积应用到行人重识别领域进行视频特征的 · 8 · 工程科学学报,第 44 卷,第 X 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有