正在加载图片...
李擎等:基于深度学习的行人重识别方法综述 9 Classfication loss Contrast loss Classfication loss MG-RAFA)用于空间信息与时序信息的融合.Liu 等o为了抑制背景信息的干扰,提出了CSTNet, Feature map Feature map 捕获视频帧之间常见的突出前景区域,并从这些 区域探索了时空长程文本的相互依赖关系,以学 Temporal pooling Temporal pooling 习更具判别力的行人特征 RNN RNN RNN RNN RNN RNN 评价与总结:与图像数据相比,视频数据具有 较强的时序信息,所以如何将这些时序信息进行 CNN CNN CNN CNN CNN CNN 融合是基于视频的重识别问题的重要研究方向 现有的方法主要包括利用RNN结合平均池化进 行时序信息的融合,以及利用3D卷积的方法进行 图5视颜帧序列的时序信息融合方法可 融合.学者们在此基础上对细节部分加以创新,使 Fig.5 Temporal information fusion of video frames sequencel 得识别精度不断提升.基于视频的行人重识别方 提取,并使用非局部块(Non-local blocks)来解决部 法更加接近实际应用,需要大量的数据标注工作, 位失调问题.并捕获时空远程依赖关系.表6给出 同时模型的参数量与计算量较大,因此结合半监 了部分基于视频的行人重识别方法的性能表现. 督学习与无监督学习方法以及对网络轻量化的研 以上对单帧特征融合的几种方法进行了介绍 究会成为今后的热点研究方向 在基于视频的行人重识别中,主要存在的问题有 3.4基于重排序的行人重识别 行人姿态失调与遮挡、视频数据冗余信息过多等 除了对于表征学习与度量学习的探索,近年 为了解决视频序列中存在的遮挡问题以及部位不 来,一些研究学者将主要精力集中于对行人重识 对齐问题,Li等在行人重识别的模型中引入注 别结果排序的优化上,即结果重排序(Re-ranking) 意力机制,在连续的图像序列中,某一帧的信息并 一般情况下,给定一张目标图像,通过提取图像特 不会影响全局的信息,所以使用限定随机抽样法 征并计算目标图像与待匹配图像(Gallary)的距 在视频序列中提取部分数据作为网络的输入,提 离,得到匹配图像的排序结果,根据该结果计算 取图像特征后,应用空间注意力模型自动发现突 Rank-n Accuracy,并绘制CMC曲线.重排序就是 出的图像区域.这种方法很好地解决了遮挡问题, 利用相关方法,对当前的排序结果进行优化,从而 同时有效提取了行人的一些非常规特征,使得网 提升行人重识别的精度 络的辨别力得到显著提升.针对3D卷积在行人部 在图像检索领域,Shen使用K最近邻算法 位不对齐时,存在的特征抓取性能不佳的问题,Gu (k-Nearest Neighbor,.KNN)对模型输出排序结果进 等剧提出一种AP3D方法,在卷积层之前,通过像 行二次优化.在行人重识别领域,Li等四率先提 素级的特征对齐,解决由于行人部位失调带来的 出了利用最近邻算法对行人重识别的排序结果进 问题.Feng等提出一种门控机制,判断哪些区 行优化的方法.YeI等提出了一种基于KNN的 域有助于人的重新识别,让这些区域通过门,不相 排序聚合方法,分别提取图像的全局特征与局部 关的背景区域被门过滤掉.Hou等s%提出STCnet, 特征,分别根据两者得到结果的排序,通过对2种 利用时空补全网络,基于未被遮挡的部分精确地 特征的结合,利用最近邻算法对排序结果进行优 恢复遮挡部分的信息,增强了网络的鲁棒性,为解 化.Zhong等利用K最近邻互编码(k--reciprocal 决行人重识别中的遮挡问题提供了新的思路, encoding)的方法对识别结果进行重排序,使用该 Gao等87提出了一种姿态匹配方法用于学习局部 编码方法,对匹配图像与目标图像在特征空间内 特征,并判别该部分是否被遮挡.Yan等s1提出一 求取最近邻,利用该距离并联合度量学习中的图 种多粒度超图网络框架,在空间角度,通过不同细 像特征距离,对匹配图像进行重排序,从而提升行 粒度的图像分割,获取不同尺度的信息;时序角 人重识别的精度.Wang9等提出一种在线优化排 度,则通过连接不同视频帧的相同部位构建超图, 序结果的方法,即人体验证在线机机器学习 实现时序信息的捕捉 (Human verification incremental learning,HVIL), 对于视频数据的过多冗余信息,Zhang等[89提 预设的周期内,人工地从排序结果中找出正确匹 出多细粒度参考辅助注意力特征聚合方法(Muti- 配,并给出Rank-l结果的相似度(True match/similar/ granularity reference-aided attentive feature aggregation, dissimilar),根据以上结果进行误差计算并更新网提取,并使用非局部块(Non-local blocks)来解决部 位失调问题,并捕获时空远程依赖关系. 表 6 给出 了部分基于视频的行人重识别方法的性能表现. 以上对单帧特征融合的几种方法进行了介绍. 在基于视频的行人重识别中,主要存在的问题有 行人姿态失调与遮挡、视频数据冗余信息过多等. 为了解决视频序列中存在的遮挡问题以及部位不 对齐问题,Li 等[83] 在行人重识别的模型中引入注 意力机制,在连续的图像序列中,某一帧的信息并 不会影响全局的信息,所以使用限定随机抽样法 在视频序列中提取部分数据作为网络的输入,提 取图像特征后,应用空间注意力模型自动发现突 出的图像区域. 这种方法很好地解决了遮挡问题, 同时有效提取了行人的一些非常规特征,使得网 络的辨别力得到显著提升. 针对 3D 卷积在行人部 位不对齐时,存在的特征抓取性能不佳的问题,Gu 等[84] 提出一种 AP3D 方法,在卷积层之前,通过像 素级的特征对齐,解决由于行人部位失调带来的 问题. Feng 等[85] 提出一种门控机制,判断哪些区 域有助于人的重新识别,让这些区域通过门,不相 关的背景区域被门过滤掉. Hou 等[86] 提出 STCnet, 利用时空补全网络,基于未被遮挡的部分精确地 恢复遮挡部分的信息,增强了网络的鲁棒性,为解 决行人重识别中的遮挡问题提供了新的思路. Gao 等[87] 提出了一种姿态匹配方法用于学习局部 特征,并判别该部分是否被遮挡. Yan 等[88] 提出一 种多粒度超图网络框架,在空间角度,通过不同细 粒度的图像分割,获取不同尺度的信息;时序角 度,则通过连接不同视频帧的相同部位构建超图, 实现时序信息的捕捉. 对于视频数据的过多冗余信息,Zhang 等[89] 提 出多细粒度参考辅助注意力特征聚合方法(Multi￾granularity reference-aided attentive feature aggregation, MG-RAFA)用于空间信息与时序信息的融合. Liu 等[90] 为了抑制背景信息的干扰,提出了 CSTNet, 捕获视频帧之间常见的突出前景区域,并从这些 区域探索了时空长程文本的相互依赖关系,以学 习更具判别力的行人特征. 评价与总结:与图像数据相比,视频数据具有 较强的时序信息,所以如何将这些时序信息进行 融合是基于视频的重识别问题的重要研究方向. 现有的方法主要包括利用 RNN 结合平均池化进 行时序信息的融合,以及利用 3D 卷积的方法进行 融合. 学者们在此基础上对细节部分加以创新,使 得识别精度不断提升. 基于视频的行人重识别方 法更加接近实际应用,需要大量的数据标注工作, 同时模型的参数量与计算量较大,因此结合半监 督学习与无监督学习方法以及对网络轻量化的研 究会成为今后的热点研究方向. 3.4    基于重排序的行人重识别 除了对于表征学习与度量学习的探索,近年 来,一些研究学者将主要精力集中于对行人重识 别结果排序的优化上,即结果重排序(Re-ranking). 一般情况下,给定一张目标图像,通过提取图像特 征并计算目标图像与待匹配图像(Gallary)的距 离,得到匹配图像的排序结果,根据该结果计算 Rank-n Accuracy,并绘制 CMC 曲线. 重排序就是 利用相关方法,对当前的排序结果进行优化,从而 提升行人重识别的精度. 在图像检索领域,Shen[91] 使用 K 最近邻算法 (k-Nearest Neighbor,KNN)对模型输出排序结果进 行二次优化. 在行人重识别领域,Li 等[92] 率先提 出了利用最近邻算法对行人重识别的排序结果进 行优化的方法. Ye[93] 等提出了一种基于 KNN 的 排序聚合方法,分别提取图像的全局特征与局部 特征,分别根据两者得到结果的排序,通过对 2 种 特征的结合,利用最近邻算法对排序结果进行优 化. Zhong[6] 等利用 K 最近邻互编码( k-reciprocal encoding)的方法对识别结果进行重排序,使用该 编码方法,对匹配图像与目标图像在特征空间内 求取最近邻,利用该距离并联合度量学习中的图 像特征距离,对匹配图像进行重排序,从而提升行 人重识别的精度. Wang[94] 等提出一种在线优化排 序结果的方法 ,即人体验证在线机机器学习 (Human verification incremental learning,HVIL),在 预设的周期内,人工地从排序结果中找出正确匹 配,并给出 Rank-1 结果的相似度(True match/similar/ dissimilar),根据以上结果进行误差计算并更新网 Classfication loss Contrast loss Temporal pooling Feature map Classfication loss CNN RNN CNN RNN CNN RNN CNN RNN CNN RNN CNN RNN Temporal pooling Feature map 图 5    视频帧序列的时序信息融合方法[77] Fig.5    Temporal information fusion of video frames sequence[77] 李    擎等: 基于深度学习的行人重识别方法综述 · 9 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有