正在加载图片...
工程科学学报,第44卷,第X期 (4)mAPl(mean Average Precision):平均精度 2.1表征学习 均值,是多目标检测与多标签分类的常用评价指 表征学习,即特征表示学习,它的目的是提取 标,绘制精确率与召回率的关系曲线(P-R曲线), 图像特征,即将图像数据抽象为高维特征向量,便 该曲线与坐标轴的面积即为平均精确率(Average 于图像之间差异的量化.随着深度学习的发展,广 precision),对所有类别测试得到各自的平均精确 泛使用卷积神经网络作为特征提取器,提取图像 率,取均值得到平均精度均值mAP.平均精度指标 或者视频的特征向量 不仅体现了模型的精确率,还能对模型给出的排 在图像分类领域,已有一些较为有效的特征 名顺序做出评价 提取方法2s7,因此在行人重识别研究的初期,一 行人重识别模型最为常用的评价指标为Rank-n 些学者将行人重识别转换为分类问题进行研究 Accuracy与mAP,表3整理了目前各个数据集上表 将行人的D作为标签对数据进行标注,使用图像 现最优的模型(State of the art,.SOTA)以及其他一些 分类方法进行行人的分类.在之后的研究中,一些 优秀模型的精度数据,其中OSNet与DG-Net的精度 学者受到图像检索方法的启发,提出了CIR(Cross- 数据测试于按照新版协议划分的CUHK03数据集 image representation)方法,使用图像对作为输入, 表3各数据集的性能最优模型以及精度数据 最终输出两者的相似度.该方法基于孪生卷积神 Table 3 State-of-the-art models and their precision for each dataset 经网络(Siamese CNN)p,将2张图像分别输入到 Dataset SOTA Rank-1 accuracy mAP 2个独立的子网络中,得到图像的特征图,再通过 St-RelD(RE.RK)D 97.20 86.70 度量学习的方法判断图像对是否属于同一个行 Market- Viewpoint-Aware Loss21 96.79 95.43 人.Yi等2首次将孪生卷积神经网络应用到行人 15019 DG-Netl2 94.80 84.00 重识别领域,考虑到行人重识别图像数据的背景、 St-ReID(RE,RK,Cam)20 94.50 92.70 光照等特征的不同,舍弃了原网络共享权值的做 DukeMTMC- ABD-Net(ResNet-50)2 89.00 78.95 法,使2个子网络相互独立.Ahmed等0基于孪生 reIDls1 Viewpoint-Aware LossP 93.90 91.80 卷积神经网络,针对行人重识别提出了一种深度 FD-GANI 92.60 91.30 网络,将图像对作为网络输入,计算图像特征图差 CUHK036 OSNetE4 67.80 异,最终判断图像对是否属于同一类别.在此基础 DG-Netz 61.10 一 上,Wu等B提出了PersonNet,.在原有的结构上, ABD-Net(ResNet-50)2 82.30 60.80 使用多个3×3卷积层加深网络,使得效果得到显 OSNet4 78.70 52.90 著提升.CIR方法强调输入的两张图像的相互关 MSMT17 DG-Net22 77.20 52.30 系,在网络结构中可以很好地体现出来.Wang等四 提出一种名为Wconv的卷积结构,让每张输入图 2 行人重识别方法研究框架 像都经过两个独立的卷积层,生成两张特征图并 进行融合,从而得到两张图像各自的特征图 行人重识别框架与大多数基于深度学习的图 Wang等B]提出了一种结合单张图像特征的方法, 像处理问题相似,首先使用卷积神经网络(CNN), 对输入的图像对,分别使用独立的卷积神经网络 利用表征学习对数据进行特征提取得到特征向量, 提取各自的特征,并抽取特征提取过程中的特征 之后再利用度量学习的方法进行类别判断.行人 图进行融合,这种方法结合了提取单张图像特征 重识别的研究框架如图3所示,本章对表征学习 的高效率以及CIR方法对图像间信息提取的优 与度量学习的定义以及基本方法进行简要介绍. 势.熊炜等两提出了一种深层特征融合行人重识 Result Representation learing 别模型,利用卷积层与池化层多次提取网络深层 特征,使用融合后的深层特征作为行人的特征属 性,提升了网络提取全局特征的能力.同样的思 想,该作者在文献[35]中提出,将特征提取网络最 Gallery ank-I 后三个卷积层提取的特征图进行拼接,再使用卷 积神经网络提取深层特征,提升了网络的深层特 因3行人重识别研究方法框架 征提取能力.Wang等提出的St-RelD方法,利 Fig.3 Research method framework of person re-identification methods 用跨模态融合方法,将图像的视觉特征以及时空(4)mAP[11] (mean Average Precision):平均精度 均值,是多目标检测与多标签分类的常用评价指 标,绘制精确率与召回率的关系曲线(P‒R 曲线), 该曲线与坐标轴的面积即为平均精确率(Average precision),对所有类别测试得到各自的平均精确 率,取均值得到平均精度均值 mAP. 平均精度指标 不仅体现了模型的精确率,还能对模型给出的排 名顺序做出评价. 行人重识别模型最为常用的评价指标为 Rank-n Accuracy 与 mAP,表 3 整理了目前各个数据集上表 现最优的模型(State of the art, SOTA)以及其他一些 优秀模型的精度数据,其中 OSNet 与 DG-Net 的精度 数据测试于按照新版协议划分的 CUHK03 数据集. 表 3 各数据集的性能最优模型以及精度数据 Table 3   State-of-the-art models and their precision for each dataset Dataset SOTA Rank-1 accuracy mAP Market- 1501[4] St-ReID(RE, RK)[20] 97.20 86.70 Viewpoint-Aware Loss[21] 96.79 95.43 DG-Net[22] 94.80 84.00 DukeMTMC￾reID[5] St-ReID(RE, RK, Cam)[20] 94.50 92.70 ABD-Net(ResNet-50)[23] 89.00 78.95 Viewpoint-Aware Loss[21] 93.90 91.80 CUHK03[3][6] FD-GAN[19] 92.60 91.30 OSNet[24] 67.80 — DG-Net[22] 61.10 — ABD-Net(ResNet-50)[23] 82.30 60.80 MSMT17[9] OSNet[24] 78.70 52.90 DG-Net[22] 77.20 52.30 2    行人重识别方法研究框架 行人重识别框架与大多数基于深度学习的图 像处理问题相似,首先使用卷积神经网络(CNN), 利用表征学习对数据进行特征提取得到特征向量, 之后再利用度量学习的方法进行类别判断. 行人 重识别的研究框架如图 3 所示,本章对表征学习 与度量学习的定义以及基本方法进行简要介绍. Quary Result Representation learing Feature map Metric learning Gallery Rank-1 图 3    行人重识别研究方法框架 Fig.3    Research method framework of person re-identification methods 2.1    表征学习 表征学习,即特征表示学习,它的目的是提取 图像特征,即将图像数据抽象为高维特征向量,便 于图像之间差异的量化. 随着深度学习的发展,广 泛使用卷积神经网络作为特征提取器,提取图像 或者视频的特征向量. 在图像分类领域,已有一些较为有效的特征 提取方法[25−27] ,因此在行人重识别研究的初期,一 些学者将行人重识别转换为分类问题进行研究. 将行人的 ID 作为标签对数据进行标注,使用图像 分类方法进行行人的分类. 在之后的研究中,一些 学者受到图像检索方法的启发,提出了 CIR(Cross￾image representation)方法,使用图像对作为输入, 最终输出两者的相似度. 该方法基于孪生卷积神 经网络(Siamese CNN) [28] ,将 2 张图像分别输入到 2 个独立的子网络中,得到图像的特征图,再通过 度量学习的方法判断图像对是否属于同一个行 人. Yi 等[29] 首次将孪生卷积神经网络应用到行人 重识别领域,考虑到行人重识别图像数据的背景、 光照等特征的不同,舍弃了原网络共享权值的做 法,使 2 个子网络相互独立. Ahmed 等[30] 基于孪生 卷积神经网络,针对行人重识别提出了一种深度 网络,将图像对作为网络输入,计算图像特征图差 异,最终判断图像对是否属于同一类别. 在此基础 上 ,Wu 等[31] 提出了 PersonNet,在原有的结构上, 使用多个 3×3 卷积层加深网络,使得效果得到显 著提升. CIR 方法强调输入的两张图像的相互关 系,在网络结构中可以很好地体现出来. Wang 等[32] 提出一种名为 Wconv 的卷积结构,让每张输入图 像都经过两个独立的卷积层,生成两张特征图并 进行融合 ,从而得到两张图像各自的特征图 . Wang 等[33] 提出了一种结合单张图像特征的方法, 对输入的图像对,分别使用独立的卷积神经网络 提取各自的特征,并抽取特征提取过程中的特征 图进行融合,这种方法结合了提取单张图像特征 的高效率以及 CIR 方法对图像间信息提取的优 势. 熊炜等[34] 提出了一种深层特征融合行人重识 别模型,利用卷积层与池化层多次提取网络深层 特征,使用融合后的深层特征作为行人的特征属 性,提升了网络提取全局特征的能力. 同样的思 想,该作者在文献 [35] 中提出,将特征提取网络最 后三个卷积层提取的特征图进行拼接,再使用卷 积神经网络提取深层特征,提升了网络的深层特 征提取能力. Wang 等[20] 提出的 St-ReID 方法,利 用跨模态融合方法,将图像的视觉特征以及时空 · 4 · 工程科学学报,第 44 卷,第 X 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有