正在加载图片...
李擎等:基于深度学习的行人重识别方法综述 5 特征进行融合,该方法在多个数据集上取得了较 而完成分类任务.该方法整合了排名方法和分类 好的性能表现. 方法的优点,并使两者的缺点得到互补.同样的思 评价与总结:表征学习是提取图像特征的基 想,Chen等B7提出了整合分类与排名的训练方法, 本方法,在行人重识别上的应用也取得了一定效 使用GoogleNet 5进行特征提取,便于迁移训练 果.但是,由于行人重识别数据的特殊性,存在遮 三元组损失:三元组损失是图像检索领域广 挡、部位不对齐以及姿态差异等问题,直接提取图 泛应用的损失函数B-0它来源于人脸识别的方 像的全局特征并不能达到最好的识别精度.针对 法FaceNet!,应用三元组损失函数的网络架构输 这些问题,学者们相继提出了提取局部特征以及 入为3张图像,分别是目标图像、正样本和负样 引入注意力机制等方法,在后文中予以归纳总结 本.三元组损失函数通过调整系数,拉近正样本特 2.2度量学习 征向量I,与目标图像特征向量Ia的距离,扩大负 对于行人重识别,首先需要利用特征提取器 样本特征向量I。与目标图像特征向量L的距离 得到行人图像的特征向量,然后利用度量学习方 最终相同D的图像在特征空间内聚类,完成行人 法判断目标图像与待匹配图像的相似度.度量学 重识别任务,同时三元组损失函数可以将行人重 习是机器学习的常用方法,通过定量方法,确定特 识别作为一个端对端的问题进行研究. 征向量的相似程度.在网络的训练过程中,度量学 Lri =max(dia.lp-dia.!n+margin,0) (2) 习方法主要体现在损失函数上,用以更新深度网 三元组损失函数的缺点在于构造简单,如果 络的参数,从而提取更具判别力的图像特征.行人 在网络中直接优化三元组损失函数,会导致网络 重识别使用的损失函数主要有以下几种 的鉴别能力降低,一些学者通过加入更丰富的信 对照损失:在最初的行人重识别研究中,通过 息,设计出性能更强的三元组损失函数,Hermans 提取图像对的特征并进行距离的计算B,2,根据特 等阳指出,让网络一直学习简单的样本组合会限 征向量a与,的距离d判断图像对是否属于同一 制网络的泛化能力,针对这一问题,提出三元组损 个行人.通常给定网络输入为图像对,变量y值 失函数的改进方法,通过选择一个批次中较难区 为+1或-1,作为图像对的标签,引入阈值margin, 分的正样本和负样本,来对三元组损失函数进行 对图像对距离加以约束 训练,加强三元组损失函数对于困难样本对的挖 Lcon =ydia.+(1-y)max (margin-dia,0)2 (1) 掘能力,从而提升三元组损失函数的性能 Yi等29将对照损失应用在行人重识别中,网 Cheng等1提出一种改进的三元组损失函数,原 络输入为图像对,分别提取图像的特征向量,计算 始的三元组损失函数旨在拉近正样本与目标图像 特征向量的余弦(Cosine)距离,输出一个介于+l、 的距离,扩大负样本与目标图像的距离,但是损 -1之间的相似度.这种方法的优点在于对于一张 失函数并没有对样本距离进行约束,导致正样本 目标图像,相同类别图像的相似度往往会高于不 与目标图像的绝对距离很远,作者通过在原始三 同类别图像的相似度.在之后的研究中,学者们提 元组损失函数中加入了一个新的阈值,用于限制 出对每一张待匹配的图像,根据相似度进行排名, 类内图像的最大距离,保证网络不仅能够在特征 将排名最高的图像作为行人重识别的结果,这也 空间把正负样本推开,也能保证正样本对的距离 是现在广泛使用的确定识别结果的方法.但是一 处于一定的阈值之下 些学者发现,分类方法和排名方法都有各自的优 四元组损失:为了解决三元组损失函数类内 缺点,分类方法难以确定一个固定的区分阈值,而 距离较大的问题,一些学者在三元组损失函数的 排名方法得出的Topl图像相似度最高,却很容易 基础上,提出了四元组损失函数.Chen在文章 因为丢失细节信息导致匹配错误.针对这一问题, 中提出了一种应用四元组损失函数的行人重识别 Chen等B提出了一种多任务深度网络MTDNet,,文 网络架构.网络输入为4张图像,相对于三元组损 章指出应用排名方法往往更为关注全局特征,而 失,又增加了一张不同D的负样本2.四元组损 分类方法则更关注图像对之间的联系,比较注重 失不仅可以学习正负样本的相对距离,同时限制 局部特征.MTDNet的输入为3张图像,首先通过 最小的类间距离高于最大的类内距离,同时引入 卷积神经网络提取低维特征后,执行排名任务,之 阈值margin,与margin2对损失函数的值域加以约 后通过三元组损失函数,判断正负样本的距离,从 束,使网络的性能得到提升特征进行融合,该方法在多个数据集上取得了较 好的性能表现. 评价与总结:表征学习是提取图像特征的基 本方法,在行人重识别上的应用也取得了一定效 果. 但是,由于行人重识别数据的特殊性,存在遮 挡、部位不对齐以及姿态差异等问题,直接提取图 像的全局特征并不能达到最好的识别精度. 针对 这些问题,学者们相继提出了提取局部特征以及 引入注意力机制等方法,在后文中予以归纳总结. 2.2    度量学习 对于行人重识别,首先需要利用特征提取器 得到行人图像的特征向量,然后利用度量学习方 法判断目标图像与待匹配图像的相似度. 度量学 习是机器学习的常用方法,通过定量方法,确定特 征向量的相似程度. 在网络的训练过程中,度量学 习方法主要体现在损失函数上,用以更新深度网 络的参数,从而提取更具判别力的图像特征. 行人 重识别使用的损失函数主要有以下几种. 对照损失:在最初的行人重识别研究中,通过 提取图像对的特征并进行距离的计算[3,29] ,根据特 征向量 Ia 与 Ib 的距离 d 判断图像对是否属于同一 个行人. 通常给定网络输入为图像对,变量 y 值 为+1 或−1,作为图像对的标签,引入阈值 margin, 对图像对距离加以约束. Lcon = ydIa,Ib 2 +(1−y)max (margin−dIa,Ib ,0)2 (1) Yi 等[29] 将对照损失应用在行人重识别中,网 络输入为图像对,分别提取图像的特征向量,计算 特征向量的余弦(Cosine)距离,输出一个介于+1、 −1 之间的相似度. 这种方法的优点在于对于一张 目标图像,相同类别图像的相似度往往会高于不 同类别图像的相似度. 在之后的研究中,学者们提 出对每一张待匹配的图像,根据相似度进行排名, 将排名最高的图像作为行人重识别的结果,这也 是现在广泛使用的确定识别结果的方法. 但是一 些学者发现,分类方法和排名方法都有各自的优 缺点,分类方法难以确定一个固定的区分阈值,而 排名方法得出的 Top1 图像相似度最高,却很容易 因为丢失细节信息导致匹配错误. 针对这一问题, Chen 等[36] 提出了一种多任务深度网络 MTDNet,文 章指出应用排名方法往往更为关注全局特征,而 分类方法则更关注图像对之间的联系,比较注重 局部特征. MTDNet 的输入为 3 张图像,首先通过 卷积神经网络提取低维特征后,执行排名任务,之 后通过三元组损失函数,判断正负样本的距离,从 而完成分类任务. 该方法整合了排名方法和分类 方法的优点,并使两者的缺点得到互补. 同样的思 想,Chen 等[37] 提出了整合分类与排名的训练方法, 使用 GoogleNet[25] 进行特征提取,便于迁移训练. 三元组损失:三元组损失是图像检索领域广 泛应用的损失函数[38−40] . 它来源于人脸识别的方 法 FaceNet[41] ,应用三元组损失函数的网络架构输 入为 3 张图像,分别是目标图像、正样本和负样 本. 三元组损失函数通过调整系数,拉近正样本特 征向量 Ip 与目标图像特征向量 Ia 的距离,扩大负 样本特征向量 In 与目标图像特征向量 Ia 的距离. 最终相同 ID 的图像在特征空间内聚类,完成行人 重识别任务,同时三元组损失函数可以将行人重 识别作为一个端对端的问题进行研究. Ltri = max(dIa,Ip −dIa,In +margin,0) (2) 三元组损失函数的缺点在于构造简单,如果 在网络中直接优化三元组损失函数,会导致网络 的鉴别能力降低,一些学者通过加入更丰富的信 息,设计出性能更强的三元组损失函数,Hermans 等[42] 指出,让网络一直学习简单的样本组合会限 制网络的泛化能力,针对这一问题,提出三元组损 失函数的改进方法,通过选择一个批次中较难区 分的正样本和负样本,来对三元组损失函数进行 训练,加强三元组损失函数对于困难样本对的挖 掘 能 力 , 从 而 提 升 三 元 组 损 失 函 数 的 性 能 . Cheng 等[43] 提出一种改进的三元组损失函数,原 始的三元组损失函数旨在拉近正样本与目标图像 的距离,扩大负样本与目标图像的距离[41] ,但是损 失函数并没有对样本距离进行约束,导致正样本 与目标图像的绝对距离很远,作者通过在原始三 元组损失函数中加入了一个新的阈值,用于限制 类内图像的最大距离,保证网络不仅能够在特征 空间把正负样本推开,也能保证正样本对的距离 处于一定的阈值之下. 四元组损失:为了解决三元组损失函数类内 距离较大的问题,一些学者在三元组损失函数的 基础上,提出了四元组损失函数. Chen 在文章[44] 中提出了一种应用四元组损失函数的行人重识别 网络架构. 网络输入为 4 张图像,相对于三元组损 失,又增加了一张不同 ID 的负样本 n2 . 四元组损 失不仅可以学习正负样本的相对距离,同时限制 最小的类间距离高于最大的类内距离,同时引入 阈值 margin1 与 margin2 对损失函数的值域加以约 束,使网络的性能得到提升. 李    擎等: 基于深度学习的行人重识别方法综述 · 5 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有