X Hx ×Wx ×3 f f Zf Xf 搜索区域，_中国高校课件下载中心

正在加载图片...

·728· 智能系统学报第14卷搜索区域，用X表示，其维度是H×W×3,将两大，则颜色越红)。相对的，在搜索区域中，目标的者通过权值固定的卷积网络f,f是文献[25]中外形占比一定大于局部特征的占比，所以利用了所提出的AlexNet网络（不包含全连接层），提取出外形信息的滤波匹配的位置响应大多会集中在目对应的卷积特征Z,和X,之后，通过相关操作得标区域处，如图5中滤波匹配的位置响应图所示，出目标的位置响应，联合该外形信息的位置响应，可以有效地突出目 2.1.2滤波匹配部分标的所在区域，使得位置响应集中在目标区域在追踪器的滤波匹配部分，主要使用方向梯处，从而达到抑制噪声，避免位置发生漂移的目度直方图来提取目标的外形信息。由于目标的外的。如图5中修正的位置响应图所示，可以看到形信息常常存在于目标与背景之间，为了提取目标的外形信息，需要包含一些背景信息，因此本目标的位置响应图在修正后，抑制住了左边的噪文直接在X中进行目标的外形信息提取。如果声响应。联合该外形位置响应，涉及到数据融合当前帧是首帧的话，就使用式(2)初始化滤波匹技术，可以使用加权平均法、贝叶斯估计法2、卡配时所需要的A和B,如果当前帧不是首帧的尔曼滤波法7等，本文为验证想法直接采用了最话，就利用式（⑤）求得目标的位置响应，然后再利为简单的加权平均法：用式(3)和式(4)更新A和B。 Rv=7Row+(1-刀)Roui (6) 2.2修正部分式中：？是权重值；Rmv是卷积匹配的位置响应；在没有使用外形信息对位置响应进行修正的 Raul是利用外形信息的滤波匹配的位置响应；R 情况下，由于卷积特征中多是类似于局部的、方是最终经过修正之后的位置响应。三者之间的关向性的特征，这种碎片化的特征容易导致在远离系可参考图4，由于修正前Rom和Rt的量纲不目标的区域处产生极大的位置响应点，从而形成一致，故而在修正前，先分别对两个位置响应进位置响应噪声。如图5中卷积匹配的位置响应图行如下的归一化处理：所示(X、Y轴无十分重要的物理意义，Z轴表示相 Rold (7) 关性程度，数值越大表示该处与目标的相关性越 Raom三 max(Rold) 的区域目标皮 0.50 1.0 0.8 0.000030 0.23 0.6 0.000025 0.4 0.000020 0.2 0.000015N -0.50 0.75 0.000010 0.2 0.000005 -1.00 00 100-50050100-1m%0.7l% 010o -10050050100 -100-50050100 0S0 X -100 (a)卷积匹配的位置响应 (6)滤波匹配的位置响应 (c)修正的位置响应图5位置响应的变化 Fig.5 The transform of position response map 3实验配置以及评价指标 sigmoid(x)=1+exp(-x) (9) 3.1实验细节训练时，网络的输入是一对样本，并且，执行卷积匹配部分，网络的构成同文献[12]一样一次梯度下降使用8对样本，一对样本中，Z的维 (去除了网络的全连接部分)，权重的取值是经过度是127×127×3，X的维度是255×255×3，经过网络f后，Z,的维度是6×6×256，X的维度是 405650次随机梯度下降得到的，网络训练的数据 22×22×256,Rv经过三线性插值后，维度为集是从ILSVRC-2015视频数据集2中提取出的 255×255,学习率采用动态学习率，初始值为0.01， 4417个视频序列，网络训练的损失函数为然后使用如下的指数衰减法进行衰减： leaa=N'∑G×-ln(sigmoid(R)l川+ Sglobal 1=linit xrSdecay (10) (1-G)x-In(1-sigmoid(Rie (8) 式中：1是初始学习率；，是初始学习率的基本式中：N为G中的元素个数；i、j为G中元素索保留率，本文中取值为0.8685；5b表示当前是引；sigmoid函数为：第几次梯度下降；sy表示经过几次梯度下降X Hx ×Wx ×3 f f Zf Xf 搜索区域，用表示，其维度是，将两者通过权值固定的卷积网络，是文献 [25] 中所提出的 AlexNet 网络 (不包含全连接层)，提取出对应的卷积特征和之后，通过相关操作得出目标的位置响应。 2.1.2 滤波匹配部分 X A B A B 在追踪器的滤波匹配部分，主要使用方向梯度直方图来提取目标的外形信息。由于目标的外形信息常常存在于目标与背景之间，为了提取目标的外形信息，需要包含一些背景信息，因此本文直接在中进行目标的外形信息提取。如果当前帧是首帧的话，就使用式 (2) 初始化滤波匹配时所需要的和，如果当前帧不是首帧的话，就利用式 (5) 求得目标的位置响应，然后再利用式 (3) 和式 (4) 更新和。 2.2 修正部分在没有使用外形信息对位置响应进行修正的情况下，由于卷积特征中多是类似于局部的、方向性的特征，这种碎片化的特征容易导致在远离目标的区域处产生极大的位置响应点，从而形成位置响应噪声。如图 5 中卷积匹配的位置响应图所示 (X、Y 轴无十分重要的物理意义，Z 轴表示相关性程度，数值越大表示该处与目标的相关性越大，则颜色越红)。相对的，在搜索区域中，目标的外形占比一定大于局部特征的占比，所以利用了外形信息的滤波匹配的位置响应大多会集中在目标区域处，如图 5 中滤波匹配的位置响应图所示，联合该外形信息的位置响应，可以有效地突出目标的所在区域，使得位置响应集中在目标区域处，从而达到抑制噪声，避免位置发生漂移的目的。如图 5 中修正的位置响应图所示，可以看到目标的位置响应图在修正后，抑制住了左边的噪声响应。联合该外形位置响应，涉及到数据融合技术，可以使用加权平均法、贝叶斯估计法[26] 、卡尔曼滤波法[27] 等，本文为验证想法直接采用了最为简单的加权平均法： Rrev = ηRconv +(1−η)Routl (6) η Rconv Routl Rrev Rconv Routl 式中：是权重值；是卷积匹配的位置响应；是利用外形信息的滤波匹配的位置响应；是最终经过修正之后的位置响应。三者之间的关系可参考图 4，由于修正前和的量纲不一致，故而在修正前，先分别对两个位置响应进行如下的归一化处理： Rnorm = Rold max(Rold) (7) 图 5 位置响应的变化 Fig. 5 The transform of position response map 3 实验配置以及评价指标 3.1 实验细节卷积匹配部分，网络的构成同文献 [12] 一样 (去除了网络的全连接部分)，权重的取值是经过 405 650 次随机梯度下降得到的，网络训练的数据集是从 ILSVRC-2015 视频数据集[29] 中提取出的 4 417 个视频序列，网络训练的损失函数为 ltrain =N −1∑ i, j Gi j × [ −ln( sigmoid( R i j conv))]+ ( 1−Gi j) × [ −ln( 1−sigmoid( R i j conv))] (8) N G i j G sigmoid 式中：为中的元素个数；、为中元素索引；函数为： sigmoid(x) = 1 1+exp(−x) (9) Z 127×127×3 X 255×255×3 f Zf 6×6×256 Xf 22×22×256 Rconv 255×255 0.01 训练时，网络的输入是一对样本，并且，执行一次梯度下降使用 8 对样本，一对样本中，的维度是，的维度是，经过网络后，的维度是，的维度是，经过三线性插值后，维度为，学习率采用动态学习率，初始值为，然后使用如下的指数衰减法进行衰减： l = linit ×r sglobal sdecay (10) linit r sglobal sdecay 式中：是初始学习率；是初始学习率的基本保留率，本文中取值为 0.868 5；表示当前是第几次梯度下降；表示经过几次梯度下降 ·728· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【人工智能基础】联合外形响应的深度目标追踪器