正在加载图片...
·728· 智能系统学报 第14卷 搜索区域,用X表示,其维度是H×W×3,将两 大,则颜色越红)。相对的,在搜索区域中,目标的 者通过权值固定的卷积网络f,f是文献[25]中 外形占比一定大于局部特征的占比,所以利用了 所提出的AlexNet网络(不包含全连接层),提取出 外形信息的滤波匹配的位置响应大多会集中在目 对应的卷积特征Z,和X,之后,通过相关操作得 标区域处,如图5中滤波匹配的位置响应图所示, 出目标的位置响应, 联合该外形信息的位置响应,可以有效地突出目 2.1.2滤波匹配部分 标的所在区域,使得位置响应集中在目标区域 在追踪器的滤波匹配部分,主要使用方向梯 处,从而达到抑制噪声,避免位置发生漂移的目 度直方图来提取目标的外形信息。由于目标的外 的。如图5中修正的位置响应图所示,可以看到 形信息常常存在于目标与背景之间,为了提取目 标的外形信息,需要包含一些背景信息,因此本 目标的位置响应图在修正后,抑制住了左边的噪 文直接在X中进行目标的外形信息提取。如果 声响应。联合该外形位置响应,涉及到数据融合 当前帧是首帧的话,就使用式(2)初始化滤波匹 技术,可以使用加权平均法、贝叶斯估计法2、卡 配时所需要的A和B,如果当前帧不是首帧的 尔曼滤波法7等,本文为验证想法直接采用了最 话,就利用式(⑤)求得目标的位置响应,然后再利 为简单的加权平均法: 用式(3)和式(4)更新A和B。 Rv=7Row+(1-刀)Roui (6) 2.2修正部分 式中:?是权重值;Rmv是卷积匹配的位置响应; 在没有使用外形信息对位置响应进行修正的 Raul是利用外形信息的滤波匹配的位置响应;R 情况下,由于卷积特征中多是类似于局部的、方 是最终经过修正之后的位置响应。三者之间的关 向性的特征,这种碎片化的特征容易导致在远离 系可参考图4,由于修正前Rom和Rt的量纲不 目标的区域处产生极大的位置响应点,从而形成 一致,故而在修正前,先分别对两个位置响应进 位置响应噪声。如图5中卷积匹配的位置响应图 行如下的归一化处理: 所示(X、Y轴无十分重要的物理意义,Z轴表示相 Rold (7) 关性程度,数值越大表示该处与目标的相关性越 Raom三 max(Rold) 的区域目标皮 0.50 1.0 0.8 0.000030 0.23 0.6 0.000025 0.4 0.000020 0.2 0.000015N -0.50 0.75 0.000010 0.2 0.000005 -1.00 00 100-50050100-1m%0.7l% 010o -10050050100 -100-50050100 0S0 X -100 (a)卷积匹配的位置响应 (6)滤波匹配的位置响应 (c)修正的位置响应 图5位置响应的变化 Fig.5 The transform of position response map 3实验配置以及评价指标 sigmoid(x)=1+exp(-x) (9) 3.1实验细节 训练时,网络的输入是一对样本,并且,执行 卷积匹配部分,网络的构成同文献[12]一样 一次梯度下降使用8对样本,一对样本中,Z的维 (去除了网络的全连接部分),权重的取值是经过 度是127×127×3,X的维度是255×255×3,经过 网络f后,Z,的维度是6×6×256,X的维度是 405650次随机梯度下降得到的,网络训练的数据 22×22×256,Rv经过三线性插值后,维度为 集是从ILSVRC-2015视频数据集2中提取出的 255×255,学习率采用动态学习率,初始值为0.01, 4417个视频序列,网络训练的损失函数为 然后使用如下的指数衰减法进行衰减: leaa=N'∑G×-ln(sigmoid(R)l川+ Sglobal 1=linit xrSdecay (10) (1-G)x-In(1-sigmoid(Rie (8) 式中:1是初始学习率;,是初始学习率的基本 式中:N为G中的元素个数;i、j为G中元素索 保留率,本文中取值为0.8685;5b表示当前是 引;sigmoid函数为: 第几次梯度下降;sy表示经过几次梯度下降X Hx ×Wx ×3 f f Zf Xf 搜索区域,用 表示,其维度是 ,将两 者通过权值固定的卷积网络 , 是文献 [25] 中 所提出的 AlexNet 网络 (不包含全连接层),提取出 对应的卷积特征 和 之后,通过相关操作得 出目标的位置响应。 2.1.2 滤波匹配部分 X A B A B 在追踪器的滤波匹配部分,主要使用方向梯 度直方图来提取目标的外形信息。由于目标的外 形信息常常存在于目标与背景之间,为了提取目 标的外形信息,需要包含一些背景信息,因此本 文直接在 中进行目标的外形信息提取。如果 当前帧是首帧的话,就使用式 (2) 初始化滤波匹 配时所需要的 和 ,如果当前帧不是首帧的 话,就利用式 (5) 求得目标的位置响应,然后再利 用式 (3) 和式 (4) 更新 和 。 2.2 修正部分 在没有使用外形信息对位置响应进行修正的 情况下,由于卷积特征中多是类似于局部的、方 向性的特征,这种碎片化的特征容易导致在远离 目标的区域处产生极大的位置响应点,从而形成 位置响应噪声。如图 5 中卷积匹配的位置响应图 所示 (X、Y 轴无十分重要的物理意义,Z 轴表示相 关性程度,数值越大表示该处与目标的相关性越 大,则颜色越红)。相对的,在搜索区域中,目标的 外形占比一定大于局部特征的占比,所以利用了 外形信息的滤波匹配的位置响应大多会集中在目 标区域处,如图 5 中滤波匹配的位置响应图所示, 联合该外形信息的位置响应,可以有效地突出目 标的所在区域,使得位置响应集中在目标区域 处,从而达到抑制噪声,避免位置发生漂移的目 的。如图 5 中修正的位置响应图所示,可以看到 目标的位置响应图在修正后,抑制住了左边的噪 声响应。联合该外形位置响应,涉及到数据融合 技术,可以使用加权平均法、贝叶斯估计法[26] 、卡 尔曼滤波法[27] 等,本文为验证想法直接采用了最 为简单的加权平均法: Rrev = ηRconv +(1−η)Routl (6) η Rconv Routl Rrev Rconv Routl 式中: 是权重值; 是卷积匹配的位置响应; 是利用外形信息的滤波匹配的位置响应; 是最终经过修正之后的位置响应。三者之间的关 系可参考图 4,由于修正前 和 的量纲不 一致,故而在修正前,先分别对两个位置响应进 行如下的归一化处理: Rnorm = Rold max(Rold) (7) 图 5 位置响应的变化 Fig. 5 The transform of position response map 3 实验配置以及评价指标 3.1 实验细节 卷积匹配部分,网络的构成同文献 [12] 一样 (去除了网络的全连接部分),权重的取值是经过 405 650 次随机梯度下降得到的,网络训练的数据 集是从 ILSVRC-2015 视频数据集[29] 中提取出的 4 417 个视频序列,网络训练的损失函数为 ltrain =N −1∑ i, j Gi j × [ −ln( sigmoid( R i j conv))]+ ( 1−Gi j) × [ −ln( 1−sigmoid( R i j conv))] (8) N G i j G sigmoid 式中: 为 中的元素个数; 、 为 中元素索 引; 函数为: sigmoid(x) = 1 1+exp(−x) (9) Z 127×127×3 X 255×255×3 f Zf 6×6×256 Xf 22×22×256 Rconv 255×255 0.01 训练时,网络的输入是一对样本,并且,执行 一次梯度下降使用 8 对样本,一对样本中, 的维 度是 , 的维度是 ,经过 网络 后 , 的维度是 , 的维度是 , 经过三线性插值后,维度为 ,学习率采用动态学习率,初始值为 , 然后使用如下的指数衰减法进行衰减: l = linit ×r sglobal sdecay (10) linit r sglobal sdecay 式中: 是初始学习率; 是初始学习率的基本 保留率,本文中取值为 0.868 5; 表示当前是 第几次梯度下降; 表示经过几次梯度下降 ·728· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有