工程科学学报,第39卷.第8期:1238-1243,2017年8月 Chinese Journal of Engineering,Vol.39,No.8:1238-1243,August 2017 D0L:10.13374/j.issn2095-9389.2017.08.014;htp:/journals..usth.edu.cn 序列图像运动自适应V1-MT光流估计算法 李帅),樊晓光),许悦雷,李文倩),黄金科” 1)空军工程大学航空航天工程学院,西安7100382)陕西服装工程学院,咸阳712046 ☒通信作者,E-mail:lishuailisuai(@163.com 摘要针对传统算法在抗光照变化影响、大位移光流和异质点滤除等方面的不足,从人类视觉认知机理出发,提出了一种 基于机器学习和生物模型的运动自适应VI-MT(motion-adaptive V1-MT,MAVIMT)序列图像光流估计算法.首先,引入基于 ROF模型的结构纹理分解(structure-texture decomposition,STD)技术,有效解决了光照和色彩变化的影响.其次,利用多V1细 胞加权组合及非线性正则化模拟MT细胞模型,并结合岭回归训练学习得到运动自适应的权重,解决对目标的运动速度感知 问题.最后,引入由粗到精的增强方法和图像金字塔局部运动估计采样,将V1-MT运动估计模型应用于实际大位移视频序 列.理论分析和实验结果表明,新方法能更加拟合人眼视觉信息处理特性,对视频序列具有普适、有效、鲁棒的运动感知 性能. 关键词光流:V1;MT:时空滤波器:运动感知:岭回归 分类号TP183 Bio-inspired motion-adaptive estimation algorithm of sequence image ⅡShuai,FAN Xiao-guang’,XUhe-lei',UWem-gian2”,HUANG Jin--ke) 1)School Aeronautics and Astronautics Engineering,Air Force Engineering University,Xi'an 710038,China 2)Shaanxi Fashion Engineering University,Xianyang 712046,China Corresponding author,E-mail:lishuailisuai@163.com ABSTRACT To overcome the insufficiencies of varying illumination,large displacement estimation,and outlier removal,a motion- adaptive V1-MT(MAVIMT)motion estimation algorithm based on machine learning and a bio-inspired model of sequence image was proposed,starting from the theory of visual cognition.First,a structure-texture decomposition technique based on the Rudin Osher Fatemi ROF)model was introduced to manage the variation in illumination and color.Then,a pooling stage at the MT level with non-normalization,which combines the afferent VI responses using the adaptive weights trained by ridge regression,is modeled to ob- tain the local velocities.Finally,through introducing the coarse-to-fine method and pyramid structure subsampling of the local motion, the MAVIMT model is used on realistic video.Theoretical analysis and experimental results suggest the new algorithm,which is more fitting to information processing features of the human visual system,has universal,effective and robust motion perception perform- ance. KEY WORDS optical flow;V1;MT;spatial-temporal filter;motion perception;ridge regression 运动感知既是生物认知动态世界的关键,也是机计序列图像的光流场成为视频应用的关键.目前, 器视觉系统模拟解译视频序列的核心问题。而运动感 许多研究学者在光流估计领域取得了很多理论研究成 知中的关键研究就是光流估计,即相机与场景目标间 果,如Hom和Schunck首先提出了时空微分估计序列 有相对运动时所观察到的图像亮度模式运动,精确估 图像光流的HS模型[],Butler等采用sparse-lo-dense 收稿日期:2016-09-13 基金项目:国家自然科学基金资助项目(61372167,61379104)
工程科学学报,第 39 卷,第 8 期:1238鄄鄄1243,2017 年 8 月 Chinese Journal of Engineering, Vol. 39, No. 8: 1238鄄鄄1243, August 2017 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2017. 08. 014; http: / / journals. ustb. edu. cn 序列图像运动自适应 V1鄄鄄 MT 光流估计算法 李 帅1) 苣 , 樊晓光1) , 许悦雷1) , 李文倩2) , 黄金科1) 1) 空军工程大学航空航天工程学院, 西安 710038 2) 陕西服装工程学院, 咸阳 712046 苣 通信作者, E鄄mail: lishuailisuai@ 163. com 摘 要 针对传统算法在抗光照变化影响、大位移光流和异质点滤除等方面的不足,从人类视觉认知机理出发,提出了一种 基于机器学习和生物模型的运动自适应 V1鄄鄄MT(motion鄄adaptive V1鄄鄄MT,MAV1MT)序列图像光流估计算法. 首先,引入基于 ROF 模型的结构纹理分解(structure鄄texture decomposition,STD)技术,有效解决了光照和色彩变化的影响. 其次,利用多 V1 细 胞加权组合及非线性正则化模拟 MT 细胞模型,并结合岭回归训练学习得到运动自适应的权重,解决对目标的运动速度感知 问题. 最后,引入由粗到精的增强方法和图像金字塔局部运动估计采样,将 V1鄄鄄 MT 运动估计模型应用于实际大位移视频序 列. 理论分析和实验结果表明,新方法能更加拟合人眼视觉信息处理特性,对视频序列具有普适、有效、鲁棒的运动感知 性能. 关键词 光流; V1; MT; 时空滤波器; 运动感知; 岭回归 分类号 TP183 Bio鄄inspired motion鄄adaptive estimation algorithm of sequence image LI Shuai 1) 苣 , FAN Xiao鄄guang 1) , XU Yue鄄lei 1) , LI Wen鄄qian 2) , HUANG Jin鄄ke 1) 1) School Aeronautics and Astronautics Engineering, Air Force Engineering University, Xi爷an 710038, China 2) Shaanxi Fashion Engineering University, Xianyang 712046, China 苣 Corresponding author, E鄄mail: lishuailisuai@ 163. com ABSTRACT To overcome the insufficiencies of varying illumination, large displacement estimation, and outlier removal, a motion鄄 adaptive V1鄄鄄MT (MAV1MT) motion estimation algorithm based on machine learning and a bio鄄inspired model of sequence image was proposed, starting from the theory of visual cognition. First, a structure鄄texture decomposition technique based on the Rudin Osher Fatemi (ROF) model was introduced to manage the variation in illumination and color. Then, a pooling stage at the MT level with non鄄normalization, which combines the afferent V1 responses using the adaptive weights trained by ridge regression, is modeled to ob鄄 tain the local velocities. Finally, through introducing the coarse鄄to鄄fine method and pyramid structure subsampling of the local motion, the MAV1MT model is used on realistic video. Theoretical analysis and experimental results suggest the new algorithm, which is more fitting to information processing features of the human visual system, has universal, effective and robust motion perception perform鄄 ance. KEY WORDS optical flow; V1; MT; spatial鄄temporal filter; motion perception; ridge regression 收稿日期: 2016鄄鄄09鄄鄄13 基金项目: 国家自然科学基金资助项目(61372167, 61379104) 运动感知既是生物认知动态世界的关键,也是机 器视觉系统模拟解译视频序列的核心问题. 而运动感 知中的关键研究就是光流估计,即相机与场景目标间 有相对运动时所观察到的图像亮度模式运动,精确估 计序列图像的光流场成为视频应用的关键[1] . 目前, 许多研究学者在光流估计领域取得了很多理论研究成 果,如 Horn 和 Schunck 首先提出了时空微分估计序列 图像光流的 HS 模型[2] ,Butler 等采用 sparse鄄to鄄dense
李帅等:序列图像运动自适应V1-MT光流估计算法 ·1239· 的思想,利用粗算的稀疏特征匹配结合精算的主成分 单细胞和复杂细胞两类,它们的响应可以由一系列滤 分析插值法准确估计光流场[3],Revaud等提出了一致 波器响应输出的非线性组合模拟得到,其中最为关键 性边缘保持的光流估计算法[.但是,这些算法基于 的是对感受野的恰当分析和模拟.简单细胞感受野可 的数学模型需要一定的先验,算法普适性和鲁棒性均 以看作是线性时空滤波器,滤波输出.复杂细胞感受 不强,而为了提高准确性需要增加模型的复杂性,这必 野输出可以由经过合适的正则化处理叠加得到,一般 然大大增加计算复杂度 有MAX模型、能量模型、学习模型三种叠加方式. 基于生物视皮层机制的运动特征分析通过模拟背 对于一个实测灰度视频序列I(p,t),光流(, 侧通路(dorsal stream)的初级视皮层VI细胞、中层MT 飞,)(P,)可以定义为在一定时间t下序列图像中所有 细胞特性实现对运动感知.目前生物学研究普遍认为 位置p=(x,y)的运动矢量场,其中,,分别表示水 V1细胞对运动方向敏感,而T细胞则对特定速度具 平方向x和垂直方向y上目标的运动速率.本文采用 有差异较大的响应,因此通过模拟这两种生物视觉认 三维Gaor时空滤波器模拟简单细胞的感受野,式(1) 知系统的区域细胞必然可以高效的解决运动感知问 和(2)分别表示时间滤波器H和空间滤波器K 题.由于视觉认知机制这种固有的智能优越性,基于 p,0)=Be-2ae2a(ow,(1) 生物神经科学理论的运动感知及估计逐渐成为神经科 K(If)=e(eRsup) (2) 学与机器视觉交叉研究的热点问题),但是目前相关 其中,B是定义了滤波器包络幅值的常量,j是标准虚 的研究主要还是针对随机点(或光栅等)序列进行的, 数,0表示简单细胞偏好方向,含有N个分量,即[0, 结合最新的生物模型或改进的模型进行光流估计的研 62,…,,]Jσ和,、T分别定义了细胞感受野的空间 究还相对匮乏.Heeger在1988年首次在文献[6]中提 频率、空间尺度和时间频率、时间尺度,而这些参数决 出利用细胞运动感知特性计算光流,Rust等)]分别对 定了V1简单细胞的偏好方向矢量v,大小为厂f.公 该模型进行了发展,但研究对象都是随机点、光栅等一 式(1)和(2)中最后一项代表Gabor时空滤波器的相 致性较好的生物试验序列图像.Nishimoto和Gallant 位,本文将这一复数展开分别得到时空滤波器的实部 提出了基于Heeger和Simoncelli细胞模型以及Boos- H。、H。和虚部K。、K。,由此可以得到两类(奇函数和偶 ing回归的自然视频序列三维时空感受野模型[s). 函数)三维Gabor时空滤波器, 2015年,Solari等首次提出了前馈V1-MT细胞模型 G.(p,t,0,v)=H.(p,0f)K.(tf)+ (feedforward VI-MT,FFV1MT)估计序列图像的光流 H(p,0f)K (tf), (3) 场,该方法结合横向和反馈交互有效解决了孔径问题, 但是在强纹理和边缘区域估计效果鲁棒性较差[] G(p,t,0,v)=H(p,0,f)K.(t,f)- (4) 基于以上分析,本文从生物神经科学出发,借鉴细 H(p,0f,)K (tf). 这些奇、偶滤波器定义了简单细胞的方向感知特 胞模型前沿研究理论,提出了一种改进的运动自适应 性,视频序列经过奇滤波器的输出为式(5),其中*表 VI-MT(motion-adaptive V1-MT,MAVIMT)光流估计 示卷积运算.同理可得经过偶滤波器的输出R。 算法,该模型可以作为后续生物与机器视觉交叉学科 研究的基本思路.首先,提出了一种改进的V1-MT细 R.(p,t,0,)=(G.(p,0.y)I)(p,).(5) 胞模型,以三维时空Gabor滤波器模拟VI简单细胞的 V1复杂细胞输出一般采用简单细胞的能量叠加 感受野,结合调谐和非调谐正则化方法拟合V1复杂 及正则化估计得到,如公式(6)、(7)所示,其中E、E 细胞模型.进一步利用Rus细胞模型机器学习训练得 分别表示简单细胞能量叠加结果和正则化输出.并且 到自适应权重,并将V1响应输出加权组合得到MT细 当输入刺激(图像序列)运动方向与V1细胞偏好方向 胞的响应,并结合调谐MT细胞的响应速度空间采样 一致时,V1复杂细胞的响应输出最大 和局部速度解码.最后,针对目前研究细胞特性常使 E(p,t,0,)=√R。(p,l,0,)+R。(p,t,0,y), 用随机点、光栅等一致性较好刺激,且缺乏场景视频时 (6) 空滤波平面等不足,引入金字塔多尺度分层(解决自 E0(p,t,0,v)= E(p,L,0,w)2 (7) 然场景速度跨度范围较大的问题)、响应反馈等提出 ∑E(p,l,0,)2+ VI-MT运动感知模型,并将该模型应用于Middlebury 实际复杂场景的运动目标感知和光流估计中 式(7)为非调谐正则化项,其中的专,是为了避免弱纹 理图像能量为零的情况,可任取远小于1的正数 1MAV1MT细胞模型 但是,非调谐正则化对刺激响应强烈的细胞表达 1.1V1细胞模型 不足,因此本文参考Rust的方法[],通过引入正常量 初级视皮层(primary visual cortex,V1)常分为简 专2进一步修正响应值,提出调谐正则化(self-normaliza-
李 帅等: 序列图像运动自适应 V1鄄鄄MT 光流估计算法 的思想,利用粗算的稀疏特征匹配结合精算的主成分 分析插值法准确估计光流场[3] ,Revaud 等提出了一致 性边缘保持的光流估计算法[4] . 但是,这些算法基于 的数学模型需要一定的先验,算法普适性和鲁棒性均 不强,而为了提高准确性需要增加模型的复杂性,这必 然大大增加计算复杂度. 基于生物视皮层机制的运动特征分析通过模拟背 侧通路(dorsal stream)的初级视皮层 V1 细胞、中层 MT 细胞特性实现对运动感知. 目前生物学研究普遍认为 V1 细胞对运动方向敏感,而 MT 细胞则对特定速度具 有差异较大的响应,因此通过模拟这两种生物视觉认 知系统的区域细胞必然可以高效的解决运动感知问 题. 由于视觉认知机制这种固有的智能优越性,基于 生物神经科学理论的运动感知及估计逐渐成为神经科 学与机器视觉交叉研究的热点问题[5] ,但是目前相关 的研究主要还是针对随机点(或光栅等)序列进行的, 结合最新的生物模型或改进的模型进行光流估计的研 究还相对匮乏. Heeger 在 1988 年首次在文献[6]中提 出利用细胞运动感知特性计算光流,Rust 等[7] 分别对 该模型进行了发展,但研究对象都是随机点、光栅等一 致性较好的生物试验序列图像. Nishimoto 和 Gallant 提出了基于 Heeger 和 Simoncelli 细胞模型以及 Boos鄄 ting 回归的自然视频序列三维时空感受野模型[8] . 2015 年,Solari 等首次提出了前馈 V1鄄鄄 MT 细胞模型 (feedforward V1鄄鄄MT, FFV1MT) 估计序列图像的光流 场,该方法结合横向和反馈交互有效解决了孔径问题, 但是在强纹理和边缘区域估计效果鲁棒性较差[9] . 基于以上分析,本文从生物神经科学出发,借鉴细 胞模型前沿研究理论,提出了一种改进的运动自适应 V1鄄鄄MT(motion鄄adaptive V1鄄鄄 MT, MAV1MT)光流估计 算法,该模型可以作为后续生物与机器视觉交叉学科 研究的基本思路. 首先,提出了一种改进的 V1鄄鄄MT 细 胞模型,以三维时空 Gabor 滤波器模拟 V1 简单细胞的 感受野,结合调谐和非调谐正则化方法拟合 V1 复杂 细胞模型. 进一步利用 Rust 细胞模型机器学习训练得 到自适应权重,并将 V1 响应输出加权组合得到 MT 细 胞的响应,并结合调谐 MT 细胞的响应速度空间采样 和局部速度解码. 最后,针对目前研究细胞特性常使 用随机点、光栅等一致性较好刺激,且缺乏场景视频时 空滤波平面等不足,引入金字塔多尺度分层(解决自 然场景速度跨度范围较大的问题)、响应反馈等提出 V1鄄鄄MT 运动感知模型,并将该模型应用于 Middlebury 实际复杂场景的运动目标感知和光流估计中. 1 MAV1MT 细胞模型 1郾 1 V1 细胞模型 初级视皮层( primary visual cortex, V1) 常分为简 单细胞和复杂细胞两类,它们的响应可以由一系列滤 波器响应输出的非线性组合模拟得到,其中最为关键 的是对感受野的恰当分析和模拟. 简单细胞感受野可 以看作是线性时空滤波器,滤波输出. 复杂细胞感受 野输出可以由经过合适的正则化处理叠加得到,一般 有 MAX 模型、能量模型、学习模型三种叠加方式. 对于一个实测灰度视频序列 I( p, t),光流 v( vx, vy)(p,t)可以定义为在一定时间 t 下序列图像中所有 位置 p = (x, y)的运动矢量场,其中 vx,vy 分别表示水 平方向 x 和垂直方向 y 上目标的运动速率. 本文采用 三维 Gabor 时空滤波器模拟简单细胞的感受野,式(1) 和(2)分别表示时间滤波器 H 和空间滤波器 K. H(p,兹,f s) = Be ( - (x 2 + y 2 ) / (2滓 2 )) e j2仔(f s cos(兹)x + f s sin(兹)y) , (1) K(t,f t) = e ( - t / 子) e j2仔(f t t) . (2) 其中,B 是定义了滤波器包络幅值的常量,j 是标准虚 数,兹 表示简单细胞偏好方向,含有 N 个分量,即[ 兹1 , 兹2 ,…,兹N ],f s、滓 和 f t、子 分别定义了细胞感受野的空间 频率、空间尺度和时间频率、时间尺度,而这些参数决 定了 V1 简单细胞的偏好方向矢量 v c ,大小为 f t / f s . 公 式(1)和(2)中最后一项代表 Gabor 时空滤波器的相 位,本文将这一复数展开分别得到时空滤波器的实部 Ho、He 和虚部 Ko、Ke,由此可以得到两类(奇函数和偶 函数)三维 Gabor 时空滤波器, Go(p,t,兹,v c ) = Ho(p,兹,f s)Ke(t,f t) + He(p,兹,f s)Ko(t,f t), (3) Ge(p,t,兹,v c ) = He(p,兹,f s)Ke(t,f t) - He(p,兹,f s)Ko(t,f t). (4) 这些奇、偶滤波器定义了简单细胞的方向感知特 性,视频序列经过奇滤波器的输出为式(5),其中*表 示卷积运算. 同理可得经过偶滤波器的输出 Re . Ro(p,t,兹,v c ) = (Go(p,t,兹,v c ) * (x,y,t) I)(p,t). (5) V1 复杂细胞输出一般采用简单细胞的能量叠加 及正则化估计得到,如公式(6)、(7)所示,其中 E、E V1 P 分别表示简单细胞能量叠加结果和正则化输出. 并且 当输入刺激(图像序列)运动方向与 V1 细胞偏好方向 一致时,V1 复杂细胞的响应输出最大. E(p,t,兹,v c ) = Ro (p,t,兹,v c ) 2 + Re (p,t,兹,v c ) 2 , (6) E V1 P (p,t,兹,v c ) = E (p,t,兹,v c ) 2 移 N i = 1 E (p,t,兹,v c ) 2 + 孜 2 1 . (7) 式(7)为非调谐正则化项,其中的 孜1 是为了避免弱纹 理图像能量为零的情况,可任取远小于 1 的正数. 但是,非调谐正则化对刺激响应强烈的细胞表达 不足,因此本文参考 Rust 的方法[7] ,通过引入正常量 孜2 进一步修正响应值,提出调谐正则化( self鄄normaliza鄄 ·1239·
·1240· 工程科学学报,第39卷,第8期 tion),则V1细胞的最终输出E"(p,t,0,v)为 E(p,l,0,v) 其中,= vE (p,t,di/ " E(p,t,di, E"(p,t,0,v)= (8) E(p,t,0,v)+点2 ),为简单细胞偏好方向”的第i个分量. 1.2MT细胞模型 假设真实光流值为(“,x),引入有偏估计的岭回 神经生理学实验表明,灵长类视觉脑皮层的中颞 归(ridge regression),本文采用共轭梯度下降法最小化 区(middle temporal,MT)在运动感知中起到至关重要 误差函数J得到权值W, 的作用,而该区域主要来自接收V1区细胞的投射,其 J=‖(Wavcosd)T-E"-D,‖2+ 细胞感受野是V1细胞感受野的数倍.一般情况下, ll (W v'sin d).Ev-v l2+l W ll 2.(13) MT区细胞响应通过对V1区细胞的时空采样得到,其 其中,入为岭回归惩罚项,通过损失部分信息获取可靠 中空间上通过对正则化后的V1输出进行线性组合, 性更高、更稳定的回归系数 方向上模拟V1响应对MT运动感知的加权组合(权值 2基于细胞模型的光流估计算法 的正负模拟V1对MT细胞的兴奋与抑制),如式(9) 所示. 基于上文提出的V1、MT细胞模型,本文提出的光 Er(p,,d,w)=∑w(0,)E"(pl,0,v)= 流估计算法基本流程如图1所示,同时为了更好的解 决复杂自然场景运动估计问题,首先采用基于ROF模 WE"(p,t,0,v). (9) 型的结构纹理分解(structure-texture decomposition, 由上述可知,MT区细胞响应结果E"直接取决于 STD)技术[o],将分解后得到的纹理图用以后续的光 方向权值w(0,),其中6表示第i个偏好方向.生物 流计算,从而消除光流计算对光照变化敏感的难题. 试验表明,心4(6:)是一个中心兴奋、边缘抑制的平滑函 结构纹理分解STD技术最先由Bertalmio等引入 数,因此在文献[9]中,权值选用余弦(或正弦)函数. 图像复原领域,从图像中提取感兴趣的有效信息.本 其实,方向权值除了人为选取函数外,本文提出通过样 文运用STD的方法以解决光照强度变化以及由此产 本学习训练估计方向权值,这就避免了选取函数拟合 生的阴影等问题,其理论基础在于图像可以看作是由 效果无法确定的不足.首先,初始化方向权值w,设计 结构部分和纹理部分组成,前者主要包含图像中几何 两组偏好方向分别为0和π/2的MT估计光流场.已 信息,如条纹、边缘等,后者主要是一些具有周期或振 知偏好方向为d的细胞对刺激的运动估计值为"4,本 荡特性的小尺度细节信息.而光照强度变化仅仅影响 文采用约束线交叉法(intersection of constraints,IOC) 结构图,因此将纹理图像作为估计过程的输入数据便 最小化损失函数来估计速度矢量v(,,),则有 可避免光照变化对计算结果的影响. v=arg minG(v)= STD方法是利用基于总变分的ROF去噪模型.对 于灰度图像A(x),其结构部分A,的求解模型为 arg min 2(w,-[cosd sind]'y}(10) d-d 其中,d为(0,)的第i个方向,N为采样个数,v表 min(.) (14) 示对应方向d,的运动估计值.上式可以通过求解极小 式中,2为所求图像范围:α为常量 值(梯度为0)求解,即 为了求解上式,引入A,的对偶变量Y,采用原始 c-22 对偶法最小化能量泛函,令A,=A,+adivy,则对偶变 dv, (va -v,cos di-v,sin di)cos di=0, 量y=[Y1y2]'的迭代求解方法为: c(v=-22 dv, (v -v,cos di -v,sin d)sin d;=0. 夕"=y+[(A+adiv)】 (15) 4 (11) y= 产+1 max1, 又由于余弦函数的正交特性,则有 cos'd= 其中,Y=0,n取正整数,常数 n=N2, 图像的纹理分量A,为原始图与结构分量之差, cosd,sind,=0.因此,刺激运动 d,-d, 即A,=A(x)-A,将分解后得到的纹理图用以后续 估计(光流估计值)可由MT细胞解码得到, 的光流计算,如图1所示. 2 (p,)= 然后,采用经典的由粗到细的多尺度金字塔分 cos d)v; 层技术,本文根据图像的大小(长为1,宽为m)自适 ,p)=之 2 应的多尺度分层方法,在保证计算准确性的同时减 sin d)v (12) 少冗余数据,如式(16)所示.另外,为了保证相邻两
工程科学学报,第 39 卷,第 8 期 tion),则 V1 细胞的最终输出 E V1 (p,t,兹,v c )为 E V1 (p,t,兹,v c ) = E V1 P (p,t,兹,v c ) E V1 P (p,t,兹,v c ) + 孜2 . (8) 1郾 2 MT 细胞模型 神经生理学实验表明,灵长类视觉脑皮层的中颞 区(middle temporal,MT)在运动感知中起到至关重要 的作用,而该区域主要来自接收 V1 区细胞的投射,其 细胞感受野是 V1 细胞感受野的数倍. 一般情况下, MT 区细胞响应通过对 V1 区细胞的时空采样得到,其 中空间上通过对正则化后的 V1 输出进行线性组合, 方向上模拟 V1 响应对 MT 运动感知的加权组合(权值 的正负模拟 V1 对 MT 细胞的兴奋与抑制),如式(9) 所示. E MT (p,t,d,v c ) = 移i wd (兹i)E V1 (p,t,兹i,v c ) = W T dE V1 (p,t,兹,v c ). (9) 由上述可知,MT 区细胞响应结果 E MT直接取决于 方向权值 wd (兹i),其中 兹i 表示第 i 个偏好方向. 生物 试验表明,wd (兹i)是一个中心兴奋、边缘抑制的平滑函 数,因此在文献[9]中,权值选用余弦(或正弦)函数. 其实,方向权值除了人为选取函数外,本文提出通过样 本学习训练估计方向权值,这就避免了选取函数拟合 效果无法确定的不足. 首先,初始化方向权值 wd ,设计 两组偏好方向分别为 0 和 仔/ 2 的 MT 估计光流场. 已 知偏好方向为 d 的细胞对刺激的运动估计值为 vd ,本 文采用约束线交叉法( intersection of constraints,IOC) 最小化损失函数来估计速度矢量 v(vx,vy),则有 v = arg min v {G(v)} = arg min { v 移 dN di = d1 (vdi - v [cosdi sindi] T ) } 2 . (10) 其中,di 为(0, 仔) 的第 i 个方向,N 为采样个数,vdi表 示对应方向 di 的运动估计值. 上式可以通过求解极小 值(梯度为 0)求解,即 鄣G(v) 鄣vx = - 2 移 dN di = d1 (vdi - vx cos di - vy sin di)cos di = 0, 鄣G(v) 鄣vy = - 2 移 dN di = d1 (vdi - vx cos di - vy sin di)sin di = 0. (11) 又由于余弦函数的正交特性,则有 移 dN di = d1 cos 2 di = 移 dN di = d1 sin 2 di = N/ 2, 移 dN di = d1 cos di sin di = 0. 因此,刺激运动 估计(光流估计值)可由 MT 细胞解码得到, vx(p,t) = 2 N 移 dN di = d1 (cos di)vdi ; vy(p,t) = 2 N 移 dN di = d1 (sin di)vdi . (12) 其中, vdi = 移 M i = 1 v c i E MT ( p, t, di, v c i ) 移 M i = 1 E MT ( p, t, di, v c i ),v c i 为简单细胞偏好方向 v c 的第 i 个分量. 假设真实光流值为( u,v),引入有偏估计的岭回 归(ridge regression),本文采用共轭梯度下降法最小化 误差函数 J 得到权值 Wd , J = 椰(Wd v c cosd) T·E V1 - vx椰2 + 椰(Wd v c sin d) T·E V1 - vy椰2 + 姿 椰Wd椰2 . (13) 其中,姿 为岭回归惩罚项,通过损失部分信息获取可靠 性更高、更稳定的回归系数. 2 基于细胞模型的光流估计算法 基于上文提出的 V1、MT 细胞模型,本文提出的光 流估计算法基本流程如图 1 所示,同时为了更好的解 决复杂自然场景运动估计问题,首先采用基于 ROF 模 型的 结 构 纹 理 分 解 ( structure鄄texture decomposition, STD)技术[10] ,将分解后得到的纹理图用以后续的光 流计算,从而消除光流计算对光照变化敏感的难题. 结构纹理分解 STD 技术最先由 Bertalmio 等引入 图像复原领域,从图像中提取感兴趣的有效信息. 本 文运用 STD 的方法以解决光照强度变化以及由此产 生的阴影等问题,其理论基础在于图像可以看作是由 结构部分和纹理部分组成,前者主要包含图像中几何 信息,如条纹、边缘等,后者主要是一些具有周期或振 荡特性的小尺度细节信息. 而光照强度变化仅仅影响 结构图,因此将纹理图像作为估计过程的输入数据便 可避免光照变化对计算结果的影响. STD 方法是利用基于总变分的 ROF 去噪模型. 对 于灰度图像 A(x),其结构部分 AS 的求解模型为 min 乙 [ 赘 | 驻 AS | + 1 2琢 (AS - A) ] 2 dx. (14) 式中,赘 为所求图像范围;琢 为常量. 为了求解上式,引入 AS 的对偶变量 酌i,采用原始 对偶法最小化能量泛函,令 AS = AS + 琢div酌,则对偶变 量 酌 = [酌1 酌2 ] T 的迭代求解方法为: 酌^ n + 1 = 酌 n + 资 琢 [ 驻 (A + 琢div酌 n )] 酌 n + 1 = 酌^ n + 1 max{1, | 酌^ n + 1 | ü þ ý ï ï ï ï } , 资臆 1 4 . (15) 其中,酌 0 = 0,n 取正整数,常数. 图像的纹理分量 AX 为原始图与结构分量之差, 即 AX = A(x) - AS ,将分解后得到的纹理图用以后续 的光流计算,如图 1 所示. 然后,采用经典的由粗到细的多尺度金字塔分 层技术,本文根据图像的大小(长为 l,宽为 m) 自适 应的多尺度分层方法,在保证计算准确性的同时减 少冗余数据,如式(16)所示. 另外,为了保证相邻两 ·1240·
李帅等:序列图像运动自适应V1-MT光流估计算法 ·1241· 原图A) 纹理图A 结构图A [o 图1自然图像的结构纹理分解 Fig.1 Structure-texture decomposition 层图像的平滑过渡且时间消耗适当,后续实验中的 定量分析.参考相关文献[1,3,12],本文采用实验结 采样比例因子设定为0.75,将有效解决了大位移运 果统计值:平均角度误差(average angular error,AAE)、 动估计问题 平均终点误差(average end-point error,AEPE)和标准 差(standard deviations,SD)对算法效果进行估计]. Level =1 floor (log(min I,m))/16 (16) log 2 实验1该实验选择在Middlebury自然图像序列 其中,loor为标准取整函数. 运动估计标准库[]的训练集(有公开真实光流数据) 和测试集中分别进行验证分析,该数据库包含锐利的 3实验结果及分析 边缘、高速大位移运动和遮挡等特殊情况.图2为部 为了验证本文提出算法的有效性、普适性,本文基 分训练数据集的估计结果,其中第一列图(a)和第二 于Matlab开发环境对得到的运动估计结果做定性和 列图(b)分别为原始序列图像和所对应的光流值:图 (c)FFVIMT (d本文算法 50 50 50 0 (a)原图 b)真实光流 c1)角度误差图 (c2)光流估计值 d1)角度误差图 (d2)光流估计值 (e)AAE=AAEV AAE本文算法 图2不同算法在自然场景数据库Middlebury训练数据集的结果对比 Fig.2 Comparison of the results on the Middlebury training set between the model and FFVIMT
李 帅等: 序列图像运动自适应 V1鄄鄄MT 光流估计算法 图 1 自然图像的结构纹理分解 Fig. 1 Structure鄄texture decomposition 层图像的平滑过渡且时间消耗适当,后续实验中的 采样比例因子设定为 0郾 75,将有效解决了大位移运 动估计问题[11] . Level = 1 + floor ( log(min ( l,m)) / 16 ) log 2 . (16) 其中,floor 为标准取整函数. 图 2 不同算法在自然场景数据库 Middlebury 训练数据集的结果对比 Fig. 2 Comparison of the results on the Middlebury training set between the model and FFV1MT 3 实验结果及分析 为了验证本文提出算法的有效性、普适性,本文基 于 Matlab 开发环境对得到的运动估计结果做定性和 定量分析. 参考相关文献[1,3,12],本文采用实验结 果统计值:平均角度误差( average angular error,AAE)、 平均终点误差( average end鄄point error,AEPE) 和标准 差(standard deviations,SD)对算法效果进行估计[9] . 实验 1 该实验选择在 Middlebury 自然图像序列 运动估计标准库[12]的训练集(有公开真实光流数据) 和测试集中分别进行验证分析,该数据库包含锐利的 边缘、高速大位移运动和遮挡等特殊情况. 图 2 为部 分训练数据集的估计结果,其中第一列图( a)和第二 列图(b)分别为原始序列图像和所对应的光流值;图 ·1241·
·1242 工程科学学报,第39卷,第8期 (c)为FFVIMT算法对应的实验结果,第三列图(c1) 一列colorbar的范围及图(e)中δAAE的取值结果可 表示角度误差图(AAEFEVINT),第四列图(c2)表示 以很明显得出,本文算法在边缘处的保持效果更好. FFVIMT算法计算得到的光流估计编码图:同样,图 但是,由于本文算法需要对权重进行训练,必然导致较 (d)表示本文算法对应的实验结果,第五列图(d1)表 FFVIMT算法更高的计算复杂度和运算时间. 示角度误差图(AAE本文算法),第六列图(d2)表示本文 表1为本文算法与FFV1MT生物模型的客观对 算法的光流估计编码图.可以看出,迭代训练结束后 比,由于平均角度误差反映了计算的光流矢量场整体 本文算法有效解决了光照变化、大位移光流和异质点 偏离标准光流矢量场的程度,平均终点误差用以衡量 等影响,较F℉VIMT算法等具有较好的普适性和有效 计算的光流场的矢量长度与标准光流场的矢量长度之 性,尤其是在边缘不连续处(如Grove3?等)、高速遮挡 间的误差.在进行算法比较时,估计的结果越接近真 情况下(如Urban.3等)的估计效果.第七列图(e)中 实光流,也就是平均角度误差和平均终点误差越小的 δAAE表示本文算法与FFVIMT算法的角度误差之间 时候,表示算法的效果越好,而这与图2得出的结论一 的差值图(δAAE=AAEFEVINT-AAE本算法),根据最后 致,进一步说明了本文提出的MAVIMT较FFVIMT算 表1本文算法与FFV1MT生物模型估计结果的客观对比 Table 1 Comparison of error measurements between the model and FFVIMT 算法 评价指标 Grove2 Grove3 Hydrangea RubberWhale Urban2 Urban3 Yosemite AAE±SD 4.28±10.259.72±19.345.96±11.1710.20±17.6714.51±21.0215.11±35.283.41±5.44 FFVIMT AEPE±SD0.29±0.621.13±1.850.62±0.960.34±0.541.46±2.13.1.88±3.270.16±0.18 AAE±SD 3.85±9.619.81±18.485.22±11.108.80±13.7412.06±19.0912.52±31.503.29±5.21 本文算法 AEPE±SD 0.20±0.42 0.96±1.440.49±0.660.32±0.46 1.26±1.301.33±2.050.11±0.15 法效果运动估计结果更准确 础上更符合自然数据特性.但是在锐利边缘和高速遮 实验2为了进一步检验本文算法处理实际问题 挡等情况下仍存在一定不足,这主要是由于生物初级 的性能,对其他测试运动图像序列进行运动估计验证, 视觉在V1区域细胞感受野(滤波器组)对图像序列边 结果如图3所示.图中包含多个图像序列,第一行为 缘的模糊等客观现实决定的.从得到的光流估计的图 光流矢量图,第二行为光流编码图,第三行为原始输入 像中能明显看出,光流编码图的效果较好,而且光流矢 样本图像.从图中可以看出,本文算法较F℉VIMT模 量场的轮廓也较为清晰,不同方向的目标运动估计效 型有了一定的提高,主要是由于MT细胞响应处理权 果明显,进一步证明了本文MAV1MT算法较好的普适 重的学习较固定的高斯余弦函数在拟合生物视觉的基 性、有效性和鲁棒性 矢量 光流 编码 列 Urban Backyard Basketball Evergreen Wooden Mequon 图3 MMVIMT算法在部分测试集序列上的估计结果 Fig.3 Performance of the MAVIMT model on the Middlebury test set 4结论 前沿研究理论,提出了一种有效的、普适的和鲁棒的 MAVIMT运动估计算法,较好的解决了光照影响、大 本文针对人眼视觉运动感知特性,借鉴细胞模型 位移、边缘不连续等问题.引入基于ROF模型的STD
工程科学学报,第 39 卷,第 8 期 (c)为 FFV1MT 算法对应的实验结果,第三列图( c1) 表示角 度 误 差 图 ( AAEFFV1MT ), 第 四 列 图 ( c2 ) 表 示 FFV1MT 算法计算得到的光流估计编码图;同样,图 (d)表示本文算法对应的实验结果,第五列图( d1)表 示角度误差图(AAE本文算法 ),第六列图( d2) 表示本文 算法的光流估计编码图. 可以看出,迭代训练结束后 本文算法有效解决了光照变化、大位移光流和异质点 等影响,较 FFV1MT 算法等具有较好的普适性和有效 性,尤其是在边缘不连续处(如 Grove3 等)、高速遮挡 情况下(如 Urban3 等) 的估计效果. 第七列图( e) 中 啄AAE 表示本文算法与 FFV1MT 算法的角度误差之间 的差值图( 啄AAE = AAEFFV1MT - AAE本文算法 ),根据最后 一列 colorbar 的范围及图( e) 中 啄AAE 的取值结果可 以很明显得出,本文算法在边缘处的保持效果更好. 但是,由于本文算法需要对权重进行训练,必然导致较 FFV1MT 算法更高的计算复杂度和运算时间. 表 1 为本文算法与 FFV1MT 生物模型的客观对 比,由于平均角度误差反映了计算的光流矢量场整体 偏离标准光流矢量场的程度,平均终点误差用以衡量 计算的光流场的矢量长度与标准光流场的矢量长度之 间的误差. 在进行算法比较时,估计的结果越接近真 实光流,也就是平均角度误差和平均终点误差越小的 时候,表示算法的效果越好,而这与图 2 得出的结论一 致,进一步说明了本文提出的MAV1MT较FFV1MT算 表 1 本文算法与 FFV1MT 生物模型估计结果的客观对比 Table 1 Comparison of error measurements between the model and FFV1MT 算法 评价指标 Grove2 Grove3 Hydrangea RubberWhale Urban2 Urban3 Yosemite FFV1MT AAE 依 SD 4郾 28 依 10郾 25 9郾 72 依 19郾 34 5郾 96 依 11郾 17 10郾 20 依 17郾 67 14郾 51 依 21郾 02 15郾 11 依 35郾 28 3郾 41 依 5郾 44 AEPE 依 SD 0郾 29 依 0郾 62 1郾 13 依 1郾 85 0郾 62 依 0郾 96 0郾 34 依 0郾 54 1郾 46 依 2郾 13 1郾 88 依 3郾 27 0郾 16 依 0郾 18 本文算法 AAE 依 SD 3郾 85 依 9郾 61 9郾 81 依 18郾 48 5郾 22 依 11郾 10 8郾 80 依 13郾 74 12郾 06 依 19郾 09 12郾 52 依 31郾 50 3郾 29 依 5郾 21 AEPE 依 SD 0郾 20 依 0郾 42 0郾 96 依 1郾 44 0郾 49 依 0郾 66 0郾 32 依 0郾 46 1郾 26 依 1郾 30 1郾 33 依 2郾 05 0郾 11 依 0郾 15 法效果运动估计结果更准确. 实验 2 为了进一步检验本文算法处理实际问题 的性能,对其他测试运动图像序列进行运动估计验证, 结果如图 3 所示. 图中包含多个图像序列,第一行为 光流矢量图,第二行为光流编码图,第三行为原始输入 样本图像. 从图中可以看出,本文算法较 FFV1MT 模 型有了一定的提高,主要是由于 MT 细胞响应处理权 重的学习较固定的高斯余弦函数在拟合生物视觉的基 础上更符合自然数据特性. 但是在锐利边缘和高速遮 挡等情况下仍存在一定不足,这主要是由于生物初级 视觉在 V1 区域细胞感受野(滤波器组)对图像序列边 缘的模糊等客观现实决定的. 从得到的光流估计的图 像中能明显看出,光流编码图的效果较好,而且光流矢 量场的轮廓也较为清晰,不同方向的目标运动估计效 果明显,进一步证明了本文 MAV1MT 算法较好的普适 性、有效性和鲁棒性. 图 3 MMV1MT 算法在部分测试集序列上的估计结果 Fig. 3 Performance of the MAV1MT model on the Middlebury test set 4 结论 本文针对人眼视觉运动感知特性,借鉴细胞模型 前沿研究理论,提出了一种有效的、普适的和鲁棒的 MAV1MT 运动估计算法,较好的解决了光照影响、大 位移、边缘不连续等问题. 引入基于 ROF 模型的 STD ·1242·
李帅等:序列图像运动自适应VI-MT光流估计算法 ·1243· 方法,采用图像分解得到的纹理图部分计算光流,使计 ceedings of the IEEE Conference on Computer Vision and Pattern 算准确性显著提高.此外,针对FFVIMT光流估计算 Recognition.Boston,2015:1164 法权值选取问题,本文提出通过样本学习训练估计,有 [5]Li S,Xu Y L,Ma S P,et al.New method for SAR occluded tar- 效避免了选取函数拟合效果无法确定的不足.最后, gets recognition using DNN.J Xidian Unir,2015,42(3):154 (李帅,许悦雷,马时平,等.一种深度神经网路SAR遮挡目 利用由粗到精的金字塔多尺度分层优化框架,进一步 标识别方法.西安电子科技大学学报,2015,42(3):154) 改善了估计效果.实验结果有力地表明了所提算法在 [6]Heeger D J.Optical flow using spatiotemporal filters.Int J Com- 运动估计上具有较好的效果.但是本研究中尽管Md put Vision,1988,1(4):279 dlebury标准库数据的随机性和普适性,实验中权值训 [7] Rust N C,Mante V,Simoncelli E P,et al.How MT cells analyze 练所用数据还有待扩展,而且生物细胞的数学模型还 the motion of visual patterns.Nat Neurosci,2006,9(11):1421 可以进一步深入分析和研究,如可以结合V2细胞的 [8]Nishimoto S,Gallant J L.A three-dimensional spatiotemporal re ceptive field model explains responses of area MT neurons to natu- 纹理提取特性取代STD技术等. ralistic movies.J Neurosci,2011,31(41):14551 [9]Solari F,Chessa M,Medathati N VK,et al.What can we expect 参考文献 from a V1-MT feedforward architecture for optical flow estima- tion?.Signal Processing:Image Commun,2015,39:342 [1]Fortun D,Bouthemy P,Kervrann C.Optical flow modeling and [10]Wedel A,Pock T.Zach C.et al.An improved algorithm for TV-L! computation:a survey.Comput Vision Image Understanding, optical flow /Statistical and Geometrical Approaches to Visual 2015,134:1 Motion Analysis.Berlin,2009:23 [2]Hom B K P,Schunck B G.Determining optical flow.Artif Intelli- [11]Ai J W,Liu K.A method of tracking a moving object in video gence,1981,17(1-3):185 sequences.J Univ Sci Technol Beijing,2006,28(2):195 [3]Butler D J,Wulff J,Stanley G B,et al.A naturalistic open (艾金慰,刘克.视频序列中运动目标跟踪新方法.北京科 souree movie for optical flow evaluation /12th European Confer- 技大学学报.2006,28(2):195) ence on Computer Vision.Firenze,2012:611 [12]Baker S,Scharstein D,Lewis J P,et al.A database and evalua- [4]Revaud J.Weinzaepfel P,Harchaoui Z,et al.Epicflow:edge- tion methodology for optical flow.Int J Comput Vision,2011,92 preserving interpolation of correspondences for optical flowPro- (1):1
李 帅等: 序列图像运动自适应 V1鄄鄄MT 光流估计算法 方法,采用图像分解得到的纹理图部分计算光流,使计 算准确性显著提高. 此外,针对 FFV1MT 光流估计算 法权值选取问题,本文提出通过样本学习训练估计,有 效避免了选取函数拟合效果无法确定的不足. 最后, 利用由粗到精的金字塔多尺度分层优化框架,进一步 改善了估计效果. 实验结果有力地表明了所提算法在 运动估计上具有较好的效果. 但是本研究中尽管 Mid鄄 dlebury 标准库数据的随机性和普适性,实验中权值训 练所用数据还有待扩展,而且生物细胞的数学模型还 可以进一步深入分析和研究,如可以结合 V2 细胞的 纹理提取特性取代 STD 技术等. 参 考 文 献 [1] Fortun D, Bouthemy P, Kervrann C. Optical flow modeling and computation: a survey. Comput Vision Image Understanding, 2015, 134: 1 [2] Horn B K P, Schunck B G. Determining optical flow. Artif Intelli鄄 gence, 1981, 17(1鄄3): 185 [3] Butler D J, Wulff J, Stanley G B, et al. A naturalistic open source movie for optical flow evaluation / / 12th European Confer鄄 ence on Computer Vision. Firenze, 2012: 611 [4] Revaud J, Weinzaepfel P, Harchaoui Z, et al. Epicflow: edge鄄 preserving interpolation of correspondences for optical flow / / Pro鄄 ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 1164 [5] Li S, Xu Y L, Ma S P, et al. New method for SAR occluded tar鄄 gets recognition using DNN. J Xidian Univ, 2015, 42(3): 154 (李帅, 许悦雷, 马时平, 等. 一种深度神经网络 SAR 遮挡目 标识别方法. 西安电子科技大学学报, 2015, 42(3): 154) [6] Heeger D J. Optical flow using spatiotemporal filters. Int J Com鄄 put Vision, 1988, 1(4): 279 [7] Rust N C, Mante V, Simoncelli E P, et al. How MT cells analyze the motion of visual patterns. Nat Neurosci, 2006, 9(11): 1421 [8] Nishimoto S, Gallant J L. A three鄄dimensional spatiotemporal re鄄 ceptive field model explains responses of area MT neurons to natu鄄 ralistic movies. J Neurosci, 2011, 31(41): 14551 [9] Solari F, Chessa M, Medathati N V K, et al. What can we expect from a V1鄄鄄 MT feedforward architecture for optical flow estima鄄 tion?. Signal Processing: Image Commun, 2015, 39: 342 [10] Wedel A, Pock T, Zach C, et al. An improved algorithm for TV鄄鄄L 1 optical flow / / Statistical and Geometrical Approaches to Visual Motion Analysis. Berlin, 2009: 23 [11] Ai J W, Liu K. A method of tracking a moving object in video sequences. J Univ Sci Technol Beijing, 2006, 28(2): 195 (艾金慰, 刘克. 视频序列中运动目标跟踪新方法. 北京科 技大学学报, 2006, 28(2): 195) [12] Baker S, Scharstein D, Lewis J P, et al. A database and evalua鄄 tion methodology for optical flow. Int J Comput Vision, 2011, 92 (1): 1 ·1243·