序列图像运动自适应V1-MT光流估计算法

针对传统算法在抗光照变化影响、大位移光流和异质点滤除等方面的不足,从人类视觉认知机理出发,提出了一种基于机器学习和生物模型的运动自适应V1-MT (motion-adaptive V1-MT,MAV1MT)序列图像光流估计算法.首先,引入基于ROF模型的结构纹理分解(structure-texture decomposition,STD)技术,有效解决了光照和色彩变化的影响.其次,利用多V1细胞加权组合及非线性正则化模拟MT细胞模型,并结合岭回归训练学习得到运动自适应的权重,解决对目标的运动速度感知问题.最后,引入由粗到精的增强方法和图像金字塔局部运动估计采样,将V1-MT运动估计模型应用于实际大位移视频序列.理论分析和实验结果表明,新方法能更加拟合人眼视觉信息处理特性,对视频序列具有普适、有效、鲁棒的运动感知性能.

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：5.95MB

工程科学学报，第39卷.第8期：1238-1243,2017年8月 Chinese Journal of Engineering,Vol.39,No.8:1238-1243,August 2017 D0L:10.13374/j.issn2095-9389.2017.08.014;htp:/journals..usth.edu.cn 序列图像运动自适应V1-MT光流估计算法李帅)，樊晓光)，许悦雷，李文倩)，黄金科” 1)空军工程大学航空航天工程学院，西安7100382)陕西服装工程学院，咸阳712046 ☒通信作者，E-mail:lishuailisuai(@163.com 摘要针对传统算法在抗光照变化影响、大位移光流和异质点滤除等方面的不足，从人类视觉认知机理出发，提出了一种基于机器学习和生物模型的运动自适应VI-MT(motion-adaptive V1-MT,MAVIMT)序列图像光流估计算法.首先，引入基于 ROF模型的结构纹理分解(structure-texture decomposition,STD)技术，有效解决了光照和色彩变化的影响.其次，利用多V1细胞加权组合及非线性正则化模拟MT细胞模型，并结合岭回归训练学习得到运动自适应的权重，解决对目标的运动速度感知问题.最后，引入由粗到精的增强方法和图像金字塔局部运动估计采样，将V1-MT运动估计模型应用于实际大位移视频序列.理论分析和实验结果表明，新方法能更加拟合人眼视觉信息处理特性，对视频序列具有普适、有效、鲁棒的运动感知性能. 关键词光流：V1;MT:时空滤波器：运动感知：岭回归分类号TP183 Bio-inspired motion-adaptive estimation algorithm of sequence image ⅡShuai,FAN Xiao-guang’,XUhe-lei',UWem-gian2”,HUANG Jin--ke) 1)School Aeronautics and Astronautics Engineering,Air Force Engineering University,Xi'an 710038,China 2)Shaanxi Fashion Engineering University,Xianyang 712046,China Corresponding author,E-mail:lishuailisuai@163.com ABSTRACT To overcome the insufficiencies of varying illumination,large displacement estimation,and outlier removal,a motion- adaptive V1-MT(MAVIMT)motion estimation algorithm based on machine learning and a bio-inspired model of sequence image was proposed,starting from the theory of visual cognition.First,a structure-texture decomposition technique based on the Rudin Osher Fatemi ROF)model was introduced to manage the variation in illumination and color.Then,a pooling stage at the MT level with non-normalization,which combines the afferent VI responses using the adaptive weights trained by ridge regression,is modeled to ob- tain the local velocities.Finally,through introducing the coarse-to-fine method and pyramid structure subsampling of the local motion, the MAVIMT model is used on realistic video.Theoretical analysis and experimental results suggest the new algorithm,which is more fitting to information processing features of the human visual system,has universal,effective and robust motion perception perform- ance. KEY WORDS optical flow;V1;MT;spatial-temporal filter;motion perception;ridge regression 运动感知既是生物认知动态世界的关键，也是机计序列图像的光流场成为视频应用的关键.目前，器视觉系统模拟解译视频序列的核心问题。而运动感许多研究学者在光流估计领域取得了很多理论研究成知中的关键研究就是光流估计，即相机与场景目标间果，如Hom和Schunck首先提出了时空微分估计序列有相对运动时所观察到的图像亮度模式运动，精确估图像光流的HS模型[]，Butler等采用sparse-lo-dense 收稿日期：2016-09-13 基金项目：国家自然科学基金资助项目(61372167,61379104)

工程科学学报,第 39 卷,第 8 期:1238鄄鄄1243,2017 年 8 月 Chinese Journal of Engineering, Vol. 39, No. 8: 1238鄄鄄1243, August 2017 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2017. 08. 014; http: / / journals. ustb. edu. cn 序列图像运动自适应 V1鄄鄄 MT 光流估计算法李帅1) 苣 , 樊晓光1) , 许悦雷1) , 李文倩2) , 黄金科1) 1) 空军工程大学航空航天工程学院, 西安 710038 2) 陕西服装工程学院, 咸阳 712046 苣通信作者, E鄄mail: lishuailisuai@ 163. com 摘要针对传统算法在抗光照变化影响、大位移光流和异质点滤除等方面的不足,从人类视觉认知机理出发,提出了一种基于机器学习和生物模型的运动自适应 V1鄄鄄MT(motion鄄adaptive V1鄄鄄MT,MAV1MT)序列图像光流估计算法. 首先,引入基于 ROF 模型的结构纹理分解(structure鄄texture decomposition,STD)技术,有效解决了光照和色彩变化的影响. 其次,利用多 V1 细胞加权组合及非线性正则化模拟 MT 细胞模型,并结合岭回归训练学习得到运动自适应的权重,解决对目标的运动速度感知问题. 最后,引入由粗到精的增强方法和图像金字塔局部运动估计采样,将 V1鄄鄄 MT 运动估计模型应用于实际大位移视频序列. 理论分析和实验结果表明,新方法能更加拟合人眼视觉信息处理特性,对视频序列具有普适、有效、鲁棒的运动感知性能. 关键词光流; V1; MT; 时空滤波器; 运动感知; 岭回归分类号 TP183 Bio鄄inspired motion鄄adaptive estimation algorithm of sequence image LI Shuai 1) 苣 , FAN Xiao鄄guang 1) , XU Yue鄄lei 1) , LI Wen鄄qian 2) , HUANG Jin鄄ke 1) 1) School Aeronautics and Astronautics Engineering, Air Force Engineering University, Xi爷an 710038, China 2) Shaanxi Fashion Engineering University, Xianyang 712046, China 苣 Corresponding author, E鄄mail: lishuailisuai@ 163. com ABSTRACT To overcome the insufficiencies of varying illumination, large displacement estimation, and outlier removal, a motion鄄 adaptive V1鄄鄄MT (MAV1MT) motion estimation algorithm based on machine learning and a bio鄄inspired model of sequence image was proposed, starting from the theory of visual cognition. First, a structure鄄texture decomposition technique based on the Rudin Osher Fatemi (ROF) model was introduced to manage the variation in illumination and color. Then, a pooling stage at the MT level with non鄄normalization, which combines the afferent V1 responses using the adaptive weights trained by ridge regression, is modeled to ob鄄 tain the local velocities. Finally, through introducing the coarse鄄to鄄fine method and pyramid structure subsampling of the local motion, the MAV1MT model is used on realistic video. Theoretical analysis and experimental results suggest the new algorithm, which is more fitting to information processing features of the human visual system, has universal, effective and robust motion perception perform鄄 ance. KEY WORDS optical flow; V1; MT; spatial鄄temporal filter; motion perception; ridge regression 收稿日期: 2016鄄鄄09鄄鄄13 基金项目: 国家自然科学基金资助项目(61372167, 61379104) 运动感知既是生物认知动态世界的关键,也是机器视觉系统模拟解译视频序列的核心问题. 而运动感知中的关键研究就是光流估计,即相机与场景目标间有相对运动时所观察到的图像亮度模式运动,精确估计序列图像的光流场成为视频应用的关键[1] . 目前, 许多研究学者在光流估计领域取得了很多理论研究成果,如 Horn 和 Schunck 首先提出了时空微分估计序列图像光流的 HS 模型[2] ,Butler 等采用 sparse鄄to鄄dense

李帅等：序列图像运动自适应V1-MT光流估计算法 ·1239· 的思想，利用粗算的稀疏特征匹配结合精算的主成分单细胞和复杂细胞两类，它们的响应可以由一系列滤分析插值法准确估计光流场[3]，Revaud等提出了一致波器响应输出的非线性组合模拟得到，其中最为关键性边缘保持的光流估计算法[.但是，这些算法基于的是对感受野的恰当分析和模拟.简单细胞感受野可的数学模型需要一定的先验，算法普适性和鲁棒性均以看作是线性时空滤波器，滤波输出.复杂细胞感受不强，而为了提高准确性需要增加模型的复杂性，这必野输出可以由经过合适的正则化处理叠加得到，一般然大大增加计算复杂度有MAX模型、能量模型、学习模型三种叠加方式. 基于生物视皮层机制的运动特征分析通过模拟背对于一个实测灰度视频序列I(p,t),光流(，侧通路(dorsal stream)的初级视皮层VI细胞、中层MT 飞，)(P,)可以定义为在一定时间t下序列图像中所有细胞特性实现对运动感知.目前生物学研究普遍认为位置p=(x,y)的运动矢量场，其中，，分别表示水 V1细胞对运动方向敏感，而T细胞则对特定速度具平方向x和垂直方向y上目标的运动速率.本文采用有差异较大的响应，因此通过模拟这两种生物视觉认三维Gaor时空滤波器模拟简单细胞的感受野，式(1) 知系统的区域细胞必然可以高效的解决运动感知问和(2)分别表示时间滤波器H和空间滤波器K 题.由于视觉认知机制这种固有的智能优越性，基于 p,0)=Be-2ae2a(ow,(1) 生物神经科学理论的运动感知及估计逐渐成为神经科 K(If)=e(eRsup) (2) 学与机器视觉交叉研究的热点问题)，但是目前相关其中，B是定义了滤波器包络幅值的常量，j是标准虚的研究主要还是针对随机点（或光栅等）序列进行的，数，0表示简单细胞偏好方向，含有N个分量，即[0，结合最新的生物模型或改进的模型进行光流估计的研 62,…,,]Jσ和，、T分别定义了细胞感受野的空间究还相对匮乏.Heeger在1988年首次在文献[6]中提频率、空间尺度和时间频率、时间尺度，而这些参数决出利用细胞运动感知特性计算光流，Rust等)]分别对定了V1简单细胞的偏好方向矢量v,大小为厂f.公该模型进行了发展，但研究对象都是随机点、光栅等一式(1)和(2)中最后一项代表Gabor时空滤波器的相致性较好的生物试验序列图像.Nishimoto和Gallant 位，本文将这一复数展开分别得到时空滤波器的实部提出了基于Heeger和Simoncelli细胞模型以及Boos- H。、H。和虚部K。、K。,由此可以得到两类（奇函数和偶 ing回归的自然视频序列三维时空感受野模型[s). 函数)三维Gabor时空滤波器， 2015年，Solari等首次提出了前馈V1-MT细胞模型 G.(p,t,0,v)=H.(p,0f)K.(tf)+ (feedforward VI-MT,FFV1MT)估计序列图像的光流 H(p,0f)K (tf), (3) 场，该方法结合横向和反馈交互有效解决了孔径问题，但是在强纹理和边缘区域估计效果鲁棒性较差[] G(p,t,0,v)=H(p,0,f)K.(t,f)- (4) 基于以上分析，本文从生物神经科学出发，借鉴细 H(p,0f,)K (tf). 这些奇、偶滤波器定义了简单细胞的方向感知特胞模型前沿研究理论，提出了一种改进的运动自适应性，视频序列经过奇滤波器的输出为式(5)，其中*表 VI-MT(motion-adaptive V1-MT,MAVIMT)光流估计示卷积运算.同理可得经过偶滤波器的输出R。算法，该模型可以作为后续生物与机器视觉交叉学科研究的基本思路.首先，提出了一种改进的V1-MT细 R.(p,t,0,)=(G.(p,0.y)I)(p,).(5) 胞模型，以三维时空Gabor滤波器模拟VI简单细胞的 V1复杂细胞输出一般采用简单细胞的能量叠加感受野，结合调谐和非调谐正则化方法拟合V1复杂及正则化估计得到，如公式(6)、(7)所示，其中E、E 细胞模型.进一步利用Rus细胞模型机器学习训练得分别表示简单细胞能量叠加结果和正则化输出.并且到自适应权重，并将V1响应输出加权组合得到MT细当输入刺激（图像序列）运动方向与V1细胞偏好方向胞的响应，并结合调谐MT细胞的响应速度空间采样一致时，V1复杂细胞的响应输出最大和局部速度解码.最后，针对目前研究细胞特性常使 E(p,t,0,)=√R。(p,l,0,)+R。(p,t,0,y), 用随机点、光栅等一致性较好刺激，且缺乏场景视频时 (6) 空滤波平面等不足，引入金字塔多尺度分层（解决自 E0(p,t,0,v)= E(p,L,0,w)2 (7) 然场景速度跨度范围较大的问题)、响应反馈等提出 ∑E(p,l,0,)2+ VI-MT运动感知模型，并将该模型应用于Middlebury 实际复杂场景的运动目标感知和光流估计中式(7)为非调谐正则化项，其中的专，是为了避免弱纹理图像能量为零的情况，可任取远小于1的正数 1MAV1MT细胞模型但是，非调谐正则化对刺激响应强烈的细胞表达 1.1V1细胞模型不足，因此本文参考Rust的方法[]，通过引入正常量初级视皮层(primary visual cortex,V1)常分为简专2进一步修正响应值，提出调谐正则化(self-normaliza-

李帅等: 序列图像运动自适应 V1鄄鄄MT 光流估计算法的思想,利用粗算的稀疏特征匹配结合精算的主成分分析插值法准确估计光流场[3] ,Revaud 等提出了一致性边缘保持的光流估计算法[4] . 但是,这些算法基于的数学模型需要一定的先验,算法普适性和鲁棒性均不强,而为了提高准确性需要增加模型的复杂性,这必然大大增加计算复杂度. 基于生物视皮层机制的运动特征分析通过模拟背侧通路(dorsal stream)的初级视皮层 V1 细胞、中层 MT 细胞特性实现对运动感知. 目前生物学研究普遍认为 V1 细胞对运动方向敏感,而 MT 细胞则对特定速度具有差异较大的响应,因此通过模拟这两种生物视觉认知系统的区域细胞必然可以高效的解决运动感知问题. 由于视觉认知机制这种固有的智能优越性,基于生物神经科学理论的运动感知及估计逐渐成为神经科学与机器视觉交叉研究的热点问题[5] ,但是目前相关的研究主要还是针对随机点(或光栅等)序列进行的, 结合最新的生物模型或改进的模型进行光流估计的研究还相对匮乏. Heeger 在 1988 年首次在文献[6]中提出利用细胞运动感知特性计算光流,Rust 等[7] 分别对该模型进行了发展,但研究对象都是随机点、光栅等一致性较好的生物试验序列图像. Nishimoto 和 Gallant 提出了基于 Heeger 和 Simoncelli 细胞模型以及 Boos鄄 ting 回归的自然视频序列三维时空感受野模型[8] . 2015 年,Solari 等首次提出了前馈 V1鄄鄄 MT 细胞模型 (feedforward V1鄄鄄MT, FFV1MT) 估计序列图像的光流场,该方法结合横向和反馈交互有效解决了孔径问题, 但是在强纹理和边缘区域估计效果鲁棒性较差[9] . 基于以上分析,本文从生物神经科学出发,借鉴细胞模型前沿研究理论,提出了一种改进的运动自适应 V1鄄鄄MT(motion鄄adaptive V1鄄鄄 MT, MAV1MT)光流估计算法,该模型可以作为后续生物与机器视觉交叉学科研究的基本思路. 首先,提出了一种改进的 V1鄄鄄MT 细胞模型,以三维时空 Gabor 滤波器模拟 V1 简单细胞的感受野,结合调谐和非调谐正则化方法拟合 V1 复杂细胞模型. 进一步利用 Rust 细胞模型机器学习训练得到自适应权重,并将 V1 响应输出加权组合得到 MT 细胞的响应,并结合调谐 MT 细胞的响应速度空间采样和局部速度解码. 最后,针对目前研究细胞特性常使用随机点、光栅等一致性较好刺激,且缺乏场景视频时空滤波平面等不足,引入金字塔多尺度分层(解决自然场景速度跨度范围较大的问题)、响应反馈等提出 V1鄄鄄MT 运动感知模型,并将该模型应用于 Middlebury 实际复杂场景的运动目标感知和光流估计中. 1 MAV1MT 细胞模型 1郾 1 V1 细胞模型初级视皮层( primary visual cortex, V1) 常分为简单细胞和复杂细胞两类,它们的响应可以由一系列滤波器响应输出的非线性组合模拟得到,其中最为关键的是对感受野的恰当分析和模拟. 简单细胞感受野可以看作是线性时空滤波器,滤波输出. 复杂细胞感受野输出可以由经过合适的正则化处理叠加得到,一般有 MAX 模型、能量模型、学习模型三种叠加方式. 对于一个实测灰度视频序列 I( p, t),光流 v( vx, vy)(p,t)可以定义为在一定时间 t 下序列图像中所有位置 p = (x, y)的运动矢量场,其中 vx,vy 分别表示水平方向 x 和垂直方向 y 上目标的运动速率. 本文采用三维 Gabor 时空滤波器模拟简单细胞的感受野,式(1) 和(2)分别表示时间滤波器 H 和空间滤波器 K. H(p,兹,f s) = Be ( - (x 2 + y 2 ) / (2滓 2 )) e j2仔(f s cos(兹)x + f s sin(兹)y) , (1) K(t,f t) = e ( - t / 子) e j2仔(f t t) . (2) 其中,B 是定义了滤波器包络幅值的常量,j 是标准虚数,兹表示简单细胞偏好方向,含有 N 个分量,即[ 兹1 , 兹2 ,…,兹N ],f s、滓和 f t、子分别定义了细胞感受野的空间频率、空间尺度和时间频率、时间尺度,而这些参数决定了 V1 简单细胞的偏好方向矢量 v c ,大小为 f t / f s . 公式(1)和(2)中最后一项代表 Gabor 时空滤波器的相位,本文将这一复数展开分别得到时空滤波器的实部 Ho、He 和虚部 Ko、Ke,由此可以得到两类(奇函数和偶函数)三维 Gabor 时空滤波器, Go(p,t,兹,v c ) = Ho(p,兹,f s)Ke(t,f t) + He(p,兹,f s)Ko(t,f t), (3) Ge(p,t,兹,v c ) = He(p,兹,f s)Ke(t,f t) - He(p,兹,f s)Ko(t,f t). (4) 这些奇、偶滤波器定义了简单细胞的方向感知特性,视频序列经过奇滤波器的输出为式(5),其中*表示卷积运算. 同理可得经过偶滤波器的输出 Re . Ro(p,t,兹,v c ) = (Go(p,t,兹,v c ) * (x,y,t) I)(p,t). (5) V1 复杂细胞输出一般采用简单细胞的能量叠加及正则化估计得到,如公式(6)、(7)所示,其中 E、E V1 P 分别表示简单细胞能量叠加结果和正则化输出. 并且当输入刺激(图像序列)运动方向与 V1 细胞偏好方向一致时,V1 复杂细胞的响应输出最大. E(p,t,兹,v c ) = Ro (p,t,兹,v c ) 2 + Re (p,t,兹,v c ) 2 , (6) E V1 P (p,t,兹,v c ) = E (p,t,兹,v c ) 2 移 N i = 1 E (p,t,兹,v c ) 2 + 孜 2 1 . (7) 式(7)为非调谐正则化项,其中的孜1 是为了避免弱纹理图像能量为零的情况,可任取远小于 1 的正数. 但是,非调谐正则化对刺激响应强烈的细胞表达不足,因此本文参考 Rust 的方法[7] ,通过引入正常量孜2 进一步修正响应值,提出调谐正则化( self鄄normaliza鄄 ·1239·

·1240· 工程科学学报，第39卷，第8期 tion),则V1细胞的最终输出E"(p,t,0,v)为 E(p,l,0,v) 其中，= vE (p,t,di/ " E(p,t,di, E"(p,t,0,v)= (8) E(p,t,0,v)+点2 ),为简单细胞偏好方向”的第i个分量. 1.2MT细胞模型假设真实光流值为(“，x),引入有偏估计的岭回神经生理学实验表明，灵长类视觉脑皮层的中颞归(ridge regression),本文采用共轭梯度下降法最小化区(middle temporal,MT)在运动感知中起到至关重要误差函数J得到权值W, 的作用，而该区域主要来自接收V1区细胞的投射，其 J=‖(Wavcosd)T-E"-D,‖2+ 细胞感受野是V1细胞感受野的数倍.一般情况下， ll (W v'sin d).Ev-v l2+l W ll 2.(13) MT区细胞响应通过对V1区细胞的时空采样得到，其其中，入为岭回归惩罚项，通过损失部分信息获取可靠中空间上通过对正则化后的V1输出进行线性组合，性更高、更稳定的回归系数方向上模拟V1响应对MT运动感知的加权组合（权值 2基于细胞模型的光流估计算法的正负模拟V1对MT细胞的兴奋与抑制)，如式(9) 所示. 基于上文提出的V1、MT细胞模型，本文提出的光 Er(p,,d,w)=∑w(0,)E"(pl,0,v)= 流估计算法基本流程如图1所示，同时为了更好的解决复杂自然场景运动估计问题，首先采用基于ROF模 WE"(p,t,0,v). (9) 型的结构纹理分解(structure-texture decomposition, 由上述可知，MT区细胞响应结果E"直接取决于 STD)技术[o],将分解后得到的纹理图用以后续的光方向权值w(0,),其中6表示第i个偏好方向.生物流计算，从而消除光流计算对光照变化敏感的难题. 试验表明，心4(6：)是一个中心兴奋、边缘抑制的平滑函结构纹理分解STD技术最先由Bertalmio等引入数，因此在文献[9]中，权值选用余弦（或正弦）函数. 图像复原领域，从图像中提取感兴趣的有效信息.本其实，方向权值除了人为选取函数外，本文提出通过样文运用STD的方法以解决光照强度变化以及由此产本学习训练估计方向权值，这就避免了选取函数拟合生的阴影等问题，其理论基础在于图像可以看作是由效果无法确定的不足.首先，初始化方向权值w,设计结构部分和纹理部分组成，前者主要包含图像中几何两组偏好方向分别为0和π/2的MT估计光流场.已信息，如条纹、边缘等，后者主要是一些具有周期或振知偏好方向为d的细胞对刺激的运动估计值为"4，本荡特性的小尺度细节信息.而光照强度变化仅仅影响文采用约束线交叉法(intersection of constraints,IOC) 结构图，因此将纹理图像作为估计过程的输入数据便最小化损失函数来估计速度矢量v(,,),则有可避免光照变化对计算结果的影响. v=arg minG(v)= STD方法是利用基于总变分的ROF去噪模型.对于灰度图像A(x),其结构部分A,的求解模型为 arg min 2(w,-[cosd sind]'y}(10) d-d 其中，d为(0，)的第i个方向，N为采样个数，v表 min(.) (14) 示对应方向d,的运动估计值.上式可以通过求解极小式中，2为所求图像范围：α为常量值（梯度为0）求解，即为了求解上式，引入A,的对偶变量Y,采用原始 c-22 对偶法最小化能量泛函，令A,=A,+adivy,则对偶变 dv, (va -v,cos di-v,sin di)cos di=0, 量y=[Y1y2]'的迭代求解方法为： c(v=-22 dv, (v -v,cos di -v,sin d)sin d;=0. 夕"=y+[(A+adiv)】 (15) 4 (11) y= 产+1 max1, 又由于余弦函数的正交特性，则有 cos'd= 其中，Y=0,n取正整数，常数 n=N2, 图像的纹理分量A,为原始图与结构分量之差， cosd,sind,=0.因此，刺激运动 d,-d, 即A,=A(x)-A,将分解后得到的纹理图用以后续估计（光流估计值）可由MT细胞解码得到，的光流计算，如图1所示. 2 (p,)= 然后，采用经典的由粗到细的多尺度金字塔分 cos d)v; 层技术，本文根据图像的大小（长为1，宽为m)自适 ,p)=之 2 应的多尺度分层方法，在保证计算准确性的同时减 sin d)v (12) 少冗余数据，如式(16)所示.另外，为了保证相邻两

工程科学学报,第 39 卷,第 8 期 tion),则 V1 细胞的最终输出 E V1 (p,t,兹,v c )为 E V1 (p,t,兹,v c ) = E V1 P (p,t,兹,v c ) E V1 P (p,t,兹,v c ) + 孜2 . (8) 1郾 2 MT 细胞模型神经生理学实验表明,灵长类视觉脑皮层的中颞区(middle temporal,MT)在运动感知中起到至关重要的作用,而该区域主要来自接收 V1 区细胞的投射,其细胞感受野是 V1 细胞感受野的数倍. 一般情况下, MT 区细胞响应通过对 V1 区细胞的时空采样得到,其中空间上通过对正则化后的 V1 输出进行线性组合, 方向上模拟 V1 响应对 MT 运动感知的加权组合(权值的正负模拟 V1 对 MT 细胞的兴奋与抑制),如式(9) 所示. E MT (p,t,d,v c ) = 移i wd (兹i)E V1 (p,t,兹i,v c ) = W T dE V1 (p,t,兹,v c ). (9) 由上述可知,MT 区细胞响应结果 E MT直接取决于方向权值 wd (兹i),其中兹i 表示第 i 个偏好方向. 生物试验表明,wd (兹i)是一个中心兴奋、边缘抑制的平滑函数,因此在文献[9]中,权值选用余弦(或正弦)函数. 其实,方向权值除了人为选取函数外,本文提出通过样本学习训练估计方向权值,这就避免了选取函数拟合效果无法确定的不足. 首先,初始化方向权值 wd ,设计两组偏好方向分别为 0 和仔/ 2 的 MT 估计光流场. 已知偏好方向为 d 的细胞对刺激的运动估计值为 vd ,本文采用约束线交叉法( intersection of constraints,IOC) 最小化损失函数来估计速度矢量 v(vx,vy),则有 v = arg min v {G(v)} = arg min { v 移 dN di = d1 (vdi - v [cosdi sindi] T ) } 2 . (10) 其中,di 为(0, 仔) 的第 i 个方向,N 为采样个数,vdi表示对应方向 di 的运动估计值. 上式可以通过求解极小值(梯度为 0)求解,即鄣G(v) 鄣vx = - 2 移 dN di = d1 (vdi - vx cos di - vy sin di)cos di = 0, 鄣G(v) 鄣vy = - 2 移 dN di = d1 (vdi - vx cos di - vy sin di)sin di = 0. (11) 又由于余弦函数的正交特性,则有移 dN di = d1 cos 2 di = 移 dN di = d1 sin 2 di = N/ 2, 移 dN di = d1 cos di sin di = 0. 因此,刺激运动估计(光流估计值)可由 MT 细胞解码得到, vx(p,t) = 2 N 移 dN di = d1 (cos di)vdi ; vy(p,t) = 2 N 移 dN di = d1 (sin di)vdi . (12) 其中, vdi = 移 M i = 1 v c i E MT ( p, t, di, v c i ) 移 M i = 1 E MT ( p, t, di, v c i ),v c i 为简单细胞偏好方向 v c 的第 i 个分量. 假设真实光流值为( u,v),引入有偏估计的岭回归(ridge regression),本文采用共轭梯度下降法最小化误差函数 J 得到权值 Wd , J = 椰(Wd v c cosd) T·E V1 - vx椰2 + 椰(Wd v c sin d) T·E V1 - vy椰2 + 姿椰Wd椰2 . (13) 其中,姿为岭回归惩罚项,通过损失部分信息获取可靠性更高、更稳定的回归系数. 2 基于细胞模型的光流估计算法基于上文提出的 V1、MT 细胞模型,本文提出的光流估计算法基本流程如图 1 所示,同时为了更好的解决复杂自然场景运动估计问题,首先采用基于 ROF 模型的结构纹理分解 ( structure鄄texture decomposition, STD)技术[10] ,将分解后得到的纹理图用以后续的光流计算,从而消除光流计算对光照变化敏感的难题. 结构纹理分解 STD 技术最先由 Bertalmio 等引入图像复原领域,从图像中提取感兴趣的有效信息. 本文运用 STD 的方法以解决光照强度变化以及由此产生的阴影等问题,其理论基础在于图像可以看作是由结构部分和纹理部分组成,前者主要包含图像中几何信息,如条纹、边缘等,后者主要是一些具有周期或振荡特性的小尺度细节信息. 而光照强度变化仅仅影响结构图,因此将纹理图像作为估计过程的输入数据便可避免光照变化对计算结果的影响. STD 方法是利用基于总变分的 ROF 去噪模型. 对于灰度图像 A(x),其结构部分 AS 的求解模型为 min 乙 [ 赘 | 驻 AS | + 1 2琢 (AS - A) ] 2 dx. (14) 式中,赘为所求图像范围;琢为常量. 为了求解上式,引入 AS 的对偶变量酌i,采用原始对偶法最小化能量泛函,令 AS = AS + 琢div酌,则对偶变量酌 = [酌1 酌2 ] T 的迭代求解方法为: 酌^ n + 1 = 酌 n + 资琢 [ 驻 (A + 琢div酌 n )] 酌 n + 1 = 酌^ n + 1 max{1, | 酌^ n + 1 | ü þ ý ï ï ï ï } , 资臆 1 4 . (15) 其中,酌 0 = 0,n 取正整数,常数. 图像的纹理分量 AX 为原始图与结构分量之差, 即 AX = A(x) - AS ,将分解后得到的纹理图用以后续的光流计算,如图 1 所示. 然后,采用经典的由粗到细的多尺度金字塔分层技术,本文根据图像的大小(长为 l,宽为 m) 自适应的多尺度分层方法,在保证计算准确性的同时减少冗余数据,如式(16)所示. 另外,为了保证相邻两 ·1240·

·1242 工程科学学报，第39卷，第8期 (c)为FFVIMT算法对应的实验结果，第三列图(c1) 一列colorbar的范围及图(e)中δAAE的取值结果可表示角度误差图(AAEFEVINT),第四列图(c2)表示以很明显得出，本文算法在边缘处的保持效果更好. FFVIMT算法计算得到的光流估计编码图：同样，图但是，由于本文算法需要对权重进行训练，必然导致较 (d)表示本文算法对应的实验结果，第五列图(d1)表 FFVIMT算法更高的计算复杂度和运算时间. 示角度误差图(AAE本文算法)，第六列图(d2)表示本文表1为本文算法与FFV1MT生物模型的客观对算法的光流估计编码图.可以看出，迭代训练结束后比，由于平均角度误差反映了计算的光流矢量场整体本文算法有效解决了光照变化、大位移光流和异质点偏离标准光流矢量场的程度，平均终点误差用以衡量等影响，较F℉VIMT算法等具有较好的普适性和有效计算的光流场的矢量长度与标准光流场的矢量长度之性，尤其是在边缘不连续处（如Grove3?等）、高速遮挡间的误差.在进行算法比较时，估计的结果越接近真情况下（如Urban.3等）的估计效果.第七列图(e)中实光流，也就是平均角度误差和平均终点误差越小的 δAAE表示本文算法与FFVIMT算法的角度误差之间时候，表示算法的效果越好，而这与图2得出的结论一的差值图（δAAE=AAEFEVINT-AAE本算法），根据最后致，进一步说明了本文提出的MAVIMT较FFVIMT算表1本文算法与FFV1MT生物模型估计结果的客观对比 Table 1 Comparison of error measurements between the model and FFVIMT 算法评价指标 Grove2 Grove3 Hydrangea RubberWhale Urban2 Urban3 Yosemite AAE±SD 4.28±10.259.72±19.345.96±11.1710.20±17.6714.51±21.0215.11±35.283.41±5.44 FFVIMT AEPE±SD0.29±0.621.13±1.850.62±0.960.34±0.541.46±2.13.1.88±3.270.16±0.18 AAE±SD 3.85±9.619.81±18.485.22±11.108.80±13.7412.06±19.0912.52±31.503.29±5.21 本文算法 AEPE±SD 0.20±0.42 0.96±1.440.49±0.660.32±0.46 1.26±1.301.33±2.050.11±0.15 法效果运动估计结果更准确础上更符合自然数据特性.但是在锐利边缘和高速遮实验2为了进一步检验本文算法处理实际问题挡等情况下仍存在一定不足，这主要是由于生物初级的性能，对其他测试运动图像序列进行运动估计验证，视觉在V1区域细胞感受野（滤波器组）对图像序列边结果如图3所示.图中包含多个图像序列，第一行为缘的模糊等客观现实决定的.从得到的光流估计的图光流矢量图，第二行为光流编码图，第三行为原始输入像中能明显看出，光流编码图的效果较好，而且光流矢样本图像.从图中可以看出，本文算法较F℉VIMT模量场的轮廓也较为清晰，不同方向的目标运动估计效型有了一定的提高，主要是由于MT细胞响应处理权果明显，进一步证明了本文MAV1MT算法较好的普适重的学习较固定的高斯余弦函数在拟合生物视觉的基性、有效性和鲁棒性矢量光流编码列 Urban Backyard Basketball Evergreen Wooden Mequon 图3 MMVIMT算法在部分测试集序列上的估计结果 Fig.3 Performance of the MAVIMT model on the Middlebury test set 4结论前沿研究理论，提出了一种有效的、普适的和鲁棒的 MAVIMT运动估计算法，较好的解决了光照影响、大本文针对人眼视觉运动感知特性，借鉴细胞模型位移、边缘不连续等问题.引入基于ROF模型的STD

工程科学学报,第 39 卷,第 8 期 (c)为 FFV1MT 算法对应的实验结果,第三列图( c1) 表示角度误差图 ( AAEFFV1MT ), 第四列图 ( c2 ) 表示 FFV1MT 算法计算得到的光流估计编码图;同样,图 (d)表示本文算法对应的实验结果,第五列图( d1)表示角度误差图(AAE本文算法 ),第六列图( d2) 表示本文算法的光流估计编码图. 可以看出,迭代训练结束后本文算法有效解决了光照变化、大位移光流和异质点等影响,较 FFV1MT 算法等具有较好的普适性和有效性,尤其是在边缘不连续处(如 Grove3 等)、高速遮挡情况下(如 Urban3 等) 的估计效果. 第七列图( e) 中啄AAE 表示本文算法与 FFV1MT 算法的角度误差之间的差值图( 啄AAE = AAEFFV1MT - AAE本文算法 ),根据最后一列 colorbar 的范围及图( e) 中啄AAE 的取值结果可以很明显得出,本文算法在边缘处的保持效果更好. 但是,由于本文算法需要对权重进行训练,必然导致较 FFV1MT 算法更高的计算复杂度和运算时间. 表 1 为本文算法与 FFV1MT 生物模型的客观对比,由于平均角度误差反映了计算的光流矢量场整体偏离标准光流矢量场的程度,平均终点误差用以衡量计算的光流场的矢量长度与标准光流场的矢量长度之间的误差. 在进行算法比较时,估计的结果越接近真实光流,也就是平均角度误差和平均终点误差越小的时候,表示算法的效果越好,而这与图 2 得出的结论一致,进一步说明了本文提出的MAV1MT较FFV1MT算表 1 本文算法与 FFV1MT 生物模型估计结果的客观对比 Table 1 Comparison of error measurements between the model and FFV1MT 算法评价指标 Grove2 Grove3 Hydrangea RubberWhale Urban2 Urban3 Yosemite FFV1MT AAE 依 SD 4郾 28 依 10郾 25 9郾 72 依 19郾 34 5郾 96 依 11郾 17 10郾 20 依 17郾 67 14郾 51 依 21郾 02 15郾 11 依 35郾 28 3郾 41 依 5郾 44 AEPE 依 SD 0郾 29 依 0郾 62 1郾 13 依 1郾 85 0郾 62 依 0郾 96 0郾 34 依 0郾 54 1郾 46 依 2郾 13 1郾 88 依 3郾 27 0郾 16 依 0郾 18 本文算法 AAE 依 SD 3郾 85 依 9郾 61 9郾 81 依 18郾 48 5郾 22 依 11郾 10 8郾 80 依 13郾 74 12郾 06 依 19郾 09 12郾 52 依 31郾 50 3郾 29 依 5郾 21 AEPE 依 SD 0郾 20 依 0郾 42 0郾 96 依 1郾 44 0郾 49 依 0郾 66 0郾 32 依 0郾 46 1郾 26 依 1郾 30 1郾 33 依 2郾 05 0郾 11 依 0郾 15 法效果运动估计结果更准确. 实验 2 为了进一步检验本文算法处理实际问题的性能,对其他测试运动图像序列进行运动估计验证, 结果如图 3 所示. 图中包含多个图像序列,第一行为光流矢量图,第二行为光流编码图,第三行为原始输入样本图像. 从图中可以看出,本文算法较 FFV1MT 模型有了一定的提高,主要是由于 MT 细胞响应处理权重的学习较固定的高斯余弦函数在拟合生物视觉的基础上更符合自然数据特性. 但是在锐利边缘和高速遮挡等情况下仍存在一定不足,这主要是由于生物初级视觉在 V1 区域细胞感受野(滤波器组)对图像序列边缘的模糊等客观现实决定的. 从得到的光流估计的图像中能明显看出,光流编码图的效果较好,而且光流矢量场的轮廓也较为清晰,不同方向的目标运动估计效果明显,进一步证明了本文 MAV1MT 算法较好的普适性、有效性和鲁棒性. 图 3 MMV1MT 算法在部分测试集序列上的估计结果 Fig. 3 Performance of the MAV1MT model on the Middlebury test set 4 结论本文针对人眼视觉运动感知特性,借鉴细胞模型前沿研究理论,提出了一种有效的、普适的和鲁棒的 MAV1MT 运动估计算法,较好的解决了光照影响、大位移、边缘不连续等问题. 引入基于 ROF 模型的 STD ·1242·

李帅等：序列图像运动自适应VI-MT光流估计算法 ·1243· 方法，采用图像分解得到的纹理图部分计算光流，使计 ceedings of the IEEE Conference on Computer Vision and Pattern 算准确性显著提高.此外，针对FFVIMT光流估计算 Recognition.Boston,2015:1164 法权值选取问题，本文提出通过样本学习训练估计，有 [5]Li S,Xu Y L,Ma S P,et al.New method for SAR occluded tar- 效避免了选取函数拟合效果无法确定的不足.最后， gets recognition using DNN.J Xidian Unir,2015,42(3):154 (李帅，许悦雷，马时平，等.一种深度神经网路SAR遮挡目利用由粗到精的金字塔多尺度分层优化框架，进一步标识别方法.西安电子科技大学学报，2015,42(3)：154) 改善了估计效果.实验结果有力地表明了所提算法在 [6]Heeger D J.Optical flow using spatiotemporal filters.Int J Com- 运动估计上具有较好的效果.但是本研究中尽管Md put Vision,1988,1(4):279 dlebury标准库数据的随机性和普适性，实验中权值训 [7] Rust N C,Mante V,Simoncelli E P,et al.How MT cells analyze 练所用数据还有待扩展，而且生物细胞的数学模型还 the motion of visual patterns.Nat Neurosci,2006,9(11):1421 可以进一步深入分析和研究，如可以结合V2细胞的 [8]Nishimoto S,Gallant J L.A three-dimensional spatiotemporal re ceptive field model explains responses of area MT neurons to natu- 纹理提取特性取代STD技术等. ralistic movies.J Neurosci,2011,31(41):14551 [9]Solari F,Chessa M,Medathati N VK,et al.What can we expect 参考文献 from a V1-MT feedforward architecture for optical flow estima- tion?.Signal Processing:Image Commun,2015,39:342 [1]Fortun D,Bouthemy P,Kervrann C.Optical flow modeling and [10]Wedel A,Pock T.Zach C.et al.An improved algorithm for TV-L! computation:a survey.Comput Vision Image Understanding, optical flow /Statistical and Geometrical Approaches to Visual 2015,134:1 Motion Analysis.Berlin,2009:23 [2]Hom B K P,Schunck B G.Determining optical flow.Artif Intelli- [11]Ai J W,Liu K.A method of tracking a moving object in video gence,1981,17(1-3):185 sequences.J Univ Sci Technol Beijing,2006,28(2):195 [3]Butler D J,Wulff J,Stanley G B,et al.A naturalistic open (艾金慰，刘克.视频序列中运动目标跟踪新方法.北京科 souree movie for optical flow evaluation /12th European Confer- 技大学学报.2006,28(2)：195) ence on Computer Vision.Firenze,2012:611 [12]Baker S,Scharstein D,Lewis J P,et al.A database and evalua- [4]Revaud J.Weinzaepfel P,Harchaoui Z,et al.Epicflow:edge- tion methodology for optical flow.Int J Comput Vision,2011,92 preserving interpolation of correspondences for optical flowPro- (1):1

李帅等: 序列图像运动自适应 V1鄄鄄MT 光流估计算法方法,采用图像分解得到的纹理图部分计算光流,使计算准确性显著提高. 此外,针对 FFV1MT 光流估计算法权值选取问题,本文提出通过样本学习训练估计,有效避免了选取函数拟合效果无法确定的不足. 最后, 利用由粗到精的金字塔多尺度分层优化框架,进一步改善了估计效果. 实验结果有力地表明了所提算法在运动估计上具有较好的效果. 但是本研究中尽管 Mid鄄 dlebury 标准库数据的随机性和普适性,实验中权值训练所用数据还有待扩展,而且生物细胞的数学模型还可以进一步深入分析和研究,如可以结合 V2 细胞的纹理提取特性取代 STD 技术等. 参考文献 [1] Fortun D, Bouthemy P, Kervrann C. Optical flow modeling and computation: a survey. Comput Vision Image Understanding, 2015, 134: 1 [2] Horn B K P, Schunck B G. Determining optical flow. Artif Intelli鄄 gence, 1981, 17(1鄄3): 185 [3] Butler D J, Wulff J, Stanley G B, et al. A naturalistic open source movie for optical flow evaluation / / 12th European Confer鄄 ence on Computer Vision. Firenze, 2012: 611 [4] Revaud J, Weinzaepfel P, Harchaoui Z, et al. Epicflow: edge鄄 preserving interpolation of correspondences for optical flow / / Pro鄄 ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 1164 [5] Li S, Xu Y L, Ma S P, et al. New method for SAR occluded tar鄄 gets recognition using DNN. J Xidian Univ, 2015, 42(3): 154 (李帅, 许悦雷, 马时平, 等. 一种深度神经网络 SAR 遮挡目标识别方法. 西安电子科技大学学报, 2015, 42(3): 154) [6] Heeger D J. Optical flow using spatiotemporal filters. Int J Com鄄 put Vision, 1988, 1(4): 279 [7] Rust N C, Mante V, Simoncelli E P, et al. How MT cells analyze the motion of visual patterns. Nat Neurosci, 2006, 9(11): 1421 [8] Nishimoto S, Gallant J L. A three鄄dimensional spatiotemporal re鄄 ceptive field model explains responses of area MT neurons to natu鄄 ralistic movies. J Neurosci, 2011, 31(41): 14551 [9] Solari F, Chessa M, Medathati N V K, et al. What can we expect from a V1鄄鄄 MT feedforward architecture for optical flow estima鄄 tion?. Signal Processing: Image Commun, 2015, 39: 342 [10] Wedel A, Pock T, Zach C, et al. An improved algorithm for TV鄄鄄L 1 optical flow / / Statistical and Geometrical Approaches to Visual Motion Analysis. Berlin, 2009: 23 [11] Ai J W, Liu K. A method of tracking a moving object in video sequences. J Univ Sci Technol Beijing, 2006, 28(2): 195 (艾金慰, 刘克. 视频序列中运动目标跟踪新方法. 北京科技大学学报, 2006, 28(2): 195) [12] Baker S, Scharstein D, Lewis J P, et al. A database and evalua鄄 tion methodology for optical flow. Int J Comput Vision, 2011, 92 (1): 1 ·1243·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录