【学术论文】视觉跟踪算法综述

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：1.12MB

第5卷第2期智能系统学报 Vol.56.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/i.i8gn.1673-4785.2010.02.001 视觉跟踪算法综述杨戈，刘宏 (1.北京大学深别研究生院集成微系统科学工程与应用重点实验宣，广东深圳518055；2.北京大学机器感知与智能救育部重，点实验室，北京100871) 摘要：随着信息技术与智能科学的迅速发展，计算机视觉已经成为T产业和高新技术领域的前沿.视觉跟踪是当前计算机视觉领域的热点问题之一.阐述了视觉跟踪算法的研究现状，包括视觉跟踪算法的种类，常用数学方法，研究了基于区域的跟踪算法、基于模型的跟踪算法、基于特征的跟踪算法、基于主动轮廓的跟踪算法、参数估计方法和无参密度估计方法，并探讨了视觉跟踪算法的未来研究方向. 关键词：计算机视觉；视觉跟踪；粒子滤波；均值漂移中图分类号：TP文献标识码：A文章编号：16734785(2010)020095-11 Survey of visual tracking algorithms YANG Ge,LIU Hong (1.Key Laboratory of Integrated Microsystems,Shenzhen Graduate School of Peking University,Shenzhen 518055,China;2.Key La- boratory of Machine Perception,Peking University,Beijing 100871,China) Abstract:Progress in information technology and intelligent systems has brought computer vision to the forefront of IT research.Visual tracking is currently one of the most active research topics in computer vision.The state of re- search in visual tracking algorithms was examined for this paper.The authors reviewed the common visual tracking algorithms and their main mathematical methods.The examination included region-based tracking algorithms,ac- tive contour-based tracking algorithms,feature-based tracking algorithms,model-based tracking algorithms,param- eter estimate algorithms and non-parameter density estimate algorithms.Significant issues needing further study were then discussed. Keywords:computer vision;visual tracking;particle filter;mean shift 随着信息技术与智能科学的迅速发展，计算机等应用中的重要性，对其进行研究是非常紧迫的，也视觉已经成为T产业和高新技术领域的前沿.由于是非常必要的. 视频包含海量的信息而在多媒体中占有非常重要的视觉分析一般步骤包括视觉检测(visual detec 地位，但随之而来的问题是如何利用计算机理解大 tion)、视觉跟踪(visual tracking)和视觉理解(visual 量的视频信息.鉴于视觉分析在人与机器人的交互understanding)川.视觉检测是检测视频序列中的目技术(human robot interaction,HRI)、智能监控、虚拟标，将它从图像中分割出来，检测目标的效果将直接现实技术、基于模型的图像编码、流媒体的内容检索影响图像后续处理的结果.视觉跟踪是在图像序列的每一帧图像中找到感兴趣的运动目标所处的位收稿日期：2009-11-15 置，即要在一段视频的不同帧中把被跟踪的物体标基金项目：国家“863”计划资助项目(2006AA04Z247):国家自然科学基金资助项目(60675025,60875050)：广东省自然科学基记出来.视觉理解包括行为识别和行为描述，它是分金资助项目(9151806001000025)：深圳市科技计划项目及基础研究计划资助项目(JC200903160369A). 析和识别人体运动模型、实现行为的高级别描述.视通信作者：杨戈.E-mail:yangge@(szpku..ed.cn 觉理解的关键问题是：如何从训练样本中学会参考

·96 智能系统学报第5卷行为；如何有效地用自然语言解释行为；如何有效地因为目标假设作为分析图像的限制条件；但是它的利用训练和匹配算法来处理在空间和时间域中与其性能很大程度是由产生和校正这些假设的方法来决有相似的行为模式的差异.但是，如何让机器自动地定的，为了获得健壮的跟踪效果，需要很多目标假跟踪目标是计算机视觉领域的一个难点，也是目前设，而对这些假设进行估计又需要大量的计算.其中研究的热点之一后者是目前视觉跟踪的主流方法，但将这2种数学 1视觉跟踪算法的分类方法结合起来有助于提高跟踪算法的健壮性又可以减少计算量. 视觉跟踪简单地说就是估计一个对象的运动轨视觉跟踪算法之间的差别一般有以下几方面：迹.另外，一个跟踪系统还可以获得被跟踪对象的一 1)跟踪对象的表示；些信息：对象的运动方向、速度、加速度、位置，从而 2)跟踪对象的外表、运动、形状的表示；为进一步处理与分析，实现对运动对象的行为理解， 3)图像特征的选择完成更高一级的任务做准备传统的跟踪对象可以表示成点、原始的几何形一个理想的视觉跟踪算法应具有以下特性：状（如矩形、椭圆形等）、对象的轮廓和投影、骨架模 1)快捷性：视觉跟踪算法应该能够有效地跟踪型、关节状模型等2) 运动目标，同时对场景的突然变化做出反应，这是视视觉跟踪算法一般分成基于区域的跟踪算法觉跟踪算法的根本目的； (region-based tracking algorithm)、基于模型的跟踪 2)鲁棒性：鲁棒性意味着可用性.被跟踪对象算法(model--based tracking algorithm)、基于特征的从3-D投影到2-D时会造成信息损失、图像中的噪跟踪算法(feature-based tracking algorithm)、基于主声、物体运动的复杂、物体的非刚性或关节的本质、动轮廓的跟踪算法(active contour-.based tracking al- 部分和全部遮挡造成的信息暂时消失、物体姿态的 gorithm).常用的数学方法有：卡尔曼滤波器(Kal 复杂性、场景的光照变化等，客户希望在这些复杂环 man filter)、Mean shift、粒子滤波器(particle filter)、境和情况下可以随时应用视觉跟踪算法；动态贝叶斯网络等3] 3)透明性：视觉跟踪算法对客户应是透明的，客户 1.1基于区域的跟踪算法得到的结果仅仅是快速的响应和良好的可用性；基于区域的跟踪首先要分割出视频对象(video 4)高效性：视觉跟踪算法带来的运算开销越小 objects),在连续帧中建立起被分割区域之间的联越好；系，进而对视频对象进行跟踪4.它在包含多个对 5)稳定性：视觉跟踪算法不应给后续的运动识象的场景中能够取得较好的效果，但不能可靠地处别带来不稳定因素；理对象之间的遮挡，而且只能获得区域级别的跟踪 6)简单性：视觉跟踪算法越容易实现则越容易结果，不能获得对象的3-D姿势(3-D姿势由对象的被普遍接受，一个理想的视觉跟踪配置应简单易行. 位置和方向构成)或轮廓31：通常，为了更快地运行视觉跟踪算法，减少对资文献[5]针对对象和摄像机运动无规则的环源的需求，视觉跟踪算法应该设计得更简单；为了实境，根据运动显著性检测的机制，提出了新的跟踪方行更准确的跟踪目标，视觉跟踪算法又往往但要设法，结合了目标对象的多个空间特征来实现基于区计得很复杂域的跟踪任务.基于区域的跟踪模型是：每帧都对每视觉跟踪的数学解决方法有2类：自底向上和个目标对象的特征进行更新，产生自适应的模版，如自顶向下.自底向上方法通常是通过分析图像内容果匹配错误较少，则运动显著图中的兴趣区域就被来重建目标状态，如重建参数化的形状.这种方法在标记成目标对象.但是，它没有考虑遮挡问题，计算量上是有效的，但它的健壮性很大程度依赖于文献[6]针对室内环境，利用一些特征来实现对图像的分析能力.自顶向下方法产生和估计一系单个人体的跟踪.人体被考虑成由代表人体各个部列基于目标模型的状态假设，通过估计和校正这些分（如头、四肢等）的块(blobs)的结合.它采用最大图像观测的假设来实现跟踪，它通常有4个组成成后验概率(maximum a posteriori probability,MAP)方分：目标表示、观测表示、假设的产生和假设的估计. 法，结合先验知识来检测和跟踪人体运动，它对每个这种方法的健壮性较少依赖于对图像的分析，这是像素都进行高斯建模处理，然后由分类器决定这个

第2期杨戈，等：视觉跟踪算法综述 ·97· 像素是否属于前景，属于人体的像素被指定到相应结的形状和大小以及运动；对象外表模型是描述颜的人体部分块(blobs)中；但是Pfinder系统只能适色、纹理和用在连结上的材料，对象外表模型和对象应场景较小范围或者逐渐变化的情况，不适合场景几何模型共同决定了对象每点的位置和外表；图像较大范围或者剧烈变化的情况，模型是用数学方式描述摄像机；对象动态模型是通文献[7]将图像序列中的当前帧分割成不重叠过状态空间来描述关于运动的假设.在整体系统模的区域：跟踪区域(the tracking regions)和非跟踪区型中，通过初始化函数来实现其他模型.但是，它需域(non-tracking region),这个分割可以看成马尔可要事先给定被跟踪对象的外表模型和结构，造成一夫标记过程.在贝叶斯框架中，它使用区域的空间特定的局限性。征概率表示式作为条件分布，这个跟踪算法能够解文献[9]在3-D时空空间中，提出了基于格子决局部变形和部分遮挡问题.它没有要求跟踪区域的马尔可夫任意域的模型，它由表现拓扑约束的全的形状属于特定形状，也没有要求跟踪区域和背景局晶格结构和处理局部几何以及外表变化的图像观有较大区别.它使用二重随机模型使得估计最优标测模型构成，利用信任传播和粒子滤波器实现了跟记域更加快速和准确.但是，它要求跟踪区域的外形踪算法，不需要对运动类型或光照条件做任何假设，服从确定的概率分布有效地解决了动态近似纹理跟踪的困难.这个跟踪 1.2基于模型的跟踪算法算法由纹理检测、空间推理、时间跟踪和模板更新等基于模型的跟踪算法首先由先验知识产生对象构成.但是它不允许格子拓扑在跟踪过程中动态变的模型，然后将图像数据和对象模型进行匹配来实化，失去了自适应性，现跟踪对象)].它能够利用对象表面或轮廓的先验文献[10]提出了基于模型的跟踪算法，它通过知识，这种跟踪算法具有较强的健壮性，即使对象间检测和跟踪运动对象提取了目标的轨迹，构造了互相遮挡或干扰的情况下，也能取得较好的性能.对个模型，然后用模型和后续的图像进行匹配，实现跟于人体跟踪，能够综合考虑人体结构、人体运动的限踪对象.这个模型能够表示目标对象的区域和结构制和其他先验知识；对于3-D模型的跟踪，一旦建立特征，如对象的形状、纹理、颜色、边缘等.它包括2 了2-D图像坐标和3-D坐标的几何关联，也就自然个模块：预计模块和更新模块.预计模块用来估计目获得了对象的3-D姿势、即使对象改变了较大的角标对象的运动参数，更新模块是用来表示目标对象度，也可以运用基于3-D模型的跟踪算法。的变化.它还设计了能够体现跟踪对象的结构属性文献[2]将人体模型分成：线图模型、2-D模型、和光谱属性的能量函数，运用卡尔曼滤波器预计运 3D模型、等级模型.线图模型把身体各个部分用线动信息，减少了匹配过程的搜索空间.但是，它没有以及关节（关节用线连接起来）相连接的方式再现。考虑跟踪对象的遮挡 2-D模型是把身体直接投影到图像平面上，但它对观文献[11]针对较低分辨率的脸部图像，提出了测角度进行了限制.3-D模型包括椭圆圆筒状、圆锥基于3-D几何模型的脸部跟踪算法，首先估计3-D 体等，它不需要对观测角度进行限制，但它需要更多脸部模型的运动参数，然后，提取脸部模型的稳定纹的参数，更复杂的计算.等级模型将人体分成骨架、代理图.脸部纹理图像的表面变化反映了运动估计的表脂肪的椭圆球、代表皮肤和阴影的多边形表面，这准确性或者光线变化的情况，所以脸部纹理图像的种模型可以获得更加准确的效果，但也更复杂表面变化又被用来估计脸部运动.但是，它的计算成文献[8]针对复杂的、有关节的对象提出了基本较高于模型的跟踪算法，跟踪算法将规测到的场景灰度 1.3基于特征的跟踪算法图像和以前收集到的被跟踪对象的配置信息结合起基于特征的跟踪算法是通过提取图像中元素，来，估计被跟踪对象的配置.它是基于对象上的离散把它们归结为高级别的特征，在图像之间匹配这些特征之间的联系来跟踪对象的，首先通过模板匹配特征，从而实现对象的跟踪.这种算法的好处是：即来搜索特征的位置，然后从特征之间的联系来推断使出现局部遮挡，运动对象的一些子特征仍然可见，对象的运动.整个跟踪系统建立了5个模型：整体系它分成基于全局特征的跟踪算法、基于局部特征的统模型、对象几何模型、对象外表模型、图像模型、对跟踪算法、基于依赖图像的跟踪算法3] 象动态模型.对象几何模型是描述关节对象各个连为了解决遮挡问题，改善基于特征的跟踪，文献

·98 智能系统学报第5卷 [12]提出了分布实时的计算平台，它使用了智能多法的描述对象更简单、更有效，减少了计算的复杂视角的空间综合方法，使得在特征点被遮挡时，仍能性，即使在干扰或被部分遮挡的情况下，仍能连续跟实现准确的特征跟踪.它对空间数据运用概率权值踪对象，但是基于主动轮廓的跟踪算法的准确性被配置，实现了简单的动态多维拓扑结构的贝叶斯信限制在轮廓级别，而且它对跟踪的初始化特别敏感，任网，通过综合考虑时间和空间的信任分布，改善了如果初始轮廓位置设置不当，可使得能量函数只是被遮挡特征的跟踪.但是，它的实现需要多个摄像机达到局部极小，这时的分割结果就是错误的，使得这从不同视角协同工作，增加了协调的难度！种跟踪算法很难自动地开始运行[3].Snake模型非为了从视频中检测出公路标志上的文本，文献常适合可变形目标的跟踪， [13]设计了一个健壮的框架，它实现了公路标志的 Snake模型根据运动模型、曲线模型、解决方定位和标志中文本的检测2个子功能，通过基于特法、曲线影响条款的类型等来进行分类18]，又分成征的跟踪算法把2个子功能自然地合并成一个统一参数模型94]和非参数模型25].参数模型引入的能的框架量函数不是固定的，它是通过参数来表示和改变的，文献[14]提出了在自然环境中，移动机器人基通过参数来决定外部力量的形式，在外部力量和内于视觉的3-D定位系统，通过使用特征跟踪和迭代部力量之间调整，取得平衡.因此，寻找适合的参数运动估计，得到准确的运动向量，场景特征和机器人是实现这种模型的难点.非参数模型是把寻找适合的3-D位置通过卡尔曼滤波器来修正.但是它的计参数的问题转化成寻找适合的密度估计问题算成本较高，实现较困难文献[19]第一次提出了主动轮廓模型，设计这文献[15]提出了基于视觉的移动机器人的双样一个能量函数：其局部极值组成了可供高层视觉目稀疏特征分段算法，它使用Lucas-Kanade特征检处理进行选择的方案，从该组方案中选择最优的一测和匹配来决定图像中人体的位置，并控制机器人种是由能量项的迭加来完成.这样，在寻找显著的图随机抽样舆论策略被用来分隔稀疏不等图，同时估像特征时，高层机制可能通过将图像特征推向一个计人体和背景的运动模型.它不要求人体穿戴和周适当的局部极值点而与模型进行交互.它通过收敛围环境不同颜色的衣服，能够可靠地跟踪室内和室曲线能量函数实现对图像轮廓的精确定位，更好地外的人体.但是，仅仅依靠稀疏特征使得系统容易被利用了能量函数，使用尺度空间来扩大兴趣特征周具有相似运动的其他对象干扰，另外，它不能处理被围的抓取区域.它把过去需要不同对待的视觉问题跟踪的人体离开摄像机视野的情况，也不能处理被归结成可以统一处理，在同一框架中，边缘、线条、轮跟踪的人体被其他对象完全遮挡的情况，廓可以很容易被找到并进行处理.但它更侧重于跟 1.4基于主动轮廓的跟踪算法踪时变图像的轮廓，算法的搜索效率也不是很理想基于主动轮廓的跟踪（基于Snake模型的跟踪，文献[20]提出了能够自动提取用户嘴唇的模基于可变形模型的跟踪)通常不是利用整体对象的型，它使用了高斯混合模型、线形判别模型、贝叶斯空间和运动信息，仅仅依靠视频对象边界的信息来模型等.它实现了无需他人监督的分割方法，能够定实现跟踪4].它再现对象的轮廓，在后续的视频帧位用户的脸、嘴唇.随着兴趣区域被自动定位，模型中动态地更新对象的轮廓.它被广泛研究并应用于的提取问题转化成传统的模型相称的问题.它把常边缘检测、图像分割、形状建模和物体跟踪等图像处用形状作为先验知识来提高提取嘴唇模型的准确理和计算机视觉领域.Snake是在图像域内定义的性.但是它没有给出在分级分割过程中混合器的最可变形曲线，通过对其能量函数的最小化，从而调整佳数目，实现较困难 Snake的自然形状使与对象轮廓相一致.Snake的形文献[2l]提出了基于Kalman滤波器的Kalman 状由曲线本身的内力和图像数据的外力所控制.作 Snake模型，它由2部分组成：基本Snake模型，用于用在Snake上的力依据于轮廓所处的位置和其形状单帧图像的分割；用于设定每帧Snake的初始位置，局部调整曲线的变化.内力和外力的作用是不同的：由前n帧位置的Kalman估计得到.Kalman Snake模内力起到平滑约束的作用，描述弹力的属性和轮廓型能够检测运动图像中对象的位置和运动速度.它的刚性，而外力则引导Snake向图像边界移动161 把基于梯度的图像潜力和沿着轮廓的光流作为系统和基于区域的跟踪算法比，基于主动轮廓的跟踪算的测量方法，使用基于光流法的检测机制，提高了算

第2期杨戈，等：视觉跟踪算法综述 ·99 法的健壮性，解决了遮挡问题.但这种模型比较复围，克服了初始化困难的情况.另外一个问题是，无杂，对于剧烈变化的运动（如跳水）效果不太理想，法沿着边界进入凹点的情况，解决方法有定向景在分析微脉管系统时，通过视频显微镜方法，检点31]、控制点[32]、压力力量[334]等，有效地解决了测和跟踪血管边界是很困难的，文献[22]提出了新抓取范围的问题，也提供了一个理论和有效地定义的基于主动轮廓的跟踪算法，它将梯度向量流和B- 外部域的方法，对初始化不敏感，而且能够解决进入 spline模型相结合，改进了多尺度梯度向量流，减少边界凹点的问题.但是参数模型，为了找到适合的结了噪声的干扰.但是它过于复杂，实现较困难. 果，需要以一系列不同参数值运行算法多次，直到取文献[23]使用一系列的模板（轮廓）变形来模得满意的性能拟和跟踪视频对象，它将变形分成等级：全局仿射变 2视觉跟踪的常用方法形、局部仿射变形、任意光滑变形（蛇形）.这样使得跟踪算法能够及时地适应被跟踪对象姿势和形状的视觉跟踪的常用方法有：参数估计方法和无参变化.如果被跟踪对象是非刚性的，每个视频帧以后密度估计方法.参数估计方法假设特征空间服从已要更新整个模板；如果被跟踪对象是刚性的，只需要知一个概率密度函数，通过估计目标区域中的数据更新对象的姿势.但是它不能处理更一般的需求，在估计密度函数的参数，得到这个概率密度函数，这个跟踪过程中，不能自动调整参数和模板的类型，函数一般是典型的函数，大部分是单峰的.但是在实文献[24]通过使用局部运动和颜色信息，运用际中，这个概率密度函数很难确定，而且特征空间也分段轮廓预测，实行了视频对象的边界跟踪.分段轮不一定服从一个概率密度函数.这时，无参密度估计廓预测和对每个轮廓段两侧运动的建模使得跟踪算方法能较好地处理这个问题，法能够准确地决定是否以及哪里发生了被跟踪的边设状态空间中的状态序列是{x}k=0,12.…,动态界被其他对象遮挡，预测出可视对象的边界.能量函状态方程是x=f(-1,),可能的观测值序列是数是和轮廓段相关，而和尺度（分辨率）无关，针对多 {ak=l,2,观测方程是k=h(xk,n),通常f、h 尺度轮廓跟踪，不需要重新调整能量函数的权重.轮是向量值，也是随着时间变化的函数，{，k=12, 廓的预测可以通过比真实轮廓更低尺度的图像来实 {nsk=l,2…,是噪声序列，假定它们是独立同分布. 现，可以用合理的计算成本跟踪很高分辨率的轮廓. 跟踪的目的就是在给定所有的观测值云1：k估计状态文献[25]针对被跟踪对象的形状已知或最终 xk,或构造概率密度函数p(k|a1,).实现跟踪目标形状和初始形状相似，提出了基于测地线主动轮廓一般分成2步骤：预测和更新.预测是根据动态方程的非参数拓扑约束的分割模型，整体考虑了拓扑约和已经计算出来的时刻t=k-1状态概率密度函数束，拓扑约束是基于几何观测的，在轮廓更新过程中 p(xk-1|1:k-1),得出目前状态的先验状态概率密度作为约束条件函数p(x|:k-1);更新是使用当前观测的似然函数文献[2627]提出了非参数主动轮廓方法，首先 p(k〡x),来计算后验状态概率密度函数不需要考虑轮廓形状就利用边域，由非参数Snake p(xx). 优先定义局部轮廓形状，基于核密度估计的表示方如果噪声序列是高斯分布，f和h.是线性函数，式呈现了一个便利的参数选择框架，而且更具有健可以利用卡尔曼滤波器实现跟踪，它产生的后验概率壮性.但它不能由一个可调整的粒度水平来控制多密度函数也是高斯分布.如果f和h,是非线性函数，个分段通过线性化，可以利用扩展卡尔曼滤波器实现跟踪，文献[28]提出了基于贝叶斯决策理论的非参它产生的后验概率密度函数也是高斯分布.如果状态数统计压力Snake,非参数方法用来取得统计模型，空间是由离散的有限的状态构成，可以利用隐马尔可来驱动曲线，实现了多颜色目标的跟踪夫滤波器实现跟踪.如果噪声序列是非高斯分布，目前解决基于主动轮廓的跟踪算法初始化问题和，是非线性函数，可以利用粒子滤波器实现跟踪，的方法有：基于多分辨率的方法9、距离潜能方它产生的后验概率密度函数也是非高斯分布，法[3o.但是前者对如何通过不同分辨率决定Snake 2.1参数估计方法移动的方式还没有解决.后者引入外部模型来指引参数估计方法必须事先知道概率密度函数的形轮廓向对象边界移动，这种方法明显增加了查询范式，这在计算机视觉中很推实现，数据模型往往是未

·100 智能系统学报第5卷知的，如果假设的密度模型不恰当，估计就会有偏 2.2无参密度估计方法差，而且偏差又很难消除，另外参数的估计也不一定 2.2.1 Mean shift方法是最优的，有时只是收敛于一些局部点， Mean shift方法是一种快速的、沿着梯度方向进文献[35]提出了线性无偏递推卡尔曼滤波器，行迭代的方法，因此能够较快地找到核密度估计的峰将状态变量引入到滤波器理论中，用状态空间模型值（模式）.它倾向于忽略离感兴趣区域较远的数据。代替通常用来描述它们的协方差函数.Kalman滤波 Mean shift的优点：器是针对线性状态空间模型的最优的最小均方误差 1)Mean shi进计算量不大，在目标区域已知的情估计.传统的卡尔曼滤波器只是适用状态方程和观况下完全可以做到实时跟踪；测方程是线性系统的情况，同时要求后验概率分布 2)作为一个无参数密度估计算法，很容易作为密度和系统噪声以及观测噪声都是服从高斯分布一个模块和别的算法集成；实际状态方程或者观测方程却是非线性系统，为此 3)采用核函数直方图建模，对边缘遮挡、目标很多研究学者对传统的卡尔曼滤波器进行了相应的旋转、变形和背景运动不敏感扩展.最直接的扩展是扩展卡尔曼滤波器(extended Mean shift的缺点： Kalman filter,EKF)[364o1,它是通过方程的一级泰勒 1)缺乏必要的模板更新算法；展开式来近似最优解，即先将随机非线性系统模型 2)跟踪过程中窗宽的大小如果保存不变，当目的非线性向量函数f,和h,围绕滤波值线性化，得到标有尺度变化时，可能跟踪失败；系统线性化模型，然后应用卡尔曼基本方程，解决非 3)直方图是一种比较弱的对目标特征的描述，线性滤波问题！当背景和目标的颜色分布较相似时，算法效果欠佳， Iterated EKF(IEKF)以迭代的方式使用状态向当场景中目标的运动速度很快时，目标区域在量的当前估计来线性化观测方程36：7列相邻2帧间会出现没有重叠的区域的情况，目标这 Unscented Kalman filter(UKF)[36-3,l4s]是性能时往往收敛于背景中与目标颜色分布比较相似的物比EKF更高的替代方法，两者的主要不同是高斯随体，而不是场景中的目标.文献[4546]定义了一系机变量传递的表示法不同.在UKF中，它使用确定列核函数和权重系数，指出mean shift的应用领域：性抽样方法，即无味转换(unscented transformation, UT).虽然UT需要几个近似值，但它还是比其他用文献[47]把跟踪作为二值化分类问题来处理，通过在线方式训练弱分类器来区别对象特征和背景非线性转换传递随机变量的方法准确.UKF的另外一个优点是不需要转换观测方程的解析表达式，使特征，强分类器用来计算下一帧的信任图，通过得它能应用到基于仿真的系统中.状态分布由随机 mean shi进算法找到信任图的峰值（对象的新位变量来近似，这些高斯型随机变量是通过一些抽样置).通过不断地训练弱分类器，更新强分类器，使点(sigma点)来确定的.这些点完全代表了随机变得跟踪器以较低的计算成本取得较好的健壮性.文量的真实均值和协方差，而且不管非线性程度如何，献[47]能够跟踪各种场景，包括：摄象机静止或移后验均值和协方差都能准确地获取到第2级（泰勒动、灰度图象或红外图象、不同尺寸的对象.这个跟级数展开)，因此它比EKF具有更好的滤波性能.当踪算法还能处理一些遮挡：分类评分被用来检测遮状态维数是n,则只需要2n+1个sigma点.另外，挡：粒子滤波器被用来克服遮挡.但是，这个跟踪算 UKF不需要明确衍生的计算，也不需要对非线性系法不能处理长时间、大范围的遮挡，另外目前被选择统的表示进行分析.UKF的计算复杂度和EKF的相的特征空间没有考虑空间信息，同级别36.不同的方法在计算成本和结果的准确性针对非刚性对象，文献[48]提出了新的对象表方面有不同的性能特点，示和定位方法，基于直方图的对象表示由各向同性文献[44]提出了基于窗口匹配的跟踪算法，它的核来规范化，对象的定位问题转化成寻找局部最使用差平方和作为距离相似的量度，结合了卡尔曼滤大兴趣区的问题.对象模型和对象候选区模型的相波器，增加了跟踪算法的鲁棒性.这个跟踪算法可以似程度由Bhattacharyya系数来表示，使用mean shift 应用到市内车辆跟踪，2人会面中的跟踪，乒乓比赛来优化.文献[48]能够较好的处理镊像机运动，部中对球的跟踪.但这个跟踪算法没有解决遮挡问题，分遮挡、混乱、对象尺度变化等问题.但是，它不是针

·102 智能系统学报第5卷管道和并行技术，减少了处理时间，通过解决一系列种视觉跟踪方法相互配合的跟踪系统，提高整体性凸规划来实现对相应参数的选择，能.因为不同的方法在计算成本和结果的准确性方文献[66]提出了针对多目标跟踪的基于概率面有不同的性能特点，对计算成本过高的方法对其密度假说的滤波框架，可以和检测目标对象位置和复杂性进行研究，构造快速算法；另外，鉴于纯数学空间信息的对象检测器结合使用.它提出了新的粒的算法通常要较长的计算时间，因此应用人工智能子再抽样策略，可以平滑轨迹，克服短期的遮挡.它技术，采用专家系统，降低对寻优精度的要求，从而能够将由于跟踪对象数目的增加而增加的计算成本提高速度，也是一种现实的途径从指数级别减少到线性级别.但是它没有和事件检 4)针对2-D和3-D跟踪算法的融合，如何决定测算法相结合，不能提取出更高级别的信息，使用2-D跟踪算法和3-D跟踪算法的时间.当跟踪文献[67]提出了针对多目标跟踪的配置视频算法从2-D转到3-D时，如何根据2-D跟踪算法的和音频传感器的跟踪系统，它使用了基于状态空间跟踪结果来初始化3-D跟踪算法的姿态参数.因为方法的粒子滤波器.首先使用估计声音到达方向的 2-D跟踪算法和3-D跟踪算法各有优缺点. 滑动窗口来讨论声音状态空间表达式，然后提出了 5)全方位视觉.因为能搜集到360°的场景信视频状态空间来跟踪目标对象的位置.它结合了个息，成本也越来越低而逐渐得到人们的重视，但需要体特征的状态向量，同时提出了时延变量来处理由解决全方位视觉镜头造成的图像扭曲和图像细节丢音频传播延迟引起的音频和视频数据同步的问题. 失等情况，文献[68]提出了自适应的Rao-Blackwellized粒 4 结束语子滤波器，使用状态变量之间的从属关系改进了常规粒子滤波器的效率和准确性.它把状态变量分成总之，向用户提供快捷、稳定、准确、低成本的跟单独的组，线性部分由卡尔曼滤波器来计算，非线性踪结果是视觉跟踪系统追求的目标，也是视觉跟踪取部分由粒子滤波器来计算，使用和粒子滤波框架中得成功的关键；为此本文介绍了视觉跟踪算法的研究的每个粒子相关联的卡尔曼滤波器来更新线性变量现状，包括视觉跟踪算法的分类、常有数学方法，讨论的分布.但是，当有大量的状态变量时，它不能找到了遮挡问题和辅助物的利用等.但是因为被跟踪对象状态变量之间恰当的从属关系模型. 周围环境的多样性和复杂性，使得视觉跟踪技术仍然 3 有很多需要解决的问题摆在研究者面前. 需要进一步研究的问题尽管视觉跟踪技术在近几年已经取得了很大的参考文献：研究进展，但是仍然有许多问题和难点需要解决： [1]WANG Liang,HU Weiming,TAN Tieniu.Recent develop- 1)针对人的感知特性，如何建立一个感知特性 ments in human motion analysis[J].Pattem Recognition, 的数学模型.因为视觉跟踪的过程与人的感知特性紧 2003,36(3):585-601. 密联系，它又是很多问题的基础.比如建立适当的视 [2]YILMAZ P,JAVED O,SHAH M.Object tracking:a sur- 觉注意机制、发现辅助物的数量和可靠性的关系、如 vey[J].ACM Computing Surveys (CSUR),2006,38(4): 145. 何快速发现辅助物、在短时间内发现更多的辅助物 [3]HU Weiming,TAN Tieniu,WANG Liang,MAYBANK S. 在更长的时间内发现少而更可靠的辅助物等，这就需 A survey on visual surveillance of object motion and behav- 要以后对这个问题作深人的研究，进行统计建模， iors[J].IEEE Transactions on Systems,Man,and Cyber- 2)针对多线索的融合，如何建立一个多线索融 netics,Part C:Applications and Reviews,2004,34(3): 合的模型，尤其是多线索之间的同步和每个线索的 334-352. 异步更新.如在视觉跟踪中，通过颜色分布、运动轨 [4]HARIHARAKRISHNAN K,SCHONFELD D.Fast object 迹预测、被跟踪对象轮廓和辅助物等多线索实现跟 tracking using adaptive block matching[J].IEEE Transac- 踪；在多人视觉跟踪中，可以引入音频跟踪技术，提 tions on Multimedia,2005,7(5):853-859. 高定位的准确性，解决一定程度的遮挡问题， [5]LI Shan,LEE M C.Fast visual tracking using motion sali- 3)针对视觉跟踪方法的性能，如何建立一个多 ency in video[C]//IEEE Intemational Conference on A-

第2期杨戈，等：视觉跟踪算法综述 ·101 对特定任务的跟踪算法，没有和特定任务的先验知低了粒子滤波器的性能.权值退化问题主要原因是识相结合。重要性权值的方差随时间变化不断增加.因此增加文献[49]提出了基于视觉特征的非刚性对象粒子数目可以解决退化问题，但是又使计算量上升，的实时跟踪算法，它适合各种颜色/纹理模型的对影响算法的实时性.一般粒子的数量由状态方程的象，对于部分遮挡，摄像机位置变化等都具有健壮维数、先验概率密度函数和重要密度函数的相似度性.Mean shift迭代被用来找到和给定目标模型最相以及迭代次数决定似的目标候选区，其中的相似程度由Bhattacharyya 再取样方法主要包括：Multinomial重取样方系数来表示。法s3s4]、Systematic重取样方法[3s]、Residual重取文献[50]提出了一种在mean shif跟踪框架中样方法534,6、采样一重要性重取样4,89和局嵌入自适应特征选择的方法，根据贝叶斯错误率选部蒙特卡洛重取样4).虽然再取样方法能够减少权择最有决定性的特征，然后建立一个权重图像，使用值退化问题，但再取样方法是在高权值的粒子区域 mean shift定位被跟踪的对象.但它假定每个被选择取样，需不断复制大量相同的粒子.因此随着时间的特征的贝叶斯错误率服从高斯分布，应用范围受到改变，给粒子滤波器带来许多新的问题：再取样以一定限制. 后，模拟的轨迹不再统计独立，因此收敛结果不再有在基于核的对象跟踪中，模型不变和不佳的尺效：再取样使得有较高权重的粒子在统计上被选择度自适应性是2个主要的限制因素，文献[51]针对很多次，这样算法会失去多样性4] 这2个因素，提出了新的基于核的跟踪方法，它把尺基于扩展卡尔曼滤波的粒子滤波器算法称为扩度估计和对象模型更新相结合，这种方法不受对象展粒子滤波器(extended particle filter,EPF)【o,文尺度和外表变化的影响.但是，它只是在手型跟踪中献[60]用扩展粒子滤波器实现了对每个对象速度验证了这个方法，缺乏一般性。和位置概率估计的多模分布.基于unscented卡尔曼 2.2.2粒子滤波滤波的粒子滤波器算法称为unscented粒子滤波器为了实行递归的贝叶斯滤波器，文献[52]提出 (unscented particle filter,UPF)[6.文献[6l]将颜了bootstrap滤波算法，状态向量的密度由一系列随色分布，小波矩(wavelet moment)和UPP算法相结机抽样表示，不需要假设系统是线性的或噪声服从合，增加了跟踪算法的准确性，减少了计算的复杂高斯分布.bootstrap滤波算法在重要性取样后复制性，可以处理部分遮挡、尺度变化等.文献[62]利用高权值的粒子，抛弃低权值的粒子，重新分配权值并 UPF框架对声音和视觉进行跟踪.文献[63]提出了规范化，它克服了早期算法的退化问题，出现了第一外表引导的粒子滤波，它结合外表和运动转换信息个可操作的蒙特卡洛滤波器，即粒子滤波器实现了概率传递模型，通过使用预收集的因子在高粒子滤波器是一种基于贝叶斯递归推理和蒙特维状态空间中引导跟踪，避免了粒子滤波漂移的影卡洛方法的非线性系统分析工具.粒子滤波器主要响.但是，贝叶斯网络的因子是根据经验或者在状态包含重要性取样和选择（再取样）.它有2个重要的空间中均匀分布来选择的，不能适应被跟踪的运动成组成：动态模型和似然模型，动态模型决定粒子如序列的变化. 何在状态空间中传播，似然模型赋予粒子权值，随后文献[64]在粒子滤波器中结合了自适应外表和噪声测量相关联，模型，实现了基于自适应外表模型的观测模型和基序贯列重要性取样其基本思想是使用大量具有于自适应噪声变化的速度运动模型，粒子数目也是权值的粒子（样本）近似（逼近）目标状态的后验概自适应的.自适应的速度模型来源于一级线性预测，率分布，但权值退化问题一直是序贯重要性取样技这个预测基于观测和以前粒子配置之间的外表差术的瓶颈问题.序贯重要性取样方法中存在的权值异.这个方法可以对室内室外的视频序列进行有效退化问题，即粒子经过几次迭代之后，会出现其中的地跟踪，一个粒子的规范化权值趋于1，而其他粒子的重要文献[65]分析了传统粒子滤波算法计算上的性可忽略不计的现象，导致许多状态更新的轨迹对缺点，提出了新的实现方法，它使用独立主要哈希抽估计不起任何作用，在浪费大量计算资源的同时降样器(independent metropolis Hastings sampler),采用

第2期杨戈，等：视觉跟踪算法综述 ·103· coustics,Speech and Signal Processing (ICASSP 2007). object based on object tracking and matching[J].Journal Honolulu,USA,2007:1073-1076 of China Institute of Communications,2001,22(11):77- [6]WREN C R.AZARBAYEJANI A,DARREL L.PENT- 85. LAND A P.Pfinder:real-time tracking of the human body [18]NIETHAMMER M,TANNENBAUM A,ANGENENT S. [J].IEEE Transactions on Pattern Analysis and Machine Dynamic active contours for visual tracking[J].IEEE Intelligence,1997,19(7）:780-785. Transactions on Automatic Control,2006,51 (4):562- [7]YUAN Xiaotong,YANG Shutang,ZHU Hongwen.Region 579. tracking via HMMF in joint feature-spatial space[C]//IEEE [19]KASS M,WITKIN A,TERZOPOULUS D.Snakes:active Workshop on Motion and Video Computing.(WACV/MO- contour models[J].Interational Journal of Computer Vi- TIONS '05).Breckenridge,CO,USA,2005:72-77. ion,1987,1:321-331. [8]NICKELS K,HUTCHINSON S.Model-based tracking of [20]CHAN M T.Automatic lip model extraction for constrained complex articulated objects[J].IEEE Transactions on Ro- contour-based tracking[C]//Interational Conference on botics and Automation,2001,17(1):28-36. Image Processing(ICIP 99).Kobe,1999:848-851. [9]LIN W C,LIU Yanxi.A lattice-based MRF model for dy- [21]PETERFREUND N.Robust tracking of position and veloc- namic near-regular texture tracking[J].IEEE Transactions ity with Kalman snakes[J].IEEE Transactions on Pattern on Patter Analysis and Machine Intelligence,2007,29 Analysis and Machine Intelligence,1999,21 (6):564- (5):777-792. 569. [10]JANG D,CHOI H.Moving object tracking using active [22]TANG Jinshan,ACTON S T.Boundary tracking for intrav- models[C]//International Conference on Image Processing ital microscopy via multiscale gradient vector flow snakes (ICIP 98).Chicago,USA,1998:648-652. [J].IEEE Transactions on Biomedical Engineering,2004, [11]WEN Zhen,HUANG T S.Enhanced 3-D geometric-mod- 51(2):316-324. el-based face tracking in low resolution with appearance [23]SCHOEPFLIN T,CHALANA V,HAYNOR D R,KIM Y. model[C]//IEEE International Conference on Image Pro- Video object tracking with a sequential hierarchy of tem- cessing(ICIP 2005).Genoa,Italy,2005:350-353. plate deformations[J].IEEE Transactions on Circuits and [12]DOCKSTADER S L,TEKALP A M.Multi-view spatial in- Systems for Video Technology,2001,11(11):1171-1182. tegration and tracking with Bayesian networks[C]//Inter- [24]FU Yue,ERDEM A T,TEKALP A M.Tracking visible national Conference on Image Processing.Thessaloniki, boundary of objects using occlusion adaptive motion snake 2001:630-633. [J].IEEE Transactions on Image Processing,2000,9 [13]WU Wen,CHEN Xilin,YANG Jie.Detection of text on (12):2051-2060. road signs from video[J].IEEE Transactions on Intelligent [25 ]Le GUYADER C,VESE L A.Self-repelling snakes for to- Transportation Systems,2005,6(4):378-390. pology-preserving segmentation models[J].IEEE Transac- [14]SAEEDI P,LAWRENCE P D,LOWE D G.Vision-based tions on Image Processing,2008,17(5):767-779. 3-D trajectory tracking for unknown environments J]. [26]OZERTEM U,ERDOGMUS D.Nonparametric snakes IEEE Transactions on Robotics,2006,22(1):119-136. [J].IEEE Transactions on Image Processing,2007,16 [15]CHEN Zhichao,BIRCHFIELD S T.Person following with (9):2361-2368. a mobile robot using binocular feature-based tracking [27]OZERTEM U,ERDOGMUS D.A nonparametric approach [C]//IEEE/RSJ Intermational Conference on Intelligent for active contours[C]//International Joint Conference on Robots and Systems(IROS 2007).San Diego,2007:815- Neural Networks IJCNN 2007).Orlando,USA,2007: 820. 1407-1410. [16]李培华，张田文.主动轮廓线模型（蛇模型）综述[J].[28]ABD-ALMAGEED W,SMITH C E,RAMADAN S.Ker 软件学报，2000,11(6)：751-757. nel snakes:non-parametric active contour models[C]/ LI Peihua,ZHANG Tianwen.Review on active contour IEEE International Conference on Systems,Man,and Cy- model[J].Joural of Software,2000,11(6):751-757. bemetics.Washington,USA,2003:240-244. [17]史立，张兆扬，马然.基于运动跟踪匹配技术的视 [29]LEROY B,HERLIN I,COHEN L D.Multiresolution al- 频对象提取[J].通信学报，2001,22(11)：77-85. gorithms for active contour models[C]//12th Interational SHI Li,ZHANG Zhaoyang,MA Ran.Extraction of video Conference on Analysis and Optimization System.Paris

·104· 智能系统学报第5卷 France,1996:5865 adaptive unscented Kalman filter for nonlinear estimation 30]COHEN L D,COHEN I.Finite element methods for active [C]//IEEE Conference on Decision and Control.New Or- contour models and baloons for 2-D and 3-D images[J. 1eans,USA,2007:4293-4298. IEEE Transactions on Pattern Analysis and Machine Intelli- [43]AKIN B,ORGUNER U,ERSAK A.State estimation of gence,1993,15(11):1137-1147. induction motor using unscented Kalman filter[C]//IEEE [31]ABRANTES A J,MARQUES J S.A class of constrained Conference on Control Applications (CCA 2003).Istan- clustering algorithms for object boundary extraction[J]. bul,Turkey,2003:915-919. IEEE Transactions on Image Process,1996,5(11):1507- [44]VIDAL F B,ALCALDE V H C.Window-matching tech- 1521 niques with Kalman filtering for an improved object visual [32]DAVATZIKOS C.PRINCE J L.An active contour model tracking[C]//IEEE International Conference on Automa- for mapping the cortex[J].IEEE Transactions on Medical tion Science and Engineering(CASE 2007).Scottsdale, Imaging,1995,14(1):6580. USA,2007:829-834. [33]COHEN L D.On active contour models and balloons[J]. [45 ]COMANICIU D,MEER P.Mean shift analysis and appli- CVGIP:Image Understand,1991,53:211-218. cations[C]//The Proceedings of the Seventh IEEE Inter- [34]XU C,PRINCE P L.Snakes,shapes and gradient vector national Conference on Computer Vision.Kerkyra,Greeke, flow[J].IEEE Transactions on Image Process,1998,7 1999:1197-1203. (3):359-369. [46]CHENG Yizong.Mean shift,mode seekiong,and cluste- [35]KALMAN R E.A new approach to linear filtering and pre- ring[J].IEEE Transactions on Pattern Analysis and Ma- diction problems [J].Joural of Basic Engineering chine Intelligence,1995,17(8):790-799. (ASME),1960,82D:3545. [47]AVIDAN S.Ensemble tracking[J].IEEE Transactions on 36]ANTONIOU C,AKIVA M B,KOUTSOPOULOS H N.On- Patter Analysis and Machine Intelligence,2007,29(2): line calibration of traffic prediction models[C]//IEEE In- 261-271. telligent Transportation Systems Conference.Washington, [48]COMANICIU D,RAMESH V,MEER P.Kernel-based USA,2004:8287. object tracking[J].IEEE Transactions on Pattern Analy- 37]ANTONIOU C,BEN-AKIVA M,KOUTSOPOULOS H N. sis and Machine Intelligence,2003,25(5):564-577. Nonlinear Kalman filtering algorithms for on-line calibration [49 ]COMANICIU D,RAMESH V,MEER P.Real-time track- of dynamic traffic assignment models[J].IEEE Transac- ing of non-rigid objects using mean shift[C]//IEEE Con- tions on Intelligent Transportation Systems,2007,8(4): ference on Computer Vision and Pattern Recognition.Hil- 661670. ton Head Island,SC,2000:142-149. [38]SCHLOSSER M S,KROSCHEL K.Limits in tracking with [50 LIANG Dawei,HUANG Qingming,JIANG Shuqiang, extended Kalman filters J].IEEE Transactions on Aero- YAO Hongxun,GAO Wen.Mean-shift blob tracking with space and Electronic Systems,2004,40(4):1351-1359. adaptive feature selection and scale adaptation [C]/ [39]BITTANTI S,SAVARESI S M.On the parametrization and IEEE International Conference on Image Processing.San design of an extended Kalman filter frequency tracker[J]. Antonio,USA,2007:369-372. IEEE Transactions on Automatic Control,2000,45 (9): [51 YAO Anbang,WANG Guijin,LIN Xinggang,WANG 1718-1724. Hao.Kemel based articulated object tracking with scale 40]PERALA T,PICHE R.Robust extended Kalman filtering adaptation and model update[C]//IEEE Interational in hybrid positioning applications[C]//4th Workshop on Conference on Acoustics,Speech and Signal Processing Positioning,Navigation and Communication(WPNC '07). (ICASSP 2008).Las Vegas,USA,2008:945-948. Hannover,Germany,2007:55-63. [52]GORDON N J,SALMOND D J,SMITH A F M.Novel ap- [41]WU Xuedong,JIANG Xinhua,ZHENG Rongjin,HUANG proach to nonlinear/non-Gaussian Bayesian state estimation Jiashan.An application of unscented Kalman filter for pose [J].IEEE Proceedings Radar and Signal Processing, and motion estimation based on monocular vision[C]/ 1993,140(2):107-113. IEEE Intemational Symposium on Industrial Electronics. [53 ]CHEN Z.Bayesian filtering:from Kalman filters to parti- Montreal,Canada,2006:2614-2619. cle filters,and beyond.Manuscript[EB/OL].[2009-01- [42]JIANG Zhe,SONG Qi,HE Yuqing,HAN Jianda.A novel 03].http://www.math.u-bordeaux1.fr/~delmoral/chen_

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录

【学术论文】视觉跟踪算法综述