第七章运动视觉 7.1概述 72视觉运动的检测和测量 72.1以灰度为基础的方法 (1)速度场和光流 (2)光流 (3)光流的估算 722基于过零点的方法 7.23基于特征的运动检测方法 73运动理解 731基于光流的运动理解 732基于特征的运动理解 7.3.3根据图象流动力学恢复表面结构和三维运动 734基于光流的代数法恢复运动参数和景物深度k96 71概述|7 付运动的分析在生理系统中占中心位置。甚至在简单的动物身上都存在着复杂的观 察、跟踪和利用运动的功能。例如,青蛙可以有效地探测小飞虫。这样的动物可有选择地 对在视场中运动着的小的、深色的物体进行跟踪。家蝇可以跟踪运动物体和发现目标跟背 景之间的相对运动,甚至当物体与背景在纹理上相同,因此如果没有相对运动是区分不开 的情况下也是这样的。 在高等动物包括灵长目动物中,运动的分析从早期视觉处理阶段开始就渗透到视觉系 统中。某些生物,例如鸽子和免子在视网膜的水平上完成基本运动分析。在其他动物,包 括猫和灵长目动物,视觉皮层中从眼睛接受输入的第一个神经里已经涉及到运动的分析: 这些神经对沿某一方向运动的刺激反应很灵敏,但对沿相反方向的运动却反应很小,或根 本不反应。 运动视觉在生理系统中占主要地位不令人奇怪的,因为运动揭示了关于环境的有价值 的信息。本章的研究任务是根据运动发现结构和解释由运动所产生的光流场。对生理系统 运动视觉的研究将有助于时变图象的计算机分析算法的研究。 反之,对时变图象解释的研究可以深化对一般原理的理解,这些理解可增进我们对生 理视觉系统的理解。时变图象分析的基本计算问题可分成两大类:运动的检测和测量,以 及视觉运动的解释 711运动探测和测量 图象中基元和区域的运动不是直接给出的,而是必须根据基本量测来计算得到。由眼 睛或由电子成象系统记录的时变图象可描述为随时间变化的亮度值E(x,y,1)的二维阵 列。图象中的运动可用速度场V(x,y,)来表示。V(x,y,)给出某一时刻t,在图象中 (x,y)处点的运动速度和方向。E(x,y,1)是由原始的测量直接得到的,而(x,y,)不是 这样。因此,分析运动中的第一个问题是根据E(x,y,)计算(x,y,)。这些计算是视觉 运动的量测。 在某些情况下,只要检测速度场V(x,y,1)的某些特性就足够了,而不要完全和精确 的量测。例如,当希望迅速地对运动物体作出响应时,在这种情况下必须检测运动,但不 需要测量 但是,从这里讨论问题的分类来说这两个问题都重要。当研究深入时,这些问题将被 证明比原来所预计的更为困难。因此,对有效和可靠的测量方法的研究是对时变图象分析 方面的重要研究邻域。 130
130 第七章 运动视觉 7.1 概述 7.2 视觉运动的检测和测量 7.2.1 以灰度为基础的方法 (1) 速度场和光流 (2) 光流 (3) 光流的估算 7.2.2 基于过零点的方法 7.2.3 基于特征的运动检测方法 7.3 运动理解 7.3.1 基于光流的运动理解 7.3.2 基于特征的运动理解 7.3.3 根据图象流动力学恢复表面结构和三维运动 7.3.4 基于光流的代数法恢复运动参数和景物深度[Tek 96] 7.1 概述[Ull 79] 对运动的分析在生理系统中占中心位置。甚至在简单的动物身上都存在着复杂的观 察、跟踪和利用运动的功能。例如,青蛙可以有效地探测小飞虫。这样的动物可有选择地 对在视场中运动着的小的、深色的物体进行跟踪。家蝇可以跟踪运动物体和发现目标跟背 景之间的相对运动,甚至当物体与背景在纹理上相同,因此如果没有相对运动是区分不开 的情况下也是这样的。 在高等动物包括灵长目动物中,运动的分析从早期视觉处理阶段开始就渗透到视觉系 统中。某些生物,例如鸽子和免子在视网膜的水平上完成基本运动分析。在其他动物,包 括猫和灵长目动物,视觉皮层中从眼睛接受输入的第一个神经里已经涉及到运动的分析: 这些神经对沿某一方向运动的刺激反应很灵敏,但对沿相反方向的运动却反应很小,或根 本不反应。 运动视觉在生理系统中占主要地位不令人奇怪的,因为运动揭示了关于环境的有价值 的信息。本章的研究任务是根据运动发现结构和解释由运动所产生的光流场。对生理系统 运动视觉的研究将有助于时变图象的计算机分析算法的研究。 反之,对时变图象解释的研究可以深化对一般原理的理解,这些理解可增进我们对生 理视觉系统的理解。时变图象分析的基本计算问题可分成两大类:运动的检测和测量,以 及视觉运动的解释。 7.1.1 运动探测和测量 图象中基元和区域的运动不是直接给出的,而是必须根据基本量测来计算得到。由眼 睛或由电子成象系统记录的时变图象可描述为随时间变化的亮度值 E(x, y, t) 的二维阵 列。图象中的运动可用速度场 V(x, y, t) 来表示。 V(x, y, t) 给出某一时刻 t ,在图象中 (x, y) 处点的运动速度和方向。 E(x, y, t) 是由原始的测量直接得到的,而 V(x, y, t) 不是 这样。因此,分析运动中的第一个问题是根据 E(x, y, t) 计算 V(x, y, t) 。这些计算是视觉 运动的量测。 在某些情况下,只要检测速度场 V(x, y, t) 的某些特性就足够了,而不要完全和精确 的量测。例如,当希望迅速地对运动物体作出响应时,在这种情况下必须检测运动,但不 需要测量。 但是,从这里讨论问题的分类来说这两个问题都重要。当研究深入时,这些问题将被 证明比原来所预计的更为困难。因此,对有效和可靠的测量方法的研究是对时变图象分析 方面的重要研究邻域
1.离散和连续运动 对由人类视觉系统进行的运动检测和测量的心理学研究确定了两种类型的运动:离散 的和连续的。对感觉运动的观察者来说,刺激物不一定要连续地移过视场。选择合适的空 间和时间显示参数,可以给出对顺序刺激的平滑、不中断运动的印象。视觉系统可以填补 离散显示之间的间隙,甚至当刺激物相隔几度视觉角,和长的时间间隔(400ms)也是这 样。所得到的运动,叫做表观的( apparant)或β运动,从感觉来说跟连续运动无法区分 此外填入的位置可为以后的处理,例如立体视觉所利用。表观运动机理在人类和低等运动 物中都是天生的 表观运动现象引起了离散和连续运动是由相同的还是由分别的机理所记录的问题。视 觉系统可以记录两种类型运动的事实不一定意味着分别的实现机理,因为从原理上来说 个记录离散运动的系统可以记录连续运动。最近的心理物理学方面的证据支持存在两种机 理。 Braddick即4提出把这两种机理叫做短范围和长范围( short range and long range) 短范围机理测量连续运动或大约15弧分(在视场中心)( minute of are)和小于大约60~ 00msec时间间隔的离散运动。长范围机理处理比较大的位移和时间间隔。这样的术语比 用离散/连续这样的分类法更好些,因为大到15分的视觉弧度跳变的离散显示是由短范围 机理来处理的 这样的两个系统之间存在着比它们的范围差别更为基本的差别。它们似乎是根据不同 的运动基元,在不同处理阶段进行各自的运动量测。在量测运动中,对这两种主要的处理 方案进行区别是有益的。在最低层,运动量测是直接以灰度值的局部变化为基础,这称为 以灰度为基础的方案。另外还有一种可能是首先识别象边缘、线、斑点或区域这样的特 征,然后通过在时间和位置的变化范围内匹配这些特征来进行检测,这种类型的方案被称 为标记匹配方案( token-matching schemes)。在人类视觉系统中,似乎短范围过程是以灰 度为基础的方案,长范围过程是标记匹配方案。 这两种运动检测和测量方式将产生不同的计算问题,并且随之在生理系统和计算机视 觉系统中产生不同种类的过程 2.以灰度为基础的方案 已经提出了几种在生理系统中的以灰度为基础的运动测量方案。这些方案可分成两个 主要类型:相关技术和梯度方法。 (1)相关方案 通过把在两个相邻位置处光增量检测器的输出作比较可构成简单的运动检测器。在位 置p1和时间4的输出跟位置P2在时间t-δt的输出相比较。这种方法称为延迟比较方 案,该方案的两种变种已经提出来作为生理系统的模型。按第一种模型,生理系统把两个 值相乘,也即D(P,0),D(P2,【-61),其中D表示为单元( subunit)的输出(图71)。 如果一个光点由P2点在时间δt内移到P,这样在P2点处造成光线增加的δt时间后,造 成了P1点处光线的增加。因此,上述乘积是正的。在这样的检测器阵列中,平均输出本质 上等于输入的交叉相关( cross-correlation)。这种模型可成功地描述各种昆虫对在它们视 场中的运动所作的反应
131 1. 离散和连续运动 对由人类视觉系统进行的运动检测和测量的心理学研究确定了两种类型的运动:离散 的和连续的。对感觉运动的观察者来说,刺激物不一定要连续地移过视场。选择合适的空 间和时间显示参数,可以给出对顺序刺激的平滑、不中断运动的印象。视觉系统可以填补 离散显示之间的间隙,甚至当刺激物相隔几度视觉角,和长的时间间隔(400ms)也是这 样。所得到的运动,叫做表观的(apperant)或运动,从感觉来说跟连续运动无法区分。 此外填入的位置可为以后的处理,例如立体视觉所利用。表观运动机理在人类和低等运动 物中都是天生的。 表观运动现象引起了离散和连续运动是由相同的还是由分别的机理所记录的问题。视 觉系统可以记录两种类型运动的事实不一定意味着分别的实现机理,因为从原理上来说一 个记录离散运动的系统可以记录连续运动。最近的心理物理学方面的证据支持存在两种机 理。Braddick[Bra 74]提出把这两种机理叫做短范围和长范围(short range and long range)。 短范围机理测量连续运动或大约 15 弧分(在视场中心)(minute of are)和小于大约 60~ 100 msec 时间间隔的离散运动。长范围机理处理比较大的位移和时间间隔。这样的术语比 用离散/连续这样的分类法更好些,因为大到 15 分的视觉弧度跳变的离散显示是由短范围 机理来处理的。 这样的两个系统之间存在着比它们的范围差别更为基本的差别。它们似乎是根据不同 的运动基元,在不同处理阶段进行各自的运动量测。在量测运动中,对这两种主要的处理 方案进行区别是有益的。在最低层,运动量测是直接以灰度值的局部变化为基础,这称为 以灰度为基础的方案。另外还有一种可能是首先识别象边缘、线、斑点或区域这样的特 征,然后通过在时间和位置的变化范围内匹配这些特征来进行检测,这种类型的方案被称 为标记匹配方案(token-matching schemes)。在人类视觉系统中,似乎短范围过程是以灰 度为基础的方案,长范围过程是标记匹配方案。 这两种运动检测和测量方式将产生不同的计算问题,并且随之在生理系统和计算机视 觉系统中产生不同种类的过程。 2. 以灰度为基础的方案 已经提出了几种在生理系统中的以灰度为基础的运动测量方案。这些方案可分成两个 主要类型:相关技术和梯度方法。 (1) 相关方案 通过把在两个相邻位置处光增量检测器的输出作比较可构成简单的运动检测器。在位 置 p1 和时间 t 1 的输出跟位置 p2 在时间 t − t 的输出相比较。这种方法称为延迟比较方 案,该方案的两种变种已经提出来作为生理系统的模型。按第一种模型,生理系统把两个 值相乘,也即 D( p1 , t) D( p2 , t − t) ,其中 D 表示为单元(subunit)的输出(图 7.1)。 如果一个光点由 p2 点在时间 t 内移到 p1 ,这样在 p2 点处造成光线增加的 t 时间后,造 成了 p1 点处光线的增加。因此,上述乘积是正的。在这样的检测器阵列中,平均输出本质 上等于输入的交叉相关(cross-correlation)。这种模型可成功地描述各种昆虫对在它们视 场中的运动所作的反应
P1 delay ANDNo (b) 图7.1延迟比较运动检测方案 R和B是对光点瞬时作出响应的检测器 (a)对以合适的速度向左移动的光点,P1和P2的响应相重合, 在组合单元处产生正的输出;(b)禁止方案,对从P2和P1的运 动不产生响应,因为P2从的延迟响应抵消了来自P1的响应 另一种比较简单的方法是And-Not方法,这是由 Barlow和 Levick针对在兔子视觉皮 层中有方向选择性单元所提出的模型,这也是 Emerse和 Gerstein针对猫的视觉皮层提出的 模型。这些单元被称为方向选择性,因为这些单元对沿所谓的优先方向运动的刺激物的反 应要比对沿相反方向运动的刺激物的反应强烈得多。因为 Barlow和 Levick发现了方向选 择性机理之间固有的相互影响的证据,他们提出一种模型,按这种模型运动检测器计算 D(p1)和D(P21-)“Not”的“And”(图7.1(b)。按这种方案,从p2到p1的运动由 于来自p2的响应被延迟而被禁止,而从p到p2的运动产生一个正的响应。 Torre和 Reichardt对家蝇的视觉系统提出一种相似的方案,按这种方案,用低通时间 滤波代替延迟。Tore和 poggio描述了一种实现这种计算的很巧妙的触突( synaptie mechanism)机理。 延迟比较的某些通用特性值得加以注意。第一,这些检测器不仅有选择地对连续运动 作出响应而且对在P1位置和p2位置之间剌激物的跳跃也作出响应;其次这样的检测器有 一些明显的局限性,例如,运动的速度必须在某个由延迟(或低通滤波)接收器的分离距离决 定的范围之内:最后,单个这种类型的检测器的输出不能可靠地决定运动测量。例如,在 有许多运动物体的视场里,如果在p1点的检测器由一个运动物体所激发,而在P2处的检 测器又由另一个物体所激发,这种类型的运动检测器就会错误动作。为了得到准确可靠的 运动测量,来自这样检测器阵列的输出应被组合在一起 另外的相关技术,例如利用原始灰度值上的交叉相关,已被作为人类视觉系统中的运 动测量模型提出来。 Anstis提一种相减的方法,按这种方法把两帧相继图象移位相减,所 得图象中的减小点就标志偏离( displacement)。一般来说,还没有得到关于生理上实现这 样技术的模型的描述。似乎还没有很有说服力的证据说明在人类视觉系统中存在这样的模 (2)梯度方案( gradient schemes) 最近一种用于生理系统运动检测和量测运动的梯度方案,它被作为单个皮层细胞进行 运动分析的模型。这些在猫和猴子的主要视觉皮层( perennial visual cortex)中发现的细胞 有选择地对边缘和光带( Bar of light)作出响应。这些细胞对方位,并且经常对运动的方 向也是有选择性的。这就是说,要激发这样的单元,刺激物必须具有这种单元所选择的方 位,并且必须沿所选择的方向运动。因此对这种简单细胞的结构和功能的分析揭示了视觉 运动的早期检测和测量的机理。这些机理可被用于计算机视觉系统。为了理解简单细胞的 作用,我们需要粗略地描述视网膜对图象的处理。 3)视网膜对图象的处理
132 p1 p1 p2 p2 (a) (b) X AND No t delay delay 图 7.1 延迟比较运动检测方案 P1和 P2是对光点瞬时作出响应的检测器 (a) 对以合适的速度向左移动的光点, P1 和 P2 的响应相重合, 在组合单元处产生正的输出;(b) 禁止方案,对从 P2和 P1的运 动不产生响应,因为 P2从的延迟响应抵消了来自 P1的响应。 另一种比较简单的方法是 And-Not 方法,这是由 Barlow 和 Levick 针对在兔子视觉皮 层中有方向选择性单元所提出的模型,这也是 Emerso 和 Gerstein 针对猫的视觉皮层提出的 模型。这些单元被称为方向选择性,因为这些单元对沿所谓的优先方向运动的刺激物的反 应要比对沿相反方向运动的刺激物的反应强烈得多。因为 Barlow 和 Levick 发现了方向选 择性机理之间固有的相互影响的证据,他们提出一种模型,按这种模型运动检测器计算 D(p ,t) 1 和 D(p ,t − t) 2 “Not” 的“And”(图 7.1(b))。按这种方案,从 p2 到 p1 的运动由 于来自 p2 的响应被延迟而被禁止,而从 p1 到 p2 的运动产生一个正的响应。 Torre 和 Reichardt 对家蝇的视觉系统提出一种相似的方案,按这种方案,用低通时间 滤波代替延迟。Torre 和 poggio 描述了一种实现这种计算的很巧妙的触突(synaptie mechanism)机理。 延迟比较的某些通用特性值得加以注意。第一,这些检测器不仅有选择地对连续运动 作出响应,而且对在 p1 位置和 p2 位置之间刺激物的跳跃也作出响应;其次,这样的检测器有 一些明显的局限性,例如,运动的速度必须在某个由延迟(或低通滤波)接收器的分离距离决 定的范围之内;最后,单个这种类型的检测器的输出不能可靠地决定运动测量。例如,在 有许多运动物体的视场里,如果在 p1 点的检测器由一个运动物体所激发,而在 p2 处的检 测器又由另一个物体所激发,这种类型的运动检测器就会错误动作。为了得到准确可靠的 运动测量,来自这样检测器阵列的输出应被组合在一起。 另外的相关技术,例如利用原始灰度值上的交叉相关,已被作为人类视觉系统中的运 动测量模型提出来。Anstis 提一种相减的方法,按这种方法把两帧相继图象移位相减,所 得图象中的减小点就标志偏离(displacement)。一般来说,还没有得到关于生理上实现这 样技术的模型的描述。似乎还没有很有说服力的证据说明在人类视觉系统中存在这样的模 型。 (2) 梯度方案(gradient schemes) 最近一种用于生理系统运动检测和量测运动的梯度方案,它被作为单个皮层细胞进行 运动分析的模型。这些在猫和猴子的主要视觉皮层(perennial visual cortex)中发现的细胞 有选择地对边缘和光带(Bar of light)作出响应。这些细胞对方位,并且经常对运动的方 向也是有选择性的。这就是说,要激发这样的单元,刺激物必须具有这种单元所选择的方 位,并且必须沿所选择的方向运动。因此对这种简单细胞的结构和功能的分析揭示了视觉 运动的早期检测和测量的机理。这些机理可被用于计算机视觉系统。为了理解简单细胞的 作用,我们需要粗略地描述视网膜对图象的处理。 (3) 视网膜对图象的处理
视网膜结构主要完成两个功能。第一个是把进入的光线记录在对光敏感的光接收器阵 列上。第二,所记录的图象完成初始的转换。所转换的图象从最后的视网膜细胞层(神经 节细胞层)沿着大约上百万的神经纤维送到LGN(外侧膝状体),并从LGN送到视觉皮 层。如前所述,视网膜对图象1进行(G*D)运算,G是高斯函数。运算后结果中的过 零点对应于原始图象中灰度急剧变化处,利用附加的子单元可确定过零点的运动。设Z表 示过零点当前的位置。从图72可看到,如果过零点向右运动,在位置Z的卷积值就增 加:如果过零点向左运动,这个值就减小。因此,通过检查卷积对时间的导数的符号就可 以明确地确定运动的方向 图72 按这种方案,运动可由过零点的斜率和时间导数来确定,因此,这是以灰度为基础的 方案,它不要求在时间域上作元素的匹配。在相反方向上的运动是由另外的单元来检测 的。这样的一个关于人类视觉的观点得到心理物理学证据的支持。 利用这种方案,可以将过零点轮廓用于运动量测。然而,由于图73中所示的孔径问 题,以纯粹的局部测量为基础既不可能完全地确定轮廓的运动,也不可能完全地确定任何 其他线性特性。如果是由跟轮廓相比较小的单元来检测运动,可以抽取的唯一信息是垂直 于局部边缘方向的运动分量。沿边缘的运动是感觉不到的。要完全地确定运动,在第二阶 段必须组合局部量测,或者在局部邻域中沿着轮廓检测。 (4)计算机视觉中的以灰度为基础的技术 已经提出了许多用于计算机视觉系统的以灰度为基础的运动检测和测量的方案。其中 个方案是用于测量图象对中运动的灰度交叉相关技术。例如,这种技术可用于根据卫星 图象数据测量云层的运动,以及用于交通控制和用于SLR图象的比较。已提出一种基于比 较小的图象区域上灰度分布的方案。图象相减的方法已被用于运动和变化探测以及用于运 动测量 大多数交叉相关法和相减法的基本问题是这些方法假设图象(或大部分图象)是作为 整体在两帧图象之间运动。包含独立运动物体的图象以及由物体在空间无限制地运动引入 的图象畸变造成了这些技术的困难
133 视网膜结构主要完成两个功能。第一个是把进入的光线记录在对光敏感的光接收器阵 列上。第二,所记录的图象完成初始的转换。所转换的图象从最后的视网膜细胞层(神经 节细胞层)沿着大约上百万的神经纤维送到 LGN(外侧膝状体),并从 LGN 送到视觉皮 层。如前所述,视网膜对图象 I 进行 ( ) d dx G I 2 2 运算, G 是高斯函数。运算后结果中的过 零点对应于原始图象中灰度急剧变化处,利用附加的子单元可确定过零点的运动。设 Z 表 示过零点当前的位置。从图 7.2 可看到,如果过零点向右运动,在位置 Z 的卷积值就增 加;如果过零点向左运动,这个值就减小。因此,通过检查卷积对时间的导数的符号就可 以明确地确定运动的方向。 图 7.2 按这种方案,运动可由过零点的斜率和时间导数来确定,因此,这是以灰度为基础的 方案,它不要求在时间域上作元素的匹配。在相反方向上的运动是由另外的单元来检测 的。这样的一个关于人类视觉的观点得到心理物理学证据的支持。 利用这种方案,可以将过零点轮廓用于运动量测。然而,由于图 7.3 中所示的孔径问 题,以纯粹的局部测量为基础既不可能完全地确定轮廓的运动,也不可能完全地确定任何 其他线性特性。如果是由跟轮廓相比较小的单元来检测运动,可以抽取的唯一信息是垂直 于局部边缘方向的运动分量。沿边缘的运动是感觉不到的。要完全地确定运动,在第二阶 段必须组合局部量测,或者在局部邻域中沿着轮廓检测。 (4) 计算机视觉中的以灰度为基础的技术 已经提出了许多用于计算机视觉系统的以灰度为基础的运动检测和测量的方案。其中 一个方案是用于测量图象对中运动的灰度交叉相关技术。例如,这种技术可用于根据卫星 图象数据测量云层的运动,以及用于交通控制和用于 SLR 图象的比较。已提出一种基于比 较小的图象区域上灰度分布的方案。图象相减的方法已被用于运动和变化探测以及用于运 动测量。 大多数交叉相关法和相减法的基本问题是这些方法假设图象(或大部分图象)是作为 整体在两帧图象之间运动。包含独立运动物体的图象以及由物体在空间无限制地运动引入 的图象畸变造成了这些技术的困难
图73孔径问题 孔径比运动的轮廓小时,不能唯一地确定运动方法,从对孔 径A观察不可能确定边缘是朝B方向还是朝C方向运动。 (5)计算机视觉系统中的梯度方法 这些方法都基于在给定点上的灰度梯度和在这些点当灰度图案运动时引入的灰度随时 间变化之间关系。如果E(x,y)表示图象中的光强,那么 dt =EU+Ev 其中dE/d是在位置(x,y)处灰度随时间的变化;Ex和E,表示在这个图象点的灰度 梯度;u,v是沿x和y方向的局部速度 梯度方法和过零点方法在几个方面是相似的。这两种方法都利用时间变化和图象梯度 去测量在梯度方向上的局部运动。 以灰度为基础的图象速度场计算方法还有一些困难问题有待解决。因为在一般情况下 (无限制的运动,几个物体)图象的不同部分有不同的运动。所以,原先的初始量测是局 部的。这些量测不足以完全确定运动。因此,在稍后的阶段必须将局部测量组合起来。组 合阶段是理解生理系统和构成计算机视觉系统中主要的未被解决的问题 3标记匹配方案 按测量运动的标记匹配方法,首先要确定可识别的基元 标记,然后匹配不同时间的标记。以上所讨论的表观运动 P2 现象( apprent motion phenomena)说明了人类视觉系统有能 力通过匹配在空间和时间上相距相当间隔的标记来建立运动 感觉。在检测相继出现的基元之间的连续运动时,视觉系统 必须建立依次出现的基元之间的对应关系。这就是说,在第 二帧图象中必须找到跟第一帧中的基元相对应的基元的位 置。一个简单的对应问题如图74中所示。图中实心的小圆 表示在第一帧中的,空心小圆表示在第二帧圆的。在这两帧 图中有两种可能的一对一的匹配,这导致两种可能的可感觉 的运动:水平的和对角线的 Q2k 在图7-4中只有两种方式的多义性,在实际中,每帧图 中可包含许多排列成复杂图形的基元,因此必须在它们之间图74对应性问题,P 建立对应关系。对控制人类视觉系统中对应过程的规律已进和P2在第一帧,Q1和Q 行了若干研究,但离完全理解这个问题还很远 在下一帧 当参加运动的基元是一些孤立的点,它们的对应关系主 要由点之间的距离来控制。在其他参数相同的条件下,每个点优先跟下一帧中相距最近的 点匹配
134 C B A E 图 7.3 孔径问题 孔径比运动的轮廓小时,不能唯一地确定运动方法,从对孔 径 A 观察不可能确定边缘是朝 B 方向还是朝 C 方向运动。 (5) 计算机视觉系统中的梯度方法 这些方法都基于在给定点上的灰度梯度和在这些点当灰度图案运动时引入的灰度随时 间变化之间关系。如果 E(x, y) 表示图象中的光强,那么 E u E v dt dE − = x + y 其中 dE dt 是在位置 (x, y) 处灰度随时间的变化; Ex和Ey 表示在这个图象点的灰度 梯度; u, v 是沿 x和y 方向的局部速度。 梯度方法和过零点方法在几个方面是相似的。这两种方法都利用时间变化和图象梯度 去测量在梯度方向上的局部运动。 以灰度为基础的图象速度场计算方法还有一些困难问题有待解决。因为在一般情况下 (无限制的运动,几个物体)图象的不同部分有不同的运动。所以,原先的初始量测是局 部的。这些量测不足以完全确定运动。因此,在稍后的阶段必须将局部测量组合起来。组 合阶段是理解生理系统和构成计算机视觉系统中主要的未被解决的问题。 3. 标记匹配方案 按测量运动的标记匹配方法,首先要确定可识别的基元 —标记,然后匹配不同时间的标记。以上所讨论的表观运动 现象(apperent motion phenomena)说明了人类视觉系统有能 力通过匹配在空间和时间上相距相当间隔的标记来建立运动 感觉。在检测相继出现的基元之间的连续运动时,视觉系统 必须建立依次出现的基元之间的对应关系。这就是说,在第 二帧图象中必须找到跟第一帧中的基元相对应的基元的位 置。一个简单的对应问题如图 7-4 中所示。图中实心的小圆 表示在第一帧中的,空心小圆表示在第二帧圆的。在这两帧 图中有两种可能的一对一的匹配,这导致两种可能的可感觉 的运动:水平的和对角线的。 在图 7-4 中只有两种方式的多义性,在实际中,每帧图 中可包含许多排列成复杂图形的基元,因此必须在它们之间 建立对应关系。对控制人类视觉系统中对应过程的规律已进 行了若干研究,但离完全理解这个问题还很远。 当参加运动的基元是一些孤立的点,它们的对应关系主 要由点之间的距离来控制。在其他参数相同的条件下,每个点优先跟下一帧中相距最近的 点匹配。 图 7-4 对应性问题,P1 和 P2 在第一帧,Q1 和 Q2 在下一帧。 or P2 d Q1 c Q2 P1 Q1 P2 b P1 Q2 a
如果每帧图中的基元是短线段,那么可应用附加的规则,对短线段来说,对应关系不 仅取决于基元之间的距离,而且跟它们的相对长度和方向有关。在其他参数相同时,给定 的线段优先跟另一根有相似长度和方向的线段相匹配,这就要规定线段之间的相似性矩 阵。相似性矩阵是相似性、方位、长度和对比度的函数。每个基元倾向于跟最相似的基元 匹配。这种选择性的简单和著名的例子是运动图象中马车车轮现象,在这样的图中,带辐 条的车轮的表观运动跟车轮的实际方向相反。这种现象是视觉系统从两个相竞争的运动中 优先选择其中距离和角度变化量小的那个的结果 形体( figure)和基元组之间的对应关系不是只以相似性为基础。还存在着在一对一的 基础上匹配基元组这样的倾向,一个基元可能不跟最相似的基元匹配,因为这个基元已经 找到它的对应物,而通常二对一的匹配是要避免的。 标记匹配方案的两个常见的问题跟生理系统和跟计算机视觉系统都有关系。 第一个问题涉及在怎样的水平上建立对应关系。这就是处理的程度和分解标记的复杂 程度。可以在象点、斑点( blobs)、边缘段或短线段这样的简单标记之间建立匹配,也可 以在具有结构形式的甚至已识别物体的图象这样的复杂标记之间建立匹配。应用复杂的标 记可以简化对应过程,因此通常复杂的标记在后续的那帧图象中只有唯一的对应物。与此 相反,原始的标记象短的边缘段通常存在许多相互竞争的可能匹配。但是应用原始标记具 有两个突出的优点。首先是降低了对预处理的要求。这在运动感觉中是非常重要的,因为 这时对计算时间的限制很严格。第二,原始标记允许在各种物体作复杂外形变化的运动时 进行对应关系的匹配。这是因为复杂形体的对应关系是通过构成形体的基元组之间的匹配 来建立的。因此,似乎对应关系应该建立在相当原始的水平上,可能在Mar的完全初始简 图水平。 第二个问题涉及在视觉运动分析的集成系统中基于灰度的方案和基于标记匹配方案可 能起的作用。基于灰度的方案一般比较快和灵敏。例如,人类视觉系统可以探测低到每秒 一视觉弧分( one minute of visual are)的速度。这个速度仅为太阳径过天空速度的4倍。 猫的视觉皮层中的方向选择单元能可靠地对小到0.87弧分的偏离作出响应(大约4米距离 上1毫米)。人类甚至可探测更小的偏离。但另一方面,局部测量的不确定性使得单独地 以灰度为基础的方案来准确求得速度场很困难。从原理上讲,基于标记匹配的方案可以在 长距离范围内跟踪明确定位的标记(象线段的端点),因此可达到高的准确性,这样做的 代价是需要比较费时的标记定位和解决对应问题的过程 根据它们的基本特性,这两种运动测量方案可以完成不同的视觉任务。基于灰度的方 案一般用作为外围的,吸引注意力的和早期警报系统和用于把运动的物体跟背景相分割的 系统。在根据运动发现物体三维结构的任务中标记匹配方案可能起主要作用。在发现三维 结构的任务中要进行在相当长的距离范围内准确跟踪。某个最新的心理物理学的证据说明 在人的视觉系统中长范围过程对根据运动发现结构来说是关键的。第二种可能性是这两种 方案相互作用以便相互补充。例如,长范围对应关系的计算可以由通过短范围方案提供的 附加约束来导引的。 712视觉运动的解释 生理的和基于计算机的运动分析系统有三种用途。这些用途按其复杂性排列如下 1)周围物体的分割 (2)发现三维形状 (3)基于运动的识别 135
135 如果每帧图中的基元是短线段,那么可应用附加的规则,对短线段来说,对应关系不 仅取决于基元之间的距离,而且跟它们的相对长度和方向有关。在其他参数相同时,给定 的线段优先跟另一根有相似长度和方向的线段相匹配,这就要规定线段之间的相似性矩 阵。相似性矩阵是相似性、方位、长度和对比度的函数。每个基元倾向于跟最相似的基元 匹配。这种选择性的简单和著名的例子是运动图象中马车车轮现象,在这样的图中,带辐 条的车轮的表观运动跟车轮的实际方向相反。这种现象是视觉系统从两个相竞争的运动中 优先选择其中距离和角度变化量小的那个的结果。 形体(figure)和基元组之间的对应关系不是只以相似性为基础。还存在着在一对一的 基础上匹配基元组这样的倾向,一个基元可能不跟最相似的基元匹配,因为这个基元已经 找到它的对应物,而通常二对一的匹配是要避免的。 标记匹配方案的两个常见的问题跟生理系统和跟计算机视觉系统都有关系。 第一个问题涉及在怎样的水平上建立对应关系。这就是处理的程度和分解标记的复杂 程度。可以在象点、斑点(blobs)、边缘段或短线段这样的简单标记之间建立匹配,也可 以在具有结构形式的甚至已识别物体的图象这样的复杂标记之间建立匹配。应用复杂的标 记可以简化对应过程,因此通常复杂的标记在后续的那帧图象中只有唯一的对应物。与此 相反,原始的标记象短的边缘段通常存在许多相互竞争的可能匹配。但是应用原始标记具 有两个突出的优点。首先是降低了对预处理的要求。这在运动感觉中是非常重要的,因为 这时对计算时间的限制很严格。第二,原始标记允许在各种物体作复杂外形变化的运动时 进行对应关系的匹配。这是因为复杂形体的对应关系是通过构成形体的基元组之间的匹配 来建立的。因此,似乎对应关系应该建立在相当原始的水平上,可能在 Marr 的完全初始简 图水平。 第二个问题涉及在视觉运动分析的集成系统中基于灰度的方案和基于标记匹配方案可 能起的作用。基于灰度的方案一般比较快和灵敏。例如,人类视觉系统可以探测低到每秒 一视觉弧分(one minute of visual are)的速度。这个速度仅为太阳径过天空速度的 4 倍。 猫的视觉皮层中的方向选择单元能可靠地对小到 0.87 弧分的偏离作出响应(大约 4 米距离 上 1 毫米)。人类甚至可探测更小的偏离。但另一方面,局部测量的不确定性使得单独地 以灰度为基础的方案来准确求得速度场很困难。从原理上讲,基于标记匹配的方案可以在 长距离范围内跟踪明确定位的标记(象线段的端点),因此可达到高的准确性,这样做的 代价是需要比较费时的标记定位和解决对应问题的过程。 根据它们的基本特性,这两种运动测量方案可以完成不同的视觉任务。基于灰度的方 案一般用作为外围的,吸引注意力的和早期警报系统和用于把运动的物体跟背景相分割的 系统。在根据运动发现物体三维结构的任务中标记匹配方案可能起主要作用。在发现三维 结构的任务中要进行在相当长的距离范围内准确跟踪。某个最新的心理物理学的证据说明 在人的视觉系统中长范围过程对根据运动发现结构来说是关键的。第二种可能性是这两种 方案相互作用以便相互补充。例如,长范围对应关系的计算可以由通过短范围方案提供的 附加约束来导引的。 7.1.2 视觉运动的解释 生理的和基于计算机的运动分析系统有三种用途。这些用途按其复杂性排列如下: (1) 周围物体的分割 (2) 发现三维形状 (3).基于运动的识别
3器游 吧吧 图7-5(a)中的中心方块比(b)中的中心方块略微右移。这两幅图象中的背景是不相关 的。当把这两幅图顺序地让观察者观察时,就可感觉到用线条勾划出方块在噪声背景上移 动。(c)是a)用V2G算子滤波后的过零点轮廓。(d)中过零点的运动是沿亮点的方向。(e)根 据运动信息就可以发现中心方块,在此区域中的亮点被删去 1.周围物体的分割 人类视觉系统可以只根据运动信息把运动物体跟它的背景分割开。图7-5表示可从 对随机点模式中探测一个运动的子形体的例子。图7-5a中的中心方块比5b中的中心方块 略微向右位移。这两幅图象中的背景是不相关的。当把这两幅图顺序地让观察者观察时, 就可感觉到用线条勾划出的方块在噪声背景上移动。这个子形体在这两个静止图象中都探 测不出来,因为这些子形体仅仅由帧对帧的偏离来定义的。这种实验证明视觉系统利用运 动甚至在没有灰度边缘或在边界处没有纹理变化时,能描述运动物体的边界 研究表明视觉运动可对周围物体的分离提供有用的线索。然而,可靠的基于运动的分 割比预想的要困难。从以上叙述的基于灰度的方法可理解某些这样的困难。在把局部测量 综合起来时,经常要假设速度场是连续的。因此在物体边界处就会产生显著的误差,因为 在边界处连续性假设不成立。合乎理想的是在测量运动以前就探测出速度场的不连续性, 而不是根据速度测量。 克服这种困难的一种方法是利用探测运动不连续性不要求准确的速度场测量,粗略估 计方向和速度就足够了。所以,分两阶段进行局部的基于灰度的运动测量被证明是有利 的。在第一阶段,对运动作粗略估计,并用于定位速度场中的不连续点。第二阶段,在建 立速度场时不把平滑性约束传播过不连续点的边界 2根据运动发现三维结构 人类视觉系统甚至能从不熟悉物体的景物图象序列发现运动物体的三维形状。而其中 的每个静图象并不包含三维信息,在实验中不熟悉的物体在透明的屏幕后面旋转,从屏幕 的另一边看到物体垂直投影的阴影。在大多数情况下,观察者可以正确地描述被挡住物体 的三维结构和在空间的运动,甚至当每个静止观察是不能识别和不包含三维信息时也可以 做到这点。原始运动深度效应主要利用线框物体,这些物体投影成一组相连的线。最近的 研究显示根据包含在运动中的不连接的基元可建立三维结构 136
136 图 7-5 (a) 中的中心方块比(b)中的中心方块略微右移。这两幅图象中的背景是不相关 的。当把这两幅图顺序地让观察者观察时,就可感觉到用线条勾划出方块在噪声背景上移 动。(c)是(a)用 2G 算子滤波后的过零点轮廓。(d)中过零点的运动是沿亮点的方向。(e)根 据运动信息就可以发现中心方块,在此区域中的亮点被删去。 1. 周围物体的分割 人类视觉系统可以只根据运动信息把运动物体跟它的背景分割开。图 7-5 表示可从一 对随机点模式中探测一个运动的子形体的例子。图 7-5a 中的中心方块比 5b 中的中心方块 略微向右位移。这两幅图象中的背景是不相关的。当把这两幅图顺序地让观察者观察时, 就可感觉到用线条勾划出的方块在噪声背景上移动。这个子形体在这两个静止图象中都探 测不出来,因为这些子形体仅仅由帧对帧的偏离来定义的。这种实验证明视觉系统利用运 动甚至在没有灰度边缘或在边界处没有纹理变化时,能描述运动物体的边界。 研究表明视觉运动可对周围物体的分离提供有用的线索。然而,可靠的基于运动的分 割比预想的要困难。从以上叙述的基于灰度的方法可理解某些这样的困难。在把局部测量 综合起来时,经常要假设速度场是连续的。因此在物体边界处就会产生显著的误差,因为 在边界处连续性假设不成立。合乎理想的是在测量运动以前就探测出速度场的不连续性, 而不是根据速度测量。 克服这种困难的一种方法是利用探测运动不连续性不要求准确的速度场测量,粗略估 计方向和速度就足够了。所以,分两阶段进行局部的基于灰度的运动测量被证明是有利 的。在第一阶段,对运动作粗略估计,并用于定位速度场中的不连续点。第二阶段,在建 立速度场时不把平滑性约束传播过不连续点的边界。 2. 根据运动发现三维结构 人类视觉系统甚至能从不熟悉物体的景物图象序列发现运动物体的三维形状。而其中 的每个静图象并不包含三维信息,在实验中不熟悉的物体在透明的屏幕后面旋转,从屏幕 的另一边看到物体垂直投影的阴影。在大多数情况下,观察者可以正确地描述被挡住物体 的三维结构和在空间的运动,甚至当每个静止观察是不能识别和不包含三维信息时也可以 做到这点。原始运动深度效应主要利用线框物体,这些物体投影成一组相连的线。最近的 研究显示根据包含在运动中的不连接的基元可建立三维结构
对根据运动发现三维结构的计算问题已进行了许多研究。其中所探索的主要问题是什 么条件下从运动得到结构的问题有唯一解,以及研究根据运动发现结构的算法。这些研究 的主要结果列出在表1中。如表中所示,对问题的离散形式和连续形式都进行了研究。第 个形式在空间和时间上都是离散的。计算是以若干离散的帧,每帧包含许多孤立的点 已经证明为了从运动中得到结构的唯一解释只要少数帧和点数就足够了:对包含至少四个 不共面点的运动刚体而言,用三帧就可以确定空间运动和点的三维坐标 唯一性的证明是很有价值的,因为这将导致根据运动发现结构的可能方案。景物被分 成大约每组包含4个基元的组。每组结构是独立地求取的,最后局部的结果在一个附加的 步骤中被组合起来。这样的方案是基于垂直投影,通过用发现方案的局部化来处理透视投 影。这就是说,对四邻域点,两种类型的投影是相似的。可也能直接利用透视投影。有迹 象表明在透视情况下,对唯一的解释来说,可能需要两帧图和5个点就足够了,但这种情 况的证明还不知道 也可以不是只考虑在若干离散观察中点的位置,而是把点的位置和速度同时作为输入 (表中第二栏)。这可能被考虑为两帧问题,帧间的时间间隔趋于零时的极限情况。这时 问题就取以下形式:给出图象中N点的位置和速度,确定这些点是否属于单个运动物体和寻 找在空间中的运动和这些点的三维坐标。 先期的理论问题是确定能发现问题的唯一解时的最少点数N,从数学观点来看,这个 问题仍然没解决。计算方程式的变量和未知数的数目揭示5个点就足够了,一个证明是由 progeny执行的计算机程序。因为计算机程序对输入中的误差很敏感,特别是当被察的物体 很小时,似乎强有力的发现算法应需要多于5个点 离散点和离散观察帧离散点及其速度 速度场和速度场的空间导数 3个垂直投影中4个点单个透视观察投影中5 对纯平移的运动有唯一解 (ullman 1979) 点和它们的速度 (clock SIN 1980) 两个透视投影中的5个点 对一般的运动最多可有三个解 (ullman 1979) (longuet-higgins and prageny 1980) 问题的第三种形式是利用速度场和速度场的空间导数。这可被看作是前面形式当点之 间的距离趋于零时的特殊情况。在这种问题的简化类型中,空间的运动被限于纯粹平移 在这样的假设下,解的唯一性很容易建立。根据所在点的速度和速度场的空间导数可求得 每个图象点的表面方位。 在包含旋转分量的更为一般的情况则要复杂得多。有一种分析方法认为某一点的速度 最多时有三种解释。更准确地说,已被证明对非平面的表面(在点上给出速度和它的一阶 和二阶导数)。对这个点上表面方位最多存在三个解。 上述的方案是为了根据运动到结构问题的完全解。这就是说,这些方法试图发现所有 的运动参数和可见环境的三维结构。与此相反,部分描述要有选择地抽取出某些运动参 数。例如若干数学和心理研究试图在图象速度场中孤立出以下这样的变量:这些变量允许 分离和独立地发现运动的旋转和平移分量中的每一个。一般来说,这样地分解问题是不可 能的。因为图象中的速度场是由所有的运动参数跟可见的物体三维形状的内在相互作用所 决定的。因此,似乎不可能在运动场中孤立出一个变量。譬如说跟平移分量无关的旋转运 动分量,然而在象纯粹平移这样的特定情况下的部分解变成有吸引力的 3.基于运动的识别 人类观察者可单独根据特性运动模式识别某些物体。由 Johansson进行的研究为这种 能力提供了强有力的证明。通过对在黑暗中运动的,在其主要关节上装有小光源的演员摄 影可提供这样的证明。每个演员由多达13个运动光点来表示。所得到的点的动态模式为运 动着的演员造成一种生动的印象。以后的研究已经证明,经常可以把男演员跟女演员相区 分,在某些情况下,熟人可以单独根据运动的光点被识出。 研究这个问题的策略可把问题分成两步:第一步组织和描述运动模式;第二步把得到 的表达跟存在内存中的相似描述比较。第一步被认为是自动的。也就是由通用结构成份 137
137 对根据运动发现三维结构的计算问题已进行了许多研究。其中所探索的主要问题是什 么条件下从运动得到结构的问题有唯一解,以及研究根据运动发现结构的算法。这些研究 的主要结果列出在表 1 中。如表中所示,对问题的离散形式和连续形式都进行了研究。第 一个形式在空间和时间上都是离散的。计算是以若干离散的帧,每帧包含许多孤立的点。 已经证明为了从运动中得到结构的唯一解释只要少数帧和点数就足够了:对包含至少四个 不共面点的运动刚体而言,用三帧就可以确定空间运动和点的三维坐标。 唯一性的证明是很有价值的,因为这将导致根据运动发现结构的可能方案。景物被分 成大约每组包含 4 个基元的组。每组结构是独立地求取的,最后局部的结果在一个附加的 步骤中被组合起来。这样的方案是基于垂直投影,通过用发现方案的局部化来处理透视投 影。这就是说,对四邻域点,两种类型的投影是相似的。可也能直接利用透视投影。有迹 象表明在透视情况下,对唯一的解释来说,可能需要两帧图和 5 个点就足够了,但这种情 况的证明还不知道。 也可以不是只考虑在若干离散观察中点的位置,而是把点的位置和速度同时作为输入 (表中第二栏)。这可能被考虑为两帧问题,帧间的时间间隔趋于零时的极限情况。这时 问题就取以下形式:给出图象中 N 点的位置和速度,确定这些点是否属于单个运动物体和寻 找在空间中的运动和这些点的三维坐标。 先期的理论问题是确定能发现问题的唯一解时的最少点数 N,从数学观点来看,这个 问题仍然没解决。计算方程式的变量和未知数的数目揭示 5 个点就足够了,一个证明是由 progeny 执行的计算机程序。因为计算机程序对输入中的误差很敏感,特别是当被察的物体 很小时,似乎强有力的发现算法应需要多于 5 个点。 表1 离散点和离散观察帧 离散点及其速度 速度场和速度场的空间导数 3 个垂直投影中 4 个点 (ullman 1979) 两个透视投影中的 5 个点 (ullman 1979) 单个透视观察投影中 5 点和它们的速度 对纯平移的运动有唯一解 (clock SIN 1980) 对一般的运动最多可有三个解 (longuet-higgins and prageny 1980) 问题的第三种形式是利用速度场和速度场的空间导数。这可被看作是前面形式当点之 间的距离趋于零时的特殊情况。在这种问题的简化类型中,空间的运动被限于纯粹平移。 在这样的假设下,解的唯一性很容易建立。根据所在点的速度和速度场的空间导数可求得 每个图象点的表面方位。 在包含旋转分量的更为一般的情况则要复杂得多。有一种分析方法认为某一点的速度 最多时有三种解释。更准确地说,已被证明对非平面的表面(在点上给出速度和它的一阶 和二阶导数)。对这个点上表面方位最多存在三个解。 上述的方案是为了根据运动到结构问题的完全解。这就是说,这些方法试图发现所有 的运动参数和可见环境的三维结构。与此相反,部分描述要有选择地抽取出某些运动参 数。例如若干数学和心理研究试图在图象速度场中孤立出以下这样的变量:这些变量允许 分离和独立地发现运动的旋转和平移分量中的每一个。一般来说,这样地分解问题是不可 能的。因为图象中的速度场是由所有的运动参数跟可见的物体三维形状的内在相互作用所 决定的。因此,似乎不可能在运动场中孤立出一个变量。譬如说跟平移分量无关的旋转运 动分量,然而在象纯粹平移这样的特定情况下的部分解变成有吸引力的。 3. 基于运动的识别 人类观察者可单独根据特性运动模式识别某些物体。由 Johansson 进行的研究为这种 能力提供了强有力的证明。通过对在黑暗中运动的,在其主要关节上装有小光源的演员摄 影可提供这样的证明。每个演员由多达 13 个运动光点来表示。所得到的点的动态模式为运 动着的演员造成一种生动的印象。以后的研究已经证明,经常可以把男演员跟女演员相区 分,在某些情况下,熟人可以单独根据运动的光点被识出。 研究这个问题的策略可把问题分成两步:第一步组织和描述运动模式;第二步把得到 的表达跟存在内存中的相似描述比较。第一步被认为是自动的。也就是由通用结构成份
( principle)、而不是由关于特定物体的知识所导引。不少心理学研究已证明在人类视觉 系统中存在这样的组织成份,但对其细节还远远不清楚。最近已有人提出一种方法,根据 平面性假设,四肢的运动可被用于求得对运动着的光的显式的三维解释。当这些原理用于 Johansson类型的结果结构时,组织成份将在主要关节之间建立连接,产生正在运动的棒状 图形的表达形式。这些棒状图形在以后的步骤中可能用Mar和 Nishiara所提出的方案进行 分析 经验证明在这个领域中的进步取决于计算研究跟实验心理学研究的结合 72运动的检测和测量 721以灰度为基础的方法 1.速度场和光流( motion field and optical flow) 当物体从摄象机前面移过或摄象机移过固定的环境时,图象中会产生相应的变化,这 些变化可用于发现相对运动以及物体的形状 图象中各点的速度矢量构成了速度场。在某一特定时刻,图象中的p2点与物体表面上 的某点P0对应。这两点之间的关系符合投影方程。在透视投影的情况下,从图象点出发经 过透镜中心的射线一直伸展到与不透明物体相交(图7.6) po 图76景物中点的位移造成图象中相应点的位移 设物体上的点P0相对于摄象机的速度为V,P0点的运动造成图象中的对应点P;以 V的速度运动。6t的时间间隔里P点移动Vo1,对应的图象点p移动vot。速度分别 其中后和的关系是 其中z是Z轴方向的单位矢量。对此透视投影方程作微分可得 1G6·2)0-0·2_G×)×z G·2) 在这里并不想去求解这个方程,重要的是说明可用这种方式对图象中各点赋予一个速度矢 量。这些矢量构成速度场。 物体上相邻点的速度相近。因此,可以认为在多数场合下图象中的速度场也是连续 点。在物体成象的外轮廓处,由于那里的运动场是不连续的将作为例外
138 (principle)、而不是由关于特定物体的知识所导引。不少心理学研究已证明在人类视觉 系统中存在这样的组织成份,但对其细节还远远不清楚。最近已有人提出一种方法,根据 平面性假设,四肢的运动可被用于求得对运动着的光的显式的三维解释。当这些原理用于 Johansson 类型的结果结构时,组织成份将在主要关节之间建立连接,产生正在运动的棒状 图形的表达形式。这些棒状图形在以后的步骤中可能用 Marr 和 Nishiara 所提出的方案进行 分析。 经验证明在这个领域中的进步取决于计算研究跟实验心理学研究的结合。 7.2 运动的检测和测量 7.2.1 以灰度为基础的方法 1. 速度场和光流(motion field and optical flow) 当物体从摄象机前面移过或摄象机移过固定的环境时,图象中会产生相应的变化,这 些变化可用于发现相对运动以及物体的形状。 图象中各点的速度矢量构成了速度场。在某一特定时刻,图象中的 pi 点与物体表面上 的某点 p0 对应。这两点之间的关系符合投影方程。在透视投影的情况下,从图象点出发经 过透镜中心的射线一直伸展到与不透明物体相交(图 7.6)。 V t 0 p0 0 r ' f Z pi i r 图 7.6 景物中点的位移造成图象中相应点的位移 设物体上的点 p0 相对于摄象机的速度为 V0 , p0 点的运动造成图象中的对应点 pi 以 Vi 的速度运动。 t 的时间间隔里 p0 点移动 V t 0 ,对应的图象点 pi 移动 V t i 。速度分别 为: dt dr V 0 0 = 和 dt dr V i i = 其中 r0 和 ri 的关系是 0 0 1 1 r r Z r f i = 其中 Z 是 Z 轴方向的单位矢量。对此透视投影方程作微分可得 ( ) ( ) ( ) ( ) ( ) 2 0 0 0 2 0 1 0 0 0 0 r Z r V Z r Z r Z V V Z r V f i = − = 在这里并不想去求解这个方程,重要的是说明可用这种方式对图象中各点赋予一个速度矢 量。这些矢量构成速度场。 物体上相邻点的速度相近。因此,可以认为在多数场合下图象中的速度场也是连续 点。在物体成象的外轮廓处,由于那里的运动场是不连续的将作为例外
2光流( optical flow) 当成象物体运动时,图象中的亮度图案也随之移动。光流是可看得到的亮度图案的运 动或称为表观运动( apparent motion)。希望光流能相应于运动场,但以下将会看到不一定 是这样的 先研究一下在成象系统前旋转的绝对均匀的圆球。由于球面是曲面,所以球的图象中 会有亮度的空间分布即影调。但这样的影调不随表面运动,所以图象不随时间变化。这时 各处的光流都为零,尽管这时运动不为零。其次,看一下由运动的光源照明的固定球面 随光源的运动,图象的影调将随之变化。这时光流显然不为零,而运动场则到处都是零 虚象和阴影是使光流和运动场不相同的其它的原因。 我们可以观察得到的是光流。此外除了上述的些特殊情况外,一般情况下光流与运动 场相差不大。这使我们能利用光流信息来估计相对运动 图77亮度图案的表观运动是个不便于使用的概念 亮度图案的表观运动是什么含义呢?试考虑图象中在时刻t时亮度为E的p点(图 77)。在t+δt时刻图象中与p点对应的点是p'。在此时间间隔中亮度图案是如何运动 的?通常在p点附近有许多亮度都为E的点。如果亮度连续变化,那么p点将位于等亮度 线C上。在t+δt时刻在附近将会有一条亮度相同的等亮度线C′。但C与C上的点是如 何对应的?因为通常这两条线的形状都不相同,所以这个问题难以回答。由此可知,根据 时变图象( changing image)中的局部信息不能唯一地确定光流 设,在t时刻图象点(x,y)处的辐照度是E(x,y,l)。如该点光流在x和y轴的分量分 别为(x,y)和v(x,y),那么在t+61时刻相同亮度的点将会在(x+δx,y+δy)。其中 x=lt和δy=vt,即对小的时间间隔可有 E(x+u8,y+v8t,t+6)=E(x,y,) 单有这一个约束不足以唯一地确定u和v。这里显然我们也可以利用各处的运动场是连续 的这个事实 如果亮度随x,y和t平滑变化,可把上式按泰勒级数展开得到 E E(x,y, 0)+8xoexs dr dtcE+e=E(x,y, 其中e包括在δx,y和bt中的二次以上的项。上式中约去E(x,y),并用δt除等式 两端和取δt→0的极限后可求得: ae dx Be dy E 0 Ox dt y dt ot 此式实际上是等式=0的展开形式。用以下形式简写 dx 139
139 2. 光流(optical flow) 当成象物体运动时,图象中的亮度图案也随之移动。光流是可看得到的亮度图案的运 动或称为表观运动(apparent motion)。希望光流能相应于运动场,但以下将会看到不一定 是这样的。 先研究一下在成象系统前旋转的绝对均匀的圆球。由于球面是曲面,所以球的图象中 会有亮度的空间分布即影调。但这样的影调不随表面运动,所以图象不随时间变化。这时 各处的光流都为零,尽管这时运动不为零。其次,看一下由运动的光源照明的固定球面。 随光源的运动,图象的影调将随之变化。这时光流显然不为零,而运动场则到处都是零。 虚象和阴影是使光流和运动场不相同的其它的原因。 我们可以观察得到的是光流。此外除了上述的些特殊情况外,一般情况下光流与运动 场相差不大。这使我们能利用光流信息来估计相对运动。 图 7.7 亮度图案的表观运动是个不便于使用的概念 亮度图案的表观运动是什么含义呢?试考虑图象中在时刻 t 时亮度为 E 的 p 点(图 7.7)。在 t + t 时刻图象中与 p 点对应的点是 p 。在此时间间隔中亮度图案是如何运动 的?通常在 p 点附近有许多亮度都为 E 的点。如果亮度连续变化,那么 p 点将位于等亮度 线 C 上。在 t + t 时刻在附近将会有一条亮度相同的等亮度线 C 。但 C 与 C 上的点是如 何对应的?因为通常这两条线的形状都不相同,所以这个问题难以回答。由此可知,根据 时变图象(changing image)中的局部信息不能唯一地确定光流。 设,在 t 时刻图象点 (x, y) 处的辐照度是 E(x, y, t) 。如该点光流在 x 和 y 轴的分量分 别为 u(x, y) 和 v(x, y) ,那么在 t + t 时刻相同亮度的点将会在 (x + x, y + y) 。其中 x = u t 和 y = v t ,即对小的时间间隔可有: E(x + u t, y + v t, t + t) = E(x, y, t) 单有这一个约束不足以唯一地确定 u 和 v 。这里显然我们也可以利用各处的运动场是连续 的这个事实。 如果亮度随 x, y 和 t 平滑变化,可把上式按泰勒级数展开得到: E(x y t) x ( ) E x y E y t E t , , + + + + e = E x, y, t 其中 e 包括在 x , y 和 t 中的二次以上的项。上式中约去 E(x, y, t) ,并用 t 除等式 两端和取 t → 0 的极限后可求得: E x dx dt E y dy dt E t + + = 0 (7-1) 此式实际上是等式 dE dt = 0 的展开形式。用以下形式简写: u dx dt v dy dt = , =