5 根据经过聚集过程和因素分解过程处理以后的信息来识别物体的[Kan 87

正在加载图片...

根据经过聚集过程和因素分解过程处理以后的信息来识别物体的Kan87] 与分析上述两种处理过程有关的一个非常重要的问题,是把点状的图象信息变换成整体描述的聚集过程与对各种影响成象结果的因素进行分解的因素分解过程之间的关系。在没有完成因素分解过程以前我们能着手进行聚集过程吗?以Marm82为首的一些科学家认为在得到关于物体的纯净的信息( clean information),例如深度、表面、方向、反射率等以前, 做任何聚集的处理都是无用的。他们把这样的纯净信息称为本征图象( Intrinsic image),因此他们采用基于重构( reconstruction)的视觉信息处理方法,也就是通过重构这些本征图象来识别物体。而另一派科学家则认为某些预先进行的聚集过程不仅可以为因素分解过程提供必要的基础,而且还可形成某种反应物体空间结构的图象关系,根据这些图象关系可以产生对图象内容的假设。因此,他们采用了基于推理和识别的视觉信息处理方法。前一种观点是以Marr关于人类视觉的计算理论为代表;后一种观点是以 Gestalt( Gestalt)学派,及其后续者,如 WelloW5、 Pentland[Pen等关于感知组织( Perception organization)的理论为代表。这两派理论各自反映了视觉过程中的基本矛盾,但都未能对视觉过程作出满意的解释。这两种理论的争论推动了对视觉的研究(见图1.1) 1.2.1Mar(马尔)的视觉计算理论 Mar的视觉计算理论立足于计算机科学,系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。Marr理论的出现对神经科学的发展和人工智能的研究产生了深远的影响 Mar认为视觉是一个信息处理过程。这个过程根据外部世界的图象产生对观察者有用的描述。这些描述依次由许多不同但固定的、每个都记录了外界的某方面特征的表象 ( representation)所构成或组合而成。一种新的表象之所以提高了一步是因为新的表象表达了某种信息,而这种信息将便于对信息作进一步解释。按这种逻辑来思考可得到这样的结论即在对数据作进一步解释以前我们需要关于被观察物体的某些信息,这就是所谓的本征图象。然而,数据进入我们的眼睛是要以光线为媒介的。灰度图象中至少包含关于照明情况观察者相对于物体位置的信息。因此,按Marr的方法首先要解决的问题是如何把这些因素分解开。他认为低层视觉(即视觉处理的第一阶段)的目的就是要分清哪些变化是由哪些因素引起的。大体上来说这个过程要经过两个步骤来完成:第一步是获得表示图象中变化和结构的表象。这包括检测灰度的变化、表示和分析局部的几何结构、以及检测照明的效应等处理。第一步得到的结果被称为初始简图( Primal sketch)的表象:第二步对初始简图进行系列运算得到能反映可见表面几何特征的表象,这种表象被称为二维半(25D)简图或本征图象。这些运算中包括由立体视觉运算提取深度信息,根据灰度影调、纹理等信息恢复表面方向,由运动视觉运算获取表面形状和空间关系信息等。这些运算的结果都集成到本征图象这个中间表象层次。因为这个中间表象已经从原始的图象中去除了许多的多义性,是纯粹地表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据本征图象表示的这些信息可以可靠地把图象分成有明确含义的区域(这称为分割),从而可得到比线条、区域形状等更为高层的描述。这个层次的处理称为中层视觉处理( intermediate Processing)。Mar 视觉理论中的下一个表象层次是三维模型,它适用于物体的识别。这个层次的处理涉及物体并且要依靠和应用与领域有关的先验知识来构成对景物的描述,因此被称为高层视觉处理。 Mar的视觉计算理论虽然是首次提出的关于视觉的系统理论,并已对计算机视觉的研究起了巨大的推动作用,但还远未解决人类视觉的理论问题,在实践中也已遇到了严重困难对此现在已有不少学者提出改进意见,关于这个问题将在第二章中详细讨论。5 根据经过聚集过程和因素分解过程处理以后的信息来识别物体的[Kan 87]。与分析上述两种处理过程有关的一个非常重要的问题，是把点状的图象信息变换成整体描述的聚集过程与对各种影响成象结果的因素进行分解的因素分解过程之间的关系。在没有完成因素分解过程以前我们能着手进行聚集过程吗？以 Marr[Mar 82]为首的一些科学家认为在得到关于物体的纯净的信息（clean information），例如深度、表面、方向、反射率等以前，做任何聚集的处理都是无用的。他们把这样的纯净信息称为本征图象（intrinsic image），因此他们采用基于重构（reconstruction）的视觉信息处理方法，也就是通过重构这些本征图象来识别物体。而另一派科学家则认为某些预先进行的聚集过程不仅可以为因素分解过程提供必要的基础，而且还可形成某种反应物体空间结构的图象关系，根据这些图象关系可以产生对图象内容的假设。因此，他们采用了基于推理和识别的视觉信息处理方法。前一种观点是以 Marr 关于人类视觉的计算理论为代表；后一种观点是以 Gestalt（Gestalt）学派，及其后续者，如 Lowe[Low 85]、Pentland[Pen 88]等关于感知组织（Perception organization）的理论为代表。这两派理论各自反映了视觉过程中的基本矛盾，但都未能对视觉过程作出满意的解释。这两种理论的争论推动了对视觉的研究（见图 1.1）。 1.2.1 Marr[Mar 82]（马尔）的视觉计算理论 Marr 的视觉计算理论立足于计算机科学，系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果，是迄今为止最系统的视觉理论。Marr 理论的出现对神经科学的发展和人工智能的研究产生了深远的影响。 Marr 认为视觉是一个信息处理过程。这个过程根据外部世界的图象产生对观察者有用的描述。这些描述依次由许多不同但固定的、每个都记录了外界的某方面特征的表象（representation）所构成或组合而成。一种新的表象之所以提高了一步是因为新的表象表达了某种信息，而这种信息将便于对信息作进一步解释。按这种逻辑来思考可得到这样的结论：即在对数据作进一步解释以前我们需要关于被观察物体的某些信息，这就是所谓的本征图象。然而，数据进入我们的眼睛是要以光线为媒介的。灰度图象中至少包含关于照明情况、观察者相对于物体位置的信息。因此，按 Marr 的方法首先要解决的问题是如何把这些因素分解开。他认为低层视觉（即视觉处理的第一阶段）的目的就是要分清哪些变化是由哪些因素引起的。大体上来说这个过程要经过两个步骤来完成：第一步是获得表示图象中变化和结构的表象。这包括检测灰度的变化、表示和分析局部的几何结构、以及检测照明的效应等处理。第一步得到的结果被称为初始简图（Primal Sketch）的表象；第二步对初始简图进行一系列运算得到能反映可见表面几何特征的表象，这种表象被称为二维半（2.5 D）简图或本征图象。这些运算中包括由立体视觉运算提取深度信息，根据灰度影调、纹理等信息恢复表面方向，由运动视觉运算获取表面形状和空间关系信息等。这些运算的结果都集成到本征图象这个中间表象层次。因为这个中间表象已经从原始的图象中去除了许多的多义性，是纯粹地表示了物体表面的特征，其中包括光照、反射率、方向、距离等。根据本征图象表示的这些信息可以可靠地把图象分成有明确含义的区域（这称为分割），从而可得到比线条、区域、形状等更为高层的描述。这个层次的处理称为中层视觉处理（intermediate Processing）。Marr 视觉理论中的下一个表象层次是三维模型，它适用于物体的识别。这个层次的处理涉及物体，并且要依靠和应用与领域有关的先验知识来构成对景物的描述，因此被称为高层视觉处理。 Marr 的视觉计算理论虽然是首次提出的关于视觉的系统理论，并已对计算机视觉的研究起了巨大的推动作用，但还远未解决人类视觉的理论问题，在实践中也已遇到了严重困难。对此现在已有不少学者提出改进意见，关于这个问题将在第二章中详细讨论

<<向上翻页向下翻页>>

点击下载：《计算机视觉》课程教学资源（教材）第一章概述