《计算机视觉》课程教学资源（教材）第三章基于推理的视觉理解.doc_大学文库

样的图象时要么是利用了附加的高层信息(例如,知道图中是哪一类物体的知识),要么是利用了某些可以去除多义性解释的通用约束。心理物理学研究的结果表明人类同时使用了这两种策略,但令人惊奇的是在消除多义性方面,高层知识提供的信息要比低层的通用约束提供的少。这说明人类视觉在理解图象时必定利用了某些通用的约束。当然这些通用约束中包括景物和物体成象的基本物理性能,但还不止这些。其中很可能还包括所谓的感知组织 ( perceptual organization)。如果不对这些约束有透彻的了解,要建立通用的视觉系统是困难的。以下对逆向和不适定问题,以及感知组织作简要介绍 311逆向和不适定问题通常逆向问题涉及在只知道输出和所进行处理的本质的条件下,重构由于某种操作所畸变的数据。例如,已知x+y=17;求解满足上述公式的x和y,就是一个逆向问题。这时所进行的处理是已知的(加法),操作输出是已知的(17),但其输入x和y是未知的。许多低层计算机视觉问题是逆向的,因为这些问题要求根据从三维到二维变换后的输出(例如灰度图象),重构三维形状、边缘位置或运动等。 1.适定性定义 1923年 Hadamard定义当一个数学问题满足下述条件时是适定的: (1)存在一个解;(2)这个解是唯一的:(3)解连续地取决于输入数据,即输入数据的很小变化对输出也只引起一个小的变化。虽然许多逆向问题是不适定的,如上述简单例子所示。这是因为在这些问题中存在许多可能的解,因此不满足条件(2)。此外,实际中只能得到观察数据,而不是实际数据,所以不能保证满足(3),因此需要附加的信息来使这问题成为适定的。附加信息可以是定量的这就得到近似解( quasisolution)。另一种方法是使问题正则化,这时需要应用诸如解的特征这样的定性信息 2.正则理论正则理论提供一个解决不适定问题的框架。这涉及通过扩展问题的定义来限制解的空间,具体方法是增加体现解所希望特性的约束。这些附加的约束被称为稳定函数( stabilizing function),设:A是已知线性算子,y是已知数据,g是要恢复的未知数据。逆向问题定义为恢复g,使得: Ag 通常,y是由测量得到,但伴随着噪声。所以,只知道它的近似值y,因此,所能得到的是由下式求得近似解 y=Ag 这个近似解可通过寻找使得下式为极小的g来求得: 其中‖是合适的模。设:g是体现解的所希望特性的通解。因此,所希望的解g应使下式为极小: P(g)被称为稳定函数( stabilizing function) 设:P(g)至少是半单调的( quasimonotone),把上述两条件综合起来,求解就可表示为寻找使下式为极小的g 4g-y|+x[(g 其中λ是控制上述两项相对重要性的正则化参数。这里第一项描述所求解经变换后的符合程

45 样的图象时要么是利用了附加的高层信息（例如，知道图中是哪一类物体的知识），要么是利用了某些可以去除多义性解释的通用约束。心理物理学研究的结果表明人类同时使用了这两种策略，但令人惊奇的是在消除多义性方面，高层知识提供的信息要比低层的通用约束提供的少。这说明人类视觉在理解图象时必定利用了某些通用的约束。当然这些通用约束中包括景物和物体成象的基本物理性能，但还不止这些。其中很可能还包括所谓的感知组织（perceptual organization）。如果不对这些约束有透彻的了解，要建立通用的视觉系统是困难的。以下对逆向和不适定问题，以及感知组织作简要介绍。 3.1.1 逆向和不适定问题通常逆向问题涉及在只知道输出和所进行处理的本质的条件下，重构由于某种操作所畸变的数据。例如，已知 x+y=17；求解满足上述公式的 x 和 y，就是一个逆向问题。这时所进行的处理是已知的（加法），操作输出是已知的（17），但其输入 x 和 y 是未知的。许多低层计算机视觉问题是逆向的，因为这些问题要求根据从三维到二维变换后的输出（例如灰度图象），重构三维形状、边缘位置或运动等。 1. 适定性定义 1923 年 Hadamard 定义当一个数学问题满足下述条件时是适定的： (1)存在一个解；(2)这个解是唯一的；(3)解连续地取决于输入数据，即输入数据的很小变化对输出也只引起一个小的变化。虽然许多逆向问题是不适定的，如上述简单例子所示。这是因为在这些问题中存在许多可能的解，因此不满足条件(2)。此外，实际中只能得到观察数据，而不是实际数据，所以不能保证满足(3)，因此需要附加的信息来使这问题成为适定的。附加信息可以是定量的，这就得到近似解（quasisolution）。另一种方法是使问题正则化，这时需要应用诸如解的特征这样的定性信息。 2. 正则理论正则理论提供一个解决不适定问题的框架。这涉及通过扩展问题的定义来限制解的空间，具体方法是增加体现解所希望特性的约束。这些附加的约束被称为稳定函数（stabilizing function），设：A 是已知线性算子，y 是已知数据，g 是要恢复的未知数据。逆向问题定义为恢复 g，使得： y = Ag 通常，y 是由测量得到，但伴随着噪声。所以，只知道它的近似值 y *，因此，所能得到的是由下式求得近似解： y Ag  = 这个近似解可通过寻找使得下式为极小的 g 来求得： Ag − y  2 其中是合适的模。设：g *是体现解的所希望特性的通解。因此，所希望的解 g 应使下式为极小： P( g) = g − g  2 P(g)被称为稳定函数（stabilizing function）。设：P(g)至少是半单调的（quasimonotone），把上述两条件综合起来，求解就可表示为寻找使下式为极小的 g Ag − y + P P( g)   其中p 是控制上述两项相对重要性的正则化参数。这里第一项描述所求解经变换后的符合程

度,第二项说明所求解与所希望的解的特性的接近程度。通过应用稳定函数,在某种程度的数据范围内,可保证解的唯一性和强制所得结果连续地取于所观察的数据。这样就使问题成为适定的并在现在这种极小化问题形式下可求解。 312感知组织感知组织是指人类视觉系统所具有的在不知道图象内容的先验知识条件下,从图象获得相对的聚类和结构的能力。例如,人能从随机分布的图象元素的背景中迅速地检测出对称性、共线性、平行性、连通性和重复纹理等特性。对感知组织研究的全盛时期是在1920~30年代,这个时期在感知研究中占主导的是 Gestalt理论。这个理论主要的研究内容就是感知组织现象。 Gestalt学家的基本原则是整体要大于部分之和。例如,纸上画的两个点具有每个点单独时所没有的方向性。所以方向性被认为是形成特性( emergent property)。因此, Gestal 研究如何把简单的敏感输入组织或聚类成为复合的稳定感知。这样的感知表现出形式和结构。 Gestalt这个词本身的含意就是整体( whole)和结构( Configuration)。 Gestalt心理学家对我们理解感知组织的主要贡献是进行了大量的感知组织现象的验证, 并把它们进行分类(见图3.2), Gestalt心理学家认为下述这些因素在结构的感知中起重要作用: (1)接近性( Proximity):较为接近的元素倾向于聚集在一起 (2)相似性( Similarity):颜色、方向、或大小这样的物理属性相似的元素相聚集 (3)封闭性( Closure):曲线段在形成完整曲线时有形成封闭区域的倾向 (4)连续性( Continuation):位于同一条直线或平滑曲线上的元素相聚集 (5)对称性( Symmetry):任何横向对称于某个轴的元素相聚集 (6)熟知性( familiarity):我们经常看到它们在一起的元素相聚集。 Proximity similarity ][][] Coleus ()5 Symme 图3.2聚类现象的分类此外还有如相同方向上以同一速度移动的点、同一运动结构的各部分应被聚成一类。 Gestalt心理学家研究的一种影响是引起了对感知组织基本原理的研究。初始的 Gestalt学家对这方面的研究不很成功,他们把组织的规则归结为称为完形( pragnanz)的单个规则, Pragnanz这个德文字的含意是“简单”或“完善”的形式。但这只是一个没有定量公式的

46 度，第二项说明所求解与所希望的解的特性的接近程度。通过应用稳定函数，在某种程度的数据范围内，可保证解的唯一性和强制所得结果连续地取于所观察的数据。这样就使问题成为适定的并在现在这种极小化问题形式下可求解。 3.1.2 感知组织感知组织是指人类视觉系统所具有的在不知道图象内容的先验知识条件下，从图象获得相对的聚类和结构的能力。例如，人能从随机分布的图象元素的背景中迅速地检测出对称性、共线性、平行性、连通性和重复纹理等特性。对感知组织研究的全盛时期是在 1920～30 年代，这个时期在感知研究中占主导的是 Gestalt 理论。这个理论主要的研究内容就是感知组织现象。Gestalt 学家的基本原则是整体要大于部分之和。例如，纸上画的两个点具有每个点单独时所没有的方向性。所以方向性被认为是形成特性（emergent property）。因此，Gestalt 研究如何把简单的敏感输入组织或聚类成为复合的稳定感知。这样的感知表现出形式和结构。Gestalt 这个词本身的含意就是整体（whole）和结构（Configuration）。 Gestalt 心理学家对我们理解感知组织的主要贡献是进行了大量的感知组织现象的验证，并把它们进行分类（见图 3.2），Gestalt 心理学家认为下述这些因素在结构的感知中起重要作用： (1) 接近性（Proximity）：较为接近的元素倾向于聚集在一起； (2) 相似性（Similarity）：颜色、方向、或大小这样的物理属性相似的元素相聚集； (3) 封闭性（Closure）：曲线段在形成完整曲线时有形成封闭区域的倾向； (4) 连续性（Continuation）：位于同一条直线或平滑曲线上的元素相聚集； (5) 对称性（Symmetry）：任何横向对称于某个轴的元素相聚集； (6) 熟知性（familiarity）：我们经常看到它们在一起的元素相聚集。图 3.2 聚类现象的分类此外还有如相同方向上以同一速度移动的点、同一运动结构的各部分应被聚成一类。 Gestalt 心理学家研究的一种影响是引起了对感知组织基本原理的研究。初始的 Gestalt 学家对这方面的研究不很成功，他们把组织的规则归结为称为完形（pragnanz）的单个规则， Pragnanz 这个德文字的含意是“简单” 或“完善”的形式。但这只是一个没有定量公式的

转圈的定义。总的来说 Gestalt理论只是描述性的,而不是定量的。例如,根据相似性或熟知性这样很通用的术语是难以得到定量的理论的。因此当代的感知组织研究是要寻找聚类因素的定量和客观的测量。例如, Hochberg和 Brooks(1960)提出了直线线画图中角的数量能很好地反映形象的复杂性,和所感知物体的立体性。 Hochberg(1981)o8n和Rock(1975)提出简单性原理,即通常被感知的是要求最少量信息来规定的组织。但不幸的是简单性本身也是不适定的,因为描述一个形象的简单性的程度完全取决于所用的描述语言。所以,Lowe 和 Binford(1982)w82以及 WitKin和 Tenebaum(1983)w8提出了非偶然性概念 (non- accidentalness)。即所感知的是最不可能由于偶然机会产生的形状。 Mccafferty(1990c提出了用求能量极小进行聚类的方法。他们都提出一种可通过计算来对聚类过程进行评价和衡量的方法。这两种方法将在下一节中分别介绍。此外值得注意的是某些新发现的感知组织现象,这些现象有助于加深对感知组织的理解。其中一个是由 Kanizsa (1979)提出的形状完整性( Shape Completion)或错觉轮廓( illusory Contour),图 33上所示为这种现象的一例子。从图上人们通常可以感觉到一个把四角分别放在四个圆上的正方形,而不是四个单独的圆。这个感觉到的正方形大部分是由在物理上并不存在,但是可感知的轮廓构成。这个现象是重要的,因为这表明感知组织可以通过并无直接物理起因的推理输入产生,与此类似的还有由 Glass(1969)和 Stevens(1978)提出的虚拟线( Virtual 图3.3错觉轮廓还有一个不清楚的问题是感知组织的各个方面与立体视觉融合或物体识别这样的其它视觉处理过程之间的关系。这个关系是就它们在视觉通路上的相对位置而言的。Mar(1982 976)m82提出:基于边缘点的相似性之上的聚类和线段的连接,发生在产生完全的初始简图的过程中,这说明聚类发生在根据各种视觉线索恢复形状的处理过程以前。对这个观点 Mar没有给出什么心理物理学或心理学的证明,他只是给出了一些例证。图3.4是一个例证,说明感知组织如何能为根据影调恢复形状的分析提供标记。图上所示的是一些分布在黑色背景上的非黑色离散点,这些非黑色点的灰度是按照一个圆柱图象的灰度分布曲线来确定的。这些非黑色点被聚类,以恢复原来的灰度分布情况,并呈现出圆柱的三维形状。这表明在进行形状分析以前单独的点必须以某种方式被聚类成单元,这是因为正是由这样的聚类产生的区域而不是单独点本身产生三维形状。总之,有证据表明感知组织的不同方面是在视觉通路的不同阶段上进行的。这说明感知组织是视觉通路上的许多阶段都涉及的功能,这个功能的目的是试图发现所通过数据中的结构。还有一个重要的问题是低层视觉处理输出应采取的形式。这个问题很重要,因为聚类处理是递归进行的,这点可由图34所示来证明,其中非黑色的象素被聚类成块,块又被聚类

47 转圈的定义。总的来说 Gestalt 理论只是描述性的，而不是定量的。例如，根据相似性或熟知性这样很通用的术语是难以得到定量的理论的。因此当代的感知组织研究是要寻找聚类因素的定量和客观的测量。例如，Hochberg 和 Brooks(1960)提出了直线线画图中角的数量能很好地反映形象的复杂性，和所感知物体的立体性。Hochberg（1981）[Hoc 81]和 Rock(1975) 提出简单性原理，即通常被感知的是要求最少量信息来规定的组织。但不幸的是简单性本身也是不适定的，因为描述一个形象的简单性的程度完全取决于所用的描述语言。所以，Lowe 和 Binford(1982)[Low 82] 以及 WitKin 和 Tenebaum(1983)[Wit 83] 提出了非偶然性概念（ non-accidentalness ）。即所感知的是最不可能由于偶然机会产生的形状。 McCafferty(1990)[Mcc 90]提出了用求能量极小进行聚类的方法。他们都提出一种可通过计算来对聚类过程进行评价和衡量的方法。这两种方法将在下一节中分别介绍。此外值得注意的是某些新发现的感知组织现象，这些现象有助于加深对感知组织的理解。其中一个是由 Kanizsa （1979）[Kan 79]提出的形状完整性（Shape Completion）或错觉轮廓（ illusory Contour），图 3.3 上所示为这种现象的一例子。从图上人们通常可以感觉到一个把四角分别放在四个圆上的正方形，而不是四个单独的圆。这个感觉到的正方形大部分是由在物理上并不存在，但是可感知的轮廓构成。这个现象是重要的，因为这表明感知组织可以通过并无直接物理起因的推理输入产生，与此类似的还有由 Glass（1969）和 Stevens（1978）提出的虚拟线（Virtual lines）。图 3.3 错觉轮廓还有一个不清楚的问题是感知组织的各个方面与立体视觉融合或物体识别这样的其它视觉处理过程之间的关系。这个关系是就它们在视觉通路上的相对位置而言的。Marr（1982, 1976）[Mar 82]提出：基于边缘点的相似性之上的聚类和线段的连接，发生在产生完全的初始简图的过程中，这说明聚类发生在根据各种视觉线索恢复形状的处理过程以前。对这个观点 Marr 没有给出什么心理物理学或心理学的证明，他只是给出了一些例证。图 3.4 是一个例证，说明感知组织如何能为根据影调恢复形状的分析提供标记。图上所示的是一些分布在黑色背景上的非黑色离散点，这些非黑色点的灰度是按照一个圆柱图象的灰度分布曲线来确定的。这些非黑色点被聚类，以恢复原来的灰度分布情况，并呈现出圆柱的三维形状。这表明在进行形状分析以前单独的点必须以某种方式被聚类成单元，这是因为，正是由这样的聚类产生的区域而不是单独点本身产生三维形状。总之，有证据表明感知组织的不同方面是在视觉通路的不同阶段上进行的。这说明感知组织是视觉通路上的许多阶段都涉及的功能，这个功能的目的是试图发现所通过数据中的结构。还有一个重要的问题是低层视觉处理输出应采取的形式。这个问题很重要，因为聚类处理是递归进行的，这点可由图 3.4 所示来证明，其中非黑色的象素被聚类成块，块又被聚类

它的线条聚集成为共线曲线。这第二幅图所需的识别时间就大为降低。10名试验者中有3 名可在5秒以内完成识别,其余7名可在60秒以内完成识别。从可以通过控制形成感知组织来影响识别时间说明这个过程具有搜索的本质。在形成初始的感知组织聚类产生了有关线条可形成一个圆形曲线的假设以后,使自行车的识别问题迎刃而解,说明了这是一个由假设检验组成的推理过程 Kanizsalkanγ提出形状的感知可分成两个阶段:初始阶段,把视觉输入聚成具有空间和时间规则性的区域:第二个阶段是完整性、完全性和集成性的感知推理,这个阶段使我们能超出传感数据直接给出的信息范围,填补实现感知所缺少的信息。 32感知组织的基本原理 Gestalt心理学家证明和强调了感知组织在视觉中的重要性,他们虽然认识到了在感知组织计算中应该计算什么,但是并没有令人信服地解答为什么要进行和如何进行这样的计算的问题。也就是没有解决感知组织的基本原理的问题。对感知组织基本原理的研究要解决的问题是聚类过程的目的是什么,以及如何进行聚类过程。对此问题研究者已进行了大量的工作。下面我们介绍其中有代表性的两种观点:(1) Lowel85和 Witkin等认为聚类过程的目的是发现图象元素之间的因果关系或非偶然性关系。图象之间的关系不太可能是由于偶然因素产生的程度决定了元素之间关系的显要性( Significance),因此感知组织可被看成是对图象特性的每一种可能的聚类赋以显要性的过程。(2) McCafferty认为和大多数逆向问题样,在其原始状态下聚类是一个不适定问题。可以通过引入稳定函数来限制解的空间,这些稳定函数表征了所期望的解的性质。感知组织的 Gestalt规则可用来描述人类视觉系统具有的聚类特征,因此可通过引入稳定函数来实现 Gestalt规则。按照正则理论,这时聚类就成为一个求能量极小的问题。在以下的章节中,我们将分别讨论这两种聚类方法 321根据图象关系的显要性进行聚类 Lowe认为可把图象中元素之间的关系分成两类:一类是由于偶然巧合的视点或位置产生的关系;另一类是由景物中的某些有意义的(即可预测的)关系所产生。例如,图38(a) 和(b)中所示的由三个点所组成的两种关系。在(a)中三个点组成了等间距的共线关系,当视点在相当大的范围内变化时,这样的关系都可以得以保持,因此当看到图象中的点之间具有等间距的共线关系,可以推测它们是空间等间距共线点的成象。这样的关系被认为是因果的、非偶然的。与此相反(b)图中三个点形成的是等边三角形的关系,如果三个点在空间形成等边三角形的关系,那么只有在某一特定视角下,它们的图象才能保持等边三角形的关系。同时对于空间中的任意三个点都存在一个特殊的视角,在该视角下这三个点在图象平面中的投影是等边三角形。因此三个点之间的等边三角形关系就不是因果关系,而是偶然关系,这时我们就不能从图象中点之间的等边三角形关系推论它们在三维空间中也保持这样的关系。因此Lowe和[wit&Ten83认为:(1)聚类过程的目的是发现图象元素之间的因果关系 ( Causal relations),或非偶然性关系(non- accidental relations),这些关系在以后的解释过程中原封不动地保存下来,解释过程中的许多处理只是给原始的聚类加上标志。所以,从图象恢复三维结构的主要计算工作已由聚类过程完成。例如,在上述例子中三个点之间在空间形成的等间距共线关系在聚类过程中已经被推论得知。(2)图象中元素之间关系的显要性 ( Significance)取决于这种关系不太可能是由于偶然性因素产生的程度。例如,在图象中平行曲线关系被认为是高度显要的,这不是由于投影产生平行曲线结构的机会比不是这种结构的多,而是因为两条不平行的曲线通过投影成为平行可能性很小。(3)图象关系的显要性也

50 它的线条聚集成为共线曲线。这第二幅图所需的识别时间就大为降低。10 名试验者中有 3 名可在 5 秒以内完成识别，其余 7 名可在 60 秒以内完成识别。从可以通过控制形成感知组织来影响识别时间说明这个过程具有搜索的本质。在形成初始的感知组织聚类产生了有关线条可形成一个圆形曲线的假设以后，使自行车的识别问题迎刃而解，说明了这是一个由假设－检验组成的推理过程。 Kanizsa[Kan 79]提出形状的感知可分成两个阶段：初始阶段，把视觉输入聚成具有空间和时间规则性的区域；第二个阶段是完整性、完全性和集成性的感知推理，这个阶段使我们能超出传感数据直接给出的信息范围，填补实现感知所缺少的信息。 3.2 感知组织的基本原理 Gestalt 心理学家证明和强调了感知组织在视觉中的重要性，他们虽然认识到了在感知组织计算中应该计算什么，但是并没有令人信服地解答为什么要进行和如何进行这样的计算的问题。也就是没有解决感知组织的基本原理的问题。对感知组织基本原理的研究要解决的问题是聚类过程的目的是什么，以及如何进行聚类过程。对此问题研究者已进行了大量的工作。下面我们介绍其中有代表性的两种观点：(1) Lowe[Low 85]和 Witkin 等认为聚类过程的目的是发现图象元素之间的因果关系或非偶然性关系。图象之间的关系不太可能是由于偶然因素产生的程度决定了元素之间关系的显要性（Significance），因此感知组织可被看成是对图象特性的每一种可能的聚类赋以显要性的过程。(2)McCafferty[McC 90]认为和大多数逆向问题一样，在其原始状态下聚类是一个不适定问题。可以通过引入稳定函数来限制解的空间，这些稳定函数表征了所期望的解的性质。感知组织的 Gestalt 规则可用来描述人类视觉系统具有的聚类特征，因此可通过引入稳定函数来实现 Gestalt 规则。按照正则理论，这时聚类就成为一个求能量极小的问题。在以下的章节中，我们将分别讨论这两种聚类方法。 3.2.1 根据图象关系的显要性进行聚类 Lowe 认为可把图象中元素之间的关系分成两类：一类是由于偶然巧合的视点或位置产生的关系；另一类是由景物中的某些有意义的（即可预测的）关系所产生。例如，图 3.8(a) 和(b)中所示的由三个点所组成的两种关系。在(a)中三个点组成了等间距的共线关系，当视点在相当大的范围内变化时，这样的关系都可以得以保持，因此当看到图象中的点之间具有等间距的共线关系，可以推测它们是空间等间距共线点的成象。这样的关系被认为是因果的、非偶然的。与此相反(b)图中三个点形成的是等边三角形的关系，如果三个点在空间形成等边三角形的关系，那么只有在某一特定视角下，它们的图象才能保持等边三角形的关系。同时对于空间中的任意三个点都存在一个特殊的视角，在该视角下这三个点在图象平面中的投影是等边三角形。因此三个点之间的等边三角形关系就不是因果关系，而是偶然关系，这时我们就不能从图象中点之间的等边三角形关系推论它们在三维空间中也保持这样的关系。因此 Lowe 和 [Wit & Ten 83]认为：(1) 聚类过程的目的是发现图象元素之间的因果关系（Causal relations），或非偶然性关系（non-accidental relations），这些关系在以后的解释过程中原封不动地保存下来，解释过程中的许多处理只是给原始的聚类加上标志。所以，从图象恢复三维结构的主要计算工作已由聚类过程完成。例如，在上述例子中三个点之间在空间形成的等间距共线关系在聚类过程中已经被推论得知。(2) 图象中元素之间关系的显要性（Significance）取决于这种关系不太可能是由于偶然性因素产生的程度。例如，在图象中平行曲线关系被认为是高度显要的，这不是由于投影产生平行曲线结构的机会比不是这种结构的多，而是因为两条不平行的曲线通过投影成为平行可能性很小。(3) 图象关系的显要性也

提供了进行聚类的方法。感知组织可被看成是对图象特征的每一种可能的聚类赋以显要性程度的过程。 b 图38(a)三点成等间距关系(b)三点成等边三角形关系 3211图象关系非偶然性产生的概率 Lowe认为每种图象关系都包含了表示这种关系是非偶然性产生的统计信息,并且正是这种非偶然性的程度形成了对它赋以显要性程度的基础。由于在图象中可能存在的图象关系类型有无穷多种。(例如,对任何给定的N,图中所有的“直线”对之间形成相对角度为N 度的关系。)在这些可能的关系中只有一小部分是显要的和值得检测的。而确定一种关系是否值得检测的关键就是要计算这种图象关系是非偶然性产生的概率( probability of accident occurrence),以下我们来研究这个问题在计算图象关系的非偶然性概率时要考虑以下多种因素: (1)关于图象投影过程的知识告诉我们,只有某些类型的图象关系通常不是由于偶然性产生的。因此从统计上讲,只有这样的关系是可探测的:(2)在作非偶然性统计估计时可利用对于每种关系产生概率的先验知识;(3)在建立图象关系事件的模型时可假设图象元素的位置和方位是独立的:(4)对任何关系来说,相似特征的背景密度决定了某个给定程度接近性的显要性:(5)初始的关系可递归地组合成新的关系,此新关系可影响原始估计的显要性 1.视点恒常性条件景物到图象投影过程的性质向我们提供了一种对图象关系强有力和通用的约束信息。如果我们假设摄象机或眼睛的视点是与景物中的物体相独立的,那么可以证明只有某些类型的图象关系通常不是由于偶然因素产生的。这些类型的图象关系的特点是它可以在视点的一个范围内保持稳定。例如,景物中曲线的共线性可在相当宽的视点范围内投影形成图象中的共线性。任何在投影时产生的关系,如果不能在多数视点范围内保持稳定的话,就难以把这样的关系与由于偶然性产生的关系相区分。例如,景物中成直角的直线对在大多数视点下都不能投影为图象中成直角的直线对。因此,虽然我们在图象中检测到了成直角的直线对,我们也没有理由相信,这不是由于视点与某个未知空间角度相配合偶然产生的结果。视点恒常性约束极大地限制了可作为感知组织基础的图象关系类型。只有少数类型的关系,例如,共线、连接性可以在所有的视点下保持恒常。不过,还有另外一些类型的关系, 可以在相当大的范围内加以保持,因此可被认为是经常出现的。例如,平行和一系列共线特征的等间距性在透视效应的情况下,仍能在相当大的视点范围内保持。此外,由于许多物体只占据较小的视角,或者与观察者到物体的距离相比,物体本身的深度范围较小,我们还可认为其它一些关系在图象中是经常产生的。对这样的关系在使用时要小心处理。例如,在投

51 提供了进行聚类的方法。感知组织可被看成是对图象特征的每一种可能的聚类赋以显要性程度的过程。图 3.8 (a)三点成等间距关系 (b)三点成等边三角形关系 3.2.1.1 图象关系非偶然性产生的概率 Lowe 认为每种图象关系都包含了表示这种关系是非偶然性产生的统计信息，并且正是这种非偶然性的程度形成了对它赋以显要性程度的基础。由于在图象中可能存在的图象关系类型有无穷多种。（例如，对任何给定的 N，图中所有的“直线”对之间形成相对角度为 N 度的关系。）在这些可能的关系中只有一小部分是显要的和值得检测的。而确定一种关系是否值得检测的关键就是要计算这种图象关系是非偶然性产生的概率（probability of accident occurrence），以下我们来研究这个问题。在计算图象关系的非偶然性概率时要考虑以下多种因素： (1) 关于图象投影过程的知识告诉我们，只有某些类型的图象关系通常不是由于偶然性产生的。因此从统计上讲，只有这样的关系是可探测的；(2) 在作非偶然性统计估计时可利用对于每种关系产生概率的先验知识；(3) 在建立图象关系事件的模型时可假设图象元素的位置和方位是独立的；(4) 对任何关系来说，相似特征的背景密度决定了某个给定程度接近性的显要性；(5) 初始的关系可递归地组合成新的关系，此新关系可影响原始估计的显要性。 1. 视点恒常性条件景物到图象投影过程的性质向我们提供了一种对图象关系强有力和通用的约束信息。如果我们假设摄象机或眼睛的视点是与景物中的物体相独立的，那么可以证明只有某些类型的图象关系通常不是由于偶然因素产生的。这些类型的图象关系的特点是它可以在视点的一个范围内保持稳定。例如，景物中曲线的共线性可在相当宽的视点范围内投影形成图象中的共线性。任何在投影时产生的关系，如果不能在多数视点范围内保持稳定的话，就难以把这样的关系与由于偶然性产生的关系相区分。例如，景物中成直角的直线对在大多数视点下都不能投影为图象中成直角的直线对。因此，虽然我们在图象中检测到了成直角的直线对，我们也没有理由相信，这不是由于视点与某个未知空间角度相配合偶然产生的结果。视点恒常性约束极大地限制了可作为感知组织基础的图象关系类型。只有少数类型的关系，例如，共线、连接性可以在所有的视点下保持恒常。不过，还有另外一些类型的关系，可以在相当大的范围内加以保持，因此可被认为是经常出现的。例如，平行和一系列共线特征的等间距性在透视效应的情况下，仍能在相当大的视点范围内保持。此外，由于许多物体只占据较小的视角，或者与观察者到物体的距离相比，物体本身的深度范围较小，我们还可认为其它一些关系在图象中是经常产生的。对这样的关系在使用时要小心处理。例如，在投

影时曲率恒常性不能严格地保持,但对于在曲线只占较小的径向角度范围的局部区域内,基本上可说曲率保持不变。尽管有上述这些复杂性,视点恒常性约束仍然是一种非常有用的工具,它可用于把几乎无穷的图象关系局限到少数几种候选关系,这些关系可在投影的条件下至少可以部分保持恒常性。在视点恒常性的基础上检测图象关系的重要优点是,这样检测到的图象关系意味着它们是某个特定的空间关系投影产生的。因此就有可能根据图象关系来推论相应的空间结构。例如,如果我们已确定图象内的若干特征的共线关系不是由于偶然因素产生的,就可以推论这些特征在空间也是共线的。这个问题在下面的章节中研究 2.关于图象关系产生概率的先验知识上一节讨论的视点恒常性约束是确定图象关系是否是偶然因素产生的主要因素之一,但与此同时还需考虑与图象内容有关的先验知识。当决定先验知识在判断图象关系的非偶然性时可以应用条件概率和 Bayesian(贝叶斯)推理: 设,p(ra)是事件r和a都是真的概率,p(alr)是当r事件为真时,事件a的概率。因此 P(r&a)=P(rP(ar)=P(a)p(rla) 所以 P(a)p(rla) P(ar) P(r) 这就是基本的 Bayesian公式。如果r是以某种精确度测得已知图象关系的事件;a表示图象关系是偶然性产生的事件;c表示图象关系是因果性产生的事件。那么 P(r)=P(a)+P(c)(因为a和c是r的两种相互排斥的情况)和P(r1a)=P(rl)=1(因为a和c是r的实例),因此,根据 Bayesian公式可得 P(a) P(ar)- P(a)+P(c) P(c)=1-P(ar)=1-(a) P(a)+ P(c) 以上公式使我们能根据偶然事件和非偶然事件的先验概率来计算给定的图象关系是非偶然性的概率。对P(a)的估计问题将在以下章节中讨论,前一节中讨论的视点恒常性条件的目标是选择P(c)显著高的关系,但对定量估计图象关系的因果性概率来说,视点恒常性只是其中的一个因素。如何来确定P(c)呢?一种可能的方法是通过统计的实验方法,另一种较为理论的方法是先建立视觉世界的某种通用模型,然后根据这个模型得到这种图象关系的出现概率。当然对P(c)的估计并不需要很准确,数量级的估计就可满足应用的需要。 3.位置独立性假设给定以某种精度保持的图象关系,要计算这种具有一定精度的关系是偶然产生的概率, 我们就必须对物体周围的分布情况作某种假设,以此为背景来判断关系的显要性。一种最通用和显然的假设是认为背景中的物体位置相互独立,由此可知在图象的背景中,物体位置也是相互独立的。这被称为位置独立性的空假设( null hypothesis) 已知三维空间中位置和方向的独立性假设以后,就很容易计算具有给定精度的某种关系是偶然产生的概率。例如,如果两条直线平行,其平行的精度为5°以内,那么可算出这样的关系是由于两个独立物体偶然产生的概率是5/180=1/36。 4.背景特征密度与接近性之比以上研究了单独给定关系的情况,当在图象中同时存在多个图象特征时,需要研究的图象关系数量就与特征数量的平方成正比。例如,已知图中有10条线,那么可能的线段对的数量就有10×(10-1)/2=45条。不难想象,可以从中发现一些相互平行的线段对。图39中

52 影时曲率恒常性不能严格地保持，但对于在曲线只占较小的径向角度范围的局部区域内，基本上可说曲率保持不变。尽管有上述这些复杂性，视点恒常性约束仍然是一种非常有用的工具，它可用于把几乎无穷的图象关系局限到少数几种候选关系，这些关系可在投影的条件下至少可以部分保持恒常性。在视点恒常性的基础上检测图象关系的重要优点是，这样检测到的图象关系意味着它们是某个特定的空间关系投影产生的。因此就有可能根据图象关系来推论相应的空间结构。例如，如果我们已确定图象内的若干特征的共线关系不是由于偶然因素产生的，就可以推论这些特征在空间也是共线的。这个问题在下面的章节中研究。 2. 关于图象关系产生概率的先验知识上一节讨论的视点恒常性约束是确定图象关系是否是偶然因素产生的主要因素之一，但与此同时还需考虑与图象内容有关的先验知识。当决定先验知识在判断图象关系的非偶然性时可以应用条件概率和 Bayesian（贝叶斯）推理：设，p(r& a)是事件 r 和 a 都是真的概率， p(a|r) 是当 r 事件为真时，事件 a 的概率。因此有： P(r&a) = P(r)P(a|r) = P(a)P(r|a) 所以 P a r P a P r a P r ( | ) ( ) ( | ) ( ) = 这就是基本的 Bayesian 公式。如果 r 是以某种精确度测得已知图象关系的事件；a 表示图象关系是偶然性产生的事件； c 表示图象关系是因果性产生的事件。那么 P(r) = P(a) + P(c) （因为 a 和 c 是 r 的两种相互排斥的情况）和 P(r|a) = P(r|c) = 1 （因为 a 和 c 是 r 的实例），因此，根据 Bayesian 公式可得 P a r P a P a P c ( | ) ( ) ( ) ( ) = + P c r P a r P a P a P c ( | ) ( | ) ( ) ( ) ( ) = − = − + 1 1 以上公式使我们能根据偶然事件和非偶然事件的先验概率来计算给定的图象关系是非偶然性的概率。对 P(a)的估计问题将在以下章节中讨论，前一节中讨论的视点恒常性条件的目标是选择 P( c)显著高的关系，但对定量估计图象关系的因果性概率来说，视点恒常性只是其中的一个因素。如何来确定 P(c)呢？一种可能的方法是通过统计的实验方法，另一种较为理论的方法是先建立视觉世界的某种通用模型，然后根据这个模型得到这种图象关系的出现概率。当然对 P(c)的估计并不需要很准确，数量级的估计就可满足应用的需要。 3. 位置独立性假设给定以某种精度保持的图象关系，要计算这种具有一定精度的关系是偶然产生的概率，我们就必须对物体周围的分布情况作某种假设，以此为背景来判断关系的显要性。一种最通用和显然的假设是认为背景中的物体位置相互独立，由此可知在图象的背景中，物体位置也是相互独立的。这被称为位置独立性的空假设（null hypothesis）。已知三维空间中位置和方向的独立性假设以后，就很容易计算具有给定精度的某种关系是偶然产生的概率。例如，如果两条直线平行，其平行的精度为 5°以内，那么可算出这样的关系是由于两个独立物体偶然产生的概率是 5 180 = 1 36。 4. 背景特征密度与接近性之比以上研究了单独给定关系的情况，当在图象中同时存在多个图象特征时，需要研究的图象关系数量就与特征数量的平方成正比。例如，已知图中有 10 条线，那么可能的线段对的数量就有 10×(10-1) / 2=45 条。不难想象，可以从中发现一些相互平行的线段对。图 3.9 中

53 的例子表示了这一点。图 3.9 两条几乎平行的线段在图(a)中形成了一个显要的关系，因为这时与背景中的相似特征的密度相比，这两条线相互更为接近。但当接近性与密度之比下降时，这两条平行线段的显要性就减弱了，这说是图(b)所示的情况。如果把背景的密度考虑进来，那么构成关系的特征之间的接近性就成为判断关系是否显要的一个主要因素，当两个特征之间的距离变得更近时，在给定的背景特征密度情况下，具有相同接近程度的其它特征的数量就急剧下降。请注意，接近性不但是在判断其它类型图象关系显要性时的一个因素，而且它本身也是一种可用于检测的非偶然性的图象关系。在空间是相互接近的特征，在各种视点下都将投影为图象中相互接近的特征，所以接近性可以通过视点恒常性试验。 5. 递归地进行构造由于图象测量的精度有限，所以至今所讨论的简单图象关系通常不能产生很低的偶然性概率。因此难以作为识别关系的可靠证据，但是可以通过组合初步得到的关系来建立新的图象关系，这些组合图象关系的偶然性概率就会低得多。例如，我们可以把若干个共线的点聚类成线，然后又把这条线进一步组合进平行线这样较大的结构中。这些后来形成的结构对较早的聚类提供了确认。这样的过程可以一直进行下去，直到识别物体。在前面所举的识别自行车的例子中可以看到，识别了自行车就是对前面的初始聚类的强有力的确认。 3.2.1.2 限制计算的复杂性前面已研究了若干确定某一图象关系是否是偶然性产生的因素。但是，在有些情况下人类视觉却不能检测按任何合理的统计准则来衡量都是高度显要的聚类关系。如图 3.10 中图 3.10 (a)所示为 5 个等间距共线点或 3 个等间距共线线段，如果把这些特征放在相似背

《计算机视觉》课程教学资源（教材）第三章 基于推理的视觉理解

《计算机视觉》课程教学资源（教材）第三章基于推理的视觉理解