第三章基于推理的视觉理解 3.1基于推理的视觉理解概述 3.1.1逆向和不适定问题 3.1.2感知组织现象 3.1.3视觉识别和推理 3.2感知组织的基本原理 3.2.1根据图象关系的显要性进行聚类 3.2.1.1图象关系非偶然性产生的概率 3.2.1.2限制计算的复杂性 3.22通过求能量极小进行聚类 3.22.1计算策略 3.222感知聚类中的表象 3.22.3聚类能量的计算 3.23根据图象特征推论三维空间结构 3.3景物结构的模型 3.31部件模型和自然形状表示法 33.2部件识别理论( Recognition-By- Component,RBC) 31基于推理的视觉理解 在研究基于推理的视觉理解以前先要对视觉信息处理和理解中的一些主要特点和特性 有基本的了解。其中最主要的是要认识到视觉问题从本质上说是不适定的(l- posed),如 果没有附加信息就不能找到解答。这在很大程度上是由于许多视觉任务从本质上来说是逆向 的问题。例如,图象是三维景物的二维投影,如果已知景物的三维模型,在一定的几何条件 下通过投影(正向过程)产生的图象是唯一的。但是同一幅图象可以是无穷多种三维物体的 投影的结果。因此根据图象不可能唯一地确定它是什么景物投影的结果。例如,图3.1中所 示的M形图象,它可以是由图3.1(a)中的空间某M形物体投影的结果,但它同样也可以是 图3.1(b)中所示的三根在空间互不相交的一些空间曲线投影的结果 nag Plane a) 图3.1不同的形体产生相同的图象 但是当人们看到(a)中所示的图象时,并不感到它是多义的,这说明人类视觉在理解这
44 第三章 基于推理的视觉理解 3.1 基于推理的视觉理解概述 3.1.1 逆向和不适定问题 3.1.2 感知组织现象 3.1.3 视觉识别和推理 3.2 感知组织的基本原理 3.2.1 根据图象关系的显要性进行聚类 3.2.1.1 图象关系非偶然性产生的概率 3.2.1.2 限制计算的复杂性 3.2.2 通过求能量极小进行聚类 3.2.2.1 计算策略 3.2.2.2 感知聚类中的表象 3.2.2.3 聚类能量的计算 3.2.3 根据图象特征推论三维空间结构 3.3 景物结构的模型 3.3.1 部件模型和自然形状表示法 3.3.2 部件识别理论(Recognition-By-Component, RBC) 3.1 基于推理的视觉理解 在研究基于推理的视觉理解以前先要对视觉信息处理和理解中的一些主要特点和特性 有基本的了解。其中最主要的是要认识到视觉问题从本质上说是不适定的(ill-posed),如 果没有附加信息就不能找到解答。这在很大程度上是由于许多视觉任务从本质上来说是逆向 的问题。例如,图象是三维景物的二维投影,如果已知景物的三维模型,在一定的几何条件 下通过投影(正向过程)产生的图象是唯一的。但是同一幅图象可以是无穷多种三维物体的 投影的结果。因此根据图象不可能唯一地确定它是什么景物投影的结果。例如,图 3.1 中所 示的 M 形图象,它可以是由图 3.1(a)中的空间某 M 形物体投影的结果,但它同样也可以是 图 3.1(b)中所示的三根在空间互不相交的一些空间曲线投影的结果。 图 3.1 不同的形体产生相同的图象 但是当人们看到(a)中所示的图象时,并不感到它是多义的,这说明人类视觉在理解这
样的图象时要么是利用了附加的高层信息(例如,知道图中是哪一类物体的知识),要么是 利用了某些可以去除多义性解释的通用约束。心理物理学研究的结果表明人类同时使用了这 两种策略,但令人惊奇的是在消除多义性方面,高层知识提供的信息要比低层的通用约束提 供的少。这说明人类视觉在理解图象时必定利用了某些通用的约束。当然这些通用约束中包 括景物和物体成象的基本物理性能,但还不止这些。其中很可能还包括所谓的感知组织 ( perceptual organization)。如果不对这些约束有透彻的了解,要建立通用的视觉系统是困 难的。以下对逆向和不适定问题,以及感知组织作简要介绍 311逆向和不适定问题 通常逆向问题涉及在只知道输出和所进行处理的本质的条件下,重构由于某种操作所畸 变的数据。例如,已知x+y=17;求解满足上述公式的x和y,就是一个逆向问题。这时所进 行的处理是已知的(加法),操作输出是已知的(17),但其输入x和y是未知的。许多低 层计算机视觉问题是逆向的,因为这些问题要求根据从三维到二维变换后的输出(例如灰度 图象),重构三维形状、边缘位置或运动等。 1.适定性定义 1923年 Hadamard定义当一个数学问题满足下述条件时是适定的: (1)存在一个解;(2)这个解是唯一的:(3)解连续地取决于输入数据,即输入数据的很小 变化对输出也只引起一个小的变化。 虽然许多逆向问题是不适定的,如上述简单例子所示。这是因为在这些问题中存在许多 可能的解,因此不满足条件(2)。此外,实际中只能得到观察数据,而不是实际数据,所以 不能保证满足(3),因此需要附加的信息来使这问题成为适定的。附加信息可以是定量的 这就得到近似解( quasisolution)。另一种方法是使问题正则化,这时需要应用诸如解的特 征这样的定性信息 2.正则理论 正则理论提供一个解决不适定问题的框架。这涉及通过扩展问题的定义来限制解的空 间,具体方法是增加体现解所希望特性的约束。这些附加的约束被称为稳定函数( stabilizing function),设:A是已知线性算子,y是已知数据,g是要恢复的未知数据。逆向问题定义 为恢复g,使得: Ag 通常,y是由测量得到,但伴随着噪声。所以,只知道它的近似值y,因此,所能得到的是 由下式求得近似解 y=Ag 这个近似解可通过寻找使得下式为极小的g来求得: 其中‖是合适的模。设:g是体现解的所希望特性的通解。因此,所希望的解g应使下式 为极小: P(g)被称为稳定函数( stabilizing function) 设:P(g)至少是半单调的( quasimonotone),把上述两条件综合起来,求解就可表示为寻 找使下式为极小的g 4g-y|+x[(g 其中λ是控制上述两项相对重要性的正则化参数。这里第一项描述所求解经变换后的符合程
45 样的图象时要么是利用了附加的高层信息(例如,知道图中是哪一类物体的知识),要么是 利用了某些可以去除多义性解释的通用约束。心理物理学研究的结果表明人类同时使用了这 两种策略,但令人惊奇的是在消除多义性方面,高层知识提供的信息要比低层的通用约束提 供的少。这说明人类视觉在理解图象时必定利用了某些通用的约束。当然这些通用约束中包 括景物和物体成象的基本物理性能,但还不止这些。其中很可能还包括所谓的感知组织 (perceptual organization)。如果不对这些约束有透彻的了解,要建立通用的视觉系统是困 难的。以下对逆向和不适定问题,以及感知组织作简要介绍。 3.1.1 逆向和不适定问题 通常逆向问题涉及在只知道输出和所进行处理的本质的条件下,重构由于某种操作所畸 变的数据。例如,已知 x+y=17;求解满足上述公式的 x 和 y,就是一个逆向问题。这时所进 行的处理是已知的(加法),操作输出是已知的(17),但其输入 x 和 y 是未知的。许多低 层计算机视觉问题是逆向的,因为这些问题要求根据从三维到二维变换后的输出(例如灰度 图象),重构三维形状、边缘位置或运动等。 1. 适定性定义 1923 年 Hadamard 定义当一个数学问题满足下述条件时是适定的: (1)存在一个解;(2)这个解是唯一的;(3)解连续地取决于输入数据,即输入数据的很小 变化对输出也只引起一个小的变化。 虽然许多逆向问题是不适定的,如上述简单例子所示。这是因为在这些问题中存在许多 可能的解,因此不满足条件(2)。此外,实际中只能得到观察数据,而不是实际数据,所以 不能保证满足(3),因此需要附加的信息来使这问题成为适定的。附加信息可以是定量的, 这就得到近似解(quasisolution)。另一种方法是使问题正则化,这时需要应用诸如解的特 征这样的定性信息。 2. 正则理论 正则理论提供一个解决不适定问题的框架。这涉及通过扩展问题的定义来限制解的空 间,具体方法是增加体现解所希望特性的约束。这些附加的约束被称为稳定函数(stabilizing function),设:A 是已知线性算子,y 是已知数据,g 是要恢复的未知数据。逆向问题定义 为恢复 g,使得: y = Ag 通常,y 是由测量得到,但伴随着噪声。所以,只知道它的近似值 y *,因此,所能得到的是 由下式求得近似解: y Ag = 这个近似解可通过寻找使得下式为极小的 g 来求得: Ag − y 2 其中 是合适的模。设:g *是体现解的所希望特性的通解。因此,所希望的解 g 应使下式 为极小: P( g) = g − g 2 P(g)被称为稳定函数(stabilizing function)。 设:P(g)至少是半单调的(quasimonotone),把上述两条件综合起来, 求解就可表示为寻 找使下式为极小的 g Ag − y + P P( g) 其中p 是控制上述两项相对重要性的正则化参数。这里第一项描述所求解经变换后的符合程
度,第二项说明所求解与所希望的解的特性的接近程度。通过应用稳定函数,在某种程度的 数据范围内,可保证解的唯一性和强制所得结果连续地取于所观察的数据。这样就使问题成 为适定的并在现在这种极小化问题形式下可求解。 312感知组织 感知组织是指人类视觉系统所具有的在不知道图象内容的先验知识条件下,从图象获得 相对的聚类和结构的能力。例如,人能从随机分布的图象元素的背景中迅速地检测出对称性、 共线性、平行性、连通性和重复纹理等特性。对感知组织研究的全盛时期是在1920~30年 代,这个时期在感知研究中占主导的是 Gestalt理论。这个理论主要的研究内容就是感知组 织现象。 Gestalt学家的基本原则是整体要大于部分之和。例如,纸上画的两个点具有每个 点单独时所没有的方向性。所以方向性被认为是形成特性( emergent property)。因此, Gestal 研究如何把简单的敏感输入组织或聚类成为复合的稳定感知。这样的感知表现出形式和结 构。 Gestalt这个词本身的含意就是整体( whole)和结构( Configuration)。 Gestalt心理学家对我们理解感知组织的主要贡献是进行了大量的感知组织现象的验证, 并把它们进行分类(见图3.2), Gestalt心理学家认为下述这些因素在结构的感知中起重要 作用: (1)接近性( Proximity):较为接近的元素倾向于聚集在一起 (2)相似性( Similarity):颜色、方向、或大小这样的物理属性相似的元素相聚集 (3)封闭性( Closure):曲线段在形成完整曲线时有形成封闭区域的倾向 (4)连续性( Continuation):位于同一条直线或平滑曲线上的元素相聚集 (5)对称性( Symmetry):任何横向对称于某个轴的元素相聚集 (6)熟知性( familiarity):我们经常看到它们在一起的元素相聚集。 Proximity similarity ][][] Coleus ()5 Symme 图3.2聚类现象的分类 此外还有如相同方向上以同一速度移动的点、同一运动结构的各部分应被聚成一类。 Gestalt心理学家研究的一种影响是引起了对感知组织基本原理的研究。初始的 Gestalt学家 对这方面的研究不很成功,他们把组织的规则归结为称为完形( pragnanz)的单个规则, Pragnanz这个德文字的含意是“简单”或“完善”的形式。但这只是一个没有定量公式的
46 度,第二项说明所求解与所希望的解的特性的接近程度。通过应用稳定函数,在某种程度的 数据范围内,可保证解的唯一性和强制所得结果连续地取于所观察的数据。这样就使问题成 为适定的并在现在这种极小化问题形式下可求解。 3.1.2 感知组织 感知组织是指人类视觉系统所具有的在不知道图象内容的先验知识条件下,从图象获得 相对的聚类和结构的能力。例如,人能从随机分布的图象元素的背景中迅速地检测出对称性、 共线性、平行性、连通性和重复纹理等特性。对感知组织研究的全盛时期是在 1920~30 年 代,这个时期在感知研究中占主导的是 Gestalt 理论。这个理论主要的研究内容就是感知组 织现象。Gestalt 学家的基本原则是整体要大于部分之和。例如,纸上画的两个点具有每个 点单独时所没有的方向性。所以方向性被认为是形成特性(emergent property)。因此,Gestalt 研究如何把简单的敏感输入组织或聚类成为复合的稳定感知。这样的感知表现出形式和结 构。Gestalt 这个词本身的含意就是整体(whole)和结构(Configuration)。 Gestalt 心理学家对我们理解感知组织的主要贡献是进行了大量的感知组织现象的验证, 并把它们进行分类(见图 3.2),Gestalt 心理学家认为下述这些因素在结构的感知中起重要 作用: (1) 接近性(Proximity):较为接近的元素倾向于聚集在一起; (2) 相似性(Similarity):颜色、方向、或大小这样的物理属性相似的元素相聚集; (3) 封闭性(Closure):曲线段在形成完整曲线时有形成封闭区域的倾向; (4) 连续性(Continuation):位于同一条直线或平滑曲线上的元素相聚集; (5) 对称性(Symmetry):任何横向对称于某个轴的元素相聚集; (6) 熟知性(familiarity):我们经常看到它们在一起的元素相聚集。 图 3.2 聚类现象的分类 此外还有如相同方向上以同一速度移动的点、同一运动结构的各部分应被聚成一类。 Gestalt 心理学家研究的一种影响是引起了对感知组织基本原理的研究。初始的 Gestalt 学家 对这方面的研究不很成功,他们把组织的规则归结为称为完形(pragnanz)的单个规则, Pragnanz 这个德文字的含意是“简单” 或“完善”的形式。但这只是一个没有定量公式的
转圈的定义。总的来说 Gestalt理论只是描述性的,而不是定量的。例如,根据相似性或熟 知性这样很通用的术语是难以得到定量的理论的。因此当代的感知组织研究是要寻找聚类因 素的定量和客观的测量。例如, Hochberg和 Brooks(1960)提出了直线线画图中角的数量能很 好地反映形象的复杂性,和所感知物体的立体性。 Hochberg(1981)o8n和Rock(1975)提 出简单性原理,即通常被感知的是要求最少量信息来规定的组织。但不幸的是简单性本身也 是不适定的,因为描述一个形象的简单性的程度完全取决于所用的描述语言。所以,Lowe 和 Binford(1982)w82以及 WitKin和 Tenebaum(1983)w8提出了非偶然性概念 (non- accidentalness)。即所感知的是最不可能由于偶然机会产生的形状。 Mccafferty(1990c提出了用求能量极小进行聚类的方法。他们都提出一种可通过计算来 对聚类过程进行评价和衡量的方法。这两种方法将在下一节中分别介绍。此外值得注意的是 某些新发现的感知组织现象,这些现象有助于加深对感知组织的理解。其中一个是由 Kanizsa (1979)提出的形状完整性( Shape Completion)或错觉轮廓( illusory Contour),图 33上所示为这种现象的一例子。从图上人们通常可以感觉到一个把四角分别放在四个圆上 的正方形,而不是四个单独的圆。这个感觉到的正方形大部分是由在物理上并不存在,但是 可感知的轮廓构成。这个现象是重要的,因为这表明感知组织可以通过并无直接物理起因的 推理输入产生,与此类似的还有由 Glass(1969)和 Stevens(1978)提出的虚拟线( Virtual 图3.3错觉轮廓 还有一个不清楚的问题是感知组织的各个方面与立体视觉融合或物体识别这样的其它 视觉处理过程之间的关系。这个关系是就它们在视觉通路上的相对位置而言的。Mar(1982 976)m82提出:基于边缘点的相似性之上的聚类和线段的连接,发生在产生完全的初始 简图的过程中,这说明聚类发生在根据各种视觉线索恢复形状的处理过程以前。对这个观点 Mar没有给出什么心理物理学或心理学的证明,他只是给出了一些例证。 图3.4是一个例证,说明感知组织如何能为根据影调恢复形状的分析提供标记。图上所 示的是一些分布在黑色背景上的非黑色离散点,这些非黑色点的灰度是按照一个圆柱图象的 灰度分布曲线来确定的。这些非黑色点被聚类,以恢复原来的灰度分布情况,并呈现出圆柱 的三维形状。这表明在进行形状分析以前单独的点必须以某种方式被聚类成单元,这是因为 正是由这样的聚类产生的区域而不是单独点本身产生三维形状。 总之,有证据表明感知组织的不同方面是在视觉通路的不同阶段上进行的。这说明感知 组织是视觉通路上的许多阶段都涉及的功能,这个功能的目的是试图发现所通过数据中的结 构。还有一个重要的问题是低层视觉处理输出应采取的形式。这个问题很重要,因为聚类处 理是递归进行的,这点可由图34所示来证明,其中非黑色的象素被聚类成块,块又被聚类
47 转圈的定义。总的来说 Gestalt 理论只是描述性的,而不是定量的。例如,根据相似性或熟 知性这样很通用的术语是难以得到定量的理论的。因此当代的感知组织研究是要寻找聚类因 素的定量和客观的测量。例如,Hochberg 和 Brooks(1960)提出了直线线画图中角的数量能很 好地反映形象的复杂性,和所感知物体的立体性。Hochberg(1981)[Hoc 81]和 Rock(1975) 提 出简单性原理,即通常被感知的是要求最少量信息来规定的组织。但不幸的是简单性本身也 是不适定的,因为描述一个形象的简单性的程度完全取决于所用的描述语言。所以,Lowe 和 Binford(1982)[Low 82] 以 及 WitKin 和 Tenebaum(1983)[Wit 83] 提出了非偶然性概念 ( non-accidentalness )。即所感知的是最不可能由于偶然机会产生的形状。 McCafferty(1990)[Mcc 90]提出了用求能量极小进行聚类的方法。他们都提出一种可通过计算来 对聚类过程进行评价和衡量的方法。这两种方法将在下一节中分别介绍。此外值得注意的是 某些新发现的感知组织现象,这些现象有助于加深对感知组织的理解。其中一个是由 Kanizsa (1979)[Kan 79]提出的形状完整性(Shape Completion)或错觉轮廓( illusory Contour),图 3.3 上所示为这种现象的一例子。从图上人们通常可以感觉到一个把四角分别放在四个圆上 的正方形,而不是四个单独的圆。这个感觉到的正方形大部分是由在物理上并不存在,但是 可感知的轮廓构成。这个现象是重要的,因为这表明感知组织可以通过并无直接物理起因的 推理输入产生,与此类似的还有由 Glass(1969)和 Stevens(1978)提出的虚拟线(Virtual lines)。 图 3.3 错觉轮廓 还有一个不清楚的问题是感知组织的各个方面与立体视觉融合或物体识别这样的其它 视觉处理过程之间的关系。这个关系是就它们在视觉通路上的相对位置而言的。Marr(1982, 1976)[Mar 82]提出:基于边缘点的相似性之上的聚类和线段的连接,发生在产生完全的初始 简图的过程中,这说明聚类发生在根据各种视觉线索恢复形状的处理过程以前。对这个观点 Marr 没有给出什么心理物理学或心理学的证明,他只是给出了一些例证。 图 3.4 是一个例证,说明感知组织如何能为根据影调恢复形状的分析提供标记。图上所 示的是一些分布在黑色背景上的非黑色离散点,这些非黑色点的灰度是按照一个圆柱图象的 灰度分布曲线来确定的。这些非黑色点被聚类,以恢复原来的灰度分布情况,并呈现出圆柱 的三维形状。这表明在进行形状分析以前单独的点必须以某种方式被聚类成单元,这是因为, 正是由这样的聚类产生的区域而不是单独点本身产生三维形状。 总之,有证据表明感知组织的不同方面是在视觉通路的不同阶段上进行的。这说明感知 组织是视觉通路上的许多阶段都涉及的功能,这个功能的目的是试图发现所通过数据中的结 构。还有一个重要的问题是低层视觉处理输出应采取的形式。这个问题很重要,因为聚类处 理是递归进行的,这点可由图 3.4 所示来证明,其中非黑色的象素被聚类成块,块又被聚类
成圆周。聚类处理可以是在另一种聚类处理输出的基础上进行的事实说明,在所有的聚类过 程中应使用相同的表达。 图3.4随机点图案,其中非黑色点的灰度是按圆柱图象的灰度分布取的 13视觉识别与推理 在计算机视觉中解决视觉任务的方法可分成两大类:基于重构( reconstruction)的方法 和基于识别( recognition)的方法。基于重构的方法试图根据图象恢复和重构外部视觉环境 的物理参数。例如,物体表面的深度或方向,物体的边界,以及光源的方向等,Mar的视 觉计算理论基本可以归入这一类。基于识别方法的目标是物体的识别和描述。识别是指发现 图象中的成份与环境中物体的先验表示之间的对应。所以就识别而言,并不需要重构环境完 整的物理参数,在识别过程中关于环境的先验知识将起极其重要的作用。我们在日常生活中 可能看到的物体和景物数量巨大、种类繁多,如果没有这些先验期望的约束作用,许多视觉 问题就可能因为约束不充分而不能被解决。识别使我们能超越图象中的数据,因为我们可根 据小部分预期的对应达到可靠的识别,然后应用知识来推论由视觉数据没有直接提供的景物 的特性。这说明视觉信息处理中在尽可能早的阶段中应用知识的价值和必要性,也说明视觉 理解可以通过推理来完成。因此基于识别的方法也可以称为基于推理的方法。 Image feature O 2. 5D sketch 3D-inference Groupings 3D Grouping Object Model 48
48 成圆周。聚类处理可以是在另一种聚类处理输出的基础上进行的事实说明,在所有的聚类过 程中应使用相同的表达。 图 3.4 随机点图案,其中非黑色点的灰度是按圆柱图象的灰度分布取的。 1.3 视觉识别与推理 在计算机视觉中解决视觉任务的方法可分成两大类:基于重构(reconstruction)的方法 和基于识别(recognition)的方法。基于重构的方法试图根据图象恢复和重构外部视觉环境 的物理参数。例如,物体表面的深度或方向,物体的边界,以及光源的方向等,Marr 的视 觉计算理论基本可以归入这一类。基于识别方法的目标是物体的识别和描述。识别是指发现 图象中的成份与环境中物体的先验表示之间的对应。所以就识别而言,并不需要重构环境完 整的物理参数,在识别过程中关于环境的先验知识将起极其重要的作用。我们在日常生活中 可能看到的物体和景物数量巨大、种类繁多,如果没有这些先验期望的约束作用,许多视觉 问题就可能因为约束不充分而不能被解决。识别使我们能超越图象中的数据,因为我们可根 据小部分预期的对应达到可靠的识别,然后应用知识来推论由视觉数据没有直接提供的景物 的特性。这说明视觉信息处理中在尽可能早的阶段中应用知识的价值和必要性,也说明视觉 理解可以通过推理来完成。因此基于识别的方法也可以称为基于推理的方法。 Perceptual Organization Object Model Image feature 3D-inference Perceptual 2.5D sketch Groupings 3D Grouping
图3.5Lowe的视觉识别模型 识别可通过多种预测的特性与实际检测特性之间的对应来实现,其中包括形状、颜色 纹理、连通性、上下文、运动或影调。这里要强调的是空间对应性,即图象中特征的检测位 置准确地与某种物体特征在特定的投影下的位置相吻合。 LowelLow8s提出了进行视觉识别的模型,如图3.5所示。在此模型中除了经过深度和表 面表象的通路以外,还有由所谓的感知组织原理形成的通路。感知组织可以从二维图象特征 直接形成,并且可以用作基于搜索的识别过程的输入。至于图象解释正确性的验证也可直接 通过校验三维知识和图象二维位置之间的一致性来完成,而不需要通过深度表象。 感知组织和推理在视觉理解中的作用可以用以下心理物理学实验来证明,在此实验图象 中,为进行感知组织的必要信息被故意丢失了。如图36所示,图中是一幅自行车的线画图 但是它只完成了大约50%,并且使可进行自底向上聚集的大多数可能都被隐去(即隐去了 大多数显著的共线性、平行性、对称性和靠近的端点等)。实验证明,当被试验者对 图3.6当自底向上的图象特征聚类机会被排除时,线画图就难以识别 图中的内容并无先验知识时,要识别这幅图是相当困难的,在一个有10位试验者的小组中 有9位在90秒的时间内没能识出物体,第10位试验者则花了45秒完成识别。我们可以在 图中逐步地增加进行感知组织的线索,并继续进行实验,以观察这时能否使识别所需时间缩 短,在图37中只对图36增加了一根线条,但它的位置具有战略的重要性,使它能与其 图3.7增加一条提供聚类证论的线就使识别变得容易
49 图 3.5 Lowe 的视觉识别模型 识别可通过多种预测的特性与实际检测特性之间的对应来实现,其中包括形状、颜色、 纹理、连通性、上下文、运动或影调。这里要强调的是空间对应性,即图象中特征的检测位 置准确地与某种物体特征在特定的投影下的位置相吻合。 Lowe[Low 85]提出了进行视觉识别的模型,如图 3.5 所示。在此模型中除了经过深度和表 面表象的通路以外,还有由所谓的感知组织原理形成的通路。感知组织可以从二维图象特征 直接形成,并且可以用作基于搜索的识别过程的输入。至于图象解释正确性的验证也可直接 通过校验三维知识和图象二维位置之间的一致性来完成,而不需要通过深度表象。 感知组织和推理在视觉理解中的作用可以用以下心理物理学实验来证明,在此实验图象 中,为进行感知组织的必要信息被故意丢失了。如图 3.6 所示,图中是一幅自行车的线画图, 但是它只完成了大约 50%,并且使可进行自底向上聚集的大多数可能都被隐去(即隐去了 大多数显著的共线性、平行性、对称性和靠近的端点等)。实验证明,当被试验者对 图 3.6 当自底向上的图象特征聚类机会被排除时,线画图就难以识别 图中的内容并无先验知识时,要识别这幅图是相当困难的,在一个有 10 位试验者的小组中 有 9 位在 90 秒的时间内没能识出物体,第 10 位试验者则花了 45 秒完成识别。我们可以在 图中逐步地增加进行感知组织的线索,并继续进行实验,以观察这时能否使识别所需时间缩 短,在图 3.7 中只对图 3.6 增加了一根线条,但它的位置具有战略的重要性,使它能与其 图 3.7 增加一条提供聚类证论的线就使识别变得容易
它的线条聚集成为共线曲线。这第二幅图所需的识别时间就大为降低。10名试验者中有3 名可在5秒以内完成识别,其余7名可在60秒以内完成识别。从可以通过控制形成感知组 织来影响识别时间说明这个过程具有搜索的本质。在形成初始的感知组织聚类产生了有关线 条可形成一个圆形曲线的假设以后,使自行车的识别问题迎刃而解,说明了这是一个由假设 检验组成的推理过程 Kanizsalkanγ提出形状的感知可分成两个阶段:初始阶段,把视觉输入聚成具有空间和 时间规则性的区域:第二个阶段是完整性、完全性和集成性的感知推理,这个阶段使我们能 超出传感数据直接给出的信息范围,填补实现感知所缺少的信息。 32感知组织的基本原理 Gestalt心理学家证明和强调了感知组织在视觉中的重要性,他们虽然认识到了在感知 组织计算中应该计算什么,但是并没有令人信服地解答为什么要进行和如何进行这样的计算 的问题。也就是没有解决感知组织的基本原理的问题。对感知组织基本原理的研究要解决的 问题是聚类过程的目的是什么,以及如何进行聚类过程。对此问题研究者已进行了大量的工 作。下面我们介绍其中有代表性的两种观点:(1) Lowel85和 Witkin等认为聚类过程的目 的是发现图象元素之间的因果关系或非偶然性关系。图象之间的关系不太可能是由于偶然因 素产生的程度决定了元素之间关系的显要性( Significance),因此感知组织可被看成是对图 象特性的每一种可能的聚类赋以显要性的过程。(2) McCafferty认为和大多数逆向问题 样,在其原始状态下聚类是一个不适定问题。可以通过引入稳定函数来限制解的空间,这 些稳定函数表征了所期望的解的性质。感知组织的 Gestalt规则可用来描述人类视觉系统具 有的聚类特征,因此可通过引入稳定函数来实现 Gestalt规则。按照正则理论,这时聚类就 成为一个求能量极小的问题。在以下的章节中,我们将分别讨论这两种聚类方法 321根据图象关系的显要性进行聚类 Lowe认为可把图象中元素之间的关系分成两类:一类是由于偶然巧合的视点或位置产 生的关系;另一类是由景物中的某些有意义的(即可预测的)关系所产生。例如,图38(a) 和(b)中所示的由三个点所组成的两种关系。在(a)中三个点组成了等间距的共线关系,当视 点在相当大的范围内变化时,这样的关系都可以得以保持,因此当看到图象中的点之间具有 等间距的共线关系,可以推测它们是空间等间距共线点的成象。这样的关系被认为是因果的、 非偶然的。与此相反(b)图中三个点形成的是等边三角形的关系,如果三个点在空间形成等 边三角形的关系,那么只有在某一特定视角下,它们的图象才能保持等边三角形的关系。同 时对于空间中的任意三个点都存在一个特殊的视角,在该视角下这三个点在图象平面中的投 影是等边三角形。因此三个点之间的等边三角形关系就不是因果关系,而是偶然关系,这时 我们就不能从图象中点之间的等边三角形关系推论它们在三维空间中也保持这样的关系。因 此Lowe和[wit&Ten83认为:(1)聚类过程的目的是发现图象元素之间的因果关系 ( Causal relations),或非偶然性关系(non- accidental relations),这些关系在以后的解释过 程中原封不动地保存下来,解释过程中的许多处理只是给原始的聚类加上标志。所以,从图 象恢复三维结构的主要计算工作已由聚类过程完成。例如,在上述例子中三个点之间在空间 形成的等间距共线关系在聚类过程中已经被推论得知。(2)图象中元素之间关系的显要性 ( Significance)取决于这种关系不太可能是由于偶然性因素产生的程度。例如,在图象中平 行曲线关系被认为是高度显要的,这不是由于投影产生平行曲线结构的机会比不是这种结构 的多,而是因为两条不平行的曲线通过投影成为平行可能性很小。(3)图象关系的显要性也
50 它的线条聚集成为共线曲线。这第二幅图所需的识别时间就大为降低。10 名试验者中有 3 名可在 5 秒以内完成识别,其余 7 名可在 60 秒以内完成识别。从可以通过控制形成感知组 织来影响识别时间说明这个过程具有搜索的本质。在形成初始的感知组织聚类产生了有关线 条可形成一个圆形曲线的假设以后,使自行车的识别问题迎刃而解,说明了这是一个由假设 -检验组成的推理过程。 Kanizsa[Kan 79]提出形状的感知可分成两个阶段:初始阶段,把视觉输入聚成具有空间和 时间规则性的区域;第二个阶段是完整性、完全性和集成性的感知推理,这个阶段使我们能 超出传感数据直接给出的信息范围,填补实现感知所缺少的信息。 3.2 感知组织的基本原理 Gestalt 心理学家证明和强调了感知组织在视觉中的重要性,他们虽然认识到了在感知 组织计算中应该计算什么,但是并没有令人信服地解答为什么要进行和如何进行这样的计算 的问题。也就是没有解决感知组织的基本原理的问题。对感知组织基本原理的研究要解决的 问题是聚类过程的目的是什么,以及如何进行聚类过程。对此问题研究者已进行了大量的工 作。下面我们介绍其中有代表性的两种观点:(1) Lowe[Low 85]和 Witkin 等认为聚类过程的目 的是发现图象元素之间的因果关系或非偶然性关系。图象之间的关系不太可能是由于偶然因 素产生的程度决定了元素之间关系的显要性(Significance),因此感知组织可被看成是对图 象特性的每一种可能的聚类赋以显要性的过程。(2)McCafferty[McC 90]认为和大多数逆向问题 一样,在其原始状态下聚类是一个不适定问题。可以通过引入稳定函数来限制解的空间,这 些稳定函数表征了所期望的解的性质。感知组织的 Gestalt 规则可用来描述人类视觉系统具 有的聚类特征,因此可通过引入稳定函数来实现 Gestalt 规则。按照正则理论,这时聚类就 成为一个求能量极小的问题。在以下的章节中,我们将分别讨论这两种聚类方法。 3.2.1 根据图象关系的显要性进行聚类 Lowe 认为可把图象中元素之间的关系分成两类:一类是由于偶然巧合的视点或位置产 生的关系;另一类是由景物中的某些有意义的(即可预测的)关系所产生。例如,图 3.8(a) 和(b)中所示的由三个点所组成的两种关系。在(a)中三个点组成了等间距的共线关系,当视 点在相当大的范围内变化时,这样的关系都可以得以保持,因此当看到图象中的点之间具有 等间距的共线关系,可以推测它们是空间等间距共线点的成象。这样的关系被认为是因果的、 非偶然的。与此相反(b)图中三个点形成的是等边三角形的关系,如果三个点在空间形成等 边三角形的关系,那么只有在某一特定视角下,它们的图象才能保持等边三角形的关系。同 时对于空间中的任意三个点都存在一个特殊的视角,在该视角下这三个点在图象平面中的投 影是等边三角形。因此三个点之间的等边三角形关系就不是因果关系,而是偶然关系,这时 我们就不能从图象中点之间的等边三角形关系推论它们在三维空间中也保持这样的关系。因 此 Lowe 和 [Wit & Ten 83]认为:(1) 聚类过程的目的是发现图象元素之间的因果关系 (Causal relations),或非偶然性关系(non-accidental relations),这些关系在以后的解释过 程中原封不动地保存下来,解释过程中的许多处理只是给原始的聚类加上标志。所以,从图 象恢复三维结构的主要计算工作已由聚类过程完成。例如,在上述例子中三个点之间在空间 形成的等间距共线关系在聚类过程中已经被推论得知。(2) 图象中元素之间关系的显要性 (Significance)取决于这种关系不太可能是由于偶然性因素产生的程度。例如,在图象中平 行曲线关系被认为是高度显要的,这不是由于投影产生平行曲线结构的机会比不是这种结构 的多,而是因为两条不平行的曲线通过投影成为平行可能性很小。(3) 图象关系的显要性也
提供了进行聚类的方法。感知组织可被看成是对图象特征的每一种可能的聚类赋以显要性程 度的过程。 b 图38(a)三点成等间距关系(b)三点成等边三角形关系 3211图象关系非偶然性产生的概率 Lowe认为每种图象关系都包含了表示这种关系是非偶然性产生的统计信息,并且正是 这种非偶然性的程度形成了对它赋以显要性程度的基础。由于在图象中可能存在的图象关系 类型有无穷多种。(例如,对任何给定的N,图中所有的“直线”对之间形成相对角度为N 度的关系。)在这些可能的关系中只有一小部分是显要的和值得检测的。而确定一种关系是 否值得检测的关键就是要计算这种图象关系是非偶然性产生的概率( probability of accident occurrence),以下我们来研究这个问题 在计算图象关系的非偶然性概率时要考虑以下多种因素: (1)关于图象投影过程的知识告诉我们,只有某些类型的图象关系通常不是由于偶然 性产生的。因此从统计上讲,只有这样的关系是可探测的:(2)在作非偶然性统计估计时可 利用对于每种关系产生概率的先验知识;(3)在建立图象关系事件的模型时可假设图象元素 的位置和方位是独立的:(4)对任何关系来说,相似特征的背景密度决定了某个给定程度接 近性的显要性:(5)初始的关系可递归地组合成新的关系,此新关系可影响原始估计的显要 性 1.视点恒常性条件 景物到图象投影过程的性质向我们提供了一种对图象关系强有力和通用的约束信息。如 果我们假设摄象机或眼睛的视点是与景物中的物体相独立的,那么可以证明只有某些类型的 图象关系通常不是由于偶然因素产生的。这些类型的图象关系的特点是它可以在视点的一个 范围内保持稳定。例如,景物中曲线的共线性可在相当宽的视点范围内投影形成图象中的共 线性。任何在投影时产生的关系,如果不能在多数视点范围内保持稳定的话,就难以把这样 的关系与由于偶然性产生的关系相区分。例如,景物中成直角的直线对在大多数视点下都不 能投影为图象中成直角的直线对。因此,虽然我们在图象中检测到了成直角的直线对,我们 也没有理由相信,这不是由于视点与某个未知空间角度相配合偶然产生的结果。 视点恒常性约束极大地限制了可作为感知组织基础的图象关系类型。只有少数类型的关 系,例如,共线、连接性可以在所有的视点下保持恒常。不过,还有另外一些类型的关系, 可以在相当大的范围内加以保持,因此可被认为是经常出现的。例如,平行和一系列共线特 征的等间距性在透视效应的情况下,仍能在相当大的视点范围内保持。此外,由于许多物体 只占据较小的视角,或者与观察者到物体的距离相比,物体本身的深度范围较小,我们还可 认为其它一些关系在图象中是经常产生的。对这样的关系在使用时要小心处理。例如,在投
51 提供了进行聚类的方法。感知组织可被看成是对图象特征的每一种可能的聚类赋以显要性程 度的过程。 图 3.8 (a)三点成等间距关系 (b)三点成等边三角形关系 3.2.1.1 图象关系非偶然性产生的概率 Lowe 认为每种图象关系都包含了表示这种关系是非偶然性产生的统计信息,并且正是 这种非偶然性的程度形成了对它赋以显要性程度的基础。由于在图象中可能存在的图象关系 类型有无穷多种。(例如,对任何给定的 N,图中所有的“直线”对之间形成相对角度为 N 度的关系。)在这些可能的关系中只有一小部分是显要的和值得检测的。而确定一种关系是 否值得检测的关键就是要计算这种图象关系是非偶然性产生的概率(probability of accident occurrence),以下我们来研究这个问题。 在计算图象关系的非偶然性概率时要考虑以下多种因素: (1) 关于图象投影过程的知识告诉我们,只有某些类型的图象关系通常不是由于偶然 性产生的。因此从统计上讲,只有这样的关系是可探测的;(2) 在作非偶然性统计估计时可 利用对于每种关系产生概率的先验知识;(3) 在建立图象关系事件的模型时可假设图象元素 的位置和方位是独立的;(4) 对任何关系来说,相似特征的背景密度决定了某个给定程度接 近性的显要性;(5) 初始的关系可递归地组合成新的关系,此新关系可影响原始估计的显要 性。 1. 视点恒常性条件 景物到图象投影过程的性质向我们提供了一种对图象关系强有力和通用的约束信息。如 果我们假设摄象机或眼睛的视点是与景物中的物体相独立的,那么可以证明只有某些类型的 图象关系通常不是由于偶然因素产生的。这些类型的图象关系的特点是它可以在视点的一个 范围内保持稳定。例如,景物中曲线的共线性可在相当宽的视点范围内投影形成图象中的共 线性。任何在投影时产生的关系,如果不能在多数视点范围内保持稳定的话,就难以把这样 的关系与由于偶然性产生的关系相区分。例如,景物中成直角的直线对在大多数视点下都不 能投影为图象中成直角的直线对。因此,虽然我们在图象中检测到了成直角的直线对,我们 也没有理由相信,这不是由于视点与某个未知空间角度相配合偶然产生的结果。 视点恒常性约束极大地限制了可作为感知组织基础的图象关系类型。只有少数类型的关 系,例如,共线、连接性可以在所有的视点下保持恒常。不过,还有另外一些类型的关系, 可以在相当大的范围内加以保持,因此可被认为是经常出现的。例如,平行和一系列共线特 征的等间距性在透视效应的情况下,仍能在相当大的视点范围内保持。此外,由于许多物体 只占据较小的视角,或者与观察者到物体的距离相比,物体本身的深度范围较小,我们还可 认为其它一些关系在图象中是经常产生的。对这样的关系在使用时要小心处理。例如,在投
影时曲率恒常性不能严格地保持,但对于在曲线只占较小的径向角度范围的局部区域内,基 本上可说曲率保持不变。尽管有上述这些复杂性,视点恒常性约束仍然是一种非常有用的工 具,它可用于把几乎无穷的图象关系局限到少数几种候选关系,这些关系可在投影的条件下 至少可以部分保持恒常性。 在视点恒常性的基础上检测图象关系的重要优点是,这样检测到的图象关系意味着它们 是某个特定的空间关系投影产生的。因此就有可能根据图象关系来推论相应的空间结构。例 如,如果我们已确定图象内的若干特征的共线关系不是由于偶然因素产生的,就可以推论这 些特征在空间也是共线的。这个问题在下面的章节中研究 2.关于图象关系产生概率的先验知识 上一节讨论的视点恒常性约束是确定图象关系是否是偶然因素产生的主要因素之一,但 与此同时还需考虑与图象内容有关的先验知识。当决定先验知识在判断图象关系的非偶然性 时可以应用条件概率和 Bayesian(贝叶斯)推理: 设,p(ra)是事件r和a都是真的概率,p(alr)是当r事件为真时,事件a的概率。因此 P(r&a)=P(rP(ar)=P(a)p(rla) 所以 P(a)p(rla) P(ar) P(r) 这就是基本的 Bayesian公式。如果r是以某种精确度测得已知图象关系的事件;a表示 图象关系是偶然性产生的事件;c表示图象关系是因果性产生的事件。那么 P(r)=P(a)+P(c)(因为a和c是r的两种相互排斥的情况)和P(r1a)=P(rl)=1(因 为a和c是r的实例),因此,根据 Bayesian公式可得 P(a) P(ar)- P(a)+P(c) P(c)=1-P(ar)=1-(a) P(a)+ P(c) 以上公式使我们能根据偶然事件和非偶然事件的先验概率来计算给定的图象关系是非偶然 性的概率。对P(a)的估计问题将在以下章节中讨论,前一节中讨论的视点恒常性条件的目标 是选择P(c)显著高的关系,但对定量估计图象关系的因果性概率来说,视点恒常性只是其 中的一个因素。如何来确定P(c)呢?一种可能的方法是通过统计的实验方法,另一种较为理 论的方法是先建立视觉世界的某种通用模型,然后根据这个模型得到这种图象关系的出现概 率。当然对P(c)的估计并不需要很准确,数量级的估计就可满足应用的需要。 3.位置独立性假设 给定以某种精度保持的图象关系,要计算这种具有一定精度的关系是偶然产生的概率, 我们就必须对物体周围的分布情况作某种假设,以此为背景来判断关系的显要性。一种最通 用和显然的假设是认为背景中的物体位置相互独立,由此可知在图象的背景中,物体位置也 是相互独立的。这被称为位置独立性的空假设( null hypothesis) 已知三维空间中位置和方向的独立性假设以后,就很容易计算具有给定精度的某种关系 是偶然产生的概率。例如,如果两条直线平行,其平行的精度为5°以内,那么可算出这样 的关系是由于两个独立物体偶然产生的概率是5/180=1/36。 4.背景特征密度与接近性之比 以上研究了单独给定关系的情况,当在图象中同时存在多个图象特征时,需要研究的图 象关系数量就与特征数量的平方成正比。例如,已知图中有10条线,那么可能的线段对的 数量就有10×(10-1)/2=45条。不难想象,可以从中发现一些相互平行的线段对。图39中
52 影时曲率恒常性不能严格地保持,但对于在曲线只占较小的径向角度范围的局部区域内,基 本上可说曲率保持不变。尽管有上述这些复杂性,视点恒常性约束仍然是一种非常有用的工 具,它可用于把几乎无穷的图象关系局限到少数几种候选关系,这些关系可在投影的条件下 至少可以部分保持恒常性。 在视点恒常性的基础上检测图象关系的重要优点是,这样检测到的图象关系意味着它们 是某个特定的空间关系投影产生的。因此就有可能根据图象关系来推论相应的空间结构。例 如,如果我们已确定图象内的若干特征的共线关系不是由于偶然因素产生的,就可以推论这 些特征在空间也是共线的。这个问题在下面的章节中研究。 2. 关于图象关系产生概率的先验知识 上一节讨论的视点恒常性约束是确定图象关系是否是偶然因素产生的主要因素之一,但 与此同时还需考虑与图象内容有关的先验知识。当决定先验知识在判断图象关系的非偶然性 时可以应用条件概率和 Bayesian(贝叶斯)推理: 设,p(r& a)是事件 r 和 a 都是真的概率, p(a|r) 是当 r 事件为真时,事件 a 的概率。因此 有: P(r&a) = P(r)P(a|r) = P(a)P(r|a) 所以 P a r P a P r a P r ( | ) ( ) ( | ) ( ) = 这就是基本的 Bayesian 公式。如果 r 是以某种精确度测得已知图象关系的事件;a 表示 图象关系是偶然性产生的事件; c 表 示图 象 关 系 是 因 果 性 产 生的 事 件 。 那 么 P(r) = P(a) + P(c) (因为 a 和 c 是 r 的两种相互排斥的情况)和 P(r|a) = P(r|c) = 1 (因 为 a 和 c 是 r 的实例),因此,根据 Bayesian 公式可得 P a r P a P a P c ( | ) ( ) ( ) ( ) = + P c r P a r P a P a P c ( | ) ( | ) ( ) ( ) ( ) = − = − + 1 1 以上公式使我们能根据偶然事件和非偶然事件的先验概率来计算给定的图象关系是非偶然 性的概率。对 P(a)的估计问题将在以下章节中讨论,前一节中讨论的视点恒常性条件的目标 是选择 P( c)显著高的关系,但对定量估计图象关系的因果性概率来说,视点恒常性只是其 中的一个因素。如何来确定 P(c)呢?一种可能的方法是通过统计的实验方法,另一种较为理 论的方法是先建立视觉世界的某种通用模型,然后根据这个模型得到这种图象关系的出现概 率。当然对 P(c)的估计并不需要很准确,数量级的估计就可满足应用的需要。 3. 位置独立性假设 给定以某种精度保持的图象关系,要计算这种具有一定精度的关系是偶然产生的概率, 我们就必须对物体周围的分布情况作某种假设,以此为背景来判断关系的显要性。一种最通 用和显然的假设是认为背景中的物体位置相互独立,由此可知在图象的背景中,物体位置也 是相互独立的。这被称为位置独立性的空假设(null hypothesis)。 已知三维空间中位置和方向的独立性假设以后,就很容易计算具有给定精度的某种关系 是偶然产生的概率。例如,如果两条直线平行,其平行的精度为 5°以内,那么可算出这样 的关系是由于两个独立物体偶然产生的概率是 5 180 = 1 36。 4. 背景特征密度与接近性之比 以上研究了单独给定关系的情况,当在图象中同时存在多个图象特征时,需要研究的图 象关系数量就与特征数量的平方成正比。例如,已知图中有 10 条线,那么可能的线段对的 数量就有 10×(10-1) / 2=45 条。不难想象,可以从中发现一些相互平行的线段对。图 3.9 中
的例子表示了这一点 a N 图3.9两条几乎平行的线段在图a中形成了一个显要的关系,因为这时与背景中的相似特 征的密度相比,这两条线相互更为接近。但当接近性与密度之比下降时,这两条平行线段的 显要性就减弱了,这说是图(b)所示的情况。 如果把背景的密度考虑进来,那么构成关系的特征之间的接近性就成为判断关系是否显 要的一个主要因素,当两个特征之间的距离变得更近时,在给定的背景特征密度情况下,具 有相同接近程度的其它特征的数量就急剧下降。 请注意,接近性不但是在判断其它类型图象关系显要性时的一个因素,而且它本身也是 一种可用于检测的非偶然性的图象关系。在空间是相互接近的特征,在各种视点下都将投影 为图象中相互接近的特征,所以接近性可以通过视点恒常性试验 5递归地进行构造 由于图象测量的精度有限,所以至今所讨论的简单图象关系通常不能产生很低的偶然性 概率。因此难以作为识别关系的可靠证据,但是可以通过组合初步得到的关系来建立新的图 象关系,这些组合图象关系的偶然性概率就会低得多。例如,我们可以把若干个共线的点聚 类成线,然后又把这条线进一步组合进平行线这样较大的结构中。这些后来形成的结构对较 早的聚类提供了确认。这样的过程可以一直进行下去,直到识别物体。在前面所举的识别自 行车的例子中可以看到,识别了自行车就是对前面的初始聚类的强有力的确认。 3212限制计算的复杂性 前面已研究了若干确定某一图象关系是否是偶然性产生的因素。但是,在有些情况下人 类视觉却不能检测按任何合理的统计准则来衡量都是高度显要的聚类关系。如图3.10中 图3.10(a)所示为5个等间距共线点或3个等间距共线线段,如果把这些特征放在相似背
53 的例子表示了这一点。 图 3.9 两条几乎平行的线段在图(a)中形成了一个显要的关系,因为这时与背景中的相似特 征的密度相比,这两条线相互更为接近。但当接近性与密度之比下降时,这两条平行线段的 显要性就减弱了,这说是图(b)所示的情况。 如果把背景的密度考虑进来,那么构成关系的特征之间的接近性就成为判断关系是否显 要的一个主要因素,当两个特征之间的距离变得更近时,在给定的背景特征密度情况下,具 有相同接近程度的其它特征的数量就急剧下降。 请注意,接近性不但是在判断其它类型图象关系显要性时的一个因素,而且它本身也是 一种可用于检测的非偶然性的图象关系。在空间是相互接近的特征,在各种视点下都将投影 为图象中相互接近的特征,所以接近性可以通过视点恒常性试验。 5. 递归地进行构造 由于图象测量的精度有限,所以至今所讨论的简单图象关系通常不能产生很低的偶然性 概率。因此难以作为识别关系的可靠证据,但是可以通过组合初步得到的关系来建立新的图 象关系,这些组合图象关系的偶然性概率就会低得多。例如,我们可以把若干个共线的点聚 类成线,然后又把这条线进一步组合进平行线这样较大的结构中。这些后来形成的结构对较 早的聚类提供了确认。这样的过程可以一直进行下去,直到识别物体。在前面所举的识别自 行车的例子中可以看到,识别了自行车就是对前面的初始聚类的强有力的确认。 3.2.1.2 限制计算的复杂性 前面已研究了若干确定某一图象关系是否是偶然性产生的因素。但是,在有些情况下人 类视觉却不能检测按任何合理的统计准则来衡量都是高度显要的聚类关系。如图 3.10 中 图 3.10 (a)所示为 5 个等间距共线点或 3 个等间距共线线段,如果把这些特征放在相似背