第五章距离信息的检测 5.1双目立体视觉 5.1.1概述 5.1.1工作原理 5.1.1.2匹配特征的选择 5.1.1.3匹配规则 5.1.1.4算法简介 5.1.2Marr- Poggio- Grimson算法 5.1.3 Baker- Binford算法 5.1.4摄象机的标定 5.1双目立体视觉 5.1.概述 如果能从两个不同的位置观察同一物体,我们就能用三角计算方法测量摄象机到该物体 的距离。这种方法被称为立体视觉或双目立体视觉( Stereo或 binocular vision),或简 称为体视。体视是人类获取环境三维信息的主要途径。人类的许多能力,如识别和定位物体 回避障碍物,和搜索物体等都要依靠体视。因此人类视觉系统具有高度发达的体视功能,可 以在相当大的范围内实时地提供关于周围物体相对位置的准确信息,体视的距离可远达 1000米。体视可经受各种干扰,在各种光照条件和光度学及几何学畸变的条件下仍能可靠 地提供立体信息。体视可经受对比度的变化,在一幅图相对于另一幅图有明显的模糊或扩展 时,仍能工作良好。体视的处理是快速的,并能很好地处理物体运动的情况。体视对深度信 息检测的分辨率很高。在理想条件(孤立边缘)下能可靠地分辨小于1秒弧的视差ˉ。 这相当于在1米的观察距离上确定大约相距0.8毫米的两个特征的相对深度,或在50厘米 远处的0.2毫米的相对深度 在计算机视觉研究中立体视觉也是很重要的,因为它可适用于各种条件。例如,体视可 被用于根据航空照片获得地形信息,这时就难以应用主动式的测距方法。对体视的研究从根 本上来说有两种不同的目的和方法:一种是为了理解人类双目立体视觉的机理;另一种是找 寻获得距离信息的实用方法。前者寻求人类立体视觉的计算机模型,它可适用于各种情况, 因此需要进行大量的计算:;与此相反,后者希望开发可实用的立体视觉系统,由于它是适用 于特定的领域,因此通常是不通用的。由于体视处理需要进行大量计算,因此目前在实用中 还未被广泛采用。近来由于在高速信号处理器硬件研究方面取得迅速进展,以及并行处理技 术的发展,使得有可能应用通用的并行处理器来解决体视处理中的计算量问题。此外,上述 两种方法之间的相互渗透和启发能为发展实用的通用立体视觉系统指出新的途径。因此,对 体视的研究再次引起各方的重视 5.1.1.1工作原理 图5.1(a)所示为用双摄象机观测同一景物时的情形。物体上的点P在摄角机1中的成
87 第五章 距离信息的检测 5.1 双目立体视觉 5.1.1 概述 5.1.1 工作原理 5.1.1.2 匹配特征的选择 5.1.1.3 匹配规则 5.1.1.4 算法简介 5.1.2 Marr-Poggio-Grimson 算法 5.1.3 Baker-Binford 算法 5.1.4 摄象机的标定 5.1 双目立体视觉 5.1.1 概述 如果能从两个不同的位置观察同一物体,我们就能用三角计算方法测量摄象机到该物体 的距离。这种方法被称为立体视觉或双目立体视觉(Stereo 或 binocular Vision),或简 称为体视。体视是人类获取环境三维信息的主要途径。人类的许多能力,如识别和定位物体, 回避障碍物,和搜索物体等都要依靠体视。因此人类视觉系统具有高度发达的体视功能,可 以在相当大的范围内实时地提供关于周围物体相对位置的准确信息,体视的距离可远达 1000 米。体视可经受各种干扰,在各种光照条件和光度学及几何学畸变的条件下仍能可靠 地提供立体信息。体视可经受对比度的变化,在一幅图相对于另一幅图有明显的模糊或扩展 时,仍能工作良好。体视的处理是快速的,并能很好地处理物体运动的情况。体视对深度信 息检测的分辨率很高。在理想条件(孤立边缘)下能可靠地分辨小于 1 秒弧的视差[Wes 78]。 这相当于在 1 米的观察距离上确定大约相距 0.8 毫米的两个特征的相对深度,或在 50 厘米 远处的 0.2 毫米的相对深度。 在计算机视觉研究中立体视觉也是很重要的,因为它可适用于各种条件。例如,体视可 被用于根据航空照片获得地形信息,这时就难以应用主动式的测距方法。对体视的研究从根 本上来说有两种不同的目的和方法:一种是为了理解人类双目立体视觉的机理;另一种是找 寻获得距离信息的实用方法。前者寻求人类立体视觉的计算机模型,它可适用于各种情况, 因此需要进行大量的计算;与此相反,后者希望开发可实用的立体视觉系统,由于它是适用 于特定的领域,因此通常是不通用的。由于体视处理需要进行大量计算,因此目前在实用中 还未被广泛采用。近来由于在高速信号处理器硬件研究方面取得迅速进展,以及并行处理技 术的发展,使得有可能应用通用的并行处理器来解决体视处理中的计算量问题。此外,上述 两种方法之间的相互渗透和启发能为发展实用的通用立体视觉系统指出新的途径。因此,对 体视的研究再次引起各方的重视。 5.1.1.1 工作原理 图 5.1(a)所示为用双摄象机观测同一景物时的情形。物体上的点 P 在摄角机 1 中的成
象点为A,它是通过从P点发出的光线经过透镜中心C1与图象平面相交而形成的。相反地, 若已知图象平面上的一点A和透镜中心C1可唯一地确定一条射线AC。所有可成象在A点的 物体点必定在这条AC射线上。但问题是不知道物体在这条射线上的什么地方,也就是不知 道离得多远。如果我们能找到同一物体点P在另一摄象机中的成象点B,那么根据第二个图 象点B与相应透镜中心C2决定的第二条射线BC2与AC1的交点就可以确定物体点的位置。因 此,如果已知两台摄象机的几何位置,并且摄象机是线性的,同时知道同一物体在两个摄象 机中的成象位置,那么利用三角原理就可以计算物体在空间的位置。射线 (a)外极线 (b)视差和距离计算 图5.1立体视觉原理 AC1上各点在右摄象机图象平面中的成象是一条直线(BD),这条线被称为外极线( epipolar) 同理,BC2在左摄象机图象平面中的成象也形成外极线。因此,如果已知空间点在一个图象 平面中的成象点要寻找在另一图象平面中的对应点时,只需沿此图象平面中的外极线搜索即 可。图5.1(b)所示为两摄象机的光轴平行,并且摄象机的水平扫描线位于同一平面时的简 单情形。P点在左、右图象平面中成象点相对于坐标原点O和Q(01和0是左、右摄象机透 镜光轴与图象平面的交点)的距离分别为α和β。P点在左、右图象平面中成象点位置差α+ β被称为视差( disparity)。在图5.1(b)所示情况下,P点距透镜中心的距离d等于 d a+B 其中∫是透镜的焦距,b是两透镜中心之间的距离,当摄象机的几何位置固定时,视差α+β 只与距离d有关,而与P点离摄象机光轴的距离无关。视差越大说明物体离透镜的距离越近 反之,则越远
88 象点为A,它是通过从 P 点发出的光线经过透镜中心 C1 与图象平面相交而形成的。相反地, 若已知图象平面上的一点 A 和透镜中心 C1 可唯一地确定一条射线 AC1。所有可成象在 A 点的 物体点必定在这条 AC1 射线上。但问题是不知道物体在这条射线上的什么地方,也就是不知 道离得多远。如果我们能找到同一物体点 P 在另一摄象机中的成象点 B,那么根据第二个图 象点 B 与相应透镜中心 C2 决定的第二条射线 BC2 与 AC1 的交点就可以确定物体点的位置。因 此,如果已知两台摄象机的几何位置,并且摄象机是线性的,同时知道同一物体在两个摄象 机中的成象位置,那么利用三角原理就可以计算物体在空间的位置。射线 图 5.1 立体视觉原理 AC1 上各点在右摄象机图象平面中的成象是一条直线(BD),这条线被称为外极线(epipolar)。 同理,BC2 在左摄象机图象平面中的成象也形成外极线。因此,如果已知空间点在一个图象 平面中的成象点要寻找在另一图象平面中的对应点时,只需沿此图象平面中的外极线搜索即 可。图 5.1(b)所示为两摄象机的光轴平行,并且摄象机的水平扫描线位于同一平面时的简 单情形。P 点在左、右图象平面中成象点相对于坐标原点 O1 和 O2(O1和 O2 是左、右摄象机透 镜光轴与图象平面的交点)的距离分别为和。P 点在左、右图象平面中成象点位置差+ 被称为视差(disparity)。在图 5.1(b)所示情况下,P 点距透镜中心的距离 d 等于 d f b = + (5-1) 其中 f 是透镜的焦距,b 是两透镜中心之间的距离,当摄象机的几何位置固定时,视差+ 只与距离 d 有关,而与 P 点离摄象机光轴的距离无关。视差越大说明物体离透镜的距离越近; 反之,则越远
(a)收敛视差 (b)发散视差 图5.2双目光轴不相平行时的视觉 在一般情况下左、右摄象机(双目)的光轴不平行,而是相交于某一点(称为固定点) 如图5.2所示。固定点的视差为零。如果物体点在固定点的前方(离透镜较近,图5.2(a)) 这时的视差称为收敛视差( convergent disparity)。在图5.2中用双目代表摄象机,在研 究人的视觉时常用视角差来表示视差。如果物体点在固定点后方(图5-2(b)),这时的视 差称为发散视差( divergent disparity)。这时的视差直接反映物体点距固定点的距离 而固定点的位置可通过改变摄象机光轴的夹角进行调整。因此,改变摄象机光轴的夹角可以 调整距离测量范围。例如,人在观察近处的物体时就需要把双目的光轴会聚在近处 为了避免混淆需要说明一下距离和深度的定义。距离是指从观察者到物体的客观实际距 离;深度( depth)是指由观察者感觉到的主观距离,通常是测量相对于定位点或某个空间 点的距离。 如上所述,从原理上讲根据“立体图象对”抽取深度信息的处理应包括以下四部分 1.在图象中寻找在两幅图象中都便于区分的特征,或用于匹配的基元( primitive 2.把左、右两幅图象中的有关特征进行匹配,即解决特征匹配的方法问题。 3.确定摄象机的相对几何位置和有关参数,即摄象机的校准( Calibration) 4.根据视差计算成象物体相对摄象机的距离。 这些问题中最重要和困难的是前两个问题。也就是在左、右图象中发现与同一空间点对 应的成象点对,这说是所谓的对应性( Correspondence)问题。一旦确定了对应关系就可 容易地计算出这些图象点所代表的物体点在空间的位置。但是对一幅图中的给定匹配基元来 说在另一幅图中经常可发现不止一个可能的匹配基元与之匹配。这样就产生了匹配中的多义 性或匹配假目标问题。这是个关键而困难的问题 51.12匹配基元的选择 对应性问题不是简单地把两幅图中象素的灰度作比较就能解决的。左、右图象中单个象 素点的灰度不够稳定,即使认为它们是稳定的话,也很容易出现在相当大的区域里象素具有 相同灰度的情况,这样就造成了严重的多义性问题,或假目标( false target)问题 立体视觉处理中对搜索对应点时的多义性问题可分两步来解决。第一步,是在单幅图象 作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性;第二步,是在 两幅图的对应点间作匹配时应用选择性规则来限制搜索空间。各种算法间的区别主要在于它 们在匹配时选择什么样的匹配基元( matching primitive)作为表面位置标志的基本元素
89 图 5.2 双目光轴不相平行时的视觉 在一般情况下左、右摄象机(双目)的光轴不平行,而是相交于某一点(称为固定点), 如图 5.2 所示。固定点的视差为零。如果物体点在固定点的前方(离透镜较近,图 5.2 (a) ) 这时的视差称为收敛视差(convergent disparity)。在图 5.2 中用双目代表摄象机,在研 究人的视觉时常用视角差来表示视差。如果物体点在固定点后方(图 5-2(b)),这时的视 差称为发散视差(divergent disparity)。这时的视差直接反映物体点距固定点的距离, 而固定点的位置可通过改变摄象机光轴的夹角进行调整。因此,改变摄象机光轴的夹角可以 调整距离测量范围。例如,人在观察近处的物体时就需要把双目的光轴会聚在近处。 为了避免混淆需要说明一下距离和深度的定义。距离是指从观察者到物体的客观实际距 离;深度(depth)是指由观察者感觉到的主观距离,通常是测量相对于定位点或某个空间 点的距离。 如上所述,从原理上讲根据“立体图象对”抽取深度信息的处理应包括以下四部分: 1. 在图象中寻找在两幅图象中都便于区分的特征,或用于匹配的基元(primitive)。 2. 把左、右两幅图象中的有关特征进行匹配,即解决特征匹配的方法问题。 3. 确定摄象机的相对几何位置和有关参数,即摄象机的校准(Calibration)。 4. 根据视差计算成象物体相对摄象机的距离。 这些问题中最重要和困难的是前两个问题。也就是在左、右图象中发现与同一空间点对 应的成象点对,这说是所谓的对应性( Correspondence)问题。一旦确定了对应关系就可 容易地计算出这些图象点所代表的物体点在空间的位置。但是对一幅图中的给定匹配基元来 说在另一幅图中经常可发现不止一个可能的匹配基元与之匹配。这样就产生了匹配中的多义 性或匹配假目标问题。这是个关键而困难的问题。 5.1.1.2 匹配基元的选择 对应性问题不是简单地把两幅图中象素的灰度作比较就能解决的。左、右图象中单个象 素点的灰度不够稳定,即使认为它们是稳定的话,也很容易出现在相当大的区域里象素具有 相同灰度的情况,这样就造成了严重的多义性问题,或假目标(false target)问题。 立体视觉处理中对搜索对应点时的多义性问题可分两步来解决。第一步,是在单幅图象 作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性;第二步,是在 两幅图的对应点间作匹配时应用选择性规则来限制搜索空间。各种算法间的区别主要在于它 们在匹配时选择什么样的匹配基元(matching primitive)作为表面位置标志的基本元素
以及选用什么规则来限制搜索空间和删除不合适的匹配 选择匹配基元时要考虑基元的稳定性和敏感性。由于图象对中不可避免地存在光度学和 几何学的畸变。为使在这种情况下仍能可靠地检测所需的位置标志,所选的匹配基元应能经 受上述两方面的畸变,也就是应有较高的稳定性。同时,从减少出现不正确匹配的可能性来 看,所选的匹配基元应能灵敏地反映两个匹配基元之间的差别,这就是说要有较高的敏感性。 人类的立体视觉经受图象对之间对比度差别的能力很强,这意味着在人的立体视觉中可能应 用了如局部灰度梯度最大点这样的与对比度大小无关的匹配基元。在选择匹配基元时还应考 虑便于检测、能准确定位和允许在较大的视差范围内进行匹配等因素。目前所用的匹配基元 可以分成两大类 1.在所有图象点上抽取的量测 这类匹配基元一般是在每个象素位置处都产生一个描述,所以这时把匹配基元看成是 种量测比看成一种特征更为确切。这些特征表示图象中的局部结构状态,在数量上要比象素 少得多。属于这类的匹配基元有以下几种: (1)象素灰度。象素灰度可由成象系统直接得到,因此是最简单的。目前被用于大多数 商用的视觉系统中。 (2)局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各 点周围结构的矢量83 (3)v2G卷积图象的符号。把图象与各种大小的v2G算子卷积后,图象中各点的 符号可作为原始图象特征的描述。在卷积后的图象中可得到正号区和负号区。这两个区域之 边界接近于灰度梯度局部极大值的位置。 2.图象特征 这种匹配基元较为符号化,它检测图象中包含丰富信息的结构所在的位置,例如图象中 的边缘,这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少。 (1)V2G卷积图象中的过零点。这种方法是由Marr和 Poggio,Marr和 Hildreth ∞0提出和发展的。它虽然也可用于检测边缘,但是更确切说这种方法的目的是检测稳定的、 稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征。 (2)边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹 配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息。检测边缘的算子如 第四章中所述种类很多。在选择边缘作为特征时有两点需要考虑:第一,由于对于给定的特 征点来说,对应的外极线上的点都是可能的匹配点。所以与外极线方向平行的边缘线段无法 作为匹配的特征,只有其方向与外极线交叉的边缘点才能作为匹配基元。第二,因为边缘经 常代表深度的不连续点,在从不同位置所取得的图象中,边缘两侧的区域情况将会不同。因 此,基于边缘特征的立体视觉算法通常只利用边缘的位置和方向的信息,而对边缘两侧的灰 度信息用得很少 5113匹配规则( matching rules) 在研究具体的匹配规则以前需要先讨论在匹配过程中应遵循的约束条件。这些约束条件 是根据对匹配环境所作的假设产生的,约束条件主要包括以下三条: 1.相容性( Compatibility)约束 如果两个匹配基元确实是由同一物理标记产生的,那么它们就可以匹配起来。如果不是 这样,它们就不能匹配。在判断两个匹配基元是否相容时要根据它们之间的相似性。问题是 如何度量匹配基元的相似性。有两种相似性的假设。一种是基于光度学不变性的性质。即左 右图象对应区域中灰度的变化情况相似。如果景物中表面的深度变化比较平缓,同时由于双 眼相隔的距离不大,作这样的假设是有道理的。例如,用立体视觉原理,通过航空摄影测地
90 以及选用什么规则来限制搜索空间和删除不合适的匹配。 选择匹配基元时要考虑基元的稳定性和敏感性。由于图象对中不可避免地存在光度学和 几何学的畸变。为使在这种情况下仍能可靠地检测所需的位置标志,所选的匹配基元应能经 受上述两方面的畸变,也就是应有较高的稳定性。同时,从减少出现不正确匹配的可能性来 看,所选的匹配基元应能灵敏地反映两个匹配基元之间的差别,这就是说要有较高的敏感性。 人类的立体视觉经受图象对之间对比度差别的能力很强,这意味着在人的立体视觉中可能应 用了如局部灰度梯度最大点这样的与对比度大小无关的匹配基元。在选择匹配基元时还应考 虑便于检测、能准确定位和允许在较大的视差范围内进行匹配等因素。目前所用的匹配基元 可以分成两大类: 1. 在所有图象点上抽取的量测 这类匹配基元一般是在每个象素位置处都产生一个描述,所以这时把匹配基元看成是一 种量测比看成一种特征更为确切。这些特征表示图象中的局部结构状态,在数量上要比象素 少得多。属于这类的匹配基元有以下几种: (1) 象素灰度。象素灰度可由成象系统直接得到,因此是最简单的。目前被用于大多数 商用的视觉系统中。 (2) 局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各 点周围结构的矢量[Kas 83]。 (3) 2G 卷积图象的符号[Nis 83]。把图象与各种大小的 2G 算子卷积后,图象中各点的 符号可作为原始图象特征的描述。在卷积后的图象中可得到正号区和负号区。这两个区域之 边界接近于灰度梯度局部极大值的位置。 2. 图象特征 这种匹配基元较为符号化,它检测图象中包含丰富信息的结构所在的位置,例如图象中 的边缘,这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少。 (1) 2G 卷积图象中的过零点。这种方法是由 Marr 和 Poggio[Mar 79],Marr 和 Hildreth[Mar 80]提出和发展的。它虽然也可用于检测边缘,但是更确切说这种方法的目的是检测稳定的、 稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征。 (2) 边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹 配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息。检测边缘的算子如 第四章中所述种类很多。在选择边缘作为特征时有两点需要考虑:第一,由于对于给定的特 征点来说,对应的外极线上的点都是可能的匹配点。所以与外极线方向平行的边缘线段无法 作为匹配的特征,只有其方向与外极线交叉的边缘点才能作为匹配基元。第二,因为边缘经 常代表深度的不连续点,在从不同位置所取得的图象中,边缘两侧的区域情况将会不同。因 此,基于边缘特征的立体视觉算法通常只利用边缘的位置和方向的信息,而对边缘两侧的灰 度信息用得很少。 5.1.1.3 匹配规则(matching rules) 在研究具体的匹配规则以前需要先讨论在匹配过程中应遵循的约束条件。这些约束条件 是根据对匹配环境所作的假设产生的,约束条件主要包括以下三条: 1. 相容性(Compatibility)约束 如果两个匹配基元确实是由同一物理标记产生的,那么它们就可以匹配起来。如果不是 这样,它们就不能匹配。在判断两个匹配基元是否相容时要根据它们之间的相似性。问题是 如何度量匹配基元的相似性。有两种相似性的假设。一种是基于光度学不变性的性质。即左、 右图象对应区域中灰度的变化情况相似。如果景物中表面的深度变化比较平缓,同时由于双 眼相隔的距离不大,作这样的假设是有道理的。例如,用立体视觉原理,通过航空摄影测地
形时,由于地形的起伏与飞机的高度相比较小,因此可采用这样的假设。但在机器人视觉应 用中,景物的深度分布经常有急剧变化,在这样的区域附近容易产生与左图中相对应的区域 在右图中被遮挡,或反之的情况。这时光度学不变性的假设就难以保持。另一种相似性的假 设是根据几何学不变性,即两幅图象中描述对象的几何结构相同。例如,在以边缘作为匹配 基元时,沿外极线上任何扫描方向,在左、右图象中边缘出现的次序相同(虽然由于存在遮 挡,出现在左图中的边缘可能不出现在右图中,或反之)。 2.唯一性约束 由于在任何时刻位于某一物质表面上的一个给定点在空间只占有一个唯一的位置,所 以,除了极个别的情况以外,某个匹配基元只能与另一幅图象中的一个匹配基元相匹配。这 样,图象中的每个匹配基元最多只能有一个视差值。 3.连续性约束 这条约束条件的含义是匹配得到的视差值的变化在图象中几乎处处平滑。这个约束条件 是以下述假设为前提的:和表面到观察者的总距离相比较,物体表面凹凸引起的变化或由观 察者到表面的距离变化造成的差异都很小。因此,物体表面可看成是平滑的。也说是说,除 物体的边界外,从观察者到可见表面的距离的变化是连续的,而物体的边界只占图象面积的 很小部分。 上述约束条件对减小匹配多义性的作用可用下述例子来说明。如图5.3所示,左、右眼 都可以看到4个点,那么左图中任意一个点到底与右图中哪一个点相对应呢?如果匹配不是 对一的,则在4个点的情况下,对每个点来说有2=16种可能的方式与另幅图象中的点相 匹配。所以,从原理上来说,4个点总共有65536种可能的匹配方式。根据唯一性的约束条 件,来自两个眼睛的任何一条视线上都不能有多于一个的匹配,也即每条视线或无匹配点 或有一个匹配点,这将使匹配方式降为209种。如果进一步限制沿每条视线只有一个匹配点 那么在图5.3中所有的16个可能匹配中可以有24种排列组合方式。这时需要应用连续性来 进一步减小匹配的多义性。连续性约東条件说明在这24种可能的匹配方式中最可能的是视 差变化最平滑的物体表面,在图5.3中用实心圆表示。因此,R1一R4应顺序地与L-L4相匹 ※ 图5.3两个视网膜上成象对应关系的多义性 以下的问题是如何把上述一般性的约束条件结合到算法中去这方面的规则可分成两大 类,一类规定相似性测量的本质,另一类对相邻匹配基元的视差的关系作出限制。每种匹配 算法至少利用这两类规则中的一种。具体来说有以下两大类规则。 1.对相似性测量的本质作出规定的规则有以下几种: (1)区域的统计量。把图象中小区域里得到的统计量与另一幅图象作比较,以得到相似 性测量。例如,在两幅图象之间进行小区域灰度分布的相关运算和视差方差的统计分析就是 属于这一类。一般来说,采用这种相似性测量时要求假设在这个小区域中的视差为常数,因 此相当于作了很强的表面连续性的假设
91 形时,由于地形的起伏与飞机的高度相比较小,因此可采用这样的假设。但在机器人视觉应 用中,景物的深度分布经常有急剧变化,在这样的区域附近容易产生与左图中相对应的区域 在右图中被遮挡,或反之的情况。这时光度学不变性的假设就难以保持。另一种相似性的假 设是根据几何学不变性,即两幅图象中描述对象的几何结构相同。例如,在以边缘作为匹配 基元时,沿外极线上任何扫描方向,在左、右图象中边缘出现的次序相同(虽然由于存在遮 挡,出现在左图中的边缘可能不出现在右图中,或反之)。 2. 唯一性约束 由于在任何时刻位于某一物质表面上的一个给定点在空间只占有一个唯一的位置,所 以,除了极个别的情况以外,某个匹配基元只能与另一幅图象中的一个匹配基元相匹配。这 样,图象中的每个匹配基元最多只能有一个视差值。 3. 连续性约束 这条约束条件的含义是匹配得到的视差值的变化在图象中几乎处处平滑。这个约束条件 是以下述假设为前提的:和表面到观察者的总距离相比较,物体表面凹凸引起的变化或由观 察者到表面的距离变化造成的差异都很小。因此,物体表面可看成是平滑的。也说是说,除 物体的边界外,从观察者到可见表面的距离的变化是连续的,而物体的边界只占图象面积的 很小部分。 上述约束条件对减小匹配多义性的作用可用下述例子来说明。如图 5.3 所示,左、右眼 都可以看到 4 个点,那么左图中任意一个点到底与右图中哪一个点相对应呢?如果匹配不是 一对一的,则在 4 个点的情况下,对每个点来说有 2 4 =16 种可能的方式与另幅图象中的点相 匹配。所以,从原理上来说,4 个点总共有 65536 种可能的匹配方式。根据唯一性的约束条 件,来自两个眼睛的任何一条视线上都不能有多于一个的匹配,也即每条视线或无匹配点, 或有一个匹配点,这将使匹配方式降为 209 种。如果进一步限制沿每条视线只有一个匹配点, 那么在图 5.3 中所有的 16 个可能匹配中可以有 24 种排列组合方式。这时需要应用连续性来 进一步减小匹配的多义性。连续性约束条件说明在这 24 种可能的匹配方式中最可能的是视 差变化最平滑的物体表面,在图 5.3 中用实心圆表示。因此,R1—R4 应顺序地与 L1—L4 相匹 配. 图 5.3 两个视网膜上成象对应关系的多义性 以下的问题是如何把上述一般性的约束条件结合到算法中去.这方面的规则可分成两大 类,一类规定相似性测量的本质,另一类对相邻匹配基元的视差的关系作出限制。每种匹配 算法至少利用这两类规则中的一种。具体来说有以下两大类规则。 1. 对相似性测量的本质作出规定的规则有以下几种: (1) 区域的统计量。把图象中小区域里得到的统计量与另一幅图象作比较,以得到相似 性测量。例如,在两幅图象之间进行小区域灰度分布的相关运算和视差方差的统计分析就是 属于这一类。一般来说,采用这种相似性测量时要求假设在这个小区域中的视差为常数,因 此相当于作了很强的表面连续性的假设
(2)边界的统计量。这条规则与区域统计的规则相似,不同之处是把图象特性的比较仅 限于表面的边界上。边界内的表面被认为是连续的,沿着边界的视差变化是平滑的。把统计 量仅限于边界有利于扩大这条规则的适用范围。 (3)点的统计量。这条规则实际是区域统计量规则的变型,不是在一个区域里把逐点的 相似性比较综合起来,而是以同一位置为中心作空间测量 2.视差梯度限制规则 这类规则根据以下两个实际观察来限制候选的匹配关系:(1)很少出现相对于两个摄象 机的表面梯度很陡的情况:(2)在这种情况下基元的测量很可能是不稳定的。因此,视差梯 度急剧变化的候选匹配应被抛弃。因为这样的匹配很可能是不正确的。具体来说有以下几种 规则 (1)排序约束 这条规则所作的限制是:在两幅图象中沿相应的外极线上的匹配基元必须以相同的次序 排列。这相当于假设成象表面是不透明的,并且是连续的。这条规则可有效地减少候选匹配 基元的数量 (2)视差梯度范围限制 这条规则对相邻匹配基元之间允许的最大视差梯度作出限制。在人的视觉系统中视差梯 度被限制在1单位以内,即单位长度上视差变化小于1个感光细胞大小(0.4弧度)。这条 规则把由于成象条件所限难以正确匹配的对应点排除在外 (3)由粗到细的匹配规则 用不同尺度(分辨率)的算子来检测匹配基元,在较粗分辨率下进行匹配所得到的信息 用于限制在较细分辨率下基元匹配的搜索范围。这样既提高了匹配的可靠性,又达到了较高 的分辨率。 51.1.4算法简介 立体视觉算法可分成两大类:一类以密集的基元测量为基础,称为基于区域 (area- based)的算法。这类算法的典型例子是利用小区域上的相关技术。另一类以在图象 中相对比较稀少的、较为符号化的特征为基础,称为基于特征( feature- based)的算法。 在立体航空摄影的应用中对基于灰度的区域相关技术进行了深入研究。 Moravec和 Gennery在研究用于自主式移动机器人导航的立体视觉系统时提出了两种以象素灰度为 基础的算法,Taiτ也提出了两种属于这一类的算法。这种算法使用摄象机从8个已知 方位取得的透视图象。用他的方法得到的相关函数比一般两帧图象间的区域相关函数尖锐得 多,并可使用小得多的窗口 基于特征的立体视觉算法要求使用较为严格的匹配规则以删除不正确的匹配。 在匹配的不同阶段分别使用上述两类算法以期达到更高性能的混合算法的代表性例子 是 Baker和 Binford提出的算法。这种算法的初始匹配基元是带有空间分辨率、对 比度、方向和灰度等属性的边缘。匹配过程被局限于根据成象几何学计算的外极线,并使用 排序约束。算法从低分辨率开始,先找到两幅图象间大致的对应关系,然后对中间结果作改 进,对更精细的细节作分析。接着在第一阶段所得对应关系的导引下作基于灰度的匹配。这 两种匹配都依靠动态规划技术 viterbi算法。最后对两幅图象利用如边缘连接性这样的全局 约束来去除错误的边缘对应关系 512 Marr-Poggio- Grimson算法(MPG算法) 这个算法的目的是试图模拟(至少在计算理论的层次上)人类视觉系统双目立体视觉敏
92 (2) 边界的统计量。这条规则与区域统计的规则相似,不同之处是把图象特性的比较仅 限于表面的边界上。边界内的表面被认为是连续的,沿着边界的视差变化是平滑的。把统计 量仅限于边界有利于扩大这条规则的适用范围。 (3) 点的统计量。这条规则实际是区域统计量规则的变型,不是在一个区域里把逐点的 相似性比较综合起来,而是以同一位置为中心作空间测量。 2. 视差梯度限制规则 这类规则根据以下两个实际观察来限制候选的匹配关系;(1)很少出现相对于两个摄象 机的表面梯度很陡的情况;(2)在这种情况下基元的测量很可能是不稳定的。因此,视差梯 度急剧变化的候选匹配应被抛弃。因为这样的匹配很可能是不正确的。具体来说有以下几种 规则: (1) 排序约束 这条规则所作的限制是:在两幅图象中沿相应的外极线上的匹配基元必须以相同的次序 排列。这相当于假设成象表面是不透明的,并且是连续的。这条规则可有效地减少候选匹配 基元的数量。 (2) 视差梯度范围限制 这条规则对相邻匹配基元之间允许的最大视差梯度作出限制。在人的视觉系统中视差梯 度被限制在 1 单位以内,即单位长度上视差变化小于 1 个感光细胞大小(0.4’弧度)。这条 规则把由于成象条件所限难以正确匹配的对应点排除在外。 (3) 由粗到细的匹配规则 用不同尺度(分辨率)的算子来检测匹配基元,在较粗分辨率下进行匹配所得到的信息 用于限制在较细分辨率下基元匹配的搜索范围。这样既提高了匹配的可靠性,又达到了较高 的分辨率。 5.1.1.4 算法简介 立体视觉算法可分成两大类:一类以密集的基元测量为基础,称为基于区域 (area-based)的算法。这类算法的典型例子是利用小区域上的相关技术。另一类以在图象 中相对比较稀少的、较为符号化的特征为基础,称为基于特征(feature-based)的算法。 在立体航空摄影的应用中对基于灰度的区域相关技术进行了深入研究。Moravec[Mor 80]和 Gennery[Gen 80]在研究用于自主式移动机器人导航的立体视觉系统时提出了两种以象素灰度为 基础的算法,Tai [Tai 83]也提出了两种属于这一类的算法。这种算法使用摄象机从 8 个已知 方位取得的透视图象。用他的方法得到的相关函数比一般两帧图象间的区域相关函数尖锐得 多,并可使用小得多的窗口。 基于特征的立体视觉算法要求使用较为严格的匹配规则以删除不正确的匹配。 在匹配的不同阶段分别使用上述两类算法以期达到更高性能的混合算法的代表性例子 是 Baker 和 Binford [Bak 80, 81]提出的算法。这种算法的初始匹配基元是带有空间分辨率、对 比度、方向和灰度等属性的边缘。匹配过程被局限于根据成象几何学计算的外极线,并使用 排序约束。算法从低分辨率开始,先找到两幅图象间大致的对应关系,然后对中间结果作改 进,对更精细的细节作分析。接着在第一阶段所得对应关系的导引下作基于灰度的匹配。这 两种匹配都依靠动态规划技术 viterbi 算法。最后对两幅图象利用如边缘连接性这样的全局 约束来去除错误的边缘对应关系。 5.1.2 Marr-Poggio-Grimson 算法(MPG 算法) 这个算法的目的是试图模拟(至少在计算理论的层次上)人类视觉系统双目立体视觉敏
感深度信息的能力。它的特点是以不同大小的v2G算子与图象卷积,并从中抽取过零点作 为匹配基元;采用从粗到细的匹配策略,应用在低分辨率下匹配得到的信息来限制高分分辨 时匹配的搜索空间。这样做的优点是既具有较大的深度敏感范围,又有较高的空间定位准确 性。具体来说,这个算法的主要内容包括 匹配基元的选择 作为匹配基元的特征点的选择根据以下考虑 (1)因为在灰度均匀区域内的点难以在另一幅图中找到对应点,所以只有在其附近灰度 急剧变化的点才能作为匹配基元 (2)灰度急剧变化点对应于图象与 Laplacian算子卷积后的过零点。所以,特征点将 是V(x)中的过零点,其中a2+a2(x是图象函数 (3)在作 Laplacian卷积以前与 Gaussian函数作平滑滤波,以区别不同尺度变化。 x+ G(x,y)=o (4)(2)和(3)中的算子可合并为 v-G(x,y) 第二章中图2.7所示为v2G算法的截面图。这个算子的宽度H2D是用原点左、右第 个零点之间的距离来表示。为了避免截短( truncate)效应,算子的窗口宽度要大于3.62D 2.匹配基元的属性 可以用过零点两边的符号变化和过零点轮廓来表示匹配基元的特征。在与v2G算子作 卷积后所得图象中,图象值的符号从正到负的变化表示原图中有一个从低到高的灰度上升, 反之则有一个灰度下降。显然灰度的上升和下降是两种不同的变化。 要估计局部的过零点轮廓的方向需要知道在其周围过零点的位置。 Grimson用6 个值(图5.4)来表示过零点轮廓的方向。当然,也可以用计算各点灰度梯度的方向来确定 它的方向。 (a)过零点轮廓的方位被量化到6个角度间隔 (b)如化为12个角度间隔则可自动地把过零点的符号包括在内 图5.4过零点轮廓的方向 3.WD的选择
93 感深度信息的能力。它的特点是以不同大小的 2G 算子与图象卷积,并从中抽取过零点作 为匹配基元;采用从粗到细的匹配策略,应用在低分辨率下匹配得到的信息来限制高分分辨 时匹配的搜索空间。这样做的优点是既具有较大的深度敏感范围,又有较高的空间定位准确 性。具体来说,这个算法的主要内容包括: 1. 匹配基元的选择 作为匹配基元的特征点的选择根据以下考虑: (1) 因为在灰度均匀区域内的点难以在另一幅图中找到对应点,所以只有在其附近灰度 急剧变化的点才能作为匹配基元。 (2) 灰度急剧变化点对应于图象与 Laplacian 算子卷积后的过零点。所以,特征点将 是 ( ) 2 f x, y 中的过零点,其中 + ( ) 2 2 2 2 2 x y , f x, y 是图象函数。 (3) 在作 Laplacian 卷积以前与 Gaussian 函数作平滑滤波,以区别不同尺度变化。 G(x y) x y , = exp − + − 2 2 2 2 2 (4) (2)和(3)中的算子可合并为 ( ) − − 2 2 2 4 2 2 2 2 G x y r r , exp r x y 2 2 2 = + 第二章中图 2.7 所示为 2G 算法的截面图。这个算子的宽度 W2D 是用原点左、右第一 个零点之间的距离来表示。为了避免截短(truncate)效应,算子的窗口宽度要大于 6W2D 3. 。 2. 匹配基元的属性 可以用过零点两边的符号变化和过零点轮廓来表示匹配基元的特征。在与 2G 算子作 卷积后所得图象中,图象值的符号从正到负的变化表示原图中有一个从低到高的灰度上升, 反之则有一个灰度下降。显然灰度的上升和下降是两种不同的变化。 要估计局部的过零点轮廓的方向需要知道在其周围过零点的位置。Grimson [Gri 81]用 6 个值(图 5.4)来表示过零点轮廓的方向。当然,也可以用计算各点灰度梯度的方向来确定 它的方向。 (a)过零点轮廓的方位被量化到 6 个角度间隔; (b)如化为 12 个角度间隔则可自动地把过零点的符号包括在内。 图 5.4 过零点轮廓的方向 3. W2D 的选择
如何选择ⅣD是MPG算法的关键。因为由此可以很容易解释为什么需要进行多通道的 匹配。按多通道算法,首先在邛υ最大的通道(粗通道)中寻找特征点,并使左、右图中 的特征点相匹配得到低分辨率的景物深度图。粗通道时得到的信息被用来控制较细通道中特 征点的匹配。我们首先研究粗通道时特征点的匹配。如在左图中选择一个特征点A(图5.5), 它在右图中真正的匹配点是B。为寻找真正的匹配点,可先把A点的坐标传递到右图用X表 示。如已知最大的视差为dmax。那么围绕X建立一个dmax大小的搜索区。影响粗通道时特 征点匹配的因素分析如下: (1)搜索区内所有与A具有相同符号变化和过零点轮廓方向的过零点都被认为有可能 与A匹配,但在所有可能匹配中只有一个是真实的,其余都是假目标 (2)假目标的数量与搜索区的大小以及D的大小都有关。为此,Marr和 Poggio曾 经研究了过零点的统计分析,以确定滤波图象中相邻同符号过零点之间间距的概率分布。设 在图中某一过零点L与右图中某些一过零点R相匹配。Marr和 Poggio在随机点立体图象对 中得到的概率分布表明在R的"%间距内有另一个同符号过零点的概率低于0.05。这意味 着如果图象中这个区域的视差小于n,那么在:的范围内搜索时只发现正确的概率 是095。由此可知,如果要完全避免假目标问题,那么搜索区域的范围应限制在士%。 但 其发D 图5.5特征点的匹配 如把搜索区域的范围扩大到±D也是可以接受的。Marr和 Poggio证明,如果搜索区域扩 大到土H2D,所有匹配中的50%是正确和无多义性的。这意味着有的匹配是多义性的。一般 这样的匹配有两个。其中一个是收敛视差(在(Q,W2D)区域内):另一个是发散视差(在 (-2D,0)区域内)。这两个匹配中的一个是正确的。在有多义性的情况下,可利用相邻非 多义性匹配的视差符号来确定那一个是正确的匹配。根据连续性约束,应取视差符号相同的 匹配。这样可取W2D大致等于dmax (3)取两2D=dmax后,我们在dmax的距离内只能得到一个点的深度值。这只表示景物 在粗通道时的深度图
94 如何选择 W2D 是 MPG 算法的关键。因为由此可以很容易解释为什么需要进行多通道的 匹配。按多通道算法,首先在 W2D 最大的通道(粗通道)中寻找特征点,并使左、右图中 的特征点相匹配得到低分辨率的景物深度图。粗通道时得到的信息被用来控制较细通道中特 征点的匹配。我们首先研究粗通道时特征点的匹配。如在左图中选择一个特征点 A(图 5.5), 它在右图中真正的匹配点是 B。为寻找真正的匹配点,可先把 A 点的坐标传递到右图用 X 表 示。如已知最大的视差为 dmax。那么围绕 X 建立一个 dmax 大小的搜索区。影响粗通道时特 征点匹配的因素分析如下: (1) 搜索区内所有与A具有相同符号变化和过零点轮廓方向的过零点都被认为有可能 与A匹配,但在所有可能匹配中只有一个是真实的,其余都是假目标。 (2) 假目标的数量与搜索区的大小以及 W2D 的大小都有关。为此,Marr 和 Poggio 曾 经研究了过零点的统计分析,以确定滤波图象中相邻同符号过零点之间间距的概率分布。设 在图中某一过零点 L 与右图中某些一过零点 R 相匹配。Marr 和 Poggio 在随机点立体图象对 中得到的概率分布表明在 R 的 W2D 2 间距内有另一个同符号过零点的概率低于 0.05。这意味 着如果图象中这个区域的视差小于 W2D 2 ,那么在 W2D 2 的范围内搜索时只发现正确的概率 是 0.95。由此可知,如果要完全避免假目标问题,那么搜索区域的范围应限制在 W2D 2 。 但 图 5.5 特征点的匹配 如把搜索区域的范围扩大到 W2D 也是可以接受的。Marr 和 Poggio 证明,如果搜索区域扩 大到 W2D ,所有匹配中的 50%是正确和无多义性的。这意味着有的匹配是多义性的。一般 这样的匹配有两个。其中一个是收敛视差(在 (0, W2D ) 区域内);另一个是发散视差(在 (−W2D, 0) 区域内)。这两个匹配中的一个是正确的。在有多义性的情况下,可利用相邻非 多义性匹配的视差符号来确定那一个是正确的匹配。根据连续性约束,应取视差符号相同的 匹配。这样可取 W2D 大致等于 dmax。 (3) 取 W2D = d max 后,我们在 dmax 的距离内只能得到一个点的深度值。这只表示景物 在粗通道时的深度图
图5.6粗通道信息对细通道匹配的导引 左图所示为一维情况下的匹配。图中箭头表示过零点的位置,两个相应的过零点相距视 差d,W<d<Wc,C,W分别为粗细通道的宽度。所以对应点在细通道的范围以外,但在 粗通道的范围之内,右图表示可用粗通道时求得的视差d来对准图象,这样对应点就在细 通道的搜索范围之内,并求得正确的视差d 4.粗通道信息对细通道匹配的导引 MPG算法的主要想法是利用粗通道时的匹配信息来导引细通道时的匹配。下述例子可以 说明这种导引的必要性。设在图中(x,y)处的点在右图中的对应点位置是(x+d,y),d是视 差。(图5.6)。如果粗、细通道v2G算子的宽度分别为W和Wr。那么在粗细通道中合适 的搜索范围分别为±W和±W。假设Wr<d<Ⅳ,那么要发现这点的视差只根据细通道 的信息是不行的,因为匹配点在搜索范围以外。但匹配点将在粗匹配的范围之内。因此,这 时可求得粗通道中的视差d。但由于是在粗通道中得到的,所以这点的视差不精确的,譬 如说d≠d。然而,由粗通道得到的匹配可为精确的视差提供一个近似的估计值。如果所选 的滤波器的大小合适,则可保证d-d4<W。这样,如果我们应用视差的初步估计来对 准图象,则如图5.6中右图所示,细通道中的搜索可集中在点(x+d,y)附近,而不是在点 (x,y)附近。这样,虽然细通道中的搜索范围减小了,但由于搜索是集中在大致正确的图象 范围内,我们仍能在细通道之下实现成功的匹配。总之,通过粗、细通道处理的结合既可在 大的视差范围内检测高分辨率的视差,又同时避免了假目标问题 现在已经知道人类视觉系统中视差计算是在从粗到细的5个通道中进行的。相邻通道之 间大致相隔一倍频程,即Wc=2Wr,其中和W分别为相邻粗、细通道的宽度。这些通 道所用v2G算子的宽度形D大致为63,35,17,9和4个象素。这里一个象素是指一个视网膜 中央凹感光细胞的大小,这大致相当于04弧度。人类视觉系统可确定图象中大约只有5″弧 度大小的特征。Marr, Poggio和 Grimson认为对这种高度敏锐性( Hyperacuity)的一种可 能解释是假设在确定孤立过零点的位置时进行了内插,使定位精度高于感光细胞的分辨率。 过零点是一个象素与相邻象素之间有符号变化的情形。在这样的两象素之间作内插就可把边 缘定位到分象素( subpixel)的精度
95 图 5.6 粗通道信息对细通道匹配的导引 左图所示为一维情况下的匹配。图中箭头表示过零点的位置,两个相应的过零点相距视 差 d ,Wf d Wc Wc Wf , , 分别为粗细通道的宽度。所以对应点在细通道的范围以外,但在 粗通道的范围之内,右图表示可用粗通道时求得的视差 dc 来对准图象,这样对应点就在细 通道的搜索范围之内,并求得正确的视差 d 。 4. 粗通道信息对细通道匹配的导引 MPG 算法的主要想法是利用粗通道时的匹配信息来导引细通道时的匹配。下述例子可以 说明这种导引的必要性。设在图中 (x, y) 处的点在右图中的对应点位置是 (x + d, y) , d 是视 差。(图 5.6)。如果粗、细通道 2G 算子的宽度分别为 Wc 和 Wf 。那么在粗细通道中合适 的搜索范围分别为 Wc 和 Wf 。假设 Wf d Wc ,那么要发现这点的视差只根据细通道 的信息是不行的,因为匹配点在搜索范围以外。但匹配点将在粗匹配的范围之内。因此,这 时可求得粗通道中的视差 dc 。但由于是在粗通道中得到的,所以这点的视差不精确的,譬 如说 dc d 。然而,由粗通道得到的匹配可为精确的视差提供一个近似的估计值。如果所选 的滤波器的大小合适,则可保证 dc − d Wf 。这样,如果我们应用视差的初步估计来对 准图象,则如图 5.6 中右图所示,细通道中的搜索可集中在点 (x + dc , y) 附近,而不是在点 (x, y) 附近。这样,虽然细通道中的搜索范围减小了,但由于搜索是集中在大致正确的图象 范围内,我们仍能在细通道之下实现成功的匹配。总之,通过粗、细通道处理的结合既可在 大的视差范围内检测高分辨率的视差,又同时避免了假目标问题。 现在已经知道人类视觉系统中视差计算是在从粗到细的 5 个通道中进行的。相邻通道之 间大致相隔一倍频程,即 Wc = 2Wf ,其中 Wc 和 Wf 分别为相邻粗、细通道的宽度。这些通 道所用 2G 算子的宽度 W2D 大致为 63,35,17,9 和 4 个象素。这里一个象素是指一个视网膜 中央凹感光细胞的大小,这大致相当于 0.4 弧度。人类视觉系统可确定图象中大约只有 5 弧 度大小的特征。Marr, Poggio 和 Grimson 认为对这种高度敏锐性(Hyperauity)的一种可 能解释是假设在确定孤立过零点的位置时进行了内插,使定位精度高于感光细胞的分辨率。 过零点是一个象素与相邻象素之间有符号变化的情形。在这样的两象素之间作内插就可把边 缘定位到分象素(subpixel)的精度
51.3 Baker- Binford算法 如前所述,立体视觉的两大类算法:基于特征的算法和基于区域的算法各有优缺点,并 适用于不同的领域。 Baker- Binford算法试图把这两种方法结合起来,希望能有更大的适用 范围和更高的性能。上一节中的MPG算法就属于基于特征的算法类型。对于基于区域的方法 我们把它作为 Baker.- Binford算法的一部份,介绍它的相似性检测方法(图象灰度相关)和 对应点搜索方法(动态规划匹配方法)。然后介绍 Baker- Binford算法本身。 1.基于图象灰度相关的相似性量测 在基于区域的立体视觉算法中,给定左图中的一个点后在右图中是根据邻域的相似性来 寻找其对应点的。邻域可被称为窗口。窗口通常以检测点为中心。已提出了许多种相似性量 测函数,其中最常用的是左、右窗口中灰度的相关函数。如窗口是M×N的矩形.设,左、右 窗口中第I行、第j列象素的灰度分别为1(和/(,0,则相关函数C可定义为 其中a2和分别左、右窗口中灰度的方差。 3=∑∑.n-x1m*n) (5-3) K=L或R 其中k是有关窗口中灰度的均值,GR是1(,0和lR()的协方差,表示为 a=∑∑(,-uI2,小-gB(m*n) (5-4) 最简单的相似性量测函数可直接取作灰度差之和。这时我们把它称为差异性量测函数D。为 实现归一化可把它除以方差,即定义为 D=∑∑[(,-1R()(a10) /OLOR j=li= 为简单起见也可取一个方差作除数 D=∑∑[1(,)-lR) (5-6) 左、右图象的灰度差也可能是由于摄象机特性不同造成的。为克服这个困难可用灰度均值和 方差来归一化,即把差异性量测函数定义为 Dn=∑∑{1()-]o-[()-H]al (5-7) Dn越大说明左、右图象中对应点的相似性越差。 2.动态规划( dynamic Programming)匹配方法 在另一幅图象中寻找给定点的对应点的基本策略是计算外极线上所有候选点的差异性 量测值,并选择其中的最小点作为对应点。在此过程中有两个问题要解决:第一,是选择计 算相似性量测时窗口的大小:第二,是如何判断是否存在正确的对应点。一般来说,大的窗 口适宜于得到全局的深度信息,但难以准确地确定对应点的位置。相反,小的窗口可较准确 地定位,但对噪声敏感,或可能出现多个匹配峰点的的情况。一种克服这些困难的方法是动 态规划匹配法。这种方法不是孤立地寻找单独的匹配,而是按某种准则使水平扫描线上的 组点与另一幅图中相应水平扫描线上的一组点相匹配。 两个波形之间的对应关系可被概括成路径规划问题(图5-7)。图中纵轴表示左图中扫
96 5.1.3 Baker-Binford 算法 如前所述,立体视觉的两大类算法:基于特征的算法和基于区域的算法各有优缺点,并 适用于不同的领域。Baker-Binford 算法试图把这两种方法结合起来,希望能有更大的适用 范围和更高的性能。上一节中的 MPG 算法就属于基于特征的算法类型。对于基于区域的方法 我们把它作为 Baker-Binford 算法的一部份,介绍它的相似性检测方法(图象灰度相关)和 对应点搜索方法(动态规划匹配方法)。然后介绍 Baker-Binford 算法本身。 1. 基于图象灰度相关的相似性量测 在基于区域的立体视觉算法中,给定左图中的一个点后在右图中是根据邻域的相似性来 寻找其对应点的。邻域可被称为窗口。窗口通常以检测点为中心。已提出了许多种相似性量 测函数,其中最常用的是左、右窗口中灰度的相关函数。如窗口是 M×N 的矩形.设,左、右 窗口中第 I 行、第 j 列象素的灰度分别为 IL(i, j) 和 IR(i, j) ,则相关函数 C 可定义为 2 2 2 L R LR C + = (5-2) 其中 L 2 和 R 2 分别左、右窗口中灰度的方差。 I (i j) (m n) n j m i K K , K / * 1 2 1 2 = = = − (5-3) K = L 或 R 其中 K 是有关窗口中灰度的均值, LR 2 是 IL(i, j) 和 IR(i, j) 的协方差,表示为 ( ) ( ) ( ) = = = − − n j m i LR I L i j L I R i j R m n 1 1 2 , , / * (5-4) 最简单的相似性量测函数可直接取作灰度差之和。这时我们把它称为差异性量测函数 D。为 实现归一化可把它除以方差,即定义为: D IL (i j) IR(i j) ( ) i m j n = − L R = = , , / 1 2 1 (5-5) 为简单起见也可取一个方差作除数 D IL (i j) IR(i j) i m j n = − L = = , , / 1 2 1 2 (5-6) 左、右图象的灰度差也可能是由于摄象机特性不同造成的。为克服这个困难可用灰度均值和 方差来归一化,即把差异性量测函数定义为 Dn IL (i j) L L IR(i j) R R i m j n = − − − = = , / , / 2 1 1 (5-7) Dn 越大说明左、右图象中对应点的相似性越差。 2. 动态规划(dynamic Programming)匹配方法 在另一幅图象中寻找给定点的对应点的基本策略是计算外极线上所有候选点的差异性 量测值,并选择其中的最小点作为对应点。在此过程中有两个问题要解决:第一,是选择计 算相似性量测时窗口的大小;第二,是如何判断是否存在正确的对应点。一般来说,大的窗 口适宜于得到全局的深度信息,但难以准确地确定对应点的位置。相反,小的窗口可较准确 地定位,但对噪声敏感,或可能出现多个匹配峰点的的情况。一种克服这些困难的方法是动 态规划匹配法。这种方法不是孤立地寻找单独的匹配,而是按某种准则使水平扫描线上的一 组点与另一幅图中相应水平扫描线上的一组点相匹配。 两个波形之间的对应关系可被概括成路径规划问题(图 5-7)。图中纵轴表示左图中扫