第八章 主动视觉与融合
第八章 主动视觉与融合
8.1主动视觉 以往视觉方法特点: 作为主体的视觉系统被动地接收外界的信息 处理过程复杂、难以实现而且没有充分考虑生物视觉的特点 以往视觉方法忽略的问题: 中央凹( Fovea)的高分辨能力和视网膜上其它部分(不妨称之为外围视觉)的相对较低的分辨 能力之间的差异 眼动( Eyemovement)功能,这里的眼动是一个广义的概念,实际上往往伴随有头部的追随 运动) 在人类的视觉中正是这两个特性的完美结合使得人类一方面具有宽广的视野同时又具有高 度的分辨能力。主动视觉( Active vision)在某种意义上就是对这些特征的模拟。 主动视觉的概念 主动视觉( ActiveⅤ ISIon)是相对于被动视觉( Passive vision)而提出的概念 主动对纯视觉系统而言就是移动能力 这种能力对生物体表现为空间上的移动而对人造的计算机视觉系统还可以表现为频率上 或不同光谱带上的移动。在广义上对机器人系统而言,这种主动还表现为可以去触摸、去拿对 象物等。 主动行为都是有目的的( Purposive),并且与定性( Qualitative)视觉的研究结合在一起 在主动视觉系统中,由于主体的运动可以提供附加约束,这样就使得部分病态的问题变成良态 的
8.1 主动视觉 以往视觉方法特点: l 作为主体的视觉系统被动地接收外界的信息 l 处理过程复杂、难以实现而且没有充分考虑生物视觉的特点 以往视觉方法忽略的问题: l 中央凹(Fovea)的高分辨能力和视网膜上其它部分(不妨称之为外围视觉)的相对较低的分辨 能力之间的差异。 l 眼动(Eyemovement)功能,这里的眼动是一个广义的概念,实际上往往伴随有头部的追随 运动)。 在人类的视觉中正是这两个特性的完美结合使得人类一方面具有宽广的视野同时又具有高 度的分辨能力。主动视觉(Active Vision)在某种意义上就是对这些特征的模拟。 主动视觉的概念 l 主动视觉(Active Vision)是相对于被动视觉(Passive Vision)而提出的概念 l 主动对纯视觉系统而言就是移动能力 这种能力对生物体表现为空间上的移动,而对人造的计算机视觉系统还可以表现为频率上 或不同光谱带上的移动。在广义上对机器人系统而言,这种主动还表现为可以去触摸、去拿对 象物等。 l 主动行为都是有目的的(Purposive),并且与定性(Qualitative)视觉的研究结合在一起。 在主动视觉系统中,由于主体的运动可以提供附加约束,这样就使得部分病态的问题变成良态 的
81.1从阴影恢复形状 由阴影恢复形状是视觉研究中的一个重要问题,其输入的是图象中每一点的亮 度,而所期望得到的输出是在可视表面上对应点的深度或表面法线方向。 理论上讲,深度图包含所有有关表面的信息并且表面法线也能从深度图中直接 计算出来。 实际上,计算法线是无法获得足够的精度。 采用主动视觉方法可以克服这些局限 最简单的从阴影恢复形状的解决方法是只采用一幅物体表面图象,并在求解时 常采用下面的假设 (1)表面光滑; (2)表面的反射特性在整个表面上都相同,通常假定为 Lamber表面 (3)点光源的光线在整个表面都相同; (4)图象没有噪音
8.1.1 从阴影恢复形状 由阴影恢复形状是视觉研究中的一个重要问题,其输入的是图象中每一点的亮 度,而所期望得到的输出是在可视表面上对应点的深度或表面法线方向。 理论上讲,深度图包含所有有关表面的信息并且表面法线也能从深度图中直接 计算出来。 实际上,计算法线是无法获得足够的精度。 采用主动视觉方法可以克服这些局限。 最简单的从阴影恢复形状的解决方法是只采用一幅物体表面图象,并在求解时 常采用下面的假设: (1)表面光滑; (2)表面的反射特性在整个表面上都相同,通常假定为Lamber表面; (3)点光源的光线在整个表面都相同; (4)图象没有噪音
在以上假设的基础上便可以写出表面与其法线的函数关系,这一关系在逼近 理想表面时达到最优。这个函数关系式在通常情况下是非线性的,其中包含有许 多未知数(每点的深度和法线),因此实际上很难达到全局最优。基于上述这些假 设可以得到一些非常好的结果,但是实际上,这些假设并非特别有效,究其原因 在于这些假设和实际情况相去甚远 采用同一表面的两幅图象可以改善这一情况。相对一幅图象而言,把两幅图 象的信息结合起来,为最优化增加了额外的约束条件,使最小化问题的求解变得 容易。在这种情况下,只须考虑那些沿可能匹配方向上的点,即沿内极线方向上 的点,但这时必须首先解决两幅图象的对应问题。当两个摄像机相隔很近时,很 容易建立两幅图象之间点的对应关系,而且当两摄象机之间的距离很小时就允许 对所包含的函数进行一阶泰勒展开,从而可以将方程线性化。但是摄像机间短基 线对应使这种方法的精度极为有限。反过来如果多个摄像机间相距很远,并且能 够解决对应问题,所得的结果当然会很精确,但解决直接这个问题还存在很多困 难
在以上假设的基础上便可以写出表面与其法线的函数关系,这一关系在逼近 理想表面时达到最优。这个函数关系式在通常情况下是非线性的,其中包含有许 多未知数(每点的深度和法线),因此实际上很难达到全局最优。基于上述这些假 设可以得到一些非常好的结果,但是实际上,这些假设并非特别有效,究其原因 在于这些假设和实际情况相去甚远。 采用同一表面的两幅图象可以改善这一情况。相对一幅图象而言,把两幅图 象的信息结合起来,为最优化增加了额外的约束条件,使最小化问题的求解变得 容易。在这种情况下,只须考虑那些沿可能匹配方向上的点,即沿内极线方向上 的点,但这时必须首先解决两幅图象的对应问题。当两个摄像机相隔很近时,很 容易建立两幅图象之间点的对应关系,而且当两摄象机之间的距离很小时就允许 对所包含的函数进行一阶泰勒展开,从而可以将方程线性化。但是摄像机间短基 线对应使这种方法的精度极为有限。反过来如果多个摄像机间相距很远,并且能 够解决对应问题,所得的结果当然会很精确,但解决直接这个问题还存在很多困 难
主动视觉为融合上述两种方法的优点,并克服其缺点提供了相应的解决途径。 首先,采用多观察点解决对应问题。实际上,对于 Lamber表面,正如前面第五章 表明的那样,采用三个摄象杋就能解决大多数对应模糊的问题,稳定性和可靠性 也得到了改善,但多视点并没有使我们逃脱非线性最优化问题。对于这一类多变 量非线性问题,好的初始估计是最终收敛于全局最优的重要条件。采用主动方法 处理从阴影恢复形状问题的关键是将基于长、短基线的方法相融合,通过短基线 方法提供初始估计指导长基线方法的优化。 基于主动视觉的从阴影恢复形状包括以下两个阶段: 短基线阶段。在这个阶段,可以取相邻的图象帧作为短基线图象对。由于 问题在这里可以近似是线性的,因而容易求解,为深度和表面方向提供了初始估计 值 2.长基线阶段。利用初始估计得到精确的结果 从这种方法中可以看到,我们能独立地在单点上恢复可见物体的几何形状,而不需 要前面所提及的假设和基于整个物体上的优化,因此,尽管数据量巨大,但工作比 以前要容易得多,所有一切都是稳定的并且允许噪声的存在
主动视觉为融合上述两种方法的优点,并克服其缺点提供了相应的解决途径。 首先,采用多观察点解决对应问题。实际上,对于Lamber表面,正如前面第五章 表明的那样,采用三个摄象机就能解决大多数对应模糊的问题,稳定性和可靠性 也得到了改善,但多视点并没有使我们逃脱非线性最优化问题。对于这一类多变 量非线性问题,好的初始估计是最终收敛于全局最优的重要条件。采用主动方法 处理从阴影恢复形状问题的关键是将基于长、短基线的方法相融合,通过短基线 方法提供初始估计指导长基线方法的优化。 基于主动视觉的从阴影恢复形状包括以下两个阶段: 1. 短基线阶段。在这个阶段,可以取相邻的图象帧作为短基线图象对。由于 问题在这里可以近似是线性的,因而容易求解,为深度和表面方向提供了初始估计 值。 2. 长基线阶段。利用初始估计得到精确的结果。 从这种方法中可以看到,我们能独立地在单点上恢复可见物体的几何形状,而不需 要前面所提及的假设和基于整个物体上的优化,因此,尽管数据量巨大,但工作比 以前要容易得多,所有一切都是稳定的并且允许噪声的存在
8.12从运动恢复结构 在这一领域采用的方法基本上可以分为两大类即基于小位移值的和基于大位移 值的方法。前者主要是利用光流计算而后者则要考虑对应问题,尽管两类方法形式 不同,但结果是一致的。正如前面章节中讨论的那样这两个问题的解决都是不可靠 的,因而在被动视觉系统中从运动恢复结构也是难以彻底解决的。 在以往被动方法中存在的主要问题在于: 1.二维和三维运动间的约束关系是非线性的,从(649)式中我们可以看出 这一点; 2.未知参数空间是高维的 尽管已经有一些直接处理上述问题的方法,但由于涉及光流的高阶导数,考虑 到噪声的影响,因而其解往往是不可靠的。 在主动视觉系统中要求摄象机系统是可控的,即有一个伺服系统控制其运动, 这种控制的依据是图象的内容,并可以使其凝视在某一固定的目标上,由于凝视某 目标要求能够确定凝视点,因此这又是一个重要的问题。这一问题的解决可以从 日常生活中的一个现象得到启发:当人们在高速行驶的列车上向窗外观察时,可以 发现物体是在绕某一(远处的)凝视点在旋转,因此如果将光轴指向某一目标,则其 光流为零,由此可以确定对目标的跟踪
8.1.2 从运动恢复结构 在这一领域采用的方法基本上可以分为两大类即基于小位移值的和基于大位移 值的方法。前者主要是利用光流计算而后者则要考虑对应问题,尽管两类方法形式 不同,但结果是一致的。正如前面章节中讨论的那样这两个问题的解决都是不可靠 的,因而在被动视觉系统中从运动恢复结构也是难以彻底解决的。 在以往被动方法中存在的主要问题在于: 1. 二维和三维运动间的约束关系是非线性的,从(6.49)式中我们可以看出 这一点; 2. 未知参数空间是高维的。 尽管已经有一些直接处理上述问题的方法,但由于涉及光流的高阶导数,考虑 到噪声的影响,因而其解往往是不可靠的。 在主动视觉系统中要求摄象机系统是可控的,即有一个伺服系统控制其运动, 这种控制的依据是图象的内容,并可以使其凝视在某一固定的目标上,由于凝视某 一目标要求能够确定凝视点,因此这又是一个重要的问题。这一问题的解决可以从 日常生活中的一个现象得到启发:当人们在高速行驶的列车上向窗外观察时,可以 发现物体是在绕某一(远处的)凝视点在旋转,因此如果将光轴指向某一目标,则其 光流为零,由此可以确定对目标的跟踪
参考坐标系(X,H,Z)固定在摄象机上,另一个物体坐标系(Xs,Ys,Zs)固定在物体点S上 这两个坐标系保持平行,物体在坐标系(Xs,F,zs)下的旋转速度为g=(aβy),平移速度 为T=(UVW),物体上点P在参考坐标系下为(X,Y,Z),则相对于参考坐标系的速度 为 X X-X Y=T+RY-Y 8.12 Z-2 考虑投影关系,类似于第六章,可以得到二维与三维速度场间的关系为: fUs-xw xy u x f∫-y yYs+B (8.13) X alf-ff z f z 其中焦距,为简华见在下面的讨论史Y、1和合,则(812)式可简化为: 如果使参考坐标系 与物体坐标系 U-xw axy+β1+x V- yw (8.14) y y+ Bxy+
参考坐标系( X ,Y , Z ) 固定在摄象机上,另一个物体坐标系( X ,Y , Z ) S S S 固定在物体点S上, 这两个坐标系保持平行,物体在坐标系( X ,Y , Z ) S S S 下的旋转速度为W = (a b g ) t ,平移速度 为TS US VS WS t = ( ) ,物体上点P 在参考坐标系下为( X ,Y ,Z ) ,则相对于参考坐标系的速度 为 & & & X Y Z T R X X Y Y Z Z S S S æ è ç ç ç ö ø ÷ ÷ ÷ = + - - - æ è ç ç ç ö ø ÷ ÷ ÷ (8.12) 考虑投影关系,类似于第六章,可以得到二维与三维速度场间的关系为: u fU xW Z xy f x Y Z f f Z Z x f xX Z Y Z f y v fV yW Z f f Z Z y f yY Z xy f y X Z X Z f x S S S S S S S S S S S S = - - - é ë ê ù û ú + - + - é ë ê ù û ú + - é ë ê ù û ú = - - - + - é ë ê ù û ú + - é ë ê ù û ú - - é ë ê ù û ú ì í ï ï î ï ï a b g a b g 2 2 (8.13) 其中f为焦距,为简化起见,在下面的讨论中取f = 1 。 如果使参考坐标系 ( X ,Y , Z ) 与物体坐标系 ( X ,Y , Z ) S S S 重合,则(8.12)式可简化为: [ ] [ ] u U xW Z xy x y v V yW Z y xy x = - - + + - = - - + + + ì í ï î ï a b g a b g 1 1 2 2 (8.14)
上式中当Z与U,VW成比例变化时不影响其关系成立,因此不可能得到唯一解,最终将差 个比例系数,由(814)式中消去Z后有 xn-xl+axy-β1+x2|+y (8.15) y-yv+a1+y2|-阝xy-yx 其中x w o-w 釆用被动视觉方法处理从运动恢复结构最后都要处理类似于(815)式的髙维非线性问题,因而 是非常困难的。 下面我们考虑主动方法所能带来的好处。 考虑固定点在图象上投影(xs,y),在视平面上的运动速度与空间运动速度的关系为: xss ZS (8.16) 由(83)及(8.16)式有 us +(x-x)ws aays-B(1+xs)+ry = axy+pl+x -ry Z D vs+(s-y)Ws a(rs +1)-Bxsy-nxs-a(1+y)+ Bxy+yx (8.17) Z Z
上式中当Z 与U,V,W成比例变化时不影响其关系成立,因此不可能得到唯一解,最终将差 一个比例系数,由(8.14)式中消去Z 后有 x x y y u xy x y v y xy x 0 0 2 2 1 1 - - = + - + + + + - - a b g a b g (8.15) 其中x U W y V W 0 = , 0 = 采用被动视觉方法处理从运动恢复结构最后都要处理类似于(8.15)式的高维非线性问题,因而 是非常困难的。 下面我们考虑主动方法所能带来的好处。 考虑固定点S在图象上投影( x , y ) S S ,在视平面上的运动速度与空间运动速度的关系为: u U x W Z v V y W Z s S S S S s S S S S = - = - (8.16) 由(8.13)及(8.16)式有 u [ ] u x x W Z xy xx y Z xy x y v v y y W Z yy x y x Z y xy x S S S S S S S S S S S S = + - ¢ ¢ + - + + ¢ - + + - = + - ¢ ¢ + + - - ¢ - + + + ì í ï î ï ( ) ( ) ( ) ( ) ( ) a b g a b g a b g a b g 1 1 1 1 2 2 (8.17)
其中W, 上面的分析表明只要能够准确地定位特征点,约束方程就可以降低一维。如果能够将光心始终 指向某一特征点,使其在视平面上的位置为(0,0),同时光流值也为(0,0),则问题将更为简化。 我们下面通过一个二维运动的例子加以说明 设有一个移动式机器人,其上装有一个可以旋转的摄象机C。设摄象机的平移和旋转速度分别 为T=(UVW)和R=(ABC)。P=(XYz)为空间中一点P的瞬时位置,则其瞬时 速度记为(XY′z) dx dy dz 由此,在成象面上点P的y方向上的速度分量为: ∫Y′,Yz f(--+A--x)+y( WB A (8.19) 其中,(x,y)是点P在成象面xoy上的投影 由于地面移动式机器人通常是做二维平面上的运动,因此假定没有垂直方向的运动,这在室内 情况下完全可以满足。 在机器人的运动过程中需要使固定点F始终处于光轴上,这要求在没有X方向运动时,F与摄 象机同高,同样我们也只关心那些与摄象机同高景物上的特征点,并对机器人的运动做以下限 制:机器人要么做直线运动,要么做以F为圆心的转动
其中W¢ = W Z S S S , S S Z Z Z¢ = 上面的分析表明只要能够准确地定位特征点,约束方程就可以降低一维。如果能够将光心始终 指向某一特征点,使其在视平面上的位置为(0,0),同时光流值也为(0,0),则问题将更为简化。 我们下面通过一个二维运动的例子加以说明。 设有一个移动式机器人,其上装有一个可以旋转的摄象机C。设摄象机的平移和旋转速度分别 为T U V W T = ( ) 和R A B C T = ( ) 。P X Y Z T = ( ) 为空间中一点P的瞬时位置,则其瞬时 速度记为( ¢ ¢ ¢) = æ è ç ö ø X Y Z ÷ dX dt dY dt dZ dt T T 。 由此,在成象面上点P的y方向上的速度分量为: v fY Z fY Z Z f V Z A Cx f y W Z B f x A f = y ¢ + ¢ = - + - + - + - 2 ( ) ( ) (8.19) 其中,( x, y)是点P在成象面xoy上的投影。 由于地面移动式机器人通常是做二维平面上的运动,因此假定没有垂直方向的运动,这在室内 情况下完全可以满足。 在机器人的运动过程中需要使固定点 F 始终处于光轴上,这要求在没有 X 方向运动时,F 与摄 象机同高,同样我们也只关心那些与摄象机同高景物上的特征点,并对机器人的运动做以下限 制:机器人要么做直线运动,要么做以 F 为圆心的转动
当机器人做直线运动时,其俯视图如图8.1所示。 固定点F JOFI 景物点S D 成象面 机器人路径 图8.1直线运动示意图
当机器人做直线运动时,其俯视图如图8.1所示。 O |OF| L | r | 固 定 点 成象面 机器人路径 D y 景 物 点 j q j U0 S F 图8.1 直线运动示意图