第38卷第10期 自动化学报 Vol 38. No 10 2012年10月 ACTA AUTOMATICA SINICA October 2012 数字抠像的最新研究进展 张展鹏12朱青松1谢耀钦1 摘要数字抠像是图像处理、视频编辑和电影制作中的关键技术.通过数字抠像,从图像或视频的背景中精确地分离岀前 景,是计算机视觉领域的重要问题.本文首先介绍了目前数字抠像的交互方式,然后把抠像技术分为基于颜色采样、基于像素 相似性、基于能量函数以及基于机器学习的四类技术,介绍和分析了其中的典型算法和最新研究成果,并对这些算法的测试结 果进行了定量和定性比较,最后总结了数字抠像技术目前的研究状况和未来的发展方向 关键词数字抠像,自然图像抠像,图像分割,图像处理 用格式张展鹏,朱青松,谢耀钦.数字抠像的最新研究进展.自动化学报,2012,38(10):1571-1584 DOI10.3724/SPJ.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng,- ZHU Qing-Song XIE Yao-Qin Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571-1584 数字抠像( Digital matting)是指从图像或视频的前景边缘,图像离散化过程中造成的非连续性、运 的背景中精确地分离出前景,是图像处理、视频编辑动或光照带来的模糊是形成混合像素的主要原因 和电影制作中的关键技术,已得到广泛的研究和应 对于彩色图像Ⅰ,需要为每个像素I2估计前景 用.抠像过程中,设图像Ⅰ包含N个像素,即I=色、背景色以及前景不透明度.已知该像素的颜色 I1,I2,I3…,IN},其中每个像素2的颜色C2 C2,若采用RGB颜色空间表示,则C2,F2,B 表示成其前景色F2与背景色B2的线性组合,即为三维向量,对于式(1)可得出3个方程,3个已知 C2=a2F2+(1-a2)B (1)变量和7个未知变量.显然这是不定方程,即病态 (I- posed)问题叫.因此,通常需要使用先验假设或 下文将式(1)称为抠像方程.其中a2∈[0.,1],表示用户提供的额外信息,为抠像问题增加限制条件,然 像素Ⅰ在图像中的前景不透明度.若α2=1,则该后进行求解.灰度图像与此类似 像素属于前景,若α2=0,则属于背景.若0<a2 早期研究中,通过把前景物体置于已知颜色的 <1,则该像素为前景与背景的混合,可称为“混合背景前采集图像,从而减少方程中的未知数,这种方 像素”.混合像素一般出现在半透明的物体或毛绒状法被称为“蓝屏抠像”. Smith等在1996年就提出 收稿日期2011-1008录用日期201205-10 种三角抠像法2.该方法把同一前景物体置于多 anuscnipt received octoner:201 accepted1:边012个不同的背景中,得到多幅图像,再抠选前景.因为 科学基金(81171402,30928030)资助 这些背景的颜色已知,增加了抠像问题中的己知信 Supported by National Basic Research Program of China(973息,使得抠像方程有确定的解.由于三角抠像把抠像 ga3问题转化为求解超定方程,且抠像效果良好,在目前 本文责任编委戴琼海 的研究中,常被用于生成标准的抠像结果( Ground 1.中国科学深圳先进技木研究院深51852中山大学广州 truth)1-4(如图1(d),作为算法测试和评价的依 510275 据.然而,由于蓝屏抠像需要已知且固定的背景,因 Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen Uni- 此应用范围不广 ersity, Guangzhou 510275
第 38 卷 第 10 期 自 动 化 学 报 Vol. 38, No. 10 2012 年 10 月 ACTA AUTOMATICA SINICA October, 2012 数字抠像的最新研究进展 张展鹏 1, 2 朱青松 1 谢耀钦 1 摘 要 数字抠像是图像处理、视频编辑和电影制作中的关键技术. 通过数字抠像, 从图像或视频的背景中精确地分离出前 景, 是计算机视觉领域的重要问题. 本文首先介绍了目前数字抠像的交互方式, 然后把抠像技术分为基于颜色采样、基于像素 相似性、基于能量函数以及基于机器学习的四类技术, 介绍和分析了其中的典型算法和最新研究成果, 并对这些算法的测试结 果进行了定量和定性比较, 最后总结了数字抠像技术目前的研究状况和未来的发展方向. 关键词 数字抠像, 自然图像抠像, 图像分割, 图像处理 引用格式 张展鹏, 朱青松, 谢耀钦. 数字抠像的最新研究进展. 自动化学报, 2012, 38(10): 1571−1584 DOI 10.3724/SP.J.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng1, 2 ZHU Qing-Song1 XIE Yao-Qin1 Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that, matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested. Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571−1584 数字抠像 (Digital matting) 是指从图像或视频 的背景中精确地分离出前景, 是图像处理、视频编辑 和电影制作中的关键技术, 已得到广泛的研究和应 用. 抠像过程中, 设图像 I 包含 N 个像素, 即 I = {I1, I2, I3, · · · , IN }, 其中每个像素 Iz 的颜色 Cz 可 表示成其前景色 Fz 与背景色 Bz 的线性组合, 即 Cz = αzFz + (1 − αz)Bz (1) 下文将式 (1) 称为抠像方程. 其中 αz ∈ [0, 1], 表示 像素 Iz 在图像中的前景不透明度. 若 αz = 1, 则该 像素属于前景, 若 αz = 0, 则属于背景. 若 0 < αz < 1, 则该像素为前景与背景的混合, 可称为 “混合 像素”. 混合像素一般出现在半透明的物体或毛绒状 收稿日期 2011-10-08 录用日期 2012-05-10 Manuscript received October 8, 2011; accepted May 10, 2012 国家重点基础研究发展计划 (973 计划) (2010CB732606), 国家自然 科学基金 (81171402, 30928030) 资助 Supported by National Basic Research Program of China (973 Program) (2010CB732606) and National Natural Science Foundation of China (81171402, 30928030) 本文责任编委 戴琼海 Recommended by Associate Editor DAI Qiong-Hai 1. 中国科学院深圳先进技术研究院 深圳 518055 2. 中山大学 广州 510275 1. Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen University, Guangzhou 510275 的前景边缘, 图像离散化过程中造成的非连续性、运 动或光照带来的模糊是形成混合像素的主要原因. 对于彩色图像 I, 需要为每个像素 Iz 估计前景 色、背景色以及前景不透明度. 已知该像素的颜色 Cz, 若采用 RGB 颜色空间表示, 则 Cz, Fz, Bz 均 为三维向量, 对于式 (1) 可得出 3 个方程, 3 个已知 变量和 7 个未知变量. 显然这是不定方程, 即病态 (Ill-posed) 问题[1] . 因此, 通常需要使用先验假设或 用户提供的额外信息, 为抠像问题增加限制条件, 然 后进行求解. 灰度图像与此类似. 早期研究中, 通过把前景物体置于已知颜色的 背景前采集图像, 从而减少方程中的未知数, 这种方 法被称为 “蓝屏抠像”. Smith 等在 1996 年就提出 一种三角抠像法[2] . 该方法把同一前景物体置于多 个不同的背景中, 得到多幅图像, 再抠选前景. 因为 这些背景的颜色已知, 增加了抠像问题中的已知信 息, 使得抠像方程有确定的解. 由于三角抠像把抠像 问题转化为求解超定方程, 且抠像效果良好, 在目前 的研究中, 常被用于生成标准的抠像结果 (Ground truth)[3−4] (如图 1 (d)), 作为算法测试和评价的依 据. 然而, 由于蓝屏抠像需要已知且固定的背景, 因 此应用范围不广
1572 自动化学报 38卷 (a)原始图像 (b)三分图 (c)涂鸦方式 (d)标准结果 a) Input image (b) Trimap (d) Ground truth 图1数字抠像的交互方式 Fig 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像,即不对背景界较长或形状复杂的情况下,这种工作仍然繁琐 进行限制,面向任意的自然图像.此外,数字抠像的 扩展应用,如环境抠像、阴影抠像以及视频抠像,也1.2涂鸦方式 受到关注同.环境抠像除了精确地提取前景以外, 由于生成三分图的工作比较困难和繁琐,为了 还需要得到物体对光照的反射和折射特性使得前提高数字抠像的实用性,越来越多抠像技术采用涂 景物体在新合成的图像中也能体现这些性质间,这鸦方式1,以提供良好的用户体验。如图1(, 种技术对于透明物体的抠像特别重要.阴影抠像用户只需通过涂鸦式的操作,使用笔刷,在前景和背 把图像中的阴影部分提取出来,去除原图像的阴景的其中一小部分上做标记由于涂鸦的结果可看 影或把阴影合成到新的背景.视频抠像可看作三分图的子集,一般支持涂鸦式交互的技术也支 作数字抠像在连续图像序列的扩展,有效的物体跟持三分图.涂鸦方式下,用户的输入更为简单.然 踪10和运动分割山能简化用户的操作 而,由于只对某部分进行了标记,没有得到较为完整 由于自然图像抠像是近年的研究热点、具有实的前景和背景样本,难以对大面积的未知区域进行 用价值且应用广泛,因此下文的论述中将以自然图估算.因此,一些算法先进行图像分割,自动生成大 像抠像为重点展开,介绍数字抠像最新的研究进展.致的三分图,或者从标记的已知区域开始,迭代 同时为了内容的全面性及完整性,也会详细分析 式地对附近的像素进行估算,逐渐增大已知区域直 些经典算法 到抠像完成8.也有算法把用户的标记转化为求解 1数字抠像的交互方式 不定方程的限制条件121.还有采用迭代式的涂鸦 即根据用户的每次涂鸦操作,对结果进行改进.文献 由于数字抠像是一个病态问题,需要获得额外14中实现了一种基于涂鸦输入的交互式抠像方法, 的信息进行求解,因此,在目前的算法中,经常通过每次用户添加了新的涂鸦标记后,算法只需更新图 用户的交互,获得更多输入信息,构建约束条件.主中的部分像素而不需重新全部计算,从而提高响应 要的交互方式有三分图和涂鸦方式 速度.然而,当用户涂鸦出错想擦去时,则没有应对 11三分图 的方案,或者需要重新对全部像素进行计算.此外 由于涂鸦操作获得的初始样本较少,实际中算法不 三分图( Trimap)是指一幅大小与原图像相等定能得到有代表性的样本,而且抠像效果容易受 的图像,图像被用户划分为前景区、背景区以及未知到图像噪声的影响 区域.在这种情况下,前景/背景区为已知区域,抠像 除了三分图和涂鸦方式,也有其他的交互方式 算法需要估算未知区域像素的前景色、背景色以及比如在 GrabCutl中,用户使用一个矩形框选中图 前景不透明度.图1(b)为一幅三分图,其中背景标像中的前景部分.在很多情况下,这种方式更为直 注为黑色,前景为白色,灰色为未知区域.三分图是观.但是,由于选中的区域中也包含了部分背景,算 对原图像的粗略划分,是自然图像抠像的研究中,最法不能获得准确的前景样本,难以确定前景边界,需 开始采用的输入方式.文献阝3,12]等均采用三分图要用户进行一些边界标注.还有方法首先通过无监 作为算法的输入.然而,创建一幅三分图往往需要督的方式,根据像素间的相似性,自动地对图像进行 较多的用户操作,对于一些形状复杂的图像(如蜘蛛区域分割,然后指导用户在需要提取的区域上点击 网),创建的工作非常困难. Soft scissors中实现或做上记号,接着通过这些标记信息对各个区域进 了一种智能的描边笔刷,能够根据实时的描边情况行合并或提取,继续完成抠像20-21. 改变笔刷大小,降低边界定位的难度,然而在前景边 上述方法中,虽然用户操作的复杂性不同,但共
1572 自 动 化 学 报 38 卷 图 1 数字抠像的交互方式 Fig. 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像, 即不对背景 进行限制, 面向任意的自然图像. 此外, 数字抠像的 扩展应用, 如环境抠像、阴影抠像以及视频抠像, 也 受到关注[5] . 环境抠像除了精确地提取前景以外, 还需要得到物体对光照的反射和折射特性, 使得前 景物体在新合成的图像中也能体现这些性质[6] . 这 种技术对于透明物体的抠像[7] 特别重要. 阴影抠像 是把图像中的阴影部分提取出来, 去除原图像的阴 影[8] 或把阴影合成到新的背景[9] . 视频抠像可看 作数字抠像在连续图像序列的扩展, 有效的物体跟 踪[10] 和运动分割[11] 能简化用户的操作. 由于自然图像抠像是近年的研究热点、具有实 用价值且应用广泛, 因此下文的论述中将以自然图 像抠像为重点展开, 介绍数字抠像最新的研究进展. 同时为了内容的全面性及完整性, 也会详细分析一 些经典算法. 1 数字抠像的交互方式 由于数字抠像是一个病态问题, 需要获得额外 的信息进行求解, 因此, 在目前的算法中, 经常通过 用户的交互, 获得更多输入信息, 构建约束条件. 主 要的交互方式有三分图和涂鸦方式. 1.1 三分图 三分图 (Trimap) 是指一幅大小与原图像相等 的图像, 图像被用户划分为前景区、背景区以及未知 区域. 在这种情况下, 前景/背景区为已知区域, 抠像 算法需要估算未知区域像素的前景色、背景色以及 前景不透明度. 图 1 (b) 为一幅三分图, 其中背景标 注为黑色, 前景为白色, 灰色为未知区域. 三分图是 对原图像的粗略划分, 是自然图像抠像的研究中, 最 开始采用的输入方式. 文献 [3, 12] 等均采用三分图 作为算法的输入. 然而, 创建一幅三分图往往需要 较多的用户操作, 对于一些形状复杂的图像 (如蜘蛛 网), 创建的工作非常困难. Soft scissors[13] 中实现 了一种智能的描边笔刷, 能够根据实时的描边情况 改变笔刷大小, 降低边界定位的难度, 然而在前景边 界较长或形状复杂的情况下, 这种工作仍然繁琐. 1.2 涂鸦方式 由于生成三分图的工作比较困难和繁琐, 为了 提高数字抠像的实用性, 越来越多抠像技术采用涂 鸦方式[14−16] , 以提供良好的用户体验. 如图 1 (c), 用户只需通过涂鸦式的操作, 使用笔刷, 在前景和背 景的其中一小部分上做标记. 由于涂鸦的结果可看 作三分图的子集, 一般支持涂鸦式交互的技术也支 持三分图. 涂鸦方式下, 用户的输入更为简单. 然 而, 由于只对某部分进行了标记, 没有得到较为完整 的前景和背景样本, 难以对大面积的未知区域进行 估算. 因此, 一些算法先进行图像分割, 自动生成大 致的三分图[17] , 或者从标记的已知区域开始, 迭代 式地对附近的像素进行估算, 逐渐增大已知区域直 到抠像完成[18] . 也有算法把用户的标记转化为求解 不定方程的限制条件[12,16] . 还有采用迭代式的涂鸦, 即根据用户的每次涂鸦操作, 对结果进行改进. 文献 [14] 中实现了一种基于涂鸦输入的交互式抠像方法, 每次用户添加了新的涂鸦标记后, 算法只需更新图 中的部分像素而不需重新全部计算, 从而提高响应 速度. 然而, 当用户涂鸦出错想擦去时, 则没有应对 的方案, 或者需要重新对全部像素进行计算. 此外, 由于涂鸦操作获得的初始样本较少, 实际中算法不 一定能得到有代表性的样本, 而且抠像效果容易受 到图像噪声的影响. 除了三分图和涂鸦方式, 也有其他的交互方式. 比如在 GrabCut[19] 中, 用户使用一个矩形框选中图 像中的前景部分. 在很多情况下, 这种方式更为直 观. 但是, 由于选中的区域中也包含了部分背景, 算 法不能获得准确的前景样本, 难以确定前景边界, 需 要用户进行一些边界标注. 还有方法首先通过无监 督的方式, 根据像素间的相似性, 自动地对图像进行 区域分割, 然后指导用户在需要提取的区域上点击 或做上记号, 接着通过这些标记信息对各个区域进 行合并或提取, 继续完成抠像[20−21] . 上述方法中, 虽然用户操作的复杂性不同, 但共
10期 张展鹏等:数字抠像的最新研究进展 同的特点是,用户需要对图像中的某些区域进行标文献[18]在求解P(F),P(B)时,没有使用统计模 记,指明前景区或背景区,因此属于半自动的方式.型对样本进行匹配或聚类,而仅仅基于空间距离和 而一些研究中致力于实现全自动抠像.例如,闪光算法对样本的“置信度”,进行前景/背景色的估算, ( Flash)抠像2通过对同一场景进行两次拍摄,分从而达到减少计算量的目的;文献27则分别对前 别开启和关闭闪光灯,得到两张图像作为算法的输景和背景区域使用全局的高斯混合模型( Gaussian 入.计算过程中取两张图像的差值,近似地提取出 mixture model,GMM)进行统计建模,减少采用局 被闪光的前景,然后进行自动抠像.另外,立体图像部统计带来的计算量.然而,这些方法仍未解决基于 Stereo image)23、同一场景下不同焦点平面的多颜色采样的技术中普遍存在的问题,即在前景和背 幅图像2也被作为算法输入,实现自动抠像 景颜色接近、具有相似的统计特征或者色彩模糊的 2数字抠像的主要技术 情况下,效果往往不佳.其主要原因是采集的样本只 是图像中相近的像素,这些像素不一定能够有效地 21基于颜色采样的技术 表示出未知像素的特征 普遍图像中,相近的像素在统计特征上往往具 为了提高颜色采样的效果,采样技术成为了近 有相关性可以对相近的像素进行颜色采样,根据年来数字抠像的研究热点-3.wang等在2007 样本颜色的特点对未知区域像素的抠像参数(F,B,年提出 Robust matting方案,方案中根据“信任 a)进行估算. Berman等凹2对周边确定区域像素系数”的大小判断一对前景/背景像素能否作为样 的前景/背景色进行加权,作为未知区域像素的估算本,信任系数的计算主要考虑样本与未知像素间的 结果. ruzon等阅则最先在数字抠像中引入概率统颜色空间距离.而对于候选样本集的构建,与之前 计,其基本思想是:对于未知区域的像素,先取附近的方法不同,不仅选取和未知像素相近的点,同时 已知的前景和背景像素作为样本,进行聚类和统计,沿着附近已知区域的边缘进行扩张通常,抠像中需 每个聚类使用高斯模型进行描述.然后根据样本颜要处理很多条状的未知区域(例如头发),这种方法 色的概率模型和未知区域像素的颜色,估算未知像可以取得距离更远和种类更丰富的样本,而且样本 素与前景背景中各个聚类的相似度,推导该像素的的颜色也与未知像素较为接近但有些情况下,三分 前景不透明度.2001年,Chag圜在此基础上图中的未知区域较宽,而且已知区域的边缘处,其形 提出了贝叶斯抠像( Bayesian matting.这种方法状、颜色与未知区域也不吻合,这种方法得到的样 使用贝叶斯公式,把未知像素的估算问题转化为 本并不具有代表性. Riemann等指出,测地线 个最大后验概率问题.算法已知该像素的颜色C, 距离能够反映图像中的形状信息,同一形状上的像 标是通过估计前景色F、背景色B以及a值,最大素关联度更大,因此可以用测地线距离进行辅助,建 化后验概率,如式(2)所示 立候选样本集.如图2(a)中,F和B区域分别是 三分图中指定的前景区和背景区,灰色和白色的采 arg max P(F, B, aC) 样点分别表示Wang和 Riemann的方法得到的结 BEax P(CIF, B, a)P(F)P(B)P(a) 果可以看出,灰色的点与未知像素(即图2(a)中的 P(C) 点i)分布在同一物体上,颜色特征会更接近.然而 上述两种方法都是从邻近像素出发,进行扩张的,要 (2)利用位置距离更远的像素,则需要遍历较大的空间 其中概率P()均使用高斯分布模型进行描述.其从而带来很大的计算量.2010年, Gastal等在其 中P(a)看作常数.P(C|F,B,a)使用aF-(1 Shared matting[30方案中,通过相邻像素间共享候 α)B作为高斯分布的均值.而对于P(F),P(B),在选样本来减少计算开销而且,在采集候选样本的时 未知像素附近采集前景/背景样本,分别进行聚类.候,从每个像素出发,沿四条射线向外寻找,从而扩 求出每个聚类中的均值和协方差矩阵作为高斯分布大采集范围(如图2(b),He等在201l年的最 的参数,求解F,B对应的概率.由于抠像过程中,新成果中,进一步设计了一个全局的采样方法.三分 需要对每个未知像素的样本进行聚类和统计,因此图中的所有前景F和背景B的像素组成一个大小 计算量较大.而且,算法把未知区域看成前景区与背为NF×NB的矩阵,作为候选样本的“FB搜索空 景区夹着的带状区域,抠像时,从带状区域两侧开间”.然后,把候选样本的采集看作图像像素与FB 始计算,逐步向中间部分推进,计算中会利用之前己搜索空间中样本对的匹配问题(如图2(c),匹配的 求解的像素作为样本,所以求解过程中的误差会被标准基于颜色空间距离以及像素位置距离.为了避 累积,这种现象在带状区域较宽的情况下更为明显.免对FB搜索空间的穷举,把样本的搜索算法分为 不过,这种算法已取得当时最好的效果,所以得到两步:扩张搜索与随机搜索.算法的运行过程中,交 广泛的参考和改进,是数字抠像的经典算法.例如,替地执行这两个步骤,添加符合的样本在扩张搜索
10 期 张展鹏等: 数字抠像的最新研究进展 1573 同的特点是, 用户需要对图像中的某些区域进行标 记, 指明前景区或背景区, 因此属于半自动的方式. 而一些研究中致力于实现全自动抠像. 例如, 闪光 (Flash) 抠像[22] 通过对同一场景进行两次拍摄, 分 别开启和关闭闪光灯, 得到两张图像作为算法的输 入. 计算过程中取两张图像的差值, 近似地提取出 被闪光的前景, 然后进行自动抠像. 另外, 立体图像 (Stereo image)[23]、同一场景下不同焦点平面的多 幅图像[24] 也被作为算法输入, 实现自动抠像. 2 数字抠像的主要技术 2.1 基于颜色采样的技术 普遍图像中, 相近的像素在统计特征上往往具 有相关性, 可以对相近的像素进行颜色采样, 根据 样本颜色的特点对未知区域像素的抠像参数 (F, B, α) 进行估算. Berman 等[25] 对周边确定区域像素 的前景/背景色进行加权, 作为未知区域像素的估算 结果. Ruzon 等[26] 则最先在数字抠像中引入概率统 计, 其基本思想是: 对于未知区域的像素, 先取附近 已知的前景和背景像素作为样本, 进行聚类和统计, 每个聚类使用高斯模型进行描述. 然后根据样本颜 色的概率模型和未知区域像素的颜色, 估算未知像 素与前景/背景中各个聚类的相似度, 推导该像素的 前景不透明度. 2001 年, Chuang 等[3] 在此基础上 提出了贝叶斯抠像 (Bayesian matting). 这种方法 使用贝叶斯公式, 把未知像素的估算问题转化为一 个最大后验概率问题. 算法已知该像素的颜色 C, 目 标是通过估计前景色 F、背景色 B 以及 α 值, 最大 化后验概率, 如式 (2) 所示: arg max F,B,α P(F, B, α|C) = arg max F,B,α P(C|F, B, α)P(F)P(B)P(α) P(C) (2) 其中概率 P(·) 均使用高斯分布模型进行描述. 其 中 P(α) 看作常数. P(C|F, B, α) 使用 αF − (1 − α)B 作为高斯分布的均值. 而对于 P(F), P(B), 在 未知像素附近采集前景/背景样本, 分别进行聚类. 求出每个聚类中的均值和协方差矩阵作为高斯分布 的参数, 求解 F, B 对应的概率. 由于抠像过程中, 需要对每个未知像素的样本进行聚类和统计, 因此 计算量较大. 而且, 算法把未知区域看成前景区与背 景区夹着的带状区域, 抠像时, 从带状区域两侧开 始计算, 逐步向中间部分推进, 计算中会利用之前已 求解的像素作为样本, 所以求解过程中的误差会被 累积, 这种现象在带状区域较宽的情况下更为明显. 不过, 这种算法已取得当时最好的效果, 所以得到 广泛的参考和改进, 是数字抠像的经典算法. 例如, 文献 [18] 在求解 P(F), P(B) 时, 没有使用统计模 型对样本进行匹配或聚类, 而仅仅基于空间距离和 算法对样本的 “置信度”, 进行前景/背景色的估算, 从而达到减少计算量的目的; 文献 [27] 则分别对前 景和背景区域使用全局的高斯混合模型 (Gaussian mixture model, GMM) 进行统计建模, 减少采用局 部统计带来的计算量. 然而, 这些方法仍未解决基于 颜色采样的技术中普遍存在的问题, 即在前景和背 景颜色接近、具有相似的统计特征或者色彩模糊的 情况下, 效果往往不佳. 其主要原因是采集的样本只 是图像中相近的像素, 这些像素不一定能够有效地 表示出未知像素的特征. 为了提高颜色采样的效果, 采样技术成为了近 年来数字抠像的研究热点[28−31]. Wang 等在 2007 年提出 Robust matting[28] 方案, 方案中根据 “信任 系数” 的大小判断一对前景/背景像素能否作为样 本. 信任系数的计算主要考虑样本与未知像素间的 颜色空间距离. 而对于候选样本集的构建, 与之前 的方法不同, 不仅选取和未知像素相近的点, 同时 沿着附近已知区域的边缘进行扩张. 通常, 抠像中需 要处理很多条状的未知区域 (例如头发), 这种方法 可以取得距离更远和种类更丰富的样本, 而且样本 的颜色也与未知像素较为接近. 但有些情况下, 三分 图中的未知区域较宽, 而且已知区域的边缘处, 其形 状、颜色与未知区域也不吻合, 这种方法得到的样 本并不具有代表性. Rhemann 等[29] 指出, 测地线 距离能够反映图像中的形状信息, 同一形状上的像 素关联度更大, 因此可以用测地线距离进行辅助, 建 立候选样本集. 如图 2 (a) 中, F 和 B 区域分别是 三分图中指定的前景区和背景区, 灰色和白色的采 样点分别表示 Wang 和 Rhemann 的方法得到的结 果. 可以看出, 灰色的点与未知像素 (即图 2 (a) 中的 点 i) 分布在同一物体上, 颜色特征会更接近. 然而, 上述两种方法都是从邻近像素出发, 进行扩张的, 要 利用位置距离更远的像素, 则需要遍历较大的空间, 从而带来很大的计算量. 2010 年, Gastal 等在其 Shared matting[30] 方案中, 通过相邻像素间共享候 选样本来减少计算开销. 而且, 在采集候选样本的时 候, 从每个像素出发, 沿四条射线向外寻找, 从而扩 大采集范围 (如图 2 (b)). He 等[31] 在 2011 年的最 新成果中, 进一步设计了一个全局的采样方法. 三分 图中的所有前景 F 和背景 B 的像素组成一个大小 为 NF × NB 的矩阵, 作为候选样本的 “F B 搜索空 间”. 然后, 把候选样本的采集看作图像像素与 F B 搜索空间中样本对的匹配问题 (如图 2 (c)), 匹配的 标准基于颜色空间距离以及像素位置距离. 为了避 免对 F B 搜索空间的穷举, 把样本的搜索算法分为 两步: 扩张搜索与随机搜索. 算法的运行过程中, 交 替地执行这两个步骤, 添加符合的样本: 在扩张搜索
1574 自动化学报 38卷 中,根据邻近像素相似,考虑当前最佳样本的邻近节邻像素间的前景/背景色平滑过渡12、具有相同的 点;在随机搜索中,则考虑一定范围内随机选定的样模糊连接度( Fuzzy connectedness91.与颜色采样 本对.由于采用了全局的采样方法,可以有效避免合的技术相比,所用的邻近像素较少,可以充分利用邻 适样本的丢失,同时,使用扩张搜索和随机搜索相结近像素的相关性,减少由于颜色采样中样本选取不 合的方式,避免了穷举搜索带来的巨大计算量 当导致的错误.而且基于邻近像素的相似性,可以促 使求解出的前景不透明度在像素间平滑过渡,减少 颜色采样技术中可能产生的不连续问题,有利于提 高视觉效果. 这类技术中最典型的是泊松抠像12,由Sun等 在2004年国际图形学会议( SIGGRAPH)论文中 提出.该算法把抠像问题转化成求解关于a梯度的 泊松方程.首先对抠像方程的左右两边求偏导,得 a)文献[29]中的采样方法 (b)文献[30]中的采样方法 (b) Sampling method of [30] VC=(F-BVa+aVF+(1-a)VB 3) 前景样本(F 其中,V=(品,).算法中假设图像中的前景色和 背景色平滑过渡,因此aⅤF+(1-a)VB相对较 小,可以忽略.a值的梯度Vo约等于C.然后利 用三分图中的区域划分,已知区域边缘像素的a值 定为0或1,从而确定了狄里克雷边界条件,可以求 解对应的泊松方程(如式(4),得到α值. (c)文献[31]中的采样方法 (c)Sampling method of [31] F-B 图2抠像中的多种采样方法29-31 Fgs2 Various sampling methods in image matting中,△=(品+)为拉普拉斯算子,dv表示 相应的研究.Lim等2使用感知颜色空间替换RGB化F,B的取值以使得a的变化足够小由于F,B 颜色空间进行建模,把透明度的计算细分为亮度和的初始值从最近的点选取,而且迭代过程中没有有 色度透明度的计算,提高计算的精确度.Ch0等效的信息对F,B进行优化,只是基于图像“平滑过 的方法则关注未知像素和附近样本颜色间的关系.渡”的假设,因此,在一些颜色复杂的图像中,这不 基于二次贝塞尔( Bezier)曲线,引入了一个自适应能取得好的结果.为此,Sum等也提出了局部泊松抠 的颜色曲线模型,对局部区域中各像素的颜色进行像,即通过用户对局部区域的操作,为全局抠像中忽 描述.通过计算未知像素的颜色在曲线中的位置,得略的部分进行赋值,加入到计算中,在一些背景较复 出抠像参数 杂的图片中取得了比贝叶斯抠像更好的结果.然而 中,抠像结果的质量差异很大叫在三分图被仔细时间较长、Dn等对此进行了改进,提出使用 果.在纹理或色彩复杂的情况下,样本选取不当会对也作为抠像算法的输入同时,把原来基于散度的泊 抠像结果产生不良的影响.为了提高采样统计的有松方程(式(4)改写成基于特征值的方程,使得方 效性,近年来研究学者做了各种努力.然而,由于目程求解中更好地体现图像细节.通过这些方法,用户 前候选样本的采用标准只考虑位置和颜色距离,仍 只需提供初始的三分图而不需进行进一步的调整操 然不能避免一些原本相关性不大的样本获得较高的作,提高了抠像效率 信任系数,特别是在一些颜色模糊的区域 由于测地线距离可以反映图像中物体的形 状信息,基于测地线的抠像方法近几年也受到关 22基于像素相似性的技术 注B,37-38.Bai等倒提出基于测地线的抠像框架 基于像素相似性的技术假设在某种距离(例如其基本思想是使用像素间的测地线距离,结合前景 位置距离、颜色空间距离)下,邻近的像素具有相似和背景的颜色概率分布,求出未知像素与前景的相 的属性或符合一定的规律12.1434-36,例如,假设相似度,从而得出a值.像素间的测地线距离定义为
1574 自 动 化 学 报 38 卷 中, 根据邻近像素相似, 考虑当前最佳样本的邻近节 点; 在随机搜索中, 则考虑一定范围内随机选定的样 本对. 由于采用了全局的采样方法, 可以有效避免合 适样本的丢失, 同时, 使用扩张搜索和随机搜索相结 合的方式, 避免了穷举搜索带来的巨大计算量. 图 2 抠像中的多种采样方法[29−31] Fig. 2 Various sampling methods in image matting[29−31] 除了前景/背景的采样技术, 颜色模型方面也有 相应的研究. Lin 等[32] 使用感知颜色空间替换 RGB 颜色空间进行建模, 把透明度的计算细分为亮度和 色度透明度的计算, 提高计算的精确度. Cho 等[33] 的方法则关注未知像素和附近样本颜色间的关系. 基于二次贝塞尔 (Bezier) 曲线, 引入了一个自适应 的颜色曲线模型, 对局部区域中各像素的颜色进行 描述. 通过计算未知像素的颜色在曲线中的位置, 得 出抠像参数. 总体来说, 基于颜色采样的技术, 在不同的图像 中, 抠像结果的质量差异很大[1] . 在三分图被仔细 定义、前景/背景对比明显的情况下会取得良好的效 果. 在纹理或色彩复杂的情况下, 样本选取不当会对 抠像结果产生不良的影响. 为了提高采样统计的有 效性, 近年来研究学者做了各种努力. 然而, 由于目 前候选样本的采用标准只考虑位置和颜色距离, 仍 然不能避免一些原本相关性不大的样本获得较高的 信任系数, 特别是在一些颜色模糊的区域. 2.2 基于像素相似性的技术 基于像素相似性的技术假设在某种距离 (例如 位置距离、颜色空间距离) 下, 邻近的像素具有相似 的属性或符合一定的规律[12,14,34−35] , 例如, 假设相 邻像素间的前景/背景色平滑过渡[12]、具有相同的 模糊连接度 (Fuzzy connectedness)[14] . 与颜色采样 的技术相比, 所用的邻近像素较少, 可以充分利用邻 近像素的相关性, 减少由于颜色采样中样本选取不 当导致的错误. 而且基于邻近像素的相似性, 可以促 使求解出的前景不透明度在像素间平滑过渡, 减少 颜色采样技术中可能产生的不连续问题, 有利于提 高视觉效果. 这类技术中最典型的是泊松抠像[12] , 由 Sun 等 在 2004 年国际图形学会议 (SIGGRAPH) 论文中 提出. 该算法把抠像问题转化成求解关于 α 梯度的 泊松方程. 首先对抠像方程的左右两边求偏导, 得: ∇C = (F − B)∇α + α∇F + (1 − α)∇B (3) 其中, ∇ = ( ∂ ∂x , ∂ ∂y ). 算法中假设图像中的前景色和 背景色平滑过渡, 因此 α∇F + (1 − α)∇B 相对较 小, 可以忽略. α 值的梯度 ∇α 约等于 ∇C F −B . 然后利 用三分图中的区域划分, 已知区域边缘像素的 α 值 定为 0 或 1, 从而确定了狄里克雷边界条件, 可以求 解对应的泊松方程 (如式 (4)), 得到 α 值. ∆α = div µ ∇C F − B ¶ (4) 其中, ∆ = ( ∂ 2 ∂x2 + ∂ 2 ∂y2 ) 为拉普拉斯算子, div 表示 散度. 接着, 使用迭代的方法进行求解, 即不断地优 化 F, B 的取值以使得 α 的变化足够小. 由于 F, B 的初始值从最近的点选取, 而且迭代过程中没有有 效的信息对 F, B 进行优化, 只是基于图像 “平滑过 渡” 的假设, 因此, 在一些颜色复杂的图像中, 这不 能取得好的结果. 为此, Sun 等也提出了局部泊松抠 像, 即通过用户对局部区域的操作, 为全局抠像中忽 略的部分进行赋值, 加入到计算中, 在一些背景较复 杂的图片中取得了比贝叶斯抠像更好的结果. 然而, 局部泊松抠像需要较多的用户交互, 整个抠像过程 时间较长. Du 等[36] 对此进行了改进, 提出使用一 系列的滤波操作提取图像的细微特征, 把这些特征 也作为抠像算法的输入. 同时, 把原来基于散度的泊 松方程 (式 (4)) 改写成基于特征值的方程, 使得方 程求解中更好地体现图像细节. 通过这些方法, 用户 只需提供初始的三分图而不需进行进一步的调整操 作, 提高了抠像效率. 由于测地线距离可以反映图像中物体的形 状信息, 基于测地线的抠像方法近几年也受到关 注[34, 37−38]. Bai 等[34] 提出基于测地线的抠像框架. 其基本思想是使用像素间的测地线距离, 结合前景 和背景的颜色概率分布, 求出未知像素与前景的相 似度, 从而得出 α 值. 像素间的测地线距离定义为
10期 张展鹏等:数字抠像的最新研究进展 1575 d(x,2)=min/w.Cp)(5)某两种颜色的线性组合,区域内像素的F和B分布 在RGB空间的同一直线上.基于这个假定,可以推 其中,Cx:是连接像素x与z之间的路径.作为权导出类似上述的结果 Levin等的这种方法通过添加 值的W表征像素与前景相似度的梯度,定义为 个较弱的假设,结合巧妙的代数变换,最终把抠像 方程这个不定问题转化为确定问题,并求出了闭合 W=VPF()=V P(|F) 解. P(a F)+ P(B) Closed- form matting中推导出的矩阵L被称 其中,P(叫F),P(叫B)分别代表前景和背景颜色的为“拉普拉斯像矩除”,是Lem等重要的理论成 线距离Dp(x),DB(x)则定义为x到前景/背景区对应的特征向量进行聚类,从而可把图像分成多个 的最小测地线距离.然后,求解式(7)得到a值 区域,每个区域内的像素具有较大的相似性.文献 20在此基础上,利用谱聚类的思想,实现了谱抠像 a(x)= wF(a) (7)( Spectral matting).首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分,然后初步组合出前 其中,p(x)=D(x)-P(x),r是控制边界平滑景和背景.用户也可以对图像中的区域进行标注,指 程度的参数.uB(x)与此类似 明前景和背景,根据这些限制信息,算法继续优化得 数,可以在线性时间完成计算这个优点在算法扩展被分割成很多部分,如何进行组合是一个问题He 简单地基于前景和背景的颜色概率模型,当前景和了探讨由于拉普拉斯抠像矩阵行列数都等于像素 背景色域重叠时权重计算会出现错误而且,这种数目,随着图像增大,计算量会剧增.以前的方案中 基于测地线的方法,对用户指定的样本比较敏感,容 般认为使得拉普拉斯矩阵越稀疏,就越能减少计 易受噪声影响,出现边界估计结果不稳定的情况.此算量,即式(9)中的窗口大小|k偏向于取很小的 外,方法中缺少对边界的求解,当图像实际边界较为值.而He等则指出这种直觉不一定正确,并实现了 明显时可得出正确的结果,当边界模糊时则会出现 种算法,在使用较大窗口的情况下,通过减少求解 问题37 中的迭代次数,反而取得了更高的计算效率.另外 Levin等凹的方法中,则对抠像问题求出了闭Chen等在抠像方程中加入两个中间变量,对方 合解( Closed-form solution),成为近来很多研究的程进行改写,添加像素间的平滑假设,把抠像问题转 基础23一,以大小为NxN的灰度图像为例,化成二个线性规划问题,同样得到了闭合解 通过假定图像中的一小块区域内,前景色F和背景 点扩散函数( Point spread function,PSF)也 色B保持恒定,然后对抠像方程进行改写,并定义被用于数字抠像.点扩散函数描述光学系统接收 了一个二次目标函数,经过进一步的代数运算目标个点光源后,在成像区出现的区域光场图像中一些 数化简成只与a相关的函数,如式(8)所示: 混合像素”(即0<α<1对应的像素)由这种现 象产生,因此,PSF描述了局部区域内各像素a值 J(a=a la (8)的相互关系,可以把PSF作为先验知识进行抠像 其中,L是N×N的矩阵,矩阵中元素(,j定义 Riemann等n在2008年最先提出这个方法整 如下 个图像的a平面,有以下定义 a=Ka° ∑(42-m(+ +σi 其中,K是PSF对应的矩阵形式,⑧是卷积运算, k(ij)∈k a是受PSF影响前的值.在2010年的国际计算 机视觉与模式识别( Conference on computer vi- (Ii-HkIi-uk) (9) sion and pattern recognition,CVPR)会议论文中 Riemann等继续对PSF用于抠像的方法进行了优 其中,|uk为包围像素k的窗口区域的大小,6,为化,首先用现有的抠像算法求出整个图像的a平 克罗内克函数,k,G分别为mk内灰度值的均值和面,然后对a平面进行上采样( Pamplin),得到 方差.然后通过最小化J(a),可得出a的值.对于更高的分辨率,接着估计出二值的a,即不透明度 彩色图像,则假定像素颜色符合 Color line模型,即等于0或1.把图像根据模糊程度划分成若干区域, 在一小块区域内,前景色F或背景色B可以表示为估算每个区域对应的PSF.使用得到的PSF与ab
10 期 张展鹏等: 数字抠像的最新研究进展 1575 d(x, z) = min Cx,z Z 1 0 |W · Cˆ x,z(p)|dp (5) 其中, Cx,z 是连接像素 x 与 z 之间的路径. 作为权 值的 W 表征像素与前景相似度的梯度, 定义为 W = ∇PF (x) = ∇ P(x|F) P(x|F) + P(x|B) (6) 其中, P(x|F), P(x|B) 分别代表前景和背景颜色的 概率分布函数. 而像素 x 到前景和背景区域的测地 线距离 DF (x), DB(x) 则定义为 x 到前景/背景区 的最小测地线距离. 然后, 求解式 (7) 得到 α 值. α(x) = wF (x) wF (x) + wB(x) (7) 其中, wF (x) = DF (x) −r ·PF (x), r 是控制边界平滑 程度的参数. wB(x) 与此类似. 这种方法中, 测地线距离是基于权重距离的函 数, 可以在线性时间完成计算. 这个优点在算法扩展 到视频抠像的时候更加明显. 然而, 由于权重计算时 简单地基于前景和背景的颜色概率模型, 当前景和 背景色域重叠时, 权重计算会出现错误. 而且, 这种 基于测地线的方法, 对用户指定的样本比较敏感, 容 易受噪声影响, 出现边界估计结果不稳定的情况. 此 外, 方法中缺少对边界的求解, 当图像实际边界较为 明显时可得出正确的结果, 当边界模糊时则会出现 问题[37] . Levin 等[16] 的方法中, 则对抠像问题求出了闭 合解 (Closed-form solution), 成为近来很多研究的 基础[20, 39−43] . 以大小为 N × N 的灰度图像 I 为例, 通过假定图像中的一小块区域内, 前景色 F 和背景 色 B 保持恒定, 然后对抠像方程进行改写, 并定义 了一个二次目标函数, 经过进一步的代数运算, 目标 函数化简成只与 α 相关的函数, 如式 (8) 所示: J(α) = α TLα (8) 其中, L 是 N × N 的矩阵, 矩阵中元素 (i, j) 定义 如下: X k|(i,j)∈wk à δij − 1 |wk| ³ 1 + 1 ² |wk| + σ 2 k × (Ii − µk)(Ij − µk) ´ ! (9) 其中, |wk| 为包围像素 k 的窗口区域的大小, δij 为 克罗内克函数, µk, σ 2 k 分别为 wk 内灰度值的均值和 方差. 然后通过最小化 J(α), 可得出 α 的值. 对于 彩色图像, 则假定像素颜色符合 Color line 模型, 即 在一小块区域内, 前景色 F 或背景色 B 可以表示为 某两种颜色的线性组合, 区域内像素的 F 和 B 分布 在 RGB 空间的同一直线上. 基于这个假定, 可以推 导出类似上述的结果. Levin 等的这种方法通过添加 一个较弱的假设, 结合巧妙的代数变换, 最终把抠像 方程这个不定问题转化为确定问题, 并求出了闭合 解. Closed-form matting 中推导出的矩阵 L 被称 为 “拉普拉斯抠像矩阵”, 是 Levin 等重要的理论成 果, 往后被广泛地引用. 取 L 的若干个最小特征值 对应的特征向量进行聚类, 从而可把图像分成多个 区域, 每个区域内的像素具有较大的相似性. 文献 [20] 在此基础上, 利用谱聚类的思想, 实现了谱抠像 (Spectral matting). 首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分, 然后初步组合出前 景和背景. 用户也可以对图像中的区域进行标注, 指 明前景和背景, 根据这些限制信息, 算法继续优化得 出最终结果. 可是当图像中纹理比较复杂时, 图像将 被分割成很多部分, 如何进行组合是一个问题. He 等[39] 则在计算效率方面对拉普拉斯抠像矩阵进行 了探讨. 由于拉普拉斯抠像矩阵行列数都等于像素 数目, 随着图像增大, 计算量会剧增. 以前的方案中, 一般认为使得拉普拉斯矩阵越稀疏, 就越能减少计 算量, 即式 (9) 中的窗口大小 |wk| 偏向于取很小的 值. 而 He 等则指出这种直觉不一定正确, 并实现了 一种算法, 在使用较大窗口的情况下, 通过减少求解 中的迭代次数, 反而取得了更高的计算效率. 另外, Chen 等[44] 在抠像方程中加入两个中间变量, 对方 程进行改写, 添加像素间的平滑假设, 把抠像问题转 化成一个线性规划问题, 同样得到了闭合解. 点扩散函数 (Point spread function, PSF) 也 被用于数字抠像. 点扩散函数描述光学系统接收一 个点光源后, 在成像区出现的区域光场. 图像中一些 “混合像素” (即 0 < α < 1 对应的像素) 由这种现 象产生, 因此, PSF 描述了局部区域内各像素 α 值 的相互关系, 可以把 PSF 作为先验知识进行抠像. Rhemann 等[17] 在 2008 年最先提出这个方法. 整 个图像的 α 平面, 有以下定义: α = K ⊗ α s (10) 其中, K 是 PSF 对应的矩阵形式, ⊗ 是卷积运算, α s 是受 PSF 影响前的值. 在 2010 年的国际计算 机视觉与模式识别 (Conference on computer vision and pattern recognition, CVPR) 会议论文中, Rhemann 等继续对 PSF 用于抠像的方法进行了优 化[45] . 首先用现有的抠像算法求出整个图像的 α 平 面, 然后对 α 平面进行上采样 (Upsampling), 得到 更高的分辨率, 接着估计出二值的 α b , 即不透明度 等于 0 或 1. 把图像根据模糊程度划分成若干区域, 估算每个区域对应的 PSF. 使用得到的 PSF 与 α b
1576 自动化学报 38卷 构建出apor作为先验知识,最后代入现有的抠像心,取一定的宽度,划分出一个带状区域,作为未知 算法中进行计算 区域U,从而得到新的三分图.算法假设a值在边 从泊松抠像开始,学术界就陆续提出了不少基界处渐变,使用一个软阶跃函数描述a的变化.新 像素相似性的抠像方法.这些方法基于不同的相的能量函数定义如式(12)所示 似性假设,得到先验知识,把抠像问题转换为数学上 有确定解的问题由于不涉及到采样统计:只采用邻E=∑D1(an)+∑V(△,1,△+1,0+) 近的像素,充分利用邻近像素的相关性,这类算法在 些色彩稍复杂的图像中,可以取得比颜色采样算 法更好的结果然而不同的假设直接影响到算法对算法把带状未知区域U分成T小段,对每段进行 色变化不大,因而在颜色变化频繁的图像中会出现项V,表征从第t段到第t+1段参数值的变化大 较多错误;测地线距离的方法受用户输入的影响较小.相邻分段间参数变化越小,则a值变化越小.至 大;应用PSF的方法受限于混合像素产生的原因,于数据项D,算法对区域U附近的前景/背景样本 且增加了额外的计算量 进行采样统计,建立高斯分布模型.与二值划分时类 2.3基于能量函数的技术 似,在所建立的概率模型下,D的值与an取值下的 由于基于颜色采样和像素相似性的技术各有优概率负相关因此,最小化能量一方面会使得a的 缺点和适用范围,一些学者把两种思想融合到一个取值与邻近的区域相容,一方面又要求a能平滑地 能量函数,同时描述当前抠像方案下,区域内统计上变化.因为U被截成有限小段,可使用动态规划进 Boykov等叫把图像边界分割问题定义为一个图割算法中对边界的平滑处理实际上是一个羽化的过程, ( Graph cut)问题图像被看作一个图( Graph,像这种方法并不适合于一些边缘复杂的情况 素即其中的节点.图像分割的目标转换成寻找一个 Wang等ls则构建了一个马尔科夫随机场 最小割”,对图像进行前景/背景划分.具体地,需 Markov random field)来解决抠像问题把待估 要最小化一个预设的能量函数,即 算的像素看做场内的节点,分别与4邻域的节点相 连接.同时对α值进行离散化处理,分为25个可能 E(A)=AR(A)+B(A) (11)的取值,从而可以用a值表示节点所处的状态.同 样地,定义场的能量中包含数据项和邻接项,然后通 其中,A表示当前的划分方案,指定每个像素属于过信任传播( Belief propagation,BP)算法最小化 质例如与前景颜色相近的点应该偏向于划分为前响了抠像效率;Gman等则在能量函数中引入了 景,这样可使R(A)的值偏小 1)表征边界性动态的权重,调节数据项和平滑项的影响力其算 质促使颜色差异较大的地方划分为边界.这种图法基于这样的假设:在前景的内部,物体一般较为平 割思想后来被引入到数字抠像学者使用各种方法滑,此时增大平滑项的权重,使其在能量函数中发挥 对R(4)、B(4)进行具体的定义.B(4)一般被称更大的影响.在边缘处,颜色对比较为明显,减少平 为数据项.B(A)被称为边界项、平滑项或邻接项,滑项的权重,更多地利用数据项的优势.此外,和泊 名称不同而作用大体一致 Lazy snapping以及松抠像的方法类似,采用全局抠像和局部抠像相结 GrabCut19都是这类算法的典型代表 合的方法.用户可以对某些区域调节其平滑项的权 GrabCut在 Boykov算法的基础上改进而成重,或者为某些区域的前景色选择一些对比明显的 其方案分为两步:首先进行图像的二值分割,即划分背景样本,增加数据项的有效性 出前景区和背景区,然后对边界像素的a值进行平 在2007年的CVPR会议论文中,Wang等 滑处理第一步中,对式(1)的各项进行了重新的提出了新的方案,即 Robust matting2.与之前基 定义数据项R表征GMM模型下邻近像素的相容于能量函数的方法相比,其主要思想是对数据项和 性边界项B表征区域间像素的颜色空间距离邻平滑项的权重有了更精确的调节如第21节所述, 近像素间越符合GMM模型(概率值越大)则数据首先根据颜色空间距离,得出样本的信任系数∫,再 项越小不同区域间像素的颜色距离越大则边界项直接根据样本粗略估计出对应的不透明度a.然后 越小.算法通过一个迭代的过程,调整划分方案,最最小化能量函数,能量函数定义如式(13)所示 小化能量函数,则可得到二值分割的结果 接着,进行第二步,对边界像素进行a值的平E=∑(a:-)2+ 滑处理.以第一步中划分出的前景/背景分割线为中
1576 自 动 化 学 报 38 卷 构建出 α prior 作为先验知识, 最后代入现有的抠像 算法中进行计算. 从泊松抠像开始, 学术界就陆续提出了不少基 于像素相似性的抠像方法. 这些方法基于不同的相 似性假设, 得到先验知识, 把抠像问题转换为数学上 有确定解的问题. 由于不涉及到采样统计, 只采用邻 近的像素, 充分利用邻近像素的相关性, 这类算法在 一些色彩稍复杂的图像中, 可以取得比颜色采样算 法更好的结果. 然而不同的假设直接影响到算法对 不同图像的适应性. 例如, 泊松抠像假设前景/背景 色变化不大, 因而在颜色变化频繁的图像中会出现 较多错误; 测地线距离的方法受用户输入的影响较 大; 应用 PSF 的方法受限于混合像素产生的原因, 且增加了额外的计算量. 2.3 基于能量函数的技术 由于基于颜色采样和像素相似性的技术各有优 缺点和适用范围, 一些学者把两种思想融合到一个 能量函数, 同时描述当前抠像方案下, 区域内统计上 的相容性和像素间的渐变性, 以增加算法的健壮性. Boykov 等[46] 把图像边界分割问题定义为一个图割 (Graph cut) 问题. 图像被看作一个图 (Graph), 像 素即其中的节点. 图像分割的目标转换成寻找一个 “最小割”, 对图像进行前景/背景划分. 具体地, 需 要最小化一个预设的能量函数, 即 E(A) = λR(A) + B(A) (11) 其中, A 表示当前的划分方案, 指定每个像素属于 前景还是背景. λ 为权重参数. R(A) 表征区域性 质, 例如与前景颜色相近的点应该偏向于划分为前 景, 这样可使 R(A) 的值偏小. B(A) 表征边界性 质, 促使颜色差异较大的地方划分为边界. 这种图 割思想后来被引入到数字抠像. 学者使用各种方法 对 R(A)、B(A) 进行具体的定义. R(A) 一般被称 为数据项. B(A) 被称为边界项、平滑项或邻接项, 名称不同而作用大体一致. Lazy snapping[47] 以及 GrabCut[19] 都是这类算法的典型代表. GrabCut 在 Boykov 算法的基础上改进而成. 其方案分为两步: 首先进行图像的二值分割, 即划分 出前景区和背景区, 然后对边界像素的 α 值进行平 滑处理. 第一步中, 对式 (11) 的各项进行了重新的 定义. 数据项 R 表征 GMM 模型下邻近像素的相容 性, 边界项 B 表征区域间像素的颜色空间距离. 邻 近像素间越符合 GMM 模型 (概率值越大) 则数据 项越小, 不同区域间像素的颜色距离越大则边界项 越小. 算法通过一个迭代的过程, 调整划分方案, 最 小化能量函数, 则可得到二值分割的结果. 接着, 进行第二步, 对边界像素进行 α 值的平 滑处理. 以第一步中划分出的前景/背景分割线为中 心, 取一定的宽度, 划分出一个带状区域, 作为未知 区域 U, 从而得到新的三分图. 算法假设 α 值在边 界处渐变, 使用一个软阶跃函数描述 α 的变化. 新 的能量函数定义如式 (12) 所示: E = X n∈U Dn(αn) + X T t=1 V (∆t , σt , ∆t+1, σt+1) (12) 算法把带状未知区域 U 分成 T 小段, 对每段进行 计算. ∆ 和 σ 是描述软阶跃函数的参数. 其中边界 项 V , 表征从第 t 段到第 t + 1 段参数值的变化大 小. 相邻分段间参数变化越小, 则 α 值变化越小. 至 于数据项 D, 算法对区域 U 附近的前景/背景样本 进行采样统计, 建立高斯分布模型. 与二值划分时类 似, 在所建立的概率模型下, D 的值与 αn 取值下的 概率负相关. 因此, 最小化能量一方面会使得 α 的 取值与邻近的区域相容, 一方面又要求 α 能平滑地 变化. 因为 U 被截成有限小段, 可使用动态规划进 行求解. 然而, 由于使用软阶跃函数描述 α 的变化, 算法中对边界的平滑处理实际上是一个羽化的过程, 这种方法并不适合于一些边缘复杂的情况. Wang 等[48] 则构建了一个马尔科夫随机场 (Markov random field) 来解决抠像问题. 把待估 算的像素看做场内的节点, 分别与 4 邻域的节点相 连接. 同时对 α 值进行离散化处理, 分为 25 个可能 的取值, 从而可以用 α 值表示节点所处的状态. 同 样地, 定义场的能量中包含数据项和邻接项, 然后通 过信任传播 (Belief propagation, BP) 算法最小化 能量函数, 得到 α. 然而, BP 算法收敛速度较慢, 影 响了抠像效率; Guan 等[15] 则在能量函数中引入了 动态的权重, 调节数据项和平滑项的影响力. 其算 法基于这样的假设: 在前景的内部, 物体一般较为平 滑, 此时增大平滑项的权重, 使其在能量函数中发挥 更大的影响. 在边缘处, 颜色对比较为明显, 减少平 滑项的权重, 更多地利用数据项的优势. 此外, 和泊 松抠像的方法类似, 采用全局抠像和局部抠像相结 合的方法. 用户可以对某些区域调节其平滑项的权 重, 或者为某些区域的前景色选择一些对比明显的 背景样本, 增加数据项的有效性. 在 2007 年的 CVPR 会议论文中, Wang 等又 提出了新的方案, 即 Robust matting[28] . 与之前基 于能量函数的方法相比, 其主要思想是对数据项和 平滑项的权重有了更精确的调节. 如第 2.1 节所述, 首先根据颜色空间距离, 得出样本的信任系数 ˆf, 再 直接根据样本粗略估计出对应的不透明度 αˆ. 然后 最小化能量函数, 能量函数定义如式 (13) 所示: E = X z∈ψ h ˆfz(αz − αˆz) 2 +
10期 张展鹏等:数字抠像的最新研究进展 (1-f)(a2-6(a2>05)2+入·J(a) 的估算转化为一个二次最优化问题,从而估算出, (13)Ao,即描述出模型.对于非线性模型,使用核方法 ( Kernel trick)进行转换,把线性情况下,β,的求 其中,6表示布尔运算,返回0或1.对左边项稍解结果中,包含的向量x1与x的内积,使用核函数 作直观分析,当样本信任系数高,则认为估计算的k(x1,x)替换,其中,x=[z1T.具体地,可以 a2可信,因此使a2与a2的差值变小.而当信任使用高斯核,即k(x1,x)=exp(x2-x1‖2).使 系数较小时,a2的具体数值相对不可靠,a2只需用图像灰度值的方差.与之前的方法相比,这种方法 根据一个阀值(0.5)大致追随估算值.右边项J(a)有两个优势:一是实现简单,在整个过程中只需一些 的定义与式(8)相同,可见 Robust matting中融入矩阵操作;二是针对线性和非线性的模型有相应的 了 Closed- -form matting的方法.其原因是( Closed-处理方法,建立的模型可以更一般化 form matting中充分利用了邻近像素的相关性,正 除了 Zheng等的这个方法,主成分分析(Prin 好作为平滑项与数据项互补 cipal component analysis,PCA)也曾经被用于前 此外,近两年的研究中,开始偏向于在数据项或景提取2; Hosaka等网则利用支持向量机(Sup 平滑项赋予更多的假设或先验知识,使得抠像更准 port vector machine,SVM)进行前景/背景分类; 确.例如Park等网把 Graph cut和 Closed-form而Won等考虑到局部线性嵌入( Locally linear matting结合起来,分别利用两者在“硬”分割和 embedding,LLE)在把高维度数据映射到低维度 “软”分割上的优势实现抠像. Price等则在能量时,能保持点的邻近关系,从而实现了一种抠像中应 函数中融入了测地线距离的度量 用LLE进行颜色估计的方法文献[5引中提出 24基于机器学习的技术 种基于局部学习的方法,构造出包含多次相似性权 值计算的拉普拉斯抠像矩阵,精细地刻画数据局部 从数字抠像的已知条件和求解目标来看,可以几何结构,从而求出更优的结果 把抠像的过程看作建立α与图像颜色之间的模型. 文献⑤56则把抠像问题看成一个模式识别问题 在颜色采样的技术中,通过颜色的相关度来寻找这在学习阶段,使用非负矩阵因式分解( Non-negative 些相关点,然后假设像素间的前景/背景色符合某种 matrix factorization,NMF)构造表征前景及背景 统计模型(如GMM),求解的目标是使未知像素的的基矩阵和系数矩阵;在识别阶段,根据未知像素的 报像参数拟合统计模型;基于像素相似性的技术与颜色值,分解出原有的基矩阵与新的系数矩阵,通过 此类似,通过各种方法定义相邻的点(如位置相邻、比较新的系数矩阵和原来的系数矩阵,从而判断未 测地线距离相近,然后假设像素间符合一定的关系知像素的不透明度a.算法中,首先对未知像素 (如平滑过渡、点扩散函数关系),基于假设条件对抠分别选取两个距离最近的前景节点和背景节点及其 像方程或目标函数进行代数求解得出结果假设条8邻域像素的颜色值(或者灰度值)组成矩阵V.其 件越弱,则算法健壮性越强,精确度越高.基于机器中V共有四列,取其中一个前景节点及其8邻域像 学习的技术与之不同,这类算法把抠像的过程看做素的颜色值组成第一列,取另外一个前景节点及其8 个监督或半监督学习的问题,通过一个学习的过邻域像素的颜色值组成第二列.对于后两列则使用 程,建立a与图像颜色之间的模型,而不依赖于较强同样的方法根据两个背景节点生成。然后对V进行 的模型假设 NMF分解,即V≈W×H.V中的第k列数据可 Zheng等在200年的国际计算机视觉(In-看做W的各行分别与H的第k列数据Hk的线性 ternational conference on computer vision,CCV)组合因此,把W看做表征前景和背景的基矩阵,H 会议论文中运用了这种基于学习的方法.算法的目的前两列是对应前景特征的系数,后两列对应背景 标是通过训练建立a与图像颜色之间的模型,从而特征的系数.分解完成后,即完成学习阶段,开始识 预测末知像素的a值模型可以是线性或非线性的、别阶段.类似地,取像素i及其8邻域像素的数据组 这里简单介绍其模型的建立方法为便于表述,先介成矩阵Va,然后使用之前计算的基矩阵W对V 绍线性模型的情况,再进行扩展设局部区域中,a进行分解,得出新的系数矩阵H21接着计算会 与图像颜色间的模型可表示为 与H前后两列的欧几里得距离.定义 a=xB+④ ds=2|ny-H1‖ 其中,x是局部区域中各像素的颜色空间向量的集 合,B、分别是模型的参数.其中A为标量,β dbg=min, IHobj-Haill 为矢量,维数等于图像颜色的通道数.通过岭回归其中,dg,dbx分别表征像素i与前景/背景的距离 Ridge regression)技术,可以把模型参数β,最后根据dg与dhx的比值确定像素属于前景或背
10 期 张展鹏等: 数字抠像的最新研究进展 1577 (1 − ˆfz)(αz − δ( ˆαz > 0.5))2 i + λ · J(α) (13) 其中, δ 表示布尔运算, 返回 0 或 1. 对左边项稍 作直观分析, 当样本信任系数高, 则认为估计算的 αˆz 可信, 因此使 αz 与 αˆz 的差值变小. 而当信任 系数较小时, ˆαz 的具体数值相对不可靠, αz 只需 根据一个阀值 (0.5) 大致追随估算值. 右边项 J(α) 的定义与式 (8) 相同, 可见 Robust matting 中融入 了 Closed-form matting 的方法. 其原因是 Closedform matting 中充分利用了邻近像素的相关性, 正 好作为平滑项与数据项互补. 此外, 近两年的研究中, 开始偏向于在数据项或 平滑项赋予更多的假设或先验知识, 使得抠像更准 确. 例如 Park 等[49] 把 Graph cut 和 Closed-form matting 结合起来, 分别利用两者在 “硬” 分割和 “软” 分割上的优势实现抠像. Price 等[37] 则在能量 函数中融入了测地线距离的度量. 2.4 基于机器学习的技术 从数字抠像的已知条件和求解目标来看, 可以 把抠像的过程看作建立 α 与图像颜色之间的模型. 在颜色采样的技术中, 通过颜色的相关度来寻找这 些相关点, 然后假设像素间的前景/背景色符合某种 统计模型 (如 GMM), 求解的目标是使未知像素的 抠像参数拟合统计模型; 基于像素相似性的技术与 此类似, 通过各种方法定义相邻的点 (如位置相邻、 测地线距离相近), 然后假设像素间符合一定的关系 (如平滑过渡、点扩散函数关系), 基于假设条件对抠 像方程或目标函数进行代数求解得出结果. 假设条 件越弱, 则算法健壮性越强, 精确度越高. 基于机器 学习的技术与之不同, 这类算法把抠像的过程看做 一个监督或半监督学习的问题, 通过一个学习的过 程, 建立 α 与图像颜色之间的模型, 而不依赖于较强 的模型假设. Zheng 等[50] 在 2009 年的国际计算机视觉 (International conference on computer vision, ICCV) 会议论文中运用了这种基于学习的方法. 算法的目 标是通过训练, 建立 α 与图像颜色之间的模型, 从而 预测未知像素的 α 值. 模型可以是线性或非线性的. 这里简单介绍其模型的建立方法. 为便于表述, 先介 绍线性模型的情况, 再进行扩展. 设局部区域中, α 与图像颜色间的模型可表示为 α = x Tβ + β0 (14) 其中, x 是局部区域中各像素的颜色空间向量的集 合, β、β0 分别是模型的参数. 其中 β0 为标量, β 为矢量, 维数等于图像颜色的通道数. 通过岭回归 (Ridge regression)[51] 技术, 可以把模型参数 β, β0 的估算转化为一个二次最优化问题, 从而估算出 β, β0, 即描述出模型. 对于非线性模型, 使用核方法 (Kernel trick) 进行转换, 把线性情况下, β, β0 的求 解结果中, 包含的向量 x 0 i 与 x 0 j 的内积, 使用核函数 k(xi , xj ) 替换, 其中, x 0 = [x T 1]T. 具体地, 可以 使用高斯核, 即 k(x 0 i , x 0 j ) = exp( 1 ϑ kx 0 i − x 0 jk 2 ). ϑ 使 用图像灰度值的方差. 与之前的方法相比, 这种方法 有两个优势: 一是实现简单, 在整个过程中只需一些 矩阵操作; 二是针对线性和非线性的模型有相应的 处理方法, 建立的模型可以更一般化. 除了 Zheng 等的这个方法, 主成分分析 (Principal component analysis, PCA) 也曾经被用于前 景提取[52]; Hosaka 等[53] 则利用支持向量机 (Support vector machine, SVM) 进行前景/背景分类; 而 Won 等[54] 考虑到局部线性嵌入 (Locally linear embedding, LLE) 在把高维度数据映射到低维度 时, 能保持点的邻近关系, 从而实现了一种抠像中应 用 LLE 进行颜色估计的方法. 文献 [55] 中提出一 种基于局部学习的方法, 构造出包含多次相似性权 值计算的拉普拉斯抠像矩阵, 精细地刻画数据局部 几何结构, 从而求出更优的结果. 文献 [56] 则把抠像问题看成一个模式识别问题: 在学习阶段, 使用非负矩阵因式分解 (Non-negative matrix factorization, NMF) 构造表征前景及背景 的基矩阵和系数矩阵; 在识别阶段, 根据未知像素的 颜色值, 分解出原有的基矩阵与新的系数矩阵, 通过 比较新的系数矩阵和原来的系数矩阵, 从而判断未 知像素的不透明度 α. 算法中, 首先对未知像素 i, 分别选取两个距离最近的前景节点和背景节点及其 8 邻域像素的颜色值 (或者灰度值) 组成矩阵 V . 其 中 V 共有四列, 取其中一个前景节点及其 8 邻域像 素的颜色值组成第一列, 取另外一个前景节点及其 8 邻域像素的颜色值组成第二列. 对于后两列则使用 同样的方法根据两个背景节点生成. 然后对 V 进行 NMF 分解, 即 V ≈ W × H. V 中的第 k 列数据可 看做 W 的各行分别与 H 的第 k 列数据 Hk 的线性 组合. 因此, 把 W 看做表征前景和背景的基矩阵,H 的前两列是对应前景特征的系数, 后两列对应背景 特征的系数. 分解完成后, 即完成学习阶段, 开始识 别阶段. 类似地, 取像素 i 及其 8 邻域像素的数据组 成矩阵 Vobj, 然后使用之前计算的基矩阵 W 对 Vobj 进行分解, 得出新的系数矩阵 Hobj. 接着计算 Hobj 与 H 前后两列的欧几里得距离. 定义 dfg = min 1≤i≤2 kHobj − Hik 2 dbg = min 3≤i≤4 kHobj − Hik 2 (15) 其中, dfg, dbg 分别表征像素 i 与前景/背景的距离. 最后根据 dfg 与 dbg 的比值确定像素属于前景或背
1578 自动化学报 38卷 景 地,包括四个标准:均方误差( Mean squared error, 上述基于机器学习的方法都是数字抠像的新尝MSE)、绝对误差和( Sum of absolute differences, 试,与前三类方法不同,这类方法没有从求解抠像方SAD)、连通性误差以及梯度误差.梯度误差描述抠 程的角度出发,而是从机器学习或模式识别的视角像结果与 Ground truth中a值的梯度误差.与此 看待抠像问题.通过一个学习过程,降低算法对图像类似,连通性误差描述抠像结果中,像素的连通度与 特性的假设.然而,目前这种方法研究相对较少,上 Ground truth中对应像素的连通度间的误差.MSE 述方法也只是初步的尝试,例如没有对学习中使用和SAD是常用的误差统计方法,而梯度和连通性误 的样本进行深入考虑,α的估算也相对简单,缺少优差是基于人的感官特点制定的 七处理 根据这些测试集以及评价标准, Riemann等还 除了之前介绍的四类方法,在研究中,针对特殊建立了一个网上测试平台4.由于目前的研究中 的应用场景,也有其他的尝试例如文献⑤7]使用图大部分算法以三分图或涂鸦方式作为用户的输入, 像的深度信息辅助抠像.一方面,在原有的颜色或灰且涂鸦结果可看作三分图的子集,支持涂鸦方式的 度通道外,添加深度作为新的通道.另一方面,把a算法也支持三分图,因此测试中使用三分图作为标 的梯度与深度图的梯度联系起来;Lin等专门针准的输入方式,以保持评价的客观性.目前该平台 运动造成的模糊图像抠像问题进行了研究,通过中包含了截止至2010年主要抠像算法的测试结果 图像梯度的统计信息估计物体的运动,从而提高抠首先,针对这些测试结果,本文对主要的抠像算法进 像的准确度; Prabhu等提出一种基于卡尔曼滤行定量和定性分析.其次,为了分析的全面性,也将 波器的方法对受损的图像进行抠像并恢复前景;图对涂鸦方式和全自动化方式下的抠像结果进行对比 像修复( Inpainting)技术也被用于抠像:由于目前然后,对主要抠像算法的运行效率进行分析评价 的抠像方法一般通过邻近像素信息进行推导,没有 首先,本文引用了测试集中包含的6张测试图 考虑物体本身的几何形状,从而导致了一些抠像结像,如图3所示.具体地,从本文第2节所分析 果中原本平滑的线条出现了抖动出于这种考虑,文的四类抠像技术中,各选取了一种抠像算法,对比 献60使用变分修复( ariational inpainting)技术其抠像结果的均方误差.这些算法分别为Baye 进行抠像.而文献(61]把未知区域看做受损或被物 sian matting 1, Closed- form matting, Robust 体遮挡,使用 Inpainting技术估计其背景色;文献 matting2以及 Learning based matting.测试 62]则认为,若已知将要合成的背景,抠像可以把目结果与 Ground truth的均方误差如图4所示 标设为,在特定的新背景中,增强最终合成结果在视 觉上的效果.由此,提出的算法中把抠像与合成看作 个统一的过程;文献[63]在抠像执行之前,使用区 域增长( Region growing)以及分类技术对图像进 预分割 3分析和总结 3.1测试结果分析 2000年以后,针对自然图像的抠像算法逐渐增 多,对抠像算法的评价方法也在逐步改进.最开始 图3测试图像 的评价方法中,仅凭人的视觉做主观判断,而现在 Fig 3 Test images 量化评价逐渐被采用.2009年, Riemann等6位 可以看出,各种方法在不同的测试图像中,效果 学者,制定了一套较为全面和客观的测试集以及评差别较大对于 Bayesian matting,在图3(b)取得 价标准,在近两年的论文中被广泛采纳.本文主要的效果相对较好,这是因为图3(b)中边缘比较简单 采用这套方案对目前的抠像算法进行分析.该测试且前景物体中不存在孔状结构采样得到的样本能 集采用高质量的图像,其中高分辨率的图像在六百反映未知像素的特性,比较有意义.而在测试图3(c) 万像素左右,低分辨率的图像也超过40万像素.图中表现最差,主要是因为图像的边缘及纹理比较复 像中包括了当前抠像技术中难以处理的场景,例如杂,前景物体中存在空隙,降低了样本的有效性.对 毛发、半透明物体、网状物体、纹理复杂的背景以颜色样本建立的模型不一定能对未知像素进行合适 及前景/背景颜色相似的区域等. Ground truth由的描述. Closed- orm matting在前5张图像中表现 蓝屏抠像中的三角抠像法生成.对算法进行评价比较稳定,然而在图3(1)中,则表现较差.这是因为 时,使用抠像结果与 Ground truth进行对比.具体算法假设前/背景颜色在局部区域内符合 Color-line
1578 自 动 化 学 报 38 卷 景. 上述基于机器学习的方法都是数字抠像的新尝 试, 与前三类方法不同, 这类方法没有从求解抠像方 程的角度出发, 而是从机器学习或模式识别的视角 看待抠像问题. 通过一个学习过程, 降低算法对图像 特性的假设. 然而, 目前这种方法研究相对较少, 上 述方法也只是初步的尝试, 例如没有对学习中使用 的样本进行深入考虑, α 的估算也相对简单, 缺少优 化处理. 除了之前介绍的四类方法, 在研究中, 针对特殊 的应用场景, 也有其他的尝试. 例如文献 [57] 使用图 像的深度信息辅助抠像. 一方面, 在原有的颜色或灰 度通道外, 添加深度作为新的通道. 另一方面, 把 α 的梯度与深度图的梯度联系起来; Lin 等[58] 专门针 对运动造成的模糊图像抠像问题进行了研究, 通过 图像梯度的统计信息估计物体的运动, 从而提高抠 像的准确度; Prabhu 等[59] 提出一种基于卡尔曼滤 波器的方法对受损的图像进行抠像并恢复前景; 图 像修复 (Inpainting) 技术也被用于抠像: 由于目前 的抠像方法一般通过邻近像素信息进行推导, 没有 考虑物体本身的几何形状, 从而导致了一些抠像结 果中原本平滑的线条出现了抖动. 出于这种考虑, 文 献 [60] 使用变分修复 (Variational inpainting) 技术 进行抠像. 而文献 [61] 把未知区域看做受损或被物 体遮挡, 使用 Inpainting 技术估计其背景色; 文献 [62] 则认为, 若已知将要合成的背景, 抠像可以把目 标设为, 在特定的新背景中, 增强最终合成结果在视 觉上的效果. 由此, 提出的算法中把抠像与合成看作 一个统一的过程; 文献 [63] 在抠像执行之前, 使用区 域增长 (Region growing) 以及分类技术对图像进行 预分割. 3 分析和总结 3.1 测试结果分析 2000 年以后, 针对自然图像的抠像算法逐渐增 多, 对抠像算法的评价方法也在逐步改进. 最开始 的评价方法中, 仅凭人的视觉做主观判断, 而现在 量化评价逐渐被采用. 2009 年, Rhemann 等 6 位 学者, 制定了一套较为全面和客观的测试集以及评 价标准[4] , 在近两年的论文中被广泛采纳. 本文主要 采用这套方案对目前的抠像算法进行分析. 该测试 集采用高质量的图像, 其中高分辨率的图像在六百 万像素左右, 低分辨率的图像也超过 40 万像素. 图 像中包括了当前抠像技术中难以处理的场景, 例如 毛发、半透明物体、网状物体、纹理复杂的背景以 及前景/背景颜色相似的区域等. Ground truth 由 蓝屏抠像中的三角抠像法[2] 生成. 对算法进行评价 时, 使用抠像结果与 Ground truth 进行对比. 具体 地, 包括四个标准: 均方误差 (Mean squared error, MSE)、绝对误差和 (Sum of absolute differences, SAD)、连通性误差以及梯度误差. 梯度误差描述抠 像结果与 Ground truth 中 α 值的梯度误差. 与此 类似, 连通性误差描述抠像结果中, 像素的连通度与 Ground truth 中对应像素的连通度间的误差. MSE 和 SAD 是常用的误差统计方法, 而梯度和连通性误 差是基于人的感官特点制定的. 根据这些测试集以及评价标准, Rhemann 等还 建立了一个网上测试平台[64] . 由于目前的研究中, 大部分算法以三分图或涂鸦方式作为用户的输入, 且涂鸦结果可看作三分图的子集, 支持涂鸦方式的 算法也支持三分图, 因此测试中使用三分图作为标 准的输入方式, 以保持评价的客观性. 目前该平台 中包含了截止至 2010 年主要抠像算法的测试结果. 首先, 针对这些测试结果, 本文对主要的抠像算法进 行定量和定性分析. 其次, 为了分析的全面性, 也将 对涂鸦方式和全自动化方式下的抠像结果进行对比. 然后, 对主要抠像算法的运行效率进行分析评价. 首先, 本文引用了测试集中包含的 6 张测试图 像, 如图 3 所示. 具体地, 从本文第 2 节所分析 的四类抠像技术中, 各选取了一种抠像算法, 对比 其抠像结果的均方误差. 这些算法分别为 Bayesian matting[3], Closed-form matting[16], Robust matting[28] 以及 Learning based matting[50] . 测试 结果与 Ground truth 的均方误差如图 4 所示. 图 3 测试图像 Fig. 3 Test images 可以看出, 各种方法在不同的测试图像中, 效果 差别较大. 对于 Bayesian matting, 在图 3 (b) 取得 的效果相对较好, 这是因为图 3 (b) 中边缘比较简单, 且前景物体中不存在孔状结构. 采样得到的样本能 反映未知像素的特性, 比较有意义. 而在测试图 3 (c) 中表现最差, 主要是因为图像的边缘及纹理比较复 杂, 前景物体中存在空隙, 降低了样本的有效性. 对 颜色样本建立的模型不一定能对未知像素进行合适 的描述. Closed-form matting 在前 5 张图像中表现 比较稳定, 然而在图 3 (f) 中, 则表现较差. 这是因为 算法假设前/背景颜色在局部区域内符合 Color-line
10期 张展鹏等:数字抠像的最新研究进展 1579 模型,生成的结果比较平滑,而图3(f)中的结构不值进行偏移,使之等于0或1,以减少一些错误生成 符合这一假设. Robust matting因为在算法中融合的模糊区.因此,可以认为,融合多种抠像技术、对 了数据项和平滑项,在多幅图像中表现稳定.在前5采样技术进行优化、构造有效的先验知识是未来可 幅图像中与Cled- orm matting的结果大致相当.能的发展方向 在图3(f)中,由于算法还结合了采集的样本信息 表现比 Closed- form matting更好. Learning based Shared matting ol (2010) matting作为新提出的方法,取得了与其他方法相 Improved color matting 2(2008 当甚至更好的效果.特别是在包含半透明物体的图 像(图3(e)中,效果比其他四种方法都好.说明算 Robust 法在学习的过程中对模型进行更一般化的假设(例 如非线性假设),可以增强算法在不同场景中的适应 性.另一方面,这种方法对学习中使用的样本依赖性 较大,由于实验中图3(f)对应的三分图前景区较小,密 而 Learning based mattin没有考虑采样等其他方 式获得更多有效的学习样本,因此在图3(f)中没有 取得好的效果 口 Robust matting(2007 62Bayesian matting(2001 测试图像 图5多种算法抠像结果的均方误差比较 Fig 5 Comparison of Mse of matting results from various algorithms 接着以测试图像中图3(c)的右下角为例,分析 各种算法下抠像结果的差异.图6列举了六种算法 的结果.可以看出, Bayesian matting在这种形状 复杂的情况下表现不佳,出现了较多不连续的区域, 而且由于背景与前景颜色相似,一部分背景被错误 地抠选. Closed- form matting表现相对较好,然而, 测试图像 由于算法中的平滑假设,使得结果过于平滑,忽略 图4多种算法抠像结果的均方误差 了一些细节,而且由于没有颜色信息采集,有些深 Fig 4 MsE of matting results from various algorithms 色的叶子被错误地判断为背景. Learning based和 Robust matting表现相当,一些区域中仍然错误地 此外,对更多的抠像算法进行测试分析,发把背景选中. Shared和 Improved color mattin则 现了一些总体来说效果最好的算法(如 Shared基本上消除了这个问题,但仍然有些瑕疵 matting、 Improved color matting2),这些算 从上面的测试效果中,可以看出,在以三分图 法往往不是单一地采用颜色采样或像素相似性的为算法输入的情况下,目前的算法已经取得了一定 方法,而是融合了多种技术,并进一步对采样方式的进展.下面,分析其他用户交互方式下的抠像效 进行优化,或者构造了更有效的先验知识.图5对果.从图7中可以看出,在前景/背景比较简单,且区 Improved color matting、 Shared matting、 Robust分度较大的情况下,全自动化的 Spectral matting matting、 Closed- form matting四种方法的抠像结算法可以生成较为理想的结果.而图8中则包含了 果进行了比较.从图中明显地看出,前两种算法比对图3(a)的抠像结果.首先,图8(b)是 Spectral 后两种效果要好.事实上, Shared matting和Im- matting2的全自动抠像结果.可以看出,抠像结果 proved color matting算法中,首先进行前景/背景中只提取了玩具的头发以及背景中的桥梁,没有选 颜色采样,根据采集的样本求出初步的抠像结果,中玩具的身体,显然这个结果并不正确.这是由于缺 再结合 Closed- form matting进行优化.此外,Im-乏用户输入,算法不能获得足够的语义信息,只能对 proved color mattin在采样时考虑了测地线距离,视觉上特性接近的区域进行聚类.对于涂鸦的输入 还在后续的a值估计时加入了“稀疏先验( Sparsity方式,图8(d)中展示了 Closed-form matting的结 prior)”,这是根据颜色特征建立的,对估算出的α果,由于输入图像的场景比较复杂,对于有限的涂鸦
10 期 张展鹏等: 数字抠像的最新研究进展 1579 模型, 生成的结果比较平滑, 而图 3 (f) 中的结构不 符合这一假设. Robust matting 因为在算法中融合 了数据项和平滑项, 在多幅图像中表现稳定. 在前 5 幅图像中与 Closed-form matting 的结果大致相当. 在图 3 (f) 中, 由于算法还结合了采集的样本信息, 表现比 Closed-form matting 更好. Learning based matting 作为新提出的方法, 取得了与其他方法相 当甚至更好的效果. 特别是在包含半透明物体的图 像 (图 3 (e)) 中, 效果比其他四种方法都好. 说明算 法在学习的过程中对模型进行更一般化的假设 (例 如非线性假设), 可以增强算法在不同场景中的适应 性. 另一方面, 这种方法对学习中使用的样本依赖性 较大, 由于实验中图 3 (f) 对应的三分图前景区较小, 而 Learning based matting 没有考虑采样等其他方 式获得更多有效的学习样本, 因此在图 3 (f) 中没有 取得好的效果. 图 4 多种算法抠像结果的均方误差 Fig. 4 MSE of matting results from various algorithms 此外, 对更多的抠像算法进行测试分析, 发 现了一些总体来说效果最好的算法 (如 Shared matting[30]、Improved color matting[29]), 这些算 法往往不是单一地采用颜色采样或像素相似性的 方法, 而是融合了多种技术, 并进一步对采样方式 进行优化, 或者构造了更有效的先验知识. 图 5 对 Improved color matting、Shared matting、Robust matting、Closed-form matting 四种方法的抠像结 果进行了比较. 从图中明显地看出, 前两种算法比 后两种效果要好. 事实上, Shared matting 和 Improved color matting 算法中, 首先进行前景/背景 颜色采样, 根据采集的样本求出初步的抠像结果, 再结合 Closed-form matting 进行优化. 此外, Improved color matting 在采样时考虑了测地线距离, 还在后续的 α 值估计时加入了 “稀疏先验 (Sparsity prior)”, 这是根据颜色特征建立的, 对估算出的 α 值进行偏移, 使之等于 0 或 1, 以减少一些错误生成 的模糊区. 因此, 可以认为, 融合多种抠像技术、对 采样技术进行优化、构造有效的先验知识是未来可 能的发展方向. 图 5 多种算法抠像结果的均方误差比较 Fig. 5 Comparison of MSE of matting results from various algorithms 接着以测试图像中图 3 (c) 的右下角为例, 分析 各种算法下抠像结果的差异. 图 6 列举了六种算法 的结果. 可以看出, Bayesian matting[3] 在这种形状 复杂的情况下表现不佳, 出现了较多不连续的区域, 而且由于背景与前景颜色相似, 一部分背景被错误 地抠选. Closed-form matting 表现相对较好, 然而, 由于算法中的平滑假设, 使得结果过于平滑, 忽略 了一些细节, 而且由于没有颜色信息采集, 有些深 色的叶子被错误地判断为背景. Learning based 和 Robust matting 表现相当, 一些区域中仍然错误地 把背景选中. Shared 和 Improved color matting 则 基本上消除了这个问题, 但仍然有些瑕疵. 从上面的测试效果中, 可以看出, 在以三分图 为算法输入的情况下, 目前的算法已经取得了一定 的进展. 下面, 分析其他用户交互方式下的抠像效 果. 从图 7 中可以看出, 在前景/背景比较简单, 且区 分度较大的情况下, 全自动化的 Spectral matting 算法可以生成较为理想的结果. 而图 8 中则包含了 对图 3 (a) 的抠像结果. 首先, 图 8 (b) 是 Spectral matting[20] 的全自动抠像结果. 可以看出, 抠像结果 中只提取了玩具的头发以及背景中的桥梁, 没有选 中玩具的身体, 显然这个结果并不正确. 这是由于缺 乏用户输入, 算法不能获得足够的语义信息, 只能对 视觉上特性接近的区域进行聚类. 对于涂鸦的输入 方式, 图 8 (d) 中展示了 Closed-form matting 的结 果, 由于输入图像的场景比较复杂, 对于有限的涂鸦
1580 自动化学报 38卷 Improved color matting 0.9 Leaming based Closed-formlle Improved colors Shared 图6抠像结果比较 Fig 6 Comparison of different matting results from various algorithms 日 (a)原始图像 (b) Spectral matting全自动抠像结果 (a)Input image (a)Input image b)Result of spectral matting (b) Result of spectral 图7全自动抠像的结果 Fig 7 Fully automatic matting result 标记,算法不能从被标记的区域中获得未知区域的 完整特性.而玩具头发的颜色和背景中桥梁的颜色 比较接近,因此部分桥梁区域被误选.而玩具的手和 (c)涂鸦方式输入 衣服颜色区别较大,手没有被完全选中.图8(e)中 的三分图则带有更精细的信息,同样是 Closed-form matting算法,在三分图输入下获得了更好的结果 (如图8(f).由于算法基于 Color line模型的假设, 以及桥梁颜色和头发颜色过于接近,抠像结果中的 右上角区域仍然不能精细地提取出头发丝.根据图 7和图8的结果,可以看出,相对于三分图的输入方 (e)三分图输入 (f) Closed- form mating抠像结果 式,全自动方式的抠像更为简便,在一些简单的场景 (e)Trimap-based input 中能得到理想的结果.然而,全自动或涂鸦方式下 图8不同输入方式下的抠像结果 抠像算法更加缺乏语义信息,对求解的不定问题进Fg.8 Matting results of different interaction mode 限制,因此求解过程变得更加困难,对于复杂的场 景,抠像效果相对较差 要求.其中, Bavesian matting因为需要对每个未 算法效率方面,文献门1中曾对一些有代表性的知像素的采集样本建立高斯混合模型,所以消耗的 算法进行了测试.测试程序运行于一台CPU主频为时间较多. Iterative bp[as则因为信任传播算法 30GHz、内存大小为4GB的工作站.对于一张大收敛较慢,也带来较大的计算时间开销. Poisson 小约1000像素×700像素的图像,输入一张含有 matting通过迭代的方法求解泊松方程,效率也不 约20%未知像素的三分图,算法运行时间如表1所高. Robust matting由于结合了颜色采样技术,以 示从表1可以看出,这些算法均不能达到实时性的及 Closed- form matting中的拉普拉斯矩阵进行求
1580 自 动 化 学 报 38 卷 图 6 抠像结果比较 Fig. 6 Comparison of different matting results from various algorithms 图 7 全自动抠像的结果 Fig. 7 Fully automatic matting result 标记, 算法不能从被标记的区域中获得未知区域的 完整特性. 而玩具头发的颜色和背景中桥梁的颜色 比较接近, 因此部分桥梁区域被误选. 而玩具的手和 衣服颜色区别较大, 手没有被完全选中. 图 8 (e) 中 的三分图则带有更精细的信息, 同样是 Closed-form matting 算法, 在三分图输入下获得了更好的结果 (如图 8 (f)). 由于算法基于 Color line 模型的假设, 以及桥梁颜色和头发颜色过于接近, 抠像结果中的 右上角区域仍然不能精细地提取出头发丝. 根据图 7 和图 8 的结果, 可以看出, 相对于三分图的输入方 式, 全自动方式的抠像更为简便, 在一些简单的场景 中能得到理想的结果. 然而, 全自动或涂鸦方式下, 抠像算法更加缺乏语义信息, 对求解的不定问题进 行限制, 因此求解过程变得更加困难, 对于复杂的场 景, 抠像效果相对较差. 算法效率方面, 文献 [1] 中曾对一些有代表性的 算法进行了测试. 测试程序运行于一台 CPU 主频为 3.0 GHz、内存大小为 4 GB 的工作站. 对于一张大 小约 1 000 像素 × 700 像素的图像, 输入一张含有 约 20 % 未知像素的三分图, 算法运行时间如表 1 所 示. 从表 1 可以看出, 这些算法均不能达到实时性的 图 8 不同输入方式下的抠像结果 Fig. 8 Matting results of different interaction modes 要求. 其中, Bayesian matting 因为需要对每个未 知像素的采集样本建立高斯混合模型, 所以消耗的 时间较多. Iterative BP[48] 则因为信任传播算法 收敛较慢, 也带来较大的计算时间开销. Poisson matting 通过迭代的方法求解泊松方程, 效率也不 高. Robust matting 由于结合了颜色采样技术, 以 及 Closed-form matting 中的拉普拉斯矩阵进行求