《自动化学报》：数字抠像的最新研究进展（中国科学院深圳先进技术研究院）

本文首先介绍了目前数字抠像的交互方式,然后把抠像技术分为基于颜色采样、基于像素相似性、基于能量函数以及基于机器学习的四类技术,介绍和分析了其中的典型算法和最新研究成果,并对这些算法的测试结果进行了定量和定性比较,最后总结了数字抠像技术目前的研究状况和未来的发展方向。

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：5.11MB

第38卷第10期自动化学报 Vol 38. No 10 2012年10月 ACTA AUTOMATICA SINICA October 2012 数字抠像的最新研究进展张展鹏12朱青松1谢耀钦1 摘要数字抠像是图像处理、视频编辑和电影制作中的关键技术.通过数字抠像,从图像或视频的背景中精确地分离岀前景,是计算机视觉领域的重要问题.本文首先介绍了目前数字抠像的交互方式,然后把抠像技术分为基于颜色采样、基于像素相似性、基于能量函数以及基于机器学习的四类技术,介绍和分析了其中的典型算法和最新研究成果,并对这些算法的测试结果进行了定量和定性比较,最后总结了数字抠像技术目前的研究状况和未来的发展方向关键词数字抠像,自然图像抠像,图像分割,图像处理用格式张展鹏,朱青松,谢耀钦.数字抠像的最新研究进展.自动化学报,2012,38(10):1571-1584 DOI10.3724/SPJ.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng,- ZHU Qing-Song XIE Yao-Qin Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571-1584 数字抠像( Digital matting)是指从图像或视频的前景边缘,图像离散化过程中造成的非连续性、运的背景中精确地分离出前景,是图像处理、视频编辑动或光照带来的模糊是形成混合像素的主要原因和电影制作中的关键技术,已得到广泛的研究和应对于彩色图像Ⅰ,需要为每个像素I2估计前景用.抠像过程中,设图像Ⅰ包含N个像素,即I=色、背景色以及前景不透明度.已知该像素的颜色 I1,I2,I3…,IN},其中每个像素2的颜色C2 C2,若采用RGB颜色空间表示,则C2,F2,B 表示成其前景色F2与背景色B2的线性组合,即为三维向量,对于式(1)可得出3个方程,3个已知 C2=a2F2+(1-a2)B (1)变量和7个未知变量.显然这是不定方程,即病态 (I- posed)问题叫.因此,通常需要使用先验假设或下文将式(1)称为抠像方程.其中a2∈[0.,1],表示用户提供的额外信息,为抠像问题增加限制条件,然像素Ⅰ在图像中的前景不透明度.若α2=1,则该后进行求解.灰度图像与此类似像素属于前景,若α2=0,则属于背景.若0<a2 早期研究中,通过把前景物体置于已知颜色的 <1,则该像素为前景与背景的混合,可称为“混合背景前采集图像,从而减少方程中的未知数,这种方像素”.混合像素一般出现在半透明的物体或毛绒状法被称为“蓝屏抠像”. Smith等在1996年就提出收稿日期2011-1008录用日期201205-10 种三角抠像法2.该方法把同一前景物体置于多 anuscnipt received octoner:201 accepted1:边012个不同的背景中,得到多幅图像,再抠选前景.因为科学基金(81171402,30928030)资助这些背景的颜色已知,增加了抠像问题中的己知信 Supported by National Basic Research Program of China(973息,使得抠像方程有确定的解.由于三角抠像把抠像 ga3问题转化为求解超定方程,且抠像效果良好,在目前本文责任编委戴琼海的研究中,常被用于生成标准的抠像结果( Ground 1.中国科学深圳先进技木研究院深51852中山大学广州 truth)1-4(如图1(d),作为算法测试和评价的依 510275 据.然而,由于蓝屏抠像需要已知且固定的背景,因 Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen Uni- 此应用范围不广 ersity, Guangzhou 510275

第 38 卷第 10 期自动化学报 Vol. 38, No. 10 2012 年 10 月 ACTA AUTOMATICA SINICA October, 2012 数字抠像的最新研究进展张展鹏 1, 2 朱青松 1 谢耀钦 1 摘要数字抠像是图像处理、视频编辑和电影制作中的关键技术. 通过数字抠像, 从图像或视频的背景中精确地分离出前景, 是计算机视觉领域的重要问题. 本文首先介绍了目前数字抠像的交互方式, 然后把抠像技术分为基于颜色采样、基于像素相似性、基于能量函数以及基于机器学习的四类技术, 介绍和分析了其中的典型算法和最新研究成果, 并对这些算法的测试结果进行了定量和定性比较, 最后总结了数字抠像技术目前的研究状况和未来的发展方向. 关键词数字抠像, 自然图像抠像, 图像分割, 图像处理引用格式张展鹏, 朱青松, 谢耀钦. 数字抠像的最新研究进展. 自动化学报, 2012, 38(10): 1571−1584 DOI 10.3724/SP.J.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng1, 2 ZHU Qing-Song1 XIE Yao-Qin1 Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that, matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested. Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571−1584 数字抠像 (Digital matting) 是指从图像或视频的背景中精确地分离出前景, 是图像处理、视频编辑和电影制作中的关键技术, 已得到广泛的研究和应用. 抠像过程中, 设图像 I 包含 N 个像素, 即 I = {I1, I2, I3, · · · , IN }, 其中每个像素 Iz 的颜色 Cz 可表示成其前景色 Fz 与背景色 Bz 的线性组合, 即 Cz = αzFz + (1 − αz)Bz (1) 下文将式 (1) 称为抠像方程. 其中 αz ∈ [0, 1], 表示像素 Iz 在图像中的前景不透明度. 若 αz = 1, 则该像素属于前景, 若 αz = 0, 则属于背景. 若 0 < αz < 1, 则该像素为前景与背景的混合, 可称为 “混合像素”. 混合像素一般出现在半透明的物体或毛绒状收稿日期 2011-10-08 录用日期 2012-05-10 Manuscript received October 8, 2011; accepted May 10, 2012 国家重点基础研究发展计划 (973 计划) (2010CB732606), 国家自然科学基金 (81171402, 30928030) 资助 Supported by National Basic Research Program of China (973 Program) (2010CB732606) and National Natural Science Foundation of China (81171402, 30928030) 本文责任编委戴琼海 Recommended by Associate Editor DAI Qiong-Hai 1. 中国科学院深圳先进技术研究院深圳 518055 2. 中山大学广州 510275 1. Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen University, Guangzhou 510275 的前景边缘, 图像离散化过程中造成的非连续性、运动或光照带来的模糊是形成混合像素的主要原因. 对于彩色图像 I, 需要为每个像素 Iz 估计前景色、背景色以及前景不透明度. 已知该像素的颜色 Cz, 若采用 RGB 颜色空间表示, 则 Cz, Fz, Bz 均为三维向量, 对于式 (1) 可得出 3 个方程, 3 个已知变量和 7 个未知变量. 显然这是不定方程, 即病态 (Ill-posed) 问题[1] . 因此, 通常需要使用先验假设或用户提供的额外信息, 为抠像问题增加限制条件, 然后进行求解. 灰度图像与此类似. 早期研究中, 通过把前景物体置于已知颜色的背景前采集图像, 从而减少方程中的未知数, 这种方法被称为 “蓝屏抠像”. Smith 等在 1996 年就提出一种三角抠像法[2] . 该方法把同一前景物体置于多个不同的背景中, 得到多幅图像, 再抠选前景. 因为这些背景的颜色已知, 增加了抠像问题中的已知信息, 使得抠像方程有确定的解. 由于三角抠像把抠像问题转化为求解超定方程, 且抠像效果良好, 在目前的研究中, 常被用于生成标准的抠像结果 (Ground truth)[3−4] (如图 1 (d)), 作为算法测试和评价的依据. 然而, 由于蓝屏抠像需要已知且固定的背景, 因此应用范围不广

1572 自动化学报 38卷 (a)原始图像 (b)三分图 (c)涂鸦方式 (d)标准结果 a) Input image (b) Trimap (d) Ground truth 图1数字抠像的交互方式 Fig 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像,即不对背景界较长或形状复杂的情况下,这种工作仍然繁琐进行限制,面向任意的自然图像.此外,数字抠像的扩展应用,如环境抠像、阴影抠像以及视频抠像,也1.2涂鸦方式受到关注同.环境抠像除了精确地提取前景以外, 由于生成三分图的工作比较困难和繁琐,为了还需要得到物体对光照的反射和折射特性使得前提高数字抠像的实用性,越来越多抠像技术采用涂景物体在新合成的图像中也能体现这些性质间,这鸦方式1,以提供良好的用户体验。如图1(, 种技术对于透明物体的抠像特别重要.阴影抠像用户只需通过涂鸦式的操作,使用笔刷,在前景和背把图像中的阴影部分提取出来,去除原图像的阴景的其中一小部分上做标记由于涂鸦的结果可看影或把阴影合成到新的背景.视频抠像可看作三分图的子集,一般支持涂鸦式交互的技术也支作数字抠像在连续图像序列的扩展,有效的物体跟持三分图.涂鸦方式下,用户的输入更为简单.然踪10和运动分割山能简化用户的操作而,由于只对某部分进行了标记,没有得到较为完整由于自然图像抠像是近年的研究热点、具有实的前景和背景样本,难以对大面积的未知区域进行用价值且应用广泛,因此下文的论述中将以自然图估算.因此,一些算法先进行图像分割,自动生成大像抠像为重点展开,介绍数字抠像最新的研究进展.致的三分图,或者从标记的已知区域开始,迭代同时为了内容的全面性及完整性,也会详细分析式地对附近的像素进行估算,逐渐增大已知区域直些经典算法到抠像完成8.也有算法把用户的标记转化为求解 1数字抠像的交互方式不定方程的限制条件121.还有采用迭代式的涂鸦即根据用户的每次涂鸦操作,对结果进行改进.文献由于数字抠像是一个病态问题,需要获得额外14中实现了一种基于涂鸦输入的交互式抠像方法, 的信息进行求解,因此,在目前的算法中,经常通过每次用户添加了新的涂鸦标记后,算法只需更新图用户的交互,获得更多输入信息,构建约束条件.主中的部分像素而不需重新全部计算,从而提高响应要的交互方式有三分图和涂鸦方式速度.然而,当用户涂鸦出错想擦去时,则没有应对 11三分图的方案,或者需要重新对全部像素进行计算.此外由于涂鸦操作获得的初始样本较少,实际中算法不三分图( Trimap)是指一幅大小与原图像相等定能得到有代表性的样本,而且抠像效果容易受的图像,图像被用户划分为前景区、背景区以及未知到图像噪声的影响区域.在这种情况下,前景/背景区为已知区域,抠像除了三分图和涂鸦方式,也有其他的交互方式算法需要估算未知区域像素的前景色、背景色以及比如在 GrabCutl中,用户使用一个矩形框选中图前景不透明度.图1(b)为一幅三分图,其中背景标像中的前景部分.在很多情况下,这种方式更为直注为黑色,前景为白色,灰色为未知区域.三分图是观.但是,由于选中的区域中也包含了部分背景,算对原图像的粗略划分,是自然图像抠像的研究中,最法不能获得准确的前景样本,难以确定前景边界,需开始采用的输入方式.文献阝3,12]等均采用三分图要用户进行一些边界标注.还有方法首先通过无监作为算法的输入.然而,创建一幅三分图往往需要督的方式,根据像素间的相似性,自动地对图像进行较多的用户操作,对于一些形状复杂的图像(如蜘蛛区域分割,然后指导用户在需要提取的区域上点击网),创建的工作非常困难. Soft scissors中实现或做上记号,接着通过这些标记信息对各个区域进了一种智能的描边笔刷,能够根据实时的描边情况行合并或提取,继续完成抠像20-21. 改变笔刷大小,降低边界定位的难度,然而在前景边上述方法中,虽然用户操作的复杂性不同,但共

1572 自动化学报 38 卷图 1 数字抠像的交互方式 Fig. 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像, 即不对背景进行限制, 面向任意的自然图像. 此外, 数字抠像的扩展应用, 如环境抠像、阴影抠像以及视频抠像, 也受到关注[5] . 环境抠像除了精确地提取前景以外, 还需要得到物体对光照的反射和折射特性, 使得前景物体在新合成的图像中也能体现这些性质[6] . 这种技术对于透明物体的抠像[7] 特别重要. 阴影抠像是把图像中的阴影部分提取出来, 去除原图像的阴影[8] 或把阴影合成到新的背景[9] . 视频抠像可看作数字抠像在连续图像序列的扩展, 有效的物体跟踪[10] 和运动分割[11] 能简化用户的操作. 由于自然图像抠像是近年的研究热点、具有实用价值且应用广泛, 因此下文的论述中将以自然图像抠像为重点展开, 介绍数字抠像最新的研究进展. 同时为了内容的全面性及完整性, 也会详细分析一些经典算法. 1 数字抠像的交互方式由于数字抠像是一个病态问题, 需要获得额外的信息进行求解, 因此, 在目前的算法中, 经常通过用户的交互, 获得更多输入信息, 构建约束条件. 主要的交互方式有三分图和涂鸦方式. 1.1 三分图三分图 (Trimap) 是指一幅大小与原图像相等的图像, 图像被用户划分为前景区、背景区以及未知区域. 在这种情况下, 前景/背景区为已知区域, 抠像算法需要估算未知区域像素的前景色、背景色以及前景不透明度. 图 1 (b) 为一幅三分图, 其中背景标注为黑色, 前景为白色, 灰色为未知区域. 三分图是对原图像的粗略划分, 是自然图像抠像的研究中, 最开始采用的输入方式. 文献 [3, 12] 等均采用三分图作为算法的输入. 然而, 创建一幅三分图往往需要较多的用户操作, 对于一些形状复杂的图像 (如蜘蛛网), 创建的工作非常困难. Soft scissors[13] 中实现了一种智能的描边笔刷, 能够根据实时的描边情况改变笔刷大小, 降低边界定位的难度, 然而在前景边界较长或形状复杂的情况下, 这种工作仍然繁琐. 1.2 涂鸦方式由于生成三分图的工作比较困难和繁琐, 为了提高数字抠像的实用性, 越来越多抠像技术采用涂鸦方式[14−16] , 以提供良好的用户体验. 如图 1 (c), 用户只需通过涂鸦式的操作, 使用笔刷, 在前景和背景的其中一小部分上做标记. 由于涂鸦的结果可看作三分图的子集, 一般支持涂鸦式交互的技术也支持三分图. 涂鸦方式下, 用户的输入更为简单. 然而, 由于只对某部分进行了标记, 没有得到较为完整的前景和背景样本, 难以对大面积的未知区域进行估算. 因此, 一些算法先进行图像分割, 自动生成大致的三分图[17] , 或者从标记的已知区域开始, 迭代式地对附近的像素进行估算, 逐渐增大已知区域直到抠像完成[18] . 也有算法把用户的标记转化为求解不定方程的限制条件[12,16] . 还有采用迭代式的涂鸦, 即根据用户的每次涂鸦操作, 对结果进行改进. 文献 [14] 中实现了一种基于涂鸦输入的交互式抠像方法, 每次用户添加了新的涂鸦标记后, 算法只需更新图中的部分像素而不需重新全部计算, 从而提高响应速度. 然而, 当用户涂鸦出错想擦去时, 则没有应对的方案, 或者需要重新对全部像素进行计算. 此外, 由于涂鸦操作获得的初始样本较少, 实际中算法不一定能得到有代表性的样本, 而且抠像效果容易受到图像噪声的影响. 除了三分图和涂鸦方式, 也有其他的交互方式. 比如在 GrabCut[19] 中, 用户使用一个矩形框选中图像中的前景部分. 在很多情况下, 这种方式更为直观. 但是, 由于选中的区域中也包含了部分背景, 算法不能获得准确的前景样本, 难以确定前景边界, 需要用户进行一些边界标注. 还有方法首先通过无监督的方式, 根据像素间的相似性, 自动地对图像进行区域分割, 然后指导用户在需要提取的区域上点击或做上记号, 接着通过这些标记信息对各个区域进行合并或提取, 继续完成抠像[20−21] . 上述方法中, 虽然用户操作的复杂性不同, 但共

10期张展鹏等:数字抠像的最新研究进展同的特点是,用户需要对图像中的某些区域进行标文献[18]在求解P(F),P(B)时,没有使用统计模记,指明前景区或背景区,因此属于半自动的方式.型对样本进行匹配或聚类,而仅仅基于空间距离和而一些研究中致力于实现全自动抠像.例如,闪光算法对样本的“置信度”,进行前景/背景色的估算, ( Flash)抠像2通过对同一场景进行两次拍摄,分从而达到减少计算量的目的;文献27则分别对前别开启和关闭闪光灯,得到两张图像作为算法的输景和背景区域使用全局的高斯混合模型( Gaussian 入.计算过程中取两张图像的差值,近似地提取出 mixture model,GMM)进行统计建模,减少采用局被闪光的前景,然后进行自动抠像.另外,立体图像部统计带来的计算量.然而,这些方法仍未解决基于 Stereo image)23、同一场景下不同焦点平面的多颜色采样的技术中普遍存在的问题,即在前景和背幅图像2也被作为算法输入,实现自动抠像景颜色接近、具有相似的统计特征或者色彩模糊的 2数字抠像的主要技术情况下,效果往往不佳.其主要原因是采集的样本只是图像中相近的像素,这些像素不一定能够有效地 21基于颜色采样的技术表示出未知像素的特征普遍图像中,相近的像素在统计特征上往往具为了提高颜色采样的效果,采样技术成为了近有相关性可以对相近的像素进行颜色采样,根据年来数字抠像的研究热点-3.wang等在2007 样本颜色的特点对未知区域像素的抠像参数(F,B,年提出 Robust matting方案,方案中根据“信任 a)进行估算. Berman等凹2对周边确定区域像素系数”的大小判断一对前景/背景像素能否作为样的前景/背景色进行加权,作为未知区域像素的估算本,信任系数的计算主要考虑样本与未知像素间的结果. ruzon等阅则最先在数字抠像中引入概率统颜色空间距离.而对于候选样本集的构建,与之前计,其基本思想是:对于未知区域的像素,先取附近的方法不同,不仅选取和未知像素相近的点,同时已知的前景和背景像素作为样本,进行聚类和统计,沿着附近已知区域的边缘进行扩张通常,抠像中需每个聚类使用高斯模型进行描述.然后根据样本颜要处理很多条状的未知区域(例如头发),这种方法色的概率模型和未知区域像素的颜色,估算未知像可以取得距离更远和种类更丰富的样本,而且样本素与前景背景中各个聚类的相似度,推导该像素的的颜色也与未知像素较为接近但有些情况下,三分前景不透明度.2001年,Chag圜在此基础上图中的未知区域较宽,而且已知区域的边缘处,其形提出了贝叶斯抠像( Bayesian matting.这种方法状、颜色与未知区域也不吻合,这种方法得到的样使用贝叶斯公式,把未知像素的估算问题转化为本并不具有代表性. Riemann等指出,测地线个最大后验概率问题.算法已知该像素的颜色C, 距离能够反映图像中的形状信息,同一形状上的像标是通过估计前景色F、背景色B以及a值,最大素关联度更大,因此可以用测地线距离进行辅助,建化后验概率,如式(2)所示立候选样本集.如图2(a)中,F和B区域分别是三分图中指定的前景区和背景区,灰色和白色的采 arg max P(F, B, aC) 样点分别表示Wang和 Riemann的方法得到的结 BEax P(CIF, B, a)P(F)P(B)P(a) 果可以看出,灰色的点与未知像素(即图2(a)中的 P(C) 点i)分布在同一物体上,颜色特征会更接近.然而上述两种方法都是从邻近像素出发,进行扩张的,要 (2)利用位置距离更远的像素,则需要遍历较大的空间其中概率P()均使用高斯分布模型进行描述.其从而带来很大的计算量.2010年, Gastal等在其中P(a)看作常数.P(C|F,B,a)使用aF-(1 Shared matting[30方案中,通过相邻像素间共享候 α)B作为高斯分布的均值.而对于P(F),P(B),在选样本来减少计算开销而且,在采集候选样本的时未知像素附近采集前景/背景样本,分别进行聚类.候,从每个像素出发,沿四条射线向外寻找,从而扩求出每个聚类中的均值和协方差矩阵作为高斯分布大采集范围(如图2(b),He等在201l年的最的参数,求解F,B对应的概率.由于抠像过程中,新成果中,进一步设计了一个全局的采样方法.三分需要对每个未知像素的样本进行聚类和统计,因此图中的所有前景F和背景B的像素组成一个大小计算量较大.而且,算法把未知区域看成前景区与背为NF×NB的矩阵,作为候选样本的“FB搜索空景区夹着的带状区域,抠像时,从带状区域两侧开间”.然后,把候选样本的采集看作图像像素与FB 始计算,逐步向中间部分推进,计算中会利用之前己搜索空间中样本对的匹配问题(如图2(c),匹配的求解的像素作为样本,所以求解过程中的误差会被标准基于颜色空间距离以及像素位置距离.为了避累积,这种现象在带状区域较宽的情况下更为明显.免对FB搜索空间的穷举,把样本的搜索算法分为不过,这种算法已取得当时最好的效果,所以得到两步:扩张搜索与随机搜索.算法的运行过程中,交广泛的参考和改进,是数字抠像的经典算法.例如,替地执行这两个步骤,添加符合的样本在扩张搜索

10 期张展鹏等: 数字抠像的最新研究进展 1573 同的特点是, 用户需要对图像中的某些区域进行标记, 指明前景区或背景区, 因此属于半自动的方式. 而一些研究中致力于实现全自动抠像. 例如, 闪光 (Flash) 抠像[22] 通过对同一场景进行两次拍摄, 分别开启和关闭闪光灯, 得到两张图像作为算法的输入. 计算过程中取两张图像的差值, 近似地提取出被闪光的前景, 然后进行自动抠像. 另外, 立体图像 (Stereo image)[23]、同一场景下不同焦点平面的多幅图像[24] 也被作为算法输入, 实现自动抠像. 2 数字抠像的主要技术 2.1 基于颜色采样的技术普遍图像中, 相近的像素在统计特征上往往具有相关性, 可以对相近的像素进行颜色采样, 根据样本颜色的特点对未知区域像素的抠像参数 (F, B, α) 进行估算. Berman 等[25] 对周边确定区域像素的前景/背景色进行加权, 作为未知区域像素的估算结果. Ruzon 等[26] 则最先在数字抠像中引入概率统计, 其基本思想是: 对于未知区域的像素, 先取附近已知的前景和背景像素作为样本, 进行聚类和统计, 每个聚类使用高斯模型进行描述. 然后根据样本颜色的概率模型和未知区域像素的颜色, 估算未知像素与前景/背景中各个聚类的相似度, 推导该像素的前景不透明度. 2001 年, Chuang 等[3] 在此基础上提出了贝叶斯抠像 (Bayesian matting). 这种方法使用贝叶斯公式, 把未知像素的估算问题转化为一个最大后验概率问题. 算法已知该像素的颜色 C, 目标是通过估计前景色 F、背景色 B 以及 α 值, 最大化后验概率, 如式 (2) 所示: arg max F,B,α P(F, B, α|C) = arg max F,B,α P(C|F, B, α)P(F)P(B)P(α) P(C) (2) 其中概率 P(·) 均使用高斯分布模型进行描述. 其中 P(α) 看作常数. P(C|F, B, α) 使用 αF − (1 − α)B 作为高斯分布的均值. 而对于 P(F), P(B), 在未知像素附近采集前景/背景样本, 分别进行聚类. 求出每个聚类中的均值和协方差矩阵作为高斯分布的参数, 求解 F, B 对应的概率. 由于抠像过程中, 需要对每个未知像素的样本进行聚类和统计, 因此计算量较大. 而且, 算法把未知区域看成前景区与背景区夹着的带状区域, 抠像时, 从带状区域两侧开始计算, 逐步向中间部分推进, 计算中会利用之前已求解的像素作为样本, 所以求解过程中的误差会被累积, 这种现象在带状区域较宽的情况下更为明显. 不过, 这种算法已取得当时最好的效果, 所以得到广泛的参考和改进, 是数字抠像的经典算法. 例如, 文献 [18] 在求解 P(F), P(B) 时, 没有使用统计模型对样本进行匹配或聚类, 而仅仅基于空间距离和算法对样本的 “置信度”, 进行前景/背景色的估算, 从而达到减少计算量的目的; 文献 [27] 则分别对前景和背景区域使用全局的高斯混合模型 (Gaussian mixture model, GMM) 进行统计建模, 减少采用局部统计带来的计算量. 然而, 这些方法仍未解决基于颜色采样的技术中普遍存在的问题, 即在前景和背景颜色接近、具有相似的统计特征或者色彩模糊的情况下, 效果往往不佳. 其主要原因是采集的样本只是图像中相近的像素, 这些像素不一定能够有效地表示出未知像素的特征. 为了提高颜色采样的效果, 采样技术成为了近年来数字抠像的研究热点[28−31]. Wang 等在 2007 年提出 Robust matting[28] 方案, 方案中根据 “信任系数” 的大小判断一对前景/背景像素能否作为样本. 信任系数的计算主要考虑样本与未知像素间的颜色空间距离. 而对于候选样本集的构建, 与之前的方法不同, 不仅选取和未知像素相近的点, 同时沿着附近已知区域的边缘进行扩张. 通常, 抠像中需要处理很多条状的未知区域 (例如头发), 这种方法可以取得距离更远和种类更丰富的样本, 而且样本的颜色也与未知像素较为接近. 但有些情况下, 三分图中的未知区域较宽, 而且已知区域的边缘处, 其形状、颜色与未知区域也不吻合, 这种方法得到的样本并不具有代表性. Rhemann 等[29] 指出, 测地线距离能够反映图像中的形状信息, 同一形状上的像素关联度更大, 因此可以用测地线距离进行辅助, 建立候选样本集. 如图 2 (a) 中, F 和 B 区域分别是三分图中指定的前景区和背景区, 灰色和白色的采样点分别表示 Wang 和 Rhemann 的方法得到的结果. 可以看出, 灰色的点与未知像素 (即图 2 (a) 中的点 i) 分布在同一物体上, 颜色特征会更接近. 然而, 上述两种方法都是从邻近像素出发, 进行扩张的, 要利用位置距离更远的像素, 则需要遍历较大的空间, 从而带来很大的计算量. 2010 年, Gastal 等在其 Shared matting[30] 方案中, 通过相邻像素间共享候选样本来减少计算开销. 而且, 在采集候选样本的时候, 从每个像素出发, 沿四条射线向外寻找, 从而扩大采集范围 (如图 2 (b)). He 等[31] 在 2011 年的最新成果中, 进一步设计了一个全局的采样方法. 三分图中的所有前景 F 和背景 B 的像素组成一个大小为 NF × NB 的矩阵, 作为候选样本的 “F B 搜索空间”. 然后, 把候选样本的采集看作图像像素与 F B 搜索空间中样本对的匹配问题 (如图 2 (c)), 匹配的标准基于颜色空间距离以及像素位置距离. 为了避免对 F B 搜索空间的穷举, 把样本的搜索算法分为两步: 扩张搜索与随机搜索. 算法的运行过程中, 交替地执行这两个步骤, 添加符合的样本: 在扩张搜索

1574 自动化学报 38卷中,根据邻近像素相似,考虑当前最佳样本的邻近节邻像素间的前景/背景色平滑过渡12、具有相同的点;在随机搜索中,则考虑一定范围内随机选定的样模糊连接度( Fuzzy connectedness91.与颜色采样本对.由于采用了全局的采样方法,可以有效避免合的技术相比,所用的邻近像素较少,可以充分利用邻适样本的丢失,同时,使用扩张搜索和随机搜索相结近像素的相关性,减少由于颜色采样中样本选取不合的方式,避免了穷举搜索带来的巨大计算量当导致的错误.而且基于邻近像素的相似性,可以促使求解出的前景不透明度在像素间平滑过渡,减少颜色采样技术中可能产生的不连续问题,有利于提高视觉效果. 这类技术中最典型的是泊松抠像12,由Sun等在2004年国际图形学会议( SIGGRAPH)论文中提出.该算法把抠像问题转化成求解关于a梯度的泊松方程.首先对抠像方程的左右两边求偏导,得 a)文献[29]中的采样方法 (b)文献[30]中的采样方法 (b) Sampling method of [30] VC=(F-BVa+aVF+(1-a)VB 3) 前景样本(F 其中,V=(品,).算法中假设图像中的前景色和背景色平滑过渡,因此aⅤF+(1-a)VB相对较小,可以忽略.a值的梯度Vo约等于C.然后利用三分图中的区域划分,已知区域边缘像素的a值定为0或1,从而确定了狄里克雷边界条件,可以求解对应的泊松方程(如式(4),得到α值. (c)文献[31]中的采样方法 (c)Sampling method of [31] F-B 图2抠像中的多种采样方法29-31 Fgs2 Various sampling methods in image matting中,△=(品+)为拉普拉斯算子,dv表示相应的研究.Lim等2使用感知颜色空间替换RGB化F,B的取值以使得a的变化足够小由于F,B 颜色空间进行建模,把透明度的计算细分为亮度和的初始值从最近的点选取,而且迭代过程中没有有色度透明度的计算,提高计算的精确度.Ch0等效的信息对F,B进行优化,只是基于图像“平滑过的方法则关注未知像素和附近样本颜色间的关系.渡”的假设,因此,在一些颜色复杂的图像中,这不基于二次贝塞尔( Bezier)曲线,引入了一个自适应能取得好的结果.为此,Sum等也提出了局部泊松抠的颜色曲线模型,对局部区域中各像素的颜色进行像,即通过用户对局部区域的操作,为全局抠像中忽描述.通过计算未知像素的颜色在曲线中的位置,得略的部分进行赋值,加入到计算中,在一些背景较复出抠像参数杂的图片中取得了比贝叶斯抠像更好的结果.然而中,抠像结果的质量差异很大叫在三分图被仔细时间较长、Dn等对此进行了改进,提出使用果.在纹理或色彩复杂的情况下,样本选取不当会对也作为抠像算法的输入同时,把原来基于散度的泊抠像结果产生不良的影响.为了提高采样统计的有松方程(式(4)改写成基于特征值的方程,使得方效性,近年来研究学者做了各种努力.然而,由于目程求解中更好地体现图像细节.通过这些方法,用户前候选样本的采用标准只考虑位置和颜色距离,仍只需提供初始的三分图而不需进行进一步的调整操然不能避免一些原本相关性不大的样本获得较高的作,提高了抠像效率信任系数,特别是在一些颜色模糊的区域由于测地线距离可以反映图像中物体的形状信息,基于测地线的抠像方法近几年也受到关 22基于像素相似性的技术注B,37-38.Bai等倒提出基于测地线的抠像框架基于像素相似性的技术假设在某种距离(例如其基本思想是使用像素间的测地线距离,结合前景位置距离、颜色空间距离)下,邻近的像素具有相似和背景的颜色概率分布,求出未知像素与前景的相的属性或符合一定的规律12.1434-36,例如,假设相似度,从而得出a值.像素间的测地线距离定义为

1574 自动化学报 38 卷中, 根据邻近像素相似, 考虑当前最佳样本的邻近节点; 在随机搜索中, 则考虑一定范围内随机选定的样本对. 由于采用了全局的采样方法, 可以有效避免合适样本的丢失, 同时, 使用扩张搜索和随机搜索相结合的方式, 避免了穷举搜索带来的巨大计算量. 图 2 抠像中的多种采样方法[29−31] Fig. 2 Various sampling methods in image matting[29−31] 除了前景/背景的采样技术, 颜色模型方面也有相应的研究. Lin 等[32] 使用感知颜色空间替换 RGB 颜色空间进行建模, 把透明度的计算细分为亮度和色度透明度的计算, 提高计算的精确度. Cho 等[33] 的方法则关注未知像素和附近样本颜色间的关系. 基于二次贝塞尔 (Bezier) 曲线, 引入了一个自适应的颜色曲线模型, 对局部区域中各像素的颜色进行描述. 通过计算未知像素的颜色在曲线中的位置, 得出抠像参数. 总体来说, 基于颜色采样的技术, 在不同的图像中, 抠像结果的质量差异很大[1] . 在三分图被仔细定义、前景/背景对比明显的情况下会取得良好的效果. 在纹理或色彩复杂的情况下, 样本选取不当会对抠像结果产生不良的影响. 为了提高采样统计的有效性, 近年来研究学者做了各种努力. 然而, 由于目前候选样本的采用标准只考虑位置和颜色距离, 仍然不能避免一些原本相关性不大的样本获得较高的信任系数, 特别是在一些颜色模糊的区域. 2.2 基于像素相似性的技术基于像素相似性的技术假设在某种距离 (例如位置距离、颜色空间距离) 下, 邻近的像素具有相似的属性或符合一定的规律[12,14,34−35] , 例如, 假设相邻像素间的前景/背景色平滑过渡[12]、具有相同的模糊连接度 (Fuzzy connectedness)[14] . 与颜色采样的技术相比, 所用的邻近像素较少, 可以充分利用邻近像素的相关性, 减少由于颜色采样中样本选取不当导致的错误. 而且基于邻近像素的相似性, 可以促使求解出的前景不透明度在像素间平滑过渡, 减少颜色采样技术中可能产生的不连续问题, 有利于提高视觉效果. 这类技术中最典型的是泊松抠像[12] , 由 Sun 等在 2004 年国际图形学会议 (SIGGRAPH) 论文中提出. 该算法把抠像问题转化成求解关于 α 梯度的泊松方程. 首先对抠像方程的左右两边求偏导, 得: ∇C = (F − B)∇α + α∇F + (1 − α)∇B (3) 其中, ∇ = ( ∂ ∂x , ∂ ∂y ). 算法中假设图像中的前景色和背景色平滑过渡, 因此 α∇F + (1 − α)∇B 相对较小, 可以忽略. α 值的梯度 ∇α 约等于 ∇C F −B . 然后利用三分图中的区域划分, 已知区域边缘像素的 α 值定为 0 或 1, 从而确定了狄里克雷边界条件, 可以求解对应的泊松方程 (如式 (4)), 得到 α 值. ∆α = div µ ∇C F − B ¶ (4) 其中, ∆ = ( ∂ 2 ∂x2 + ∂ 2 ∂y2 ) 为拉普拉斯算子, div 表示散度. 接着, 使用迭代的方法进行求解, 即不断地优化 F, B 的取值以使得 α 的变化足够小. 由于 F, B 的初始值从最近的点选取, 而且迭代过程中没有有效的信息对 F, B 进行优化, 只是基于图像 “平滑过渡” 的假设, 因此, 在一些颜色复杂的图像中, 这不能取得好的结果. 为此, Sun 等也提出了局部泊松抠像, 即通过用户对局部区域的操作, 为全局抠像中忽略的部分进行赋值, 加入到计算中, 在一些背景较复杂的图片中取得了比贝叶斯抠像更好的结果. 然而, 局部泊松抠像需要较多的用户交互, 整个抠像过程时间较长. Du 等[36] 对此进行了改进, 提出使用一系列的滤波操作提取图像的细微特征, 把这些特征也作为抠像算法的输入. 同时, 把原来基于散度的泊松方程 (式 (4)) 改写成基于特征值的方程, 使得方程求解中更好地体现图像细节. 通过这些方法, 用户只需提供初始的三分图而不需进行进一步的调整操作, 提高了抠像效率. 由于测地线距离可以反映图像中物体的形状信息, 基于测地线的抠像方法近几年也受到关注[34, 37−38]. Bai 等[34] 提出基于测地线的抠像框架. 其基本思想是使用像素间的测地线距离, 结合前景和背景的颜色概率分布, 求出未知像素与前景的相似度, 从而得出 α 值. 像素间的测地线距离定义为

10期张展鹏等:数字抠像的最新研究进展 1575 d(x,2)=min/w.Cp)(5)某两种颜色的线性组合,区域内像素的F和B分布在RGB空间的同一直线上.基于这个假定,可以推其中,Cx:是连接像素x与z之间的路径.作为权导出类似上述的结果 Levin等的这种方法通过添加值的W表征像素与前景相似度的梯度,定义为个较弱的假设,结合巧妙的代数变换,最终把抠像方程这个不定问题转化为确定问题,并求出了闭合 W=VPF()=V P(|F) 解. P(a F)+ P(B) Closed- form matting中推导出的矩阵L被称其中,P(叫F),P(叫B)分别代表前景和背景颜色的为“拉普拉斯像矩除”,是Lem等重要的理论成线距离Dp(x),DB(x)则定义为x到前景/背景区对应的特征向量进行聚类,从而可把图像分成多个的最小测地线距离.然后,求解式(7)得到a值区域,每个区域内的像素具有较大的相似性.文献 20在此基础上,利用谱聚类的思想,实现了谱抠像 a(x)= wF(a) (7)( Spectral matting).首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分,然后初步组合出前其中,p(x)=D(x)-P(x),r是控制边界平滑景和背景.用户也可以对图像中的区域进行标注,指程度的参数.uB(x)与此类似明前景和背景,根据这些限制信息,算法继续优化得数,可以在线性时间完成计算这个优点在算法扩展被分割成很多部分,如何进行组合是一个问题He 简单地基于前景和背景的颜色概率模型,当前景和了探讨由于拉普拉斯抠像矩阵行列数都等于像素背景色域重叠时权重计算会出现错误而且,这种数目,随着图像增大,计算量会剧增.以前的方案中基于测地线的方法,对用户指定的样本比较敏感,容般认为使得拉普拉斯矩阵越稀疏,就越能减少计易受噪声影响,出现边界估计结果不稳定的情况.此算量,即式(9)中的窗口大小|k偏向于取很小的外,方法中缺少对边界的求解,当图像实际边界较为值.而He等则指出这种直觉不一定正确,并实现了明显时可得出正确的结果,当边界模糊时则会出现种算法,在使用较大窗口的情况下,通过减少求解问题37 中的迭代次数,反而取得了更高的计算效率.另外 Levin等凹的方法中,则对抠像问题求出了闭Chen等在抠像方程中加入两个中间变量,对方合解( Closed-form solution),成为近来很多研究的程进行改写,添加像素间的平滑假设,把抠像问题转基础23一,以大小为NxN的灰度图像为例,化成二个线性规划问题,同样得到了闭合解通过假定图像中的一小块区域内,前景色F和背景点扩散函数( Point spread function,PSF)也色B保持恒定,然后对抠像方程进行改写,并定义被用于数字抠像.点扩散函数描述光学系统接收了一个二次目标函数,经过进一步的代数运算目标个点光源后,在成像区出现的区域光场图像中一些数化简成只与a相关的函数,如式(8)所示: 混合像素”(即0<α<1对应的像素)由这种现象产生,因此,PSF描述了局部区域内各像素a值 J(a=a la (8)的相互关系,可以把PSF作为先验知识进行抠像其中,L是N×N的矩阵,矩阵中元素(,j定义 Riemann等n在2008年最先提出这个方法整如下个图像的a平面,有以下定义 a=Ka° ∑(42-m(+ +σi 其中,K是PSF对应的矩阵形式,⑧是卷积运算, k(ij)∈k a是受PSF影响前的值.在2010年的国际计算机视觉与模式识别( Conference on computer vi- (Ii-HkIi-uk) (9) sion and pattern recognition,CVPR)会议论文中 Riemann等继续对PSF用于抠像的方法进行了优其中,|uk为包围像素k的窗口区域的大小,6,为化,首先用现有的抠像算法求出整个图像的a平克罗内克函数,k,G分别为mk内灰度值的均值和面,然后对a平面进行上采样( Pamplin),得到方差.然后通过最小化J(a),可得出a的值.对于更高的分辨率,接着估计出二值的a,即不透明度彩色图像,则假定像素颜色符合 Color line模型,即等于0或1.把图像根据模糊程度划分成若干区域, 在一小块区域内,前景色F或背景色B可以表示为估算每个区域对应的PSF.使用得到的PSF与ab

10 期张展鹏等: 数字抠像的最新研究进展 1575 d(x, z) = min Cx,z Z 1 0 |W · Cˆ x,z(p)|dp (5) 其中, Cx,z 是连接像素 x 与 z 之间的路径. 作为权值的 W 表征像素与前景相似度的梯度, 定义为 W = ∇PF (x) = ∇ P(x|F) P(x|F) + P(x|B) (6) 其中, P(x|F), P(x|B) 分别代表前景和背景颜色的概率分布函数. 而像素 x 到前景和背景区域的测地线距离 DF (x), DB(x) 则定义为 x 到前景/背景区的最小测地线距离. 然后, 求解式 (7) 得到 α 值. α(x) = wF (x) wF (x) + wB(x) (7) 其中, wF (x) = DF (x) −r ·PF (x), r 是控制边界平滑程度的参数. wB(x) 与此类似. 这种方法中, 测地线距离是基于权重距离的函数, 可以在线性时间完成计算. 这个优点在算法扩展到视频抠像的时候更加明显. 然而, 由于权重计算时简单地基于前景和背景的颜色概率模型, 当前景和背景色域重叠时, 权重计算会出现错误. 而且, 这种基于测地线的方法, 对用户指定的样本比较敏感, 容易受噪声影响, 出现边界估计结果不稳定的情况. 此外, 方法中缺少对边界的求解, 当图像实际边界较为明显时可得出正确的结果, 当边界模糊时则会出现问题[37] . Levin 等[16] 的方法中, 则对抠像问题求出了闭合解 (Closed-form solution), 成为近来很多研究的基础[20, 39−43] . 以大小为 N × N 的灰度图像 I 为例, 通过假定图像中的一小块区域内, 前景色 F 和背景色 B 保持恒定, 然后对抠像方程进行改写, 并定义了一个二次目标函数, 经过进一步的代数运算, 目标函数化简成只与 α 相关的函数, 如式 (8) 所示: J(α) = α TLα (8) 其中, L 是 N × N 的矩阵, 矩阵中元素 (i, j) 定义如下: X k|(i,j)∈wk Ã δij − 1 |wk| ³ 1 + 1 ² |wk| + σ 2 k × (Ii − µk)(Ij − µk) ´ ! (9) 其中, |wk| 为包围像素 k 的窗口区域的大小, δij 为克罗内克函数, µk, σ 2 k 分别为 wk 内灰度值的均值和方差. 然后通过最小化 J(α), 可得出 α 的值. 对于彩色图像, 则假定像素颜色符合 Color line 模型, 即在一小块区域内, 前景色 F 或背景色 B 可以表示为某两种颜色的线性组合, 区域内像素的 F 和 B 分布在 RGB 空间的同一直线上. 基于这个假定, 可以推导出类似上述的结果. Levin 等的这种方法通过添加一个较弱的假设, 结合巧妙的代数变换, 最终把抠像方程这个不定问题转化为确定问题, 并求出了闭合解. Closed-form matting 中推导出的矩阵 L 被称为 “拉普拉斯抠像矩阵”, 是 Levin 等重要的理论成果, 往后被广泛地引用. 取 L 的若干个最小特征值对应的特征向量进行聚类, 从而可把图像分成多个区域, 每个区域内的像素具有较大的相似性. 文献 [20] 在此基础上, 利用谱聚类的思想, 实现了谱抠像 (Spectral matting). 首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分, 然后初步组合出前景和背景. 用户也可以对图像中的区域进行标注, 指明前景和背景, 根据这些限制信息, 算法继续优化得出最终结果. 可是当图像中纹理比较复杂时, 图像将被分割成很多部分, 如何进行组合是一个问题. He 等[39] 则在计算效率方面对拉普拉斯抠像矩阵进行了探讨. 由于拉普拉斯抠像矩阵行列数都等于像素数目, 随着图像增大, 计算量会剧增. 以前的方案中, 一般认为使得拉普拉斯矩阵越稀疏, 就越能减少计算量, 即式 (9) 中的窗口大小 |wk| 偏向于取很小的值. 而 He 等则指出这种直觉不一定正确, 并实现了一种算法, 在使用较大窗口的情况下, 通过减少求解中的迭代次数, 反而取得了更高的计算效率. 另外, Chen 等[44] 在抠像方程中加入两个中间变量, 对方程进行改写, 添加像素间的平滑假设, 把抠像问题转化成一个线性规划问题, 同样得到了闭合解. 点扩散函数 (Point spread function, PSF) 也被用于数字抠像. 点扩散函数描述光学系统接收一个点光源后, 在成像区出现的区域光场. 图像中一些 “混合像素” (即 0 < α < 1 对应的像素) 由这种现象产生, 因此, PSF 描述了局部区域内各像素 α 值的相互关系, 可以把 PSF 作为先验知识进行抠像. Rhemann 等[17] 在 2008 年最先提出这个方法. 整个图像的 α 平面, 有以下定义: α = K ⊗ α s (10) 其中, K 是 PSF 对应的矩阵形式, ⊗ 是卷积运算, α s 是受 PSF 影响前的值. 在 2010 年的国际计算机视觉与模式识别 (Conference on computer vision and pattern recognition, CVPR) 会议论文中, Rhemann 等继续对 PSF 用于抠像的方法进行了优化[45] . 首先用现有的抠像算法求出整个图像的 α 平面, 然后对 α 平面进行上采样 (Upsampling), 得到更高的分辨率, 接着估计出二值的 α b , 即不透明度等于 0 或 1. 把图像根据模糊程度划分成若干区域, 估算每个区域对应的 PSF. 使用得到的 PSF 与 α b

1576 自动化学报 38卷构建出apor作为先验知识,最后代入现有的抠像心,取一定的宽度,划分出一个带状区域,作为未知算法中进行计算区域U,从而得到新的三分图.算法假设a值在边从泊松抠像开始,学术界就陆续提出了不少基界处渐变,使用一个软阶跃函数描述a的变化.新像素相似性的抠像方法.这些方法基于不同的相的能量函数定义如式(12)所示似性假设,得到先验知识,把抠像问题转换为数学上有确定解的问题由于不涉及到采样统计:只采用邻E=∑D1(an)+∑V(△,1,△+1,0+) 近的像素,充分利用邻近像素的相关性,这类算法在些色彩稍复杂的图像中,可以取得比颜色采样算法更好的结果然而不同的假设直接影响到算法对算法把带状未知区域U分成T小段,对每段进行色变化不大,因而在颜色变化频繁的图像中会出现项V,表征从第t段到第t+1段参数值的变化大较多错误;测地线距离的方法受用户输入的影响较小.相邻分段间参数变化越小,则a值变化越小.至大;应用PSF的方法受限于混合像素产生的原因,于数据项D,算法对区域U附近的前景/背景样本且增加了额外的计算量进行采样统计,建立高斯分布模型.与二值划分时类 2.3基于能量函数的技术似,在所建立的概率模型下,D的值与an取值下的由于基于颜色采样和像素相似性的技术各有优概率负相关因此,最小化能量一方面会使得a的缺点和适用范围,一些学者把两种思想融合到一个取值与邻近的区域相容,一方面又要求a能平滑地能量函数,同时描述当前抠像方案下,区域内统计上变化.因为U被截成有限小段,可使用动态规划进 Boykov等叫把图像边界分割问题定义为一个图割算法中对边界的平滑处理实际上是一个羽化的过程, ( Graph cut)问题图像被看作一个图( Graph,像这种方法并不适合于一些边缘复杂的情况素即其中的节点.图像分割的目标转换成寻找一个 Wang等ls则构建了一个马尔科夫随机场最小割”,对图像进行前景/背景划分.具体地,需 Markov random field)来解决抠像问题把待估要最小化一个预设的能量函数,即算的像素看做场内的节点,分别与4邻域的节点相连接.同时对α值进行离散化处理,分为25个可能 E(A)=AR(A)+B(A) (11)的取值,从而可以用a值表示节点所处的状态.同样地,定义场的能量中包含数据项和邻接项,然后通其中,A表示当前的划分方案,指定每个像素属于过信任传播( Belief propagation,BP)算法最小化质例如与前景颜色相近的点应该偏向于划分为前响了抠像效率;Gman等则在能量函数中引入了景,这样可使R(A)的值偏小 1)表征边界性动态的权重,调节数据项和平滑项的影响力其算质促使颜色差异较大的地方划分为边界.这种图法基于这样的假设:在前景的内部,物体一般较为平割思想后来被引入到数字抠像学者使用各种方法滑,此时增大平滑项的权重,使其在能量函数中发挥对R(4)、B(4)进行具体的定义.B(4)一般被称更大的影响.在边缘处,颜色对比较为明显,减少平为数据项.B(A)被称为边界项、平滑项或邻接项,滑项的权重,更多地利用数据项的优势.此外,和泊名称不同而作用大体一致 Lazy snapping以及松抠像的方法类似,采用全局抠像和局部抠像相结 GrabCut19都是这类算法的典型代表合的方法.用户可以对某些区域调节其平滑项的权 GrabCut在 Boykov算法的基础上改进而成重,或者为某些区域的前景色选择一些对比明显的其方案分为两步:首先进行图像的二值分割,即划分背景样本,增加数据项的有效性出前景区和背景区,然后对边界像素的a值进行平在2007年的CVPR会议论文中,Wang等滑处理第一步中,对式(1)的各项进行了重新的提出了新的方案,即 Robust matting2.与之前基定义数据项R表征GMM模型下邻近像素的相容于能量函数的方法相比,其主要思想是对数据项和性边界项B表征区域间像素的颜色空间距离邻平滑项的权重有了更精确的调节如第21节所述, 近像素间越符合GMM模型(概率值越大)则数据首先根据颜色空间距离,得出样本的信任系数∫,再项越小不同区域间像素的颜色距离越大则边界项直接根据样本粗略估计出对应的不透明度a.然后越小.算法通过一个迭代的过程,调整划分方案,最最小化能量函数,能量函数定义如式(13)所示小化能量函数,则可得到二值分割的结果接着,进行第二步,对边界像素进行a值的平E=∑(a:-)2+ 滑处理.以第一步中划分出的前景/背景分割线为中

1576 自动化学报 38 卷构建出 α prior 作为先验知识, 最后代入现有的抠像算法中进行计算. 从泊松抠像开始, 学术界就陆续提出了不少基于像素相似性的抠像方法. 这些方法基于不同的相似性假设, 得到先验知识, 把抠像问题转换为数学上有确定解的问题. 由于不涉及到采样统计, 只采用邻近的像素, 充分利用邻近像素的相关性, 这类算法在一些色彩稍复杂的图像中, 可以取得比颜色采样算法更好的结果. 然而不同的假设直接影响到算法对不同图像的适应性. 例如, 泊松抠像假设前景/背景色变化不大, 因而在颜色变化频繁的图像中会出现较多错误; 测地线距离的方法受用户输入的影响较大; 应用 PSF 的方法受限于混合像素产生的原因, 且增加了额外的计算量. 2.3 基于能量函数的技术由于基于颜色采样和像素相似性的技术各有优缺点和适用范围, 一些学者把两种思想融合到一个能量函数, 同时描述当前抠像方案下, 区域内统计上的相容性和像素间的渐变性, 以增加算法的健壮性. Boykov 等[46] 把图像边界分割问题定义为一个图割 (Graph cut) 问题. 图像被看作一个图 (Graph), 像素即其中的节点. 图像分割的目标转换成寻找一个 “最小割”, 对图像进行前景/背景划分. 具体地, 需要最小化一个预设的能量函数, 即 E(A) = λR(A) + B(A) (11) 其中, A 表示当前的划分方案, 指定每个像素属于前景还是背景. λ 为权重参数. R(A) 表征区域性质, 例如与前景颜色相近的点应该偏向于划分为前景, 这样可使 R(A) 的值偏小. B(A) 表征边界性质, 促使颜色差异较大的地方划分为边界. 这种图割思想后来被引入到数字抠像. 学者使用各种方法对 R(A)、B(A) 进行具体的定义. R(A) 一般被称为数据项. B(A) 被称为边界项、平滑项或邻接项, 名称不同而作用大体一致. Lazy snapping[47] 以及 GrabCut[19] 都是这类算法的典型代表. GrabCut 在 Boykov 算法的基础上改进而成. 其方案分为两步: 首先进行图像的二值分割, 即划分出前景区和背景区, 然后对边界像素的 α 值进行平滑处理. 第一步中, 对式 (11) 的各项进行了重新的定义. 数据项 R 表征 GMM 模型下邻近像素的相容性, 边界项 B 表征区域间像素的颜色空间距离. 邻近像素间越符合 GMM 模型 (概率值越大) 则数据项越小, 不同区域间像素的颜色距离越大则边界项越小. 算法通过一个迭代的过程, 调整划分方案, 最小化能量函数, 则可得到二值分割的结果. 接着, 进行第二步, 对边界像素进行 α 值的平滑处理. 以第一步中划分出的前景/背景分割线为中心, 取一定的宽度, 划分出一个带状区域, 作为未知区域 U, 从而得到新的三分图. 算法假设 α 值在边界处渐变, 使用一个软阶跃函数描述 α 的变化. 新的能量函数定义如式 (12) 所示: E = X n∈U Dn(αn) + X T t=1 V (∆t , σt , ∆t+1, σt+1) (12) 算法把带状未知区域 U 分成 T 小段, 对每段进行计算. ∆ 和 σ 是描述软阶跃函数的参数. 其中边界项 V , 表征从第 t 段到第 t + 1 段参数值的变化大小. 相邻分段间参数变化越小, 则 α 值变化越小. 至于数据项 D, 算法对区域 U 附近的前景/背景样本进行采样统计, 建立高斯分布模型. 与二值划分时类似, 在所建立的概率模型下, D 的值与 αn 取值下的概率负相关. 因此, 最小化能量一方面会使得 α 的取值与邻近的区域相容, 一方面又要求 α 能平滑地变化. 因为 U 被截成有限小段, 可使用动态规划进行求解. 然而, 由于使用软阶跃函数描述 α 的变化, 算法中对边界的平滑处理实际上是一个羽化的过程, 这种方法并不适合于一些边缘复杂的情况. Wang 等[48] 则构建了一个马尔科夫随机场 (Markov random field) 来解决抠像问题. 把待估算的像素看做场内的节点, 分别与 4 邻域的节点相连接. 同时对 α 值进行离散化处理, 分为 25 个可能的取值, 从而可以用 α 值表示节点所处的状态. 同样地, 定义场的能量中包含数据项和邻接项, 然后通过信任传播 (Belief propagation, BP) 算法最小化能量函数, 得到 α. 然而, BP 算法收敛速度较慢, 影响了抠像效率; Guan 等[15] 则在能量函数中引入了动态的权重, 调节数据项和平滑项的影响力. 其算法基于这样的假设: 在前景的内部, 物体一般较为平滑, 此时增大平滑项的权重, 使其在能量函数中发挥更大的影响. 在边缘处, 颜色对比较为明显, 减少平滑项的权重, 更多地利用数据项的优势. 此外, 和泊松抠像的方法类似, 采用全局抠像和局部抠像相结合的方法. 用户可以对某些区域调节其平滑项的权重, 或者为某些区域的前景色选择一些对比明显的背景样本, 增加数据项的有效性. 在 2007 年的 CVPR 会议论文中, Wang 等又提出了新的方案, 即 Robust matting[28] . 与之前基于能量函数的方法相比, 其主要思想是对数据项和平滑项的权重有了更精确的调节. 如第 2.1 节所述, 首先根据颜色空间距离, 得出样本的信任系数 ˆf, 再直接根据样本粗略估计出对应的不透明度 αˆ. 然后最小化能量函数, 能量函数定义如式 (13) 所示: E = X z∈ψ h ˆfz(αz − αˆz) 2 +

10期张展鹏等:数字抠像的最新研究进展 (1-f)(a2-6(a2>05)2+入·J(a) 的估算转化为一个二次最优化问题,从而估算出, (13)Ao,即描述出模型.对于非线性模型,使用核方法 ( Kernel trick)进行转换,把线性情况下,β,的求其中,6表示布尔运算,返回0或1.对左边项稍解结果中,包含的向量x1与x的内积,使用核函数作直观分析,当样本信任系数高,则认为估计算的k(x1,x)替换,其中,x=[z1T.具体地,可以 a2可信,因此使a2与a2的差值变小.而当信任使用高斯核,即k(x1,x)=exp(x2-x1‖2).使系数较小时,a2的具体数值相对不可靠,a2只需用图像灰度值的方差.与之前的方法相比,这种方法根据一个阀值(0.5)大致追随估算值.右边项J(a)有两个优势:一是实现简单,在整个过程中只需一些的定义与式(8)相同,可见 Robust matting中融入矩阵操作;二是针对线性和非线性的模型有相应的了 Closed- -form matting的方法.其原因是( Closed-处理方法,建立的模型可以更一般化 form matting中充分利用了邻近像素的相关性,正除了 Zheng等的这个方法,主成分分析(Prin 好作为平滑项与数据项互补 cipal component analysis,PCA)也曾经被用于前此外,近两年的研究中,开始偏向于在数据项或景提取2; Hosaka等网则利用支持向量机(Sup 平滑项赋予更多的假设或先验知识,使得抠像更准 port vector machine,SVM)进行前景/背景分类; 确.例如Park等网把 Graph cut和 Closed-form而Won等考虑到局部线性嵌入( Locally linear matting结合起来,分别利用两者在“硬”分割和 embedding,LLE)在把高维度数据映射到低维度 “软”分割上的优势实现抠像. Price等则在能量时,能保持点的邻近关系,从而实现了一种抠像中应函数中融入了测地线距离的度量用LLE进行颜色估计的方法文献[5引中提出 24基于机器学习的技术种基于局部学习的方法,构造出包含多次相似性权值计算的拉普拉斯抠像矩阵,精细地刻画数据局部从数字抠像的已知条件和求解目标来看,可以几何结构,从而求出更优的结果把抠像的过程看作建立α与图像颜色之间的模型. 文献⑤56则把抠像问题看成一个模式识别问题在颜色采样的技术中,通过颜色的相关度来寻找这在学习阶段,使用非负矩阵因式分解( Non-negative 些相关点,然后假设像素间的前景/背景色符合某种 matrix factorization,NMF)构造表征前景及背景统计模型(如GMM),求解的目标是使未知像素的的基矩阵和系数矩阵;在识别阶段,根据未知像素的报像参数拟合统计模型;基于像素相似性的技术与颜色值,分解出原有的基矩阵与新的系数矩阵,通过此类似,通过各种方法定义相邻的点(如位置相邻、比较新的系数矩阵和原来的系数矩阵,从而判断未测地线距离相近,然后假设像素间符合一定的关系知像素的不透明度a.算法中,首先对未知像素 (如平滑过渡、点扩散函数关系),基于假设条件对抠分别选取两个距离最近的前景节点和背景节点及其像方程或目标函数进行代数求解得出结果假设条8邻域像素的颜色值(或者灰度值)组成矩阵V.其件越弱,则算法健壮性越强,精确度越高.基于机器中V共有四列,取其中一个前景节点及其8邻域像学习的技术与之不同,这类算法把抠像的过程看做素的颜色值组成第一列,取另外一个前景节点及其8 个监督或半监督学习的问题,通过一个学习的过邻域像素的颜色值组成第二列.对于后两列则使用程,建立a与图像颜色之间的模型,而不依赖于较强同样的方法根据两个背景节点生成。然后对V进行的模型假设 NMF分解,即V≈W×H.V中的第k列数据可 Zheng等在200年的国际计算机视觉(In-看做W的各行分别与H的第k列数据Hk的线性 ternational conference on computer vision,CCV)组合因此,把W看做表征前景和背景的基矩阵,H 会议论文中运用了这种基于学习的方法.算法的目的前两列是对应前景特征的系数,后两列对应背景标是通过训练建立a与图像颜色之间的模型,从而特征的系数.分解完成后,即完成学习阶段,开始识预测末知像素的a值模型可以是线性或非线性的、别阶段.类似地,取像素i及其8邻域像素的数据组这里简单介绍其模型的建立方法为便于表述,先介成矩阵Va,然后使用之前计算的基矩阵W对V 绍线性模型的情况,再进行扩展设局部区域中,a进行分解,得出新的系数矩阵H21接着计算会与图像颜色间的模型可表示为与H前后两列的欧几里得距离.定义 a=xB+④ ds=2|ny-H1‖ 其中,x是局部区域中各像素的颜色空间向量的集合,B、分别是模型的参数.其中A为标量,β dbg=min, IHobj-Haill 为矢量,维数等于图像颜色的通道数.通过岭回归其中,dg,dbx分别表征像素i与前景/背景的距离 Ridge regression)技术,可以把模型参数β,最后根据dg与dhx的比值确定像素属于前景或背

10 期张展鹏等: 数字抠像的最新研究进展 1577 (1 − ˆfz)(αz − δ( ˆαz > 0.5))2 i + λ · J(α) (13) 其中, δ 表示布尔运算, 返回 0 或 1. 对左边项稍作直观分析, 当样本信任系数高, 则认为估计算的 αˆz 可信, 因此使 αz 与 αˆz 的差值变小. 而当信任系数较小时, ˆαz 的具体数值相对不可靠, αz 只需根据一个阀值 (0.5) 大致追随估算值. 右边项 J(α) 的定义与式 (8) 相同, 可见 Robust matting 中融入了 Closed-form matting 的方法. 其原因是 Closedform matting 中充分利用了邻近像素的相关性, 正好作为平滑项与数据项互补. 此外, 近两年的研究中, 开始偏向于在数据项或平滑项赋予更多的假设或先验知识, 使得抠像更准确. 例如 Park 等[49] 把 Graph cut 和 Closed-form matting 结合起来, 分别利用两者在 “硬” 分割和 “软” 分割上的优势实现抠像. Price 等[37] 则在能量函数中融入了测地线距离的度量. 2.4 基于机器学习的技术从数字抠像的已知条件和求解目标来看, 可以把抠像的过程看作建立 α 与图像颜色之间的模型. 在颜色采样的技术中, 通过颜色的相关度来寻找这些相关点, 然后假设像素间的前景/背景色符合某种统计模型 (如 GMM), 求解的目标是使未知像素的抠像参数拟合统计模型; 基于像素相似性的技术与此类似, 通过各种方法定义相邻的点 (如位置相邻、测地线距离相近), 然后假设像素间符合一定的关系 (如平滑过渡、点扩散函数关系), 基于假设条件对抠像方程或目标函数进行代数求解得出结果. 假设条件越弱, 则算法健壮性越强, 精确度越高. 基于机器学习的技术与之不同, 这类算法把抠像的过程看做一个监督或半监督学习的问题, 通过一个学习的过程, 建立 α 与图像颜色之间的模型, 而不依赖于较强的模型假设. Zheng 等[50] 在 2009 年的国际计算机视觉 (International conference on computer vision, ICCV) 会议论文中运用了这种基于学习的方法. 算法的目标是通过训练, 建立 α 与图像颜色之间的模型, 从而预测未知像素的 α 值. 模型可以是线性或非线性的. 这里简单介绍其模型的建立方法. 为便于表述, 先介绍线性模型的情况, 再进行扩展. 设局部区域中, α 与图像颜色间的模型可表示为 α = x Tβ + β0 (14) 其中, x 是局部区域中各像素的颜色空间向量的集合, β、β0 分别是模型的参数. 其中 β0 为标量, β 为矢量, 维数等于图像颜色的通道数. 通过岭回归 (Ridge regression)[51] 技术, 可以把模型参数 β, β0 的估算转化为一个二次最优化问题, 从而估算出 β, β0, 即描述出模型. 对于非线性模型, 使用核方法 (Kernel trick) 进行转换, 把线性情况下, β, β0 的求解结果中, 包含的向量 x 0 i 与 x 0 j 的内积, 使用核函数 k(xi , xj ) 替换, 其中, x 0 = [x T 1]T. 具体地, 可以使用高斯核, 即 k(x 0 i , x 0 j ) = exp( 1 ϑ kx 0 i − x 0 jk 2 ). ϑ 使用图像灰度值的方差. 与之前的方法相比, 这种方法有两个优势: 一是实现简单, 在整个过程中只需一些矩阵操作; 二是针对线性和非线性的模型有相应的处理方法, 建立的模型可以更一般化. 除了 Zheng 等的这个方法, 主成分分析 (Principal component analysis, PCA) 也曾经被用于前景提取[52]; Hosaka 等[53] 则利用支持向量机 (Support vector machine, SVM) 进行前景/背景分类; 而 Won 等[54] 考虑到局部线性嵌入 (Locally linear embedding, LLE) 在把高维度数据映射到低维度时, 能保持点的邻近关系, 从而实现了一种抠像中应用 LLE 进行颜色估计的方法. 文献 [55] 中提出一种基于局部学习的方法, 构造出包含多次相似性权值计算的拉普拉斯抠像矩阵, 精细地刻画数据局部几何结构, 从而求出更优的结果. 文献 [56] 则把抠像问题看成一个模式识别问题: 在学习阶段, 使用非负矩阵因式分解 (Non-negative matrix factorization, NMF) 构造表征前景及背景的基矩阵和系数矩阵; 在识别阶段, 根据未知像素的颜色值, 分解出原有的基矩阵与新的系数矩阵, 通过比较新的系数矩阵和原来的系数矩阵, 从而判断未知像素的不透明度 α. 算法中, 首先对未知像素 i, 分别选取两个距离最近的前景节点和背景节点及其 8 邻域像素的颜色值 (或者灰度值) 组成矩阵 V . 其中 V 共有四列, 取其中一个前景节点及其 8 邻域像素的颜色值组成第一列, 取另外一个前景节点及其 8 邻域像素的颜色值组成第二列. 对于后两列则使用同样的方法根据两个背景节点生成. 然后对 V 进行 NMF 分解, 即 V ≈ W × H. V 中的第 k 列数据可看做 W 的各行分别与 H 的第 k 列数据 Hk 的线性组合. 因此, 把 W 看做表征前景和背景的基矩阵,H 的前两列是对应前景特征的系数, 后两列对应背景特征的系数. 分解完成后, 即完成学习阶段, 开始识别阶段. 类似地, 取像素 i 及其 8 邻域像素的数据组成矩阵 Vobj, 然后使用之前计算的基矩阵 W 对 Vobj 进行分解, 得出新的系数矩阵 Hobj. 接着计算 Hobj 与 H 前后两列的欧几里得距离. 定义 dfg = min 1≤i≤2 kHobj − Hik 2 dbg = min 3≤i≤4 kHobj − Hik 2 (15) 其中, dfg, dbg 分别表征像素 i 与前景/背景的距离. 最后根据 dfg 与 dbg 的比值确定像素属于前景或背

1578 自动化学报 38卷景地,包括四个标准:均方误差( Mean squared error, 上述基于机器学习的方法都是数字抠像的新尝MSE)、绝对误差和( Sum of absolute differences, 试,与前三类方法不同,这类方法没有从求解抠像方SAD)、连通性误差以及梯度误差.梯度误差描述抠程的角度出发,而是从机器学习或模式识别的视角像结果与 Ground truth中a值的梯度误差.与此看待抠像问题.通过一个学习过程,降低算法对图像类似,连通性误差描述抠像结果中,像素的连通度与特性的假设.然而,目前这种方法研究相对较少,上 Ground truth中对应像素的连通度间的误差.MSE 述方法也只是初步的尝试,例如没有对学习中使用和SAD是常用的误差统计方法,而梯度和连通性误的样本进行深入考虑,α的估算也相对简单,缺少优差是基于人的感官特点制定的七处理根据这些测试集以及评价标准, Riemann等还除了之前介绍的四类方法,在研究中,针对特殊建立了一个网上测试平台4.由于目前的研究中的应用场景,也有其他的尝试例如文献⑤7]使用图大部分算法以三分图或涂鸦方式作为用户的输入, 像的深度信息辅助抠像.一方面,在原有的颜色或灰且涂鸦结果可看作三分图的子集,支持涂鸦方式的度通道外,添加深度作为新的通道.另一方面,把a算法也支持三分图,因此测试中使用三分图作为标的梯度与深度图的梯度联系起来;Lin等专门针准的输入方式,以保持评价的客观性.目前该平台运动造成的模糊图像抠像问题进行了研究,通过中包含了截止至2010年主要抠像算法的测试结果图像梯度的统计信息估计物体的运动,从而提高抠首先,针对这些测试结果,本文对主要的抠像算法进像的准确度; Prabhu等提出一种基于卡尔曼滤行定量和定性分析.其次,为了分析的全面性,也将波器的方法对受损的图像进行抠像并恢复前景;图对涂鸦方式和全自动化方式下的抠像结果进行对比像修复( Inpainting)技术也被用于抠像:由于目前然后,对主要抠像算法的运行效率进行分析评价的抠像方法一般通过邻近像素信息进行推导,没有首先,本文引用了测试集中包含的6张测试图考虑物体本身的几何形状,从而导致了一些抠像结像,如图3所示.具体地,从本文第2节所分析果中原本平滑的线条出现了抖动出于这种考虑,文的四类抠像技术中,各选取了一种抠像算法,对比献60使用变分修复( ariational inpainting)技术其抠像结果的均方误差.这些算法分别为Baye 进行抠像.而文献(61]把未知区域看做受损或被物 sian matting 1, Closed- form matting, Robust 体遮挡,使用 Inpainting技术估计其背景色;文献 matting2以及 Learning based matting.测试 62]则认为,若已知将要合成的背景,抠像可以把目结果与 Ground truth的均方误差如图4所示标设为,在特定的新背景中,增强最终合成结果在视觉上的效果.由此,提出的算法中把抠像与合成看作个统一的过程;文献[63]在抠像执行之前,使用区域增长( Region growing)以及分类技术对图像进预分割 3分析和总结 3.1测试结果分析 2000年以后,针对自然图像的抠像算法逐渐增多,对抠像算法的评价方法也在逐步改进.最开始图3测试图像的评价方法中,仅凭人的视觉做主观判断,而现在 Fig 3 Test images 量化评价逐渐被采用.2009年, Riemann等6位可以看出,各种方法在不同的测试图像中,效果学者,制定了一套较为全面和客观的测试集以及评差别较大对于 Bayesian matting,在图3(b)取得价标准,在近两年的论文中被广泛采纳.本文主要的效果相对较好,这是因为图3(b)中边缘比较简单采用这套方案对目前的抠像算法进行分析.该测试且前景物体中不存在孔状结构采样得到的样本能集采用高质量的图像,其中高分辨率的图像在六百反映未知像素的特性,比较有意义.而在测试图3(c) 万像素左右,低分辨率的图像也超过40万像素.图中表现最差,主要是因为图像的边缘及纹理比较复像中包括了当前抠像技术中难以处理的场景,例如杂,前景物体中存在空隙,降低了样本的有效性.对毛发、半透明物体、网状物体、纹理复杂的背景以颜色样本建立的模型不一定能对未知像素进行合适及前景/背景颜色相似的区域等. Ground truth由的描述. Closed- orm matting在前5张图像中表现蓝屏抠像中的三角抠像法生成.对算法进行评价比较稳定,然而在图3(1)中,则表现较差.这是因为时,使用抠像结果与 Ground truth进行对比.具体算法假设前/背景颜色在局部区域内符合 Color-line

1578 自动化学报 38 卷景. 上述基于机器学习的方法都是数字抠像的新尝试, 与前三类方法不同, 这类方法没有从求解抠像方程的角度出发, 而是从机器学习或模式识别的视角看待抠像问题. 通过一个学习过程, 降低算法对图像特性的假设. 然而, 目前这种方法研究相对较少, 上述方法也只是初步的尝试, 例如没有对学习中使用的样本进行深入考虑, α 的估算也相对简单, 缺少优化处理. 除了之前介绍的四类方法, 在研究中, 针对特殊的应用场景, 也有其他的尝试. 例如文献 [57] 使用图像的深度信息辅助抠像. 一方面, 在原有的颜色或灰度通道外, 添加深度作为新的通道. 另一方面, 把 α 的梯度与深度图的梯度联系起来; Lin 等[58] 专门针对运动造成的模糊图像抠像问题进行了研究, 通过图像梯度的统计信息估计物体的运动, 从而提高抠像的准确度; Prabhu 等[59] 提出一种基于卡尔曼滤波器的方法对受损的图像进行抠像并恢复前景; 图像修复 (Inpainting) 技术也被用于抠像: 由于目前的抠像方法一般通过邻近像素信息进行推导, 没有考虑物体本身的几何形状, 从而导致了一些抠像结果中原本平滑的线条出现了抖动. 出于这种考虑, 文献 [60] 使用变分修复 (Variational inpainting) 技术进行抠像. 而文献 [61] 把未知区域看做受损或被物体遮挡, 使用 Inpainting 技术估计其背景色; 文献 [62] 则认为, 若已知将要合成的背景, 抠像可以把目标设为, 在特定的新背景中, 增强最终合成结果在视觉上的效果. 由此, 提出的算法中把抠像与合成看作一个统一的过程; 文献 [63] 在抠像执行之前, 使用区域增长 (Region growing) 以及分类技术对图像进行预分割. 3 分析和总结 3.1 测试结果分析 2000 年以后, 针对自然图像的抠像算法逐渐增多, 对抠像算法的评价方法也在逐步改进. 最开始的评价方法中, 仅凭人的视觉做主观判断, 而现在量化评价逐渐被采用. 2009 年, Rhemann 等 6 位学者, 制定了一套较为全面和客观的测试集以及评价标准[4] , 在近两年的论文中被广泛采纳. 本文主要采用这套方案对目前的抠像算法进行分析. 该测试集采用高质量的图像, 其中高分辨率的图像在六百万像素左右, 低分辨率的图像也超过 40 万像素. 图像中包括了当前抠像技术中难以处理的场景, 例如毛发、半透明物体、网状物体、纹理复杂的背景以及前景/背景颜色相似的区域等. Ground truth 由蓝屏抠像中的三角抠像法[2] 生成. 对算法进行评价时, 使用抠像结果与 Ground truth 进行对比. 具体地, 包括四个标准: 均方误差 (Mean squared error, MSE)、绝对误差和 (Sum of absolute differences, SAD)、连通性误差以及梯度误差. 梯度误差描述抠像结果与 Ground truth 中 α 值的梯度误差. 与此类似, 连通性误差描述抠像结果中, 像素的连通度与 Ground truth 中对应像素的连通度间的误差. MSE 和 SAD 是常用的误差统计方法, 而梯度和连通性误差是基于人的感官特点制定的. 根据这些测试集以及评价标准, Rhemann 等还建立了一个网上测试平台[64] . 由于目前的研究中, 大部分算法以三分图或涂鸦方式作为用户的输入, 且涂鸦结果可看作三分图的子集, 支持涂鸦方式的算法也支持三分图, 因此测试中使用三分图作为标准的输入方式, 以保持评价的客观性. 目前该平台中包含了截止至 2010 年主要抠像算法的测试结果. 首先, 针对这些测试结果, 本文对主要的抠像算法进行定量和定性分析. 其次, 为了分析的全面性, 也将对涂鸦方式和全自动化方式下的抠像结果进行对比. 然后, 对主要抠像算法的运行效率进行分析评价. 首先, 本文引用了测试集中包含的 6 张测试图像, 如图 3 所示. 具体地, 从本文第 2 节所分析的四类抠像技术中, 各选取了一种抠像算法, 对比其抠像结果的均方误差. 这些算法分别为 Bayesian matting[3], Closed-form matting[16], Robust matting[28] 以及 Learning based matting[50] . 测试结果与 Ground truth 的均方误差如图 4 所示. 图 3 测试图像 Fig. 3 Test images 可以看出, 各种方法在不同的测试图像中, 效果差别较大. 对于 Bayesian matting, 在图 3 (b) 取得的效果相对较好, 这是因为图 3 (b) 中边缘比较简单, 且前景物体中不存在孔状结构. 采样得到的样本能反映未知像素的特性, 比较有意义. 而在测试图 3 (c) 中表现最差, 主要是因为图像的边缘及纹理比较复杂, 前景物体中存在空隙, 降低了样本的有效性. 对颜色样本建立的模型不一定能对未知像素进行合适的描述. Closed-form matting 在前 5 张图像中表现比较稳定, 然而在图 3 (f) 中, 则表现较差. 这是因为算法假设前/背景颜色在局部区域内符合 Color-line

10期张展鹏等:数字抠像的最新研究进展 1579 模型,生成的结果比较平滑,而图3(f)中的结构不值进行偏移,使之等于0或1,以减少一些错误生成符合这一假设. Robust matting因为在算法中融合的模糊区.因此,可以认为,融合多种抠像技术、对了数据项和平滑项,在多幅图像中表现稳定.在前5采样技术进行优化、构造有效的先验知识是未来可幅图像中与Cled- orm matting的结果大致相当.能的发展方向在图3(f)中,由于算法还结合了采集的样本信息表现比 Closed- form matting更好. Learning based Shared matting ol (2010) matting作为新提出的方法,取得了与其他方法相 Improved color matting 2(2008 当甚至更好的效果.特别是在包含半透明物体的图像(图3(e)中,效果比其他四种方法都好.说明算 Robust 法在学习的过程中对模型进行更一般化的假设(例如非线性假设),可以增强算法在不同场景中的适应性.另一方面,这种方法对学习中使用的样本依赖性较大,由于实验中图3(f)对应的三分图前景区较小,密而 Learning based mattin没有考虑采样等其他方式获得更多有效的学习样本,因此在图3(f)中没有取得好的效果口 Robust matting(2007 62Bayesian matting(2001 测试图像图5多种算法抠像结果的均方误差比较 Fig 5 Comparison of Mse of matting results from various algorithms 接着以测试图像中图3(c)的右下角为例,分析各种算法下抠像结果的差异.图6列举了六种算法的结果.可以看出, Bayesian matting在这种形状复杂的情况下表现不佳,出现了较多不连续的区域, 而且由于背景与前景颜色相似,一部分背景被错误地抠选. Closed- form matting表现相对较好,然而, 测试图像由于算法中的平滑假设,使得结果过于平滑,忽略图4多种算法抠像结果的均方误差了一些细节,而且由于没有颜色信息采集,有些深 Fig 4 MsE of matting results from various algorithms 色的叶子被错误地判断为背景. Learning based和 Robust matting表现相当,一些区域中仍然错误地此外,对更多的抠像算法进行测试分析,发把背景选中. Shared和 Improved color mattin则现了一些总体来说效果最好的算法(如 Shared基本上消除了这个问题,但仍然有些瑕疵 matting、 Improved color matting2),这些算从上面的测试效果中,可以看出,在以三分图法往往不是单一地采用颜色采样或像素相似性的为算法输入的情况下,目前的算法已经取得了一定方法,而是融合了多种技术,并进一步对采样方式的进展.下面,分析其他用户交互方式下的抠像效进行优化,或者构造了更有效的先验知识.图5对果.从图7中可以看出,在前景/背景比较简单,且区 Improved color matting、 Shared matting、 Robust分度较大的情况下,全自动化的 Spectral matting matting、 Closed- form matting四种方法的抠像结算法可以生成较为理想的结果.而图8中则包含了果进行了比较.从图中明显地看出,前两种算法比对图3(a)的抠像结果.首先,图8(b)是 Spectral 后两种效果要好.事实上, Shared matting和Im- matting2的全自动抠像结果.可以看出,抠像结果 proved color matting算法中,首先进行前景/背景中只提取了玩具的头发以及背景中的桥梁,没有选颜色采样,根据采集的样本求出初步的抠像结果,中玩具的身体,显然这个结果并不正确.这是由于缺再结合 Closed- form matting进行优化.此外,Im-乏用户输入,算法不能获得足够的语义信息,只能对 proved color mattin在采样时考虑了测地线距离,视觉上特性接近的区域进行聚类.对于涂鸦的输入还在后续的a值估计时加入了“稀疏先验( Sparsity方式,图8(d)中展示了 Closed-form matting的结 prior)”,这是根据颜色特征建立的,对估算出的α果,由于输入图像的场景比较复杂,对于有限的涂鸦

10 期张展鹏等: 数字抠像的最新研究进展 1579 模型, 生成的结果比较平滑, 而图 3 (f) 中的结构不符合这一假设. Robust matting 因为在算法中融合了数据项和平滑项, 在多幅图像中表现稳定. 在前 5 幅图像中与 Closed-form matting 的结果大致相当. 在图 3 (f) 中, 由于算法还结合了采集的样本信息, 表现比 Closed-form matting 更好. Learning based matting 作为新提出的方法, 取得了与其他方法相当甚至更好的效果. 特别是在包含半透明物体的图像 (图 3 (e)) 中, 效果比其他四种方法都好. 说明算法在学习的过程中对模型进行更一般化的假设 (例如非线性假设), 可以增强算法在不同场景中的适应性. 另一方面, 这种方法对学习中使用的样本依赖性较大, 由于实验中图 3 (f) 对应的三分图前景区较小, 而 Learning based matting 没有考虑采样等其他方式获得更多有效的学习样本, 因此在图 3 (f) 中没有取得好的效果. 图 4 多种算法抠像结果的均方误差 Fig. 4 MSE of matting results from various algorithms 此外, 对更多的抠像算法进行测试分析, 发现了一些总体来说效果最好的算法 (如 Shared matting[30]、Improved color matting[29]), 这些算法往往不是单一地采用颜色采样或像素相似性的方法, 而是融合了多种技术, 并进一步对采样方式进行优化, 或者构造了更有效的先验知识. 图 5 对 Improved color matting、Shared matting、Robust matting、Closed-form matting 四种方法的抠像结果进行了比较. 从图中明显地看出, 前两种算法比后两种效果要好. 事实上, Shared matting 和 Improved color matting 算法中, 首先进行前景/背景颜色采样, 根据采集的样本求出初步的抠像结果, 再结合 Closed-form matting 进行优化. 此外, Improved color matting 在采样时考虑了测地线距离, 还在后续的 α 值估计时加入了 “稀疏先验 (Sparsity prior)”, 这是根据颜色特征建立的, 对估算出的 α 值进行偏移, 使之等于 0 或 1, 以减少一些错误生成的模糊区. 因此, 可以认为, 融合多种抠像技术、对采样技术进行优化、构造有效的先验知识是未来可能的发展方向. 图 5 多种算法抠像结果的均方误差比较 Fig. 5 Comparison of MSE of matting results from various algorithms 接着以测试图像中图 3 (c) 的右下角为例, 分析各种算法下抠像结果的差异. 图 6 列举了六种算法的结果. 可以看出, Bayesian matting[3] 在这种形状复杂的情况下表现不佳, 出现了较多不连续的区域, 而且由于背景与前景颜色相似, 一部分背景被错误地抠选. Closed-form matting 表现相对较好, 然而, 由于算法中的平滑假设, 使得结果过于平滑, 忽略了一些细节, 而且由于没有颜色信息采集, 有些深色的叶子被错误地判断为背景. Learning based 和 Robust matting 表现相当, 一些区域中仍然错误地把背景选中. Shared 和 Improved color matting 则基本上消除了这个问题, 但仍然有些瑕疵. 从上面的测试效果中, 可以看出, 在以三分图为算法输入的情况下, 目前的算法已经取得了一定的进展. 下面, 分析其他用户交互方式下的抠像效果. 从图 7 中可以看出, 在前景/背景比较简单, 且区分度较大的情况下, 全自动化的 Spectral matting 算法可以生成较为理想的结果. 而图 8 中则包含了对图 3 (a) 的抠像结果. 首先, 图 8 (b) 是 Spectral matting[20] 的全自动抠像结果. 可以看出, 抠像结果中只提取了玩具的头发以及背景中的桥梁, 没有选中玩具的身体, 显然这个结果并不正确. 这是由于缺乏用户输入, 算法不能获得足够的语义信息, 只能对视觉上特性接近的区域进行聚类. 对于涂鸦的输入方式, 图 8 (d) 中展示了 Closed-form matting 的结果, 由于输入图像的场景比较复杂, 对于有限的涂鸦

1580 自动化学报 38卷 Improved color matting 0.9 Leaming based Closed-formlle Improved colors Shared 图6抠像结果比较 Fig 6 Comparison of different matting results from various algorithms 日 (a)原始图像 (b) Spectral matting全自动抠像结果 (a)Input image (a)Input image b)Result of spectral matting (b) Result of spectral 图7全自动抠像的结果 Fig 7 Fully automatic matting result 标记,算法不能从被标记的区域中获得未知区域的完整特性.而玩具头发的颜色和背景中桥梁的颜色比较接近,因此部分桥梁区域被误选.而玩具的手和 (c)涂鸦方式输入衣服颜色区别较大,手没有被完全选中.图8(e)中的三分图则带有更精细的信息,同样是 Closed-form matting算法,在三分图输入下获得了更好的结果 (如图8(f).由于算法基于 Color line模型的假设, 以及桥梁颜色和头发颜色过于接近,抠像结果中的右上角区域仍然不能精细地提取出头发丝.根据图 7和图8的结果,可以看出,相对于三分图的输入方 (e)三分图输入 (f) Closed- form mating抠像结果式,全自动方式的抠像更为简便,在一些简单的场景 (e)Trimap-based input 中能得到理想的结果.然而,全自动或涂鸦方式下图8不同输入方式下的抠像结果抠像算法更加缺乏语义信息,对求解的不定问题进Fg.8 Matting results of different interaction mode 限制,因此求解过程变得更加困难,对于复杂的场景,抠像效果相对较差要求.其中, Bavesian matting因为需要对每个未算法效率方面,文献门1中曾对一些有代表性的知像素的采集样本建立高斯混合模型,所以消耗的算法进行了测试.测试程序运行于一台CPU主频为时间较多. Iterative bp[as则因为信任传播算法 30GHz、内存大小为4GB的工作站.对于一张大收敛较慢,也带来较大的计算时间开销. Poisson 小约1000像素×700像素的图像,输入一张含有 matting通过迭代的方法求解泊松方程,效率也不约20%未知像素的三分图,算法运行时间如表1所高. Robust matting由于结合了颜色采样技术,以示从表1可以看出,这些算法均不能达到实时性的及 Closed- form matting中的拉普拉斯矩阵进行求

1580 自动化学报 38 卷图 6 抠像结果比较 Fig. 6 Comparison of different matting results from various algorithms 图 7 全自动抠像的结果 Fig. 7 Fully automatic matting result 标记, 算法不能从被标记的区域中获得未知区域的完整特性. 而玩具头发的颜色和背景中桥梁的颜色比较接近, 因此部分桥梁区域被误选. 而玩具的手和衣服颜色区别较大, 手没有被完全选中. 图 8 (e) 中的三分图则带有更精细的信息, 同样是 Closed-form matting 算法, 在三分图输入下获得了更好的结果 (如图 8 (f)). 由于算法基于 Color line 模型的假设, 以及桥梁颜色和头发颜色过于接近, 抠像结果中的右上角区域仍然不能精细地提取出头发丝. 根据图 7 和图 8 的结果, 可以看出, 相对于三分图的输入方式, 全自动方式的抠像更为简便, 在一些简单的场景中能得到理想的结果. 然而, 全自动或涂鸦方式下, 抠像算法更加缺乏语义信息, 对求解的不定问题进行限制, 因此求解过程变得更加困难, 对于复杂的场景, 抠像效果相对较差. 算法效率方面, 文献 [1] 中曾对一些有代表性的算法进行了测试. 测试程序运行于一台 CPU 主频为 3.0 GHz、内存大小为 4 GB 的工作站. 对于一张大小约 1 000 像素 × 700 像素的图像, 输入一张含有约 20 % 未知像素的三分图, 算法运行时间如表 1 所示. 从表 1 可以看出, 这些算法均不能达到实时性的图 8 不同输入方式下的抠像结果 Fig. 8 Matting results of different interaction modes 要求. 其中, Bayesian matting 因为需要对每个未知像素的采集样本建立高斯混合模型, 所以消耗的时间较多. Iterative BP[48] 则因为信任传播算法收敛较慢, 也带来较大的计算时间开销. Poisson matting 通过迭代的方法求解泊松方程, 效率也不高. Robust matting 由于结合了颜色采样技术, 以及 Closed-form matting 中的拉普拉斯矩阵进行求

点击进入文档下载页（PDF格式）

共14页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录