正在加载图片...
10期 张展鹏等:数字抠像的最新研究进展 (1-f)(a2-6(a2>05)2+入·J(a) 的估算转化为一个二次最优化问题,从而估算出, (13)Ao,即描述出模型.对于非线性模型,使用核方法 ( Kernel trick)进行转换,把线性情况下,β,的求 其中,6表示布尔运算,返回0或1.对左边项稍解结果中,包含的向量x1与x的内积,使用核函数 作直观分析,当样本信任系数高,则认为估计算的k(x1,x)替换,其中,x=[z1T.具体地,可以 a2可信,因此使a2与a2的差值变小.而当信任使用高斯核,即k(x1,x)=exp(x2-x1‖2).使 系数较小时,a2的具体数值相对不可靠,a2只需用图像灰度值的方差.与之前的方法相比,这种方法 根据一个阀值(0.5)大致追随估算值.右边项J(a)有两个优势:一是实现简单,在整个过程中只需一些 的定义与式(8)相同,可见 Robust matting中融入矩阵操作;二是针对线性和非线性的模型有相应的 了 Closed- -form matting的方法.其原因是( Closed-处理方法,建立的模型可以更一般化 form matting中充分利用了邻近像素的相关性,正 除了 Zheng等的这个方法,主成分分析(Prin 好作为平滑项与数据项互补 cipal component analysis,PCA)也曾经被用于前 此外,近两年的研究中,开始偏向于在数据项或景提取2; Hosaka等网则利用支持向量机(Sup 平滑项赋予更多的假设或先验知识,使得抠像更准 port vector machine,SVM)进行前景/背景分类; 确.例如Park等网把 Graph cut和 Closed-form而Won等考虑到局部线性嵌入( Locally linear matting结合起来,分别利用两者在“硬”分割和 embedding,LLE)在把高维度数据映射到低维度 “软”分割上的优势实现抠像. Price等则在能量时,能保持点的邻近关系,从而实现了一种抠像中应 函数中融入了测地线距离的度量 用LLE进行颜色估计的方法文献[5引中提出 24基于机器学习的技术 种基于局部学习的方法,构造出包含多次相似性权 值计算的拉普拉斯抠像矩阵,精细地刻画数据局部 从数字抠像的已知条件和求解目标来看,可以几何结构,从而求出更优的结果 把抠像的过程看作建立α与图像颜色之间的模型. 文献⑤56则把抠像问题看成一个模式识别问题 在颜色采样的技术中,通过颜色的相关度来寻找这在学习阶段,使用非负矩阵因式分解( Non-negative 些相关点,然后假设像素间的前景/背景色符合某种 matrix factorization,NMF)构造表征前景及背景 统计模型(如GMM),求解的目标是使未知像素的的基矩阵和系数矩阵;在识别阶段,根据未知像素的 报像参数拟合统计模型;基于像素相似性的技术与颜色值,分解出原有的基矩阵与新的系数矩阵,通过 此类似,通过各种方法定义相邻的点(如位置相邻、比较新的系数矩阵和原来的系数矩阵,从而判断未 测地线距离相近,然后假设像素间符合一定的关系知像素的不透明度a.算法中,首先对未知像素 (如平滑过渡、点扩散函数关系),基于假设条件对抠分别选取两个距离最近的前景节点和背景节点及其 像方程或目标函数进行代数求解得出结果假设条8邻域像素的颜色值(或者灰度值)组成矩阵V.其 件越弱,则算法健壮性越强,精确度越高.基于机器中V共有四列,取其中一个前景节点及其8邻域像 学习的技术与之不同,这类算法把抠像的过程看做素的颜色值组成第一列,取另外一个前景节点及其8 个监督或半监督学习的问题,通过一个学习的过邻域像素的颜色值组成第二列.对于后两列则使用 程,建立a与图像颜色之间的模型,而不依赖于较强同样的方法根据两个背景节点生成。然后对V进行 的模型假设 NMF分解,即V≈W×H.V中的第k列数据可 Zheng等在200年的国际计算机视觉(In-看做W的各行分别与H的第k列数据Hk的线性 ternational conference on computer vision,CCV)组合因此,把W看做表征前景和背景的基矩阵,H 会议论文中运用了这种基于学习的方法.算法的目的前两列是对应前景特征的系数,后两列对应背景 标是通过训练建立a与图像颜色之间的模型,从而特征的系数.分解完成后,即完成学习阶段,开始识 预测末知像素的a值模型可以是线性或非线性的、别阶段.类似地,取像素i及其8邻域像素的数据组 这里简单介绍其模型的建立方法为便于表述,先介成矩阵Va,然后使用之前计算的基矩阵W对V 绍线性模型的情况,再进行扩展设局部区域中,a进行分解,得出新的系数矩阵H21接着计算会 与图像颜色间的模型可表示为 与H前后两列的欧几里得距离.定义 a=xB+④ ds=2|ny-H1‖ 其中,x是局部区域中各像素的颜色空间向量的集 合,B、分别是模型的参数.其中A为标量,β dbg=min, IHobj-Haill 为矢量,维数等于图像颜色的通道数.通过岭回归其中,dg,dbx分别表征像素i与前景/背景的距离 Ridge regression)技术,可以把模型参数β,最后根据dg与dhx的比值确定像素属于前景或背10 期 张展鹏等: 数字抠像的最新研究进展 1577 (1 − ˆfz)(αz − δ( ˆαz > 0.5))2 i + λ · J(α) (13) 其中, δ 表示布尔运算, 返回 0 或 1. 对左边项稍 作直观分析, 当样本信任系数高, 则认为估计算的 αˆz 可信, 因此使 αz 与 αˆz 的差值变小. 而当信任 系数较小时, ˆαz 的具体数值相对不可靠, αz 只需 根据一个阀值 (0.5) 大致追随估算值. 右边项 J(α) 的定义与式 (8) 相同, 可见 Robust matting 中融入 了 Closed-form matting 的方法. 其原因是 Closed￾form matting 中充分利用了邻近像素的相关性, 正 好作为平滑项与数据项互补. 此外, 近两年的研究中, 开始偏向于在数据项或 平滑项赋予更多的假设或先验知识, 使得抠像更准 确. 例如 Park 等[49] 把 Graph cut 和 Closed-form matting 结合起来, 分别利用两者在 “硬” 分割和 “软” 分割上的优势实现抠像. Price 等[37] 则在能量 函数中融入了测地线距离的度量. 2.4 基于机器学习的技术 从数字抠像的已知条件和求解目标来看, 可以 把抠像的过程看作建立 α 与图像颜色之间的模型. 在颜色采样的技术中, 通过颜色的相关度来寻找这 些相关点, 然后假设像素间的前景/背景色符合某种 统计模型 (如 GMM), 求解的目标是使未知像素的 抠像参数拟合统计模型; 基于像素相似性的技术与 此类似, 通过各种方法定义相邻的点 (如位置相邻、 测地线距离相近), 然后假设像素间符合一定的关系 (如平滑过渡、点扩散函数关系), 基于假设条件对抠 像方程或目标函数进行代数求解得出结果. 假设条 件越弱, 则算法健壮性越强, 精确度越高. 基于机器 学习的技术与之不同, 这类算法把抠像的过程看做 一个监督或半监督学习的问题, 通过一个学习的过 程, 建立 α 与图像颜色之间的模型, 而不依赖于较强 的模型假设. Zheng 等[50] 在 2009 年的国际计算机视觉 (In￾ternational conference on computer vision, ICCV) 会议论文中运用了这种基于学习的方法. 算法的目 标是通过训练, 建立 α 与图像颜色之间的模型, 从而 预测未知像素的 α 值. 模型可以是线性或非线性的. 这里简单介绍其模型的建立方法. 为便于表述, 先介 绍线性模型的情况, 再进行扩展. 设局部区域中, α 与图像颜色间的模型可表示为 α = x Tβ + β0 (14) 其中, x 是局部区域中各像素的颜色空间向量的集 合, β、β0 分别是模型的参数. 其中 β0 为标量, β 为矢量, 维数等于图像颜色的通道数. 通过岭回归 (Ridge regression)[51] 技术, 可以把模型参数 β, β0 的估算转化为一个二次最优化问题, 从而估算出 β, β0, 即描述出模型. 对于非线性模型, 使用核方法 (Kernel trick) 进行转换, 把线性情况下, β, β0 的求 解结果中, 包含的向量 x 0 i 与 x 0 j 的内积, 使用核函数 k(xi , xj ) 替换, 其中, x 0 = [x T 1]T. 具体地, 可以 使用高斯核, 即 k(x 0 i , x 0 j ) = exp( 1 ϑ kx 0 i − x 0 jk 2 ). ϑ 使 用图像灰度值的方差. 与之前的方法相比, 这种方法 有两个优势: 一是实现简单, 在整个过程中只需一些 矩阵操作; 二是针对线性和非线性的模型有相应的 处理方法, 建立的模型可以更一般化. 除了 Zheng 等的这个方法, 主成分分析 (Prin￾cipal component analysis, PCA) 也曾经被用于前 景提取[52]; Hosaka 等[53] 则利用支持向量机 (Sup￾port vector machine, SVM) 进行前景/背景分类; 而 Won 等[54] 考虑到局部线性嵌入 (Locally linear embedding, LLE) 在把高维度数据映射到低维度 时, 能保持点的邻近关系, 从而实现了一种抠像中应 用 LLE 进行颜色估计的方法. 文献 [55] 中提出一 种基于局部学习的方法, 构造出包含多次相似性权 值计算的拉普拉斯抠像矩阵, 精细地刻画数据局部 几何结构, 从而求出更优的结果. 文献 [56] 则把抠像问题看成一个模式识别问题: 在学习阶段, 使用非负矩阵因式分解 (Non-negative matrix factorization, NMF) 构造表征前景及背景 的基矩阵和系数矩阵; 在识别阶段, 根据未知像素的 颜色值, 分解出原有的基矩阵与新的系数矩阵, 通过 比较新的系数矩阵和原来的系数矩阵, 从而判断未 知像素的不透明度 α. 算法中, 首先对未知像素 i, 分别选取两个距离最近的前景节点和背景节点及其 8 邻域像素的颜色值 (或者灰度值) 组成矩阵 V . 其 中 V 共有四列, 取其中一个前景节点及其 8 邻域像 素的颜色值组成第一列, 取另外一个前景节点及其 8 邻域像素的颜色值组成第二列. 对于后两列则使用 同样的方法根据两个背景节点生成. 然后对 V 进行 NMF 分解, 即 V ≈ W × H. V 中的第 k 列数据可 看做 W 的各行分别与 H 的第 k 列数据 Hk 的线性 组合. 因此, 把 W 看做表征前景和背景的基矩阵,H 的前两列是对应前景特征的系数, 后两列对应背景 特征的系数. 分解完成后, 即完成学习阶段, 开始识 别阶段. 类似地, 取像素 i 及其 8 邻域像素的数据组 成矩阵 Vobj, 然后使用之前计算的基矩阵 W 对 Vobj 进行分解, 得出新的系数矩阵 Hobj. 接着计算 Hobj 与 H 前后两列的欧几里得距离. 定义 dfg = min 1≤i≤2 kHobj − Hik 2 dbg = min 3≤i≤4 kHobj − Hik 2 (15) 其中, dfg, dbg 分别表征像素 i 与前景/背景的距离. 最后根据 dfg 与 dbg 的比值确定像素属于前景或背
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有