【人工智能基础】局部自适应输入控制的随机游走抠图

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：1.7MB

第14卷第5期智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sept.2019 D0:10.11992/tis.201809014 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20181227.1144.004html 局部自适应输入控制的随机游走抠图陈秋凤2，申群太2 (1.福建农林大学计算机与信息学院，福建福州350002；2.中南大学信息科学与工程学院，湖南长沙 410083) 摘要：针对传统性抠图算法中，非完全正确用户标注及不精确超像素分割造成的信息误扩散，以随机游走算法为基础，提出带软性约束的抠图算法。通过对扩展Dirichlet问题的推导，指出带软约束的随机游走与部分自吸收随机游走概率的关联性。以吸收概率为指导，在传统相似扩散所构建的图模型上，根据局部窗口内特征矩阵的秩与方差设计了输入控制矩阵，使得信息扩散的过程能够跟随图像的局部特征进行自适应扩散。最后将软约束随机游走应用到单帧双层抠图及视频抠图中。实验表明，所提算法具有信息远距传播能力和良好的容错性能，尤其在用户标注不够充分的情况下能够取得更加优良的抠图结果。关键词：抠图：视频抠图：随机游走；软性约束；吸收概率；局部模型；输入控制：自适应中图分类号：TP391文献标志码：A文章编号：1673-4785(2019)05-1007-10 中文引用格式：陈秋凤，申群太.局部自适应输入控制的随机游走抠图.智能系统学报，2019,14(5)：1007-1016. 英文引用格式：CHEN Qiufeng,SHEN Quntai..Random-walk matting with local adaptive input control[J.CAAI transactions on intelligent systems,2019,14(5):1007-1016. Random-walk matting with local adaptive input control CHEN Qiufeng 2,SHEN Quntai? (1.College of Computer and Information Sciences,Fujian Agriculture and Forestry University,Fuzhou 350002,China;2.School of Information Science and Engineering,Central South University,Changsha 410083,China) Abstract:In traditional image-matting algorithms,incomplete user labeling and inaccurate super-pixel segmentation lead to the incorrect propagation of information.To solve this problem,we propose the use of soft constrained matting based on a random-walk algorithm.Through the derivation of the extended Dirichlet problem,we identify the relation- ship between a random walk with soft constraint and the probability of a partial self-absorption random walk.Guided by the absorption probability,an input control matrix is designed according to the rank and variance of the feature matrix in the local window.This is performed via a graph model that was constructed using traditional similarity diffusion such that the process of information diffusion could follow the local image features to realize adaptive diffusion.Finally,we applied the soft constrained random walk to single-frame two-layer image and video matting.The experimental results reveal that the proposed algorithm can transmit information over long distances and has good fault tolerance.In addition, it can achieve better image matting results,particularly in cases wherein user labeling is insufficient. Keywords:matting;video matting;random walk;soft constrained;absorption probability;local model;input control; adaptive control 抠图是按照不透明度将感兴趣物体，从图像术。抠图是一个高病态问题，需要用户提供一或视频序列中精确分离出来的一种图像处理技定的标注信息进行求解。目前的单帧抠图算法都要求用户输入的标注信息完全正确，并采用大数收稿日期：2018-09-11.网络出版日期：2018-12-27. 基金项目：国家自然科学基金项目(61473318,60974048). 值的输入控制参数，以迫使输出值与用户标注值通信作者：陈秋凤.E-mail:chengiufeng0204@l26.com. 严格相同。然而过强的输入约束，使得信息传

DOI: 10.11992/tis.201809014 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181227.1144.004.html 局部自适应输入控制的随机游走抠图陈秋凤1,2，申群太2 （1. 福建农林大学计算机与信息学院，福建福州 350002; 2. 中南大学信息科学与工程学院，湖南长沙 410083）摘要：针对传统性抠图算法中，非完全正确用户标注及不精确超像素分割造成的信息误扩散，以随机游走算法为基础，提出带软性约束的抠图算法。通过对扩展 Dirichlet 问题的推导，指出带软约束的随机游走与部分自吸收随机游走概率的关联性。以吸收概率为指导，在传统相似扩散所构建的图模型上，根据局部窗口内特征矩阵的秩与方差设计了输入控制矩阵，使得信息扩散的过程能够跟随图像的局部特征进行自适应扩散。最后将软约束随机游走应用到单帧双层抠图及视频抠图中。实验表明，所提算法具有信息远距传播能力和良好的容错性能，尤其在用户标注不够充分的情况下能够取得更加优良的抠图结果。关键词：抠图；视频抠图；随机游走；软性约束；吸收概率；局部模型；输入控制；自适应中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)05−1007−10 中文引用格式：陈秋凤, 申群太. 局部自适应输入控制的随机游走抠图 [J]. 智能系统学报, 2019, 14(5): 1007–1016. 英文引用格式：CHEN Qiufeng, SHEN Quntai. Random-walk matting with local adaptive input control[J]. CAAI transactions on intelligent systems, 2019, 14(5): 1007–1016. Random-walk matting with local adaptive input control CHEN Qiufeng1,2 ，SHEN Quntai2 (1. College of Computer and Information Sciences, Fujian Agriculture and Forestry University, Fuzhou 350002, China; 2. School of Information Science and Engineering, Central South University, Changsha 410083, China) Abstract: In traditional image-matting algorithms, incomplete user labeling and inaccurate super-pixel segmentation lead to the incorrect propagation of information. To solve this problem, we propose the use of soft constrained matting based on a random-walk algorithm. Through the derivation of the extended Dirichlet problem, we identify the relationship between a random walk with soft constraint and the probability of a partial self-absorption random walk. Guided by the absorption probability, an input control matrix is designed according to the rank and variance of the feature matrix in the local window. This is performed via a graph model that was constructed using traditional similarity diffusion such that the process of information diffusion could follow the local image features to realize adaptive diffusion. Finally, we applied the soft constrained random walk to single-frame two-layer image and video matting. The experimental results reveal that the proposed algorithm can transmit information over long distances and has good fault tolerance. In addition, it can achieve better image matting results, particularly in cases wherein user labeling is insufficient. Keywords: matting; video matting; random walk; soft constrained; absorption probability; local model; input control; adaptive control 抠图是按照不透明度将感兴趣物体，从图像或视频序列中精确分离出来的一种图像处理技术 [1-2]。抠图是一个高病态问题，需要用户提供一定的标注信息进行求解。目前的单帧抠图算法都要求用户输入的标注信息完全正确，并采用大数值的输入控制参数，以迫使输出值与用户标注值严格相同[3-12]。然而过强的输入约束，使得信息传收稿日期：2018−09−11. 网络出版日期：2018−12−27. 基金项目：国家自然科学基金项目 (61473318, 60974048). 通信作者：陈秋凤. E-mail：chenqiufeng0204@126.com. 第 14 卷第 5 期智能系统学报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sept. 2019

·1008· 智能系统学报第14卷播只与标注区域的边界相关，传播距离有限：在广=[店…肉表示数据集对第k个类别的首多层抠图算法中)，通过超像素来构建不同层级达概率，并将广改写为广=)（吃）门，为已的图像，虽能够提高算法运算速度，但受超像素标注的种子点概率，取值为预分割精度的影响，高层计算出的结果在向下层店= ∫1，x属于第k类传递标注时也会造成错误的初始值。而视频抠图 10,其他是单帧抠图在图像序列流上的扩展41，帧间标由文献[21]知，随机游走分割算法的Dirich- 注信息的传递尤为重要。目前视频抠图多数采用 let问题也可写成两顶，点概率差值的加权和形式：半自动标注的方式，通过帧间传播策略将关键帧 (1) 上的标注信息依次向后续帧传递。虽有学者s1 p]-∑- 利用光流信息提高了帧间连续性，但依然采用的求解可得未标注点的首达概率，即是硬约束的方式，因此要求传播产生的三分图对 p吃=-LBpM (2) 前景边界有良好的包围性并严格正确，这使得后续帧的三分图产生过程复杂，影响了算法的可扩 2带输入控制的随机游走抠图算法充性和快速性。针对三分图标注的产生方法，不 2.1 目标函数规则化约束与输入控制少学者也作了进一步的研究，但仍然是建立在初在传统双层抠图中，其求解的目标函数不但始标注完全正确的基础上920。要求两近邻像素点间的α值最大程度地符合建立综上可知，传统算法采用的硬约束方式使得的图模型，保持局部相似性，也要求输出α值与抠图效果严重依赖于所采用标记的准确性，对用原始给定值相一致B。因而其目标函数通常包户输入要求高。为此，本文在随机游走算法基础含有平滑项和数据项两个部分：上，提出了软约束随机游走算法(soft-constrained J=min (3) random walk,.SCRW),使得输入控制矩阵能够根据图像颜色分布特性进行自适应调整。式中：为点i的不透明度；d为待求不透明度的 1随机游走分割算法输入初始值；S为约束集合；入为输入控制参数，其值越大表示所求α值与原输入的一致性越高。随机游走是一种具有马尔科夫链性质的特殊式(3)等号左边第2项可看作针对输入信息的规布朗运动，在给定的图和一个出发点上，信息以则化项，入为规则化因子。一定的概率随机地移动到邻居节点上。借助电势结合原始的随机游走算法，将传统双层抠图理论，Grady山指出图像分割过程实际上是求解算法扩展为多图层抠图，像素点到k类种子的首带边界条件的Dirichlet问题。首先建立一张自然达概率定义为第k个图层的不透明度，并与式图像对应的无向图模型G=(VE),节点V表示图 (3)的λ相区别，此处为每个点取不同的输入控制像中的像素点，E表示连接两个节点的边，参数h,将抠图目标函数转化成带规则化输入信 W=[wlna为相似度矩阵，w表示节点i与节点j 息约束的扩展Dirichlet问题.则的相似度，定义节点的度矩阵D,其对角元素为 d=∑w。给定有n个像素的数据集 -22,-f+2- 12 X={,2,…,x山，图像分割的目标是将数据集X分式中：a、a表示点i、j在第k个图层的不透明度成k类。设X,为用户预先指定的种子点集（每一值；为用户输入的信息或初始值；h:为第i个像类至少有一个已标注的种子点)，X为未标注点素点的输入控制参数，其数值的大小与信息的传集，则原数据集可表示为X=KX⑦从每个未播距离相关。当k>2时，式(4)为多层抠图；当标注点出发，分别计算该未知点到k类标注点的 k=2时，式(4)为单纯的前景提取。若将式(1)中首达概率，并根据最大概率将该点划分到相应的的首达概率广定义为不透明度a,再与式(4)进类别，从而实现图像的分割。记图的拉普拉斯矩行对比，不难发现式(1)的传统随机游走算法少阵为L=D-W则了规则化约束项。实际上随机游走分割是将种子 i=j 点看作理想电源，内阻为无限小，即假设入为无 Lii i≠，je2 穷大，从而才能对拉普拉斯矩阵进行拆分，将数 0 其他据集分成已标注和未标注两个部分求解。而式式中2表示像素点i的空间近邻集合。令 (3)的传统抠图算法的目标函数也都是将输入控

播只与标注区域的边界相关，传播距离有限；在多层抠图算法中[13] ，通过超像素来构建不同层级的图像，虽能够提高算法运算速度，但受超像素预分割精度的影响，高层计算出的结果在向下层传递标注时也会造成错误的初始值。而视频抠图是单帧抠图在图像序列流上的扩展[14-18] ，帧间标注信息的传递尤为重要。目前视频抠图多数采用半自动标注的方式，通过帧间传播策略将关键帧上的标注信息依次向后续帧传递。虽有学者[15, 18] 利用光流信息提高了帧间连续性，但依然采用的是硬约束的方式，因此要求传播产生的三分图对前景边界有良好的包围性并严格正确，这使得后续帧的三分图产生过程复杂，影响了算法的可扩充性和快速性。针对三分图标注的产生方法，不少学者也作了进一步的研究，但仍然是建立在初始标注完全正确的基础上[19-20]。综上可知，传统算法采用的硬约束方式使得抠图效果严重依赖于所采用标记的准确性，对用户输入要求高。为此，本文在随机游走算法基础上，提出了软约束随机游走算法 (soft-constrained random walk, SCRW)，使得输入控制矩阵能够根据图像颜色分布特性进行自适应调整。 1 随机游走分割算法 G = (V,E) V E W= [wi j]n×n wi j i j D di = ∑ jwi j n χ = {x1, x2,··· , xn} χ k χM χU χ = [ χ T M χ T U ] k 随机游走是一种具有马尔科夫链性质的特殊布朗运动，在给定的图和一个出发点上，信息以一定的概率随机地移动到邻居节点上。借助电势理论，Grady[21] 指出图像分割过程实际上是求解带边界条件的 Dirichlet 问题。首先建立一张自然图像对应的无向图模型，节点表示图像中的像素点，表示连接两个节点的边，为相似度矩阵，表示节点与节点的相似度，定义节点的度矩阵，其对角元素为。给定有个像素的数据集，图像分割的目标是将数据集分成类。设为用户预先指定的种子点集 (每一类至少有一个已标注的种子点)，为未标注点集，则原数据集可表示为。从每个未标注点出发，分别计算该未知点到类标注点的首达概率，并根据最大概率将该点划分到相应的类别，从而实现图像的分割。记图的拉普拉斯矩阵为 L=D−W，则 Li j =    ∑ j wi j, i = j −wi j, i , j, j ∈ Ωi 0, 其他 Ωi 式中表示像素点 i 的空间近邻集合。令 p k = [ p k 1 p k 2 ··· p k n ]T k p k p k = [( p k M )T ( p k U )T ] p k M 表示数据集对第个类别的首达概率，并将改写为，为已标注的种子点概率，取值为 p k i = { 1, xi属于第k类 0, 其他由文献 [21] 知，随机游走分割算法的 Dirichlet 问题也可写成两顶点概率差值的加权和形式： D [ p k ] = 1 2 ∑ ei j∈E wi j( p k i − p k j )2 (1) p k 求解可得未标注点的首达概率 U ，即 p k U = −L −1 U B T p k M (2) 2 带输入控制的随机游走抠图算法 2.1 目标函数规则化约束与输入控制 α α 在传统双层抠图中，其求解的目标函数不但要求两近邻像素点间的值最大程度地符合建立的图模型，保持局部相似性，也要求输出值与原始给定值相一致[3-12]。因而其目标函数通常包含有平滑项和数据项两个部分： J = min 1 2   ∑n i=1 ∑ j∈Ωi wi j( αi −αj )2 +λ ∑ i∈S (αi −α˜i) 2   (3) αi i α˜i S λ α λ 式中：为点的不透明度；为待求不透明度的输入初始值；为约束集合；为输入控制参数，其值越大表示所求值与原输入的一致性越高。式 (3) 等号左边第 2 项可看作针对输入信息的规则化项，为规则化因子。 k k λ hi 结合原始的随机游走算法，将传统双层抠图算法扩展为多图层抠图，像素点到类种子的首达概率定义为第个图层的不透明度，并与式 (3) 的相区别，此处为每个点取不同的输入控制参数，将抠图目标函数转化成带规则化输入信息约束的扩展 Dirichlet 问题，则 D [ α k ] = 1 2   ∑n i=1 ∑ j∈Ωi wi j( α k i −α k j )2 + ∑ i∈S hi ( α k i −α˜ k i )2   (4) α k i α k j i j k α˜ k i hi i k > 2 k = 2 p k α k λ 式中：、表示点、在第个图层的不透明度值；为用户输入的信息或初始值；为第个像素点的输入控制参数，其数值的大小与信息的传播距离相关。当时，式 (4) 为多层抠图；当时，式 (4) 为单纯的前景提取。若将式 (1) 中的首达概率定义为不透明度，再与式 (4) 进行对比，不难发现式 (1) 的传统随机游走算法少了规则化约束项。实际上随机游走分割是将种子点看作理想电源，内阻为无限小，即假设为无穷大，从而才能对拉普拉斯矩阵进行拆分，将数据集分成已标注和未标注两个部分求解。而式 (3) 的传统抠图算法的目标函数也都是将输入控 ·1008· 智能系统学报第 14 卷

第5期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1009· 制参数1取为大值四，并且每个点的输入控制参将该式拆开、并写成单个元素的形式为数值相等。若忽略各算法所构建图模型的差异 du= x1+∑ (8) hi+di 性(，看成相同)，当各抠图算法的输入控制参数分h+d A→∞时，很容易得知各抠图算法与随机游走分 (9) 割算法具有等价性。 2644 入值是否越大越好？其实不然。因A值取为由文献[22]可知，式(8)、式(9)正是部分吸收大值存在以下问题：随机游走算法(partial absorption random walk, 1)标注信息从已知区域向未知区域扩散时， PARW)的基本形式，故A为吸收概率矩阵，ai表未知区域只能接受已标注区域的边界信息，扩散示信息在节点i的自吸收概率，a表示节点i的过程只依赖于局部相似关系建立的图模型，而与信息被近邻节点j吸收的概率。根据式(8)、式已知区域内部的其他信息无关。尤其是标注信息 (9)的分析，可得到结论1和结论2。不足时，局部模型的小窗口特性限制了输入信息结论1由于吸收概率矩阵A中的元素在0、的传播距离。 1之间，且各行加和为1，因此输入信息在图模 2)为了使目标函数值最小，传统算法会迫使型上的扩散有稳定解，所提供的信息将被图完 α的取值在已知区域和未知区域之间平滑过渡。全吸收。当输入的信息不完全正确时，过大的A值也会将结论2自吸收概率a的大小与输入信息的错误传递给其他像素，且无法进行自修正。局部相似扩散距离有关，自吸收概率a:越小，传针对入取大值存在的问题，以下对输入控制播距离越远，反之距离越近。参数h:取小值时的特性进行分析。由于本文所提带软性约束条件的随机游走 2.2输入控制参数h,取小值时转移概率分析 SCRW与部分吸收式随机游走算法PARW本质将式(4)写成矩阵形式，则有上是相同的，此时图中节点ⅰ到节点j的转移概 D[=a'L(a)+(d-y'H(a-) 率为 h h:+d' i=j eeg (5) Pu (10) i≠j -41卧- （h:+d’ 式(10)表明，初始信息有h,/(h+d)的概率停式中：对角矩阵H=diag(h1,h2,…,hn;a表示第k 留在原节点上，而由w/h+d)概率转移到相邻个图层的不透明度值；为给定的初值，并将其节点j,转移到相邻节点的总概率为d,/(h+d)。分为已知和未知两部分用下标、1表示。矩阵H 3输入控制矩阵设计对角元素：的大小表明了对原始输入值的遵从程度。为了达到更远的传播距离和避免不准确输 3.1信息流扩散与图像局部模型入信息对输出结果的不良影响，本文输人控制参由上可知，节点的自吸收概率与d、h相关，数的取值较小，相比于传统抠图算法硬约束下的在不同类型的图G=(VE)中，信息流的扩散也不 λ值取大值，式（⑤）可以看成一种带软约束的随机相同。以下将图G=(VE)分为非归一化图模型游走算法。将式（⑤）求微分得到优化的输出结果为和归一化图模型两种进行讨论。 a=(L+H)(-Bai+Hd= (6) 在非归一化图模型中，若各点的输入控制参 (La+H)'（-Ba)+(Lu+H)H.a的数取为相同的值，即H=y(y为常量)时，图像点当H.取小数值时，(Ln+H)1≈L,式(6)第 i的自转移概率为pa=yy+d),pa随d单调递一项与式(2)的无约束随机游走一致；第二项与减。由于在图像边界内部像素点间相似度高，节输入初始信息心相关，令变换矩阵A=(Lm+H)H 点在边界内的d,值比边界处大，导致p:在边界内则有的吸收概率低于边界，当信息流到边界处时将会 A=(Lm+H)广H.= 被节点高概率地吸收，从而防止标注信息的扩散 (L.+)(D.+)(D.+)H= (D.+H,)(D-W+H)'(D.+H)H=() 超过边界。非归一化矩阵H=yl之所以能保持信息大部分在边界内被吸收，主要得益于图结构 (I-(D.+)W.(D.+)H. 上各节点度d:的差异性。式(7)等价于A-(Du+H)WnA=(D.+H)H., 而在归一化图模型中，各点的度都为d,信息

λ wi j λ → ∞ 制参数取为大值[3-12] ，并且每个点的输入控制参数值相等。若忽略各算法所构建图模型的差异性 ( 看成相同)，当各抠图算法的输入控制参数时，很容易得知各抠图算法与随机游走分割算法具有等价性。 λ 值是否越大越好?其实不然。因 λ 值取为大值存在以下问题： 1) 标注信息从已知区域向未知区域扩散时，未知区域只能接受已标注区域的边界信息，扩散过程只依赖于局部相似关系建立的图模型，而与已知区域内部的其他信息无关。尤其是标注信息不足时，局部模型的小窗口特性限制了输入信息的传播距离。 α λ 2) 为了使目标函数值最小，传统算法会迫使的取值在已知区域和未知区域之间平滑过渡。当输入的信息不完全正确时，过大的值也会将错误传递给其他像素，且无法进行自修正。 λ hi 针对取大值存在的问题，以下对输入控制参数取小值时的特性进行分析。 2.2 输入控制参数 hi 取小值时转移概率分析将式 (4) 写成矩阵形式，则有 D [ α k ] = 1 2 (( α k )T L ( α k ) + ( α k −α˜ k )T H ( α k −α˜ k ) ) = 1 2 ([( α k l )T( α k u )T ] [ Ll B B T Lu ] [α k l α k u ] + ··· + ([α k l α k u ] − [ α˜ k l α˜ k u ])T [ Hl 0 0 T Hu ] ([α k l α k u ] − [ α˜ k l α˜ k u ])  (5) H = diag{h1,h2,··· ,hn} α k k α˜ k u l H hi λ 式中：对角矩阵；表示第个图层的不透明度值；为给定的初值，并将其分为已知和未知两部分用下标、表示。矩阵对角元素的大小表明了对原始输入值的遵从程度。为了达到更远的传播距离和避免不准确输入信息对输出结果的不良影响，本文输入控制参数的取值较小，相比于传统抠图算法硬约束下的值取大值，式 (5) 可以看成一种带软约束的随机游走算法。将式 (5) 求微分得到优化的输出结果为 α k u = (Lu + Hu) −1 ( −B Tα k l + Huα˜ k u ) = (Lu + Hu) −1 ( −B Tα k l ) +(Lu + Hu) −1Huα˜ k u (6) Hu (Lu + Hu) −1 ≈ L −1 u α˜ k u A = (Lu + Hu) −1Hu 当取小数值时，，式 (6) 第一项与式 (2) 的无约束随机游走一致；第二项与输入初始信息相关，令变换矩阵，则有 A = (Lu + Hu) −1Hu = (Lu + Hu) −1 (Du + Hu) (Du + Hu) −1Hu = ( (Du + Hu) −1 (Du −Wu + Hu) )−1 (Du + Hu) −1Hu = ( I−(Du + Hu) −1Wu )−1 (Du + Hu) −1Hu (7) A−(Du + Hu) −1WuA = (Du + Hu) −1 式 ( 7 ) 等价于 Hu ，将该式拆开，并写成单个元素的形式为 aii = hi hi +di ×1+ ∑ j,i wi j hi +di ai j (8) ai j = ∑ j,k wk j hi +di ajk, i , j (9) A aii i ai j i j 由文献 [22] 可知，式 (8)、式 (9) 正是部分吸收随机游走算法 (partial absorption random walk, PARW) 的基本形式，故为吸收概率矩阵，表示信息在节点的自吸收概率，表示节点的信息被近邻节点吸收的概率。根据式 (8)、式 (9) 的分析，可得到结论 1 和结论 2。 A α˜ k u α˜ k u 结论 1 由于吸收概率矩阵中的元素在 0、 1 之间，且各行加和为 1，因此输入信息在图模型上的扩散有稳定解，所提供的信息将被图完全吸收。 aii aii 结论 2 自吸收概率的大小与输入信息的局部相似扩散距离有关，自吸收概率越小，传播距离越远，反之距离越近。 i j 由于本文所提带软性约束条件的随机游走 SCRW 与部分吸收式随机游走算法 PARW 本质上是相同的，此时图中节点到节点的转移概率为 pi j =    hi hi +di , i = j wi j hi +di , i , j (10) hi/ (hi +di) wi j/ (hi +di) j di/ (hi +di) 式 (10) 表明，初始信息有的概率停留在原节点上，而由概率转移到相邻节点，转移到相邻节点的总概率为。 3 输入控制矩阵设计 3.1 信息流扩散与图像局部模型 di hi G = (V,E) G = (V,E) 由上可知，节点的自吸收概率与、相关，在不同类型的图中，信息流的扩散也不相同。以下将图分为非归一化图模型和归一化图模型两种进行讨论。 H = γI γ i pii = γ/(γ+di) pii di di pii H = γI di 在非归一化图模型中，若各点的输入控制参数取为相同的值，即 ( 为常量) 时，图像点的自转移概率为，随单调递减。由于在图像边界内部像素点间相似度高，节点在边界内的值比边界处大，导致在边界内的吸收概率低于边界，当信息流到边界处时将会被节点高概率地吸收，从而防止标注信息的扩散超过边界。非归一化矩阵之所以能保持信息大部分在边界内被吸收，主要得益于图结构上各节点度的差异性。而在归一化图模型中，各点的度都为 d0，信息第 5 期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1009·

·1010· 智能系统学报第14卷流的自转移概率为h:/(h:+do,若各点的输入控制 4)单点模型：前景和背景取为相同常数，即参数也取为相同的值，则各节点间的自转移概率 I=F=B,为任意常量，这种特殊情况下，自由都相同。在传统的C℉抠图O算法中，基于像素度为1，窗口内各点颜色值相同，一般是在图像的的节点连接度为wc(I,-)(-4)/(+),若窗连续平滑区域。口半径为r,经过运算可知各节点的度相等，即 3.2局部自适应输入控制矩阵设计 d=d=(2r+1)2。从w的计算公式可以看出，记局部窗口内的特征矩阵为G=号1儿 CF算法相当于对原数据进行了0均值的归一化当前背景颜色取线-线、点-线、点-点及单点模型操作，归一化丢失了图像各窗口间颜色变化的差时，由3.1节知颜色特征到α值变换的自由度为异性，因此若将输入控制矩阵H取为yl,则自转 4、3、2、1,因而相应模型下特征矩阵的秩也为4、移概率P:为常数，边界内和边界外的节点对信息 3、2、1。矩阵的秩越低，表示特征向量间的相关流具有相同的吸收概率，信息流由于没有边界吸性越大，窗口内像素点间具有高的相似度，这使收特性，将出现误扩散。得隐含的未归一化前的节点度值山：更大，若图模因此，在节点度d:相同的归一化图模型中，型未进行归一化，则不同的d:能够使信息流根据设计具有边界吸收特性的转移概率，则要求各节图像特征进行扩散，因而输入控制参数可取为相点的输入控制参数h:能够根据图像的局部分布同的值；若图模型进行了归一化，当窗口内的方特征而变化。以下探讨局部窗口内前背景颜色模差较小时，局部区域颜色变化平滑，则希望有较型的分布特征，及相应模型下α值相似变换的自小的来使得当前节点的自吸收概率低，从而信由度；并以此为基础来确定h:值。息流有更大的流动性，反之则，取较大的值。总根据图像特性)，在围绕图像点i的窗口中，之，参数：设计的目标是使信息流根据图像的局可将前景颜色和背景颜色的关系分为4种模型：部特征得到合适的扩散，即在模型简单颜色平滑 1)线-线模型：前景和背景都是线性变化，则存区域的扩散程度高，复杂区域的扩散程度低。综在颜色常量(F1,F2,B1,B2),使窗口中点j的前景和背上所述.本文采用的：计算公式为景为F=F1+(1-)F2、B=B1+1-)B2,将F y,G=(V,E)是非归一化图 B,带入抠图前背景耦合公式I,=a,F+(1-a)B,则 hi= h×rank(G)xG=(WE)是归一化图 L=e时F+(1-)F2+(1-B1+(1-)B (11) 由于图像RGB3通道分别符合线性关系，记3×3 式中：、？为全局输入控制常数，为避免过强输矩阵Q的对应取值为[F+B,F-F,B-B, 入限制作用，一般将其取为小值；rank(G)为特征则L,与Q的关系改写为矩阵的秩；：为窗口内颜色方差，整张图像的平 i =I-B2 均方差为云=，∑（σ）}/n。当建立的是非归一的 (1-a1 图模型时，各节点的输人控制参数取相同的式中1，=，取4ad为Q的第1行，值，P=y/y1+d),各节点度d,的差异性使得在则存在4个自由度的相似变换：未归一化图上的扩散自然具有边界吸收特性：当 aj=a+a++b 建立的是规则化的图模型时，节点度d:取相同的 2)点-线模型：前景或是背景其中之一退化为值d。对应的自吸收概率为 Pa=hil(hi+di)= 点模型，在窗口内取值为常数，不妨设前景为常 y2×rank(G,)×o:/(y2×rank(G,)×o:+d×) 量，背景呈线性，则F;=F、B,=B+(1-)B, 由于特征矩阵秩rank(G,)的4种取值分别对代入线性组合公式得应窗口内颜色的4种分布模型，此时图像上各点 I=a,F+(1-a,)B1+(1-)B2)= 的P:取值实质上是按照线-线、点-线、点-点及 a,(F-B2)+(1-a(B1-B2)+B2 单点4种颜色模型先进行粗略地分段，而后再用推导可知存在自由度为3的变换： σ：/厅进一步细化而得，这样信息流将会根据图像 aj=alj+a+ar 的局部特性进行自适应地扩散。 3)点-点模型：前景和背景都取值为常数的点 c,与rank(G,)计算方法为：首先对矩阵G:进模型，即F,=F、B,=B,此时L,=aF+(1-a)B= 行奇异值分解得G:=U∑VT,得到对角线上的奇异 (F-B)α：+B,则自由度为2的变换为值为[ca2ao,且1>2>>4，则转换 ,=a+a 后的方差为c:=√(c+ca+oa+4)/4,rank(G)的

hi/ (hi +d0) wi j ∝ (Ii −µk) ( Ij −µk ) / ( σ 2 k +ε ) r di = d0 = (2r +1)2 wi j H γI pii 流的自转移概率为，若各点的输入控制参数也取为相同的值，则各节点间的自转移概率都相同。在传统的 CF 抠图[10] 算法中，基于像素的节点连接度为，若窗口半径为，经过运算可知各节点的度相等，即。从的计算公式可以看出， CF 算法相当于对原数据进行了 0 均值的归一化操作，归一化丢失了图像各窗口间颜色变化的差异性，因此若将输入控制矩阵取为，则自转移概率为常数，边界内和边界外的节点对信息流具有相同的吸收概率，信息流由于没有边界吸收特性，将出现误扩散。 di hi α hi 因此，在节点度相同的归一化图模型中，设计具有边界吸收特性的转移概率，则要求各节点的输入控制参数能够根据图像的局部分布特征而变化。以下探讨局部窗口内前背景颜色模型的分布特征，及相应模型下值相似变换的自由度；并以此为基础来确定值。根据图像特性 i [23] ，在围绕图像点的窗口中，可将前景颜色和背景颜色的关系分为 4 种模型： (F1,F2,B1,B2) j Fj =β F j F1+ ( 1−β F j ) F2 Bj =β B j B1+ ( 1−β B j ) B2 Fj Bj Ij = αjFj +(1−αj)Bj Ij = αj [ β F j F1 + ( 1−β F j ) F2 ] +(1−αj) [ β B j B1 + ( 1−β B j ) B2 ] 1) 线−线模型：前景和背景都是线性变化，则存在颜色常量，使窗口中点的前景和背景为、，将、带入抠图前背景耦合公式，则。 Q [ F2+B2 F1−F2 B1−B2 ] 由于图像 RGB 3 通道分别符合线性关系，记 3×3 矩阵的对应取值为，则 Ij 与 Q 的关系改写为 Q   αj αjβ F j (1−αj)β B j   = Ij − B2 Ij = [ I r j I g j I b j ]T a r i a g i a b i Q 式中 −1 ，取为的第 1 行，则存在 4 个自由度的相似变换： αj = a r i I r j +a g i I g j +a b i I b j +bi Fj = F Bj = β B j B1 + ( 1−β B j ) B2 2) 点−线模型：前景或是背景其中之一退化为点模型，在窗口内取值为常数，不妨设前景为常量，背景呈线性，则、，代入线性组合公式得 Ij = αjF+(1−αj) ( β B j B1 + ( 1−β B j ) B2 ) = αj(F− B2)+(1−αj)β B j (B1 − B2)+ B2 推导可知存在自由度为 3 的变换： αj = a r i I r j +a g i I g j +a b i I b j Fj = F Bj = B Ij = αjF+(1−αj)B = (F− B)αj + B 3) 点−点模型：前景和背景都取值为常数的点模型，即、，此时，则自由度为 2 的变换为 αj = a 1 i ˜I 1 j +a 2 i ˜I 2 j Ij = F = B αj 4) 单点模型：前景和背景取为相同常数，即，为任意常量，这种特殊情况下，自由度为 1，窗口内各点颜色值相同，一般是在图像的连续平滑区域。 3.2 局部自适应输入控制矩阵设计 Gi = [ I r j I g j I b j 1 ] j∈|Ωi| α di di hi hi hi hi 记局部窗口内的特征矩阵为，当前背景颜色取线-线、点-线、点-点及单点模型时，由 3.1 节知颜色特征到值变换的自由度为 4、3、2、1，因而相应模型下特征矩阵的秩也为 4、 3、2、1。矩阵的秩越低，表示特征向量间的相关性越大，窗口内像素点间具有高的相似度，这使得隐含的未归一化前的节点度值更大，若图模型未进行归一化，则不同的能够使信息流根据图像特征进行扩散，因而输入控制参数可取为相同的值；若图模型进行了归一化，当窗口内的方差较小时，局部区域颜色变化平滑，则希望有较小的来使得当前节点的自吸收概率低，从而信息流有更大的流动性，反之则取较大的值。总之，参数设计的目标是使信息流根据图像的局部特征得到合适的扩散，即在模型简单颜色平滑区域的扩散程度高，复杂区域的扩散程度低。综上所述，本文采用的计算公式为 hi =    γ1, G = (V,E)是非归一化图 γ2 ×rank(Gi)× σi σ , G = (V,E)是归一化图 (11) γ1 γ2 rank(Gi) σi σ = √∑ i (σi) 2 /n hi pii = γ1/(γ1 +di) di di d0 式中：、为全局输入控制常数，为避免过强输入限制作用，一般将其取为小值；为特征矩阵的秩；为窗口内颜色方差，整张图像的平均方差为。当建立的是非归一的图模型时，各节点的输入控制参数取相同的值，，各节点度的差异性使得在未归一化图上的扩散自然具有边界吸收特性；当建立的是规则化的图模型时，节点度取相同的值。对应的自吸收概率为 pii = hi/(hi +di) = γ2 ×rank(Gi)×σi/(γ2 ×rank(Gi)×σi +d0 ×σ) rank(Gi) pii σi/σ 由于特征矩阵秩的 4 种取值分别对应窗口内颜色的 4 种分布模型，此时图像上各点的取值实质上是按照线−线、点−线、点−点及单点 4 种颜色模型先进行粗略地分段，而后再用进一步细化而得，这样信息流将会根据图像的局部特性进行自适应地扩散。 σi rank(Gi) Gi Gi = UΣV T [σi1 σi2 σi3 σi4] σi1 > σi2 > σi3 > σi4 σi = √( σ 2 i1+σ 2 i2+σ 2 i3+σ 2 i4 ) /4 rank(Gi) 与计算方法为：首先对矩阵进行奇异值分解得，得到对角线上的奇异值为，且，则转换后的方差为，的 ·1010· 智能系统学报第 14 卷

第5期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1011· 取值为得到各节点对应的输入控制参数。低层的种子点 rmk=as>】 12) 包含原始用户输入的标注与高层计算中新增加的种子点，新增前背景种子点的阈值取为式中：t为预先设定的阈值，参考文献[23]取值为 t=mean(c)+1.2x max(.) 0.0025。式(12)表示转换空间中方差大于阈值1 2 tb=0.5×mean(a) 的维数。式中心，为高层基于超像素计算出来的α值。当 4单帧图片抠图 a>tr时，则点i取为新的前景种子点：当<t6 时，则点i取为新的背景种子点；其他点则将高层为了提高算法的快速性，单帧抠图采用双层传递下来的α值作为软约束条件，引导随机游走的形式。首先对图像进行SLIC超像素24分割，的相似扩散过程，从而得到低层的抠图结果。通构建基于超像素的图模型G,对初始的用户输入过新增加前景和背景种子点，在低层的SCRW抠进行信息扩散得到高层抠图结果，接着将高层结图中，未知点的数目减少，因而算法的运行时间降低。果作为低层抠图的输入标注信息，在基于像素的图模型G,上进行扩散，求得细化后的结果。本文 5视频抠图在高层和低层都采用具有软约束的随机游走算由于视频抠图处理数据量大，一般无法对每法SCRW,二者的区别在于图模型的构造和控制帧图像进行标注，但图像序列间具有连续性与相矩阵H的设计上。似性，充分利用图像的帧间信息可以获得单张图在高层中，图模型G1=(V1,E)中的连接边有像不具备的特征。本文在单帧双层SCRW算法 3种：空间上相毗连的两个超像素点间：共享一个的基础上，采用软硬两种约束相结合的方式进行边的超像素点间；在颜色空间中用FLANN算法视频抠图。图1为视频抠图的示意图：左侧为输寻找到的m:个最相似的超像素点间。连接两节入的第i-1帧、第i帧图像及相应的三分图区域点的相似度计算公式为 (背景B,前景F,未知区域U)。连续两帧图像间 lic-cl Wir exp (13) 的信息传导有两种：光流映射与流形最近邻映射。 62 三分图匹配 a值匹配式中：cw、c,为超像素节点W、v的平均CIELAB颜 - 色值；6为控制相似度计算的常数，文中62=0.1。第一1 由于在全局图像的相似度计算中采用相同的6，光流映射流形最近邻映射 SCRW低层抠图因此高层建立的图模型G1=(V,E)是未归一化的，根据式(11)各节点的控制参数取相同的y, 第i邮矩阵H=yI。记某超像素s内的总像素数为n, 软约束用户标注的前景像素数为m,背景像素数为，硬约束、女软约束中SCRW高层抠图当/m,=1、m心/m,=1时，该超像素被定为前景、背景种子点；当m/m<1、n/m,<1时，该超像素是不完全标注，取m/m,、/m分别作为前景、背景的图1 SCRW视频抠图示意初始软约束条件，运用软约束随机游走算法来计 Fig.1 Schematic of SCRW video matting process 算超像素属于前景和背景的概率，从而得到高层抠图结果。首先计算图像的前向与后向运动向量262列在低层中，图模型按照传统的C℉算法©建 [%4y小，将前一帧的三分图T-1按照前向光流映射到当前帧，并对其进行形态学操作去除部立，相似度函数为分杂点，确保新产生的三分图T:的准确性。而后之回+-w+-四对图像进行超像素划分进行高层SCRW运算，将已知区域向未知区域扩散得到初步抠图结果式中：2，为围绕像素点q的3×3窗口；4，、∑，为 h。与式(13)不同，此时具有边连接的两超像素窗口内颜色的均值和方差；2为窗口像素数；ε 相似度的计算中包含了前向、后向光流场向量：为规则化因子，取10。由以上分析可知，此时建 F-F Wu exp- 立的是归一化图模型。根据式(12)计算各节点窗 62 口内的颜色特征向量的秩与方差，再代入式(11) 式中：F,为颜色特征；F,为运动向量特征，取值为

取值为 rank(Gi) = arg max k∈{1,2,3,4} [ σik σi > t ] (12) t t 式中：为预先设定的阈值，参考文献 [23] 取值为 0.002 5。式 (12) 表示转换空间中方差大于阈值的维数。 4 单帧图片抠图 G1 G2 为了提高算法的快速性，单帧抠图采用双层的形式。首先对图像进行 SLIC 超像素[24] 分割，构建基于超像素的图模型，对初始的用户输入进行信息扩散得到高层抠图结果，接着将高层结果作为低层抠图的输入标注信息，在基于像素的图模型上进行扩散，求得细化后的结果。本文在高层和低层都采用具有软约束的随机游走算法 SCRW，二者的区别在于图模型的构造和控制矩阵 H 的设计上。 G1 = (V1,E1) nk 在高层中，图模型中的连接边有 3 种：空间上相毗连的两个超像素点间；共享一个边的超像素点间；在颜色空间中用 FLANN 算法[25] 寻找到的个最相似的超像素点间。连接两节点的相似度计算公式为 wuv = exp( − ∥cu −cv∥ δ 2 ) (13) cu cv u v δ δ 2 = 0.1 δ G1 = (V1,E1) γ1 H = γ1 I s ns n f s n b s n f s /ns = 1 n b s /ns = 1 n f s /ns tf i αi < tb i α 式中为高层基于超像素计算出来的值。当时，则点取为新的前景种子点；当时，则点取为新的背景种子点；其他点则将高层传递下来的值作为软约束条件，引导随机游走的相似扩散过程，从而得到低层的抠图结果。通过新增加前景和背景种子点，在低层的 SCRW 抠图中，未知点的数目减少，因而算法的运行时间降低。 5 视频抠图 i−1 i 由于视频抠图处理数据量大，一般无法对每帧图像进行标注，但图像序列间具有连续性与相似性，充分利用图像的帧间信息可以获得单张图像不具备的特征。本文在单帧双层 SCRW 算法的基础上，采用软硬两种约束相结合的方式进行视频抠图。图 1 为视频抠图的示意图：左侧为输入的第帧、第帧图像及相应的三分图区域 (背景 B，前景 F，未知区域 U)。连续两帧图像间的信息传导有两种：光流映射与流形最近邻映射。第 i−1 帧第 i 帧三分图匹配 Ti−1 α 值匹配 Ti F B U F B U 光流映射流形最近邻映射 F U B F U B SCRW 高层抠图 SCRW 低层抠图硬约束软约束软约束 αi−1 αi ⊕ 图 1 SCRW 视频抠图示意 Fig. 1 Schematic of SCRW video matting process [ ub vb uf vf ] Ti−1 Ti αh 首先计算图像的前向与后向运动向量[26-27] ，将前一帧的三分图按照前向光流映射到当前帧，并对其进行形态学操作去除部分杂点，确保新产生的三分图的准确性。而后对图像进行超像素划分进行高层 SCRW 运算，将已知区域向未知区域扩散得到初步抠图结果。与式 (13) 不同，此时具有边连接的两超像素相似度的计算中包含了前向、后向光流场向量： wkl = exp( − ∥Fk − Fl∥ δ 2 ) 式中：Fk 为颜色特征；Fl 为运动向量特征，取值为第 5 期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1011·

·1012· 智能系统学报第14卷 F=[I h v Ayub Ayvo Arus Arvsl (14) 7)判断视频是否处理完毕或到预定处理帧式中入控制颜色特征与运动特征的比重，这意味数，否则转到2)。当图像中的点拥有相近的颜色及运动时，其对应 6实验结果的α值也相近。在三分图标注信息下取得的高层SCRW结果aa较为粗糙，需要低层的进一步实验的运行环境为：Intel Core i3双核3.3GHz 精细化处理，除了将高层结果作为软约束外，本 CPU,编程环境为Matlab2016。对比算法有文还用FLANN算法为当前帧中的点在前一帧 CFIO、LBI、KNN2抠图算法。由于CF算法在寻找其最优近邻.最近邻的搜索特征为层数大于5时，程序无法正常运行，因此取层数eve上l X=rgb入x入y (15) 及level-=5两种水平下的结果与本文算法进行对上述FLANN搜索特征中未加入光流向量是比，文中超像素数取1000。实验中定量分析图片因为不同帧间的光流特征不具有可比性。与传统源于抠图标准网站htp:www.alphamatting..comP。视频抠图要求三分图密实围绕前景物体、宽度较 6.1单帧抠图实验结果与分析窄不同，本文只需要勾画前景与背景的大致区 1)参数y1、2 域，即只需要前背景的稀疏输入，因而未知区域为了验证参数Y、2对信息传播的影响，此处的范围较宽。然而未知区域通常包含复杂的图像忽略各节点的差异性，将上下两层的H矩阵取为细节，如毛发、孔洞等，且由于图像运动造成的前单位矩阵。如图2所示，左上图像为带笔画标注景物体遮挡、新增前景等原因，当前帧未知区域的图像，白色画线为前景标注，黑色画线为背景中的点与前一帧的流形匹配点有可能差别较大，标注。右上为该图在不同y、2参数下的MSE误置信度低。设M=m,lx1为当前帧中的点与其前差，下方为运行结果。从图2中可以看出，随着参帧最优匹配点间的欧式距离，对向量M取阈值数y、y2的降低，各节点的自吸收概率降低，已标 Ta,丢弃距离大于T:的点则得到流形约束图注区域的信息有更大的概率达到未知区域，信息 m。此时除了式(1I)的两种输人控制参数外，流流有更远的传播距离，因而距离已知区域较远的形约束αm对应的输人控制矩阵设计为点也能得到引导信息，从而使误差MSE值降低。 h:=y3× 1、m 经过多次实验，选择参数y1、2的值为102、10， (16) max(mi) 并将其应用到后续的实验中。式中y为可控常量。本文除了通过光流匹配的三 y=10=102=10- 分图T传递，还有通过流形匹配的α值信息传 =1020.40890.38160.3032 递，且高层的超像素相似传播包含了流形特征。 =10°0.27220.25580.2222 而大多数传统算法只是在三分图的产生过程中用 =10-20.20780.20380.2025 到了光流信息，因此本文算法能够取得更为良好输入 MSE 的时空一致性的效果。本文视频抠图的基本步骤为： %=102 1)用光流法计算视频序列中每一帧的前向、后向光流运动向量(，%，4，v: 2)用前向光流(u,v）将前帧三分图T-1匹配到当前帧，得到三分图T: =109 3)以T:为硬约束条件，对当前帧进行高层 SCRW相似扩散得到aa; 4)通过流形最近邻映射将前帧α值匹配到当前帧，并去除置信度低的点，得到前帧α值约束am: =10 5)综合三分图硬约束T:与软约束ah、am,及式(11)、式(16)的输人控制矩阵，引导低层SCRW 2=10 7=10-2 72=109 相似扩散，得到最后的结果；图2全局输入控制参数y1、Y2的影响 6)将：>0.8、：<02作为确定的前景与背 Fig.2 Influence of global input control parameters yi,y2 景，并对其未知区域向外膨胀n。个像素，重新产 2)容错性生向后传递的三分图T; 图3是不完全正确标注情况下，传统C℉算法

F = [ l h v λf ub λf vb λf uf λf vf ] (14) λf α αh 式中控制颜色特征与运动特征的比重，这意味当图像中的点拥有相近的颜色及运动时，其对应的值也相近。在三分图标注信息下取得的高层 SCRW 结果较为粗糙，需要低层的进一步精细化处理，除了将高层结果作为软约束外，本文还用 FLANN 算法[25] 为当前帧中的点在前一帧寻找其最优近邻，最近邻的搜索特征为 X = [ r g b λsx λsy ] (15) M = [mi]n×1 M Td Td αm αm 上述 FLANN 搜索特征中未加入光流向量是因为不同帧间的光流特征不具有可比性。与传统视频抠图要求三分图密实围绕前景物体、宽度较窄不同，本文只需要勾画前景与背景的大致区域，即只需要前背景的稀疏输入，因而未知区域的范围较宽。然而未知区域通常包含复杂的图像细节，如毛发、孔洞等，且由于图像运动造成的前景物体遮挡、新增前景等原因，当前帧未知区域中的点与前一帧的流形匹配点有可能差别较大，置信度低。设为当前帧中的点与其前帧最优匹配点间的欧式距离，对向量取阈值，丢弃距离大于的点则得到流形约束图。此时除了式 (11) 的两种输入控制参数外，流形约束对应的输入控制矩阵设计为 hi = γ3 × ( 1− mi max(mi) ) (16) γ3 T α 式中为可控常量。本文除了通过光流匹配的三分图传递，还有通过流形匹配的值信息传递，且高层的超像素相似传播包含了流形特征。而大多数传统算法只是在三分图的产生过程中用到了光流信息，因此本文算法能够取得更为良好的时空一致性的效果。本文视频抠图的基本步骤为： ( ub, vb,uf , vf ) 1) 用光流法计算视频序列中每一帧的前向、后向光流运动向量； ( uf , vf ) Ti−1 Ti 2) 用前向光流将前帧三分图匹配到当前帧，得到三分图； Ti αh 3) 以为硬约束条件，对当前帧进行高层 SCRW 相似扩散得到； α α αm 4) 通过流形最近邻映射将前帧值匹配到当前帧，并去除置信度低的点，得到前帧值约束； Ti αh αm αi 5) 综合三分图硬约束与软约束、，及式 (11)、式 (16) 的输入控制矩阵，引导低层 SCRW 相似扩散，得到最后的结果； αi > 0.8 αi < 0.2 ne Ti ′ 6) 将、作为确定的前景与背景，并对其未知区域向外膨胀个像素，重新产生向后传递的三分图； 7) 判断视频是否处理完毕或到预定处理帧数，否则转到 2)。 6 实验结果实验的运行环境为：Intel Core i3 双核 3.3 GHz CPU，编程环境为 Matlab 2016。对比算法有 CF[10] 、LB[11] 、KNN[12] 抠图算法。由于 CF 算法在层数大于 5 时，程序无法正常运行，因此取层数 level=1 及 level=5 两种水平下的结果与本文算法进行对比，文中超像素数取 1 000。实验中定量分析图片源于抠图标准网站 http://www.alphamatting.com[28]。 6.1 单帧抠图实验结果与分析 1) 参数 γ1、γ2 γ1 γ2 γ1 γ2 γ1 γ2 γ1 γ2 为了验证参数、对信息传播的影响，此处忽略各节点的差异性，将上下两层的 H 矩阵取为单位矩阵。如图 2 所示，左上图像为带笔画标注的图像，白色画线为前景标注，黑色画线为背景标注。右上为该图在不同、参数下的 MSE 误差，下方为运行结果。从图 2 中可以看出，随着参数、的降低，各节点的自吸收概率降低，已标注区域的信息有更大的概率达到未知区域，信息流有更远的传播距离，因而距离已知区域较远的点也能得到引导信息，从而使误差 MSE 值降低。经过多次实验，选择参数、的值为 10−2 、10−3 ，并将其应用到后续的实验中。 0.408 9 0.381 6 0.303 2 0.272 2 0.255 8 0.222 2 0.207 8 0.203 8 0.202 5 输入 MSE γ1=102 γ1=100 γ1=10−2 γ1=102 γ1=100 γ1=10−2 γ2=10−1 γ2=10−2 γ2=10−3 γ2=10−1 γ2=10−2 γ2=10−3 图 γ1 γ2 2 全局输入控制参数、的影响 Fig. 2 Influence of global input control parameters γ1, γ2 2) 容错性图 3 是不完全正确标注情况下，传统 CF 算法 ·1012· 智能系统学报第 14 卷

第5期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1013· 和本文所提SCRW算法的容错性比较。在图3b) 3)定量比较中，白色画线为前景标注，黑色画线为背景标注，在图4(a)中，三分图1是原始三分图，三分中间圆圈区域内，用户错误地将中间背景布标注图2~三分图5是原三分图的未知区域向外扩展为前景。图3(C)的传统C℉抠图算法，因为采用A 10、15、20、25个像素点而得，笔画式标注则是手为大值的硬性约束，输出严格遵从输入，最终结动标注（白色前景，黑色背景），图4(a)的用户标注果仍然将中间的背景布抠选了出来；而在图3(d) 信息从左至右依次减少。图4(b)、(©)为各算法在中，因为SCRW采用为小值的软性约束，各节不同的用户标注下的MSE误差及运算时间。由点局部自适应的h:设计使得输入信息能够根据图4(b)知，在三分图比较紧凑的情况下，未知区图像特征进行自适应扩散，可对一些非正确的输域中的点距离已知区域近，不需远距离的信息传入进行校正，使其符合图像内容，因此本文算法播就能获得引导信息，CF、LB算法的MSE误差的容错性更强。反而比较小；但随着用户标注区域的减少，C℉ LB算法由于缺乏远距传播，未知区域中的部分点得不到引导信息，产生了较大的误差，虽然C℉算法随着降采样水平的增高，也具有一定的远距传播能力，但其过强的输入控制使高层中不够准确的结果在低层中产生误扩散，故其MSE误差在高level的情况下反而更大；KNN算法虽采用非 (a)输入图像 (b)不完全正确标注局部近邻，但其流形近邻的搜索特征包含空间信息，传播距离也有限；而本文算法的高层远距离传播及低层细节恢复能力使得算法的整体误差最小，尤其是在用户输入信息不够充分的情况下能够取得更好的结果。在图4(c)中，CF算法在 level-=5时的运算时间最短，但其相应的误差最大，是以牺牲准确度来降低运算时间：除此之外， (c)C℉算法结果 (d)SCRW算法结果随着未知区域的增加，各算法的运算时间出现不图3容错性比较同程度的增加，但本文算法的增量最小，运算时 Fig.3 Comparison of fault tolerances 间基本在10s左右。分图1 分 (a)用户标注 0.30 CF-level=1 80 CF-leveFl 0.25 CF-level=2 ▣F.eve=2 ▣CF.level=5 CF-level=5 0.20 B ▣B 05 KNN KNN 一本文算法一本文算法 0.10 nhh场 30 20 0.05 三分图1 三分图2 三分图3 三分图4 三分图5 笔画式标注三分三分图4 三分图5 笔画式标注不同标注不同标注 (b)误差对比 (©)运算时间对比图4不同用户输入下各算法准确率及运算时间对比 Fig.4 Comparison of algorithm accuracy and operation time with different user inputs

λ λ hi 和本文所提 SCRW 算法的容错性比较。在图 3(b) 中，白色画线为前景标注，黑色画线为背景标注，中间圆圈区域内，用户错误地将中间背景布标注为前景。图 3(c) 的传统 CF 抠图算法，因为采用为大值的硬性约束，输出严格遵从输入，最终结果仍然将中间的背景布抠选了出来；而在图 3(d) 中，因为 SCRW 采用为小值的软性约束，各节点局部自适应的设计使得输入信息能够根据图像特征进行自适应扩散，可对一些非正确的输入进行校正，使其符合图像内容，因此本文算法的容错性更强。 (a) 输入图像 (b) 不完全正确标注 (c) CF 算法结果 (d) SCRW 算法结果图 3 容错性比较 Fig. 3 Comparison of fault tolerances 3) 定量比较在图 4(a) 中，三分图 1 是原始三分图，三分图 2~三分图 5 是原三分图的未知区域向外扩展 10、15、20、25 个像素点而得，笔画式标注则是手动标注 (白色前景，黑色背景)，图 4(a) 的用户标注信息从左至右依次减少。图 4(b)、(c) 为各算法在不同的用户标注下的 MSE 误差及运算时间。由图 4(b) 知，在三分图比较紧凑的情况下，未知区域中的点距离已知区域近，不需远距离的信息传播就能获得引导信息，CF、LB 算法的 MSE 误差反而比较小；但随着用户标注区域的减少，CF、 LB 算法由于缺乏远距传播，未知区域中的部分点得不到引导信息，产生了较大的误差，虽然 CF 算法随着降采样水平的增高，也具有一定的远距传播能力，但其过强的输入控制使高层中不够准确的结果在低层中产生误扩散，故其 MSE 误差在高 level 的情况下反而更大；KNN 算法虽采用非局部近邻，但其流形近邻的搜索特征包含空间信息，传播距离也有限；而本文算法的高层远距离传播及低层细节恢复能力使得算法的整体误差最小，尤其是在用户输入信息不够充分的情况下能够取得更好的结果。在图 4(c) 中，CF 算法在 level=5 时的运算时间最短，但其相应的误差最大，是以牺牲准确度来降低运算时间；除此之外，随着未知区域的增加，各算法的运算时间出现不同程度的增加，但本文算法的增量最小，运算时间基本在 10 s 左右。 (a) 用户标注三分图1 三分图2 三分图3 三分图4 三分图5 笔画式标注 (b) 误差对比 (c) 运算时间对比三分图1 三分图2 三分图3 三分图4 三分图5 笔画式标注 0 不同标注 MSE 误差 CF-level=1 CF-level=2 CF-level=5 LB KNN 本文算法三分图1 三分图2 三分图3 三分图4 三分图5 笔画式标注 0 10 20 30 40 50 60 70 80 不同标注时间/s CF-level=1 CF-level=2 CF-level=5 LB KNN 本文算法 0.05 0.10 0.15 0.20 0.30 0.25 图 4 不同用户输入下各算法准确率及运算时间对比 Fig. 4 Comparison of algorithm accuracy and operation time with different user inputs 第 5 期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1013·

·1014· 智能系统学报第14卷 62视频抠图实验结果与分析中的高层软约束SCRW能够增加输人信息的远实验中特征权重参数=0.001、入，=1，膨胀距传播能力，但因前景物体与背景的颜色存在一像素数n=50,阈值T4=0.002,输入控制参数定的相似度，因此Amira图像的灰色外套及眼部 y3=0.001。式(14)、式(15)中的颜色特征需经过没有完全地被抠选出来（图中箭头所示）。在归一化处理，视频数据来源于文献[29]。图5(e)中，由于CF算法的局部窗口作用会使得如图5所示，是Amira视频第79帧到第82帧算法在确定的前景和背景间平滑过渡，未知区域的各算法运行结果。图5(b)的三分图为前帧通过中的前景物体出现了半透明的抠图结果。本文所光流匹配得到的，图5(a)前背景边界线与图提出的带流形匹配的SCRW算法由于存在三分 5(b)中的三分图对应。由图5(a)知，随着前景图图和前帧α值传递的软约束，能在较大未知区域像的运动，匹配的三分图虽然大致划分了前景背中提供引导信息，因此能够取得时空更加一致的景区域，但并没有很好地贴近前景边界，虽然图5( 抠图结果。 (a)原视频图像 (b)三分图 (c)流形匹配下的SCRW算法 (d)无流形匹配的SCRW算法第79帧第80帧第81帧第82帧 (e)逐帧CF算法结果图5 Amira视频序列抠图结果 Fig.5 Matting results of Amira video sequence 7结束语控制参数对标注信息的扩散距离具有直接的影本文针对抠图算法标注准确性问题，根据带响，软性约束下随机游走具有更加优良的容错特约束随机游走算法信息流的传播特性，提出了一性，所提算法避免了视频抠图中获取三分图标注种带软性约束的随机游走算法，并将其应用到单的繁杂计算，为提高抠图算法的精度提供了新的帧图像抠图和视频抠图中。实验结果表明，输入思考方向。但本文算法在大尺寸图像和视频上运

6.2 视频抠图实验结果与分析 λf = 0.001 λs = 1 ne = 50 Td = 0.002 γ3 = 0.001 实验中特征权重参数、，膨胀像素数，阈值，输入控制参数。式 (14)、式 (15) 中的颜色特征需经过归一化处理，视频数据来源于文献 [29]。如图 5 所示，是 Amira 视频第 79 帧到第 82 帧的各算法运行结果。图 5(b) 的三分图为前帧通过光流匹配得到的，图 5(a ) 前背景边界线与图 5(b) 中的三分图对应。由图 5(a) 知，随着前景图像的运动，匹配的三分图虽然大致划分了前景背景区域，但并没有很好地贴近前景边界，虽然图 5(d) α 中的高层软约束 SCRW 能够增加输入信息的远距传播能力，但因前景物体与背景的颜色存在一定的相似度，因此 Amira 图像的灰色外套及眼部没有完全地被抠选出来 (图中箭头所示)。在图 5(e) 中，由于 CF 算法的局部窗口作用会使得算法在确定的前景和背景间平滑过渡，未知区域中的前景物体出现了半透明的抠图结果。本文所提出的带流形匹配的 SCRW 算法由于存在三分图和前帧值传递的软约束，能在较大未知区域中提供引导信息，因此能够取得时空更加一致的抠图结果。第79帧第80帧第81帧第82帧 (a) 原视频图像 (c) 流形匹配下的 SCRW 算法 (d) 无流形匹配的 SCRW 算法 (b) 三分图 (e) 逐帧 CF算法结果图 5 Amira 视频序列抠图结果 Fig. 5 Matting results of Amira video sequence 7 结束语本文针对抠图算法标注准确性问题，根据带约束随机游走算法信息流的传播特性，提出了一种带软性约束的随机游走算法，并将其应用到单帧图像抠图和视频抠图中。实验结果表明，输入控制参数对标注信息的扩散距离具有直接的影响，软性约束下随机游走具有更加优良的容错特性，所提算法避免了视频抠图中获取三分图标注的繁杂计算，为提高抠图算法的精度提供了新的思考方向。但本文算法在大尺寸图像和视频上运 ·1014· 智能系统学报第 14 卷

第5期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1015· 行缓慢，对边界模糊图像的处理效果不够理想， [12]CHEN Qifeng,LI Dingzeyu,TANG C K.KNN 如何进一步提高算法的快速性和复杂图像的处理 matting[J].IEEE transactions on pattern analysis and ma- 能力仍将是未来努力的方向。 chine intelligence,2013,35(9):2175-2188. 参考文献： [13]TSENG C Y,WANG S J.Learning-based hierarchical graph for unsupervised matting and foreground estima- [1]YAO Guilin,ZHAO Zhijie,LIU Shaohui.A comprehens- tion[J].IEEE transactions on image processing,2014, ive survey on sampling-based image matting[J].Computer 23(12):49414953 graphics forum,2017,36(8):613-628. [14]GONG Minglun,QIAN Yiming,CHENG Li.Integrated [2]ZHU Qingsong,SHAO Ling,LI Xuelong,et al.Targeting foreground segmentation and boundary matting for live accurate object extraction from an image:a comprehens- videos[J].IEEE transactions on image processing,2015, ive study of natural image matting[J.IEEE transactions on 24(4):1356-1370. neural networks and learning systems,2015,26(2): [15]LEE S Y,YOON J C,LEE I K.Temporally coherent 185-207. video matting[J].Graphical models,2010,72(3):25-33. [3]KARACAN L,ERDEM A,ERDEM E.Alpha matting [16]SHAHRIAN E,PRICE B,COHEN S,et al.Temporally with KL-divergence-based sparse sampling[J].IEEE trans- coherent and spatially accurate video matting[J].Com- actions on image processing,2017,26(9):4523-4536. puter graphics forum,2014,33(2):381-390. [4]XU Ning,PRICE B,COHEN S,et al.Deep image [17]LI Dingzeyu,CHEN Qifeng,TANG C K.Motion-aware matting[Cl//Proceedings of 2017 IEEE Conference on KNN Laplacian for video matting[C]//Proceedings of Computer Vision and Pattern Recognition(CVPR).Hon- 2013 IEEE International Conference on Computer Vision olulu,.USA,2017:311-320 (ICCV).Sydney,Australia.2013:3599-3606. [5]SHI Yongfang,AU OC,PANG Jiahao,et al.Color clus- [18]SINDEEV M,KONUSHIN A,ROTHER C.Alpha-flow tering matting[C]//Proceedings of 2013 IEEE International for video matting[Cl//Proceedings of the 11th Asian Con- Conference on Multimedia and Expo.San Jose,USA, ference on Computer Vision.Daejeon,Korea,2012: 2013:1-6. 438-452. [6]JIN Meiguang,KIM B K,SONG W J.Adaptive propaga- [19]CHO D,KIM S,TAI Y W,et al.Automatic trimap gener- tion-based color-sampling for alpha matting[J].IEEE trans- ation and consistent matting for light-field images[J]. actions on circuits and systems for video technology,2014, IEEE transactions on pattern analysis and machine intelli- 24(7):1101-1110. gence,2017.39(8):15041517. [7]HE Bei,WANG Guijin,ZHANG Cha.Iterative transduct- ive learning for automatic image segmentation and mat- [20]CHO H W,CHO Y R,SONG W J,et al.Image matting ting with RGB-D data[J].Journal of visual communication for automatic target recognition[J].IEEE transactions on and image representation,2014,25(5):1031-1043 aerospace and electronic systems,2017,53(5):2233- [8]JOHNSON J,VARNOUSFADERANI E S.Sparse coding 2250. for alpha matting[J].IEEE transactions on image pro- [21]GRADY L.Random walks for image segmentation[J] cessing,.2016,25(7):3032-3043. IEEE transactions on pattern analysis and machine intelli- [9]LI Xuelong,LIU Kang,DONG Yongsheng,et al.Patch gence,2006,28(10:1768-1783. alignment manifold matting[J].IEEE transactions on neur- [22]WU Xiaoming,LI Zhenguo,SO A M C,et al.Learning al networks and learning systems,2018,29(7):3214- with partially absorbing random walks[Cl//Proceedings of 3226. the 25th International Conference on Neural Information [10]LEVIN A,LISCHINSKI D,WEISS Y.A closed-form Processing Systems (NIPS).Lake Tahoe,USA,2012: solution to natural image matting[J].IEEE transactions on 3077-3085 pattern analysis and machine intelligence,2008,30(2): [23]SINGARAJU D,ROTHER C,RHEMANN C.New ap- 228-242 pearance models for natural image matting[C]//Proceed- [11]ZHENG Yuanjie,KAMBHAMETTU C.Learning based ings of 2009 IEEE Conference on Computer Vision and digital matting[C]//Proceedings of the 12th International Pattern Recognition(CVPR).Miami Beach,USA,2009: Conference on Computer Vision (ICCV).Kyoto,Japan, 659-666. 2009:889-896. [24]ACHANTA R,SHAJI A,SMITH K,et al.SLIC super-

行缓慢，对边界模糊图像的处理效果不够理想，如何进一步提高算法的快速性和复杂图像的处理能力仍将是未来努力的方向。参考文献： YAO Guilin, ZHAO Zhijie, LIU Shaohui. A comprehensive survey on sampling-based image matting[J]. Computer graphics forum, 2017, 36(8): 613–628. [1] ZHU Qingsong, SHAO Ling, LI Xuelong, et al. Targeting accurate object extraction from an image: a comprehensive study of natural image matting[J]. IEEE transactions on neural networks and learning systems, 2015, 26(2): 185–207. [2] KARACAN L, ERDEM A, ERDEM E. Alpha matting with KL-divergence-based sparse sampling[J]. IEEE transactions on image processing, 2017, 26(9): 4523–4536. [3] XU Ning, PRICE B, COHEN S, et al. Deep image matting[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 311–320. [4] SHI Yongfang, AU O C, PANG Jiahao, et al. Color clustering matting[C]//Proceedings of 2013 IEEE International Conference on Multimedia and Expo. San Jose, USA, 2013: 1–6. [5] JIN Meiguang, KIM B K, SONG W J. Adaptive propagation-based color-sampling for alpha matting[J]. IEEE transactions on circuits and systems for video technology, 2014, 24(7): 1101–1110. [6] HE Bei, WANG Guijin, ZHANG Cha. Iterative transductive learning for automatic image segmentation and matting with RGB-D data[J]. Journal of visual communication and image representation, 2014, 25(5): 1031–1043. [7] JOHNSON J, VARNOUSFADERANI E S. Sparse coding for alpha matting[J]. IEEE transactions on image processing, 2016, 25(7): 3032–3043. [8] LI Xuelong, LIU Kang, DONG Yongsheng, et al. Patch alignment manifold matting[J]. IEEE transactions on neural networks and learning systems, 2018, 29(7): 3214– 3226. [9] LEVIN A, LISCHINSKI D, WEISS Y. A closed-form solution to natural image matting[J]. IEEE transactions on pattern analysis and machine intelligence, 2008, 30(2): 228–242. [10] ZHENG Yuanjie, KAMBHAMETTU C. Learning based digital matting[C]//Proceedings of the 12th International Conference on Computer Vision (ICCV). Kyoto, Japan, 2009: 889–896. [11] CHEN Qifeng, LI Dingzeyu, TANG C K. KNN matting[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(9): 2175–2188. [12] TSENG C Y, WANG S J. Learning-based hierarchical graph for unsupervised matting and foreground estimation[J]. IEEE transactions on image processing, 2014, 23(12): 4941–4953. [13] GONG Minglun, QIAN Yiming, CHENG Li. Integrated foreground segmentation and boundary matting for live videos[J]. IEEE transactions on image processing, 2015, 24(4): 1356–1370. [14] LEE S Y, YOON J C, LEE I K. Temporally coherent video matting[J]. Graphical models, 2010, 72(3): 25–33. [15] SHAHRIAN E, PRICE B, COHEN S, et al. Temporally coherent and spatially accurate video matting[J]. Computer graphics forum, 2014, 33(2): 381–390. [16] LI Dingzeyu, CHEN Qifeng, TANG C K. Motion-aware KNN Laplacian for video matting[C]//Proceedings of 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia, 2013: 3599-3606. [17] SINDEEV M, KONUSHIN A, ROTHER C. Alpha-flow for video matting[C]//Proceedings of the 11th Asian Conference on Computer Vision. Daejeon, Korea, 2012: 438–452. [18] CHO D, KIM S, TAI Y W, et al. Automatic trimap generation and consistent matting for light-field images[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(8): 1504–1517. [19] CHO H W, CHO Y R, SONG W J, et al. Image matting for automatic target recognition[J]. IEEE transactions on aerospace and electronic systems, 2017, 53(5): 2233– 2250. [20] GRADY L. Random walks for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(10): 1768–1783. [21] WU Xiaoming, LI Zhenguo, SO A M C, et al. Learning with partially absorbing random walks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS). Lake Tahoe, USA, 2012: 3077–3085. [22] SINGARAJU D, ROTHER C, RHEMANN C. New appearance models for natural image matting[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami Beach, USA, 2009: 659-666. [23] [24] ACHANTA R, SHAJI A, SMITH K, et al. SLIC super- 第 5 期陈秋凤，等：局部自适应输入控制的随机游走抠图 ·1015·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录