第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201804019 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180611.1118.004html 计算视觉核心问题:自然图像先验建模研究综述 孙必慎,石武祯2,姜峰2 (1.中国电子科技集团公司第27研究所,河南郑州450005,2.哈尔滨工业大学计算机科学与技术学院,黑龙 江哈尔滨150001) 摘要:视觉先验是计算机视觉的核心问题之一,是认知心理层面、系统神经层面与计算视觉层面研究的交合 点,涉及各个层面研究的理解与综合。视觉先验功能模拟方面,以自然图像信息为对象,挖掘自然图像一般性 规律并将其数学形式化为可计算的图像模型,为众多图像处理与计算机视觉智能应用提供算法和支撑。本文 对自然图像先验建模研究各流派工作进行了全面的剖析,并展示了自然图像先验建模工作在视觉信息增强和 编码等方向的前瞻性应用。 关键词:计算机视觉;图像先验;稀疏表示:局部平滑:非局部自相似;压缩感知;深度学习;卷积神经网络 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2019)01-0071-11 中文引用格式:孙必慎,石武桢,姜峰.计算视觉核心问题:自然图像先验建模研究综述.智能系统学报,2019,14(1): 71-81. 英文引用格式:SUN Bishen,SHI Wuzhen,JIANG Feng.Core problem in computer vision:survey of natural image prior models[J].CAAI transactions on intelligent systems,2019,14(1):71-81. Core problem in computer vision:survey of natural image prior models SUN Bishen',SHI Wuzhen',JIANG Feng (1.No.27 Institute,China Electronic Technology Corporation(CETC),Zhengzhou 450005,China;2.School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:One of the core problems in computer vision is that the visual prior is the point of intersection of the cognit- ive psychological level,systematic neural level,and computer vision level,and requires an understanding and synthesis of the three.Simulations of the visual prior function are performed to explore and formalize the general rules for natural images that support various applications in image processing and computer science.In this paper,we comprehensively analyze the work of various schools of natural image priori modeling and discuss the prospective application of natural image prior modeling in visual information enhancement and coding. Keywords:computer vision;image prior;sparse representation;local smoothness;non-local self-similarity;com- pressed sensing;deep learning;convolutional neural network 视觉先验是认知心理层面、系统神经层面与 的测量仪器,在自然图像刺激条件下检测人脑神 计算视觉层面研究的交合点,涉及各个层面研究 经细胞的响应特性,反推大脑对自然图像一股性 的理解与综合。根据各领域切入点的不同,对视 规律进行归纳与记忆的区域结构及其功能原理。 觉先验研究主要可以分为两条路线,即认知心理随着人类对自身视觉系统的研究逐步深入,从初 层面与系统神经层面的机理测试以及计算层面的 级视皮层到高级视觉区域,都取得了许多重要的 功能模拟。视觉先验机理测试方面通过非侵入式 研究成果。尽管研究者一致认为初级视皮层 收稿日期:2018-04-15.网络出版日期:2018-06-11. 的视觉处理过程受环境统计特性的影响,但怎样 基金项目:国家自然科学基金项目(61572155,61672188.61272386): 在两者之间建立准确的数学关系一直是一个难 国家重点基础研究发展计划项目(2015CB351804). 通信作者:姜峰.E-mail:fjiang@hit.edu.cn. 题。功能性磁共振成像(functional magnetic reson-
DOI: 10.11992/tis.201804019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180611.1118.004.html 计算视觉核心问题:自然图像先验建模研究综述 孙必慎1,石武祯2,姜峰2 (1. 中国电子科技集团公司 第 27 研究所,河南 郑州 450005; 2. 哈尔滨工业大学 计算机科学与技术学院,黑龙 江 哈尔滨 150001) 摘 要:视觉先验是计算机视觉的核心问题之一,是认知心理层面、系统神经层面与计算视觉层面研究的交合 点,涉及各个层面研究的理解与综合。视觉先验功能模拟方面,以自然图像信息为对象,挖掘自然图像一般性 规律并将其数学形式化为可计算的图像模型,为众多图像处理与计算机视觉智能应用提供算法和支撑。本文 对自然图像先验建模研究各流派工作进行了全面的剖析,并展示了自然图像先验建模工作在视觉信息增强和 编码等方向的前瞻性应用。 关键词:计算机视觉;图像先验;稀疏表示;局部平滑;非局部自相似;压缩感知;深度学习;卷积神经网络 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2019)01−0071−11 中文引用格式:孙必慎, 石武祯, 姜峰. 计算视觉核心问题:自然图像先验建模研究综述 [J]. 智能系统学报, 2019, 14(1): 71–81. 英文引用格式:SUN Bishen, SHI Wuzhen, JIANG Feng. Core problem in computer vision: survey of natural image prior models[J]. CAAI transactions on intelligent systems, 2019, 14(1): 71–81. Core problem in computer vision: survey of natural image prior models SUN Bishen1 ,SHI Wuzhen2 ,JIANG Feng2 (1. No.27 Institute, China Electronic Technology Corporation (CETC), Zhengzhou 450005, China; 2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: One of the core problems in computer vision is that the visual prior is the point of intersection of the cognitive psychological level, systematic neural level, and computer vision level, and requires an understanding and synthesis of the three. Simulations of the visual prior function are performed to explore and formalize the general rules for natural images that support various applications in image processing and computer science. In this paper, we comprehensively analyze the work of various schools of natural image priori modeling and discuss the prospective application of natural image prior modeling in visual information enhancement and coding. Keywords: computer vision; image prior; sparse representation; local smoothness; non-local self-similarity; compressed sensing; deep learning; convolutional neural network 视觉先验是认知心理层面、系统神经层面与 计算视觉层面研究的交合点,涉及各个层面研究 的理解与综合。根据各领域切入点的不同,对视 觉先验研究主要可以分为两条路线,即认知心理 层面与系统神经层面的机理测试以及计算层面的 功能模拟。视觉先验机理测试方面通过非侵入式 的测量仪器,在自然图像刺激条件下检测人脑神 经细胞的响应特性,反推大脑对自然图像一般性 规律进行归纳与记忆的区域结构及其功能原理。 随着人类对自身视觉系统的研究逐步深入,从初 级视皮层到高级视觉区域,都取得了许多重要的 研究成果[1-4]。尽管研究者一致认为初级视皮层 的视觉处理过程受环境统计特性的影响,但怎样 在两者之间建立准确的数学关系一直是一个难 题。功能性磁共振成像 (functional magnetic reson- 收稿日期:2018−04−15. 网络出版日期:2018−06−11. 基金项目:国家自然科学基金项目 (61572155,61672188,61272386); 国家重点基础研究发展计划项目 (2015CB351804). 通信作者:姜峰. E-mail:fjiang@hit.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
·72· 智能系统学报 第14卷 ance imaging,fMRI)只能有限地反映大脑皮层局 像所含最少成分的统计规律,工作中心可总结为 部区域的系统动力,必须从理论上进行抽象,才 2点:如何找到自然图像中的最少成分,以及如何 能将“原理”嵌入到我们的工具中去。同时,从 描述一个庞大的自然图像集合在此最小成分方向 可计算的层面上去解释,是一种合理、必须的选择。 上的边缘概率分布。目前的方法面临着共有的问 题:统计涨落问题无法规避,不同图像间以及图 1 传统低层计算视觉层面的自然图 像先验模型 像不同区域之间的统计涨落严重地束缚了自然图 像统计先验模型的功能:需要投入大量代价在如 视觉先验功能模拟方面,以自然图像为对象, 何描述其分布响应情况,描述手段复杂,影响模 挖掘自然图像一般性规律并将其数学形式化为可 型的学习及后续的优化过程,进一步影响自然图 计算的图像模型,主要包括自然图像光滑性先验 像统计先验模型的实用性能。 模型、自然图像统计规律先验模型、自然图像视 自然图像视觉编码稀疏性先验建模源于“有 觉编码稀疏性先验模型、自然图像非局部自相似 效编码假说”切。现有的稀疏编码方法在图像表 模型等,并为众多图像处理与计算机视觉智能应 示、物体识别等领域的应用受到了较高计算复杂 用y提供算法和支撑。 度的约束。不少工作已经开始着手提高稀疏编码 自然图像光滑性先验建模的方式是约束图像 的效率和鲁棒性82。尽管稀疏概念的一种来源 的一阶或高阶导数及其非线性变换,以形成图像 出自于滤波器对视觉信息的滤波响应,但最终的 处理的正则化能量模型,从而构成基于变分方法 关注点却主要在图像块的重构与恢复,并没有很 的偏微分方程。当约束取为梯度模的平方时,导 多地考虑整幅图像的响应统计,无法提供表示一 出经典的热扩散算法:当约束取为梯度模时,导 幅完整图像的统计模型,忽略了相似块之间的本 出经典的全变分(total variational)Io方法;当约 质关系,比如自相似性,导致得到的稀疏编码系 束取为梯度的非线性函数时,导出各向异性扩 数不够准确;同时,自适应字典学习过程中需要 散算法;当约束取为高阶导数的模时,导出高阶 求解一个具有非常高计算复杂度的大规模优化问 各项异性扩散算法山。这些方法着重刻画了图像 题;此外,在编码测量中,为了确保信号的线性投 的局部光滑程度,忽略了全局的相似块之间的本 影能够保持信号的原始结构,对投影矩阵的设计 质关系,比如自相似性关注于图像像素点的一个 及稳定性有严格要求(如约束等距性)。 多阶邻域的重构与恢复,抹平了图像的细节,不 自然图像另一个重要的特性是非局部自相似 能有效地给出光滑先验和数据精度项之间的关系。 性。Protter等7提出非局部均值(nonlocal means, 自然图像统计规律先验建模的方式是考察自 NLM)的高效先验模型并将其用于图像超分辨, 然图像滤波响应率并对其分布进行统计建模。基 假设去模糊得到的图像跟观测到的模糊图像同样 于Markoy随机场理论,特别是通过Gibbs分布来 具有非局部自相似,提出了用来去模糊的基于NLM 建模自然图像滤波响应统计规律的方法,Mum- 的正则项。受NLM启发,基于全图的NLM模型 ford等I2提出的FRAME模型考虑图像MRF建 和基于调序的NLM模型29被提出。受到图拉普 模中的邻域系统和势函数的选取问题,将传统的 拉斯(graph laplacian)理论的启发,Gilboa等Bol根 以导数滤波器为基础的平滑性先验进行了推广, 据非局部算子定义了变分框架。为了能够取得更 将MRF模型推向高维的形态。Freeman等u]提 好的性能,自然图像的稀疏性和非局部自相似性 出的MRF模型,被应用于构建图像推理的先验模 通常联合起来。在文献31]中,最终设计的目标 型以及基于样例的纹理合成中。Welling等,提 函数由刻画局部稀疏性和非局部自相似性两个正 出使用专家乘积模型(product of experts,PoE)去 则项组成,进而获得更高的复原图像质量。在文 解决高维图像数据的先验概率建模问题。在 献[32]中,同时稀疏编码(simultaneous sparse cod- PoE的基础上,Roth等设计了均一性势函数形 ing,SSC)被用来约束图像中相似的图像块在同一 式的专家场模型(fields of experts,FoE),弥补了 个字典下应该具有相似的稀疏分解,从而使得稀 PoE模型的缺陷,可以学习任意尺寸的自然图像 疏编码系数变得更加鲁棒和准确。同理,利用相 的先验,后续工作(如文献[16)通过贝叶斯最小 同的思路,将非局部图分别跟MS模型、MRF模 均方误差方法取代最大后验概率方法计算恢复图 型、AR模型、KR模型结合,就会得到非局部 像,从一定层面克服了到目前为止MRF的一些缺 MS模型倒、非局部MRF模型、非局部AR模型闵 点。自然图像统计规律先验建模研究的是自然图 以及非局部KR模型。通过分析总结不难发现
ance imaging,fMRI) 只能有限地反映大脑皮层局 部区域的系统动力,必须从理论上进行抽象,才 能将“原理”嵌入到我们的工具中去[5]。同时,从 可计算的层面上去解释,是一种合理、必须的选择。 1 传统低层计算视觉层面的自然图 像先验模型 视觉先验功能模拟方面,以自然图像为对象, 挖掘自然图像一般性规律并将其数学形式化为可 计算的图像模型,主要包括自然图像光滑性先验 模型、自然图像统计规律先验模型、自然图像视 觉编码稀疏性先验模型、自然图像非局部自相似 模型等,并为众多图像处理与计算机视觉智能应 用 [6-9] 提供算法和支撑。 自然图像光滑性先验建模的方式是约束图像 的一阶或高阶导数及其非线性变换,以形成图像 处理的正则化能量模型,从而构成基于变分方法 的偏微分方程。当约束取为梯度模的平方时,导 出经典的热扩散算法;当约束取为梯度模时,导 出经典的全变分 (total variational)[10] 方法;当约 束取为梯度的非线性函数时,导出各向异性扩 散算法;当约束取为高阶导数的模时,导出高阶 各项异性扩散算法[11] 。这些方法着重刻画了图像 的局部光滑程度,忽略了全局的相似块之间的本 质关系,比如自相似性关注于图像像素点的一个 多阶邻域的重构与恢复,抹平了图像的细节,不 能有效地给出光滑先验和数据精度项之间的关系。 自然图像统计规律先验建模的方式是考察自 然图像滤波响应率并对其分布进行统计建模。基 于 Markov 随机场理论,特别是通过 Gibbs 分布来 建模自然图像滤波响应统计规律的方法,Mumford 等 [12] 提出的 FRAME 模型考虑图像 MRF 建 模中的邻域系统和势函数的选取问题,将传统的 以导数滤波器为基础的平滑性先验进行了推广, 将 MRF 模型推向高维的形态。Freeman 等 [13] 提 出的 MRF 模型,被应用于构建图像推理的先验模 型以及基于样例的纹理合成中。Welling 等 [14] 提 出使用专家乘积模型 (product of experts,PoE) 去 解决高维图像数据的先验概率建模问题。在 PoE 的基础上,Roth 等 [15] 设计了均一性势函数形 式的专家场模型 (fields of experts,FoE),弥补了 PoE 模型的缺陷,可以学习任意尺寸的自然图像 的先验,后续工作 (如文献 [16]) 通过贝叶斯最小 均方误差方法取代最大后验概率方法计算恢复图 像,从一定层面克服了到目前为止 MRF 的一些缺 点。自然图像统计规律先验建模研究的是自然图 像所含最少成分的统计规律,工作中心可总结为 2 点:如何找到自然图像中的最少成分,以及如何 描述一个庞大的自然图像集合在此最小成分方向 上的边缘概率分布。目前的方法面临着共有的问 题:统计涨落问题无法规避,不同图像间以及图 像不同区域之间的统计涨落严重地束缚了自然图 像统计先验模型的功能;需要投入大量代价在如 何描述其分布响应情况,描述手段复杂,影响模 型的学习及后续的优化过程,进一步影响自然图 像统计先验模型的实用性能。 自然图像视觉编码稀疏性先验建模源于“有 效编码假说” [17]。现有的稀疏编码方法在图像表 示、物体识别等领域的应用受到了较高计算复杂 度的约束。不少工作已经开始着手提高稀疏编码 的效率和鲁棒性[18-26]。尽管稀疏概念的一种来源 出自于滤波器对视觉信息的滤波响应,但最终的 关注点却主要在图像块的重构与恢复,并没有很 多地考虑整幅图像的响应统计,无法提供表示一 幅完整图像的统计模型,忽略了相似块之间的本 质关系,比如自相似性,导致得到的稀疏编码系 数不够准确;同时,自适应字典学习过程中需要 求解一个具有非常高计算复杂度的大规模优化问 题;此外,在编码测量中,为了确保信号的线性投 影能够保持信号的原始结构,对投影矩阵的设计 及稳定性有严格要求 (如约束等距性)。 自然图像另一个重要的特性是非局部自相似 性。Protter 等 [27] 提出非局部均值 (nonlocal means, NLM) 的高效先验模型并将其用于图像超分辨, 假设去模糊得到的图像跟观测到的模糊图像同样 具有非局部自相似,提出了用来去模糊的基于 NLM 的正则项。受 NLM 启发,基于全图的 NLM 模型[28] 和基于调序的 NLM 模型[29] 被提出。受到图拉普 拉斯 (graph laplacian) 理论的启发,Gilboa 等 [30] 根 据非局部算子定义了变分框架。为了能够取得更 好的性能,自然图像的稀疏性和非局部自相似性 通常联合起来。在文献 [31] 中,最终设计的目标 函数由刻画局部稀疏性和非局部自相似性两个正 则项组成,进而获得更高的复原图像质量。在文 献 [32] 中,同时稀疏编码 (simultaneous sparse coding,SSC) 被用来约束图像中相似的图像块在同一 个字典下应该具有相似的稀疏分解,从而使得稀 疏编码系数变得更加鲁棒和准确。同理,利用相 同的思路,将非局部图分别跟 MS 模型、MRF 模 型 、 AR 模型、 KR 模型结合,就会得到非局部 MS 模型[33] 、非局部 MRF 模型[34] 、非局部 AR 模型[35] 以及非局部 KR 模型。通过分析总结不难发现, ·72· 智 能 系 统 学 报 第 14 卷
第1期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 。73· 目前以上非局部模型利用图像非局部自相似性都 版本的SRCNN。改进版本的网络通过在输出端 是在原来局部模型的基础之上加人了非局部权 使用转置卷积层实现图像的上采样,使得低分辨 重。但通过加权的方式就不可避免地导致结果中 图像可以直接作为网络的输入,从而降低了计算 出现扰乱或不准确现象。所以寻找一个能够充分 复杂度。为了克服较深的网络训练过程中收敛困 利用图像非局部自相似性的模型,而不是仅仅采 难的问题,Kim等B提出学习图像的残差来加速 用加权的方式,在图像处理领域仍然是一个非常 网络的收敛,并且通过增加网络深度来增强网络 重要的挑战。 的感受野和非线性,从而改进网络重建的性能。 以上传统的低层计算视觉层面的先验功能建 为了训练出更加有效的网络,一些技术如残差学习侧 模方法,已广泛用于各种低层计算机视觉问题当 批正则化)、梯度裁剪1等相继被提出,这些方 中,都取得了一定显著的效果。近三四年,尽管 法改善了深度网络的训练过程,使得网络容易收敛。 在以上的方法流派上陆续有新方法出现,但几乎 另外,为了在深度网络中融入传统图像先验 都是在显著增加计算复杂程度的代价下,带来极 信息来改进重建效果,已有一些方法采用正则化 为有限的性能的提升。显然,对于传统的低层计 求解优化问题的思路,将不同的自然图像先验信 算视觉层面的先验功能建模方法来讲,各种流派 息,如局部平滑、非局部自相似和稀疏表示等,用 和方法都面临着巨大的挑战。对于这些思想的回 于设计网络的目标函数。Wang等使用深度网 顾,不难有以下认识。 络来模拟基于稀疏表示方法的求解过程,实现了 1)传统的低层计算视觉层面的先验功能建模 深度网络和稀疏表示方法的有效结合。Gu等] 方法对于自然图像一般性规律的认识、解释较为 也将稀疏编码融人深度网络,提出了一个卷积稀 片面和孤立,表现为不同的数学形式和理论解 疏编码网络,解决了重叠块间像素的一致性问 释,对于方法与方法之间的内在本质关联,不同 题。Liang等认为直接训练SRCNN模型非常 先验之间的耦合关系,尽管已有的一些工作研究 耗时,因此,在网络末端引入了Sobel算子提取的 了不同先验之间的协作方法,但找出一种可以囊 边缘信息。实验数据表明,引人的边缘先验加速 括所有孤立规律的数学建模形式几乎是不可能 了网络的收敛过程,而且一定程度上改善了重建 的。以上这些原因,实际上对于这些先验方法和 效果。与此同时,随着对抗式网络(generative ad- 思想的综合运用造成了较大的障碍。 versarial network,GAN)在监督学习中的兴起, 2)对于不同类别和不同范畴的自然图像,不 Ledig等和Johnson等7将GAN引入到超分辨 同的先验模型作用效果也是不同的。这一点在原 率重建问题中,通过共同训练生成网络和对抗网 来的自然图像建模工作中,并没有被客观地重视 络,大大提升了超分辨率重建性能,重建后的图 和研究。从以上对各流派的分析,如果将自然图 像在视觉效果上得到显著提升。 像空间就信息熵进行划分,各种先验方法和流派 这些工作充分说明并验证深度学习对于低层 在不同的等熵子空间明显会体现出不同效能。不 计算机视觉层面先验功能模拟有着极大的潜力, 难得出,在面对真实应用或对于更大规模的视觉 但是这方面的研究总体还处于起步阶段,很多问 信息,如视频编码,这个问题会更加严重。 题尚待解决。比如:深度网络结构中哪些神经元 对最终的图像复原效果有效的问题尚没有人关注 2基于深度学习重建与增强方法 过:现在的工作发现底层的视觉任务中非残差学 低层计算视觉层面,第一个开拓性的基于深 习很难训练得到较深的网络,但是已有的基于残 度学习的图像重建方法是Dong等B6-3刃提出的单 差学习的工作也只是简单地将映射目标由原来的 图像超分辨网络SRCNN。这个网络通过模拟基 目标图像变成估计残差而已,在什么条件下可以 于稀疏表示的单图像超分辨方法的低分辨与高分 做到非残差学习也可以训练一个很深的网络,以 辨图像间的映射关系,实现低分辨图像到高分辨 及更加有效的残差学习方式都是有待解决的问 图像的端到端映射。得益于深度网络强大的学习 题;由于图像先验对图像复原效果有很大的帮 能力,基于深度学习的重建和增强方法在具有较 助,如何有效地融合深度学习技术和自然图像先 低的计算复杂度的同时,重建和增强效果显著提 验来改善图像复原质量也是值得探讨的。 高。紧随其后,一系列基于深度学习的图像重建 3基于自然图像先验模型的编码框架 和增强方法相继提出。为了降低网络的复杂度并 且进一步改进网络的性能,Dong等31提出快速 20世纪80年代,ISO、IEC、ITU三大国际标
目前以上非局部模型利用图像非局部自相似性都 是在原来局部模型的基础之上加入了非局部权 重。但通过加权的方式就不可避免地导致结果中 出现扰乱或不准确现象。所以寻找一个能够充分 利用图像非局部自相似性的模型,而不是仅仅采 用加权的方式,在图像处理领域仍然是一个非常 重要的挑战。 以上传统的低层计算视觉层面的先验功能建 模方法,已广泛用于各种低层计算机视觉问题当 中,都取得了一定显著的效果。近三四年,尽管 在以上的方法流派上陆续有新方法出现,但几乎 都是在显著增加计算复杂程度的代价下,带来极 为有限的性能的提升。显然,对于传统的低层计 算视觉层面的先验功能建模方法来讲,各种流派 和方法都面临着巨大的挑战。对于这些思想的回 顾,不难有以下认识。 1) 传统的低层计算视觉层面的先验功能建模 方法对于自然图像一般性规律的认识、解释较为 片面和孤立,表现为不同的数学形式和理论解 释,对于方法与方法之间的内在本质关联,不同 先验之间的耦合关系,尽管已有的一些工作研究 了不同先验之间的协作方法,但找出一种可以囊 括所有孤立规律的数学建模形式几乎是不可能 的。以上这些原因,实际上对于这些先验方法和 思想的综合运用造成了较大的障碍。 2) 对于不同类别和不同范畴的自然图像,不 同的先验模型作用效果也是不同的。这一点在原 来的自然图像建模工作中,并没有被客观地重视 和研究。从以上对各流派的分析,如果将自然图 像空间就信息熵进行划分,各种先验方法和流派 在不同的等熵子空间明显会体现出不同效能。不 难得出,在面对真实应用或对于更大规模的视觉 信息,如视频编码,这个问题会更加严重。 2 基于深度学习重建与增强方法 低层计算视觉层面,第一个开拓性的基于深 度学习的图像重建方法是 Dong 等 [36-37] 提出的单 图像超分辨网络 SRCNN。这个网络通过模拟基 于稀疏表示的单图像超分辨方法的低分辨与高分 辨图像间的映射关系,实现低分辨图像到高分辨 图像的端到端映射。得益于深度网络强大的学习 能力,基于深度学习的重建和增强方法在具有较 低的计算复杂度的同时,重建和增强效果显著提 高。紧随其后,一系列基于深度学习的图像重建 和增强方法相继提出。为了降低网络的复杂度并 且进一步改进网络的性能,Dong 等 [38] 提出快速 版本的 SRCNN。改进版本的网络通过在输出端 使用转置卷积层实现图像的上采样,使得低分辨 图像可以直接作为网络的输入,从而降低了计算 复杂度。为了克服较深的网络训练过程中收敛困 难的问题,Kim 等 [39] 提出学习图像的残差来加速 网络的收敛,并且通过增加网络深度来增强网络 的感受野和非线性,从而改进网络重建的性能。 为了训练出更加有效的网络,一些技术如残差学习[40] 、 批正则化[41] 、梯度裁剪[39] 等相继被提出,这些方 法改善了深度网络的训练过程,使得网络容易收敛。 另外,为了在深度网络中融入传统图像先验 信息来改进重建效果,已有一些方法采用正则化 求解优化问题的思路,将不同的自然图像先验信 息,如局部平滑、非局部自相似和稀疏表示等,用 于设计网络的目标函数。Wang 等 [42] 使用深度网 络来模拟基于稀疏表示方法的求解过程,实现了 深度网络和稀疏表示方法的有效结合。Gu 等 [43] 也将稀疏编码融入深度网络,提出了一个卷积稀 疏编码网络,解决了重叠块间像素的一致性问 题。Liang 等 [44] 认为直接训练 SRCNN 模型非常 耗时,因此,在网络末端引入了 Sobel 算子提取的 边缘信息。实验数据表明,引入的边缘先验加速 了网络的收敛过程,而且一定程度上改善了重建 效果。与此同时,随着对抗式网络(generative adversarial network, GAN) [45] 在监督学习中的兴起, Ledig 等 [46] 和 Johnson 等 [47] 将 GAN 引入到超分辨 率重建问题中,通过共同训练生成网络和对抗网 络,大大提升了超分辨率重建性能,重建后的图 像在视觉效果上得到显著提升。 这些工作充分说明并验证深度学习对于低层 计算机视觉层面先验功能模拟有着极大的潜力, 但是这方面的研究总体还处于起步阶段,很多问 题尚待解决。比如:深度网络结构中哪些神经元 对最终的图像复原效果有效的问题尚没有人关注 过;现在的工作发现底层的视觉任务中非残差学 习很难训练得到较深的网络,但是已有的基于残 差学习的工作也只是简单地将映射目标由原来的 目标图像变成估计残差而已,在什么条件下可以 做到非残差学习也可以训练一个很深的网络,以 及更加有效的残差学习方式都是有待解决的问 题;由于图像先验对图像复原效果有很大的帮 助,如何有效地融合深度学习技术和自然图像先 验来改善图像复原质量也是值得探讨的。 3 基于自然图像先验模型的编码框架 20 世纪 80 年代,ISO、IEC、ITU 三大国际标 第 1 期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 ·73·
·74· 智能系统学报 第14卷 准组织开始制定数字视频编码标准,形成了基于 兼容的程度,可以将基于深度学习的图像视频编 预测(包括帧内、帧间、视间)、变换(变换+量 码分为两大类:与现有编码框架兼容的图像视频 化)和嫡编码等三大类关键技术的混合编码框 编码和以深度学习为核心的图像视频编码。 架,制定了以MPEG-2为代表的第一代视频编码 与现有编码框架兼容的图像视频编码方面, 标准。2003年,MPEG-4AVCH.264第二代国际 Jiang等s%提出了兼容传统图像压缩标准的深度 标准出台,实现了压缩效率翻番,中国同期也开 学习压缩框架,在编码器前端和解码器后端分别 发制定了视频编码国际标准AVS。进而为了进 加入卷积神经网络对编解码器联合优化,并给出 一步提高视频编码效率,IEO/IEC和ITU-T推出 了前后两个神经网络联合训练的算法,大大提高 了HEVC/H.265视频编码标准。随着硬件技术的 了编解码器的压缩性能。Zhao等s刀进一步提出 飞速发展,超高清视频对视频编码技术提出了新 了通过学习一个虚拟编解码器神经网络来近似从 需求。代表性的超高清编码方法有四叉树编码单 原始图像的有效描述图像到后处理压缩图像的投 元划分、预测和变换(已被HEVC和AVS2编码标 影,这使得训练网络的时候梯度可以从后处理神 准采用)、基于超分辨率的编码。近年来图像视频 经网络有效地反向传播到特征描述神经网络。 编码的研究热点还包括无线网络视频编码以及多 HEVC(high efficiency video coding)sI与深度学习 视点视频编码等。 相结合的编码框架也开始受到研究者们的关注, 在基于自然图像先验模型的编码方面,我们 该类编码框架将深度学习技术引入到HEVC中, 关注近期视觉先验知识同编码框架融合、合理的 是原有编码框架的扩充。目前,深度学习技术在 视觉先验知识介入的途径与方式、以及图像和视 HEVC中的应用涉及帧内预测s9,、帧间预测[6o 频在采集和显示过程中的增强等问题的研究进 CU预测模式决策、变换6例、熵编码6创、后处理6 展。在Stankovic等4提出的视频感知编码方案 等技术环节。帧内预测与帧间预测是视频编码框 中,视频帧按关键帧和非关键帧分类,分别以传 架中最核心的模块之一,预测又是深度学习技术 统和压缩感知方法采样,在保证重构质量的前提 擅长的。对于帧内预测,Li等9使用了全连接神 下最高节省50%的采样量。为了克服只依赖稀疏 经网络,利用更多的上下文信息来预测当前块的 性而没有考虑时间域运动的问题,Park等9提出 像素值,然而这种方法增加了一种新的预测模 在解码端使用运动估计和补偿的技术。Prades等网 式,与原有的编码框架兼容性较差,并且这种全 提出针对CVS的分布式字典方案:关键帧采用传 连接神经网络在一定程度上忽略了图像的局部平 统技术编解码,非关键帧分块压缩采样及量化。 滑特性,缺少局部感受野的考虑,导致预测的效 在解码端,由已解码的关键帧获得字典,在字典 果不稳定。对于帧间预测,HEVC一旦选择了帧 的辅助下恢复非关键帧。在Chen等s)提出的自 间预测的一种模式,就会完全依据参考帧来预测 适应字典的方案中,关键帧提取基于帧的压缩感 当前像素块,这种预测模式只是参考了时域信 知观测值,压缩感知帧提取基于块的压缩感知观 息,从而完全忽略了空域信息的参考价值。Yan 测值;在解码端,从已经重建的相邻帧及生成的 等6利用卷积神经网络做分像素插值,在一定程 边信息中学习得到字典。帧块的重构都能被表示 度上提升了帧间预测的准确性,这种通过改进像 成最小范数问题,利用可分离逼近算法(SpaRSA)网 素插值来提升预测质量的方法忽略了空域上下 来稀疏重构。这些方法在构建码本方面都是使用 文,只参考了时域的信息。 降质图像块作为寻找高质量图像块的索引重建图 以深度学习为核心的图像视频编码主要包括 像,这是一个病态无确定解问题,极易造成误匹 自编码器和循环神经网络(recurrent neural network. 配,最终效果很大程度取决于对图像先验知识的 RNN)这两种常用的结构。Toderici等s提出了 掌握与介入程度s3s约 一种基于循环神经网络的图像压缩框架,这是一 对于图像视频编码,深度学习技术已展现出 种渐进式的编码方法:在此基础上,又提出一种 了强大的生命力。一方面,深度学习技术可以把 全分辨图像压缩的循环神经网络框架【66] 编解码器进行联合优化,使得编解码器性能达到 该框架包含基于RNN的编码器和解码器及一个 最优。另一方面,利用深度学习技术可以提供多 基于神经网络的嫡编码器,并利用了感知误差, 样化的编解码方法,方便针对不同的任务对图像 在GRU和ResNet的基础上提出了新的深度结 视频实现智能编解码。根据与现有编码框架相互 构,取得了很好的重建效果。随后,Johnston等s列
准组织开始制定数字视频编码标准,形成了基于 预测 (包括帧内、帧间、视间)、变换 (变换+量 化) 和熵编码等三大类关键技术的混合编码框 架,制定了以 MPEG-2 为代表的第一代视频编码 标准。2003 年,MPEG-4 AVC/H.264 第二代国际 标准出台,实现了压缩效率翻番,中国同期也开 发制定了视频编码国际标准 AVS。进而为了进 一步提高视频编码效率,IEO/IEC 和 ITU-T 推出 了 HEVC/H.265 视频编码标准。随着硬件技术的 飞速发展,超高清视频对视频编码技术提出了新 需求。代表性的超高清编码方法有四叉树编码单 元划分、预测和变换 (已被 HEVC 和 AVS2 编码标 准采用)、基于超分辨率的编码。近年来图像视频 编码的研究热点还包括无线网络视频编码以及多 视点视频编码等。 在基于自然图像先验模型的编码方面,我们 关注近期视觉先验知识同编码框架融合、合理的 视觉先验知识介入的途径与方式、以及图像和视 频在采集和显示过程中的增强等问题的研究进 展。在 Stankovic 等 [48] 提出的视频感知编码方案 中,视频帧按关键帧和非关键帧分类,分别以传 统和压缩感知方法采样,在保证重构质量的前提 下最高节省 50%的采样量。为了克服只依赖稀疏 性而没有考虑时间域运动的问题,Park 等 [49] 提出 在解码端使用运动估计和补偿的技术。Prades 等 [50] 提出针对 CVS 的分布式字典方案:关键帧采用传 统技术编解码,非关键帧分块压缩采样及量化。 在解码端,由已解码的关键帧获得字典,在字典 的辅助下恢复非关键帧。在 Chen 等 [51] 提出的自 适应字典的方案中,关键帧提取基于帧的压缩感 知观测值,压缩感知帧提取基于块的压缩感知观 测值;在解码端,从已经重建的相邻帧及生成的 边信息中学习得到字典。帧块的重构都能被表示 成最小范数问题,利用可分离逼近算法 (SpaRSA)[52] 来稀疏重构。这些方法在构建码本方面都是使用 降质图像块作为寻找高质量图像块的索引重建图 像,这是一个病态无确定解问题,极易造成误匹 配,最终效果很大程度取决于对图像先验知识的 掌握与介入程度[53-55]。 对于图像视频编码,深度学习技术已展现出 了强大的生命力。一方面,深度学习技术可以把 编解码器进行联合优化,使得编解码器性能达到 最优。另一方面,利用深度学习技术可以提供多 样化的编解码方法,方便针对不同的任务对图像 视频实现智能编解码。根据与现有编码框架相互 兼容的程度,可以将基于深度学习的图像视频编 码分为两大类:与现有编码框架兼容的图像视频 编码和以深度学习为核心的图像视频编码。 与现有编码框架兼容的图像视频编码方面, Jiang 等 [56] 提出了兼容传统图像压缩标准的深度 学习压缩框架,在编码器前端和解码器后端分别 加入卷积神经网络对编解码器联合优化,并给出 了前后两个神经网络联合训练的算法,大大提高 了编解码器的压缩性能。Zhao 等 [57] 进一步提出 了通过学习一个虚拟编解码器神经网络来近似从 原始图像的有效描述图像到后处理压缩图像的投 影,这使得训练网络的时候梯度可以从后处理神 经网络有效地反向传播到特征描述神经网络。 HEVC (high efficiency video coding)[58] 与深度学习 相结合的编码框架也开始受到研究者们的关注, 该类编码框架将深度学习技术引入到 HEVC 中, 是原有编码框架的扩充。目前,深度学习技术在 HEVC 中的应用涉及帧内预测[59] 、帧间预测[60] 、 CU 预测模式决策[61] 、变换[62] 、熵编码[63] 、后处理[64] 等技术环节。帧内预测与帧间预测是视频编码框 架中最核心的模块之一,预测又是深度学习技术 擅长的。对于帧内预测,Li 等 [59] 使用了全连接神 经网络,利用更多的上下文信息来预测当前块的 像素值,然而这种方法增加了一种新的预测模 式,与原有的编码框架兼容性较差,并且这种全 连接神经网络在一定程度上忽略了图像的局部平 滑特性,缺少局部感受野的考虑,导致预测的效 果不稳定。对于帧间预测,HEVC 一旦选择了帧 间预测的一种模式,就会完全依据参考帧来预测 当前像素块,这种预测模式只是参考了时域信 息,从而完全忽略了空域信息的参考价值。Yan 等 [60] 利用卷积神经网络做分像素插值,在一定程 度上提升了帧间预测的准确性,这种通过改进像 素插值来提升预测质量的方法忽略了空域上下 文,只参考了时域的信息。 以深度学习为核心的图像视频编码主要包括 自编码器和循环神经网络 (recurrent neural network, RNN) 这两种常用的结构。Toderici 等 [65] 提出了 一种基于循环神经网络的图像压缩框架,这是一 种渐进式的编码方法;在此基础上,又提出一种 全分辨图像压缩的循环神经网络框架 [ 6 6 ] , 该框架包含基于 RNN 的编码器和解码器及一个 基于神经网络的熵编码器,并利用了感知误差, 在 GRU 和 ResNet 的基础上提出了新的深度结 构,取得了很好的重建效果。随后,Johnston 等 [67] ·74· 智 能 系 统 学 报 第 14 卷
第1期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 ·75· 在之前工作的基础上对网络结构进行了改进。最 度学习的方法SRCNN!%、SCNm、FSRCNN。前 近,Theis等6和Balle等6分别提出了一种基于 人的工作表明充分利用图像的多尺度信息可以有 神经网络的编解码框架。Theis等6为了有效地 效改善图像超分辨的效果。但是SRCNNI?6 估计编码系数的分布和比特率,引入了一个高斯 SCN、FSRCNN7I都没有考虑到多尺度信息。 多尺度混合模型(gaussian scale mixture),实现了有 Shi等网提出构建基于膨胀卷积的inception模块 效的码率控制。在Bale等69的网络中,由于受 来学习多尺度信息。 到生物神经元的启发,采用了联合非线性来实现 膨胀卷积可以定义为 局部增益的控制。如何有效地量化也是此类问题 中一个具有挑战性的问题,Agustsson等0在连续 (Fkp)=∑Fsk@ 膨胀卷积是先对卷积核进行不同尺度的膨胀 松弛的量化和熵的基础上,提出了一种Soft-to- 之后再与输入图像进行卷积操作。具体来说, Hard量化方法。由于图像局部内容的不相似性, Li等通过引入重要性图(importance map)提出 d度膨胀卷积就是在进行卷积操作之前先在滤波 了一种基于内容自适应的量化方法。受到对抗神 器核的元素之间插入d-1个0得到新的滤波器核 经网络的启发,Rippel等2引入了对抗训练模 再与输入图像进行卷积操作。因为插入了多个 块,有效地提升了重建效果。随着Inpainting相关 0,所以不同膨胀度的卷积就像对图像进行降采样 技术的发展,基于Inpainting的压缩框架开始受到 得到小尺度的图像再进行卷积一样。因此,不同 研究者们的关注,Baig等1利用深度学习技术结 膨胀度的卷积学习到不同尺度的信息,然后再将 合Inpainting理念提出一个新的图像压缩框架,该 这些不同尺度的信息进行融合就可以达到对多尺 框架也是基于一种渐进式重建的思想。 度信息的有效利用。 仿照GoogLeNet提出的inception模块,可以 4自然图像先验建模应用示例 构建基于膨胀卷积的多尺度学习inception模块, 本节采用两个例子来展示自然图像先验 图1展示了基于膨胀卷积的inception模块与Goog 建模在视觉信息增强和编码领域的前瞻性应用。 LeNet提出的inception模块的对比。GoogLeNet 4.1 基于多尺度深度网络的单图像超分辨 的inception模块解决的是滤波器尺寸的选择问 单图像超分辨是一个经典的却仍然很热门的 题,而基于膨胀卷积的inception模块更希望利用 研究方向。很多单图像超分辨方法已经被提出, 不同尺度的输入信息。因此基于膨胀卷积的in- 例如非深度学习方法A+I、SRF1,以及基于深 ception模块具有利用多尺度信息的性质。 串联 串联 1×1卷积 3×3卷积 5x5卷积 1×1卷积 1-d3×3卷积 2-d3×3卷积 3-d3×3卷积 1×1卷积 1×1卷积 3×3最大值池化 前一层 前一层 (a)基于膨胀卷积的inception模块 (b)GoogLeNet提出的inception模块 图1基于膨胀卷积的起始模块与GoogLeNet提出的起始模块的对比 Fig.1 Comparison between the inception module based on dilated convolution and the inception in GoogLeNet 利用基于膨胀卷积的inception模块来学习多 像来加快网络收敛速度以及改善网络性能。 尺度信息,可以构建有效的深度网络(命名为 MSSRNet与多个流行的单图像超分辨方法进行 MSSRNet)进行单图像超分辨方法,如图2所示。 定量比较的结果如表1所示。表1给出了不同方 概括起来,MSSRNet由若干个基于膨胀卷积的in- 法在3个数据库(Set5、Set14和BSD200)中3种 ception模块级联构成端到端的网络来学习图像残 放大倍数(分别放大2倍、3倍和4倍)平均 差。这个网络的特点是:利用基于膨胀卷积的in- PSNR结果。如表1所示,MSSRNet在3个数据 ception模块来学习多尺度信息;通过级联多个模 库中的3种放大倍数都取得最佳的重建效果。 块来增加网络深度来达到增加网络感受野大小和 关于该方法的更多具体的细节,请读者参考文 非线性;通过学习残差而不是直接学习高分辨图 献[79例
在之前工作的基础上对网络结构进行了改进。最 近,Theis 等 [68]和 Balle 等 [69] 分别提出了一种基于 神经网络的编解码框架。Theis 等 [68] 为了有效地 估计编码系数的分布和比特率,引入了一个高斯 多尺度混合模型 (gaussian scale mixture),实现了有 效的码率控制。在 Balle 等 [69] 的网络中,由于受 到生物神经元的启发,采用了联合非线性来实现 局部增益的控制。如何有效地量化也是此类问题 中一个具有挑战性的问题,Agustsson 等 [70] 在连续 松弛的量化和熵的基础上,提出了一种 Soft-toHard 量化方法。由于图像局部内容的不相似性, Li 等 [71] 通过引入重要性图 (importance map) 提出 了一种基于内容自适应的量化方法。受到对抗神 经网络的启发,Rippel 等 [72] 引入了对抗训练模 块,有效地提升了重建效果。随着 Inpainting 相关 技术的发展,基于 Inpainting 的压缩框架开始受到 研究者们的关注,Baig 等 [73] 利用深度学习技术结 合 Inpainting 理念提出一个新的图像压缩框架,该 框架也是基于一种渐进式重建的思想。 4 自然图像先验建模应用示例 本节采用两个例子来展示自然图像先验 建模在视觉信息增强和编码领域的前瞻性应用。 4.1 基于多尺度深度网络的单图像超分辨 单图像超分辨是一个经典的却仍然很热门的 研究方向。很多单图像超分辨方法已经被提出, 例如非深度学习方法 A+[74] 、SRF[75] ,以及基于深 度学习的方法 SRCNN[76] 、SCN[77] 、FSRCNN[78]。前 人的工作表明充分利用图像的多尺度信息可以有 效改善图像超分辨的效果。但是 SRCNN[ 7 6 ] 、 SCN[77] 、FSRCNN[78] 都没有考虑到多尺度信息。 Shi 等 [79] 提出构建基于膨胀卷积的 inception 模块 来学习多尺度信息。 膨胀卷积可以定义为 (F∗lk) (p) = ∑ s+lt F (s) k (t) 膨胀卷积是先对卷积核进行不同尺度的膨胀 之后再与输入图像进行卷积操作。具体来说, d 度膨胀卷积就是在进行卷积操作之前先在滤波 器核的元素之间插入 d-1 个 0 得到新的滤波器核 再与输入图像进行卷积操作。因为插入了多个 0,所以不同膨胀度的卷积就像对图像进行降采样 得到小尺度的图像再进行卷积一样。因此,不同 膨胀度的卷积学习到不同尺度的信息,然后再将 这些不同尺度的信息进行融合就可以达到对多尺 度信息的有效利用。 仿照 GoogLeNet 提出的 inception 模块,可以 构建基于膨胀卷积的多尺度学习 inception 模块。 图 1 展示了基于膨胀卷积的 inception 模块与 GoogLeNet 提出的 inception 模块的对比。GoogLeNet 的 inception 模块解决的是滤波器尺寸的选择问 题,而基于膨胀卷积的 inception 模块更希望利用 不同尺度的输入信息。因此基于膨胀卷积的 inception 模块具有利用多尺度信息的性质。 利用基于膨胀卷积的 inception 模块来学习多 尺度信息,可以构建有效的深度网络 (命名为 MSSRNet) 进行单图像超分辨方法,如图 2 所示。 概括起来,MSSRNet 由若干个基于膨胀卷积的 inception 模块级联构成端到端的网络来学习图像残 差。这个网络的特点是:利用基于膨胀卷积的 inception 模块来学习多尺度信息;通过级联多个模 块来增加网络深度来达到增加网络感受野大小和 非线性;通过学习残差而不是直接学习高分辨图 像来加快网络收敛速度以及改善网络性能。 MSSRNet 与多个流行的单图像超分辨方法进行 定量比较的结果如表 1 所示。表 1 给出了不同方 法在 3 个数据库 (Set5、Set14 和 BSD200) 中 3 种 放大倍 数 (分别放 大 2 倍 、 3 倍 和 4 倍 ) 平 均 PSNR 结果。如表 1 所示,MSSRNet 在 3 个数据 库中的 3 种放大倍数都取得最佳的重建效果。 关于该方法的更多具体的细节,请读者参考文 献 [79]。 串联 串联 1-d 3×3 卷积 2-d 3×3 卷积 1×1 卷积 1×1 卷积 1×1 卷积 前一层 1×1 卷积 3×3 卷积 3×3 最大值池化 5×5 卷积 前一层 3-d 3×3 卷积 (a) 基于膨胀卷积的 inception 模块 (b) GoogLeNet 提出的 inception 模块 图 1 基于膨胀卷积的起始模块与 GoogLeNet 提出的起始模块的对比 Fig. 1 Comparison between the inception module based on dilated convolution and the inception in GoogLeNet 第 1 期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 ·75·
·76· 智能系统学报 第14卷 低分辨图像 高分辨图像 →000 inception inception 模块 模块 图2基于膨胀卷积起始模块的单图像超分辨网络结构 Fig.2 Single-image super-resolution network structure based on the inception module based on dilatied 表1不同方法在3个标准数据集上3种放大倍数的定量比较 Table 1 Quantitative comparison between various methods based on three benchmarks over three magnifications 数据集放大倍数双三次插值 A+7 SRFI75I SRCNNt阿 SCNIm FSRCNN79 MSSRNet网 33.66/0.929936.55/0.954436.87/0.955636.34/0.952136.76/0.9545 37.00/0.955837.33/0.9581 Set5 30.39/0.929932.59/0.9088 32.71/0.909832.39/0.903333.04/0.9136 33.16/0.914033.38/0.9178 4 28.42/0.8104 30.28/0.8603 30.35/0.8600 30.09/0.8503 30.82/0.872830.71/0.8657 31.10/0.8777 2 30.23/0.868732.28/0.905632.51/0.907432.18/0.903932.48/0.906732.63/0.908832.89/0.9117 Set14 3 27.54/0.7736 29.13/0.8188 29.23/0.820629.00/0.814529.37/0.8226 29.43/0.8242 29.57/0.8282 26.00/0.701927.32/0.7471 27.41/0.749727.20/0.741327.62/0.757127.59/0.7535 27.83/0.7631 2 29.70/0.862531.44/0.903131.65/0.905331.38/0.928731.63/0.904831.80/0.9074 32.08/0.9118 BSD200 27.26/0.763828.36/0.807828.45/0.809528.28/0.803828.54/0.811928.60/0.813728.78/0.8188 25.97/0.694926.83/0.735926.89/0.736826.73/0.729127.02/0.743426.98/0.739827.17/0.7489 平均值 28.80/0.815130.53/0.8491 30.67/0.850530.39/0.847430.81/0.854230.88/0.853731.13/0.8596 4.2基于深度网络的快速准确的压缩采样重建 图4给出了基于深度网络的压缩感知方法与 尽管压缩感知技术有很好的应用前景,最近 传统的BCS-SPL(block based compressed sampling 几年却发展非常缓慢,其中一个主要原因是之前 and smoothed projected landweber)方法的对比。如 的压缩重建算法往往需要一个非常复杂的解优化 图所示,BCS-SPL算法包括3个过程:压缩采样、 过程,重建速度非常慢而影响其实用性。如图3 初始重构和非线性信号重构。 所示,传统的方法DWT0、TVU、MH、CoSI 在BCS中,一个图像会被裁切为B×B大小的 和GSR8运行速度非常慢,因此研究快速的压缩 图像块,然后用一个合适大小的测量矩阵进行采 采样和重建算法显得非常必要。经过这么多年的 样。如果采样率为MIN,每个块需要ns=LMIN.B2] 发展,采样矩阵的设计以及快速压缩重建算法依 个采样值。因此采样矩阵中B是一个s×B2的矩 然是压缩感知技术的两个核心问题。Shi等8到 阵。假设x是第j块的向量,则相应的测量值可 提出使用深度网络(CSNet)来解决这两个问题, 以表示为y=中x。这就实现了图像的压缩采样 也就是用深度网络来学习一个高效的采样算子, 过程。另一个需要解决的问题是,在给定采样值 以及设计一个快速却重建效果好的网络实现图像 的情况下,怎么将其准确恢复出原来的图像。原 快速端到端重建。 来的BCS-SPL方法使用最小均方误差线性估计 3 32 CSNet 来估计初始解。这个初始重构过程可以表示为 元=市y财 GSR 号29 .Cos MH D.-R..O](PoR.D) 27 .TV 式中R是输入图像信号的自相关函数。明显地, 26 25 本是一个B×ns的矩阵。在得到初始解后,BCS- .DVT 24 SPL方法往往会进行多阶段的平滑投影操作进行 10103 10210110910-110-2 更慢← →更快 非线性重构来进一步改善图像的质量。 运行时间s CSNet模拟传统的基于分块的压缩感知采样 图3 基于深度学习的压缩感知网络框架与传统的基于 和重建过程。图4的上部是一个传统的BCS-SPL 块的压缩感知方法的对比 方法的采样和重建框架,下部是CSNet的网络框 Fig.3 Comparison between compressed sensing frame- work based on deep learning and the ones based on 架。如图4所示,传统的BCS-SPL方法包括压缩 traditional blocks 采样、初始重构和非线性信号重构3个过程
4.2 基于深度网络的快速准确的压缩采样重建 尽管压缩感知技术有很好的应用前景,最近 几年却发展非常缓慢,其中一个主要原因是之前 的压缩重建算法往往需要一个非常复杂的解优化 过程,重建速度非常慢而影响其实用性。如图 3 所示,传统的方法 DWT[80] 、TV [81] 、 MH[82] 、 CoS [83] 和 GSR [84] 运行速度非常慢,因此研究快速的压缩 采样和重建算法显得非常必要。经过这么多年的 发展,采样矩阵的设计以及快速压缩重建算法依 然是压缩感知技术的两个核心问题。Shi 等 [ 8 5 ] 提出使用深度网络 (CSNet) 来解决这两个问题, 也就是用深度网络来学习一个高效的采样算子, 以及设计一个快速却重建效果好的网络实现图像 快速端到端重建。 图 4 给出了基于深度网络的压缩感知方法与 传统的 BCS-SPL (block based compressed sampling and smoothed projected landweber) 方法的对比。如 图所示,BCS-SPL 算法包括 3 个过程:压缩采样、 初始重构和非线性信号重构。 B× B M/N nB = ⌊ M/N · B 2 ⌋ ΦB nB × B 2 xj yj = ΦB xj 在 BCS 中,一个图像会被裁切为 大小的 图像块,然后用一个合适大小的测量矩阵进行采 样。如果采样率为 ,每个块需要 个采样值。因此采样矩阵 是一个 的矩 阵。假设 是第 j 块的向量,则相应的测量值可 以表示为 。这就实现了图像的压缩采样 过程。另一个需要解决的问题是,在给定采样值 的情况下,怎么将其准确恢复出原来的图像。原 来的 BCS-SPL 方法使用最小均方误差线性估计 来估计初始解。这个初始重构过程可以表示为 x˜j = Φ˜ B yj Φ˜ B = RxxΦ T B ( ΦBRxxΦ T B )−1 Rxx Φ˜ R B 2 ×nB 式中 是输入图像信号的自相关函数。明显地, 是一个 的矩阵。在得到初始解后,BCSSPL 方法往往会进行多阶段的平滑投影操作进行 非线性重构来进一步改善图像的质量。 CSNet 模拟传统的基于分块的压缩感知采样 和重建过程。图 4 的上部是一个传统的 BCS-SPL 方法的采样和重建框架,下部是 CSNet 的网络框 架。如图 4 所示,传统的 BCS-SPL 方法包括压缩 采样、初始重构和非线性信号重构 3 个过程。 表 1 不同方法在 3 个标准数据集上 3 种放大倍数的定量比较 Table 1 Quantitative comparison between various methods based on three benchmarks over three magnifications 数据集 放大倍数 双三次插值 A+[74] SRF[75] SRCNN[76] SCN[77] FSRCNN[78] MSSRNet[79] Set5 2 33.66/0.929 9 36.55/0.954 4 36.87/0.955 6 36.34/0.952 1 36.76/0.954 5 37.00/0.955 8 37.33/0.958 1 3 30.39/0.929 9 32.59/0.908 8 32.71/0.909 8 32.39/0.903 3 33.04/0.913 6 33.16/0.914 0 33.38/0.917 8 4 28.42/0.810 4 30.28/0.860 3 30.35/0.860 0 30.09/0.850 3 30.82/0.872 8 30.71/0.865 7 31.10/0.877 7 Set14 2 30.23/0.868 7 32.28/0.905 6 32.51/0.907 4 32.18/0.903 9 32.48/0.906 7 32.63/0.908 8 32.89/0.911 7 3 27.54/0.773 6 29.13/0.818 8 29.23/0.820 6 29.00/0.814 5 29.37/0.822 6 29.43/0.824 2 29.57/0.828 2 4 26.00/0.701 9 27.32/0.747 1 27.41/0.749 7 27.20/0.741 3 27.62/0.757 1 27.59/0.753 5 27.83/0.763 1 BSD200 2 29.70/0.862 5 31.44/0.903 1 31.65/0.905 3 31.38/0.928 7 31.63/0.904 8 31.80/0.907 4 32.08/0.911 8 3 27.26/0.763 8 28.36/0.807 8 28.45/0.809 5 28.28/0.803 8 28.54/0.811 9 28.60/0.813 7 28.78/0.818 8 4 25.97/0.694 9 26.83/0.735 9 26.89/0.736 8 26.73/0.729 1 27.02/0.743 4 26.98/0.739 8 27.17/0.748 9 平均值 28.80/0.815 1 30.53/0.849 1 30.67/0.850 5 30.39/0.847 4 30.81/0.854 2 30.88/0.853 7 31.13/0.859 6 低分辨图像 高分辨图像 inception 模块 inception 模块 inception 模块 图 2 基于膨胀卷积起始模块的单图像超分辨网络结构 Fig. 2 Single-image super-resolution network structure based on the inception module based on dilatied Cos GSR CSNet MH TV DVT 33 32 31 30 29 28 27 26 25 24 PSNR/dB 104 103 102 101 100 10−1 10−2 更慢 更快 运行时间/s 图 3 基于深度学习的压缩感知网络框架与传统的基于 块的压缩感知方法的对比 Fig. 3 Comparison between compressed sensing framework based on deep learning and the ones based on traditional blocks ·76· 智 能 系 统 学 报 第 14 卷
第1期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 ·77· CSNet设计一个采样子网络、一个初始重构子网 包括一个卷积层和一个合并重构层。初始重构子 络和一个深度重构子网络来模拟传统BCS-SPL 网络的卷积层有2个空间维度为1×1大小滤波器, 的3个过程。采样子网络用一个卷积层模拟传统 而合并重构层是一个拼接和串联操作。深度重构 的采样矩阵中。假设块划分大小为B×B,采样率 子网包括多个卷积操作。这个方法很好地模拟了 为MN,那么Φ是一个nB=MN.B」行B列的矩 传统的压缩重构过程,并且将复杂的解优化过程 阵。那么采样子网络将会是一个有ns=LMIN·B] 隐含于简单的深度重构子网中,可以得到更好的 个B×B大小滤波器的卷积层。初始重构子网络 重构质量和更快的运行速度。 CS 输人 :测量值 初始重建 初 非线性信号重建 采样 :结果 输出 =中ax 功J肌 阶段1:反复进行维纳滤波和在La即pped变换域硬阅值化处理-.- 币。=R(巾R巾1 阶段2:反复通过帧拓展进行硬國值化处理 变 采样 ●S 初始重建 初始 深度重建 n。卷积 测量值 B卷积 结果 64卷积+ReLU 64卷积+ReLU 会 输出 1×1×n ×364 步长:BxB 形变+串联 3× 步长:1×1 步长:1×1 步长:1×1 1× 填充:0×0 填充:0×0 填充:0×0 填充:0×0 价·0x0 图4CSNt与流行算法的运行速度和重构PSNR的对比 Fig.4 Comparison of the running speed and PSNR between CSNet and the state-of-the-art methods 表2给出基于深度学习的压缩感知方法 果提升。图3给出了CSNet与流行算法在Set5数 (CSNet)与其他流行的压缩感知方法在Setl4数据 据集上采样率为O.1的重建图像的PSNR与运行 集中5种采样率下的重建结果的平均PSNR和 速度的对比。结果显示,CSNet不仅重建效果好 SSM结果的对比。如表2所示,CSNet在各种采 运行速度也显著提升。更多关于CSNet的细节 样率下与现有的方法相比都取得了显著的重建效 请读者参考文献[75]。 表2不同算法在Set14数据集中5种压缩采样率下的重建结果的平均PSNR和SSIM对比 Table 2 Averages of PSNR and SSIM over 5 sampling rates between various methods on Set14 采样率 DWTIS0 Tylsi MHIS2] Cosls3] GSRB阿 CSNet8s] 0.1 24.16/0.6798 25.24/0.6887 26.38/0.7282 27.20/0.7433 27.50/0.7705 29.13/0.8169 0.2 28.13/0.7882 28.07/0.7844 29.47/0.8237 30.07/0.8278 31.22/0.8642 32.15/0.8941 0.3 30.38/0.8389 30.12/0.8424 31.37/0.8694 32.03/0.8732 33.74/0.9071 34.34/0.9297 0.4 31.99/0.8753 32.03/0.8837 33.03/0.9009 34.00/0.9084 35.78/0.9336 36.16/0.9502 0.5 33.54/0.9044 33.84/0.9148 34.52/0.9239 35.84/0.9314 37.66/0.9522 37.89/0.9631 平均值 29.64/0.8173 29.86/0.8228 30.95/0.8492 31.83/0.8568 33.18/0.8855 33.93/0.9108 5结束语 起着至关重要的作用。基于数字信号处理的传统 编码技术并没有直接从人类的视觉感知过程出 综上所述,从理论模型到应用方法,纵观各层 发,而压缩图像最终要服务于人的感知;尽管认 面的根本任务、彼此联结及发展现状,有如下认识 知心理层面的视觉先验机理测试给出一些重要的 在低层计算机视觉层面,深度结构可以从丰富的 发现与启示,但是仅仅依靠其去解释大脑对自然 感知信息中归纳或解释复杂的结构和建立数据中 图像一般性规律的归纳与认知是不现实的。因此 内在的表征,特别是为视觉信息的表达提供了高 从计算层面的视觉先验功能模拟角度去解释,才 效的手段与工具;与传统自然图像先验功能模拟 能够将视觉信息编码从图像空间过渡到自然图像 相比,以数据为根本驱动,以精确描述和解释自 子空间,这是一种合理、必须的选择。 然图像子空间为目标的自然图像先验深度模型, 可先天克服传统先验建模方法片面、孤立的缺 参考文献: 点,这使得我们跳出以往较为单一先验建模方 [1]PARK S,KONKLE T,OLIVA A.Parametric coding of 法,在更高的层面思考问题。 the size and clutter of natural scenes in the human brain[. 借助计算层面的自然图像先验模型是编码技 Cerebral cortex,2015,25(7):1792-1805. 术的必然选择。先验知识在自然图像认知过程中 [2]FOLDIAK P.Neural control:closed-loop human brain
Φ B× B M/N Φ nB = ⌊ M/N · B 2 ⌋ B 2 nB = ⌊ M/N · B 2 ⌋ CSNet 设计一个采样子网络、一个初始重构子网 络和一个深度重构子网络来模拟传统 BCS-SPL 的 3 个过程。采样子网络用一个卷积层模拟传统 的采样矩阵 。假设块划分大小为 ,采样率 为 ,那么 是一个 行 列的矩 阵。那么采样子网络将会是一个有 个 B×B 大小滤波器的卷积层。初始重构子网络 B 2 1×1 包括一个卷积层和一个合并重构层。初始重构子 网络的卷积层有 个空间维度为 大小滤波器, 而合并重构层是一个拼接和串联操作。深度重构 子网包括多个卷积操作。这个方法很好地模拟了 传统的压缩重构过程,并且将复杂的解优化过程 隐含于简单的深度重构子网中,可以得到更好的 重构质量和更快的运行速度。 表 2 给出基于深度学习的压缩感知方 法 (CSNet) 与其他流行的压缩感知方法在 Set14 数据 集中 5 种采样率下的重建结果的平均 PSNR 和 SSIM 结果的对比。如表 2 所示,CSNet 在各种采 样率下与现有的方法相比都取得了显著的重建效 果提升。图 3 给出了 CSNet 与流行算法在 Set5 数 据集上采样率为 0.1 的重建图像的 PSNR 与运行 速度的对比。结果显示,CSNet 不仅重建效果好 运行速度也显著提升。更多关于 CSNet 的细节, 请读者参考文献 [75]。 5 结束语 综上所述,从理论模型到应用方法,纵观各层 面的根本任务、彼此联结及发展现状,有如下认识: 在低层计算机视觉层面,深度结构可以从丰富的 感知信息中归纳或解释复杂的结构和建立数据中 内在的表征,特别是为视觉信息的表达提供了高 效的手段与工具;与传统自然图像先验功能模拟 相比,以数据为根本驱动,以精确描述和解释自 然图像子空间为目标的自然图像先验深度模型, 可先天克服传统先验建模方法片面、孤立的缺 点,这使得我们跳出以往较为单一先验建模方 法,在更高的层面思考问题。 借助计算层面的自然图像先验模型是编码技 术的必然选择。先验知识在自然图像认知过程中 起着至关重要的作用。基于数字信号处理的传统 编码技术并没有直接从人类的视觉感知过程出 发,而压缩图像最终要服务于人的感知;尽管认 知心理层面的视觉先验机理测试给出一些重要的 发现与启示,但是仅仅依靠其去解释大脑对自然 图像一般性规律的归纳与认知是不现实的。因此 从计算层面的视觉先验功能模拟角度去解释,才 能够将视觉信息编码从图像空间过渡到自然图像 子空间,这是一种合理、必须的选择。 参考文献: PARK S, KONKLE T, OLIVA A. Parametric coding of the size and clutter of natural scenes in the human brain[J]. Cerebral cortex, 2015, 25(7): 1792–1805. [1] [2] FÖLDIÁK P. Neural control: closed-loop human brain 表 2 不同算法在 Set14 数据集中 5 种压缩采样率下的重建结果的平均 PSNR 和 SSIM 对比 Table 2 Averages of PSNR and SSIM over 5 sampling rates between various methods on Set14 采样率 DWT[80] TV[81] MH[82] CoS[83] GSR[84] CSNet[85] 0.1 24.16/0.679 8 25.24/0.688 7 26.38/0.728 2 27.20/0.743 3 27.50/0.770 5 29.13/0.816 9 0.2 28.13/0.788 2 28.07/0.784 4 29.47/0.823 7 30.07/0.827 8 31.22/0.864 2 32.15/0.894 1 0.3 30.38/0.838 9 30.12/0.842 4 31.37/0.869 4 32.03/0.873 2 33.74/0.907 1 34.34/0.929 7 0.4 31.99/0.875 3 32.03/0.883 7 33.03/0.900 9 34.00/0.908 4 35.78/0.933 6 36.16/0.950 2 0.5 33.54/0.904 4 33.84/0.914 8 34.52/0.923 9 35.84/0.931 4 37.66/0.952 2 37.89/0.963 1 平均值 29.64/0.817 3 29.86/0.822 8 30.95/0.849 2 31.83/0.856 8 33.18/0.885 5 33.93/0.910 8 采样 yi=ΦB xi 初始重建 xi=ΦB yi ΦB =RxxΦT B (ΦBRxxΦT B ) −1 初始 结果 非线性信号重建 阶段1: 反复进行维纳滤波和在 Lapped 变换域硬阈值化处理 阶段2: 反复通过帧拓展进行硬阈值化处理 输出 输出 输入 输入 CS 测量值 初始 结果 CS 测量值 采样 nB 卷积 B×B×1 步长: B×B 填充: 0×0 B 2 卷积 1×1×n 步长: 1×1 填充: 0×0 形变+串联 初始重建 3× 深度重建 64 卷积+ReLU 3×3×1 步长: 1×1 填充: 0×0 64 卷积+ReLU 3×3×64 步长: 1×1 填充: 0×0 1 卷积 3×3×64 步长: 1×1 填充: 0×0 图 4 CSNet 与流行算法的运行速度和重构 PSNR 的对比 Fig. 4 Comparison of the running speed and PSNR between CSNet and the state-of-the-art methods 第 1 期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 ·77·
·78· 智能系统学报 第14卷 reading[J].Current biology,2011,21(2):80-81. [17]HUBEL D H,WIESEL T N.Receptive fields,binocular [3]KAY K N,GALLANT J L.I can see what you see[J] interaction and functional architecture in the cat's visual Nature neuroscience,2009,12(3):245. cortex[J].The journal of physiology,1962,160(1): [4]KIM MK.KIM M,OH E,et al.A review on the computa- 106-154. tional methods for emotional state estimation from the hu- [18]XU Mai,LI Shengxi,LU Jianhua,et al.Compressibility man EEG[J].Computational and mathematical methods in constrained sparse representation with learnt dictionary medicine,2013.22(12:3127-3142. for low bit-rate image compression[J].IEEE transactions [5]JIAN Muwei,QI Qiang,DONG Junyu,et al.Saliency de- on circuits and systems for video technology,2014, tection using quaternionic distance based weber local 2410:1743-1757 descriptor and level priors[J].Multimedia tools and applic- [19]SUN Yipeng,TAO Xiaoming,LI Yang,et al.Dictionary ations,.2018,77(11):14343-14360. learning for image coding based on multisample sparse [6]JIAN Muwei.LAM K M,DONG Junyu,et al.Visual- representation[J].IEEE transactions on circuits and sys- patch-attention-aware saliency detection[J].IEEE transac- tems for video technology,2014,24(11):2004-2010. tions on cybernetics,2015,45(8):1575-1586. [20]SUN Fuming,TANG Jinhui,LI Haojie,et al.Multi-label [7]JIAN Muwei,LAM K M,DONG Junyu.Facial-feature de- image categorization with sparse factor representation[J]. tection and localization based on a hierarchical scheme[J]. IEEE transactions on image processing,2014,23(3): Information sciences,2014,262(3):1-14. 1028-1037 [8]JIAN Muwei,QI Qiang,DONG Junyu,et al.Integrating [21]RABBANI H.GAZOR S.Local probability distribution QDWD with pattern distinctness and local contrast for un- of natural signals in sparse domains[J].International derwater saliency detection[J].Journal of visual commu- nication and image representation,2018,53:31-41. journal of adaptive control and signal processing,2014, [9]TREVES A,TASHIRO A,WITTER M P,et al.What is 28(1上52-62. the mammalian dentate gyrus good for?[J].Neuroscience, [22]ELHAMIFAR E,VIDAL R.Sparse subspace clustering: 2008,1544:1155-1172. Algorithm,theory,and applications[J].IEEE transactions [10]CHANTAS G.GALATSANOS N P,MOLINA R.et al. on pattern analysis and machine intelligence,2013, Variational bayesian image restoration with a product of 35(11):2765-2781. spatially weighted total variation image priors[J].IEEE [23]肖迪,马青青,王兰,等.基于稀硫表示的云协助安全数 transactions on image processing,2010,19(2):351-362. 字水印技术[.信息网络安全,2017,37(1):1-7 [11]CHAN TF,OSHER S,SHEN J.The digital TV filter and XIAO Di,MA Qingqing,WANG Lan,et al.Cloud-as- nonlinear denoising[J].IEEE transactions on image pro- sisted secure digital watermarking based on sparse repres- cessing,2001,10(2):231-241. entation[J].Netinfo security,2017,37(1):1-7. [12]ZHU Songchun,WU Yingnian,MUMFORD D.Filters, [24]熊金波,马蓉,张媛媛,等.面向社交网络的图片信息隐 random fields and maximum entropy (FRAME):towards 藏方法与实现.信息网络安全,2017,37(3):6-13. a unified theory for texture modeling[J].International XIONG Jinbo,MA Rong,ZHANG Yuanyuan,et al.Im- journal of computer vision,1998,27(2):107-126. age information hiding method and implementation for [13]FREEMAN W T.PASZTOR E C,CARMICHAEL O T. social network[J].Netinfo security,2017,37(3):6-13. Learning low-level vision[J].International journal of [25]徐杰,贺敏,包秀国.基于压缩感知的视频台标识别研 computer vision,2000,40(1):25-47. 究U.信息网络安全,2015(5):77-81 [14]WELLING M,OSINDERO S,HINTON G E.Learning XU Jie,HE Min,BAO Xiuguo.Research on TV logo de- sparse topographic representations with products of stu- tection based on compressive sensing[J].Netinfo security, dent-t distributions[C]//Advances in Neural Information 2015(5):77-81. Processing Systems.Vancouver,Canada,2003:1383- [26]任栋,宋伟,于京,等.特殊视频内容检测算法研究综述 1390. [.信息网络安全,2016(9y:184-191. [15]ROTH S,BLACK M J.Fields of experts[J].International REN Dong,SONG Wei,YU Jing,et al.A survey on spe- journal of computer vision,2009,82:205 cial video content detection algorithms[J].Netinfo secur- [16]SUN Deqing,ROTH S,BLACK M J.A quantitative ana- iy,2016(9):184-191 lysis of current practices in optical flow estimation and [27]PROTTER M,ELAD M,TAKEDA H,et al.Generaliz- the principles behind them[J].International journal of ing the nonlocal-means to super-resolution reconstruc- computer vision,2014,106(2):115-137. tion[J].IEEE transactions on image processing,2009
reading[J]. Current biology, 2011, 21(2): 80–81. KAY K N, GALLANT J L. I can see what you see[J]. Nature neuroscience, 2009, 12(3): 245. [3] KIM M K, KIM M, OH E, et al. A review on the computational methods for emotional state estimation from the human EEG[J]. Computational and mathematical methods in medicine, 2013, 22(12): 3127–3142. [4] JIAN Muwei, QI Qiang, DONG Junyu, et al. Saliency detection using quaternionic distance based weber local descriptor and level priors[J]. Multimedia tools and applications, 2018, 77(11): 14343–14360. [5] JIAN Muwei, LAM K M, DONG Junyu, et al. Visualpatch-attention-aware saliency detection[J]. IEEE transactions on cybernetics, 2015, 45(8): 1575–1586. [6] JIAN Muwei, LAM K M, DONG Junyu. Facial-feature detection and localization based on a hierarchical scheme[J]. Information sciences, 2014, 262(3): 1–14. [7] JIAN Muwei, QI Qiang, DONG Junyu, et al. Integrating QDWD with pattern distinctness and local contrast for underwater saliency detection[J]. Journal of visual communication and image representation, 2018, 53: 31–41. [8] TREVES A, TASHIRO A, WITTER M P, et al. What is the mammalian dentate gyrus good for?[J]. Neuroscience, 2008, 154(4): 1155–1172. [9] CHANTAS G, GALATSANOS N P, MOLINA R, et al. Variational bayesian image restoration with a product of spatially weighted total variation image priors[J]. IEEE transactions on image processing, 2010, 19(2): 351–362. [10] CHAN T F, OSHER S, SHEN J. The digital TV filter and nonlinear denoising[J]. IEEE transactions on image processing, 2001, 10(2): 231–241. [11] ZHU Songchun, WU Yingnian, MUMFORD D. Filters, random fields and maximum entropy (FRAME): towards a unified theory for texture modeling[J]. International journal of computer vision, 1998, 27(2): 107–126. [12] FREEMAN W T, PASZTOR E C, CARMICHAEL O T. Learning low-level vision[J]. International journal of computer vision, 2000, 40(1): 25–47. [13] WELLING M, OSINDERO S, HINTON G E. Learning sparse topographic representations with products of student-t distributions[C]//Advances in Neural Information Processing Systems. Vancouver, Canada, 2003: 1383– 1390. [14] ROTH S, BLACK M J. Fields of experts[J]. International journal of computer vision, 2009, 82: 205. [15] SUN Deqing, ROTH S, BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[J]. International journal of computer vision, 2014, 106(2): 115–137. [16] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The journal of physiology, 1962, 160(1): 106–154. [17] XU Mai, LI Shengxi, LU Jianhua, et al. Compressibility constrained sparse representation with learnt dictionary for low bit-rate image compression[J]. IEEE transactions on circuits and systems for video technology, 2014, 24(10): 1743–1757. [18] SUN Yipeng, TAO Xiaoming, LI Yang, et al. Dictionary learning for image coding based on multisample sparse representation[J]. IEEE transactions on circuits and systems for video technology, 2014, 24(11): 2004–2010. [19] SUN Fuming, TANG Jinhui, LI Haojie, et al. Multi-label image categorization with sparse factor representation[J]. IEEE transactions on image processing, 2014, 23(3): 1028–1037. [20] RABBANI H, GAZOR S. Local probability distribution of natural signals in sparse domains[J]. International journal of adaptive control and signal processing, 2014, 28(1): 52–62. [21] ELHAMIFAR E, VIDAL R. Sparse subspace clustering: Algorithm, theory, and applications[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(11): 2765–2781. [22] 肖迪, 马青青, 王兰, 等. 基于稀疏表示的云协助安全数 字水印技术 [J]. 信息网络安全, 2017, 37(1): 1–7. XIAO Di, MA Qingqing, WANG Lan, et al. Cloud-assisted secure digital watermarking based on sparse representation[J]. Netinfo security, 2017, 37(1): 1–7. [23] 熊金波, 马蓉, 张媛媛, 等. 面向社交网络的图片信息隐 藏方法与实现 [J]. 信息网络安全, 2017, 37(3): 6–13. XIONG Jinbo, MA Rong, ZHANG Yuanyuan, et al. Image information hiding method and implementation for social network[J]. Netinfo security, 2017, 37(3): 6–13. [24] 徐杰, 贺敏, 包秀国. 基于压缩感知的视频台标识别研 究 [J]. 信息网络安全, 2015(5): 77–81. XU Jie, HE Min, BAO Xiuguo. Research on TV logo detection based on compressive sensing[J]. Netinfo security, 2015(5): 77–81. [25] 任栋, 宋伟, 于京, 等. 特殊视频内容检测算法研究综述 [J]. 信息网络安全, 2016(9): 184–191. REN Dong, SONG Wei, YU Jing, et al. A survey on special video content detection algorithms[J]. Netinfo security, 2016(9): 184–191. [26] PROTTER M, ELAD M, TAKEDA H, et al. Generalizing the nonlocal-means to super-resolution reconstruction[J]. IEEE transactions on image processing, 2009, [27] ·78· 智 能 系 统 学 报 第 14 卷
第1期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 。79· 18(1:36-51 ings of the IEEE Conference on Computer Vision and [28]TALEBI H,MILANFAR P.Global image denoising[J]. Pattern Recognition.Las Vegas,NV,United States,2016: IEEE transactions on image processing,2014,23(2): 770-778. 755-768. [41]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [29]RAM I,ELAD M,COHEN I.Image processing using Delving deep into rectifiers:surpassing human-level per- smooth ordering of its patches[J].IEEE transactions on formance on imagenet classification[C]//Proceedings of image processing,2013,22(7):2764-2774. IEEE International Conference on Computer Vision.San- [30]GILBOA G,OSHER S.Nonlocal operators with applica- tiago,Chile,2015:1026-1034. tions to image processing[J].Multiscale modeling and [42]WANG Zhaowen,LIU Ding,YANG Jianchao,et al simulation,2008,7(3):1005-1028. Deep networks for image super-resolution with sparse pri- [31]ZHANG Lei,DONG Weisheng,ZHANG D,et al.Two- or[C]//Proceedings of IEEE International Conference on stage image denoising by principal component analysis Computer Vision.Santiago,Chile,2015:370-378. with local pixel grouping[J].Pattern recognition,2010, [43]GU S,ZUO W,XIE Q,et al.Convolutional sparse cod- 43(4):1531-1549 ing for image super-resolution[C]//IEEE International [32]MAIRAL J,BACH F,PONCE J,et al.Non-local sparse Conference on Computer Vision.IEEE Computer Soci- models for image restoration[C]//Proceedings of the 12th ety,2015:1823-1831 International Conference on Computer Vision.Kyoto,Ja- [44]LIANG Yudong,WANG Jinjun,ZHOU Sanping,et al. pan,2009:2272-2279. Incorporating image priors with deep convolutional neur- [33]JUNG M,BRESSON X,CHAN T F,et al.Nonlocal al networks for image super-resolution[J].Neurocomput- Mumford-Shah regularizers for color image restoration[]. ing,2016,194:340-347. IEEE transactions on image processing,2011,20(6): [45]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M, 1583-1598. et al.Generative adversarial nets[Cl//Proceedings of the [34]SUN Jian,TAPPEN M F.Learning non-local range 27th International Conference on Neural Information Pro- Markov random field for image restoration[C]//CVPR cessing Systems.Cambridge,MA,USA,2014:2672- 2011.Colorado Springs,CO,USA,2011:2745-2752. 2680. [35]GAO Xinwei,ZHANG Jian,JIANG Feng,et al.Image in- [46]LEDIG C.THEIS L.HUSZAR F,et al.Photo-realistic terpolation via local autoregressive and nonlocal 3-D single image super-resolution using a generative ad- sparse regularization[C]//Visual Communications and Im- versarial network[C]//Proceedings of the IEEE Confer- age Processing.San Diego,USA,2012. ence on Computer Vision and Pattern Recognition.Hon- [36]DONG Chao,LOY C C,HE Kaiming,et al.Learning a olulu,HL,USA,2017:105-114 deep convolutional network for image super-resolu- [47]JOHNSON J,ALAHI A,FEI-FEI L.Perceptual losses for tion[Cl//Proceedings of the 13th European Conference On real-time style transfer and super-resolution[Cl//Proceed- Computer Vision.Cham,Germany,2014:184-199. ings of the 14th European Conference on Computer Vis- [37]DONG Chao,LOY CC,HE Kaiming,et al.Image super- ion.Amsterdam,The Netherlands,2016:694-711. resolution using deep convolutional networks[J].IEEE [48]STANKOVIC V,STANKOVIC L,CHENG S.Com- transactions on pattern analysis and machine intelligence, pressive video sampling[C]//Processing of 16th European 2016,38(2295-307. Signal Processing Conference.Lausanne,Switzerland, [38]DONG Chao,LOY CC,TANG Xiaoou.Accelerating the 2008:1-5. super-resolution convolutional neural network[C]//Pro- [49]PARK J Y.WAKIN M B.A multiscale framework for ceedings of the 14th European Conference on Computer compressive sensing of video[C]//Processing of Picture Vision.Amsterdam,The Netherlands,2016:391-407. Coding Symposium.Chicago,USA,2009:1-4. [39]KIM J,LEE JK,LEE K M.Accurate image super-resolu- [50]PRADES-NEBOT J,MA Yi,HUANG T.Distributed tion using very deep convolutional networks[C]//Proceed- video coding using compressive sampling[C]//Processing ings of the IEEE Conference on Computer Vision and of Picture Coding Symposium.Chicago,USA,2009:1-4. Pattern Recognition.Las Vegas,NV,USA,2016: [51]CHEN H W,KANG Liwei,LU C S.Dictionary learning- 1646-1654. based distributed compressive video sensing[C]//Pro- [40]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. cessing of Picture Coding Symposium.Nagoya,Japan, Deep residual learning for image recognition[Cl//Proceed- 2010:210-213
18(1): 36–51. TALEBI H, MILANFAR P. Global image denoising[J]. IEEE transactions on image processing, 2014, 23(2): 755–768. [28] RAM I, ELAD M, COHEN I. Image processing using smooth ordering of its patches[J]. IEEE transactions on image processing, 2013, 22(7): 2764–2774. [29] GILBOA G, OSHER S. Nonlocal operators with applications to image processing[J]. Multiscale modeling and simulation, 2008, 7(3): 1005–1028. [30] ZHANG Lei, DONG Weisheng, ZHANG D, et al. Twostage image denoising by principal component analysis with local pixel grouping[J]. Pattern recognition, 2010, 43(4): 1531–1549. [31] MAIRAL J, BACH F, PONCE J, et al. Non-local sparse models for image restoration[C]//Proceedings of the 12th International Conference on Computer Vision. Kyoto, Japan, 2009: 2272–2279. [32] JUNG M, BRESSON X, CHAN T F, et al. Nonlocal Mumford-Shah regularizers for color image restoration[J]. IEEE transactions on image processing, 2011, 20(6): 1583–1598. [33] SUN Jian, TAPPEN M F. Learning non-local range Markov random field for image restoration[C]//CVPR 2011. Colorado Springs, CO, USA, 2011: 2745–2752. [34] GAO Xinwei, ZHANG Jian, JIANG Feng, et al. Image interpolation via local autoregressive and nonlocal 3-D sparse regularization[C]//Visual Communications and Image Processing. San Diego, USA, 2012. [35] DONG Chao, LOY C C, HE Kaiming, et al. Learning a deep convolutional network for image super-resolution[C]//Proceedings of the 13th European Conference On Computer Vision. Cham, Germany, 2014: 184 –199. [36] DONG Chao, LOY C C, HE Kaiming, et al. Image superresolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(2): 295–307. [37] DONG Chao, LOY C C, TANG Xiaoou. Accelerating the super-resolution convolutional neural network[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 391– 407. [38] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 1646–1654. [39] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceed- [40] ings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, United States, 2016: 770–778. HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//Proceedings of IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1026–1034. [41] WANG Zhaowen, LIU Ding, YANG Jianchao, et al. Deep networks for image super-resolution with sparse prior[C]//Proceedings of IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 370–378. [42] GU S, ZUO W, XIE Q, et al. Convolutional sparse coding for image super-resolution[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:1823-1831. [43] LIANG Yudong, WANG Jinjun, ZHOU Sanping, et al. Incorporating image priors with deep convolutional neural networks for image super-resolution[J]. Neurocomputing, 2016, 194: 340–347. [44] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA, USA, 2014: 2672– 2680. [45] LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017: 105-114 [46] JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 694–711. [47] STANKOVIĆ V, STANKOVIĆ L, CHENG S. Compressive video sampling[C]//Processing of 16th European Signal Processing Conference. Lausanne, Switzerland, 2008: 1–5. [48] PARK J Y, WAKIN M B. A multiscale framework for compressive sensing of video[C]//Processing of Picture Coding Symposium. Chicago, USA, 2009: 1–4. [49] PRADES-NEBOT J, MA Yi, HUANG T. Distributed video coding using compressive sampling[C]//Processing of Picture Coding Symposium. Chicago, USA, 2009: 1–4. [50] CHEN H W, KANG Liwei, LU C S. Dictionary learningbased distributed compressive video sensing[C]// Processing of Picture Coding Symposium. Nagoya, Japan, 2010: 210–213. [51] 第 1 期 孙必慎,等:计算视觉核心问题:自然图像先验建模研究综述 ·79·
·80· 智能系统学报 第14卷 [52]WRIGHT S J,NOWAK R D,FIGUEIREDO M A T. neural network approach for post-processing in HEVC in- Sparse reconstruction by separable approximation[J]. tra coding[C]//Proceedings of the 23rd International Con- IEEE transactions on signal processing,2009,57(7): ference on Multimedia Modeling.Reykjavik,Iceland, 2479-2493. 2017:28-39. [53]PONG K H.LAM K M.Multi-resolution feature fusion [65]TODERICI G,O'MALLEY S M,HWANG S J.et al. for face recognition[J].Pattern recognition,2014,47(2): Variable rate image compression with recurrent neural 556-567. networks[EB/OL].arXiv preprint arXiv:1511.060 85, [54]PYATYKH S,HESSER J.Salt and pepper noise removal 2016.https://arxiv.org/abs/1511.06085 in binary images using image block prior probabilities[J]. [66]TODERICI G,VINCENT D,JOHNSTON N,et al.Full Journal of visual communication and image representa- resolution image compression with recurrent neural net- tion,2014,25(5):748-754. works[C/IEEE Conference on Computer Vision and Pat- [55]YIN Zhouping,ZHANG Hongmei.Research on saliency tern Recognition.Honolulu,Hawaii,USA,2017: prior based image processing algorithm[J].Journal of 5435-5443. multimedia,.2014,9(2:294-301. [67]JOHNSTON N,VINCENT D,MINNEN D,et al.Im- [56]JIANG Feng,TAO Wen,LIU Shaohui,et al.An end-to- proved lossy image compression with priming and spa- end compression framework based on convolutional neur- tially adaptive bit rates for recurrent networks[EB/OL]. al networks[J].IEEE transactions on circuits and systems ar Xiv preprint arXiv:1703.101 14,2017.https://arxiv. for video technology,2018,28(10):3007-3018. org/abs/1703.10114 [57]ZHAO Lijun,BAI Huihui,WANG Aahong,et al.Learn- [68]THEIS L,SHI Wenzhe,CUNNINGHAM A,et al.Lossy ing a virtual codec based on deep convolutional neural image compression with compressive autoencoders network to compress image[EB/OL].arXiv preprint arX- [EB/OL].arXiv preprint arXiv:1703.003 95,2017. iv:1712.05969,2017.https:/arxiv.org/abs/1712.05969 https://arxiv.org/abs/1703.00395 [58]SULLIVAN G J,OHM JR.HAN W J,et al.Overview of [69]BALLE J,LAPARRA V,SIMONCELLI E P.End-to-end the high efficiency video coding (HEVC)standard[J]. optimization of nonlinear transform codes for perceptual IEEE transactions on circuits and systems for video tech- quality[C]//Proceedings of 2016 Picture Coding Symposi- nology,2012,22(12):1649-1668. um.Nuremberg,Germany,2016:1-5. [59]LI Jiahao,LI Bin,XU Jizheng,et al.Intra prediction us- [70]AGUSTSSON E,MENTZER F,TSCHANNEN M,et al. ing fully connected network for video coding[C]//IEEE Soft-to-hard vector quantization for end-to-end learning International Conference on Image Processing.Beijing, compressible representations[C]//Advances in Neural In- China,2017:1-5 formation Processing Systems.Long Beach,CA,USA, [60]YAN Ning,LIU Dong,LI Houqiang,et al.A convolu- 2017:1141-1151 tional neural network approach for half-pel interpolation [71]LI Mu,ZUO Wangmeng,GU Shuhang,et al.Learning in video coding[C]//Proceedings of 2017 International convolutional networks for content-weighted image com- Symposium on Circuits and Systems.Baltimore,MD, pression[EB/OL].arXiv preprint arXiv:1703.105 53, USA,2017:1-4. 2017.https://arxiv.org/abs/1703.10553 [61]LIU Zhenyu,YU Xianyu,CHEN Shaolin,et al.CNN ori- [72]RIPPEL O,BOURDEV L.Real-time adaptive image ented fast HEVC intra CU mode decision[Cl//IEEE Inter- compression[EB/OL].arXiv preprint arXiv:1705.058 23, national Symposium on Circuits and Systems.Montreal, 2017.https://arxiv.org/abs/1705.05823 QC,Canada,2016:2270-2273. [73]BAIG M H,KOLTUN V,TORRESANI L.Learning to [62]LIU Dong,MA Haichuan,XIONG Zhiwei,et al.CNN- Inpaint for Image Compression[C]//Advances in Neural Based DCT-like transform for image compression[C]// Information Processing Systems.Long Beach,CA,USA, Proceedings of the 24th International Conference on Mul- 2017:1246-1255 timedia Modeling.Bangkok,Thailand,2018:61-72 [74]TIMOFTE R.DE SMET V,VAN GOOL L.A+:adjus- [63]SONG Rui,LIU Dong,LI Houqiang,et al.Neural net- ted anchored neighborhood regression for fast super-res- work-based arithmetic coding of intra prediction modes in olution[C]//Asian Conference on Computer Vision. HEVC[C]/IEEE Visual Communications and Image Pro- Springer,Cham,2014:111-126. cessing Conference.Petersburg,FL,USA,2017:1-4. [75]SCHULTER S.LEISTNER C.BISCHOF H.Fast and ac- [64]DAI Yuanying,LIU Dong,WU Feng.A convolutional curate image upscaling with super-resolution forests
WRIGHT S J, NOWAK R D, FIGUEIREDO M A T. Sparse reconstruction by separable approximation[J]. IEEE transactions on signal processing, 2009, 57(7): 2479–2493. [52] PONG K H, LAM K M. Multi-resolution feature fusion for face recognition[J]. Pattern recognition, 2014, 47(2): 556–567. [53] PYATYKH S, HESSER J. Salt and pepper noise removal in binary images using image block prior probabilities[J]. Journal of visual communication and image representation, 2014, 25(5): 748–754. [54] YIN Zhouping, ZHANG Hongmei. Research on saliency prior based image processing algorithm[J]. Journal of multimedia, 2014, 9(2): 294–301. [55] JIANG Feng, TAO Wen, LIU Shaohui, et al. An end-toend compression framework based on convolutional neural networks[J]. IEEE transactions on circuits and systems for video technology, 2018, 28(10): 3007–3018. [56] ZHAO Lijun, BAI Huihui, WANG Aahong, et al. Learning a virtual codec based on deep convolutional neural network to compress image[EB/OL]. arXiv preprint arXiv: 1712.059 69, 2017. https://arxiv.org/abs/1712.05969 [57] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE transactions on circuits and systems for video technology, 2012, 22(12): 1649–1668. [58] LI Jiahao, LI Bin, XU Jizheng, et al. Intra prediction using fully connected network for video coding[C]//IEEE International Conference on Image Processing. Beijing, China, 2017: 1–5. [59] YAN Ning, LIU Dong, LI Houqiang, et al. A convolutional neural network approach for half-pel interpolation in video coding[C]//Proceedings of 2017 International Symposium on Circuits and Systems. Baltimore, MD, USA, 2017: 1–4. [60] LIU Zhenyu, YU Xianyu, CHEN Shaolin, et al. CNN oriented fast HEVC intra CU mode decision[C]//IEEE International Symposium on Circuits and Systems. Montreal, QC, Canada, 2016: 2270–2273. [61] LIU Dong, MA Haichuan, XIONG Zhiwei, et al. CNNBased DCT-like transform for image compression[C]// Proceedings of the 24th International Conference on Multimedia Modeling. Bangkok, Thailand, 2018: 61–72. [62] SONG Rui, LIU Dong, LI Houqiang, et al. Neural network-based arithmetic coding of intra prediction modes in HEVC[C]//IEEE Visual Communications and Image Processing Conference. Petersburg, FL, USA, 2017: 1–4. [63] [64] DAI Yuanying, LIU Dong, WU Feng. A convolutional neural network approach for post-processing in HEVC intra coding[C]//Proceedings of the 23rd International Conference on Multimedia Modeling. Reykjavik, Iceland, 2017: 28–39. TODERICI G, O′ MALLEY S M, HWANG S J, et al. Variable rate image compression with recurrent neural networks[EB/OL]. arXiv preprint arXiv: 1511.060 85, 2016. https://arxiv.org/abs/1511.06085 [65] TODERICI G, VINCENT D, JOHNSTON N, et al. Full resolution image compression with recurrent neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA, 2017: 5435–5443. [66] JOHNSTON N, VINCENT D, MINNEN D, et al. Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks[EB/OL]. arXiv preprint arXiv: 1703.101 14, 2017. https://arxiv. org/abs/1703.10114 [67] THEIS L, SHI Wenzhe, CUNNINGHAM A, et al. Lossy image compression with compressive autoencoders [EB/OL]. arXiv preprint arXiv: 1703.003 95, 2017. https://arxiv.org/abs/1703.00395 [68] BALLÉ J, LAPARRA V, SIMONCELLI E P. End-to-end optimization of nonlinear transform codes for perceptual quality[C]//Proceedings of 2016 Picture Coding Symposium. Nuremberg, Germany, 2016: 1–5. [69] AGUSTSSON E, MENTZER F, TSCHANNEN M, et al. Soft-to-hard vector quantization for end-to-end learning compressible representations[C]//Advances in Neural Information Processing Systems. Long Beach, CA, USA, 2017: 1141–1151. [70] LI Mu, ZUO Wangmeng, GU Shuhang, et al. Learning convolutional networks for content-weighted image compression[EB/OL]. arXiv preprint arXiv: 1703.105 53, 2017. https://arxiv.org/abs/1703.10553 [71] RIPPEL O, BOURDEV L. Real-time adaptive image compression[EB/OL]. arXiv preprint arXiv: 1705.058 23, 2017. https://arxiv.org/abs/1705.05823 [72] BAIG M H, KOLTUN V, TORRESANI L. Learning to Inpaint for Image Compression[C]//Advances in Neural Information Processing Systems. Long Beach, CA, USA, 2017: 1246–1255. [73] TIMOFTE R, DE SMET V, VAN GOOL L. A+: adjusted anchored neighborhood regression for fast super-resolution[C]//Asian Conference on Computer Vision. Springer, Cham, 2014: 111−126. [74] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests [75] ·80· 智 能 系 统 学 报 第 14 卷