《智能系统学报》：计算视觉核心问题：自然图像先验建模研究综述（孙必慎、石武祯、姜峰）

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：1.07MB

第14卷第1期智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201804019 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180611.1118.004html 计算视觉核心问题：自然图像先验建模研究综述孙必慎，石武祯2，姜峰2 (1.中国电子科技集团公司第27研究所，河南郑州450005,2.哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨150001) 摘要：视觉先验是计算机视觉的核心问题之一，是认知心理层面、系统神经层面与计算视觉层面研究的交合点，涉及各个层面研究的理解与综合。视觉先验功能模拟方面，以自然图像信息为对象，挖掘自然图像一般性规律并将其数学形式化为可计算的图像模型，为众多图像处理与计算机视觉智能应用提供算法和支撑。本文对自然图像先验建模研究各流派工作进行了全面的剖析，并展示了自然图像先验建模工作在视觉信息增强和编码等方向的前瞻性应用。关键词：计算机视觉；图像先验；稀疏表示：局部平滑：非局部自相似；压缩感知；深度学习；卷积神经网络中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2019)01-0071-11 中文引用格式：孙必慎，石武桢，姜峰.计算视觉核心问题：自然图像先验建模研究综述.智能系统学报，2019,14(1)： 71-81. 英文引用格式：SUN Bishen,SHI Wuzhen,JIANG Feng.Core problem in computer vision:survey of natural image prior models[J].CAAI transactions on intelligent systems,2019,14(1):71-81. Core problem in computer vision:survey of natural image prior models SUN Bishen',SHI Wuzhen',JIANG Feng (1.No.27 Institute,China Electronic Technology Corporation(CETC),Zhengzhou 450005,China;2.School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:One of the core problems in computer vision is that the visual prior is the point of intersection of the cognit- ive psychological level,systematic neural level,and computer vision level,and requires an understanding and synthesis of the three.Simulations of the visual prior function are performed to explore and formalize the general rules for natural images that support various applications in image processing and computer science.In this paper,we comprehensively analyze the work of various schools of natural image priori modeling and discuss the prospective application of natural image prior modeling in visual information enhancement and coding. Keywords:computer vision;image prior;sparse representation;local smoothness;non-local self-similarity;com- pressed sensing;deep learning;convolutional neural network 视觉先验是认知心理层面、系统神经层面与的测量仪器，在自然图像刺激条件下检测人脑神计算视觉层面研究的交合点，涉及各个层面研究经细胞的响应特性，反推大脑对自然图像一股性的理解与综合。根据各领域切入点的不同，对视规律进行归纳与记忆的区域结构及其功能原理。觉先验研究主要可以分为两条路线，即认知心理随着人类对自身视觉系统的研究逐步深入，从初层面与系统神经层面的机理测试以及计算层面的级视皮层到高级视觉区域，都取得了许多重要的功能模拟。视觉先验机理测试方面通过非侵入式研究成果。尽管研究者一致认为初级视皮层收稿日期：2018-04-15.网络出版日期：2018-06-11. 的视觉处理过程受环境统计特性的影响，但怎样基金项目：国家自然科学基金项目(61572155,61672188.61272386)：在两者之间建立准确的数学关系一直是一个难国家重点基础研究发展计划项目(2015CB351804). 通信作者：姜峰.E-mail:fjiang@hit.edu.cn. 题。功能性磁共振成像(functional magnetic reson-

DOI: 10.11992/tis.201804019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180611.1118.004.html 计算视觉核心问题：自然图像先验建模研究综述孙必慎1，石武祯2，姜峰2 （1. 中国电子科技集团公司第 27 研究所，河南郑州 450005; 2. 哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 150001）摘要：视觉先验是计算机视觉的核心问题之一，是认知心理层面、系统神经层面与计算视觉层面研究的交合点，涉及各个层面研究的理解与综合。视觉先验功能模拟方面，以自然图像信息为对象，挖掘自然图像一般性规律并将其数学形式化为可计算的图像模型，为众多图像处理与计算机视觉智能应用提供算法和支撑。本文对自然图像先验建模研究各流派工作进行了全面的剖析，并展示了自然图像先验建模工作在视觉信息增强和编码等方向的前瞻性应用。关键词：计算机视觉；图像先验；稀疏表示；局部平滑；非局部自相似；压缩感知；深度学习；卷积神经网络中图分类号：TP391.4 文献标志码：A 文章编号：1673−4785(2019)01−0071−11 中文引用格式：孙必慎, 石武祯, 姜峰. 计算视觉核心问题：自然图像先验建模研究综述 [J]. 智能系统学报, 2019, 14(1): 71–81. 英文引用格式：SUN Bishen, SHI Wuzhen, JIANG Feng. Core problem in computer vision: survey of natural image prior models[J]. CAAI transactions on intelligent systems, 2019, 14(1): 71–81. Core problem in computer vision: survey of natural image prior models SUN Bishen1 ，SHI Wuzhen2 ，JIANG Feng2 (1. No.27 Institute, China Electronic Technology Corporation (CETC), Zhengzhou 450005, China; 2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: One of the core problems in computer vision is that the visual prior is the point of intersection of the cognitive psychological level, systematic neural level, and computer vision level, and requires an understanding and synthesis of the three. Simulations of the visual prior function are performed to explore and formalize the general rules for natural images that support various applications in image processing and computer science. In this paper, we comprehensively analyze the work of various schools of natural image priori modeling and discuss the prospective application of natural image prior modeling in visual information enhancement and coding. Keywords: computer vision; image prior; sparse representation; local smoothness; non-local self-similarity; compressed sensing; deep learning; convolutional neural network 视觉先验是认知心理层面、系统神经层面与计算视觉层面研究的交合点，涉及各个层面研究的理解与综合。根据各领域切入点的不同，对视觉先验研究主要可以分为两条路线，即认知心理层面与系统神经层面的机理测试以及计算层面的功能模拟。视觉先验机理测试方面通过非侵入式的测量仪器，在自然图像刺激条件下检测人脑神经细胞的响应特性，反推大脑对自然图像一般性规律进行归纳与记忆的区域结构及其功能原理。随着人类对自身视觉系统的研究逐步深入，从初级视皮层到高级视觉区域，都取得了许多重要的研究成果[1-4]。尽管研究者一致认为初级视皮层的视觉处理过程受环境统计特性的影响，但怎样在两者之间建立准确的数学关系一直是一个难题。功能性磁共振成像 (functional magnetic reson- 收稿日期：2018−04−15. 网络出版日期：2018−06−11. 基金项目：国家自然科学基金项目 (61572155，61672188，61272386)；国家重点基础研究发展计划项目 (2015CB351804). 通信作者：姜峰. E-mail：fjiang@hit.edu.cn. 第 14 卷第 1 期智能系统学报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019

·72· 智能系统学报第14卷 ance imaging,fMRI)只能有限地反映大脑皮层局像所含最少成分的统计规律，工作中心可总结为部区域的系统动力，必须从理论上进行抽象，才 2点：如何找到自然图像中的最少成分，以及如何能将“原理”嵌入到我们的工具中去。同时，从描述一个庞大的自然图像集合在此最小成分方向可计算的层面上去解释，是一种合理、必须的选择。上的边缘概率分布。目前的方法面临着共有的问题：统计涨落问题无法规避，不同图像间以及图 1 传统低层计算视觉层面的自然图像先验模型像不同区域之间的统计涨落严重地束缚了自然图像统计先验模型的功能：需要投入大量代价在如视觉先验功能模拟方面，以自然图像为对象，何描述其分布响应情况，描述手段复杂，影响模挖掘自然图像一般性规律并将其数学形式化为可型的学习及后续的优化过程，进一步影响自然图计算的图像模型，主要包括自然图像光滑性先验像统计先验模型的实用性能。模型、自然图像统计规律先验模型、自然图像视自然图像视觉编码稀疏性先验建模源于“有觉编码稀疏性先验模型、自然图像非局部自相似效编码假说”切。现有的稀疏编码方法在图像表模型等，并为众多图像处理与计算机视觉智能应示、物体识别等领域的应用受到了较高计算复杂用y提供算法和支撑。度的约束。不少工作已经开始着手提高稀疏编码自然图像光滑性先验建模的方式是约束图像的效率和鲁棒性82。尽管稀疏概念的一种来源的一阶或高阶导数及其非线性变换，以形成图像出自于滤波器对视觉信息的滤波响应，但最终的处理的正则化能量模型，从而构成基于变分方法关注点却主要在图像块的重构与恢复，并没有很的偏微分方程。当约束取为梯度模的平方时，导多地考虑整幅图像的响应统计，无法提供表示一出经典的热扩散算法：当约束取为梯度模时，导幅完整图像的统计模型，忽略了相似块之间的本出经典的全变分(total variational)Io方法；当约质关系，比如自相似性，导致得到的稀疏编码系束取为梯度的非线性函数时，导出各向异性扩数不够准确；同时，自适应字典学习过程中需要散算法；当约束取为高阶导数的模时，导出高阶求解一个具有非常高计算复杂度的大规模优化问各项异性扩散算法山。这些方法着重刻画了图像题；此外，在编码测量中，为了确保信号的线性投的局部光滑程度，忽略了全局的相似块之间的本影能够保持信号的原始结构，对投影矩阵的设计质关系，比如自相似性关注于图像像素点的一个及稳定性有严格要求（如约束等距性）。多阶邻域的重构与恢复，抹平了图像的细节，不自然图像另一个重要的特性是非局部自相似能有效地给出光滑先验和数据精度项之间的关系。性。Protter等7提出非局部均值(nonlocal means, 自然图像统计规律先验建模的方式是考察自 NLM)的高效先验模型并将其用于图像超分辨，然图像滤波响应率并对其分布进行统计建模。基假设去模糊得到的图像跟观测到的模糊图像同样于Markoy随机场理论，特别是通过Gibbs分布来具有非局部自相似，提出了用来去模糊的基于NLM 建模自然图像滤波响应统计规律的方法，Mum- 的正则项。受NLM启发，基于全图的NLM模型 ford等I2提出的FRAME模型考虑图像MRF建和基于调序的NLM模型29被提出。受到图拉普模中的邻域系统和势函数的选取问题，将传统的拉斯(graph laplacian)理论的启发，Gilboa等Bol根以导数滤波器为基础的平滑性先验进行了推广，据非局部算子定义了变分框架。为了能够取得更将MRF模型推向高维的形态。Freeman等u]提好的性能，自然图像的稀疏性和非局部自相似性出的MRF模型，被应用于构建图像推理的先验模通常联合起来。在文献31]中，最终设计的目标型以及基于样例的纹理合成中。Welling等，提函数由刻画局部稀疏性和非局部自相似性两个正出使用专家乘积模型(product of experts,PoE)去则项组成，进而获得更高的复原图像质量。在文解决高维图像数据的先验概率建模问题。在献[32]中，同时稀疏编码(simultaneous sparse cod- PoE的基础上，Roth等设计了均一性势函数形 ing,SSC)被用来约束图像中相似的图像块在同一式的专家场模型(fields of experts,FoE),弥补了个字典下应该具有相似的稀疏分解，从而使得稀 PoE模型的缺陷，可以学习任意尺寸的自然图像疏编码系数变得更加鲁棒和准确。同理，利用相的先验，后续工作（如文献[16）通过贝叶斯最小同的思路，将非局部图分别跟MS模型、MRF模均方误差方法取代最大后验概率方法计算恢复图型、AR模型、KR模型结合，就会得到非局部像，从一定层面克服了到目前为止MRF的一些缺 MS模型倒、非局部MRF模型、非局部AR模型闵点。自然图像统计规律先验建模研究的是自然图以及非局部KR模型。通过分析总结不难发现

ance imaging，fMRI) 只能有限地反映大脑皮层局部区域的系统动力，必须从理论上进行抽象，才能将“原理”嵌入到我们的工具中去[5]。同时，从可计算的层面上去解释，是一种合理、必须的选择。 1 传统低层计算视觉层面的自然图像先验模型视觉先验功能模拟方面，以自然图像为对象，挖掘自然图像一般性规律并将其数学形式化为可计算的图像模型，主要包括自然图像光滑性先验模型、自然图像统计规律先验模型、自然图像视觉编码稀疏性先验模型、自然图像非局部自相似模型等，并为众多图像处理与计算机视觉智能应用 [6-9] 提供算法和支撑。自然图像光滑性先验建模的方式是约束图像的一阶或高阶导数及其非线性变换，以形成图像处理的正则化能量模型，从而构成基于变分方法的偏微分方程。当约束取为梯度模的平方时，导出经典的热扩散算法；当约束取为梯度模时，导出经典的全变分 (total variational)[10] 方法；当约束取为梯度的非线性函数时，导出各向异性扩散算法；当约束取为高阶导数的模时，导出高阶各项异性扩散算法[11] 。这些方法着重刻画了图像的局部光滑程度，忽略了全局的相似块之间的本质关系，比如自相似性关注于图像像素点的一个多阶邻域的重构与恢复，抹平了图像的细节，不能有效地给出光滑先验和数据精度项之间的关系。自然图像统计规律先验建模的方式是考察自然图像滤波响应率并对其分布进行统计建模。基于 Markov 随机场理论，特别是通过 Gibbs 分布来建模自然图像滤波响应统计规律的方法，Mumford 等 [12] 提出的 FRAME 模型考虑图像 MRF 建模中的邻域系统和势函数的选取问题，将传统的以导数滤波器为基础的平滑性先验进行了推广，将 MRF 模型推向高维的形态。Freeman 等 [13] 提出的 MRF 模型，被应用于构建图像推理的先验模型以及基于样例的纹理合成中。Welling 等 [14] 提出使用专家乘积模型 (product of experts，PoE) 去解决高维图像数据的先验概率建模问题。在 PoE 的基础上，Roth 等 [15] 设计了均一性势函数形式的专家场模型 (fields of experts，FoE)，弥补了 PoE 模型的缺陷，可以学习任意尺寸的自然图像的先验，后续工作 (如文献 [16]) 通过贝叶斯最小均方误差方法取代最大后验概率方法计算恢复图像，从一定层面克服了到目前为止 MRF 的一些缺点。自然图像统计规律先验建模研究的是自然图像所含最少成分的统计规律，工作中心可总结为 2 点：如何找到自然图像中的最少成分，以及如何描述一个庞大的自然图像集合在此最小成分方向上的边缘概率分布。目前的方法面临着共有的问题：统计涨落问题无法规避，不同图像间以及图像不同区域之间的统计涨落严重地束缚了自然图像统计先验模型的功能；需要投入大量代价在如何描述其分布响应情况，描述手段复杂，影响模型的学习及后续的优化过程，进一步影响自然图像统计先验模型的实用性能。自然图像视觉编码稀疏性先验建模源于“有效编码假说” [17]。现有的稀疏编码方法在图像表示、物体识别等领域的应用受到了较高计算复杂度的约束。不少工作已经开始着手提高稀疏编码的效率和鲁棒性[18-26]。尽管稀疏概念的一种来源出自于滤波器对视觉信息的滤波响应，但最终的关注点却主要在图像块的重构与恢复，并没有很多地考虑整幅图像的响应统计，无法提供表示一幅完整图像的统计模型，忽略了相似块之间的本质关系，比如自相似性，导致得到的稀疏编码系数不够准确；同时，自适应字典学习过程中需要求解一个具有非常高计算复杂度的大规模优化问题；此外，在编码测量中，为了确保信号的线性投影能够保持信号的原始结构，对投影矩阵的设计及稳定性有严格要求 (如约束等距性)。自然图像另一个重要的特性是非局部自相似性。Protter 等 [27] 提出非局部均值 (nonlocal means, NLM) 的高效先验模型并将其用于图像超分辨，假设去模糊得到的图像跟观测到的模糊图像同样具有非局部自相似，提出了用来去模糊的基于 NLM 的正则项。受 NLM 启发，基于全图的 NLM 模型[28] 和基于调序的 NLM 模型[29] 被提出。受到图拉普拉斯 (graph laplacian) 理论的启发，Gilboa 等 [30] 根据非局部算子定义了变分框架。为了能够取得更好的性能，自然图像的稀疏性和非局部自相似性通常联合起来。在文献 [31] 中，最终设计的目标函数由刻画局部稀疏性和非局部自相似性两个正则项组成，进而获得更高的复原图像质量。在文献 [32] 中，同时稀疏编码 (simultaneous sparse coding，SSC) 被用来约束图像中相似的图像块在同一个字典下应该具有相似的稀疏分解，从而使得稀疏编码系数变得更加鲁棒和准确。同理，利用相同的思路，将非局部图分别跟 MS 模型、MRF 模型、 AR 模型、 KR 模型结合，就会得到非局部 MS 模型[33] 、非局部 MRF 模型[34] 、非局部 AR 模型[35] 以及非局部 KR 模型。通过分析总结不难发现， ·72· 智能系统学报第 14 卷

第1期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述。73· 目前以上非局部模型利用图像非局部自相似性都版本的SRCNN。改进版本的网络通过在输出端是在原来局部模型的基础之上加人了非局部权使用转置卷积层实现图像的上采样，使得低分辨重。但通过加权的方式就不可避免地导致结果中图像可以直接作为网络的输入，从而降低了计算出现扰乱或不准确现象。所以寻找一个能够充分复杂度。为了克服较深的网络训练过程中收敛困利用图像非局部自相似性的模型，而不是仅仅采难的问题，Kim等B提出学习图像的残差来加速用加权的方式，在图像处理领域仍然是一个非常网络的收敛，并且通过增加网络深度来增强网络重要的挑战。的感受野和非线性，从而改进网络重建的性能。以上传统的低层计算视觉层面的先验功能建为了训练出更加有效的网络，一些技术如残差学习侧模方法，已广泛用于各种低层计算机视觉问题当批正则化)、梯度裁剪1等相继被提出，这些方中，都取得了一定显著的效果。近三四年，尽管法改善了深度网络的训练过程，使得网络容易收敛。在以上的方法流派上陆续有新方法出现，但几乎另外，为了在深度网络中融入传统图像先验都是在显著增加计算复杂程度的代价下，带来极信息来改进重建效果，已有一些方法采用正则化为有限的性能的提升。显然，对于传统的低层计求解优化问题的思路，将不同的自然图像先验信算视觉层面的先验功能建模方法来讲，各种流派息，如局部平滑、非局部自相似和稀疏表示等，用和方法都面临着巨大的挑战。对于这些思想的回于设计网络的目标函数。Wang等使用深度网顾，不难有以下认识。络来模拟基于稀疏表示方法的求解过程，实现了 1)传统的低层计算视觉层面的先验功能建模深度网络和稀疏表示方法的有效结合。Gu等] 方法对于自然图像一般性规律的认识、解释较为也将稀疏编码融人深度网络，提出了一个卷积稀片面和孤立，表现为不同的数学形式和理论解疏编码网络，解决了重叠块间像素的一致性问释，对于方法与方法之间的内在本质关联，不同题。Liang等认为直接训练SRCNN模型非常先验之间的耦合关系，尽管已有的一些工作研究耗时，因此，在网络末端引入了Sobel算子提取的了不同先验之间的协作方法，但找出一种可以囊边缘信息。实验数据表明，引人的边缘先验加速括所有孤立规律的数学建模形式几乎是不可能了网络的收敛过程，而且一定程度上改善了重建的。以上这些原因，实际上对于这些先验方法和效果。与此同时，随着对抗式网络(generative ad- 思想的综合运用造成了较大的障碍。 versarial network,GAN)在监督学习中的兴起， 2)对于不同类别和不同范畴的自然图像，不 Ledig等和Johnson等7将GAN引入到超分辨同的先验模型作用效果也是不同的。这一点在原率重建问题中，通过共同训练生成网络和对抗网来的自然图像建模工作中，并没有被客观地重视络，大大提升了超分辨率重建性能，重建后的图和研究。从以上对各流派的分析，如果将自然图像在视觉效果上得到显著提升。像空间就信息熵进行划分，各种先验方法和流派这些工作充分说明并验证深度学习对于低层在不同的等熵子空间明显会体现出不同效能。不计算机视觉层面先验功能模拟有着极大的潜力，难得出，在面对真实应用或对于更大规模的视觉但是这方面的研究总体还处于起步阶段，很多问信息，如视频编码，这个问题会更加严重。题尚待解决。比如：深度网络结构中哪些神经元对最终的图像复原效果有效的问题尚没有人关注 2基于深度学习重建与增强方法过：现在的工作发现底层的视觉任务中非残差学低层计算视觉层面，第一个开拓性的基于深习很难训练得到较深的网络，但是已有的基于残度学习的图像重建方法是Dong等B6-3刃提出的单差学习的工作也只是简单地将映射目标由原来的图像超分辨网络SRCNN。这个网络通过模拟基目标图像变成估计残差而已，在什么条件下可以于稀疏表示的单图像超分辨方法的低分辨与高分做到非残差学习也可以训练一个很深的网络，以辨图像间的映射关系，实现低分辨图像到高分辨及更加有效的残差学习方式都是有待解决的问图像的端到端映射。得益于深度网络强大的学习题；由于图像先验对图像复原效果有很大的帮能力，基于深度学习的重建和增强方法在具有较助，如何有效地融合深度学习技术和自然图像先低的计算复杂度的同时，重建和增强效果显著提验来改善图像复原质量也是值得探讨的。高。紧随其后，一系列基于深度学习的图像重建 3基于自然图像先验模型的编码框架和增强方法相继提出。为了降低网络的复杂度并且进一步改进网络的性能，Dong等31提出快速 20世纪80年代，ISO、IEC、ITU三大国际标

目前以上非局部模型利用图像非局部自相似性都是在原来局部模型的基础之上加入了非局部权重。但通过加权的方式就不可避免地导致结果中出现扰乱或不准确现象。所以寻找一个能够充分利用图像非局部自相似性的模型，而不是仅仅采用加权的方式，在图像处理领域仍然是一个非常重要的挑战。以上传统的低层计算视觉层面的先验功能建模方法，已广泛用于各种低层计算机视觉问题当中，都取得了一定显著的效果。近三四年，尽管在以上的方法流派上陆续有新方法出现，但几乎都是在显著增加计算复杂程度的代价下，带来极为有限的性能的提升。显然，对于传统的低层计算视觉层面的先验功能建模方法来讲，各种流派和方法都面临着巨大的挑战。对于这些思想的回顾，不难有以下认识。 1) 传统的低层计算视觉层面的先验功能建模方法对于自然图像一般性规律的认识、解释较为片面和孤立，表现为不同的数学形式和理论解释，对于方法与方法之间的内在本质关联，不同先验之间的耦合关系，尽管已有的一些工作研究了不同先验之间的协作方法，但找出一种可以囊括所有孤立规律的数学建模形式几乎是不可能的。以上这些原因，实际上对于这些先验方法和思想的综合运用造成了较大的障碍。 2) 对于不同类别和不同范畴的自然图像，不同的先验模型作用效果也是不同的。这一点在原来的自然图像建模工作中，并没有被客观地重视和研究。从以上对各流派的分析，如果将自然图像空间就信息熵进行划分，各种先验方法和流派在不同的等熵子空间明显会体现出不同效能。不难得出，在面对真实应用或对于更大规模的视觉信息，如视频编码，这个问题会更加严重。 2 基于深度学习重建与增强方法低层计算视觉层面，第一个开拓性的基于深度学习的图像重建方法是 Dong 等 [36-37] 提出的单图像超分辨网络 SRCNN。这个网络通过模拟基于稀疏表示的单图像超分辨方法的低分辨与高分辨图像间的映射关系，实现低分辨图像到高分辨图像的端到端映射。得益于深度网络强大的学习能力，基于深度学习的重建和增强方法在具有较低的计算复杂度的同时，重建和增强效果显著提高。紧随其后，一系列基于深度学习的图像重建和增强方法相继提出。为了降低网络的复杂度并且进一步改进网络的性能，Dong 等 [38] 提出快速版本的 SRCNN。改进版本的网络通过在输出端使用转置卷积层实现图像的上采样，使得低分辨图像可以直接作为网络的输入，从而降低了计算复杂度。为了克服较深的网络训练过程中收敛困难的问题，Kim 等 [39] 提出学习图像的残差来加速网络的收敛，并且通过增加网络深度来增强网络的感受野和非线性，从而改进网络重建的性能。为了训练出更加有效的网络，一些技术如残差学习[40] 、批正则化[41] 、梯度裁剪[39] 等相继被提出，这些方法改善了深度网络的训练过程，使得网络容易收敛。另外，为了在深度网络中融入传统图像先验信息来改进重建效果，已有一些方法采用正则化求解优化问题的思路，将不同的自然图像先验信息，如局部平滑、非局部自相似和稀疏表示等，用于设计网络的目标函数。Wang 等 [42] 使用深度网络来模拟基于稀疏表示方法的求解过程，实现了深度网络和稀疏表示方法的有效结合。Gu 等 [43] 也将稀疏编码融入深度网络，提出了一个卷积稀疏编码网络，解决了重叠块间像素的一致性问题。Liang 等 [44] 认为直接训练 SRCNN 模型非常耗时，因此，在网络末端引入了 Sobel 算子提取的边缘信息。实验数据表明，引入的边缘先验加速了网络的收敛过程，而且一定程度上改善了重建效果。与此同时，随着对抗式网络（generative adversarial network, GAN） [45] 在监督学习中的兴起， Ledig 等 [46] 和 Johnson 等 [47] 将 GAN 引入到超分辨率重建问题中，通过共同训练生成网络和对抗网络，大大提升了超分辨率重建性能，重建后的图像在视觉效果上得到显著提升。这些工作充分说明并验证深度学习对于低层计算机视觉层面先验功能模拟有着极大的潜力，但是这方面的研究总体还处于起步阶段，很多问题尚待解决。比如：深度网络结构中哪些神经元对最终的图像复原效果有效的问题尚没有人关注过；现在的工作发现底层的视觉任务中非残差学习很难训练得到较深的网络，但是已有的基于残差学习的工作也只是简单地将映射目标由原来的目标图像变成估计残差而已，在什么条件下可以做到非残差学习也可以训练一个很深的网络，以及更加有效的残差学习方式都是有待解决的问题；由于图像先验对图像复原效果有很大的帮助，如何有效地融合深度学习技术和自然图像先验来改善图像复原质量也是值得探讨的。 3 基于自然图像先验模型的编码框架 20 世纪 80 年代，ISO、IEC、ITU 三大国际标第 1 期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述 ·73·

·74· 智能系统学报第14卷准组织开始制定数字视频编码标准，形成了基于兼容的程度，可以将基于深度学习的图像视频编预测（包括帧内、帧间、视间）、变换（变换+量码分为两大类：与现有编码框架兼容的图像视频化)和嫡编码等三大类关键技术的混合编码框编码和以深度学习为核心的图像视频编码。架，制定了以MPEG-2为代表的第一代视频编码与现有编码框架兼容的图像视频编码方面，标准。2003年，MPEG-4AVCH.264第二代国际 Jiang等s%提出了兼容传统图像压缩标准的深度标准出台，实现了压缩效率翻番，中国同期也开学习压缩框架，在编码器前端和解码器后端分别发制定了视频编码国际标准AVS。进而为了进加入卷积神经网络对编解码器联合优化，并给出一步提高视频编码效率，IEO/IEC和ITU-T推出了前后两个神经网络联合训练的算法，大大提高了HEVC/H.265视频编码标准。随着硬件技术的了编解码器的压缩性能。Zhao等s刀进一步提出飞速发展，超高清视频对视频编码技术提出了新了通过学习一个虚拟编解码器神经网络来近似从需求。代表性的超高清编码方法有四叉树编码单原始图像的有效描述图像到后处理压缩图像的投元划分、预测和变换（已被HEVC和AVS2编码标影，这使得训练网络的时候梯度可以从后处理神准采用)、基于超分辨率的编码。近年来图像视频经网络有效地反向传播到特征描述神经网络。编码的研究热点还包括无线网络视频编码以及多 HEVC(high efficiency video coding)sI与深度学习视点视频编码等。相结合的编码框架也开始受到研究者们的关注，在基于自然图像先验模型的编码方面，我们该类编码框架将深度学习技术引入到HEVC中，关注近期视觉先验知识同编码框架融合、合理的是原有编码框架的扩充。目前，深度学习技术在视觉先验知识介入的途径与方式、以及图像和视 HEVC中的应用涉及帧内预测s9,、帧间预测[6o 频在采集和显示过程中的增强等问题的研究进 CU预测模式决策、变换6例、熵编码6创、后处理6 展。在Stankovic等4提出的视频感知编码方案等技术环节。帧内预测与帧间预测是视频编码框中，视频帧按关键帧和非关键帧分类，分别以传架中最核心的模块之一，预测又是深度学习技术统和压缩感知方法采样，在保证重构质量的前提擅长的。对于帧内预测，Li等9使用了全连接神下最高节省50%的采样量。为了克服只依赖稀疏经网络，利用更多的上下文信息来预测当前块的性而没有考虑时间域运动的问题，Park等9提出像素值，然而这种方法增加了一种新的预测模在解码端使用运动估计和补偿的技术。Prades等网式，与原有的编码框架兼容性较差，并且这种全提出针对CVS的分布式字典方案：关键帧采用传连接神经网络在一定程度上忽略了图像的局部平统技术编解码，非关键帧分块压缩采样及量化。滑特性，缺少局部感受野的考虑，导致预测的效在解码端，由已解码的关键帧获得字典，在字典果不稳定。对于帧间预测，HEVC一旦选择了帧的辅助下恢复非关键帧。在Chen等s)提出的自间预测的一种模式，就会完全依据参考帧来预测适应字典的方案中，关键帧提取基于帧的压缩感当前像素块，这种预测模式只是参考了时域信知观测值，压缩感知帧提取基于块的压缩感知观息，从而完全忽略了空域信息的参考价值。Yan 测值；在解码端，从已经重建的相邻帧及生成的等6利用卷积神经网络做分像素插值，在一定程边信息中学习得到字典。帧块的重构都能被表示度上提升了帧间预测的准确性，这种通过改进像成最小范数问题，利用可分离逼近算法(SpaRSA)网素插值来提升预测质量的方法忽略了空域上下来稀疏重构。这些方法在构建码本方面都是使用文，只参考了时域的信息。降质图像块作为寻找高质量图像块的索引重建图以深度学习为核心的图像视频编码主要包括像，这是一个病态无确定解问题，极易造成误匹自编码器和循环神经网络(recurrent neural network. 配，最终效果很大程度取决于对图像先验知识的 RNN)这两种常用的结构。Toderici等s提出了掌握与介入程度s3s约一种基于循环神经网络的图像压缩框架，这是一对于图像视频编码，深度学习技术已展现出种渐进式的编码方法：在此基础上，又提出一种了强大的生命力。一方面，深度学习技术可以把全分辨图像压缩的循环神经网络框架【66] 编解码器进行联合优化，使得编解码器性能达到该框架包含基于RNN的编码器和解码器及一个最优。另一方面，利用深度学习技术可以提供多基于神经网络的嫡编码器，并利用了感知误差，样化的编解码方法，方便针对不同的任务对图像在GRU和ResNet的基础上提出了新的深度结视频实现智能编解码。根据与现有编码框架相互构，取得了很好的重建效果。随后，Johnston等s列

准组织开始制定数字视频编码标准，形成了基于预测 (包括帧内、帧间、视间)、变换 (变换+量化) 和熵编码等三大类关键技术的混合编码框架，制定了以 MPEG-2 为代表的第一代视频编码标准。2003 年，MPEG-4 AVC/H.264 第二代国际标准出台，实现了压缩效率翻番，中国同期也开发制定了视频编码国际标准 AVS。进而为了进一步提高视频编码效率，IEO/IEC 和 ITU-T 推出了 HEVC/H.265 视频编码标准。随着硬件技术的飞速发展，超高清视频对视频编码技术提出了新需求。代表性的超高清编码方法有四叉树编码单元划分、预测和变换 (已被 HEVC 和 AVS2 编码标准采用)、基于超分辨率的编码。近年来图像视频编码的研究热点还包括无线网络视频编码以及多视点视频编码等。在基于自然图像先验模型的编码方面，我们关注近期视觉先验知识同编码框架融合、合理的视觉先验知识介入的途径与方式、以及图像和视频在采集和显示过程中的增强等问题的研究进展。在 Stankovic 等 [48] 提出的视频感知编码方案中，视频帧按关键帧和非关键帧分类，分别以传统和压缩感知方法采样，在保证重构质量的前提下最高节省 50%的采样量。为了克服只依赖稀疏性而没有考虑时间域运动的问题，Park 等 [49] 提出在解码端使用运动估计和补偿的技术。Prades 等 [50] 提出针对 CVS 的分布式字典方案：关键帧采用传统技术编解码，非关键帧分块压缩采样及量化。在解码端，由已解码的关键帧获得字典，在字典的辅助下恢复非关键帧。在 Chen 等 [51] 提出的自适应字典的方案中，关键帧提取基于帧的压缩感知观测值，压缩感知帧提取基于块的压缩感知观测值；在解码端，从已经重建的相邻帧及生成的边信息中学习得到字典。帧块的重构都能被表示成最小范数问题，利用可分离逼近算法 (SpaRSA)[52] 来稀疏重构。这些方法在构建码本方面都是使用降质图像块作为寻找高质量图像块的索引重建图像，这是一个病态无确定解问题，极易造成误匹配，最终效果很大程度取决于对图像先验知识的掌握与介入程度[53-55]。对于图像视频编码，深度学习技术已展现出了强大的生命力。一方面，深度学习技术可以把编解码器进行联合优化，使得编解码器性能达到最优。另一方面，利用深度学习技术可以提供多样化的编解码方法，方便针对不同的任务对图像视频实现智能编解码。根据与现有编码框架相互兼容的程度，可以将基于深度学习的图像视频编码分为两大类：与现有编码框架兼容的图像视频编码和以深度学习为核心的图像视频编码。与现有编码框架兼容的图像视频编码方面， Jiang 等 [56] 提出了兼容传统图像压缩标准的深度学习压缩框架，在编码器前端和解码器后端分别加入卷积神经网络对编解码器联合优化，并给出了前后两个神经网络联合训练的算法，大大提高了编解码器的压缩性能。Zhao 等 [57] 进一步提出了通过学习一个虚拟编解码器神经网络来近似从原始图像的有效描述图像到后处理压缩图像的投影，这使得训练网络的时候梯度可以从后处理神经网络有效地反向传播到特征描述神经网络。 HEVC (high efficiency video coding)[58] 与深度学习相结合的编码框架也开始受到研究者们的关注，该类编码框架将深度学习技术引入到 HEVC 中，是原有编码框架的扩充。目前，深度学习技术在 HEVC 中的应用涉及帧内预测[59] 、帧间预测[60] 、 CU 预测模式决策[61] 、变换[62] 、熵编码[63] 、后处理[64] 等技术环节。帧内预测与帧间预测是视频编码框架中最核心的模块之一，预测又是深度学习技术擅长的。对于帧内预测，Li 等 [59] 使用了全连接神经网络，利用更多的上下文信息来预测当前块的像素值，然而这种方法增加了一种新的预测模式，与原有的编码框架兼容性较差，并且这种全连接神经网络在一定程度上忽略了图像的局部平滑特性，缺少局部感受野的考虑，导致预测的效果不稳定。对于帧间预测，HEVC 一旦选择了帧间预测的一种模式，就会完全依据参考帧来预测当前像素块，这种预测模式只是参考了时域信息，从而完全忽略了空域信息的参考价值。Yan 等 [60] 利用卷积神经网络做分像素插值，在一定程度上提升了帧间预测的准确性，这种通过改进像素插值来提升预测质量的方法忽略了空域上下文，只参考了时域的信息。以深度学习为核心的图像视频编码主要包括自编码器和循环神经网络 (recurrent neural network, RNN) 这两种常用的结构。Toderici 等 [65] 提出了一种基于循环神经网络的图像压缩框架，这是一种渐进式的编码方法；在此基础上，又提出一种全分辨图像压缩的循环神经网络框架 [ 6 6 ] ，该框架包含基于 RNN 的编码器和解码器及一个基于神经网络的熵编码器，并利用了感知误差，在 GRU 和 ResNet 的基础上提出了新的深度结构，取得了很好的重建效果。随后，Johnston 等 [67] ·74· 智能系统学报第 14 卷

第1期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述 ·75· 在之前工作的基础上对网络结构进行了改进。最度学习的方法SRCNN!%、SCNm、FSRCNN。前近，Theis等6和Balle等6分别提出了一种基于人的工作表明充分利用图像的多尺度信息可以有神经网络的编解码框架。Theis等6为了有效地效改善图像超分辨的效果。但是SRCNNI?6 估计编码系数的分布和比特率，引入了一个高斯 SCN、FSRCNN7I都没有考虑到多尺度信息。多尺度混合模型(gaussian scale mixture),实现了有 Shi等网提出构建基于膨胀卷积的inception模块效的码率控制。在Bale等69的网络中，由于受来学习多尺度信息。到生物神经元的启发，采用了联合非线性来实现膨胀卷积可以定义为局部增益的控制。如何有效地量化也是此类问题中一个具有挑战性的问题，Agustsson等0在连续 (Fkp)=∑Fsk@ 膨胀卷积是先对卷积核进行不同尺度的膨胀松弛的量化和熵的基础上，提出了一种Soft-to- 之后再与输入图像进行卷积操作。具体来说， Hard量化方法。由于图像局部内容的不相似性， Li等通过引入重要性图(importance map)提出 d度膨胀卷积就是在进行卷积操作之前先在滤波了一种基于内容自适应的量化方法。受到对抗神器核的元素之间插入d-1个0得到新的滤波器核经网络的启发，Rippel等2引入了对抗训练模再与输入图像进行卷积操作。因为插入了多个块，有效地提升了重建效果。随着Inpainting相关 0,所以不同膨胀度的卷积就像对图像进行降采样技术的发展，基于Inpainting的压缩框架开始受到得到小尺度的图像再进行卷积一样。因此，不同研究者们的关注，Baig等1利用深度学习技术结膨胀度的卷积学习到不同尺度的信息，然后再将合Inpainting理念提出一个新的图像压缩框架，该这些不同尺度的信息进行融合就可以达到对多尺框架也是基于一种渐进式重建的思想。度信息的有效利用。仿照GoogLeNet提出的inception模块，可以 4自然图像先验建模应用示例构建基于膨胀卷积的多尺度学习inception模块，本节采用两个例子来展示自然图像先验图1展示了基于膨胀卷积的inception模块与Goog 建模在视觉信息增强和编码领域的前瞻性应用。 LeNet提出的inception模块的对比。GoogLeNet 4.1 基于多尺度深度网络的单图像超分辨的inception模块解决的是滤波器尺寸的选择问单图像超分辨是一个经典的却仍然很热门的题，而基于膨胀卷积的inception模块更希望利用研究方向。很多单图像超分辨方法已经被提出，不同尺度的输入信息。因此基于膨胀卷积的in- 例如非深度学习方法A+I、SRF1,以及基于深 ception模块具有利用多尺度信息的性质。串联串联 1×1卷积 3×3卷积 5x5卷积 1×1卷积 1-d3×3卷积 2-d3×3卷积 3-d3×3卷积 1×1卷积 1×1卷积 3×3最大值池化前一层前一层 (a)基于膨胀卷积的inception模块 (b)GoogLeNet提出的inception模块图1基于膨胀卷积的起始模块与GoogLeNet提出的起始模块的对比 Fig.1 Comparison between the inception module based on dilated convolution and the inception in GoogLeNet 利用基于膨胀卷积的inception模块来学习多像来加快网络收敛速度以及改善网络性能。尺度信息，可以构建有效的深度网络（命名为 MSSRNet与多个流行的单图像超分辨方法进行 MSSRNet)进行单图像超分辨方法，如图2所示。定量比较的结果如表1所示。表1给出了不同方概括起来，MSSRNet由若干个基于膨胀卷积的in- 法在3个数据库(Set5、Set14和BSD200)中3种 ception模块级联构成端到端的网络来学习图像残放大倍数（分别放大2倍、3倍和4倍）平均差。这个网络的特点是：利用基于膨胀卷积的in- PSNR结果。如表1所示，MSSRNet在3个数据 ception模块来学习多尺度信息；通过级联多个模库中的3种放大倍数都取得最佳的重建效果。块来增加网络深度来达到增加网络感受野大小和关于该方法的更多具体的细节，请读者参考文非线性；通过学习残差而不是直接学习高分辨图献[79例

在之前工作的基础上对网络结构进行了改进。最近，Theis 等 [68]和 Balle 等 [69] 分别提出了一种基于神经网络的编解码框架。Theis 等 [68] 为了有效地估计编码系数的分布和比特率，引入了一个高斯多尺度混合模型 (gaussian scale mixture)，实现了有效的码率控制。在 Balle 等 [69] 的网络中，由于受到生物神经元的启发，采用了联合非线性来实现局部增益的控制。如何有效地量化也是此类问题中一个具有挑战性的问题，Agustsson 等 [70] 在连续松弛的量化和熵的基础上，提出了一种 Soft-toHard 量化方法。由于图像局部内容的不相似性， Li 等 [71] 通过引入重要性图 (importance map) 提出了一种基于内容自适应的量化方法。受到对抗神经网络的启发，Rippel 等 [72] 引入了对抗训练模块，有效地提升了重建效果。随着 Inpainting 相关技术的发展，基于 Inpainting 的压缩框架开始受到研究者们的关注，Baig 等 [73] 利用深度学习技术结合 Inpainting 理念提出一个新的图像压缩框架，该框架也是基于一种渐进式重建的思想。 4 自然图像先验建模应用示例本节采用两个例子来展示自然图像先验建模在视觉信息增强和编码领域的前瞻性应用。 4.1 基于多尺度深度网络的单图像超分辨单图像超分辨是一个经典的却仍然很热门的研究方向。很多单图像超分辨方法已经被提出，例如非深度学习方法 A+[74] 、SRF[75] ，以及基于深度学习的方法 SRCNN[76] 、SCN[77] 、FSRCNN[78]。前人的工作表明充分利用图像的多尺度信息可以有效改善图像超分辨的效果。但是 SRCNN[ 7 6 ] 、 SCN[77] 、FSRCNN[78] 都没有考虑到多尺度信息。 Shi 等 [79] 提出构建基于膨胀卷积的 inception 模块来学习多尺度信息。膨胀卷积可以定义为 (F∗lk) (p) = ∑ s+lt F (s) k (t) 膨胀卷积是先对卷积核进行不同尺度的膨胀之后再与输入图像进行卷积操作。具体来说， d 度膨胀卷积就是在进行卷积操作之前先在滤波器核的元素之间插入 d-1 个 0 得到新的滤波器核再与输入图像进行卷积操作。因为插入了多个 0，所以不同膨胀度的卷积就像对图像进行降采样得到小尺度的图像再进行卷积一样。因此，不同膨胀度的卷积学习到不同尺度的信息，然后再将这些不同尺度的信息进行融合就可以达到对多尺度信息的有效利用。仿照 GoogLeNet 提出的 inception 模块，可以构建基于膨胀卷积的多尺度学习 inception 模块。图 1 展示了基于膨胀卷积的 inception 模块与 GoogLeNet 提出的 inception 模块的对比。GoogLeNet 的 inception 模块解决的是滤波器尺寸的选择问题，而基于膨胀卷积的 inception 模块更希望利用不同尺度的输入信息。因此基于膨胀卷积的 inception 模块具有利用多尺度信息的性质。利用基于膨胀卷积的 inception 模块来学习多尺度信息，可以构建有效的深度网络 (命名为 MSSRNet) 进行单图像超分辨方法，如图 2 所示。概括起来，MSSRNet 由若干个基于膨胀卷积的 inception 模块级联构成端到端的网络来学习图像残差。这个网络的特点是：利用基于膨胀卷积的 inception 模块来学习多尺度信息；通过级联多个模块来增加网络深度来达到增加网络感受野大小和非线性；通过学习残差而不是直接学习高分辨图像来加快网络收敛速度以及改善网络性能。 MSSRNet 与多个流行的单图像超分辨方法进行定量比较的结果如表 1 所示。表 1 给出了不同方法在 3 个数据库 (Set5、Set14 和 BSD200) 中 3 种放大倍数 (分别放大 2 倍、 3 倍和 4 倍 ) 平均 PSNR 结果。如表 1 所示，MSSRNet 在 3 个数据库中的 3 种放大倍数都取得最佳的重建效果。关于该方法的更多具体的细节，请读者参考文献 [79]。串联串联 1-d 3×3 卷积 2-d 3×3 卷积 1×1 卷积 1×1 卷积 1×1 卷积前一层 1×1 卷积 3×3 卷积 3×3 最大值池化 5×5 卷积前一层 3-d 3×3 卷积 (a) 基于膨胀卷积的 inception 模块 (b) GoogLeNet 提出的 inception 模块图 1 基于膨胀卷积的起始模块与 GoogLeNet 提出的起始模块的对比 Fig. 1 Comparison between the inception module based on dilated convolution and the inception in GoogLeNet 第 1 期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述 ·75·

·76· 智能系统学报第14卷低分辨图像高分辨图像 →000 inception inception 模块模块图2基于膨胀卷积起始模块的单图像超分辨网络结构 Fig.2 Single-image super-resolution network structure based on the inception module based on dilatied 表1不同方法在3个标准数据集上3种放大倍数的定量比较 Table 1 Quantitative comparison between various methods based on three benchmarks over three magnifications 数据集放大倍数双三次插值 A+7 SRFI75I SRCNNt阿 SCNIm FSRCNN79 MSSRNet网 33.66/0.929936.55/0.954436.87/0.955636.34/0.952136.76/0.9545 37.00/0.955837.33/0.9581 Set5 30.39/0.929932.59/0.9088 32.71/0.909832.39/0.903333.04/0.9136 33.16/0.914033.38/0.9178 4 28.42/0.8104 30.28/0.8603 30.35/0.8600 30.09/0.8503 30.82/0.872830.71/0.8657 31.10/0.8777 2 30.23/0.868732.28/0.905632.51/0.907432.18/0.903932.48/0.906732.63/0.908832.89/0.9117 Set14 3 27.54/0.7736 29.13/0.8188 29.23/0.820629.00/0.814529.37/0.8226 29.43/0.8242 29.57/0.8282 26.00/0.701927.32/0.7471 27.41/0.749727.20/0.741327.62/0.757127.59/0.7535 27.83/0.7631 2 29.70/0.862531.44/0.903131.65/0.905331.38/0.928731.63/0.904831.80/0.9074 32.08/0.9118 BSD200 27.26/0.763828.36/0.807828.45/0.809528.28/0.803828.54/0.811928.60/0.813728.78/0.8188 25.97/0.694926.83/0.735926.89/0.736826.73/0.729127.02/0.743426.98/0.739827.17/0.7489 平均值 28.80/0.815130.53/0.8491 30.67/0.850530.39/0.847430.81/0.854230.88/0.853731.13/0.8596 4.2基于深度网络的快速准确的压缩采样重建图4给出了基于深度网络的压缩感知方法与尽管压缩感知技术有很好的应用前景，最近传统的BCS-SPL(block based compressed sampling 几年却发展非常缓慢，其中一个主要原因是之前 and smoothed projected landweber)方法的对比。如的压缩重建算法往往需要一个非常复杂的解优化图所示，BCS-SPL算法包括3个过程：压缩采样、过程，重建速度非常慢而影响其实用性。如图3 初始重构和非线性信号重构。所示，传统的方法DWT0、TVU、MH、CoSI 在BCS中，一个图像会被裁切为B×B大小的和GSR8运行速度非常慢，因此研究快速的压缩图像块，然后用一个合适大小的测量矩阵进行采采样和重建算法显得非常必要。经过这么多年的样。如果采样率为MIN,每个块需要ns=LMIN.B2] 发展，采样矩阵的设计以及快速压缩重建算法依个采样值。因此采样矩阵中B是一个s×B2的矩然是压缩感知技术的两个核心问题。Shi等8到阵。假设x是第j块的向量，则相应的测量值可提出使用深度网络(CSNet)来解决这两个问题，以表示为y=中x。这就实现了图像的压缩采样也就是用深度网络来学习一个高效的采样算子，过程。另一个需要解决的问题是，在给定采样值以及设计一个快速却重建效果好的网络实现图像的情况下，怎么将其准确恢复出原来的图像。原快速端到端重建。来的BCS-SPL方法使用最小均方误差线性估计 3 32 CSNet 来估计初始解。这个初始重构过程可以表示为元=市y财 GSR 号29 .Cos MH D.-R..O](PoR.D) 27 .TV 式中R是输入图像信号的自相关函数。明显地， 26 25 本是一个B×ns的矩阵。在得到初始解后，BCS- .DVT 24 SPL方法往往会进行多阶段的平滑投影操作进行 10103 10210110910-110-2 更慢← →更快非线性重构来进一步改善图像的质量。运行时间s CSNet模拟传统的基于分块的压缩感知采样图3 基于深度学习的压缩感知网络框架与传统的基于和重建过程。图4的上部是一个传统的BCS-SPL 块的压缩感知方法的对比方法的采样和重建框架，下部是CSNet的网络框 Fig.3 Comparison between compressed sensing frame- work based on deep learning and the ones based on 架。如图4所示，传统的BCS-SPL方法包括压缩 traditional blocks 采样、初始重构和非线性信号重构3个过程

4.2 基于深度网络的快速准确的压缩采样重建尽管压缩感知技术有很好的应用前景，最近几年却发展非常缓慢，其中一个主要原因是之前的压缩重建算法往往需要一个非常复杂的解优化过程，重建速度非常慢而影响其实用性。如图 3 所示，传统的方法 DWT[80] 、TV [81] 、 MH[82] 、 CoS [83] 和 GSR [84] 运行速度非常慢，因此研究快速的压缩采样和重建算法显得非常必要。经过这么多年的发展，采样矩阵的设计以及快速压缩重建算法依然是压缩感知技术的两个核心问题。Shi 等 [ 8 5 ] 提出使用深度网络 (CSNet) 来解决这两个问题，也就是用深度网络来学习一个高效的采样算子，以及设计一个快速却重建效果好的网络实现图像快速端到端重建。图 4 给出了基于深度网络的压缩感知方法与传统的 BCS-SPL (block based compressed sampling and smoothed projected landweber) 方法的对比。如图所示，BCS-SPL 算法包括 3 个过程：压缩采样、初始重构和非线性信号重构。 B× B M/N nB = ⌊ M/N · B 2 ⌋ ΦB nB × B 2 xj yj = ΦB xj 在 BCS 中，一个图像会被裁切为大小的图像块，然后用一个合适大小的测量矩阵进行采样。如果采样率为，每个块需要个采样值。因此采样矩阵是一个的矩阵。假设是第 j 块的向量，则相应的测量值可以表示为。这就实现了图像的压缩采样过程。另一个需要解决的问题是，在给定采样值的情况下，怎么将其准确恢复出原来的图像。原来的 BCS-SPL 方法使用最小均方误差线性估计来估计初始解。这个初始重构过程可以表示为 x˜j = Φ˜ B yj Φ˜ B = RxxΦ T B ( ΦBRxxΦ T B )−1 Rxx Φ˜ R B 2 ×nB 式中是输入图像信号的自相关函数。明显地，是一个的矩阵。在得到初始解后，BCSSPL 方法往往会进行多阶段的平滑投影操作进行非线性重构来进一步改善图像的质量。 CSNet 模拟传统的基于分块的压缩感知采样和重建过程。图 4 的上部是一个传统的 BCS-SPL 方法的采样和重建框架，下部是 CSNet 的网络框架。如图 4 所示，传统的 BCS-SPL 方法包括压缩采样、初始重构和非线性信号重构 3 个过程。表 1 不同方法在 3 个标准数据集上 3 种放大倍数的定量比较 Table 1 Quantitative comparison between various methods based on three benchmarks over three magnifications 数据集放大倍数双三次插值 A+[74] SRF[75] SRCNN[76] SCN[77] FSRCNN[78] MSSRNet[79] Set5 2 33.66/0.929 9 36.55/0.954 4 36.87/0.955 6 36.34/0.952 1 36.76/0.954 5 37.00/0.955 8 37.33/0.958 1 3 30.39/0.929 9 32.59/0.908 8 32.71/0.909 8 32.39/0.903 3 33.04/0.913 6 33.16/0.914 0 33.38/0.917 8 4 28.42/0.810 4 30.28/0.860 3 30.35/0.860 0 30.09/0.850 3 30.82/0.872 8 30.71/0.865 7 31.10/0.877 7 Set14 2 30.23/0.868 7 32.28/0.905 6 32.51/0.907 4 32.18/0.903 9 32.48/0.906 7 32.63/0.908 8 32.89/0.911 7 3 27.54/0.773 6 29.13/0.818 8 29.23/0.820 6 29.00/0.814 5 29.37/0.822 6 29.43/0.824 2 29.57/0.828 2 4 26.00/0.701 9 27.32/0.747 1 27.41/0.749 7 27.20/0.741 3 27.62/0.757 1 27.59/0.753 5 27.83/0.763 1 BSD200 2 29.70/0.862 5 31.44/0.903 1 31.65/0.905 3 31.38/0.928 7 31.63/0.904 8 31.80/0.907 4 32.08/0.911 8 3 27.26/0.763 8 28.36/0.807 8 28.45/0.809 5 28.28/0.803 8 28.54/0.811 9 28.60/0.813 7 28.78/0.818 8 4 25.97/0.694 9 26.83/0.735 9 26.89/0.736 8 26.73/0.729 1 27.02/0.743 4 26.98/0.739 8 27.17/0.748 9 平均值 28.80/0.815 1 30.53/0.849 1 30.67/0.850 5 30.39/0.847 4 30.81/0.854 2 30.88/0.853 7 31.13/0.859 6 低分辨图像高分辨图像 inception 模块 inception 模块 inception 模块图 2 基于膨胀卷积起始模块的单图像超分辨网络结构 Fig. 2 Single-image super-resolution network structure based on the inception module based on dilatied Cos GSR CSNet MH TV DVT 33 32 31 30 29 28 27 26 25 24 PSNR/dB 104 103 102 101 100 10−1 10−2 更慢更快运行时间/s 图 3 基于深度学习的压缩感知网络框架与传统的基于块的压缩感知方法的对比 Fig. 3 Comparison between compressed sensing framework based on deep learning and the ones based on traditional blocks ·76· 智能系统学报第 14 卷

第1期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述 ·77· CSNet设计一个采样子网络、一个初始重构子网包括一个卷积层和一个合并重构层。初始重构子络和一个深度重构子网络来模拟传统BCS-SPL 网络的卷积层有2个空间维度为1×1大小滤波器，的3个过程。采样子网络用一个卷积层模拟传统而合并重构层是一个拼接和串联操作。深度重构的采样矩阵中。假设块划分大小为B×B,采样率子网包括多个卷积操作。这个方法很好地模拟了为MN,那么Φ是一个nB=MN.B」行B列的矩传统的压缩重构过程，并且将复杂的解优化过程阵。那么采样子网络将会是一个有ns=LMIN·B] 隐含于简单的深度重构子网中，可以得到更好的个B×B大小滤波器的卷积层。初始重构子网络重构质量和更快的运行速度。 CS 输人 :测量值初始重建初非线性信号重建采样 :结果输出 =中ax 功J肌阶段1：反复进行维纳滤波和在La即pped变换域硬阅值化处理-.- 币。=R(巾R巾1 阶段2：反复通过帧拓展进行硬國值化处理变采样 ●S 初始重建初始深度重建 n。卷积测量值 B卷积结果 64卷积+ReLU 64卷积+ReLU 会输出 1×1×n ×364 步长：BxB 形变+串联 3× 步长：1×1 步长：1×1 步长：1×1 1× 填充：0×0 填充：0×0 填充：0×0 填充：0×0 价·0x0 图4CSNt与流行算法的运行速度和重构PSNR的对比 Fig.4 Comparison of the running speed and PSNR between CSNet and the state-of-the-art methods 表2给出基于深度学习的压缩感知方法果提升。图3给出了CSNet与流行算法在Set5数 (CSNet)与其他流行的压缩感知方法在Setl4数据据集上采样率为O.1的重建图像的PSNR与运行集中5种采样率下的重建结果的平均PSNR和速度的对比。结果显示，CSNet不仅重建效果好 SSM结果的对比。如表2所示，CSNet在各种采运行速度也显著提升。更多关于CSNet的细节样率下与现有的方法相比都取得了显著的重建效请读者参考文献[75]。表2不同算法在Set14数据集中5种压缩采样率下的重建结果的平均PSNR和SSIM对比 Table 2 Averages of PSNR and SSIM over 5 sampling rates between various methods on Set14 采样率 DWTIS0 Tylsi MHIS2] Cosls3] GSRB阿 CSNet8s] 0.1 24.16/0.6798 25.24/0.6887 26.38/0.7282 27.20/0.7433 27.50/0.7705 29.13/0.8169 0.2 28.13/0.7882 28.07/0.7844 29.47/0.8237 30.07/0.8278 31.22/0.8642 32.15/0.8941 0.3 30.38/0.8389 30.12/0.8424 31.37/0.8694 32.03/0.8732 33.74/0.9071 34.34/0.9297 0.4 31.99/0.8753 32.03/0.8837 33.03/0.9009 34.00/0.9084 35.78/0.9336 36.16/0.9502 0.5 33.54/0.9044 33.84/0.9148 34.52/0.9239 35.84/0.9314 37.66/0.9522 37.89/0.9631 平均值 29.64/0.8173 29.86/0.8228 30.95/0.8492 31.83/0.8568 33.18/0.8855 33.93/0.9108 5结束语起着至关重要的作用。基于数字信号处理的传统编码技术并没有直接从人类的视觉感知过程出综上所述，从理论模型到应用方法，纵观各层发，而压缩图像最终要服务于人的感知；尽管认面的根本任务、彼此联结及发展现状，有如下认识知心理层面的视觉先验机理测试给出一些重要的在低层计算机视觉层面，深度结构可以从丰富的发现与启示，但是仅仅依靠其去解释大脑对自然感知信息中归纳或解释复杂的结构和建立数据中图像一般性规律的归纳与认知是不现实的。因此内在的表征，特别是为视觉信息的表达提供了高从计算层面的视觉先验功能模拟角度去解释，才效的手段与工具；与传统自然图像先验功能模拟能够将视觉信息编码从图像空间过渡到自然图像相比，以数据为根本驱动，以精确描述和解释自子空间，这是一种合理、必须的选择。然图像子空间为目标的自然图像先验深度模型，可先天克服传统先验建模方法片面、孤立的缺参考文献：点，这使得我们跳出以往较为单一先验建模方 [1]PARK S,KONKLE T,OLIVA A.Parametric coding of 法，在更高的层面思考问题。 the size and clutter of natural scenes in the human brain[. 借助计算层面的自然图像先验模型是编码技 Cerebral cortex,2015,25(7):1792-1805. 术的必然选择。先验知识在自然图像认知过程中 [2]FOLDIAK P.Neural control:closed-loop human brain

Φ B× B M/N Φ nB = ⌊ M/N · B 2 ⌋ B 2 nB = ⌊ M/N · B 2 ⌋ CSNet 设计一个采样子网络、一个初始重构子网络和一个深度重构子网络来模拟传统 BCS-SPL 的 3 个过程。采样子网络用一个卷积层模拟传统的采样矩阵。假设块划分大小为，采样率为，那么是一个行列的矩阵。那么采样子网络将会是一个有个 B×B 大小滤波器的卷积层。初始重构子网络 B 2 1×1 包括一个卷积层和一个合并重构层。初始重构子网络的卷积层有个空间维度为大小滤波器，而合并重构层是一个拼接和串联操作。深度重构子网包括多个卷积操作。这个方法很好地模拟了传统的压缩重构过程，并且将复杂的解优化过程隐含于简单的深度重构子网中，可以得到更好的重构质量和更快的运行速度。表 2 给出基于深度学习的压缩感知方法 (CSNet) 与其他流行的压缩感知方法在 Set14 数据集中 5 种采样率下的重建结果的平均 PSNR 和 SSIM 结果的对比。如表 2 所示，CSNet 在各种采样率下与现有的方法相比都取得了显著的重建效果提升。图 3 给出了 CSNet 与流行算法在 Set5 数据集上采样率为 0.1 的重建图像的 PSNR 与运行速度的对比。结果显示，CSNet 不仅重建效果好运行速度也显著提升。更多关于 CSNet 的细节，请读者参考文献 [75]。 5 结束语综上所述，从理论模型到应用方法，纵观各层面的根本任务、彼此联结及发展现状，有如下认识：在低层计算机视觉层面，深度结构可以从丰富的感知信息中归纳或解释复杂的结构和建立数据中内在的表征，特别是为视觉信息的表达提供了高效的手段与工具；与传统自然图像先验功能模拟相比，以数据为根本驱动，以精确描述和解释自然图像子空间为目标的自然图像先验深度模型，可先天克服传统先验建模方法片面、孤立的缺点，这使得我们跳出以往较为单一先验建模方法，在更高的层面思考问题。借助计算层面的自然图像先验模型是编码技术的必然选择。先验知识在自然图像认知过程中起着至关重要的作用。基于数字信号处理的传统编码技术并没有直接从人类的视觉感知过程出发，而压缩图像最终要服务于人的感知；尽管认知心理层面的视觉先验机理测试给出一些重要的发现与启示，但是仅仅依靠其去解释大脑对自然图像一般性规律的归纳与认知是不现实的。因此从计算层面的视觉先验功能模拟角度去解释，才能够将视觉信息编码从图像空间过渡到自然图像子空间，这是一种合理、必须的选择。参考文献： PARK S, KONKLE T, OLIVA A. Parametric coding of the size and clutter of natural scenes in the human brain[J]. Cerebral cortex, 2015, 25(7): 1792–1805. [1] [2] FÖLDIÁK P. Neural control: closed-loop human brain 表 2 不同算法在 Set14 数据集中 5 种压缩采样率下的重建结果的平均 PSNR 和 SSIM 对比 Table 2 Averages of PSNR and SSIM over 5 sampling rates between various methods on Set14 采样率 DWT[80] TV[81] MH[82] CoS[83] GSR[84] CSNet[85] 0.1 24.16/0.679 8 25.24/0.688 7 26.38/0.728 2 27.20/0.743 3 27.50/0.770 5 29.13/0.816 9 0.2 28.13/0.788 2 28.07/0.784 4 29.47/0.823 7 30.07/0.827 8 31.22/0.864 2 32.15/0.894 1 0.3 30.38/0.838 9 30.12/0.842 4 31.37/0.869 4 32.03/0.873 2 33.74/0.907 1 34.34/0.929 7 0.4 31.99/0.875 3 32.03/0.883 7 33.03/0.900 9 34.00/0.908 4 35.78/0.933 6 36.16/0.950 2 0.5 33.54/0.904 4 33.84/0.914 8 34.52/0.923 9 35.84/0.931 4 37.66/0.952 2 37.89/0.963 1 平均值 29.64/0.817 3 29.86/0.822 8 30.95/0.849 2 31.83/0.856 8 33.18/0.885 5 33.93/0.910 8 采样 yi=ΦB xi 初始重建 xi=ΦB yi ΦB =RxxΦT B (ΦBRxxΦT B ) −1 初始结果非线性信号重建阶段1: 反复进行维纳滤波和在 Lapped 变换域硬阈值化处理阶段2: 反复通过帧拓展进行硬阈值化处理输出输出输入输入 CS 测量值初始结果 CS 测量值采样 nB 卷积 B×B×1 步长: B×B 填充: 0×0 B 2 卷积 1×1×n 步长: 1×1 填充: 0×0 形变+串联初始重建 3× 深度重建 64 卷积+ReLU 3×3×1 步长: 1×1 填充: 0×0 64 卷积+ReLU 3×3×64 步长: 1×1 填充: 0×0 1 卷积 3×3×64 步长: 1×1 填充: 0×0 图 4 CSNet 与流行算法的运行速度和重构 PSNR 的对比 Fig. 4 Comparison of the running speed and PSNR between CSNet and the state-of-the-art methods 第 1 期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述 ·77·

·78· 智能系统学报第14卷 reading[J].Current biology,2011,21(2):80-81. [17]HUBEL D H,WIESEL T N.Receptive fields,binocular [3]KAY K N,GALLANT J L.I can see what you see[J] interaction and functional architecture in the cat's visual Nature neuroscience,2009,12(3):245. cortex[J].The journal of physiology,1962,160(1): [4]KIM MK.KIM M,OH E,et al.A review on the computa- 106-154. tional methods for emotional state estimation from the hu- [18]XU Mai,LI Shengxi,LU Jianhua,et al.Compressibility man EEG[J].Computational and mathematical methods in constrained sparse representation with learnt dictionary medicine,2013.22(12:3127-3142. for low bit-rate image compression[J].IEEE transactions [5]JIAN Muwei,QI Qiang,DONG Junyu,et al.Saliency de- on circuits and systems for video technology,2014, tection using quaternionic distance based weber local 2410:1743-1757 descriptor and level priors[J].Multimedia tools and applic- [19]SUN Yipeng,TAO Xiaoming,LI Yang,et al.Dictionary ations,.2018,77(11):14343-14360. learning for image coding based on multisample sparse [6]JIAN Muwei.LAM K M,DONG Junyu,et al.Visual- representation[J].IEEE transactions on circuits and sys- patch-attention-aware saliency detection[J].IEEE transac- tems for video technology,2014,24(11):2004-2010. tions on cybernetics,2015,45(8):1575-1586. [20]SUN Fuming,TANG Jinhui,LI Haojie,et al.Multi-label [7]JIAN Muwei,LAM K M,DONG Junyu.Facial-feature de- image categorization with sparse factor representation[J]. tection and localization based on a hierarchical scheme[J]. IEEE transactions on image processing,2014,23(3): Information sciences,2014,262(3):1-14. 1028-1037 [8]JIAN Muwei,QI Qiang,DONG Junyu,et al.Integrating [21]RABBANI H.GAZOR S.Local probability distribution QDWD with pattern distinctness and local contrast for un- of natural signals in sparse domains[J].International derwater saliency detection[J].Journal of visual commu- nication and image representation,2018,53:31-41. journal of adaptive control and signal processing,2014, [9]TREVES A,TASHIRO A,WITTER M P,et al.What is 28(1上52-62. the mammalian dentate gyrus good for?[J].Neuroscience, [22]ELHAMIFAR E,VIDAL R.Sparse subspace clustering: 2008,1544:1155-1172. Algorithm,theory,and applications[J].IEEE transactions [10]CHANTAS G.GALATSANOS N P,MOLINA R.et al. on pattern analysis and machine intelligence,2013, Variational bayesian image restoration with a product of 35(11):2765-2781. spatially weighted total variation image priors[J].IEEE [23]肖迪，马青青，王兰，等.基于稀硫表示的云协助安全数 transactions on image processing,2010,19(2):351-362. 字水印技术[.信息网络安全，2017,37(1)：1-7 [11]CHAN TF,OSHER S,SHEN J.The digital TV filter and XIAO Di,MA Qingqing,WANG Lan,et al.Cloud-as- nonlinear denoising[J].IEEE transactions on image pro- sisted secure digital watermarking based on sparse repres- cessing,2001,10(2):231-241. entation[J].Netinfo security,2017,37(1):1-7. [12]ZHU Songchun,WU Yingnian,MUMFORD D.Filters, [24]熊金波，马蓉，张媛媛，等.面向社交网络的图片信息隐 random fields and maximum entropy (FRAME):towards 藏方法与实现.信息网络安全，2017,37(3)：6-13. a unified theory for texture modeling[J].International XIONG Jinbo,MA Rong,ZHANG Yuanyuan,et al.Im- journal of computer vision,1998,27(2):107-126. age information hiding method and implementation for [13]FREEMAN W T.PASZTOR E C,CARMICHAEL O T. social network[J].Netinfo security,2017,37(3):6-13. Learning low-level vision[J].International journal of [25]徐杰，贺敏，包秀国.基于压缩感知的视频台标识别研 computer vision,2000,40(1):25-47. 究U.信息网络安全，2015(5)：77-81 [14]WELLING M,OSINDERO S,HINTON G E.Learning XU Jie,HE Min,BAO Xiuguo.Research on TV logo de- sparse topographic representations with products of stu- tection based on compressive sensing[J].Netinfo security, dent-t distributions[C]//Advances in Neural Information 2015(5):77-81. Processing Systems.Vancouver,Canada,2003:1383- [26]任栋，宋伟，于京，等.特殊视频内容检测算法研究综述 1390. [.信息网络安全，2016(9y:184-191. [15]ROTH S,BLACK M J.Fields of experts[J].International REN Dong,SONG Wei,YU Jing,et al.A survey on spe- journal of computer vision,2009,82:205 cial video content detection algorithms[J].Netinfo secur- [16]SUN Deqing,ROTH S,BLACK M J.A quantitative ana- iy,2016(9):184-191 lysis of current practices in optical flow estimation and [27]PROTTER M,ELAD M,TAKEDA H,et al.Generaliz- the principles behind them[J].International journal of ing the nonlocal-means to super-resolution reconstruc- computer vision,2014,106(2):115-137. tion[J].IEEE transactions on image processing,2009

reading[J]. Current biology, 2011, 21(2): 80–81. KAY K N, GALLANT J L. I can see what you see[J]. Nature neuroscience, 2009, 12(3): 245. [3] KIM M K, KIM M, OH E, et al. A review on the computational methods for emotional state estimation from the human EEG[J]. Computational and mathematical methods in medicine, 2013, 22(12): 3127–3142. [4] JIAN Muwei, QI Qiang, DONG Junyu, et al. Saliency detection using quaternionic distance based weber local descriptor and level priors[J]. Multimedia tools and applications, 2018, 77(11): 14343–14360. [5] JIAN Muwei, LAM K M, DONG Junyu, et al. Visualpatch-attention-aware saliency detection[J]. IEEE transactions on cybernetics, 2015, 45(8): 1575–1586. [6] JIAN Muwei, LAM K M, DONG Junyu. Facial-feature detection and localization based on a hierarchical scheme[J]. Information sciences, 2014, 262(3): 1–14. [7] JIAN Muwei, QI Qiang, DONG Junyu, et al. Integrating QDWD with pattern distinctness and local contrast for underwater saliency detection[J]. Journal of visual communication and image representation, 2018, 53: 31–41. [8] TREVES A, TASHIRO A, WITTER M P, et al. What is the mammalian dentate gyrus good for?[J]. Neuroscience, 2008, 154(4): 1155–1172. [9] CHANTAS G, GALATSANOS N P, MOLINA R, et al. Variational bayesian image restoration with a product of spatially weighted total variation image priors[J]. IEEE transactions on image processing, 2010, 19(2): 351–362. [10] CHAN T F, OSHER S, SHEN J. The digital TV filter and nonlinear denoising[J]. IEEE transactions on image processing, 2001, 10(2): 231–241. [11] ZHU Songchun, WU Yingnian, MUMFORD D. Filters, random fields and maximum entropy (FRAME): towards a unified theory for texture modeling[J]. International journal of computer vision, 1998, 27(2): 107–126. [12] FREEMAN W T, PASZTOR E C, CARMICHAEL O T. Learning low-level vision[J]. International journal of computer vision, 2000, 40(1): 25–47. [13] WELLING M, OSINDERO S, HINTON G E. Learning sparse topographic representations with products of student-t distributions[C]//Advances in Neural Information Processing Systems. Vancouver, Canada, 2003: 1383– 1390. [14] ROTH S, BLACK M J. Fields of experts[J]. International journal of computer vision, 2009, 82: 205. [15] SUN Deqing, ROTH S, BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[J]. International journal of computer vision, 2014, 106(2): 115–137. [16] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The journal of physiology, 1962, 160(1): 106–154. [17] XU Mai, LI Shengxi, LU Jianhua, et al. Compressibility constrained sparse representation with learnt dictionary for low bit-rate image compression[J]. IEEE transactions on circuits and systems for video technology, 2014, 24(10): 1743–1757. [18] SUN Yipeng, TAO Xiaoming, LI Yang, et al. Dictionary learning for image coding based on multisample sparse representation[J]. IEEE transactions on circuits and systems for video technology, 2014, 24(11): 2004–2010. [19] SUN Fuming, TANG Jinhui, LI Haojie, et al. Multi-label image categorization with sparse factor representation[J]. IEEE transactions on image processing, 2014, 23(3): 1028–1037. [20] RABBANI H, GAZOR S. Local probability distribution of natural signals in sparse domains[J]. International journal of adaptive control and signal processing, 2014, 28(1): 52–62. [21] ELHAMIFAR E, VIDAL R. Sparse subspace clustering: Algorithm, theory, and applications[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(11): 2765–2781. [22] 肖迪, 马青青, 王兰, 等. 基于稀疏表示的云协助安全数字水印技术 [J]. 信息网络安全, 2017, 37(1): 1–7. XIAO Di, MA Qingqing, WANG Lan, et al. Cloud-assisted secure digital watermarking based on sparse representation[J]. Netinfo security, 2017, 37(1): 1–7. [23] 熊金波, 马蓉, 张媛媛, 等. 面向社交网络的图片信息隐藏方法与实现 [J]. 信息网络安全, 2017, 37(3): 6–13. XIONG Jinbo, MA Rong, ZHANG Yuanyuan, et al. Image information hiding method and implementation for social network[J]. Netinfo security, 2017, 37(3): 6–13. [24] 徐杰, 贺敏, 包秀国. 基于压缩感知的视频台标识别研究 [J]. 信息网络安全, 2015(5): 77–81. XU Jie, HE Min, BAO Xiuguo. Research on TV logo detection based on compressive sensing[J]. Netinfo security, 2015(5): 77–81. [25] 任栋, 宋伟, 于京, 等. 特殊视频内容检测算法研究综述 [J]. 信息网络安全, 2016(9): 184–191. REN Dong, SONG Wei, YU Jing, et al. A survey on special video content detection algorithms[J]. Netinfo security, 2016(9): 184–191. [26] PROTTER M, ELAD M, TAKEDA H, et al. Generalizing the nonlocal-means to super-resolution reconstruction[J]. IEEE transactions on image processing, 2009, [27] ·78· 智能系统学报第 14 卷

第1期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述。79· 18(1:36-51 ings of the IEEE Conference on Computer Vision and [28]TALEBI H,MILANFAR P.Global image denoising[J]. Pattern Recognition.Las Vegas,NV,United States,2016: IEEE transactions on image processing,2014,23(2): 770-778. 755-768. [41]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [29]RAM I,ELAD M,COHEN I.Image processing using Delving deep into rectifiers:surpassing human-level per- smooth ordering of its patches[J].IEEE transactions on formance on imagenet classification[C]//Proceedings of image processing,2013,22(7):2764-2774. IEEE International Conference on Computer Vision.San- [30]GILBOA G,OSHER S.Nonlocal operators with applica- tiago,Chile,2015:1026-1034. tions to image processing[J].Multiscale modeling and [42]WANG Zhaowen,LIU Ding,YANG Jianchao,et al simulation,2008,7(3):1005-1028. Deep networks for image super-resolution with sparse pri- [31]ZHANG Lei,DONG Weisheng,ZHANG D,et al.Two- or[C]//Proceedings of IEEE International Conference on stage image denoising by principal component analysis Computer Vision.Santiago,Chile,2015:370-378. with local pixel grouping[J].Pattern recognition,2010, [43]GU S,ZUO W,XIE Q,et al.Convolutional sparse cod- 43(4):1531-1549 ing for image super-resolution[C]//IEEE International [32]MAIRAL J,BACH F,PONCE J,et al.Non-local sparse Conference on Computer Vision.IEEE Computer Soci- models for image restoration[C]//Proceedings of the 12th ety,2015:1823-1831 International Conference on Computer Vision.Kyoto,Ja- [44]LIANG Yudong,WANG Jinjun,ZHOU Sanping,et al. pan,2009:2272-2279. Incorporating image priors with deep convolutional neur- [33]JUNG M,BRESSON X,CHAN T F,et al.Nonlocal al networks for image super-resolution[J].Neurocomput- Mumford-Shah regularizers for color image restoration[]. ing,2016,194:340-347. IEEE transactions on image processing,2011,20(6): [45]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M, 1583-1598. et al.Generative adversarial nets[Cl//Proceedings of the [34]SUN Jian,TAPPEN M F.Learning non-local range 27th International Conference on Neural Information Pro- Markov random field for image restoration[C]//CVPR cessing Systems.Cambridge,MA,USA,2014:2672- 2011.Colorado Springs,CO,USA,2011:2745-2752. 2680. [35]GAO Xinwei,ZHANG Jian,JIANG Feng,et al.Image in- [46]LEDIG C.THEIS L.HUSZAR F,et al.Photo-realistic terpolation via local autoregressive and nonlocal 3-D single image super-resolution using a generative ad- sparse regularization[C]//Visual Communications and Im- versarial network[C]//Proceedings of the IEEE Confer- age Processing.San Diego,USA,2012. ence on Computer Vision and Pattern Recognition.Hon- [36]DONG Chao,LOY C C,HE Kaiming,et al.Learning a olulu,HL,USA,2017:105-114 deep convolutional network for image super-resolu- [47]JOHNSON J,ALAHI A,FEI-FEI L.Perceptual losses for tion[Cl//Proceedings of the 13th European Conference On real-time style transfer and super-resolution[Cl//Proceed- Computer Vision.Cham,Germany,2014:184-199. ings of the 14th European Conference on Computer Vis- [37]DONG Chao,LOY CC,HE Kaiming,et al.Image super- ion.Amsterdam,The Netherlands,2016:694-711. resolution using deep convolutional networks[J].IEEE [48]STANKOVIC V,STANKOVIC L,CHENG S.Com- transactions on pattern analysis and machine intelligence, pressive video sampling[C]//Processing of 16th European 2016,38(2295-307. Signal Processing Conference.Lausanne,Switzerland, [38]DONG Chao,LOY CC,TANG Xiaoou.Accelerating the 2008:1-5. super-resolution convolutional neural network[C]//Pro- [49]PARK J Y.WAKIN M B.A multiscale framework for ceedings of the 14th European Conference on Computer compressive sensing of video[C]//Processing of Picture Vision.Amsterdam,The Netherlands,2016:391-407. Coding Symposium.Chicago,USA,2009:1-4. [39]KIM J,LEE JK,LEE K M.Accurate image super-resolu- [50]PRADES-NEBOT J,MA Yi,HUANG T.Distributed tion using very deep convolutional networks[C]//Proceed- video coding using compressive sampling[C]//Processing ings of the IEEE Conference on Computer Vision and of Picture Coding Symposium.Chicago,USA,2009:1-4. Pattern Recognition.Las Vegas,NV,USA,2016: [51]CHEN H W,KANG Liwei,LU C S.Dictionary learning- 1646-1654. based distributed compressive video sensing[C]//Pro- [40]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. cessing of Picture Coding Symposium.Nagoya,Japan, Deep residual learning for image recognition[Cl//Proceed- 2010:210-213

18(1): 36–51. TALEBI H, MILANFAR P. Global image denoising[J]. IEEE transactions on image processing, 2014, 23(2): 755–768. [28] RAM I, ELAD M, COHEN I. Image processing using smooth ordering of its patches[J]. IEEE transactions on image processing, 2013, 22(7): 2764–2774. [29] GILBOA G, OSHER S. Nonlocal operators with applications to image processing[J]. Multiscale modeling and simulation, 2008, 7(3): 1005–1028. [30] ZHANG Lei, DONG Weisheng, ZHANG D, et al. Twostage image denoising by principal component analysis with local pixel grouping[J]. Pattern recognition, 2010, 43(4): 1531–1549. [31] MAIRAL J, BACH F, PONCE J, et al. Non-local sparse models for image restoration[C]//Proceedings of the 12th International Conference on Computer Vision. Kyoto, Japan, 2009: 2272–2279. [32] JUNG M, BRESSON X, CHAN T F, et al. Nonlocal Mumford-Shah regularizers for color image restoration[J]. IEEE transactions on image processing, 2011, 20(6): 1583–1598. [33] SUN Jian, TAPPEN M F. Learning non-local range Markov random field for image restoration[C]//CVPR 2011. Colorado Springs, CO, USA, 2011: 2745–2752. [34] GAO Xinwei, ZHANG Jian, JIANG Feng, et al. Image interpolation via local autoregressive and nonlocal 3-D sparse regularization[C]//Visual Communications and Image Processing. San Diego, USA, 2012. [35] DONG Chao, LOY C C, HE Kaiming, et al. Learning a deep convolutional network for image super-resolution[C]//Proceedings of the 13th European Conference On Computer Vision. Cham, Germany, 2014: 184 –199. [36] DONG Chao, LOY C C, HE Kaiming, et al. Image superresolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(2): 295–307. [37] DONG Chao, LOY C C, TANG Xiaoou. Accelerating the super-resolution convolutional neural network[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 391– 407. [38] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 1646–1654. [39] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceed- [40] ings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, United States, 2016: 770–778. HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//Proceedings of IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1026–1034. [41] WANG Zhaowen, LIU Ding, YANG Jianchao, et al. Deep networks for image super-resolution with sparse prior[C]//Proceedings of IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 370–378. [42] GU S, ZUO W, XIE Q, et al. Convolutional sparse coding for image super-resolution[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:1823-1831. [43] LIANG Yudong, WANG Jinjun, ZHOU Sanping, et al. Incorporating image priors with deep convolutional neural networks for image super-resolution[J]. Neurocomputing, 2016, 194: 340–347. [44] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA, USA, 2014: 2672– 2680. [45] LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017: 105-114 [46] JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 694–711. [47] STANKOVIĆ V, STANKOVIĆ L, CHENG S. Compressive video sampling[C]//Processing of 16th European Signal Processing Conference. Lausanne, Switzerland, 2008: 1–5. [48] PARK J Y, WAKIN M B. A multiscale framework for compressive sensing of video[C]//Processing of Picture Coding Symposium. Chicago, USA, 2009: 1–4. [49] PRADES-NEBOT J, MA Yi, HUANG T. Distributed video coding using compressive sampling[C]//Processing of Picture Coding Symposium. Chicago, USA, 2009: 1–4. [50] CHEN H W, KANG Liwei, LU C S. Dictionary learningbased distributed compressive video sensing[C]// Processing of Picture Coding Symposium. Nagoya, Japan, 2010: 210–213. [51] 第 1 期孙必慎，等：计算视觉核心问题：自然图像先验建模研究综述 ·79·

·80· 智能系统学报第14卷 [52]WRIGHT S J,NOWAK R D,FIGUEIREDO M A T. neural network approach for post-processing in HEVC in- Sparse reconstruction by separable approximation[J]. tra coding[C]//Proceedings of the 23rd International Con- IEEE transactions on signal processing,2009,57(7): ference on Multimedia Modeling.Reykjavik,Iceland, 2479-2493. 2017:28-39. [53]PONG K H.LAM K M.Multi-resolution feature fusion [65]TODERICI G,O'MALLEY S M,HWANG S J.et al. for face recognition[J].Pattern recognition,2014,47(2): Variable rate image compression with recurrent neural 556-567. networks[EB/OL].arXiv preprint arXiv:1511.060 85, [54]PYATYKH S,HESSER J.Salt and pepper noise removal 2016.https://arxiv.org/abs/1511.06085 in binary images using image block prior probabilities[J]. [66]TODERICI G,VINCENT D,JOHNSTON N,et al.Full Journal of visual communication and image representa- resolution image compression with recurrent neural net- tion,2014,25(5):748-754. works[C/IEEE Conference on Computer Vision and Pat- [55]YIN Zhouping,ZHANG Hongmei.Research on saliency tern Recognition.Honolulu,Hawaii,USA,2017: prior based image processing algorithm[J].Journal of 5435-5443. multimedia,.2014,9(2:294-301. [67]JOHNSTON N,VINCENT D,MINNEN D,et al.Im- [56]JIANG Feng,TAO Wen,LIU Shaohui,et al.An end-to- proved lossy image compression with priming and spa- end compression framework based on convolutional neur- tially adaptive bit rates for recurrent networks[EB/OL]. al networks[J].IEEE transactions on circuits and systems ar Xiv preprint arXiv:1703.101 14,2017.https://arxiv. for video technology,2018,28(10):3007-3018. org/abs/1703.10114 [57]ZHAO Lijun,BAI Huihui,WANG Aahong,et al.Learn- [68]THEIS L,SHI Wenzhe,CUNNINGHAM A,et al.Lossy ing a virtual codec based on deep convolutional neural image compression with compressive autoencoders network to compress image[EB/OL].arXiv preprint arX- [EB/OL].arXiv preprint arXiv:1703.003 95,2017. iv:1712.05969,2017.https:/arxiv.org/abs/1712.05969 https://arxiv.org/abs/1703.00395 [58]SULLIVAN G J,OHM JR.HAN W J,et al.Overview of [69]BALLE J,LAPARRA V,SIMONCELLI E P.End-to-end the high efficiency video coding (HEVC)standard[J]. optimization of nonlinear transform codes for perceptual IEEE transactions on circuits and systems for video tech- quality[C]//Proceedings of 2016 Picture Coding Symposi- nology,2012,22(12):1649-1668. um.Nuremberg,Germany,2016:1-5. [59]LI Jiahao,LI Bin,XU Jizheng,et al.Intra prediction us- [70]AGUSTSSON E,MENTZER F,TSCHANNEN M,et al. ing fully connected network for video coding[C]//IEEE Soft-to-hard vector quantization for end-to-end learning International Conference on Image Processing.Beijing, compressible representations[C]//Advances in Neural In- China,2017:1-5 formation Processing Systems.Long Beach,CA,USA, [60]YAN Ning,LIU Dong,LI Houqiang,et al.A convolu- 2017:1141-1151 tional neural network approach for half-pel interpolation [71]LI Mu,ZUO Wangmeng,GU Shuhang,et al.Learning in video coding[C]//Proceedings of 2017 International convolutional networks for content-weighted image com- Symposium on Circuits and Systems.Baltimore,MD, pression[EB/OL].arXiv preprint arXiv:1703.105 53, USA,2017:1-4. 2017.https://arxiv.org/abs/1703.10553 [61]LIU Zhenyu,YU Xianyu,CHEN Shaolin,et al.CNN ori- [72]RIPPEL O,BOURDEV L.Real-time adaptive image ented fast HEVC intra CU mode decision[Cl//IEEE Inter- compression[EB/OL].arXiv preprint arXiv:1705.058 23, national Symposium on Circuits and Systems.Montreal, 2017.https://arxiv.org/abs/1705.05823 QC,Canada,2016:2270-2273. [73]BAIG M H,KOLTUN V,TORRESANI L.Learning to [62]LIU Dong,MA Haichuan,XIONG Zhiwei,et al.CNN- Inpaint for Image Compression[C]//Advances in Neural Based DCT-like transform for image compression[C]// Information Processing Systems.Long Beach,CA,USA, Proceedings of the 24th International Conference on Mul- 2017:1246-1255 timedia Modeling.Bangkok,Thailand,2018:61-72 [74]TIMOFTE R.DE SMET V,VAN GOOL L.A+:adjus- [63]SONG Rui,LIU Dong,LI Houqiang,et al.Neural net- ted anchored neighborhood regression for fast super-res- work-based arithmetic coding of intra prediction modes in olution[C]//Asian Conference on Computer Vision. HEVC[C]/IEEE Visual Communications and Image Pro- Springer,Cham,2014:111-126. cessing Conference.Petersburg,FL,USA,2017:1-4. [75]SCHULTER S.LEISTNER C.BISCHOF H.Fast and ac- [64]DAI Yuanying,LIU Dong,WU Feng.A convolutional curate image upscaling with super-resolution forests

WRIGHT S J, NOWAK R D, FIGUEIREDO M A T. Sparse reconstruction by separable approximation[J]. IEEE transactions on signal processing, 2009, 57(7): 2479–2493. [52] PONG K H, LAM K M. Multi-resolution feature fusion for face recognition[J]. Pattern recognition, 2014, 47(2): 556–567. [53] PYATYKH S, HESSER J. Salt and pepper noise removal in binary images using image block prior probabilities[J]. Journal of visual communication and image representation, 2014, 25(5): 748–754. [54] YIN Zhouping, ZHANG Hongmei. Research on saliency prior based image processing algorithm[J]. Journal of multimedia, 2014, 9(2): 294–301. [55] JIANG Feng, TAO Wen, LIU Shaohui, et al. An end-toend compression framework based on convolutional neural networks[J]. IEEE transactions on circuits and systems for video technology, 2018, 28(10): 3007–3018. [56] ZHAO Lijun, BAI Huihui, WANG Aahong, et al. Learning a virtual codec based on deep convolutional neural network to compress image[EB/OL]. arXiv preprint arXiv: 1712.059 69, 2017. https://arxiv.org/abs/1712.05969 [57] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE transactions on circuits and systems for video technology, 2012, 22(12): 1649–1668. [58] LI Jiahao, LI Bin, XU Jizheng, et al. Intra prediction using fully connected network for video coding[C]//IEEE International Conference on Image Processing. Beijing, China, 2017: 1–5. [59] YAN Ning, LIU Dong, LI Houqiang, et al. A convolutional neural network approach for half-pel interpolation in video coding[C]//Proceedings of 2017 International Symposium on Circuits and Systems. Baltimore, MD, USA, 2017: 1–4. [60] LIU Zhenyu, YU Xianyu, CHEN Shaolin, et al. CNN oriented fast HEVC intra CU mode decision[C]//IEEE International Symposium on Circuits and Systems. Montreal, QC, Canada, 2016: 2270–2273. [61] LIU Dong, MA Haichuan, XIONG Zhiwei, et al. CNNBased DCT-like transform for image compression[C]// Proceedings of the 24th International Conference on Multimedia Modeling. Bangkok, Thailand, 2018: 61–72. [62] SONG Rui, LIU Dong, LI Houqiang, et al. Neural network-based arithmetic coding of intra prediction modes in HEVC[C]//IEEE Visual Communications and Image Processing Conference. Petersburg, FL, USA, 2017: 1–4. [63] [64] DAI Yuanying, LIU Dong, WU Feng. A convolutional neural network approach for post-processing in HEVC intra coding[C]//Proceedings of the 23rd International Conference on Multimedia Modeling. Reykjavik, Iceland, 2017: 28–39. TODERICI G, O′ MALLEY S M, HWANG S J, et al. Variable rate image compression with recurrent neural networks[EB/OL]. arXiv preprint arXiv: 1511.060 85, 2016. https://arxiv.org/abs/1511.06085 [65] TODERICI G, VINCENT D, JOHNSTON N, et al. Full resolution image compression with recurrent neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA, 2017: 5435–5443. [66] JOHNSTON N, VINCENT D, MINNEN D, et al. Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks[EB/OL]. arXiv preprint arXiv: 1703.101 14, 2017. https://arxiv. org/abs/1703.10114 [67] THEIS L, SHI Wenzhe, CUNNINGHAM A, et al. Lossy image compression with compressive autoencoders [EB/OL]. arXiv preprint arXiv: 1703.003 95, 2017. https://arxiv.org/abs/1703.00395 [68] BALLÉ J, LAPARRA V, SIMONCELLI E P. End-to-end optimization of nonlinear transform codes for perceptual quality[C]//Proceedings of 2016 Picture Coding Symposium. Nuremberg, Germany, 2016: 1–5. [69] AGUSTSSON E, MENTZER F, TSCHANNEN M, et al. Soft-to-hard vector quantization for end-to-end learning compressible representations[C]//Advances in Neural Information Processing Systems. Long Beach, CA, USA, 2017: 1141–1151. [70] LI Mu, ZUO Wangmeng, GU Shuhang, et al. Learning convolutional networks for content-weighted image compression[EB/OL]. arXiv preprint arXiv: 1703.105 53, 2017. https://arxiv.org/abs/1703.10553 [71] RIPPEL O, BOURDEV L. Real-time adaptive image compression[EB/OL]. arXiv preprint arXiv: 1705.058 23, 2017. https://arxiv.org/abs/1705.05823 [72] BAIG M H, KOLTUN V, TORRESANI L. Learning to Inpaint for Image Compression[C]//Advances in Neural Information Processing Systems. Long Beach, CA, USA, 2017: 1246–1255. [73] TIMOFTE R, DE SMET V, VAN GOOL L. A+: adjusted anchored neighborhood regression for fast super-resolution[C]//Asian Conference on Computer Vision. Springer, Cham, 2014: 111−126. [74] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests [75] ·80· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录