第14卷第5期 智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sept.2019 D0:10.11992/tis.201805011 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190610.1055.002.html 一种恢复图像自然色彩的重构方法 陶霖密,袁春,王浩达 (清华大学计算机科学与技术系,北京,100084) 摘要:现代数码相机是通过颜色过滤矩阵在每个像素位置采集一个颜色分量,重构出全彩色数字图像。压缩 感知理论证明了该重构是误差有界的,但在实际应用时却隐含着一个问题:重构图像所需的稀疏编码字典是从 图像数据库学习出来的,而目前数字图像都是重构出来的,因此存在着从重构的图像学习字典去重构图像的循 环悖论。针对这个问题,提出并构建了新的完全采样彩色图像的Sandwich图像数据集,打破了压缩感知理论 在应用于图像重构时的循环悖论,使得压缩感知方法能够真正地重建自然彩色图像。Sandwich图像数据集的 构建及其训练得到的字典可以应用于如图像超分辨率重构、去噪、修复等领域。深入的图像重建实验表明,使 用sandwich图像集训练的字典不论是字典原子特性还是由其重构得到的图像质量均好于基于传统数据集的结果。 关键词:颜色过滤矩阵:压缩感知;稀疏编码:字典学习;图像重构;自然色彩 中图分类号:TP18文献标志码:A文章编号:1673-4785(2019)05-0877-05 中文引用格式:陶霖密,袁春,王浩达.一种恢复图像自然色彩的重构方法.智能系统学报,2019,14(⑤):877-881。 英文引用格式:TAO Linmi,.YUAN Chun,.WANG Haoda.Reconstruction method for restoring the natural color of an imageJ. CAAI transactions on intelligent systems,2019,14(⑤):877-881, Reconstruction method for restoring the natural color of an image TAO Linmi,YUAN Chun,WANG Haoda (Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) Abstract:Currently,the digital camera captures one color component at each pixel location through a color filter array and reconstructs a full-color digital image.The compressed sensing theory has proven that this reconstruction is based on the error bound with sparse coding dictionary.However,in practice,there is a hidden problem:the sparse coding dic- tionary needed for image reconstruction is learned from the image database while the current digital images are recon- structed.Thus,there is a cyclic paradox of reconstructing images from the reconstructed image learning dictionary.To solve this problem,this study proposes and constructs a fully sampled color image dataset called Sandwich to break the cyclic paradox of compressed sensing theory in the application of image reconstruction,enabling the compressed sens- ing method to reconstruct truly natural color images.The dictionary trained from the constructed Sandwich dataset can be applied to several domains,such as image super-resolution reconstruction,denoising,and restoration.The in-depth image reconstruction experiments show that the dictionary trained using the Sandwich image dataset is better than the dictionary trained using the traditional dataset in terms of both dictionary atomic characteristics and the reconstructed image quality Keywords:color filter array;compressed sensing;sparse coding;dictionary learning;image reconstruction,natural color 在单传感器相机成像过程中,彩色图像传感 像是基于该原始信号重构出来的,该重构过程通 器只采集到彩色图像的三分之一的信号,彩色图 常称为去马赛克。原始图像信号去马赛克过程的 收稿日期:2018-05-09.网络出版日期:2019-06-11. 彩色图像的质量至关重要,算法性能表现直接决 基金项目:国家自然科学基金项目(61672017). 通信作者:陶霖密.E-mail:linmi@tsinghua.edu.cn. 定重构图像的质量高低。重构过程中引入的噪声
DOI: 10.11992/tis.201805011 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190610.1055.002.html 一种恢复图像自然色彩的重构方法 陶霖密,袁春,王浩达 (清华大学 计算机科学与技术系,北京,100084) 摘 要:现代数码相机是通过颜色过滤矩阵在每个像素位置采集一个颜色分量,重构出全彩色数字图像。压缩 感知理论证明了该重构是误差有界的,但在实际应用时却隐含着一个问题:重构图像所需的稀疏编码字典是从 图像数据库学习出来的,而目前数字图像都是重构出来的,因此存在着从重构的图像学习字典去重构图像的循 环悖论。针对这个问题,提出并构建了新的完全采样彩色图像的 Sandwich 图像数据集,打破了压缩感知理论 在应用于图像重构时的循环悖论,使得压缩感知方法能够真正地重建自然彩色图像。Sandwich 图像数据集的 构建及其训练得到的字典可以应用于如图像超分辨率重构、去噪、修复等领域。深入的图像重建实验表明,使 用 sandwich 图像集训练的字典不论是字典原子特性还是由其重构得到的图像质量均好于基于传统数据集的结果。 关键词:颜色过滤矩阵;压缩感知;稀疏编码;字典学习;图像重构;自然色彩 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)05−0877−05 中文引用格式:陶霖密, 袁春, 王浩达. 一种恢复图像自然色彩的重构方法 [J]. 智能系统学报, 2019, 14(5): 877–881. 英文引用格式:TAO Linmi, YUAN Chun, WANG Haoda. Reconstruction method for restoring the natural color of an image[J]. CAAI transactions on intelligent systems, 2019, 14(5): 877–881. Reconstruction method for restoring the natural color of an image TAO Linmi,YUAN Chun,WANG Haoda (Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Abstract: Currently, the digital camera captures one color component at each pixel location through a color filter array and reconstructs a full-color digital image. The compressed sensing theory has proven that this reconstruction is based on the error bound with sparse coding dictionary. However, in practice, there is a hidden problem: the sparse coding dictionary needed for image reconstruction is learned from the image database while the current digital images are reconstructed. Thus, there is a cyclic paradox of reconstructing images from the reconstructed image learning dictionary. To solve this problem, this study proposes and constructs a fully sampled color image dataset called Sandwich to break the cyclic paradox of compressed sensing theory in the application of image reconstruction, enabling the compressed sensing method to reconstruct truly natural color images. The dictionary trained from the constructed Sandwich dataset can be applied to several domains, such as image super-resolution reconstruction, denoising, and restoration. The in-depth image reconstruction experiments show that the dictionary trained using the Sandwich image dataset is better than the dictionary trained using the traditional dataset in terms of both dictionary atomic characteristics and the reconstructed image quality. Keywords: color filter array; compressed sensing; sparse coding; dictionary learning; image reconstruction; natural color 在单传感器相机成像过程中,彩色图像传感 器只采集到彩色图像的三分之一的信号,彩色图 像是基于该原始信号重构出来的,该重构过程通 常称为去马赛克。原始图像信号去马赛克过程的 彩色图像的质量至关重要,算法性能表现直接决 定重构图像的质量高低。重构过程中引入的噪声 收稿日期:2018−05−09. 网络出版日期:2019−06−11. 基金项目:国家自然科学基金项目 (61672017). 通信作者:陶霖密. E-mail:linmi@tsinghua.edu.cn. 第 14 卷第 5 期 智 能 系 统 学 报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sept. 2019
·878· 智能系统学报 第14卷 可能造成最终图像的人工伪色彩、拉链效应、灰 能使变换后的信号足够稀疏。针对特定类型的信 度边缘等问题,图像丰富的特征细节和自然的色 号学习得到的稀疏变换会带来更好的稀疏性。 彩过渡往往无法兼得。传统的去马赛克算法往往 假设D∈R.×K为K原子的超完备字典(K>n), 只利用信号在空间和频谱上的区域相关性川,速 x∈R.为能在字典D下形成稀疏表示的信号。那 度较快而适应性较差。为了克服这一问题,基于 么在aoERK的前提下,信号x能被表示为x=Dao 压缩感知四、深度学习)的图像重构算法被提出 基于压缩感知的图像去马赛克(Demosaicing) 并得到广泛应用。压缩感知与深度学习相比于预 可被表示成如下问题: 先定义的先验模型如小波变换等,针对特定类型 y=Mx (1) 的信号学习得到的字典集会带来更好的重构效 式中:x表示未知的全色彩的原始图像全部信息; 果4”。但问题是这两者均依赖于从已有的数据 M表示捕获图像相机使用的已知的CFA(color fil- 中学习。一般来说,学习所需的训练集来源有两 ter array)模版;y为经过CFA获取到的图像信息。 类:1)原始的不完全图像信号;2)独立的图像数 图像重构的核心目标就是从测量得到的信号 据集切分成图像块(patch)集合。本质上原始信 y中恢复出原始的图像信息x。压缩感知理论证 号本身已经缺失不足以提供更多信息,使用一个 明了原始信号x是可求解的,只要满足以下条件: 独立但相关的图像集训练能得到更好的重构结 1)在特定的字典D中,x有一个足够稀疏的 果。目前广泛使用的是以柯达无损图像数据集为 表示: 代表的经由硬插值算法得到的图像组成的数据 y:x=Dy (2) 集。这种图像由raw格式原始信号经由插值算法 2)其中投影矩阵MD必须满足一些特定条 计算得到,本身引入了重构误差,并非是无损数 件,比如有限等距性质(restricted isometry prop- 据。例如:常用的柯达图像数据集,其饱和度低 erty,RIP性质)o 下,在色彩过渡处出现大量由于插值所造成的灰 RIP性质保证了观测矩阵不会把两个不同的 度边缘,与人眼感知的自然色彩世界有较大出 稀疏信号映射到同一个集合中(保证原空间到稀 入。这种训练集中天生存在的误差将会被引入字 疏空间的一一映射关系),要求从观测矩阵中抽取 典中,最终影响重构的成像质量,从而造成图像 的每M个列向量构成的矩阵是非奇异的。在具 重构悖论。 体情况中一般采用固定大小的稀疏矩阵,往往通 为了打破了深度学习、压缩感知等方法在 过构造恰当的测量矩阵使得满足RP等约束条件。 应用时的循环悖论,使得这些方法能够真正地 稀疏编码(sparse coding)可被描述为 重建自然彩色图像,本文提出了一种新的恢复 y=argminy ll y llp s.t.ll x-Dyll2<s (3) 自然色彩图像的重构方法,通过挖掘图像信号 式中:x是原始信号:y是需要得到的稀疏信号。 在不同字典下的稀疏表示的差异来提升图像色 本文需要解决的问题: 彩表现。这种基于压缩感知的图像重构方法的 1)y是否存在唯一解,如果有,如何得到: 核心贡献是Sandwich图像数据集,以及构建这 2)如何判断求得的y是最稀疏的。 种数据集的方式。通过这些图像数据集训练的 唯一性定理结合式(1)和式(3),可以得到: 字典,重构得到的图像有更好的边缘色彩表现, y=arg miny llyllp s.t.lly-MDyll2<s (4) 而且不出现伪色彩。实验证明,在峰值信噪比 式(4)也可以被正则化描述成: (PSNR)和视觉质量方面,该方法优于大多数传 arg miny lly-MDyll+all ylle (5) 统的去马赛克算法,包括不限于使用基于Kodak 式中y为经观测得到的信号。一般地p取值区间 数据集字典重构的图像和使用传统基于压缩感 为[0,1]。当p=0时,由于。函数是不连续的, 知方法重构得到的图像。 直接求解式(5)是一个NP难问题。因此采用一 些近似算法,譬如OMP和其他典型的基于(1范 1压缩感知和稀疏编码 式的近似算法,如LASSO和(1 Magic来求解。 压缩感知理论的基础是存在一种变换方法, 在这个求解问题中,字典集与最终信号的稀 使得信号变换到某空间后是稀疏的,即很少系数 疏编码算法同样重要,其中字典D可以是典型的 不为零。现有的大量研究结果表明,基于和具体 数学基,譬如小波、Garbor、傅里叶基等。然而这 信号无关的固定的变换,比如小波变换,通常不 些数学基往往不能很好表达复杂的自然图像
可能造成最终图像的人工伪色彩、拉链效应、灰 度边缘等问题,图像丰富的特征细节和自然的色 彩过渡往往无法兼得。传统的去马赛克算法往往 只利用信号在空间和频谱上的区域相关性[1] ,速 度较快而适应性较差。为了克服这一问题,基于 压缩感知[2] 、深度学习[3] 的图像重构算法被提出 并得到广泛应用。压缩感知与深度学习相比于预 先定义的先验模型如小波变换等,针对特定类型 的信号学习得到的字典集会带来更好的重构效 果 [4-7]。但问题是这两者均依赖于从已有的数据 中学习。一般来说,学习所需的训练集来源有两 类:1) 原始的不完全图像信号;2) 独立的图像数 据集切分成图像块 (patch) 集合。本质上原始信 号本身已经缺失不足以提供更多信息,使用一个 独立但相关的图像集训练能得到更好的重构结 果。目前广泛使用的是以柯达无损图像数据集为 代表的经由硬插值算法得到的图像组成的数据 集。这种图像由 raw 格式原始信号经由插值算法 计算得到,本身引入了重构误差,并非是无损数 据。例如:常用的柯达图像数据集,其饱和度低 下,在色彩过渡处出现大量由于插值所造成的灰 度边缘,与人眼感知的自然色彩世界有较大出 入。这种训练集中天生存在的误差将会被引入字 典中,最终影响重构的成像质量,从而造成图像 重构悖论。 为了打破了深度学习、压缩感知等方法在 应用时的循环悖论,使得这些方法能够真正地 重建自然彩色图像,本文提出了一种新的恢复 自然色彩图像的重构方法,通过挖掘图像信号 在不同字典下的稀疏表示的差异来提升图像色 彩表现。这种基于压缩感知的图像重构方法的 核心贡献是 Sandwich 图像数据集,以及构建这 种数据集的方式。通过这些图像数据集训练的 字典,重构得到的图像有更好的边缘色彩表现, 而且不出现伪色彩。实验证明,在峰值信噪比 (PSNR) 和视觉质量方面,该方法优于大多数传 统的去马赛克算法,包括不限于使用基于 Kodak 数据集字典重构的图像和使用传统基于压缩感 知方法重构得到的图像。 1 压缩感知和稀疏编码 压缩感知理论的基础是存在一种变换方法[2] , 使得信号变换到某空间后是稀疏的,即很少系数 不为零。现有的大量研究结果表明,基于和具体 信号无关的固定的变换,比如小波变换,通常不 能使变换后的信号足够稀疏。针对特定类型的信 号学习得到的稀疏变换会带来更好的稀疏性。 D ∈ Rn ×K K (K > n) x ∈ Rn α0 ∈ RK x x = Dα0 假设 为 原子的超完备字典 , 为能在字典 D 下形成稀疏表示的信号。那 么在 的前提下,信号 能被表示为 。 基于压缩感知的图像去马赛克 (Demosaicing) 可被表示成如下问题: y = Mx (1) x M y 式中: 表示未知的全色彩的原始图像全部信息; 表示捕获图像相机使用的已知的 CFA(color filter array) 模版; 为经过 CFA 获取到的图像信息。 y x x 图像重构的核心目标就是从测量得到的信号 中恢复出原始的图像信息 。压缩感知理论证 明了原始信号 是可求解的,只要满足以下条件: 1) 在特定的字典 D 中,x 有一个足够稀疏的 表示: γ : x = Dγ (2) 2) 其中投影矩阵 MD 必须满足一些特定条 件,比如有限等距性质 (restricted isometry property,RIP 性质)。 RIP 性质保证了观测矩阵不会把两个不同的 稀疏信号映射到同一个集合中 (保证原空间到稀 疏空间的一一映射关系),要求从观测矩阵中抽取 的每 M 个列向量构成的矩阵是非奇异的。在具 体情况中一般采用固定大小的稀疏矩阵,往往通 过构造恰当的测量矩阵使得满足 RIP 等约束条件。 稀疏编码 (sparse coding) 可被描述为 ∧ γ = argminγ ∥ γ ∥p s.t. ∥ x− Dγ∥ 2 < ε (3) x ∧ 式中: 是原始信号; γ 是需要得到的稀疏信号。 本文需要解决的问题: 1) γ 是否存在唯一解,如果有,如何得到; 2) 如何判断求得的 γ 是最稀疏的。 唯一性定理 结合式 (1) 和式 (3),可以得到: ∧ γ = arg minγ ∥ γ ∥p s.t. ∥ y−MDγ∥ 2 < ε (4) 式 (4) 也可以被正则化描述成: ∧ γ = arg minγ ∥ y−MDγ∥ 2 +λ ∥ γ∥p (5) y p p = 0 ℓ0 ℓ1 ℓ1 式中 为经观测得到的信号。一般地 取值区间 为 [0,1]。当 时,由于 函数是不连续的, 直接求解式 (5) 是一个 NP 难问题。因此采用一 些近似算法,譬如 OMP 和其他典型的基于 范 式的近似算法,如 LASSO 和 Magic 来求解。 D 在这个求解问题中,字典集与最终信号的稀 疏编码算法同样重要,其中字典 可以是典型的 数学基,譬如小波、Garbor、傅里叶基等。然而这 些数学基往往不能很好表达复杂的自然图像。 ·878· 智 能 系 统 学 报 第 14 卷
第5期 陶霖密,等:一种恢复图像自然色彩的重构方法 ·879· 2 Sandwich图像数据集 得到的,同样存在和Kodak数据集类似的问题, 为彩色图像的重建引入了多种噪声。 目前广泛的用于测试图像重建、压缩、字典 为了在源头上避免多余的噪声和误差,使用 学习等的图像数据集是Kodak无损图像数据集。 Foveon X3彩色图像传感器(图2)采集了几百幅 Kodak图像数据集中图像为24位全彩色png格 图像作为数据集(下文称Sandwich图像集)。Fo- 式,由Eastman Kodak公司开放无限制使用。这 veon X3彩色图像传感器具有3层结构,没有任 些图像采集来源已不可考,由于其广泛被用于字 何CFA模版,每个像素都直接采样得到RGB 典学习的数据来源和不同图像重构算法性能的评 三色的信息,无需插值,避免了插值、重构等计算 价,有必要谨慎考虑。 带来的误差凶。 如图1所示,Kodak数据集中图像整体饱和 度偏低⑧,亮度较现代数字相片也较暗,与人视觉 3 G 感知到的图像色彩有较大的出入,作为bench- mark其不太贴合自然世界中图片的情况。除此 光信号 之外,良好的数据集图像在色彩转换的边缘处应 当流畅自然,然而Kodak图像数据中明显可见在 CMOS 传感器 色彩边缘处出现了大量的灰黑边。这种情况隐藏 在字典学习的原始信息中,会引发一系列的副作 图2 Foveon X3图像传感器 用,从而导致最终重构的图像也加上了不自然的 Fig.2 Foveon X3 imaging sensor 黑边,称为拉链或锯齿效应。作为基准线测试数 Sandwich图像数据集中的图像是2600×1800 据集,Kodak数据中仅有24幅图片信息,不能满 大小的高清彩色图像,实际应用中可裁剪出任意 足图像重构多字典学习的测试要求。 大小的子图使用。在字典学习过程中有足够充分 的图像信息可供使用,从而使得描述图像时能得 到更好的稀疏性。 图3展示出了Sandwich图像数据集中的一些 样例。从图3中可明显看出,图像边缘处色彩过 渡自然流畅,不会出现黑/灰色边缘,即所谓的拉 链效应。在不出现生硬的过渡黑边的情况下,其 图像结构信息依然保留完好,视觉效果符合人眼 视网膜感知自然世界特性。另一方面,在不同的 光源情况下体现了不同的亮度与饱和度。 图3 Sandwich图像数据集 Fig.3 Sandwich image database 图像数据集的评价:图像数据集不能产生明 显的黑边,支持表达足够丰富的应用场景,视觉 效果评测是检查图像数据集质量的一个重要方 图1柯达图像数据集中存在的灰度边缘 面。但是,视觉效果评测并不是一个客观评价标 Fig.1 Gray edges in the Kodak image database 准,人眼视觉的差异性导致了这个评测的结构难 传统使用的数字图像数据集基本都是由单感 以精确地表达。从数据集学习得到的字典,针对 光器经过CFA模版采样9川,然后经过计算插值 不同的图像处理应用领域,譬如灰度图去噪、彩
2 Sandwich 图像数据集 目前广泛的用于测试图像重建、压缩、字典 学习等的图像数据集是 Kodak 无损图像数据集。 Kodak 图像数据集中图像为 24 位全彩色 png 格 式,由 Eastman Kodak 公司开放无限制使用。这 些图像采集来源已不可考,由于其广泛被用于字 典学习的数据来源和不同图像重构算法性能的评 价,有必要谨慎考虑。 如图 1 所示,Kodak 数据集中图像整体饱和 度偏低[8] ,亮度较现代数字相片也较暗,与人视觉 感知到的图像色彩有较大的出入,作为 benchmark 其不太贴合自然世界中图片的情况。除此 之外,良好的数据集图像在色彩转换的边缘处应 当流畅自然,然而 Kodak 图像数据中明显可见在 色彩边缘处出现了大量的灰黑边。这种情况隐藏 在字典学习的原始信息中,会引发一系列的副作 用,从而导致最终重构的图像也加上了不自然的 黑边,称为拉链或锯齿效应。作为基准线测试数 据集,Kodak 数据中仅有 24 幅图片信息,不能满 足图像重构多字典学习的测试要求。 图 1 柯达图像数据集中存在的灰度边缘 Fig. 1 Gray edges in the Kodak image database 传统使用的数字图像数据集基本都是由单感 光器经过 CFA 模版采样[9-11] ,然后经过计算插值 得到的,同样存在和 Kodak 数据集类似的问题, 为彩色图像的重建引入了多种噪声[12]。 为了在源头上避免多余的噪声和误差,使用 Foveon X3 彩色图像传感器 (图 2) 采集了几百幅 图像作为数据集 (下文称 Sandwich 图像集)。Foveon X3 彩色图像传感器具有 3 层结构,没有任 何 CFA 模版,每个像素都直接采样得到 RGB 三色的信息,无需插值,避免了插值、重构等计算 带来的误差[12]。 光信号 传感器 CMOS B G R 图 2 Foveon X3 图像传感器 Fig. 2 Foveon X3 imaging sensor Sandwich 图像数据集中的图像是 2 600×1 800 大小的高清彩色图像,实际应用中可裁剪出任意 大小的子图使用。在字典学习过程中有足够充分 的图像信息可供使用,从而使得描述图像时能得 到更好的稀疏性。 图 3 展示出了 Sandwich 图像数据集中的一些 样例。从图 3 中可明显看出,图像边缘处色彩过 渡自然流畅,不会出现黑/灰色边缘,即所谓的拉 链效应。在不出现生硬的过渡黑边的情况下,其 图像结构信息依然保留完好,视觉效果符合人眼 视网膜感知自然世界特性。另一方面,在不同的 光源情况下体现了不同的亮度与饱和度。 图 3 Sandwich 图像数据集 Fig. 3 Sandwich image database 图像数据集的评价:图像数据集不能产生明 显的黑边,支持表达足够丰富的应用场景,视觉 效果评测是检查图像数据集质量的一个重要方 面。但是,视觉效果评测并不是一个客观评价标 准,人眼视觉的差异性导致了这个评测的结构难 以精确地表达。从数据集学习得到的字典,针对 不同的图像处理应用领域,譬如灰度图去噪、彩 第 5 期 陶霖密,等:一种恢复图像自然色彩的重构方法 ·879·
·880· 智能系统学报 第14卷 色图像去噪、非均匀图像去噪修复等进行仿真实 验,比较最终重构的图像PSNR等客观数据。 3图像重构实验 基于传统、广泛使用的Kodak图像数据集, 经由K-SVD算法学习到的字典31(下文统称 (a)基于Sandwich字典所重构的图像 Kodak字典)是完备的,每个字典原子patch大小 为8×8×3,总共有192个原子。这些原子中具有 明显的黑灰边信息(见图4),且彩色字典的边缘 几乎全部都呈现灰色,可见其RGB三通道具有强 烈的相关性。同时,字典的原子饱和度低下,不 足以表达丰富的色彩信息。 (b)基于Kodak字典所重构的图像 图6水果图图像重构实验对比 Fig.6 Comparisons of the original and reconstructed fruit image 图7分别显示了从Kodak数据中学习到的字 典造成了重构图像中原本不存在的杂色或伪色 图4基于柯达图像学习的字典 彩(图7(a),以及Sandwich字典重构的图像就不 Fig.4 Dictionary learned from the Kodak image database 存在伪色彩(图7(b),其原因是Kodak数据集中 基于Sandwich数据集,经由K-SVD算法学习 的图像数据饱和度低、三通道间相关性强、缺失 到的字典(下文统称Sandwich字典)与Kodak字 自然色彩信息。广泛使用的图像基准集Kodak 典相同,Sandwich字典原子patch大小为8×8×3, 图像数据集中在边缘处存在大量黑边,在压缩感 总共有192个原子,也是完备的。Sandwich字典 知的字典学习过程中这种三通道高相关性天然存 中,其原子呈现出完全不同的特性(见图5)。 在的缺陷将会被引入到最终被重构的字典中。这 Sandwich字典的色彩过渡自然,未出现不自然、 种存在于字典之中的缺陷最终被引入到重构的图 生硬的黑边现象。由于足够丰富的场景和光源使 像中。最后针对应用不同图像数据集字典重构的 得字典饱和度和亮度得到充分的体现。字典原子 图像比较PSNR(peak signal to noise ratio,峰值信噪 三通道间的差异较大,没有强制的正相关性,符 比),表明基于新的Sandwich数据集所重构的图 合视觉感知的图像色彩特性。另外在这种字典中 像具有更好的PSNR(见表I) 还具有良好的局部不变特征(如角点、斑点等)。 图5基于Sandwich图像学习的字典 (a)基于Sandwich字典所重构的图像 Fig.5 Dictionary learned from the Sandwich image data- base 本文采用相同的Sandwich图片,首先下采样 得到彩色图像传感器所获取的三分之一图像信 息,然后分别基于Kodak字典和Sandwich字典进 行恢复重构。图6分别为从Kodak字典恢复的重 (b)基于Kodak字典所重构的图像 构图像,和Sandwich恢复图像。图6(a)平白增加 图7灰砖图图像重构实验对比 了原本不存在的黑边,该黑边信息从Kodak图像 Fig.7 Comparisons of the original and reconstructed 中引入。 brick image
色图像去噪、非均匀图像去噪修复等进行仿真实 验,比较最终重构的图像 PSNR 等客观数据。 3 图像重构实验 基于传统、广泛使用的 Kodak 图像数据集, 经由 K-SVD 算法学习到的字典[13-14] (下文统称 Kodak 字典) 是完备的,每个字典原子 patch 大小 为 8×8×3,总共有 192 个原子。这些原子中具有 明显的黑灰边信息 (见图 4),且彩色字典的边缘 几乎全部都呈现灰色,可见其 RGB 三通道具有强 烈的相关性。同时,字典的原子饱和度低下,不 足以表达丰富的色彩信息。 图 4 基于柯达图像学习的字典 Fig. 4 Dictionary learned from the Kodak image database 基于 Sandwich 数据集,经由 K-SVD 算法学习 到的字典 (下文统称 Sandwich 字典) 与 Kodak 字 典相同,Sandwich 字典原子 patch 大小为 8×8×3, 总共有 192 个原子,也是完备的。Sandwich 字典 中,其原子呈现出完全不同的特 性 (见 图 5 )。 Sandwich 字典的色彩过渡自然,未出现不自然、 生硬的黑边现象。由于足够丰富的场景和光源使 得字典饱和度和亮度得到充分的体现。字典原子 三通道间的差异较大,没有强制的正相关性,符 合视觉感知的图像色彩特性。另外在这种字典中 还具有良好的局部不变特征 (如角点、斑点等)。 图 5 基于 Sandwich 图像学习的字典 Fig. 5 Dictionary learned from the Sandwich image database 本文采用相同的 Sandwich 图片,首先下采样 得到彩色图像传感器所获取的三分之一图像信 息,然后分别基于 Kodak 字典和 Sandwich 字典进 行恢复重构。图 6 分别为从 Kodak 字典恢复的重 构图像,和 Sandwich 恢复图像。图 6(a) 平白增加 了原本不存在的黑边,该黑边信息从 Kodak 图像 中引入。 (a) 基于 Sandwich 字典所重构的图像 (b) 基于 Kodak 字典所重构的图像 图 6 水果图图像重构实验对比 Fig. 6 Comparisons of the original and reconstructed fruit image 图 7 分别显示了从 Kodak 数据中学习到的字 典造成了重构图像中原本不存在的杂色或伪色 彩 (图 7(a)),以及 Sandwich 字典重构的图像就不 存在伪色彩 (图 7(b)),其原因是 Kodak 数据集中 的图像数据饱和度低、三通道间相关性强、缺失 自然色彩信息。广泛使用的图像基准集 Kodak 图像数据集中在边缘处存在大量黑边,在压缩感 知的字典学习过程中这种三通道高相关性天然存 在的缺陷将会被引入到最终被重构的字典中。这 种存在于字典之中的缺陷最终被引入到重构的图 像中。最后针对应用不同图像数据集字典重构的 图像比较 PSNR(peak signal to noise ratio,峰值信噪 比),表明基于新的 Sandwich 数据集所重构的图 像具有更好的 PSNR(见表 1)。 (a) 基于 Sandwich 字典所重构的图像 (b) 基于 Kodak 字典所重构的图像 图 7 灰砖图图像重构实验对比 Fig. 7 Comparisons of the original and reconstructed brick image ·880· 智 能 系 统 学 报 第 14 卷
第5期 陶霖密,等:一种恢复图像自然色彩的重构方法 ·881· 表1图像重构实验结果PSNR对比 22(6):2356-2371 Table 1 Comparison of the original and reconstructed of [8]FRANZEN R.Kodak lossless true color image suite[EB/OL]. PSNR (1999-11-15)[2018-03-22].http://rok.us/graphics/kodak. 图像 Kodak数据集 Sandwich数据集 [9]GUNTURK B K.GLOTZBACH J,ALTUNBASAK Y,et 水果图像 33.58 37.39 al.Demosaicking:color filter array interpolation[J].IEEE 灰砖图像 42.12 46.40 signal processing magazine,2005,22(1):44-54. [10]GUNTURK B K,ALTUNBASAK Y,MERSEREAU R 4结束语 M.Color plane interpolation using alternating projections [J].IEEE transactions on image processing,2002,11(9): 具有正常色彩感知视觉的成年人,其视网膜 997-1013. 中红、绿、蓝三色传感器在视网膜中随机分布。 [11]LI Xin,GUNTURK B,ZHANG Lei.Image demosaicing: 人脑感知自然世界的过程本身就是一个不完全信 a systematic survey[C]//Proceedings of Visual Commu- 号恢复过程。但是在基于压缩感知的图像重构过 nications and Image Processing 2008.San Jose,United 程中存在的图像-重构-图像循环悖论表明,通过 States,2008:68221J 新的图像数据库可以打破该循环悖论,从而显著 [12]NAKAMURA J.Image sensors and signal processing for 提高重构图像的质量。 digital still cameras[M].Boca Raton:CRC Press,2005. 本文从图像数据库这一全新的角度研究了图 [13]LOSSON O,MACAIRE L,YANG Y.Comparison of 像重构问题,开发的Sandwich数据库是一种普适 color demosaicing methods[J].Advances in imaging and 的图像数据库,可以广泛地用于各种图像重构、 electron physics,2010,162:173-265. 图像质量评估等研究。 [14]CANDES E J.ROMBERG J,TAO T.Robust uncertainty principles:exact signal reconstruction from highly incom- 参考文献: plete frequency information[J].IEEE transactions on in- formation theory,2006,52(2):489-509. [1]KIMMEL R.Demosaicing:image reconstruction from col- or CCD samples[J].IEEE transactions on image pro- 作者简介: cessing1999,8(9:1221-1228. 陶霖密,男.1962年生,副教授 [2]DONOHO D L.Compressed sensing[J1.IEEE transactions 主要研究方向为人机交互、计算机视 on information theory.2006.52(4):1289-1306. 觉与模式识别。承担国家重点基金情 [3]GHARBI M,CHAURASIA G,PARIS S,et al.Deep joint 感计算项目,以及与IBM、NTEL、SI EMENS的国际合作基金项目等。发 demosaicking and denoising[J].ACM transactions on 表学术论文多篇。 graphics,2016,35(6):191. [4]ZHANG Meiqing,TAO Linmi.A patch aware multiple dictionary framework for demosaicing[C]//Proceedings of 袁春,男,1969年生,副研究员 博士生导师,主要研究方向为机器学 the 12th Asian Conference on Computer Vision.Singa- 习、计算机视觉、视频分析与处理。先 pore,Singapore,2014:236-251. 后负责和参与微软、欧盟、国家自然科 [5]ZHANG Lei,WU Xiaolin,BUADES A,et al.Color demo- 学基金、863和973等重要研究课 saicking by local directional interpolation and nonlocal ad- 题。取得专利15项,发表学术论文 aptive thresholding[J].Journal of electronic imaging,2011, 70余篇。 20(2):023016. [6]MAIRAL J,ELAD M.SAPIRO G.Sparse representation 王浩达,男,1992年生,硕士研究 生,主要研究方向为机器学习、计算机 for color image restoration[J].IEEE transactions on image 视觉。 processing,2008,17(1):53-69. [7]MOGHADAM AA,AGHAGOLZADEH M,KUMAR M. et al.Compressive framework for demosaicing of natural images[J].IEEE transactions on image processing,2013
表 1 图像重构实验结果 PSNR 对比 Table 1 Comparison of the original and reconstructed of PSNR 图像 Kodak数据集 Sandwich数据集 水果图像 33.58 37.39 灰砖图像 42.12 46.40 4 结束语 具有正常色彩感知视觉的成年人,其视网膜 中红、绿、蓝三色传感器在视网膜中随机分布。 人脑感知自然世界的过程本身就是一个不完全信 号恢复过程。但是在基于压缩感知的图像重构过 程中存在的图像−重构−图像循环悖论表明,通过 新的图像数据库可以打破该循环悖论,从而显著 提高重构图像的质量。 本文从图像数据库这一全新的角度研究了图 像重构问题,开发的 Sandwich 数据库是一种普适 的图像数据库,可以广泛地用于各种图像重构、 图像质量评估等研究。 参考文献: KIMMEL R. Demosaicing: image reconstruction from color CCD samples[J]. IEEE transactions on image processing, 1999, 8(9): 1221–1228. [1] DONOHO D L. Compressed sensing[J]. IEEE transactions on information theory, 2006, 52(4): 1289–1306. [2] GHARBI M, CHAURASIA G, PARIS S, et al. Deep joint demosaicking and denoising[J]. ACM transactions on graphics, 2016, 35(6): 191. [3] ZHANG Meiqing, TAO Linmi. A patch aware multiple dictionary framework for demosaicing[C]//Proceedings of the 12th Asian Conference on Computer Vision. Singapore, Singapore, 2014: 236–251. [4] ZHANG Lei, WU Xiaolin, BUADES A, et al. Color demosaicking by local directional interpolation and nonlocal adaptive thresholding[J]. Journal of electronic imaging, 2011, 20(2): 023016. [5] MAIRAL J, ELAD M, SAPIRO G. Sparse representation for color image restoration[J]. IEEE transactions on image processing, 2008, 17(1): 53–69. [6] MOGHADAM A A, AGHAGOLZADEH M, KUMAR M, et al. Compressive framework for demosaicing of natural images[J]. IEEE transactions on image processing, 2013, [7] 22(6): 2356–2371. FRANZEN R. Kodak lossless true color image suite[EB/OL]. (1999-11-15)[2018-03-22]. http://r0k.us/graphics/kodak. [8] GUNTURK B K, GLOTZBACH J, ALTUNBASAK Y, et al. Demosaicking: color filter array interpolation[J]. IEEE signal processing magazine, 2005, 22(1): 44–54. [9] GUNTURK B K, ALTUNBASAK Y, MERSEREAU R M. Color plane interpolation using alternating projections [J]. IEEE transactions on image processing, 2002, 11(9): 997–1013. [10] LI Xin, GUNTURK B, ZHANG Lei. Image demosaicing: a systematic survey[C]//Proceedings of Visual Communications and Image Processing 2008. San Jose, United States, 2008: 68221J. [11] NAKAMURA J. Image sensors and signal processing for digital still cameras[M]. Boca Raton: CRC Press, 2005. [12] LOSSON O, MACAIRE L, YANG Y. Comparison of color demosaicing methods[J]. Advances in imaging and electron physics, 2010, 162: 173–265. [13] CANDÈS E J, ROMBERG J, TAO T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information[J]. IEEE transactions on information theory, 2006, 52(2): 489–509. [14] 作者简介: 陶霖密,男,1962 年生,副教授, 主要研究方向为人机交互、计算机视 觉与模式识别。承担国家重点基金情 感计算项目,以及与 IBM、INTEL、SIEMENS 的国际合作基金项目等。发 表学术论文多篇。 袁春,男,1969 年生,副研究员, 博士生导师,主要研究方向为机器学 习、计算机视觉、视频分析与处理。先 后负责和参与微软、欧盟、国家自然科 学基金、863 和 973 等重要研究课 题。取得专利 15 项,发表学术论文 70 余篇。 王浩达,男,1992 年生,硕士研究 生,主要研究方向为机器学习、计算机 视觉。 第 5 期 陶霖密,等:一种恢复图像自然色彩的重构方法 ·881·