D0I:10.13374/j.issn1001-053x.2000.02.025 第22卷第2期 北京科技大学学报 Vol.22 No.2 2000年4月 Journal of University of Science and Technology Beijing Apr.2000 一种基于视觉熵的图像分割压缩方法 单志广魏涛杨扬 北京科技大学信息工程学院,北京100083 摘要基于视觉熵概念提出了一种静止图像分割压缩方法,通过对人类视觉系统特性的归纳, 总结了基于视觉熵的图像分割原理,提出了用于量化图像特征的数学定义和基于视觉熵的分 割算法.实验结果表明,这种基于视觉熵的图像分割压缩算法既提高了压缩比,又能保证压缩 后的重建图像整体上具有高的主观视觉感知质量, 关键词视觉熵:图像分割:图像编码 分类号TP391.41 图像压缩编码的理论基础是信息论,从信 的信息量I(x)被定义为: 息论的角度看,压缩就是去掉信息中的冗余,保 I(x)=-log2p(x), 留不确定的因素,去除确定的因素,用更接近信 式中,p(c)为x(1,2,…n)出现的概率. 息本质的描述来代替原有冗余的描述.这个本 信息的熵(Entropy)H()就是信源X中所有 质的东西就是信息量(即不确定因素).但信息 目标的平均信息量,即: 量不是孤立、绝对的,它与信息的传递密切相 HX)=-∑p()log:p(x). 关,信息接受者知识世界的改变是信息传递的 熵是一种对不确定问题的度量准则.一幅 本质.人眼是一种最优的图像编码系统,图像信 图像的熵值是它的平均信息量的量度,图像中 息传递的本质特征应该与人眼的视觉特性保持 有许多信息是冗余的,去掉冗余的信息,而使压 致. 缩后的图像熵值不低于图像信息源的熵值,则 近年来人们从人类视觉系统HVS(Human 不会丢失图像的有用信息,这一结论就是图像 Vision System)的研究中得到启发,基于HVS的 压缩编码的依据, 压缩方法引起了人们的广泛注意.对于一幅图 12人类视觉的生理特性和心理特性围 像,人眼对其中每个区域的敏感度是不同的,从 从生理学知,视觉受到大脑的选择性注意 而导致了HVS对图像各个部分的注意力不均 机制的控制,人无法同时识别同一复杂场景内 匀且没有规律,而这决定了人对图像视觉信息 部的多个目标,只有进入黄斑区内的景物信息 的理解.如果不考虑图像表达的意义,不把图像 被充分接收,而之外的大量信息最终被中心滤 内容与编码方法结合起来,对整个图像一概而 波.另外,视觉选择性与客体的特性也有很大的 论,显然是不合理的.为了衡量图像信息量的大 关系.人眼对空间频率接近于零的平滑区域和 小以及人类视觉系统对图像的敏感程度,人们 空间频率相似的纹理区域有很大的视觉“钝 提出了视觉熵VE(Visual Entropy)的概念. 性”,所以“不变”与“规则变化”的场景很容易 1视觉熵(VE) 在人的意识中遗忘,视觉似乎只对“突变”和“极 不规则变化”的区域感兴趣. 视觉熵是信息熵的概念与人类视觉系统 从心理学和美学角度讲,视觉是具有选择 (HVS)特性的结合. 性的.研究表明,人类视觉的选择性使人们的目 11信息熵概念 标集中于周围环境中使生活变得更加美好和那 在信息论中,信源X中目标x(1,2,…,m) 些妨碍生活正常进行的方面,从而进一步说明, 视觉是一种积极的感受行为,不仅与物理和生 1999-09-10收稿单志广男,24岁,博士生 理因素有关,在相当程度上也取决于心理因素, *国家自然科学基金资助课题(N0.69873012)
第 2 2 卷 第 2 期 20 0 0 年 4 月 北 京 科 技 大 学 学 报 J o u r n a l o f U n iv e r s ity o f S e i e n e e a n d Te e h n o l o g y B e ij i n g V 6 1 . 2 2 N O. 2 A P r. 2 0 0 0 一种基于 视觉嫡 的图像分 割压缩方 法 单志广 魏 涛 杨 扬 北京科技大学信息工程学院 , 北京 10 0 0 83 摘 要 基 于视觉 嫡概 念提 出了一种 静止 图像 分割 压缩方 法 . 通 过对 人类视 觉 系统特 性的 归纳 , 总结 了基 于 视觉嫡 的图像 分割 原 理 , 提 出 了用 于 量化 图像 特征 的数 学 定义和 基十 视觉 嫡 的分 割算 法 . 实验 结 果表 明 , 这种 基于 视觉 嫡 的 图像 分 割压 缩算 法 既提 高 了压 缩 比 , 又 能保 证压 缩 后 的重 建 图像整 体上 具有 高 的主 观视 觉感 知质 量 . 关键 词 视觉 嫡 : 图像 分 割 : 图像编 码 分 类号 T P 3 9 1 . 4 1 图像 压缩编 码 的理 论 基础是 信 息论 . 从 信 息论 的角度看 , 压缩就是 去 掉信 息中的冗余 , 保 留不 确定 的因素 , 去 除确定 的因素 , 用 更接近信 息本质 的描述 来代 替原有冗余 的描述 . 这个本 质 的东西 就 是 信息 量 ( 即不 确 定 因素 ) . 但信 息 量 不 是 孤立 、 绝对 的 , 它 与信 息 的传 递密 切 相 关 , 信息 接 受者知 识世界 的改变是 信 息 传递 的 本质 . 人眼 是 一种最优 的图像 编码 系统 , 图像信 息传递 的本质特征应该与人眼 的视觉特 性保 持 一 致 . 近 年来 人们 从 人类视觉 系统 H V S ( H um an iV is on yS st e m ) 的研究 中得到启 发 , 基于 H V S 的 压缩方法 引 起 了人们 的 广泛注意 〔” . 对于 一 幅图 像 , 人 眼对其 中每 个区 域的 敏感度是不 同 的 , 从 而 导 致 了 H V S 对 图像各 个部 分 的 注意力 不 均 匀且没有 规律 , 而这 决定 了人对 图 像视觉信 息 的理解 . 如 果 不考虑 图像表达 的意义 , 不 把图 像 内容与编码 方法 结 合起 来 , 对 整个 图像 一概 而 论 , 显然 是 不 合理 的 . 为 了衡量 图像信息量的大 小 以及 人类视觉 系统对 图 像 的敏 感程度 , 人们 提 出 了视觉嫡 V E (iV s u a l E n t r o p y ) `, ,的概念 . 的信 息量 I x(t ) 被定义 为 : Z( x 护 ) = 一 l o g Z P x( 艺 ) , 式 中 , p x(, )为 x , ( =1 1 , 2 , … , n) 出现 的概率 . 信 息的 嫡 ( E ntr o yP ) 拭刀 就 是 信源 x 中所有 目标 的平均信 息量 , 即 : 州幻 二 一 艺p x( ,l) 。 g Z p x( ) . 1 视觉嫡 ( V E ) 视 觉 嫡 是信 息嫡 的概念 与人 类 视 觉 系 统 ( H V S )特 性 的结合 . 1 . 1信息嫡概念 在 信息论 中 , 信源 x 中 目标 x : ( i司 , 2 , … , n) 19 9 9 一 09 一 10 收稿 单 志广 男 , 24 岁 , 博士 生 * 国家 自然科 学基金 资助 课题 ( N 氏 6 9 8 7 3 01 2) 嫡 是 一 种对 不 确定 问题 的 度量准 则 . 一 幅 图像 的嫡值 是 它 的平均信 息量 的量度 , 图像 中 有许 多信 息是冗余 的 , 去 掉冗余 的信息 , 而使压 缩后 的 图像嫡 值不 低 于 图 像信息源 的嫡值 , 则 不 会 丢 失 图像 的 有用信 息 . 这 一 结论就是 图像 压 缩 编码 的依据 . L Z 人 类视觉的生理特性和 心 理特性ls] 从生 理 学知 , 视 觉受到 大脑 的 选择性注 意 机 制的控制 , 人无法 同 时 识别 同 一 复杂场 景 内 部 的多个 目标 , 只 有 进入黄斑 区 内的景物信息 被 充分接 收 , 而 之 外的 大量信 息最 终被 中心 滤 波 . 另外 , 视觉选择性与客体的特 性也有很 大的 关系 . 人眼 对空 间频 率接近于 零 的 平 滑 区域和 空 间频 率相 似 的 纹 理 区 域有 很 大 的视觉 “ 钝 性 ” , 所 以 “ 不 变 ” 与 “ 规则变化 ” 的场景很 容易 在 人 的 意 识中遗 忘 , 视觉 似乎 只 对 “ 突变 ” 和 “ 极 不 规则 变化 ” 的 区域 感兴 趣 . 从心 理 学 和 美 学角度讲 , 视觉是 具有选择 性的 . 研 究表 明 , 人类视觉 的选择 性 使人们 的 目 标集中于 周 围环境 中使生 活变得更加美好和 那 些妨碍生 活正 常进行的 方面 . 从而进 一步说明 , 视觉是 一 种积极 的 感受行 为 , 不 仅与物理和 生 理因 素有关 , 在相 当程度 上 也取 决于 心 理 因素 . DOI: 10. 13374 /j . issn1001 -053x. 2000. 02. 025
·186 北京科技大学学报 2000年第2期 1.3VE的概念 壁纸的花纹),人眼会产生一种适应性,以至于 一幅图像的局部视觉熵定义为:对于一幅 很容易在人的意识中遗忘,使得人眼对这种区 图像的特定区域,在保证编码后的图像与原图 域的注意力降低.而且普遍来说这些区域包含 像无太大视觉感知差异的前提下,可获得的编 的内容意义并不大,对图像理解不起决定性作 码后的每个像素的最小比特数. 用 可见,细节少的区域以较低的比特数就可 (6)对于一幅图像,如果某一区域的变化是 以编码获得高逼真度,其视觉熵就低:具有重要 没有规律的,人眼就会很敏感:如果某一区域的 感知细节的区域视觉熵就高,然而,细节与视觉 变化规律与周围区域的变化规律差别很大,就 熵并不等同.因为具有高细节的区域(如随机纹 会极大地引起人们对这一区域的兴趣,HVS对 理)也可能压缩到很低的比特率而不会引起感 这种区域的敏感度最高, 知上的明显扭曲 从理论和数学的角度描述VE至关重要,但 视觉熵对于研究具有可变感知级别的编码 在观察一幅图像时,HVS的结构机理是很复杂 是一种概念上的指导.视觉熵描述的是人眼对 的,以至于人们很难掌握其各个区域VE的变 信息的一种主观量度,是对HVS的一种很好的 化.为了简化研究,我们在对客观进行假设的情 仿真,具有符合人类视觉特性的特点,能够把人 况下,对基于视觉熵VE的分割原理作一个原 眼对图像的敏感度进行量化, 始的数学描述 视觉熵理论现在还处在发展阶段.虽然目 (1)在基于VE的图像分割中,只考虑每个 前还没有精确的方法计算某个图像区域的视觉 图像区域的内部特性和相邻特性,如下式所示: 熵,但是当图像编码的目标是高的感知质量,而 VE(x)=f[o(x),(x),I] (1) 不是高的信噪比(SNR)或低的均方误差(MSE) 其中,(x),(x)分别表示区域x,的内部特性和 时,视觉熵是一个非常有利的概念. 周围特性,I表示包含x:的图像. (2)我们认为一幅图像中与HVS关系最为 2基于VE的图像分割 紧密的只有2个区域:随机纹理区域和关键点 2.1基于VE的图像分割原理 区域.随机纹理区域对于HVS的理解意义较少, 信息源一般是一种不确定的情况,当看到 而关键点区域却在很大程度上影响了人对图像 一幅图像时,人类视觉的不确定性导致人眼对 的理解,后者的视觉熵远大于前者, 整个图像各个部分的注意力存在差别,而视觉 2.2基于VE的图像分割算法 熵可以成为量度这些信息的工具.通过对HVS (1)基于亮度空间域变化率的第一次分割. 的研究,有以下基本结论: 定义1对于一幅图像的某个区域,其所有 (1)对于一幅图像,HVS对于每一个区域的 像素亮度分量的平均值称为该区域的平均亮 敏感度是不同的,这主要是由于区域内部特性 度,用变量L表示,可以通过下式求得: 与周围区域的特性存在差异. Ln=∑le/n(n≥1) (2) (2)HVS对图像注意力的分布是参差不齐、 其中,4表示每个像素的亮度分量值,n表示这 不均匀的,这决定了人们对图像视觉信息的理 个区域中像素的数量. 解. 定义2一幅图像中,2个相邻像素亮度分 (3)HVS对于亮度的空间频率变化(如纹理 量的差的绝对值称为两个像素间的亮度变化, 结构)其敏感度要大于相同空间频率的其他因 用变量D表示,可以通过下式求得: 素的变化.即人眼对亮度的突变最为敏感,这些 Du=1-1 (3) 区域往往是图像中包含信息量最大,对人们的 其中,h表示2个相邻像素的亮度分量值. 理解最为重要的部分, 定义3对于一幅图像的某个区域,所有相 (4)HVS对亮度突然变化的区域的敏感度 邻像素亮度变化D的总和与该区域中所含像素 大于亮度变化慢或变化小的区域 总数的比,称为该区域的亮度变化率,用变量C (5)HVS虽然对图像中亮度变化大的区域 表示,可以通过下式求得: 比较敏感,但对具有规则变化的区域(如窗帘或 C.DIn (4) m1m=!
一 1 8 6 - 北 京 科 技 1 . 3 V E 的概念 一幅 图像 的局 部视觉嫡 `4 1定义为 : 对于 一 幅 图像 的特 定 区 域 , 在保 证编码后 的 图像 与原 图 像无太 大视觉 感知 差 异 的前提下 , 可获 得的编 码后 的每个像 素 的最小 比特 数 . 可 见 , 细 节少 的区 域 以较低 的 比特 数就可 以编码获得高逼真度 , 其视觉嫡就低 ; 具 有重要 感知 细 节 的区域视 觉嫡 就高 . 然而 , 细 节 与视觉 嫡并不 等 同 . 因为具 有 高细 节 的区域 ( 如 随机纹 理 ) 也 可 能 压 缩 到 很低 的 比特 率而 不 会 引起 感 知 上 的 明显 扭 曲 . 视 觉嫡 对于 研 究具 有 可变 感 知 级 别 的编码 是 一 种概念 上 的 指导 . 视觉嫡 描 述 的是 人眼 对 信 息 的一种 主 观量度 , 是 对 H V S 的一 种 很好 的 仿真 , 具 有符合人类视觉特性 的特 点 , 能够把人 眼 对 图像 的 敏感度进行 量化 . 视 觉嫡理 论现在还 处 在发展 阶段 . 虽 然 目 前还没有精确的 方法计 算某 个 图像 区域 的视觉 嫡 , 但是 当 图像编码 的 目标 是 高的感 知质 量 , 而 不 是高 的信 噪 比 ( SN R ) 或低的均方误差 ( M S E ) 时 , 视觉嫡 是一 个非 常有利 的概 念 . 2 基于 V E 的图像分割 2 . 1 基于 V E 的图像分割原理 信息源 一般是 一种 不 确 定的 情况 , 当看 到 一 幅 图像 时 , 人 类视觉 的不 确定性 导致人眼 对 整个 图像 各个部 分 的 注意 力存在差别 , 而 视 觉 嫡可 以 成 为量度这 些信息 的 工 具 . 通过 对 H V S 的研 究 , 有 以下基本 结论 : ( 1) 对 于 一幅 图像 , H v s 对于 每一 个 区域 的 敏感度 是不 同 的 , 这 主 要是 由于 区 域 内部特 性 与周 围区 域 的特 性存在差 异 . (2 ) H v s 对 图像注 意力的 分布是参差 不 齐 、 不 均匀 的 , 这 决定 了人们 对 图像视 觉信息 的理 解 . (3) H V S 对于 亮度 的空 间频率变化 ( 如纹理 结构 ) 其敏 感度要大 于 相 同空 间频 率 的其他 因 素 的变化 , 即 人眼 对亮度 的突变最 为敏感 , 这些 区 域往往 是 图像 中包含信 息量最大 , 对人们 的 理解最 为重要 的 部分 . ( 4 ) H V S 对 亮度突 然变化 的 区 域 的敏感 度 大于亮度 变化慢 或变化小 的区 域 . (5) H V S 虽 然对 图像 中亮度变 化大 的 区 域 比较敏感 , 但 对具 有规则变化 的区 域 ( 如窗帘或 大 学 学 报 2 0 00 年 第 2 期 壁纸 的花纹 ) , 人眼 会产 生 一种 适应 性 , 以至 于 很容 易在 人 的意识 中遗忘 , 使得人 眼 对这种 区 域 的注 意力 降低 . 而 且 普遍来说这些 区 域包含 的 内容 意义并 不 大 , 对 图 像理 解不 起 决定 性作 用 . ( 6) 对于 一幅 图像 , 如果 某 一 区 域的变化是 没有规律 的 , 人眼 就会很敏感 ; 如果某一 区 域 的 变化规律 与周 围区 域 的变 化规律差 别 很 大 , 就 会极 大地 引 起人 们对这一 区 域 的兴 趣 , H V S 对 这种 区 域 的敏感 度最 高 . 从理论和 数 学的角度描述 V E 至 关重 要 , 但 在观察 一幅 图像 时 , H V S 的结 构机理 是 很 复 杂 的 , 以 至 于 人们 很难掌握其 各 个 区域 V E 的变 化 . 为 了简化研究 , 我们 在对 客观进行假设 的情 况下 , 对 基于 视 觉嫡 V E 的分割 原理 作一 个原 始 的数 学描述 【5] . ( l) 在 基于 V E 的 图像分 割 中 , 只 考虑 每个 图像区 域 的 内部 特性和 相邻特性 , 如下 式所 示 : V E x( 了 ) = f 「价x(, ) , 沪x( , ) , I ] ( l ) 其 中 , 价(x, ) , 势x(, )分别 表 示 区 域 x , 的 内部特 性和 周 围特 性 , I 表示包含 x ` 的 图 像 . (2 ) 我们认 为 一 幅 图像 中与 H V S 关系最 为 紧密 的只 有 2 个 区 域 : 随 机纹理 区域 和 关键 点 区域 . 随机纹理 区域对于 H V S 的理解意义较少 , 而关键 点 区域 却在很 大程度上 影 响 了人对 图像 的理 解 , 后 者 的视 觉嫡远大 于前 者 . .2 2 基于 V E 的图像分 割算法 ( l) 基 于 亮度空 间 域变化率 的第 一 次分割 . 定 义 1 对于 一 幅 图像 的某个 区 域 , 其所有 像 素亮 度 分量 的 平均 值称 为 该 区 域 的 平 均亮 度 , 用 变 量 L 表 示 , 可 以通过 下 式求 得 : L , = 艺l^/ n (n 全 l) ( 2 ) 其 中 , lk 表 示 每个像 素 的亮 度分量值 , n 表示 这 个 区 域 中像素 的数量 . 定 义 2 一 幅 图像 中 , 2 个相 邻像素亮 度分 量 的差 的绝 对值称 为两 个像 素间 的亮度 变化 , 用变量 D 表 示 , 可 以通过下 式求 得 : D 。 = }乙一引 (3 ) 其 中 l, 乙表示 2 个相邻 像素 的亮度 分 量值 . 定 义 3 对于 一 幅 图像 的某个 区 域 , 所 有相 邻像素亮度变 化 D 的总 和 与该 区 域 中所含像素 总数 的 比 , 称为该区 域 的亮度 变化率 , 用变量 C 表示 , 可 以通过下 式求得 : C 一 艺 艺 D I, , n/ ( 4 )
Vol.22 No.2 单志广等:一种基于视觉熵的图像分割压缩方法 ·187· 其中,n表示区域中像素的数量,l,m表示相邻 (2)基于VE的第二次分割.根据图像中区 的2个像素. 域的内部特征对图像进行了初次分割后,我们 亮度变化率C反映了图像区域内部亮度变 再根据区域间特性的差异,对图像进一步分割. 化的大小和快慢,计算出每个区域的C后,就可 为了描述2.1节中(5),(6)2条基于视觉熵分 以根据设定的阈值T将图像划分成“低信息量 块的HVS特性,我们给出以下定义, 区域”(CT),并可通过 定义4一幅图像中,某一个子块i与其所有 调节T的大小来改变图像的压缩比和压缩质量. 相邻子块亮度变化率差值的均方根,称为该子 图像分割要将图像划分成若干N×N的子 块的亮度平均变化率,用变量R表示,这里相邻 块.如果N取得过大,每次运算所需的存储空间 的子块有8个,R可以由下式求得: 和运算时间较大:但当N小到一定程度时,子块 R√(C-C8 (5) 之间的边界上可能存在被称为“边界效应”的不 其中,C,C,为相邻2个子块的亮度变化率. 连续点.通过实践可知,当T 8×8块的C 随机纹理 区域 No Yes 高信息量 计算每个 区域 C>T 8×8块的V Yes 关键点 区域 图2基于视觉熵分割算法示意图 FIg.2 Procedure of VE-based segmentation
V 6】 一 2 2 N 0 . 2 单 志广等 :一 种基 于视 觉嫡 的图像 分 割压 缩方 法 其 中 , n 表示 区 域 中像 素 的数量 , l , m 表 示相 邻 的 2 个像 素 . 亮度 变化率 C 反 映 了 图像 区 域 内部亮度变 化 的 大小 和 快 慢 , 计算 出每 个 区域 的 C 后 , 就 可 以根据 设定 的 闭 值 T 将 图像划 分成 “ 低信息 量 区域 ” ( C< 乃 和 “ 高信 息量区 域 ” (争乃 , 并可通 过 调 节 T 的 大小来改变 图像 的压缩 比和 压缩质量 . 图 像 分 割 要 将 图像 划 分 成 若干 N x N 的子 块 . 如果 N 取 得过 大 , 每次运算所 需 的存储 空 间 和 运算 时 间较大 ; 但 当 N 小到一 定 程度 时 , 子 块 之 间 的边 界 上 可能存在被称 为 “ 边界 效应 ” 的不 连续 点 . 通 过实 践可 知 , 当 刀丈 8 时 , 边 界 效应 比 较 明 显 , 故 N 七 8 要 考虑 到 后 续 的处理 要 采用 D C T 变换 , 所 以在分 割 中 N 取 8 . 这样 一 幅 2 56 x 2 5 6 的图 像被划分为 1 02 4 个子 块 , 分 别进 行 处 理 . 为 了精确 的计 算每个 8 X 8 子 块 的亮度 变化 率 C , 我们 提 出 了 一种 “ 伞 式算法 ” : 从 8 x8 子 块 左上 角 的第 1 个像 素开 始 , 计 算与它 相 邻 的 3 个 像素 的 亮度变化 D , 然 后 再 以这 3 个像 素为起 点 , 依此类 推 , 就可 以计 算 出这个 8铭 子 块 中所 有相 邻 像素 的亮 度变化 . 其运算 的 轨迹像 1 把 打 开 的 伞 , 所 以 称其为伞 式算法 . 如 图 1 所示 . (2 ) 基 于 V E 的第二 次 分 割 . 根据 图像 中区 域 的内部特 征对 图像进 行 了初次分割后 , 我们 再根据 区 域间 特性 的差 异 , 对 图像进一 步分 割 . 为了 描述 2 . 1 节 中 (5 ) , (6 )2 条基于 视觉嫡 分 块 的 H V S 特性 , 我们 给 出 以下 定义 . 定 义 4 一 幅图像 中 , 某一 个 子 块 i 与其所有 相 邻 子块亮 度变化 率差 值 的均 方 根 , 称为该 子 块 的亮度平 均变化率 , 用 变量 R `表示 . 这里 相邻 的 子 块有 8 个 , R 可 以 由下 式求 得 : R , 一 澹 ( C 一 C )8z/ ( 5 ) 其 中 , 认 , C 为相 邻 2 个子 块 的亮度变化率 . 定义 5 对 于 一 幅 图像 的 某个特 定 区域 , 其 中某 一 个子 块 i 的亮度平 均 变化率 R , 与该 区域 的平 均亮度 L , 的 比值 , 称 为该 子 块 的亮度相 对 变化 率 , 用 变量 环表示 : R 厂 ; = 一下万一 乙 n 风 动 又又沐 闪冈髯 X 又 图 1 计 算相 邻像 素 亮度变 化 的伞式 算法 示意 图 F ig . 1 rT a e k o f u m b r a ll a a lg o r i t h m 其 中 , L , 表 示 该 区域 的 平 均 亮度 , n 表 示 该 区 域 的像素数 量 . 子块 的 亮度相 对 变化率 V 反 映了 该 子 块 与 周 围子 块 在亮度 变化上 的 差 异 . 相 对变化率较 高 的区 域对人 眼 理解 图像 意义非 常关键 , 我们 把这种 区 域称 为 “ 关键 点 区 域 ” ; 相 对变化率较 低 的区 域一 般 为一 些相 近 的 纹理 ( 如 墙壁或 桌 布 的花纹 ) , 对 人类 的理解 作用 不 大 , 我们 称 为 “ 随机 纹理 区域 ” . ( 3) 基于 V E 的分割 过程 . 根据视觉嫡 分 割 原理 , 我们 将一 幅 图像划分 为 3 部 分 : 低信息量 区 域 、 随机纹理 区域和 关键 点区域 , 然后 再 进行 压缩 . 分割 过程如 图 2 所 示 . 我 们 以 2 5 6 x 2 5 6 , 2 4 位 真 彩 色 图 像 P O R - 低信息量 区域 今 高信息量 区域 计 算每 个 8 x 8 块 的 V , 随机纹理 区域 图 2 基 于视觉 嫡 分割算 法 示意 图 F l g · 2 P or e e d u er o f V E 一 b a s e d s e g m e n t a t i o n
·188+ 北京科技大学学报 2000年第2期 TRAT为例,将其划分为3个区域,整个分割过 分割的结果与图像的边缘能够较好的吻合,正 程如图3所示.图3显示了对PORTRAIT图像 好将图像中对人眼最敏感的区域分离出来,这 进行2次分割的过程和结果,以及对图像进行 说明我们提出的基于视觉熵的分割方法较好的 的边缘检测,从2种处理方法的结果可以看出, 反映了人类视觉系统在观察一幅图像时的特性, → 第1次分割 ↓边缘检测 第2次分剂业 低信息量区城 随机纹理区城 关键点区域 图3对PORTRAIT图像进行2次分割的示意图 Fig3 Two steps of segmentation and edge detection for image PORTRAIT 3实验及结果 程采用Visual C+5.0,系统的编程,调试和运行 在PIⅡ350计算机上完成.图4给出了用本文所 由于关键点区域是人类视觉系统最为敏感 提出的方法对256×256.24位真彩色图POR- 的区域,对人们理解整个图像的意义和对恢复 TRAT进行压缩的结果,Cx=11,SNR=14.8db. 图像的质量起决定性的作用,因此要求编码后 关键点区域有最小的失真.为此,我们采用了 DCT变换结合动态Huffman编码和游程编码的 方法.对于低信息量和随机纹理区域,由于它们 携带的信息量少,对人类视觉系统不敏感,对人 们理解图像不会起到决定性的作用,所以应提 高对这两部分区域的压缩比.对这两部分的编 码采用DCT编码结合动态Huffman编码的方 法,加大了调节器步长,并使用了分层编码.这 种压缩方法能够取得压缩比与恢复质量二者间 的很好折衷,而且压缩比和恢复质量都可以根 图4基于VE分割算法压缩后重建图像 据要求进行调节,符合我们提出的分割压缩系 C,=11.SNR=14.8db 统对不同区域采用不同压缩比方法的要求, FIg.4 The image PORTRAIT after coding and recon- 本文基于Windows95/Windows NT平台,编 struction using VE-based segmentation
Vol.22 No.2 单志广等:一种基于视觉熵的图像分割压缩方法 ·189· 从压缩结果可以看出,采用基于视觉熵的图 (2)本文在图像分割中使用了的固定尺寸的 像分割压缩方法重建后的图像,能够达到很好子块,导致对于图像中细节丰富的区域划分的 的主观视觉效果,尤其是对人类视觉系统最为不够精细,而对于变化平淡的部分则又显得效 敏感的区域(如眼部区域).对于人类视觉系统率不高,进一步的完善应考虑使用尺寸能够自 不敏感的部分,即本文所定义的低信息量区域适应变化的子块,从而提高分割的效率, 和随机纹理区域,也实现了比较好的主观感知 (3)视觉熵虽然反映了HVS特性,但是它 效果, 没有包含人类的理解.物体基(Object--Based)的 方法和基于内容的压缩编码是当今发展方向, 4结束语 因此应该努力将人类对图像的理解溶入到视觉 基于视觉熵的图像分割原理,提出了用于量 熵理论中,以更好地仿真人类视觉系统,并使图 化图像特征的数学定义和基于视觉熵的分割算 像压缩提高到一个崭新的水平. 法,实验结果表明,这种基于视觉熵的图像分割参考文献 压缩算法是对人的视觉系统很好的仿真,较好1 Wu Xiaolin,.Fang Yonggang..A Segmentation--Based Pre- 地反映了人类视觉系统的特性,描述了人眼对 dictive Multiresolution Image Coder.IEEE Transaction on 图像不同区域的不同敏感度,既提高了压缩比, Image Processing,1995,4(1):34 又保证了压缩后的重建图像整体上具有高的主 2 Fan Guoliang.Zhou Lihua.Visual Entropy-Based Classi- fied Bath Fractal Transform for Image Coding.In:Pro- 观视觉感知质量, ceeding of ICSP'96,1996.898 视觉熵描述了人眼对信息的主观量度,具有3张正阳,闵范保,吴成柯,基于面部定位的头肩像视觉 符合人类视觉特性的特点,能够把人眼对图像质量评价方法.西安电子科技大学学报,1998,25(4: 的敏感度进行量化,是一个很有发展前途的理 403 论.但视觉熵理论还处在发展阶段,需要对其进4 Jacques Vaisey,Allen Gersho.Image Compression with Variable Block Size Segmentation.IEEE Transactions on 行深入的研究和探讨,主要问题有: processing,1992,40(8):2040 (1)视觉熵的数学化描述还不完善,需要对5魏涛基于视觉熵理论的图像分块压缩方法研究学 视觉熵的量化尺度进行统一的描述,形成一致位论文1.北京:北京科技大学,1999 的评测标准 Image Compression with Visual Entropy-Based Segmentation SHAN Zhiguan,WEI Tao,YANG Yang Information Engineering School,UST Beijing,Beijing 100083 China ABSTRACT An image compression method with Visual Entropy-Based segmentation is presented.Firstly the induction of the characteristics of Human Vision System(HVS)and the principles for Visual Entropy-bas- ed segmentation is made.Then the mathematic definition for quantification of image character and the algo- rithm for Visual Entropy-Based segmentation are fully described.The experimental results have shown that image compression with Visual Entropy-Based segmentation can not only gets a rather low bit rate but also gives satisfactory subjective perceptual quality.This method has well emulated the properties of HVS. KEY WORDS visual entropy (VE);image segmentation;image coding
V b l . 2 2 N o . 2 单志 广等 : 一种 基 于视觉 嫡 的 图像分 割 压缩 方法 一 1 89 . 从压缩结 果可 以看 出 , 采用 基于 视觉嫡的图 像分 割压缩 方法重建后 的 图像 , 能够达 到很好 的主观视觉 效果 , 尤其 是 对人类 视觉 系统最 为 敏感 的 区 域 ( 如 眼 部 区 域 ) . 对 于 人类 视觉系统 不 敏感 的 部分 , 即本 文 所定 义的 低信 息量 区域 和 随机 纹理 区 域 , 也 实现 了 比较好 的 主 观感 知 效 果 . 4 结束语 基于 视觉嫡的 图像分割原 理 , 提 出 了用 于 量 化 图像特 征 的数 学 定义和 基 于 视觉嫡 的分割算 法 . 实验 结 果 表 明 , 这 种基于 视觉 嫡 的 图像分 割 压缩算 法是 对人 的视 觉系统很 好 的仿 真 , 较 好 地 反 映 了人 类视觉 系统 的特 性 , 描述 了 人眼 对 图 像不 同 区 域的 不 同敏 感度 , 既 提 高 了压缩 比 , 又保证 了压 缩后 的重建 图像 整体上 具 有高 的主 观视觉 感知 质量 . 视觉嫡描述 了人 眼 对信息 的主 观量 度 , 具 有 符 合人类视 觉特 性 的特 点 , 能够把 人眼 对 图像 的 敏感度进 行量化 , 是 一 个很有 发展前途 的 理 论 . 但 视觉嫡 理论还处 在 发展 阶段 , 需 要 对 其进 行 深入 的研 究和 探讨 , 主 要 问题有 : ( 1) 视觉 嫡 的数 学化描述 还不 完 善 , 需 要 对 视觉嫡 的量化 尺度进行 统一 的描 述 , 形 成一 致 的评测 标准 . (2 )本文在 图像分割 中使用 了 的 固 定 尺 寸的 子 块 , 导 致对 于 图像 中细 节丰 富的区域划分 的 不 够 精细 , 而对于 变 化平淡 的 部 分则 又 显得 效 率 不 高 , 进 一步 的 完善应考 虑 使用尺 寸能 够 自 适 应变化 的 子 块 , 从而 提高 分 割 的效率 . (3 ) 视 觉嫡虽 然 反 映 了 H V S 特性 , 但是 它 没有包 含人类 的 理解 . 物体基 O( bj e t 一 B as e d) 的 方法 和 基 于 内容 的压缩 编码 是 当今 发展 方 向 , 因此应 该 努力将人类对 图像 的理解溶入 到视觉 嫡理 论 中 , 以更 好地仿真人 类视觉 系统 , 并使图 像 压 缩提 高到 一 个 崭新 的水 平 . 参考 文献 W u X i a o l i n , F a n g OY n g g a n g . A S e g m e n tat i o n 一 B a s e d P r e - d i e ti v e M u l t i r e s o l u t i o n Im a g e C o d e .r IE E E rT an s a e ti o n o n l m a g e P or e e s s i n g , 1 9 9 5 , 4 ( l ) : 34 F an G u o li a n g . Z h o u L ih u a . V i s u a l E n t or P y 一 B a s e d C l a s s i - if e d B a tl l F r a e t a l rT an s fo mr fo r Im ag e C o d i n g . I n : P r o - e e e d i n g o f I C S P , 9 6 , 1 9 9 6 . 8 9 8 张 正 阳 , 阂 范保 , 吴 成柯 . 基 于面 部定 位 的头肩像 视觉 质 量评 价 方法 . 西 安 电子 科技 大学 学报 , 1 9 9 8, 25 (4) : 4 0 3 Jac q u e s Va i s e y , A l l e n G e r s h o . Im a g e C o m P er s s i o n w i th V a r i ab l e B l o e k S i z e S e g m e n at i o n . I E E E T r a n s a e t i o n s o n P or c e s s i n g , 1 9 9 2 , 4 0 ( 8 ) : 2 0 4 0 魏 涛 . 基 于视 觉嫡 理 论的 图像分 块压 缩方 法研 究:[ 学 位 论文 1 . 北京 : 北京 科技 大学 , 19 9 I m a g e C o m P r e s s i o n w i t h Vi s u a l E n t r o P y 一 B a s e d S e g m e n t a t i o n S月只N hZ igU an, 班 IE aT o , YA N G aY gn I n fo mr at ion E n g i n e e r i n g S e h o o l , U S T B e ij i n g , B e ij i n g 10 0 0 8 3 C h i n a A B S T R A C T A n im a g e c o m P r e s s i o n m e ht o d w it h Vi s u a l E ntr o yP 一 B a s e d s e g m e nt at i o n 1 5 Pre s e nt e d . F i r s t ly ht e i n du e t i o n o f ht e c h ar a e t e r i s t i e s o f H tun a n Vi s i o n S y s t e m (H V S ) an d t h e P r i n e iP l e s fo r Vi s u a l E ntr o P y 一 b a s - e d s e g m e nt at i o n 1 5 m a d e . T h e n ht e m a t h e m at i e de if n it i o n fo r qu a n t i if e a t i o n o f im a g e e h a r a e t e r a n d ht e a l g o - r iht m fo r Vi s u a l E ntr o P y 一 B a s e d s e g m e nt a t i o n ar e fu ll y d e s e r ib e d . T h e e x P e r im e n t a l r e s u lt s h a v e s h o w n ht at im a g e e o m Pr e s s i o n w iht Vi s u a l E ntr o Py 一 B a s e d s e g m e nt at i o n e an n o t o n l y g e t s a r a ht e r l o w b it r a t e b u t a l s o g i v e s s at i s fa e t o ry s u h j e e t i v e P e r e e Pt u a l qu a lity . hT i s m e ht o d h a s w e ll e m u l at e d ht e Pro P e rt i e s o f H V S . K E Y W O R D S v i s u a l e ntr o P y (V E ) : im a g e s e g n l e nt at i o n : im a g e e o d i n g