·70· 智能系统学报 第2卷 计算方法如下: 1 图像中文本的特征 图像中的文本可以分为2类,即场景文本 2) (scene text)和图形文本(graph text).场景文本出 现在场景中,它能够被视频设备捕捉,是一幅图像的 将i,)归一化,得到归一化的标准差: 组成部分,可作为真实世界中的一个目标,例如:路 牌、告示牌、车牌等.而在另一方面,图形文本是为了 '.(i,》=L边 3) 补充视频图像内容而人工添加的,例如:标题、关键 式中:a=max{ali,j},0≤≤M-1,0≤v-1. 字、摘要、时间、地点等标志,它是为了观看者阅读而 一个像素的不连贯性可以用边缘信息来描述 产生的.图像中文本一般具备以下特征: 文中应用Sobel算子来计算像素I(i,)的不连贯性 纹理:丰富的边缘、角点;周期出现的高强度和 e(i,i): 高频率 色彩:文字多为单色,并与背景有明显的对比, e(i,j)=G (4) 特殊情况下有特定的色彩 将ε(i,)归一化,得到归一化的不连贯性 形状:字符的尺寸有一定范围,字符之间的距离 不会过大,一段文字一般在同一水平或垂直线上 Emi,j功=L边 (5) emax 其他:前面少有遮挡;文字多为正向;同一段 式中:ex=max{e(i,},0≤M-1,0≤V-1. 文字会在连续的多帧图像中出现, 那么,像素I(i,)的Homogeneity的定义如下: 可以利用以上这些特征进行文本区域的检测, 然而视频图像中的文本,尤其是场景文本往往镶嵌 Hm(i,j)=1-Em(i,)X(1-Vm(i,j).(6) 在复杂的背景图像中;文本的颜色、亮度和对比度经 Homogeneity的取值在0和1之间.由以上的 常发生变化:文本的大小、排列和对齐方式不确定; 定义可以看出,如果一个区域越均匀,每一点处的归 受拍摄角度等因素的影响,文本会产生扭曲、变形、 一化标准差Vm(i,》和归一化不连贯性Em(i,)就 残缺、模糊断裂等现象.这些因素都给视频图像中文 越小,计算出每一个点处的Homogeneity值 本的检测造成了极大的困难,因此迫切需要找到一 种适用于各种类型视频图像中文本检测的方法 Hm(i,》就越大. 图像中文本的主要特性可概括为:不连惯性和 2 Homogeneity的定义 高频性,因为文本的区域含有丰富的边角纹理信息」 Homogeneity与从图像中提取出的局部信息有 文本区域像素点的Homogeneity值比较小,能很好 关,它的数值反映了一个区域的一致性的强度,因此 地与背景区域区分开,这个特点为在Homogeneity 它可以被用来进行图像和视频中的文本检测,文中 空间来进行文本检测提供了条件.通过计算图像的 把Homogeneity定义为2个部分的组合:标准差和 Homogeneity将图像映射到Homogeneity空间中 强度的不连贯性。 得到特征图像,如图1所示 设I(i,》是一幅MXN的图像在(i,)位置上 的像素值,wn(i,)是一个以(i,》为中心的n×n大 小的窗口,用来计算标准差;wm(i,》是一个以(亿,沙 成至今年9月 为中心m×m的大小的窗口,用来计算不连贯性,其 我闲累计限收合同外资金侧 中m,n为奇数,m>1,n>1. 夹破了1万亿美元 像素1(i,》的标准差定义为 达到了10555亿美元 2 0(i,j= ∑.∑1(p,-1,2, p- 0≤i≤M-1,0≤j≤N-1. (1) 式中:(i,)是在wm(i,)窗口中所有像素的均值 (a)原始图像 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.ner1 图像中文本的特征 图像中的文本可以分为 2 类 , 即场景文本 (scene text) 和图形文本 (grap h text) . 场景文本出 现在场景中 ,它能够被视频设备捕捉 ,是一幅图像的 组成部分 ,可作为真实世界中的一个目标 ,例如 :路 牌、告示牌、车牌等. 而在另一方面 ,图形文本是为了 补充视频图像内容而人工添加的 ,例如 :标题、关键 字、摘要、时间、地点等标志 ,它是为了观看者阅读而 产生的. 图像中文本一般具备以下特征 : 纹理 :丰富的边缘、角点 ;周期出现的高强度和 高频率. 色彩 :文字多为单色 ,并与背景有明显的对比 , 特殊情况下有特定的色彩. 形状 :字符的尺寸有一定范围 ,字符之间的距离 不会过大 ,一段文字一般在同一水平或垂直线上. 其他 :前面少有遮挡 ; 文字多为正向 ; 同一段 文字会在连续的多帧图像中出现. 可以利用以上这些特征进行文本区域的检测 , 然而视频图像中的文本 ,尤其是场景文本往往镶嵌 在复杂的背景图像中 ;文本的颜色、亮度和对比度经 常发生变化 ;文本的大小、排列和对齐方式不确定 ; 受拍摄角度等因素的影响 ,文本会产生扭曲、变形、 残缺、模糊断裂等现象. 这些因素都给视频图像中文 本的检测造成了极大的困难 ,因此迫切需要找到一 种适用于各种类型视频图像中文本检测的方法. 2 Homogeneit y 的定义 Homogeneity 与从图像中提取出的局部信息有 关 ,它的数值反映了一个区域的一致性的强度 ,因此 它可以被用来进行图像和视频中的文本检测 ,文中 把 Homogeneity 定义为 2 个部分的组合 :标准差和 强度的不连贯性. 设 I( i , j) 是一幅 M ×N 的图像在 ( i , j) 位置上 的像素值 , wn ( i , j) 是一个以( i , j) 为中心的 n ×n 大 小的窗口 ,用来计算标准差; w m ( i , j) 是一个以( i , j) 为中心 m ×m 的大小的窗口 ,用来计算不连贯性 ,其 中 m , n 为奇数 , m > 1 , n > 1. 像素 I( i , j) 的标准差定义为 σ( i , j) = 1 n 2 ∑ i+ n- 1 2 p = in- 1 2 ∑ j+ n- 1 2 j- n- 1 2 ( I( p , q) - μ( i , j) 2 , 0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. (1) 式中 :μ( i , j) 是在 wn ( i , j) 窗口中所有像素的均值 , 计算方法如下 : μ( i , j) = 1 n 2 ∑ i+ n- 1 2 p = in- 1 2 ∑ j+ n- 1 2 j- n- 1 2 I( p , q) . (2) 将σ( i , j) 归一化 ,得到归一化的标准差 : V n ( i , j) = σ( i , j) σmax . (3) 式中:σmax = max{σ(i , j)} ,0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. 一个像素的不连贯性可以用边缘信息来描述 , 文中应用 Sobel 算子来计算像素 I ( i , j) 的不连贯性 e( i , j) : e( i , j) = G 2 x + G 2 y . (4) 将 e( i , j) 归一化 ,得到归一化的不连贯性 : Em ( i , j) = e( i , j) emax . (5) 式中:emax = max{ e(i , j)} ,0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. 那么 ,像素 I ( i , j) 的 Homogeneity 的定义如下 : Hm ( i , j) = (1 - Em ( i , j) ×(1 - V n ( i , j) ) . (6) Homogeneity 的取值在 0 和 1 之间. 由以上的 定义可以看出 ,如果一个区域越均匀 ,每一点处的归 一化标准差 V n ( i , j) 和归一化不连贯性 Em ( i , j) 就 越小 , 计 算 出 每 一 个 点 处 的 Homogeneity 值 Hmn ( i , j) 就越大. 图像中文本的主要特性可概括为 :不连惯性和 高频性 ,因为文本的区域含有丰富的边角纹理信息. 文本区域像素点的 Homogeneity 值比较小 ,能很好 地与背景区域区分开 ,这个特点为在 Homogeneity 空间来进行文本检测提供了条件. 通过计算图像的 Homogeneity 将图像映射到 Homogeneity 空间中 得到特征图像 ,如图 1 所示. (a)原始图像 · 07 · 智 能 系 统 学 报 第 2 卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net