第2卷第1期 智能系统学报 Vol.2№1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 一种基于Ho mo geneity的文本检测新方法 黄剑华唐降龙,刘家锋,徐莉莉 (哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001) 摘要:视频图像中的文本包含了丰富的语义层次上的内容描述信息,为基于语义的图像检索提供重要的索引信息 资源.提出了一种基于Homogeneity和支持向量机(support vector machine)的视频图像中文本检测方法,首先将图 像由空间域映射到Homogeneity域中,然后对映射到Homogeneity空间中的图像进行特征提取,利用SVM判别文 本区域.实验表明此文本检测方法优于用基于边缘特征的文本检测方法 关键词:文本检测:特征提取;Homo geneity,支持向量机 中图分类号:TP391.2文献标识码:A文章编号:16734785(2007)01-006905 A new method for text detection based on Homogeneity HUAN G Jianhua,TAN G Xiang-long ,L IU Jia-feng,XU Li-li (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:Text data presented in images and video contains useful and important semantic information for automatic indexing.In this paper,a method for text detection based on homogeneity and SVM is pro- posed.First an original image is mapped from space domain to homogeneity domain,and then text region property is confirmed by SVM trained to extract property feature in homogeneity domain.Comparison with the text detection method based on edge features shows that the proposed method has a better accura- cy Key words :text detection;feature extraction;Homogeneity;SVM 随着数字化存储技术的发展和计算机性能的不本检测方法4,,使用边缘和边缘密度来找出文本 断提高,数字视频在各个领域的应用越来越广泛,能区域的位置.在视频片断处理中除使用单帧图像外 够从大量的视频资料中找到需要的信息成为人们迫 还可以利用多幅图像来检测、提取和增强文本区 切的要求.图像和视频中的文本包含许多非常重要 域6].也有部分研究者将颜色信息和边缘或者纹理 的信息,如街道名称、商店名称、路标、交通标示、字 特征结合在一起使用,不在灰度图像上而是在彩色 幕等,这些信息是图像和视频资料自动注释、索引、图像上提取边缘特征刀.还有算法直接在压缩的图 压缩等方面重要的依据 像中进行文本检测劉 从视频图像处理和文档分析的研究角度出发, 上述的方法在检测文本时只考虑了图像区域的 目前己经提出了一些文本提取算法,这些算法主要 全局信息,没有考虑局部信息,一定程度上造成文本 是从感性的特征出发,利用颜色、亮度、形状纹理等 检测的错误.文中提出了一种基于Homogeneity的 属性来提取文本信息,总结起来可以归纳为3类:1) 文本检测方法,这种方法充分考虑了图像区域的局 基于连通区域的文本检测方法山,这一方法假定字 部信息,反映了一个区域的一致性强度,能够更好地 符的颜色相近且与背景可分,2)基于纹理特征的文 反映文本区域的特征,可以更好地突出文本区域, 本检测方法2引,通过识别图像的纹理特征,如角点 适用于背景比较复杂的视频图像中文本检测.实验 特征,来区分文本区域与背景:3)基于边缘特征的文 表明在Homogeneity空间进行特征提取优于用边 缘算子进行特征提取.」 收稿日期:200603-07. 基金项目:国家自然科学基金资助项目(60573071) 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
第 2 卷第 1 期 智 能 系 统 学 报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 一种基于 Homogeneity 的文本检测新方法 黄剑华 ,唐降龙 ,刘家锋 ,徐莉莉 (哈尔滨工业大学 计算机科学与技术学院 ,黑龙江 哈尔滨 150001) 摘 要 :视频图像中的文本包含了丰富的语义层次上的内容描述信息 ,为基于语义的图像检索提供重要的索引信息 资源. 提出了一种基于 Homogeneity 和支持向量机(support vector machine) 的视频图像中文本检测方法 ,首先将图 像由空间域映射到 Homogeneity 域中 ,然后对映射到 Homogeneity 空间中的图像进行特征提取 ,利用 SVM 判别文 本区域. 实验表明此文本检测方法优于用基于边缘特征的文本检测方法. 关键词 :文本检测 ;特征提取 ; Homogeneity ;支持向量机 中图分类号 : TP391. 2 文献标识码 :A 文章编号 :167324785 (2007) 0120069205 A new method for text detection based on Homogeneity HUAN G Jian2hua , TAN G Xiang2long ,L IU Jia2feng ,XU Li2li (School of Computer Science and Technology , Harbin Institute of Technology , Harbin 150001 , China) Abstract :Text data presented in images and video contains usef ul and important semantic information for automatic indexing. In t his paper , a method for text detection based on homogeneity and SVM is pro2 posed. First an original image is mapped from space domain to homogeneity domain , and then text region property is confirmed by SVM trained to extract property feature in homogeneity domain. Comparison with the text detection method based on edge features shows t hat t he proposed method has a better accura2 cy. Keywords :text detection ;feat ure extraction ; Homogeneity ;SVM 收稿日期 :2006203207. 基金项目 :国家自然科学基金资助项目(60573071) . 随着数字化存储技术的发展和计算机性能的不 断提高 ,数字视频在各个领域的应用越来越广泛 ,能 够从大量的视频资料中找到需要的信息成为人们迫 切的要求. 图像和视频中的文本包含许多非常重要 的信息 ,如街道名称、商店名称、路标、交通标示、字 幕等 ,这些信息是图像和视频资料自动注释、索引、 压缩等方面重要的依据. 从视频图像处理和文档分析的研究角度出发 , 目前已经提出了一些文本提取算法 ,这些算法主要 是从感性的特征出发 ,利用颜色、亮度、形状、纹理等 属性来提取文本信息 ,总结起来可以归纳为 3 类 :1) 基于连通区域的文本检测方法[ 1 ] ,这一方法假定字 符的颜色相近且与背景可分 ;2) 基于纹理特征的文 本检测方法[2 - 3 ] ,通过识别图像的纹理特征 ,如角点 特征 ,来区分文本区域与背景 ;3) 基于边缘特征的文 本检测方法[4 - 5 ] ,使用边缘和边缘密度来找出文本 区域的位置. 在视频片断处理中除使用单帧图像外 还可以利用多幅图像来检测、提取和增强文本区 域[6 ] . 也有部分研究者将颜色信息和边缘或者纹理 特征结合在一起使用 ,不在灰度图像上而是在彩色 图像上提取边缘特征[7 ] . 还有算法直接在压缩的图 像中进行文本检测[ 8 ] . 上述的方法在检测文本时只考虑了图像区域的 全局信息 ,没有考虑局部信息 ,一定程度上造成文本 检测的错误. 文中提出了一种基于 Homogeneity 的 文本检测方法 ,这种方法充分考虑了图像区域的局 部信息 ,反映了一个区域的一致性强度 ,能够更好地 反映文本区域的特征 ,可以更好地突出文本区域 , 适用于背景比较复杂的视频图像中文本检测. 实验 表明在 Homogeneity 空间进行特征提取优于用边 缘算子进行特征提取. © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·70· 智能系统学报 第2卷 计算方法如下: 1 图像中文本的特征 图像中的文本可以分为2类,即场景文本 2) (scene text)和图形文本(graph text).场景文本出 现在场景中,它能够被视频设备捕捉,是一幅图像的 将i,)归一化,得到归一化的标准差: 组成部分,可作为真实世界中的一个目标,例如:路 牌、告示牌、车牌等.而在另一方面,图形文本是为了 '.(i,》=L边 3) 补充视频图像内容而人工添加的,例如:标题、关键 式中:a=max{ali,j},0≤≤M-1,0≤v-1. 字、摘要、时间、地点等标志,它是为了观看者阅读而 一个像素的不连贯性可以用边缘信息来描述 产生的.图像中文本一般具备以下特征: 文中应用Sobel算子来计算像素I(i,)的不连贯性 纹理:丰富的边缘、角点;周期出现的高强度和 e(i,i): 高频率 色彩:文字多为单色,并与背景有明显的对比, e(i,j)=G (4) 特殊情况下有特定的色彩 将ε(i,)归一化,得到归一化的不连贯性 形状:字符的尺寸有一定范围,字符之间的距离 不会过大,一段文字一般在同一水平或垂直线上 Emi,j功=L边 (5) emax 其他:前面少有遮挡;文字多为正向;同一段 式中:ex=max{e(i,},0≤M-1,0≤V-1. 文字会在连续的多帧图像中出现, 那么,像素I(i,)的Homogeneity的定义如下: 可以利用以上这些特征进行文本区域的检测, 然而视频图像中的文本,尤其是场景文本往往镶嵌 Hm(i,j)=1-Em(i,)X(1-Vm(i,j).(6) 在复杂的背景图像中;文本的颜色、亮度和对比度经 Homogeneity的取值在0和1之间.由以上的 常发生变化:文本的大小、排列和对齐方式不确定; 定义可以看出,如果一个区域越均匀,每一点处的归 受拍摄角度等因素的影响,文本会产生扭曲、变形、 一化标准差Vm(i,》和归一化不连贯性Em(i,)就 残缺、模糊断裂等现象.这些因素都给视频图像中文 越小,计算出每一个点处的Homogeneity值 本的检测造成了极大的困难,因此迫切需要找到一 种适用于各种类型视频图像中文本检测的方法 Hm(i,》就越大. 图像中文本的主要特性可概括为:不连惯性和 2 Homogeneity的定义 高频性,因为文本的区域含有丰富的边角纹理信息」 Homogeneity与从图像中提取出的局部信息有 文本区域像素点的Homogeneity值比较小,能很好 关,它的数值反映了一个区域的一致性的强度,因此 地与背景区域区分开,这个特点为在Homogeneity 它可以被用来进行图像和视频中的文本检测,文中 空间来进行文本检测提供了条件.通过计算图像的 把Homogeneity定义为2个部分的组合:标准差和 Homogeneity将图像映射到Homogeneity空间中 强度的不连贯性。 得到特征图像,如图1所示 设I(i,》是一幅MXN的图像在(i,)位置上 的像素值,wn(i,)是一个以(i,》为中心的n×n大 小的窗口,用来计算标准差;wm(i,》是一个以(亿,沙 成至今年9月 为中心m×m的大小的窗口,用来计算不连贯性,其 我闲累计限收合同外资金侧 中m,n为奇数,m>1,n>1. 夹破了1万亿美元 像素1(i,》的标准差定义为 达到了10555亿美元 2 0(i,j= ∑.∑1(p,-1,2, p- 0≤i≤M-1,0≤j≤N-1. (1) 式中:(i,)是在wm(i,)窗口中所有像素的均值 (a)原始图像 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.ner
1 图像中文本的特征 图像中的文本可以分为 2 类 , 即场景文本 (scene text) 和图形文本 (grap h text) . 场景文本出 现在场景中 ,它能够被视频设备捕捉 ,是一幅图像的 组成部分 ,可作为真实世界中的一个目标 ,例如 :路 牌、告示牌、车牌等. 而在另一方面 ,图形文本是为了 补充视频图像内容而人工添加的 ,例如 :标题、关键 字、摘要、时间、地点等标志 ,它是为了观看者阅读而 产生的. 图像中文本一般具备以下特征 : 纹理 :丰富的边缘、角点 ;周期出现的高强度和 高频率. 色彩 :文字多为单色 ,并与背景有明显的对比 , 特殊情况下有特定的色彩. 形状 :字符的尺寸有一定范围 ,字符之间的距离 不会过大 ,一段文字一般在同一水平或垂直线上. 其他 :前面少有遮挡 ; 文字多为正向 ; 同一段 文字会在连续的多帧图像中出现. 可以利用以上这些特征进行文本区域的检测 , 然而视频图像中的文本 ,尤其是场景文本往往镶嵌 在复杂的背景图像中 ;文本的颜色、亮度和对比度经 常发生变化 ;文本的大小、排列和对齐方式不确定 ; 受拍摄角度等因素的影响 ,文本会产生扭曲、变形、 残缺、模糊断裂等现象. 这些因素都给视频图像中文 本的检测造成了极大的困难 ,因此迫切需要找到一 种适用于各种类型视频图像中文本检测的方法. 2 Homogeneit y 的定义 Homogeneity 与从图像中提取出的局部信息有 关 ,它的数值反映了一个区域的一致性的强度 ,因此 它可以被用来进行图像和视频中的文本检测 ,文中 把 Homogeneity 定义为 2 个部分的组合 :标准差和 强度的不连贯性. 设 I( i , j) 是一幅 M ×N 的图像在 ( i , j) 位置上 的像素值 , wn ( i , j) 是一个以( i , j) 为中心的 n ×n 大 小的窗口 ,用来计算标准差; w m ( i , j) 是一个以( i , j) 为中心 m ×m 的大小的窗口 ,用来计算不连贯性 ,其 中 m , n 为奇数 , m > 1 , n > 1. 像素 I( i , j) 的标准差定义为 σ( i , j) = 1 n 2 ∑ i+ n- 1 2 p = in- 1 2 ∑ j+ n- 1 2 j- n- 1 2 ( I( p , q) - μ( i , j) 2 , 0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. (1) 式中 :μ( i , j) 是在 wn ( i , j) 窗口中所有像素的均值 , 计算方法如下 : μ( i , j) = 1 n 2 ∑ i+ n- 1 2 p = in- 1 2 ∑ j+ n- 1 2 j- n- 1 2 I( p , q) . (2) 将σ( i , j) 归一化 ,得到归一化的标准差 : V n ( i , j) = σ( i , j) σmax . (3) 式中:σmax = max{σ(i , j)} ,0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. 一个像素的不连贯性可以用边缘信息来描述 , 文中应用 Sobel 算子来计算像素 I ( i , j) 的不连贯性 e( i , j) : e( i , j) = G 2 x + G 2 y . (4) 将 e( i , j) 归一化 ,得到归一化的不连贯性 : Em ( i , j) = e( i , j) emax . (5) 式中:emax = max{ e(i , j)} ,0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. 那么 ,像素 I ( i , j) 的 Homogeneity 的定义如下 : Hm ( i , j) = (1 - Em ( i , j) ×(1 - V n ( i , j) ) . (6) Homogeneity 的取值在 0 和 1 之间. 由以上的 定义可以看出 ,如果一个区域越均匀 ,每一点处的归 一化标准差 V n ( i , j) 和归一化不连贯性 Em ( i , j) 就 越小 , 计 算 出 每 一 个 点 处 的 Homogeneity 值 Hmn ( i , j) 就越大. 图像中文本的主要特性可概括为 :不连惯性和 高频性 ,因为文本的区域含有丰富的边角纹理信息. 文本区域像素点的 Homogeneity 值比较小 ,能很好 地与背景区域区分开 ,这个特点为在 Homogeneity 空间来进行文本检测提供了条件. 通过计算图像的 Homogeneity 将图像映射到 Homogeneity 空间中 得到特征图像 ,如图 1 所示. (a)原始图像 · 07 · 智 能 系 统 学 报 第 2 卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第1期 黄剑华,等:一种基于Homogeneity的文本检测新方法 ·71· 三阶矩: M =-1 G,).a3. (10 m Xn 月N 标准差: 不H的10C 东客了苏亿见龙 片对了m亿子 (11U 能量: E= (12) ,mXn 式中:m=n=16. (b)Homo geneity或中特征图像 3.3用SVM作为分类器进行分类 图1 Homogeneity映射 文中使用的分类器是支持向量机(SVM),因为 Fig.I Homogeneity mapping SVM是从线性可分情况下的最优分类面提出的,它 不仅能将2类样本无错误的分开,而且使得分类距 3基于Ho mogeneity的文本检测 离最大.它在很大程度上解决了传统方法(如神经网 文本获取是指在输入图像中确定文本区域的位 络)存在的问题,如模型选择、过学习、非线性、多维 置,并标识出来的过程.文本获取可分为以下几个步 问题、局部极小点等问题」 骤:文本检测、文本定位、文本提取和字符识别4个 文中SVM分类器的核函数选择多项式核函 阶段.文中主要研究的是文本检测的方法.首先应用 数 Homogeneity映射来对图像进行处理,突出其中文 Kx,以=(r'y+g 13) 本区域的特征,得到特征图像,然后在得到的特征图 实验中选择d=3多项式核函数,参数Y=0.1, 像上,使用一个大小为16×16的滑动窗口得到图像 C=0.1.在训练SVM时,使用标记为文本属性或非 的局部数据,在窗口内提取特征,送入分类器来判别 文本属性的图像块作为训练样本,训练样本中2种 此窗口所对应的图像区域是否为文本区域,从而确 属性图像块的比例对文本检测器的训练结果有直接 定图像中的文本区域, 影响.训练集中每一幅图像都包含文本区域,但通常 3.1预处理 文本区域都远少于非文本区域,因此从这些图像直 预处理主要是从视频片段中提取视频帧,对图像 接得到的文本块远远少于非文本块.为了保证文本 进行去噪处理,将彩色图像转化为灰度图像等操作」 检测器对文本和非文本块识别率的均衡,训练样本 3.2基于Homogeneity的特征提取 中文本块和非文本块的比例要适当.文中比较了不 经过预处理后的图像通过Homogeneity映射, 同文本和非文本训练样本比例情况下训练得到的分 把图像转换到Homogeneity空间,然后使用一个大 类器的分类正确率的变化情况,表1为实验结果,其 小为16×16的滑动窗口来扫描Homogeneity空间 中c表示分类的正确率,c?表示文本区域的正确 中的图像,对于窗口覆盖的图像区域,文中使用了 率,c表示非文本区域的正确率,定义如下: 如下的6个统计量作为特征,这里G为对特征图像 c=R/Twotal (14) 使用滑动窗口得到的矩阵,G为此矩阵的均值: Cr Rr/Ttext, 15) 密度 CB RB/B. (16) 表1不同的训练样本比例下的分类结果 D=E,G》 7) Table 1 Cassification result of difference 均值 training sample rate % Mnk,,c 文本: (8) 20:1015:1010:1010:1510:205:155:20 非文本 二阶矩 c76.4878.4186.7986.8688.6390.9891.34 cr91.9591.1488.7075.9367.5253.4542.23 (9) CB 74.3876.6884.6288.3491.5096.0898.02 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
(b) Homogeneity 域中特征图像 图 1 Homogeneity 映射 Fig. 1 Homogeneity mapping 3 基于 Homogeneity 的文本检测 文本获取是指在输入图像中确定文本区域的位 置 ,并标识出来的过程. 文本获取可分为以下几个步 骤 :文本检测、文本定位、文本提取和字符识别 4 个 阶段. 文中主要研究的是文本检测的方法. 首先应用 Homogeneity 映射来对图像进行处理 ,突出其中文 本区域的特征 ,得到特征图像 ;然后在得到的特征图 像上 ,使用一个大小为 16 ×16 的滑动窗口得到图像 的局部数据 ,在窗口内提取特征 ,送入分类器来判别 此窗口所对应的图像区域是否为文本区域 ,从而确 定图像中的文本区域. 3. 1 预处理 预处理主要是从视频片段中提取视频帧 ,对图像 进行去噪处理 ,将彩色图像转化为灰度图像等操作. 3. 2 基于 Homogeneity 的特征提取 经过预处理后的图像通过 Homogeneity 映射 , 把图像转换到 Homogeneity 空间 ,然后使用一个大 小为 16 ×16 的滑动窗口来扫描 Homogeneity 空间 中的图像 , 对于窗口覆盖的图像区域 ,文中使用了 如下的 6 个统计量作为特征 ,这里 G为对特征图像 使用滑动窗口得到的矩阵 , G 为此矩阵的均值 : 密度 : D = ∑ m i =1 ∑ n j =1 G( i , j) . (7) 均值 : M = 1 m ×n ∑ m i = 1 ∑ n j = 1 G( i , j) . (8) 二阶矩 : M2 = 1 m ×n ∑ m i = 1 ∑ n j = 1 ( G( i , j) - G) 2 . (9) 三阶矩 : M3 = 1 m ×n ∑ m i = 1 ∑ n j = 1 ( G( i , j) - G) 3 . (10) 标准差 : v = 1 m ×n - 1 ∑ m i = 1 ∑ n j = 1 ( G( i , j) - G) 2 1/ 2 . (11) 能量 : E = ∑ m i = 1 ∑ n j = 1 G 2 ( i , j) m ×n . (12) 式中 : m = n = 16. 3. 3 用 SVM 作为分类器进行分类 文中使用的分类器是支持向量机(SVM) ,因为 SVM 是从线性可分情况下的最优分类面提出的 ,它 不仅能将 2 类样本无错误的分开 ,而且使得分类距 离最大. 它在很大程度上解决了传统方法(如神经网 络) 存在的问题 ,如模型选择、过学习、非线性、多维 问题、局部极小点等问题. 文中 SVM 分类器的核函数选择多项式核函 数 : K( x , y) = (γx t y + C) d . (13) 实验中选择 d = 3 多项式核函数 ,参数γ= 0. 1 , C = 0. 1. 在训练 SVM 时 ,使用标记为文本属性或非 文本属性的图像块作为训练样本 ,训练样本中 2 种 属性图像块的比例对文本检测器的训练结果有直接 影响. 训练集中每一幅图像都包含文本区域 ,但通常 文本区域都远少于非文本区域 ,因此从这些图像直 接得到的文本块远远少于非文本块. 为了保证文本 检测器对文本和非文本块识别率的均衡 ,训练样本 中文本块和非文本块的比例要适当. 文中比较了不 同文本和非文本训练样本比例情况下训练得到的分 类器的分类正确率的变化情况 ,表 1 为实验结果 ,其 中 c 表示分类的正确率 , cT 表示文本区域的正确 率 , cB 表示非文本区域的正确率 ,定义如下 : c = R/ Ttotal , (14) cT = RT / Ttext , (15) cB = RB / B. (16) 表 1 不同的训练样本比例下的分类结果 Table 1 Classification result of difference training sample rate % 文本 : 非文本 20 :10 15 :10 10 :10 10 :15 10 :20 5 :15 5 :20 c 76. 48 78. 41 86. 79 86. 86 88. 63 90. 98 91. 34 cT 91. 95 91. 14 88. 70 75. 93 67. 52 53. 45 42. 23 cB 74. 38 76. 68 84. 62 88. 34 91. 50 96. 08 98. 02 第 1 期 黄剑华 ,等 :一种基于 Homogeneity 的文本检测新方法 · 17 · © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·72· 智能系统学报 第2卷 这里To表示送入分类器总的样本数目,R表 的特征为4.2节中描述的6维统计量.测试结果如 示分类正确的样本数目,Tea为文本区域的样本数 表2所示 目,B为非文本区域的样本数目.为了保证识别率的 表2SVM对从视频中提取出图片的分类结果 均衡,避免文本区域过多的误识,文中选择使用 Table 2 Result of SVM tested on our dataset o 10:10作为训练样本比例(文本:非文本) Color Our 在测试时,把滑动窗口得到的6维特征输入到 Robert Sobel Canny LOG Robert method SVM,SVM的输出为0和1分别代表非文本和文 83.4077.3080.78-68.7265.6386.79 本.使用SVM的分类结果可以得到一个与原始图 86.9689.0355.8584.2489.4088.70 像对应的二值图像,如图2(a)所示 cg82.8875.5884.4466.4462.1584.62 文中同时采用2003年国际自然场景文本阅读 比赛(ICDAR'2003 Robust Reading Competi- tion)1提供的测试集进行了测试,测试集为507幅 图片,这些图片都是场景文本图片,训练样本为258 幅图片,测试样本为249幅图片.测试结果如表3所 示 表3SM对ICDAR'2003测试图片的分类结果 Table 3 Result of SVM tested on ICDAR'2003 dataset Color Our (a)SVM识别结果 Robert Sobel Canny LOG Robert method 74.7973.7247.9669.8354.6176.89 Cr 52.7855.0970.1453.9974.7957.09 cB77.3876.7844.3172.4051.3378.36 至今年9月 我国累计吸收合问外景金 从实验结果可以看出,在Homogeneity空间进 夹破了1万亿美元 达到了1055.5亿美元 行特征提取比用边缘算子直接提取文本的效果好 图2(b)是利用文中方法进行文本检测的实际效果」 5结束语 文中提出了一种基于Homogeneity的文本检 (b)文本检测结果 测的方法,Homogeneity这种方法己经被成功地应 图2文本检测实例 用到图像分割中,文中把它应用到文本检测中,通过 Fig.2 Examples of text detection 实验可以看出这种方法是有效的.由实验结果也可 以看出,该算法中的一些经验参数的选择和特征提 4实验结果 取、特征选择等问题上还有待研究.今后将进一步研 为了验证文中算法的性能,文中作了以下的实 究多分辨分析和特征选择等问题,进一步提高文本 验:分别使用边缘算子与Ho mo geneity映射2类方 检测的准确率 法得到特征图像,然后在所得到的特征图像中按照 参考文献: 上述方法,在相同的条件下进行特征提取和分类器 分类 [1]JEONG K Y,JUNG K,KIM E Y,et al:Neural net- 图片样本集为:453幅图片,这些图片是从视频 work-based text location for news video indexing [J ] IEEE Transactions on Information Theory,1998,44 中截取出来的包括动画片、新闻、体育、电影等方面。 (5):319.323. 其中训练样本为138幅图片,测试样本为315幅图 [2]KIM K I,JUNG K,KIM J H.Texture-based approach 片.在训练SVM分类器时,根据4.3节的实验结 for text detection in images using support vector ma- 果,训练样本比例选择10:10(文本:非文本),选取 chines and continuously adaptive mean shift algorithm 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved hup://www.cnki.net
这里 Ttotal表示送入分类器总的样本数目 , R 表 示分类正确的样本数目 , Ttext 为文本区域的样本数 目 , B 为非文本区域的样本数目. 为了保证识别率的 均衡 ,避免文本区域过多的误识 , 文中选择使用 10 :10作为训练样本比例(文本 :非文本) . 在测试时 ,把滑动窗口得到的 6 维特征输入到 SVM ,SVM 的输出为 0 和 1 分别代表非文本和文 本. 使用 SVM 的分类结果可以得到一个与原始图 像对应的二值图像 ,如图 2 (a) 所示. (a) SVM 识别结果 (b) 文本检测结果 图 2 文本检测实例 Fig. 2 Examples of text detection 4 实验结果 为了验证文中算法的性能 ,文中作了以下的实 验 :分别使用边缘算子与 Homogeneity 映射 2 类方 法得到特征图像 ,然后在所得到的特征图像中按照 上述方法 ,在相同的条件下进行特征提取和分类器 分类. 图片样本集为 :453 幅图片 ,这些图片是从视频 中截取出来的包括动画片、新闻、体育、电影等方面. 其中训练样本为 138 幅图片 ,测试样本为 315 幅图 片. 在训练 SVM 分类器时 ,根据 4. 3 节的实验结 果 ,训练样本比例选择 10 :10 (文本 :非文本) ,选取 的特征为 4. 2 节中描述的 6 维统计量. 测试结果如 表 2 所示. 表 2 SVM 对从视频中提取出图片的分类结果 Table 2 Result of SVM tested on our dataset % Robert Sobel Canny LO G Color Robert Our method c 83. 40 77. 30 80. 78 68. 72 65. 63 86. 79 cT 86. 96 89. 03 55. 85 84. 24 89. 40 88. 70 cB 82. 88 75. 58 84. 44 66. 44 62. 15 84. 62 文中同时采用 2003 年国际自然场景文本阅读 比赛 ( ICDAR ’2003 Robust Reading Competi2 tion) [9 ]提供的测试集进行了测试 ,测试集为 507 幅 图片 ,这些图片都是场景文本图片 ,训练样本为 258 幅图片 ,测试样本为 249 幅图片. 测试结果如表 3 所 示. 表 3 SVM 对 ICDAR ’2003 测试图片的分类结果 Table 3 Result of SVM tested on ICDAR’2003 dataset % Robert Sobel Canny LO G Color Robert Our method c 74. 79 73. 72 47. 96 69. 83 54. 61 76. 89 cT 52. 78 55. 09 70. 14 53. 99 74. 79 57. 09 cB 77. 38 76. 78 44. 31 72. 40 51. 33 78. 36 从实验结果可以看出 ,在 Homogeneity 空间进 行特征提取比用边缘算子直接提取文本的效果好. 图 2 (b) 是利用文中方法进行文本检测的实际效果. 5 结束语 文中提出了一种基于 Homogeneity 的文本检 测的方法 , Homogeneity 这种方法已经被成功地应 用到图像分割中 ,文中把它应用到文本检测中 ,通过 实验可以看出这种方法是有效的. 由实验结果也可 以看出 ,该算法中的一些经验参数的选择和特征提 取、特征选择等问题上还有待研究. 今后将进一步研 究多分辨分析和特征选择等问题 ,进一步提高文本 检测的准确率. 参考文献 : [1 ]J EON G K Y , J UN G K , KIM E Y , et al : Neural net2 work2based text location for news video indexing [J ]. IEEE Transactions on Information Theory , 1998 , 44 (5) :319 - 323. [2 ] KIM K I , J UN G K , KIM J H. Texture2based approach for text detection in images using support vector ma2 chines and continuously adaptive mean shift algorithm · 27 · 智 能 系 统 学 报 第 2 卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第1期 黄剑华,等:一种基于Homogeneity的文本检测新方法 ·73 [J ]IEEE Transactions on Pattern Analysis and Ma- [9]LUCAS S M,PANARETOS A,SOSA L.ICDAR 2003 chine Intelligence,2003,25(12):1631-1639. robust reading competition[A].In:IEEE Proceeding of [3]LI H P,DOERMANN D,KIA O.Automatic text detec- The 7th International Conference on Document Analysis tion and tracking in digital video [J ]IEEE Transaction and Recognition[C].[s.I.],2003. on Image Processing,2000,9(1):147-156. 作者简介: [4 ]CHEN X R,ZHANG HJ.Text area detection from vid- 黄剑华,男,1967年生,副研究员, eo frames[A].IEEE Pacific Rim Conference on Multi- 中国计算机学会会员.主要研究方向为 media:Advances in Multimedia Information Processing 人工智能模式识别、图像处理、自然环 [C].[s.1.],2001. 境下文本认知、人体运动智能分析等。 [5 ]L IENHART R,WERNICKE A.Localizing and segmen E mail jhhuang @hit.edu.cn tation text in images and videos [J ]IEEE Transactions On Circuits and Systems For Video Technology,2000, 12(4):256.268. 唐降龙,男,1960年生,教授,博士 [6]YE Q X,HUANG Q M,GAO W,ZHAO D B.Fast 生导师,主要研究方向为模式识别、人 and robust text detection in images and video frames[J]. 体运动智能分析、人工智能、图象处理 Image Vision and Computing,2005(23):565-576. 医学图象处理、人体生物特征身份鉴别 [7]张引,潘云鹤.面向彩色图像和视频的文本提取新方法 等.哈尔滨工业大学计算机学院模式识 0].计算机辅助设计与图形学报,2002,14(1):36.40. 别研究中心主任,中国计算机学会会 ZHANG Yin,PAN Yunhe.A new approach for text ex- 员,黑龙江省人工智能学会副理事长 traction from color image and video [J].Journal of Com- puter-aided Design Computer Graphics,2002,14(1): 36.40. 刘家锋,男,1968年生,副教授,主 [8]ZHONG Y,ZHANG Hongjiang,JAIN A K.Automatic 要研究方向为人工智能、模式识别、中 caption location in compressed video [J ]IEEE Transac- 文信息处理等 tions on Pattern Analysis and Machine Intelligence,2000, 22(4):385.-392 第26届中国控制会议 The 26th Chinese Contol Conference 由中国自动化学会控制理论专业委员会组织召开的中国控制会议,现已成为有关控制理论与技术的国 际性学术年会。大会采用会前讲座、大会报告、分组报告与张贴论文等形式进行学术交流。自2005年起会 议论文ISTP(Index to Scientific and Technical Proceedings)收录,自20O6年起会议论文集进入IEEE CPP (Conference Publications Program),ISTP检索。 第26届中国控制会议由中国自动化学会控制理论专业委员会主办,中南大学信息科学与工程学院承 办,将于2007年7月在风景秀丽的张家界举行。热忱欢迎海内外广大同仁踊跃投稿参加本届大会,共同交 流学术成果。 征文范围如下:系统理论与控制理论;非线性系统及其控制;复杂性与复杂系统理论;分布参数系统;混 杂系统与DEDS;大系统;随机系统;稳定性与镇定;建模、辨识与信号处理;最优控制与优化;鲁棒控制与H f控制;自适应控制与学习控制;变结构控制;神经网络;模糊系统与模糊控制;模式识别;控制设计方法;遗 传算法与演化计算;运动控制;智能机器人;分布式控制系统;信息处理系统;故障诊断;通讯网络系统;CMS 与制造系统;交通系统:生物与生态系统;社会经济系统;工业系统;其他。 征文要求: L.论文采用网上投稿,请登陆http:/ccc.amss.ac.cn/pms/了解具体事宜并投稿,提交论文截止日期 为2007年3月1日。 2.大会设立关肇直优秀论文奖及张贴论文奖,申请办法和条例请查看控制理论专业委员会网页t tp:/tcct.amss.ac.cn/或会议网页:http:/ccc.amss.ac.cnl。 3.拟组织邀请组的组织者,请提供1000字的组织建议书及该组全部拟邀请论文的摘要。同一邀请组 的论文的主题应鲜明、集中,邀请组一般有6篇论文。 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.nei
[J ]. IEEE Transactions on Pattern Analysis and Ma2 chine Intelligence ,2003 , 25 (12) :1631 - 1639. [3 ]L I H P , DOERMANN D , KIA O. Automatic text detec2 tion and tracking in digital video [J ]. IEEE Transaction on Image Processing , 2000 , 9 (1) :147 - 156. [ 4 ]CHEN X R , ZHAN G H J. Text area detection from vid2 eo frames[ A ]. IEEE Pacific Rim Conference on Multi2 media : Advances in Multimedia Information Processing [C]. [s. l. ] ,2001. [5 ]L IEN HART R , WERNICKE A. Localizing and segmen2 tation text in images and videos[J ]. IEEE Transactions On Circuits and Systems For Video Technology , 2000 , 12 (4) :256 - 268. [6 ] YE Q X , HUAN G Q M , GAO W , ZHAO D B. Fast and robust text detection in images and video frames[J ]. Image Vision and Computing , 2005 (23) :565 - 576. [7 ]张 引 ,潘云鹤. 面向彩色图像和视频的文本提取新方法 [J ]. 计算机辅助设计与图形学报 ,2002 , 14 (1) :36 - 40. ZHAN G Yin , PAN Yunhe. A new approach for text ex2 traction from color image and video [J ]. Journal of Com2 puter2aided Design & Computer Graphics ,2002 , 14 (1) : 36 - 40. [8 ]ZHON G Y, ZHAN G Hongjiang , J AIN A K. Automatic caption location in compressed video [J ]. IEEE Transac2 tions on Pattern Analysis and Machine Intelligence ,2000 , 22 (4) :385 - 392. [9 ]LUCAS S M , PANARETOS A , SOSA L. ICDAR 2003 robust reading competition[ A ]. In : IEEE Proceeding of The 7th International Conference on Document Analysis and Recognition[C]. [s. l. ] ,2003. 作者简介 : 黄剑华 ,男 ,1967 年生 ,副研究员 , 中国计算机学会会员. 主要研究方向为 人工智能、模式识别、图像处理、自然环 境下文本认知、人体运动智能分析等. E2mail :jhhuang @hit. edu. cn 唐降龙 ,男 ,1960 年生 ,教授 ,博士 生导师 ,主要研究方向为模式识别、人 体运动智能分析、人工智能、图象处理 医学图象处理、人体生物特征身份鉴别 等. 哈尔滨工业大学计算机学院模式识 别研究中心主任 ,中国计算机学会会 员 ,黑龙江省人工智能学会副理事长. 刘家锋 ,男 ,1968 年生 ,副教授 ,主 要研究方向为人工智能、模式识别、中 文信息处理等. 第 26 届中国控制会议 The 26th Chinese Contol Conference 由中国自动化学会控制理论专业委员会组织召开的中国控制会议 ,现已成为有关控制理论与技术的国 际性学术年会。大会采用会前讲座、大会报告、分组报告与张贴论文等形式进行学术交流。自 2005 年起会 议论文 ISTP(Index to Scientific and Technical Proceedings) 收录 ,自 2006 年起会议论文集进入 IEEE CPP (Conference Publications Program) , ISTP 检索。 第 26 届中国控制会议由中国自动化学会控制理论专业委员会主办 ,中南大学信息科学与工程学院承 办 ,将于 2007 年 7 月在风景秀丽的张家界举行。热忱欢迎海内外广大同仁踊跃投稿参加本届大会 ,共同交 流学术成果。 征文范围如下 :系统理论与控制理论 ;非线性系统及其控制 ;复杂性与复杂系统理论 ; 分布参数系统 ;混 杂系统与 DEDS;大系统 ;随机系统 ;稳定性与镇定 ;建模、辨识与信号处理 ;最优控制与优化 ;鲁棒控制与 H2 nf 控制 ;自适应控制与学习控制 ; 变结构控制 ;神经网络 ;模糊系统与模糊控制 ;模式识别 ;控制设计方法 ;遗 传算法与演化计算 ;运动控制 ;智能机器人 ;分布式控制系统 ;信息处理系统 ;故障诊断 ;通讯网络系统 ;CIMS 与制造系统 ;交通系统 ;生物与生态系统 ;社会经济系统 ;工业系统 ;其他。 征文要求 : 1. 论文采用网上投稿 ,请登陆 http :/ / ccc. amss. ac. cn/ pms/ 了解具体事宜并投稿 ,提交论文截止日期 为 2007 年 3 月 1 日。 2. 大会设立关肇直优秀论文奖及张贴论文奖 ,申请办法和条例请查看控制理论专业委员会网页 ht2 tp :/ / tcct. amss. ac. cn/ 或会议网页 :http :/ / ccc. amss. ac. cn/ 。 3. 拟组织邀请组的组织者 ,请提供 1000 字的组织建议书及该组全部拟邀请论文的摘要。同一邀请组 的论文的主题应鲜明、集中 ,邀请组一般有 6 篇论文。 第 1 期 黄剑华 ,等 :一种基于 Homogeneity 的文本检测新方法 · 37 · © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net