【学术论文 - 自然语言处理与理解】一种基于Homogeneity的文本检测新方法

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：430.41KB

第2卷第1期智能系统学报 Vol.2№1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 一种基于Ho mo geneity的文本检测新方法黄剑华唐降龙，刘家锋，徐莉莉 (哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨150001) 摘要：视频图像中的文本包含了丰富的语义层次上的内容描述信息，为基于语义的图像检索提供重要的索引信息资源.提出了一种基于Homogeneity和支持向量机(support vector machine)的视频图像中文本检测方法，首先将图像由空间域映射到Homogeneity域中，然后对映射到Homogeneity空间中的图像进行特征提取，利用SVM判别文本区域.实验表明此文本检测方法优于用基于边缘特征的文本检测方法关键词：文本检测：特征提取；Homo geneity,支持向量机中图分类号：TP391.2文献标识码：A文章编号：16734785(2007)01-006905 A new method for text detection based on Homogeneity HUAN G Jianhua,TAN G Xiang-long ,L IU Jia-feng,XU Li-li (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:Text data presented in images and video contains useful and important semantic information for automatic indexing.In this paper,a method for text detection based on homogeneity and SVM is pro- posed.First an original image is mapped from space domain to homogeneity domain,and then text region property is confirmed by SVM trained to extract property feature in homogeneity domain.Comparison with the text detection method based on edge features shows that the proposed method has a better accura- cy Key words :text detection;feature extraction;Homogeneity;SVM 随着数字化存储技术的发展和计算机性能的不本检测方法4，，使用边缘和边缘密度来找出文本断提高，数字视频在各个领域的应用越来越广泛，能区域的位置.在视频片断处理中除使用单帧图像外够从大量的视频资料中找到需要的信息成为人们迫还可以利用多幅图像来检测、提取和增强文本区切的要求.图像和视频中的文本包含许多非常重要域6].也有部分研究者将颜色信息和边缘或者纹理的信息，如街道名称、商店名称、路标、交通标示、字特征结合在一起使用，不在灰度图像上而是在彩色幕等，这些信息是图像和视频资料自动注释、索引、图像上提取边缘特征刀.还有算法直接在压缩的图压缩等方面重要的依据像中进行文本检测劉从视频图像处理和文档分析的研究角度出发，上述的方法在检测文本时只考虑了图像区域的目前己经提出了一些文本提取算法，这些算法主要全局信息，没有考虑局部信息，一定程度上造成文本是从感性的特征出发，利用颜色、亮度、形状纹理等检测的错误.文中提出了一种基于Homogeneity的属性来提取文本信息，总结起来可以归纳为3类：1) 文本检测方法，这种方法充分考虑了图像区域的局基于连通区域的文本检测方法山，这一方法假定字部信息，反映了一个区域的一致性强度，能够更好地符的颜色相近且与背景可分，2)基于纹理特征的文反映文本区域的特征，可以更好地突出文本区域，本检测方法2引，通过识别图像的纹理特征，如角点适用于背景比较复杂的视频图像中文本检测.实验特征，来区分文本区域与背景：3)基于边缘特征的文表明在Homogeneity空间进行特征提取优于用边缘算子进行特征提取.」收稿日期：200603-07. 基金项目：国家自然科学基金资助项目(60573071) 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net

第 2 卷第 1 期智能系统学报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 一种基于 Homogeneity 的文本检测新方法黄剑华 ,唐降龙 ,刘家锋 ,徐莉莉 (哈尔滨工业大学计算机科学与技术学院 ,黑龙江哈尔滨 150001) 摘要 :视频图像中的文本包含了丰富的语义层次上的内容描述信息 ,为基于语义的图像检索提供重要的索引信息资源. 提出了一种基于 Homogeneity 和支持向量机(support vector machine) 的视频图像中文本检测方法 ,首先将图像由空间域映射到 Homogeneity 域中 ,然后对映射到 Homogeneity 空间中的图像进行特征提取 ,利用 SVM 判别文本区域. 实验表明此文本检测方法优于用基于边缘特征的文本检测方法. 关键词 :文本检测 ;特征提取 ; Homogeneity ;支持向量机中图分类号 : TP391. 2 文献标识码 :A 文章编号 :167324785 (2007) 0120069205 A new method for text detection based on Homogeneity HUAN G Jian2hua , TAN G Xiang2long ,L IU Jia2feng ,XU Li2li (School of Computer Science and Technology , Harbin Institute of Technology , Harbin 150001 , China) Abstract :Text data presented in images and video contains usef ul and important semantic information for automatic indexing. In t his paper , a method for text detection based on homogeneity and SVM is pro2 posed. First an original image is mapped from space domain to homogeneity domain , and then text region property is confirmed by SVM trained to extract property feature in homogeneity domain. Comparison with the text detection method based on edge features shows t hat t he proposed method has a better accura2 cy. Keywords :text detection ;feat ure extraction ; Homogeneity ;SVM 收稿日期 :2006203207. 基金项目 :国家自然科学基金资助项目(60573071) . 随着数字化存储技术的发展和计算机性能的不断提高 ,数字视频在各个领域的应用越来越广泛 ,能够从大量的视频资料中找到需要的信息成为人们迫切的要求. 图像和视频中的文本包含许多非常重要的信息 ,如街道名称、商店名称、路标、交通标示、字幕等 ,这些信息是图像和视频资料自动注释、索引、压缩等方面重要的依据. 从视频图像处理和文档分析的研究角度出发 , 目前已经提出了一些文本提取算法 ,这些算法主要是从感性的特征出发 ,利用颜色、亮度、形状、纹理等属性来提取文本信息 ,总结起来可以归纳为 3 类 :1) 基于连通区域的文本检测方法[ 1 ] ,这一方法假定字符的颜色相近且与背景可分 ;2) 基于纹理特征的文本检测方法[2 - 3 ] ,通过识别图像的纹理特征 ,如角点特征 ,来区分文本区域与背景 ;3) 基于边缘特征的文本检测方法[4 - 5 ] ,使用边缘和边缘密度来找出文本区域的位置. 在视频片断处理中除使用单帧图像外还可以利用多幅图像来检测、提取和增强文本区域[6 ] . 也有部分研究者将颜色信息和边缘或者纹理特征结合在一起使用 ,不在灰度图像上而是在彩色图像上提取边缘特征[7 ] . 还有算法直接在压缩的图像中进行文本检测[ 8 ] . 上述的方法在检测文本时只考虑了图像区域的全局信息 ,没有考虑局部信息 ,一定程度上造成文本检测的错误. 文中提出了一种基于 Homogeneity 的文本检测方法 ,这种方法充分考虑了图像区域的局部信息 ,反映了一个区域的一致性强度 ,能够更好地反映文本区域的特征 ,可以更好地突出文本区域 , 适用于背景比较复杂的视频图像中文本检测. 实验表明在 Homogeneity 空间进行特征提取优于用边缘算子进行特征提取. © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

·70· 智能系统学报第2卷计算方法如下： 1 图像中文本的特征图像中的文本可以分为2类，即场景文本 2) (scene text)和图形文本(graph text).场景文本出现在场景中，它能够被视频设备捕捉，是一幅图像的将i,)归一化，得到归一化的标准差：组成部分，可作为真实世界中的一个目标，例如：路牌、告示牌、车牌等.而在另一方面，图形文本是为了 '.(i,》=L边 3) 补充视频图像内容而人工添加的，例如：标题、关键式中：a=max{ali,j},0≤≤M-1,0≤v-1. 字、摘要、时间、地点等标志，它是为了观看者阅读而一个像素的不连贯性可以用边缘信息来描述产生的.图像中文本一般具备以下特征：文中应用Sobel算子来计算像素I(i,)的不连贯性纹理：丰富的边缘、角点；周期出现的高强度和 e(i,i): 高频率色彩：文字多为单色，并与背景有明显的对比， e(i,j)=G (4) 特殊情况下有特定的色彩将ε(i,)归一化，得到归一化的不连贯性形状：字符的尺寸有一定范围，字符之间的距离不会过大，一段文字一般在同一水平或垂直线上 Emi,j功=L边 (5) emax 其他：前面少有遮挡；文字多为正向；同一段式中：ex=max{e(i,},0≤M-1,0≤V-1. 文字会在连续的多帧图像中出现，那么，像素I(i,)的Homogeneity的定义如下：可以利用以上这些特征进行文本区域的检测，然而视频图像中的文本，尤其是场景文本往往镶嵌 Hm(i,j)=1-Em(i,)X(1-Vm(i,j).(6) 在复杂的背景图像中；文本的颜色、亮度和对比度经 Homogeneity的取值在0和1之间.由以上的常发生变化：文本的大小、排列和对齐方式不确定；定义可以看出，如果一个区域越均匀，每一点处的归受拍摄角度等因素的影响，文本会产生扭曲、变形、一化标准差Vm(i,》和归一化不连贯性Em(i,)就残缺、模糊断裂等现象.这些因素都给视频图像中文越小，计算出每一个点处的Homogeneity值本的检测造成了极大的困难，因此迫切需要找到一种适用于各种类型视频图像中文本检测的方法 Hm(i,》就越大. 图像中文本的主要特性可概括为：不连惯性和 2 Homogeneity的定义高频性，因为文本的区域含有丰富的边角纹理信息」 Homogeneity与从图像中提取出的局部信息有文本区域像素点的Homogeneity值比较小，能很好关，它的数值反映了一个区域的一致性的强度，因此地与背景区域区分开，这个特点为在Homogeneity 它可以被用来进行图像和视频中的文本检测，文中空间来进行文本检测提供了条件.通过计算图像的把Homogeneity定义为2个部分的组合：标准差和 Homogeneity将图像映射到Homogeneity空间中强度的不连贯性。得到特征图像，如图1所示设I(i,》是一幅MXN的图像在(i,)位置上的像素值，wn(i,)是一个以(i,》为中心的n×n大小的窗口，用来计算标准差；wm(i,》是一个以（亿，沙成至今年9月为中心m×m的大小的窗口，用来计算不连贯性，其我闲累计限收合同外资金侧中m,n为奇数，m>1,n>1. 夹破了1万亿美元像素1(i,》的标准差定义为达到了10555亿美元 2 0(i,j= ∑.∑1(p,-1,2, p- 0≤i≤M-1,0≤j≤N-1. (1) 式中：(i,)是在wm(i,)窗口中所有像素的均值 (a)原始图像 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.ner

1 图像中文本的特征图像中的文本可以分为 2 类 , 即场景文本 (scene text) 和图形文本 (grap h text) . 场景文本出现在场景中 ,它能够被视频设备捕捉 ,是一幅图像的组成部分 ,可作为真实世界中的一个目标 ,例如 :路牌、告示牌、车牌等. 而在另一方面 ,图形文本是为了补充视频图像内容而人工添加的 ,例如 :标题、关键字、摘要、时间、地点等标志 ,它是为了观看者阅读而产生的. 图像中文本一般具备以下特征 : 纹理 :丰富的边缘、角点 ;周期出现的高强度和高频率. 色彩 :文字多为单色 ,并与背景有明显的对比 , 特殊情况下有特定的色彩. 形状 :字符的尺寸有一定范围 ,字符之间的距离不会过大 ,一段文字一般在同一水平或垂直线上. 其他 :前面少有遮挡 ; 文字多为正向 ; 同一段文字会在连续的多帧图像中出现. 可以利用以上这些特征进行文本区域的检测 , 然而视频图像中的文本 ,尤其是场景文本往往镶嵌在复杂的背景图像中 ;文本的颜色、亮度和对比度经常发生变化 ;文本的大小、排列和对齐方式不确定 ; 受拍摄角度等因素的影响 ,文本会产生扭曲、变形、残缺、模糊断裂等现象. 这些因素都给视频图像中文本的检测造成了极大的困难 ,因此迫切需要找到一种适用于各种类型视频图像中文本检测的方法. 2 Homogeneit y 的定义 Homogeneity 与从图像中提取出的局部信息有关 ,它的数值反映了一个区域的一致性的强度 ,因此它可以被用来进行图像和视频中的文本检测 ,文中把 Homogeneity 定义为 2 个部分的组合 :标准差和强度的不连贯性. 设 I( i , j) 是一幅 M ×N 的图像在 ( i , j) 位置上的像素值 , wn ( i , j) 是一个以( i , j) 为中心的 n ×n 大小的窗口 ,用来计算标准差; w m ( i , j) 是一个以( i , j) 为中心 m ×m 的大小的窗口 ,用来计算不连贯性 ,其中 m , n 为奇数 , m > 1 , n > 1. 像素 I( i , j) 的标准差定义为 σ( i , j) = 1 n 2 ∑ i+ n- 1 2 p = in- 1 2 ∑ j+ n- 1 2 j- n- 1 2 ( I( p , q) - μ( i , j) 2 , 0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. (1) 式中 :μ( i , j) 是在 wn ( i , j) 窗口中所有像素的均值 , 计算方法如下 : μ( i , j) = 1 n 2 ∑ i+ n- 1 2 p = in- 1 2 ∑ j+ n- 1 2 j- n- 1 2 I( p , q) . (2) 将σ( i , j) 归一化 ,得到归一化的标准差 : V n ( i , j) = σ( i , j) σmax . (3) 式中:σmax = max{σ(i , j)} ,0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. 一个像素的不连贯性可以用边缘信息来描述 , 文中应用 Sobel 算子来计算像素 I ( i , j) 的不连贯性 e( i , j) : e( i , j) = G 2 x + G 2 y . (4) 将 e( i , j) 归一化 ,得到归一化的不连贯性 : Em ( i , j) = e( i , j) emax . (5) 式中:emax = max{ e(i , j)} ,0 ≤i ≤M - 1 ,0 ≤j ≤N - 1. 那么 ,像素 I ( i , j) 的 Homogeneity 的定义如下 : Hm ( i , j) = (1 - Em ( i , j) ×(1 - V n ( i , j) ) . (6) Homogeneity 的取值在 0 和 1 之间. 由以上的定义可以看出 ,如果一个区域越均匀 ,每一点处的归一化标准差 V n ( i , j) 和归一化不连贯性 Em ( i , j) 就越小 , 计算出每一个点处的 Homogeneity 值 Hmn ( i , j) 就越大. 图像中文本的主要特性可概括为 :不连惯性和高频性 ,因为文本的区域含有丰富的边角纹理信息. 文本区域像素点的 Homogeneity 值比较小 ,能很好地与背景区域区分开 ,这个特点为在 Homogeneity 空间来进行文本检测提供了条件. 通过计算图像的 Homogeneity 将图像映射到 Homogeneity 空间中得到特征图像 ,如图 1 所示. (a)原始图像 · 07 · 智能系统学报第 2 卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第1期黄剑华，等：一种基于Homogeneity的文本检测新方法 ·71· 三阶矩： M =-1 G,).a3. (10 m Xn 月N 标准差：不H的10C 东客了苏亿见龙片对了m亿子 (11U 能量： E= (12) ,mXn 式中：m=n=16. (b)Homo geneity或中特征图像 3.3用SVM作为分类器进行分类图1 Homogeneity映射文中使用的分类器是支持向量机(SVM),因为 Fig.I Homogeneity mapping SVM是从线性可分情况下的最优分类面提出的，它不仅能将2类样本无错误的分开，而且使得分类距 3基于Ho mogeneity的文本检测离最大.它在很大程度上解决了传统方法（如神经网文本获取是指在输入图像中确定文本区域的位络)存在的问题，如模型选择、过学习、非线性、多维置，并标识出来的过程.文本获取可分为以下几个步问题、局部极小点等问题」骤：文本检测、文本定位、文本提取和字符识别4个文中SVM分类器的核函数选择多项式核函阶段.文中主要研究的是文本检测的方法.首先应用数 Homogeneity映射来对图像进行处理，突出其中文 Kx,以=(r'y+g 13) 本区域的特征，得到特征图像，然后在得到的特征图实验中选择d=3多项式核函数，参数Y=0.1, 像上，使用一个大小为16×16的滑动窗口得到图像 C=0.1.在训练SVM时，使用标记为文本属性或非的局部数据，在窗口内提取特征，送入分类器来判别文本属性的图像块作为训练样本，训练样本中2种此窗口所对应的图像区域是否为文本区域，从而确属性图像块的比例对文本检测器的训练结果有直接定图像中的文本区域，影响.训练集中每一幅图像都包含文本区域，但通常 3.1预处理文本区域都远少于非文本区域，因此从这些图像直预处理主要是从视频片段中提取视频帧，对图像接得到的文本块远远少于非文本块.为了保证文本进行去噪处理，将彩色图像转化为灰度图像等操作」检测器对文本和非文本块识别率的均衡，训练样本 3.2基于Homogeneity的特征提取中文本块和非文本块的比例要适当.文中比较了不经过预处理后的图像通过Homogeneity映射，同文本和非文本训练样本比例情况下训练得到的分把图像转换到Homogeneity空间，然后使用一个大类器的分类正确率的变化情况，表1为实验结果，其小为16×16的滑动窗口来扫描Homogeneity空间中c表示分类的正确率，c?表示文本区域的正确中的图像，对于窗口覆盖的图像区域，文中使用了率，c表示非文本区域的正确率，定义如下：如下的6个统计量作为特征，这里G为对特征图像 c=R/Twotal (14) 使用滑动窗口得到的矩阵，G为此矩阵的均值： Cr Rr/Ttext, 15) 密度 CB RB/B. (16) 表1不同的训练样本比例下的分类结果 D=E,G》 7) Table 1 Cassification result of difference 均值 training sample rate % Mnk,,c 文本： (8) 20:1015:1010:1010:1510:205:155:20 非文本二阶矩 c76.4878.4186.7986.8688.6390.9891.34 cr91.9591.1488.7075.9367.5253.4542.23 (9) CB 74.3876.6884.6288.3491.5096.0898.02 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

(b) Homogeneity 域中特征图像图 1 Homogeneity 映射 Fig. 1 Homogeneity mapping 3 基于 Homogeneity 的文本检测文本获取是指在输入图像中确定文本区域的位置 ,并标识出来的过程. 文本获取可分为以下几个步骤 :文本检测、文本定位、文本提取和字符识别 4 个阶段. 文中主要研究的是文本检测的方法. 首先应用 Homogeneity 映射来对图像进行处理 ,突出其中文本区域的特征 ,得到特征图像 ;然后在得到的特征图像上 ,使用一个大小为 16 ×16 的滑动窗口得到图像的局部数据 ,在窗口内提取特征 ,送入分类器来判别此窗口所对应的图像区域是否为文本区域 ,从而确定图像中的文本区域. 3. 1 预处理预处理主要是从视频片段中提取视频帧 ,对图像进行去噪处理 ,将彩色图像转化为灰度图像等操作. 3. 2 基于 Homogeneity 的特征提取经过预处理后的图像通过 Homogeneity 映射 , 把图像转换到 Homogeneity 空间 ,然后使用一个大小为 16 ×16 的滑动窗口来扫描 Homogeneity 空间中的图像 , 对于窗口覆盖的图像区域 ,文中使用了如下的 6 个统计量作为特征 ,这里 G为对特征图像使用滑动窗口得到的矩阵 , G 为此矩阵的均值 : 密度 : D = ∑ m i =1 ∑ n j =1 G( i , j) . (7) 均值 : M = 1 m ×n ∑ m i = 1 ∑ n j = 1 G( i , j) . (8) 二阶矩 : M2 = 1 m ×n ∑ m i = 1 ∑ n j = 1 ( G( i , j) - G) 2 . (9) 三阶矩 : M3 = 1 m ×n ∑ m i = 1 ∑ n j = 1 ( G( i , j) - G) 3 . (10) 标准差 : v = 1 m ×n - 1 ∑ m i = 1 ∑ n j = 1 ( G( i , j) - G) 2 1/ 2 . (11) 能量 : E = ∑ m i = 1 ∑ n j = 1 G 2 ( i , j) m ×n . (12) 式中 : m = n = 16. 3. 3 用 SVM 作为分类器进行分类文中使用的分类器是支持向量机(SVM) ,因为 SVM 是从线性可分情况下的最优分类面提出的 ,它不仅能将 2 类样本无错误的分开 ,而且使得分类距离最大. 它在很大程度上解决了传统方法(如神经网络) 存在的问题 ,如模型选择、过学习、非线性、多维问题、局部极小点等问题. 文中 SVM 分类器的核函数选择多项式核函数 : K( x , y) = (γx t y + C) d . (13) 实验中选择 d = 3 多项式核函数 ,参数γ= 0. 1 , C = 0. 1. 在训练 SVM 时 ,使用标记为文本属性或非文本属性的图像块作为训练样本 ,训练样本中 2 种属性图像块的比例对文本检测器的训练结果有直接影响. 训练集中每一幅图像都包含文本区域 ,但通常文本区域都远少于非文本区域 ,因此从这些图像直接得到的文本块远远少于非文本块. 为了保证文本检测器对文本和非文本块识别率的均衡 ,训练样本中文本块和非文本块的比例要适当. 文中比较了不同文本和非文本训练样本比例情况下训练得到的分类器的分类正确率的变化情况 ,表 1 为实验结果 ,其中 c 表示分类的正确率 , cT 表示文本区域的正确率 , cB 表示非文本区域的正确率 ,定义如下 : c = R/ Ttotal , (14) cT = RT / Ttext , (15) cB = RB / B. (16) 表 1 不同的训练样本比例下的分类结果 Table 1 Classification result of difference training sample rate % 文本 : 非文本 20 :10 15 :10 10 :10 10 :15 10 :20 5 :15 5 :20 c 76. 48 78. 41 86. 79 86. 86 88. 63 90. 98 91. 34 cT 91. 95 91. 14 88. 70 75. 93 67. 52 53. 45 42. 23 cB 74. 38 76. 68 84. 62 88. 34 91. 50 96. 08 98. 02 第 1 期黄剑华 ,等 :一种基于 Homogeneity 的文本检测新方法 · 17 · © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

·72· 智能系统学报第2卷这里To表示送入分类器总的样本数目，R表的特征为4.2节中描述的6维统计量.测试结果如示分类正确的样本数目，Tea为文本区域的样本数表2所示目，B为非文本区域的样本数目.为了保证识别率的表2SVM对从视频中提取出图片的分类结果均衡，避免文本区域过多的误识，文中选择使用 Table 2 Result of SVM tested on our dataset o 10:10作为训练样本比例（文本：非文本） Color Our 在测试时，把滑动窗口得到的6维特征输入到 Robert Sobel Canny LOG Robert method SVM,SVM的输出为0和1分别代表非文本和文 83.4077.3080.78-68.7265.6386.79 本.使用SVM的分类结果可以得到一个与原始图 86.9689.0355.8584.2489.4088.70 像对应的二值图像，如图2(a)所示 cg82.8875.5884.4466.4462.1584.62 文中同时采用2003年国际自然场景文本阅读比赛(ICDAR'2003 Robust Reading Competi- tion)1提供的测试集进行了测试，测试集为507幅图片，这些图片都是场景文本图片，训练样本为258 幅图片，测试样本为249幅图片.测试结果如表3所示表3SM对ICDAR'2003测试图片的分类结果 Table 3 Result of SVM tested on ICDAR'2003 dataset Color Our (a)SVM识别结果 Robert Sobel Canny LOG Robert method 74.7973.7247.9669.8354.6176.89 Cr 52.7855.0970.1453.9974.7957.09 cB77.3876.7844.3172.4051.3378.36 至今年9月我国累计吸收合问外景金从实验结果可以看出，在Homogeneity空间进夹破了1万亿美元达到了1055.5亿美元行特征提取比用边缘算子直接提取文本的效果好图2(b)是利用文中方法进行文本检测的实际效果」 5结束语文中提出了一种基于Homogeneity的文本检 (b)文本检测结果测的方法，Homogeneity这种方法己经被成功地应图2文本检测实例用到图像分割中，文中把它应用到文本检测中，通过 Fig.2 Examples of text detection 实验可以看出这种方法是有效的.由实验结果也可以看出，该算法中的一些经验参数的选择和特征提 4实验结果取、特征选择等问题上还有待研究.今后将进一步研为了验证文中算法的性能，文中作了以下的实究多分辨分析和特征选择等问题，进一步提高文本验：分别使用边缘算子与Ho mo geneity映射2类方检测的准确率法得到特征图像，然后在所得到的特征图像中按照参考文献：上述方法，在相同的条件下进行特征提取和分类器分类 [1]JEONG K Y,JUNG K,KIM E Y,et al:Neural net- 图片样本集为：453幅图片，这些图片是从视频 work-based text location for news video indexing [J ] IEEE Transactions on Information Theory,1998,44 中截取出来的包括动画片、新闻、体育、电影等方面。 (5):319.323. 其中训练样本为138幅图片，测试样本为315幅图 [2]KIM K I,JUNG K,KIM J H.Texture-based approach 片.在训练SVM分类器时，根据4.3节的实验结 for text detection in images using support vector ma- 果，训练样本比例选择10：10（文本：非文本），选取 chines and continuously adaptive mean shift algorithm 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved hup://www.cnki.net

这里 Ttotal表示送入分类器总的样本数目 , R 表示分类正确的样本数目 , Ttext 为文本区域的样本数目 , B 为非文本区域的样本数目. 为了保证识别率的均衡 ,避免文本区域过多的误识 , 文中选择使用 10 :10作为训练样本比例(文本 :非文本) . 在测试时 ,把滑动窗口得到的 6 维特征输入到 SVM ,SVM 的输出为 0 和 1 分别代表非文本和文本. 使用 SVM 的分类结果可以得到一个与原始图像对应的二值图像 ,如图 2 (a) 所示. (a) SVM 识别结果 (b) 文本检测结果图 2 文本检测实例 Fig. 2 Examples of text detection 4 实验结果为了验证文中算法的性能 ,文中作了以下的实验 :分别使用边缘算子与 Homogeneity 映射 2 类方法得到特征图像 ,然后在所得到的特征图像中按照上述方法 ,在相同的条件下进行特征提取和分类器分类. 图片样本集为 :453 幅图片 ,这些图片是从视频中截取出来的包括动画片、新闻、体育、电影等方面. 其中训练样本为 138 幅图片 ,测试样本为 315 幅图片. 在训练 SVM 分类器时 ,根据 4. 3 节的实验结果 ,训练样本比例选择 10 :10 (文本 :非文本) ,选取的特征为 4. 2 节中描述的 6 维统计量. 测试结果如表 2 所示. 表 2 SVM 对从视频中提取出图片的分类结果 Table 2 Result of SVM tested on our dataset % Robert Sobel Canny LO G Color Robert Our method c 83. 40 77. 30 80. 78 68. 72 65. 63 86. 79 cT 86. 96 89. 03 55. 85 84. 24 89. 40 88. 70 cB 82. 88 75. 58 84. 44 66. 44 62. 15 84. 62 文中同时采用 2003 年国际自然场景文本阅读比赛 ( ICDAR ’2003 Robust Reading Competi2 tion) [9 ]提供的测试集进行了测试 ,测试集为 507 幅图片 ,这些图片都是场景文本图片 ,训练样本为 258 幅图片 ,测试样本为 249 幅图片. 测试结果如表 3 所示. 表 3 SVM 对 ICDAR ’2003 测试图片的分类结果 Table 3 Result of SVM tested on ICDAR’2003 dataset % Robert Sobel Canny LO G Color Robert Our method c 74. 79 73. 72 47. 96 69. 83 54. 61 76. 89 cT 52. 78 55. 09 70. 14 53. 99 74. 79 57. 09 cB 77. 38 76. 78 44. 31 72. 40 51. 33 78. 36 从实验结果可以看出 ,在 Homogeneity 空间进行特征提取比用边缘算子直接提取文本的效果好. 图 2 (b) 是利用文中方法进行文本检测的实际效果. 5 结束语文中提出了一种基于 Homogeneity 的文本检测的方法 , Homogeneity 这种方法已经被成功地应用到图像分割中 ,文中把它应用到文本检测中 ,通过实验可以看出这种方法是有效的. 由实验结果也可以看出 ,该算法中的一些经验参数的选择和特征提取、特征选择等问题上还有待研究. 今后将进一步研究多分辨分析和特征选择等问题 ,进一步提高文本检测的准确率. 参考文献 : [1 ]J EON G K Y , J UN G K , KIM E Y , et al : Neural net2 work2based text location for news video indexing [J ]. IEEE Transactions on Information Theory , 1998 , 44 (5) :319 - 323. [2 ] KIM K I , J UN G K , KIM J H. Texture2based approach for text detection in images using support vector ma2 chines and continuously adaptive mean shift algorithm · 27 · 智能系统学报第 2 卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第1期黄剑华，等：一种基于Homogeneity的文本检测新方法 ·73 [J ]IEEE Transactions on Pattern Analysis and Ma- [9]LUCAS S M,PANARETOS A,SOSA L.ICDAR 2003 chine Intelligence,2003,25(12):1631-1639. robust reading competition[A].In:IEEE Proceeding of [3]LI H P,DOERMANN D,KIA O.Automatic text detec- The 7th International Conference on Document Analysis tion and tracking in digital video [J ]IEEE Transaction and Recognition[C].[s.I.],2003. on Image Processing,2000,9(1):147-156. 作者简介： [4 ]CHEN X R,ZHANG HJ.Text area detection from vid- 黄剑华，男，1967年生，副研究员， eo frames[A].IEEE Pacific Rim Conference on Multi- 中国计算机学会会员.主要研究方向为 media:Advances in Multimedia Information Processing 人工智能模式识别、图像处理、自然环 [C].[s.1.],2001. 境下文本认知、人体运动智能分析等。 [5 ]L IENHART R,WERNICKE A.Localizing and segmen E mail jhhuang @hit.edu.cn tation text in images and videos [J ]IEEE Transactions On Circuits and Systems For Video Technology,2000, 12(4):256.268. 唐降龙，男，1960年生，教授，博士 [6]YE Q X,HUANG Q M,GAO W,ZHAO D B.Fast 生导师，主要研究方向为模式识别、人 and robust text detection in images and video frames[J]. 体运动智能分析、人工智能、图象处理 Image Vision and Computing,2005(23):565-576. 医学图象处理、人体生物特征身份鉴别 [7]张引，潘云鹤.面向彩色图像和视频的文本提取新方法等.哈尔滨工业大学计算机学院模式识 0].计算机辅助设计与图形学报，2002,14(1)：36.40. 别研究中心主任，中国计算机学会会 ZHANG Yin,PAN Yunhe.A new approach for text ex- 员，黑龙江省人工智能学会副理事长 traction from color image and video [J].Journal of Com- puter-aided Design Computer Graphics,2002,14(1): 36.40. 刘家锋，男，1968年生，副教授，主 [8]ZHONG Y,ZHANG Hongjiang,JAIN A K.Automatic 要研究方向为人工智能、模式识别、中 caption location in compressed video [J ]IEEE Transac- 文信息处理等 tions on Pattern Analysis and Machine Intelligence,2000, 22(4):385.-392 第26届中国控制会议 The 26th Chinese Contol Conference 由中国自动化学会控制理论专业委员会组织召开的中国控制会议，现已成为有关控制理论与技术的国际性学术年会。大会采用会前讲座、大会报告、分组报告与张贴论文等形式进行学术交流。自2005年起会议论文ISTP(Index to Scientific and Technical Proceedings)收录，自20O6年起会议论文集进入IEEE CPP (Conference Publications Program),ISTP检索。第26届中国控制会议由中国自动化学会控制理论专业委员会主办，中南大学信息科学与工程学院承办，将于2007年7月在风景秀丽的张家界举行。热忱欢迎海内外广大同仁踊跃投稿参加本届大会，共同交流学术成果。征文范围如下：系统理论与控制理论；非线性系统及其控制；复杂性与复杂系统理论；分布参数系统；混杂系统与DEDS;大系统；随机系统；稳定性与镇定；建模、辨识与信号处理；最优控制与优化；鲁棒控制与H f控制；自适应控制与学习控制；变结构控制；神经网络；模糊系统与模糊控制；模式识别；控制设计方法；遗传算法与演化计算；运动控制；智能机器人；分布式控制系统；信息处理系统；故障诊断；通讯网络系统；CMS 与制造系统；交通系统：生物与生态系统；社会经济系统；工业系统；其他。征文要求： L.论文采用网上投稿，请登陆http:/ccc.amss.ac.cn/pms/了解具体事宜并投稿，提交论文截止日期为2007年3月1日。 2.大会设立关肇直优秀论文奖及张贴论文奖，申请办法和条例请查看控制理论专业委员会网页t tp:/tcct.amss.ac.cn/或会议网页：http:/ccc.amss.ac.cnl。 3.拟组织邀请组的组织者，请提供1000字的组织建议书及该组全部拟邀请论文的摘要。同一邀请组的论文的主题应鲜明、集中，邀请组一般有6篇论文。 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.nei

[J ]. IEEE Transactions on Pattern Analysis and Ma2 chine Intelligence ,2003 , 25 (12) :1631 - 1639. [3 ]L I H P , DOERMANN D , KIA O. Automatic text detec2 tion and tracking in digital video [J ]. IEEE Transaction on Image Processing , 2000 , 9 (1) :147 - 156. [ 4 ]CHEN X R , ZHAN G H J. Text area detection from vid2 eo frames[ A ]. IEEE Pacific Rim Conference on Multi2 media : Advances in Multimedia Information Processing [C]. [s. l. ] ,2001. [5 ]L IEN HART R , WERNICKE A. Localizing and segmen2 tation text in images and videos[J ]. IEEE Transactions On Circuits and Systems For Video Technology , 2000 , 12 (4) :256 - 268. [6 ] YE Q X , HUAN G Q M , GAO W , ZHAO D B. Fast and robust text detection in images and video frames[J ]. Image Vision and Computing , 2005 (23) :565 - 576. [7 ]张引 ,潘云鹤. 面向彩色图像和视频的文本提取新方法 [J ]. 计算机辅助设计与图形学报 ,2002 , 14 (1) :36 - 40. ZHAN G Yin , PAN Yunhe. A new approach for text ex2 traction from color image and video [J ]. Journal of Com2 puter2aided Design & Computer Graphics ,2002 , 14 (1) : 36 - 40. [8 ]ZHON G Y, ZHAN G Hongjiang , J AIN A K. Automatic caption location in compressed video [J ]. IEEE Transac2 tions on Pattern Analysis and Machine Intelligence ,2000 , 22 (4) :385 - 392. [9 ]LUCAS S M , PANARETOS A , SOSA L. ICDAR 2003 robust reading competition[ A ]. In : IEEE Proceeding of The 7th International Conference on Document Analysis and Recognition[C]. [s. l. ] ,2003. 作者简介 : 黄剑华 ,男 ,1967 年生 ,副研究员 , 中国计算机学会会员. 主要研究方向为人工智能、模式识别、图像处理、自然环境下文本认知、人体运动智能分析等. E2mail :jhhuang @hit. edu. cn 唐降龙 ,男 ,1960 年生 ,教授 ,博士生导师 ,主要研究方向为模式识别、人体运动智能分析、人工智能、图象处理医学图象处理、人体生物特征身份鉴别等. 哈尔滨工业大学计算机学院模式识别研究中心主任 ,中国计算机学会会员 ,黑龙江省人工智能学会副理事长. 刘家锋 ,男 ,1968 年生 ,副教授 ,主要研究方向为人工智能、模式识别、中文信息处理等. 第 26 届中国控制会议 The 26th Chinese Contol Conference 由中国自动化学会控制理论专业委员会组织召开的中国控制会议 ,现已成为有关控制理论与技术的国际性学术年会。大会采用会前讲座、大会报告、分组报告与张贴论文等形式进行学术交流。自 2005 年起会议论文 ISTP(Index to Scientific and Technical Proceedings) 收录 ,自 2006 年起会议论文集进入 IEEE CPP (Conference Publications Program) , ISTP 检索。第 26 届中国控制会议由中国自动化学会控制理论专业委员会主办 ,中南大学信息科学与工程学院承办 ,将于 2007 年 7 月在风景秀丽的张家界举行。热忱欢迎海内外广大同仁踊跃投稿参加本届大会 ,共同交流学术成果。征文范围如下 :系统理论与控制理论 ;非线性系统及其控制 ;复杂性与复杂系统理论 ; 分布参数系统 ;混杂系统与 DEDS;大系统 ;随机系统 ;稳定性与镇定 ;建模、辨识与信号处理 ;最优控制与优化 ;鲁棒控制与 H2 nf 控制 ;自适应控制与学习控制 ; 变结构控制 ;神经网络 ;模糊系统与模糊控制 ;模式识别 ;控制设计方法 ;遗传算法与演化计算 ;运动控制 ;智能机器人 ;分布式控制系统 ;信息处理系统 ;故障诊断 ;通讯网络系统 ;CIMS 与制造系统 ;交通系统 ;生物与生态系统 ;社会经济系统 ;工业系统 ;其他。征文要求 : 1. 论文采用网上投稿 ,请登陆 http :/ / ccc. amss. ac. cn/ pms/ 了解具体事宜并投稿 ,提交论文截止日期为 2007 年 3 月 1 日。 2. 大会设立关肇直优秀论文奖及张贴论文奖 ,申请办法和条例请查看控制理论专业委员会网页 ht2 tp :/ / tcct. amss. ac. cn/ 或会议网页 :http :/ / ccc. amss. ac. cn/ 。 3. 拟组织邀请组的组织者 ,请提供 1000 字的组织建议书及该组全部拟邀请论文的摘要。同一邀请组的论文的主题应鲜明、集中 ,邀请组一般有 6 篇论文。第 1 期黄剑华 ,等 :一种基于 Homogeneity 的文本检测新方法 · 37 · © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录