正在加载图片...
第1期 黄剑华,等:一种基于Homogeneity的文本检测新方法 ·71· 三阶矩: M =-1 G,).a3. (10 m Xn 月N 标准差: 不H的10C 东客了苏亿见龙 片对了m亿子 (11U 能量: E= (12) ,mXn 式中:m=n=16. (b)Homo geneity或中特征图像 3.3用SVM作为分类器进行分类 图1 Homogeneity映射 文中使用的分类器是支持向量机(SVM),因为 Fig.I Homogeneity mapping SVM是从线性可分情况下的最优分类面提出的,它 不仅能将2类样本无错误的分开,而且使得分类距 3基于Ho mogeneity的文本检测 离最大.它在很大程度上解决了传统方法(如神经网 文本获取是指在输入图像中确定文本区域的位 络)存在的问题,如模型选择、过学习、非线性、多维 置,并标识出来的过程.文本获取可分为以下几个步 问题、局部极小点等问题」 骤:文本检测、文本定位、文本提取和字符识别4个 文中SVM分类器的核函数选择多项式核函 阶段.文中主要研究的是文本检测的方法.首先应用 数 Homogeneity映射来对图像进行处理,突出其中文 Kx,以=(r'y+g 13) 本区域的特征,得到特征图像,然后在得到的特征图 实验中选择d=3多项式核函数,参数Y=0.1, 像上,使用一个大小为16×16的滑动窗口得到图像 C=0.1.在训练SVM时,使用标记为文本属性或非 的局部数据,在窗口内提取特征,送入分类器来判别 文本属性的图像块作为训练样本,训练样本中2种 此窗口所对应的图像区域是否为文本区域,从而确 属性图像块的比例对文本检测器的训练结果有直接 定图像中的文本区域, 影响.训练集中每一幅图像都包含文本区域,但通常 3.1预处理 文本区域都远少于非文本区域,因此从这些图像直 预处理主要是从视频片段中提取视频帧,对图像 接得到的文本块远远少于非文本块.为了保证文本 进行去噪处理,将彩色图像转化为灰度图像等操作」 检测器对文本和非文本块识别率的均衡,训练样本 3.2基于Homogeneity的特征提取 中文本块和非文本块的比例要适当.文中比较了不 经过预处理后的图像通过Homogeneity映射, 同文本和非文本训练样本比例情况下训练得到的分 把图像转换到Homogeneity空间,然后使用一个大 类器的分类正确率的变化情况,表1为实验结果,其 小为16×16的滑动窗口来扫描Homogeneity空间 中c表示分类的正确率,c?表示文本区域的正确 中的图像,对于窗口覆盖的图像区域,文中使用了 率,c表示非文本区域的正确率,定义如下: 如下的6个统计量作为特征,这里G为对特征图像 c=R/Twotal (14) 使用滑动窗口得到的矩阵,G为此矩阵的均值: Cr Rr/Ttext, 15) 密度 CB RB/B. (16) 表1不同的训练样本比例下的分类结果 D=E,G》 7) Table 1 Cassification result of difference 均值 training sample rate % Mnk,,c 文本: (8) 20:1015:1010:1010:1510:205:155:20 非文本 二阶矩 c76.4878.4186.7986.8688.6390.9891.34 cr91.9591.1488.7075.9367.5253.4542.23 (9) CB 74.3876.6884.6288.3491.5096.0898.02 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net(b) Homogeneity 域中特征图像 图 1 Homogeneity 映射 Fig. 1 Homogeneity mapping 3 基于 Homogeneity 的文本检测 文本获取是指在输入图像中确定文本区域的位 置 ,并标识出来的过程. 文本获取可分为以下几个步 骤 :文本检测、文本定位、文本提取和字符识别 4 个 阶段. 文中主要研究的是文本检测的方法. 首先应用 Homogeneity 映射来对图像进行处理 ,突出其中文 本区域的特征 ,得到特征图像 ;然后在得到的特征图 像上 ,使用一个大小为 16 ×16 的滑动窗口得到图像 的局部数据 ,在窗口内提取特征 ,送入分类器来判别 此窗口所对应的图像区域是否为文本区域 ,从而确 定图像中的文本区域. 3. 1 预处理 预处理主要是从视频片段中提取视频帧 ,对图像 进行去噪处理 ,将彩色图像转化为灰度图像等操作. 3. 2 基于 Homogeneity 的特征提取 经过预处理后的图像通过 Homogeneity 映射 , 把图像转换到 Homogeneity 空间 ,然后使用一个大 小为 16 ×16 的滑动窗口来扫描 Homogeneity 空间 中的图像 , 对于窗口覆盖的图像区域 ,文中使用了 如下的 6 个统计量作为特征 ,这里 G为对特征图像 使用滑动窗口得到的矩阵 , GŠ 为此矩阵的均值 : 密度 : D = ∑ m i =1 ∑ n j =1 G( i , j) . (7) 均值 : M = 1 m ×n ∑ m i = 1 ∑ n j = 1 G( i , j) . (8) 二阶矩 : M2 = 1 m ×n ∑ m i = 1 ∑ n j = 1 ( G( i , j) - GŠ) 2 . (9) 三阶矩 : M3 = 1 m ×n ∑ m i = 1 ∑ n j = 1 ( G( i , j) - GŠ) 3 . (10) 标准差 : v = 1 m ×n - 1 ∑ m i = 1 ∑ n j = 1 ( G( i , j) - GŠ) 2 1/ 2 . (11) 能量 : E = ∑ m i = 1 ∑ n j = 1 G 2 ( i , j) m ×n . (12) 式中 : m = n = 16. 3. 3 用 SVM 作为分类器进行分类 文中使用的分类器是支持向量机(SVM) ,因为 SVM 是从线性可分情况下的最优分类面提出的 ,它 不仅能将 2 类样本无错误的分开 ,而且使得分类距 离最大. 它在很大程度上解决了传统方法(如神经网 络) 存在的问题 ,如模型选择、过学习、非线性、多维 问题、局部极小点等问题. 文中 SVM 分类器的核函数选择多项式核函 数 : K( x , y) = (γx t y + C) d . (13) 实验中选择 d = 3 多项式核函数 ,参数γ= 0. 1 , C = 0. 1. 在训练 SVM 时 ,使用标记为文本属性或非 文本属性的图像块作为训练样本 ,训练样本中 2 种 属性图像块的比例对文本检测器的训练结果有直接 影响. 训练集中每一幅图像都包含文本区域 ,但通常 文本区域都远少于非文本区域 ,因此从这些图像直 接得到的文本块远远少于非文本块. 为了保证文本 检测器对文本和非文本块识别率的均衡 ,训练样本 中文本块和非文本块的比例要适当. 文中比较了不 同文本和非文本训练样本比例情况下训练得到的分 类器的分类正确率的变化情况 ,表 1 为实验结果 ,其 中 c 表示分类的正确率 , cT 表示文本区域的正确 率 , cB 表示非文本区域的正确率 ,定义如下 : c = R/ Ttotal , (14) cT = RT / Ttext , (15) cB = RB / B. (16) 表 1 不同的训练样本比例下的分类结果 Table 1 Classification result of difference training sample rate % 文本 : 非文本 20 :10 15 :10 10 :10 10 :15 10 :20 5 :15 5 :20 c 76. 48 78. 41 86. 79 86. 86 88. 63 90. 98 91. 34 cT 91. 95 91. 14 88. 70 75. 93 67. 52 53. 45 42. 23 cB 74. 38 76. 68 84. 62 88. 34 91. 50 96. 08 98. 02 第 1 期 黄剑华 ,等 :一种基于 Homogeneity 的文本检测新方法 · 17 · © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有