第5卷第5期 智能系统学报 Vol.5 No.5 2010年10月 CAAI Transactions on Intelligent Systems 0ct.2010 doi:10.3969/i.issn.1673-4785.2010.05.002 基于统计部首模型的联机手写汉字识别方法 马龙龙,刘成林 (中国科学院自动化研究所模式识别国家重点实验室,北京100190) 摘要:利用汉字的部首层次结构有助于减小字符识别器的存储空间和提高泛化性、适应性,但部首分割一直是一 个难点.提出一种新的基于部首的联机手写汉字识别方法,该方法把部首形状信息和几何信息集成到识别框架中, 在组合搜索过程中利用字符部首的层次结构字典引导部首的分割与识别,从而提高部首分割的准确率。为克服部首 间的连笔,引入角点检测提取子笔划.部首识别采用统计分类器,模型参数通过自学习得到.在字符识别中,采用了2 种不同的字典表示以及相应的不同搜索算法.该方法已用于左右与上下结构的字符集,实验结果表明了该方法的有 效性。 关键词:联机手写汉字识别:统计部首模型:层次结构:过分割:路径搜索:部首识别 中图分类号:TP391.4文献标识码:A文章编号:16734785(2010)05038507 On-line handwritten Chinese character recognition using statistical radical models MA Long-long,LIU Cheng-lin (National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Science,Beijing 100190,China) Abstract:The hierarchical radical structure of Chinese characters can be explored to reduce the number of parame- ters in character recognition,as well as to improve the generalization ability and adaptability.However,the seg- mentation of radicals from characters has long been a difficult problem.A new radical-based approach for on-line handwritten Chinese character recognition was proposed.The approach integrated appearance-based radical recogni- tion and geometric context into a principled framework using a hierarchical character-radical dictionary to guide rad- ical segmentation and recognition during the path search process for the purpose of increasing the accuracy of radi- cal segmentation.The parameters of statistical radical models were estimated in embedded learning.To overcome the connection of strokes between radicals,corner points were detected to extract sub-strokes.For character recog- nition,two dictionary representation schemes and accordingly different search algorithms were used.The effective- ness of the proposed approach has been demonstrated on Chinese characters of left-right and up-down structures. Keywords:on-line handwritten Chinese character recognition;statistical radical model;hierarchical structure;over segmentation;path search;radical recognition 联机手写汉字识别技术在计算机和手持移动设 基于部首的汉字识别方法长期以来吸引了广大 备(如手机、PDA等)的汉字输入、笔输人文档分析、 研究者的兴趣.汉字虽然类别数很大(常用字约 人机交互等领域具有广泛的应用过去几十年,联机 7000个),而共用的部首只有几百个.对部首而不是 手写汉字识别领域提出了很多有效的方法,识别性 整字进行分类,类别数就大大减少了.类别数的减少 能得到了很大的提高山.随着笔输入设备的普及和 使得分类器在较少的字符样本上训练即可得到较好 应用的扩展,人们对联机手写汉字识别的性能提出 的泛化性能,并且在少量的样本上即可进行书写人 了更高的要求.进一步提高识别精度、减少计算量和 适应.基于部首的层次表示法也已经用在韩文识别 存储空间是下一步的研究目标. 中,用概率模型表示部首和它们之间的关系23].日 文汉字字符识别用随机上下文无关文法(stochastic 收稿日期:2009-11-13, context---free grammar,.SCFG)将字符表示为笔划的组 基金项目:国家自然科学基金资助项目(60775004,60825301). 通信作者:马龙龙.E-mail:longmac@nlpr.ia.ac.cm. 成「4.这种层次表示方法有3个优点:首先,用部首
·386 智能系统学报 第5卷 模型代替整字,模型的复杂度降低:其次,部首的结 不再进一步分解.图1给出了一些结构模型 构比字符简单,识别精度能进一步提高;再者,部首 的类别数较小,相应所需的训练样本也少 联机手写汉字识别方法可以分为统计方法和结 构方法2大类.统计方法通常用特征向量表示整个 (愆 字符形状信息,用统计分类器进行字符分类.这种特 征向量表示法,如方向密度特征或方向直方图特 征6),能够容忍笔划顺序和笔划数的变化.统计方 法的识别精度较高,但由于字符的类别数很大,分类 (魔) (衢) (晰) 器参数的存储量也很大,训练样本也要求比较多.结 图1部分结构模型图 构方法通常基于笔划和部首的分析.为了容忍笔划 Fig.1 A part of structure models 顺序的变动,用笔划或子笔划基元以及它们之间的 部首类别的定义与部首的分割和识别密切相 关系来表示字符或部首模型.隐马尔可夫模型(hid- 关.利用字符的层次结构,采用不同的分割方法,最 den Markov models,HMMs)也经常用来表示笔划和 终所确定的部首类别会不同.图2给出字符“陛”的 部首模型?8),并且可以用判别学习方法来提高基 2种分割.图2(a)表示字符模型,图2(b)显示在1 于HMM的部首识别正确率).然而,由于HMM依 层水平方向分割得到的部首,图2(©)给出用3层嵌 赖于笔划顺序,每一个笔划或字符需要多个模型来 套分割得到的部首.对4284类左右结构字符进行 容忍笔顺的变化, 部首类别的统计,采用以上2种分割方法(如图2 基于部首的手写汉字识别方法的主要困难在于 (b)~(c))得到的部首类别数分别是1118和913 部首难以准确地从字符中分离出来.一些基于规则 类.本文采用后一种方法对字符进行分割,同时给出 的方法利用字符结构和部首位置的先验知识检测部 2种分割方法的实验结果比较 首o,然而并不适用于变形较大的字符.基于部首 和级联HMM的表示中,部首由笔划序列组成,能够 动态地与部首模型进行匹配[8],然而这种方法不能 容忍笔划顺序的变化.一种神经网络方法进行部首 (a)字符模型 (h)1层水平分割(c)3层嵌套分割 定位检测和特定位置的部首分类,不需要提取部 首[,但是这种方法需要大量的特定位置的部首模 图22种不同部首组成 型,而且部首分类的精度较差. Fig.2 Two different radical composition schemes 为了克服部首分割的困难,本文提出一种新的 基于部首的联机手写汉字识别方法,该方法结合了 给定所有字符类的训练样本,共享的部首模型通 统计方法和基于部首的结构方法的优点.这种方法 过两阶段自学习获得.首先,通过人工交互,每个字符 的思想类似于字符串识别中的字符切分2],只有同 类都有一个被正确分割的部首序列,然后借助动态规 时进行部首形状识别才能准确地分割部首.这种方 划(dynamic programming,DP),该类的剩余样本和所 法已在文献[13-14]中表明了其在左右与上下结构 得到的正确部首序列进行匹配,从而得到该字符类的 字符中的有效性.本文从该方法的基本思想、系统框 所有部首样本.图3给出了通过DP得到的一类字符 架和具体技术进行展开。 的部首样本,对一类字符类中的每类部首(如图3中 的“日”、“立”),用该类样本的特征均值表示每类部 1 部首模型的创建 首的模板.然后,对得到的所有字符类的部首模板进 大量的汉字是由共用的子结构(部首)组成.由 行层次聚类得到共享的部首模型,通过聚类,不同字 于部首的类别数比字符少,而且结构简单,用部首作 符中的相同部首被自动合并,如“阿”、“阶”、“陈”等 为分类基元会带来益处.为了识别字符,用层次性结 字符中的抱耳旁被合并为一类, 构表示部首模型,并引导部首的分割.这种模型驱动 采用基于合并的层次聚类方法.一开始,所有字 的识别方法有助于克服字符形状变化和笔划连接所 符类所包含的每类部首模板是一个独立的类,然后 导致的部首分割困难的问题, 每次将最接近(类中心的欧氏距离)的2个部首类 汉字字符具有层次性结构,如左右结构的字符 进行合并,直到满足终止条件为止,终止时的聚类个 中嵌套上下结构,子结构(上下结构)中有可能进 数作为最终的共享部首模型的数目.为了确定合适 步嵌套左右结构.假定最多有3层嵌套,多于3层的 的聚类数,通过人工监控聚类过程决定终止条件
第5期 马龙龙,等:基于统计部首模型的联机手写汉字识别方法 387. 提取部首 字符部首 字符 部 日立日 培 也立a 元部首 (meta-radical】 肩 16 暗 A立g 日立 部首 暗 日产日 暗 (radical 暗 日立g 暗 日产日 暗 日立 (b)层次表示 暗日 暗 日产日 图52种字符部首字典表示 Fig.5 Two representation schemes of character-radical dic- 图3一些字符模型的部首提取 tionary Fig.3 Extracted radicals of some character patterns 在序列表示中,整个字典用一个树结构表示, 本文采用3层嵌套的部首分割方法在左右结构 树结构部分如图6所示.每一类字符用部首序列表 (4284类)和上下结构(1489类)的字符上进行实 示,部首序列的顺序根据通常的手写顺序确定(假 验,通过对5773类字符的部首模板聚类,得到 定部首的顺序相对稳定但允许部首内笔划顺序的变 1149个共享部首模型. 化).每个部首序列对应树结构中的一条路径.相同 起始部首的字符有相同的前缀,如:口一老一日、 2识别系统概述 口一其一斤、口一口一几,因而有相同的父节点.由 基于部首的识别系统框架如图4所示,输人字 于共同的前缀部首在字典中仅存储1次,且在路径 符是笔划序列.预处理阶段首先对笔划的点轨迹进 搜索中仅匹配1次,这种表示法能够节省字典的存 行等间隔重采样,然后用高斯滤波平滑,以克服轨迹 储空间和识别计算量.在实验中,共5773类左右和 中点的波动.子笔划提取阶段将笔划在角点处断开, 上下结构字符,构建的树结构字典共7645个节点, 从而克服部首之间的连笔.3层嵌套预分割将字符 由1149个不同部首组成, 递归地分为基元(笔划块)序列,通过合并连续的基 日 (嗜) (嘶) 元序列生成候选部首,然后在字典驱动下用部首分 斤 一几 类器进行部首分类.最优的部首分割对应于最小的 (咒) 巾 (吊) 路径匹配代价值. 几 部首 因一心(越) 信息 分类器 丸一土(垫) ● 口一月(捐) 叉一虫(搔) 输 子笔划 3层嵌套 路径 识别 字符 处理 提取 预分割 搜索 结果 四一 方(楞) 大一 可(椅) 字符部 木一 火(焚) 词典 木 旦(楂) 图4基于部首的识别系统框图 虫 Fig.4 Block diagram of radical-based recognition system 对于字符部首字典的表示,采用了2种方法: 序列表示法(图5(a))和层次表示法(图5(b). 图6树结构的部分图 Fig.6 A portion of the tree structure 而在层次表示中,每一类字符用一个树结构表 示,树结构表示了所包含的部首以及它们之间的关 系.层次表示法提供了更多的结构信息,且不受部首 (a)序列表示 顺序的影响然而不同类字符的树结构有一定差别
·388 智能系统学报 第5卷 很难将这些树结构统一成一个结构化字典.在识别 中,输入字符需要与每一类字符模型分别匹配1次 3 基于部首的识别 在字符识别过程中,首先对字符进行预处理,然 后提取子笔划来处理部首间的连笔,基元(笔划块) 图83层嵌套分割过程 序列在预分割阶段生成,和字符模型进行匹配,最终 Fig.8 Three-layer nested segmentation process 得到部首分割和字符类别. 对于2种字典表示法,它们的预分割过程相同。 3.1子笔划提取 差别在于,在序列表示法中,预分割在路径搜索前 利用笔划中点的局部方向的变化检测角点,然 次完成:而在层次表示法中,每一层的子笔划的分割 后断开角点来提取子笔划,笔划中的点移动方向角 动态依赖于上一层的匹配结果 度的计算依赖于其前序的点.日,表示点卫的方向角, 3.3路径搜索 a,表示点p的前t个点的角度均值.如果0与a2 针对2种字典表示法,采用了2种不同的搜索 差的绝对值大于指定的域值(实验中设定为/4), 算法.同时,在路径评价中集成部首识别分数和几何 则认为这个点是角点.图7给出了角点检测的例子, 信息(部首几何特征和相互关系). 通过断开角点,提取子笔划,解决了部首间的连笔。 3.3.1序列表示法+集束搜索 对于序列表示法,字符部首字典用一个树结构 利杭绩 (见图6)存储.输入字符的基元(笔划块)序列同时 与字典中的所有字符(部首序列)进行匹配,这种方 法类似于词汇驱动的字符串识别1 图7角点检测实例 在字典驱动的匹配中,输入字符的笔划块动态 Fig.7 Examples of comer point detection 地合成候选部首,这些候选部首和树结构中的节点 3.23层嵌套预分割 (部首模型)匹配.每个候选部首最多由6个连续的 3层嵌套预分割的目的是将子笔划序列过切分 笔划块组成。 成一系列的基元.这些基元在后面的路径搜索中通 利用集束搜索方法发现匹配的部首串,在搜索 过模型匹配生成部首.在每一层,根据子笔划间的重 空间中,一个节点表示一个模式部首对,部首分类 叠度对它们迭代归并.一开始假定每一个子笔划是 器赋予它一个距离度量(代价).在搜索过程中,连 一个组件s:,2个组件之间的重叠度novlp利用它们 续部首的累加代价用来评价部分串(在同深度的搜 边界框的大小和位置信息计算得到21, 索空间,只有累加代价较小的那些节点得到扩展,以 水平方向归并组件的过程如下: 加速搜索过程),而对于完整的部首串(字符),根据 1)迭代归并时域(书写顺序)上相邻的2个组 平均代价确定是否接受这个部首串。 件,直到条件novlp(s,+i)>T,不满足为止; 2)迭代归并空间域上相邻的任意2个组件,直 到条件novp(s,)>T,(T2>T)不满足为止; 3)把较小的组件与最近的相邻组件归并, Root node 垂直方向的归并过程同上,只是重叠度的计算 基于垂直方向的组件大小和距离,而水平方向的重 叠度基于水平方向的组件大小和距离。 3层嵌套分割过程基于以上的算法.第1层对 输入的子笔划序列在水平方向分割;第2层对第1 层的分割结果在垂直方向进一步分割,生成更小的 一月 块;第3层对第2层的分割结果在水平方向进一步 办 一力 分割.最后得到的基元(合并组件)可能是1个部 首,也可能是部首的一部分.图8给出了3层部首分 图9搜索空间中节点的扩展 割的实例. Fig.9 Expansion of nodes in the search space
第5期 马龙龙,等:基于统计部首模型的联机手写汉字识别方法 ·389· 图9给出了搜索空间中部分节点的扩展例子. 系(二元特征),用高斯概率密度函数(probability 这个搜索空间是在未引人几何信息下的一个空间 density function,PDF)来模型化一元与二元特征.对 图,CR表示候选部首模型,RN表示树结构中的部 于序列表示法,二元关系指部首串中连续2个部首 首节点.最优的分割路径用粗黑线表示 间的关系;而在层次表示法中,指在每一层的相邻部 3.3.2层次表示法+动态搜索 首或元部首(meta-radical)间的关系.为每一类部首 在层次表示法中,每一类字符用最多3层的树 的一元特征建立1个PDF,同时对每一类字符,在序 结构表示(根节点除外),每一层是部首radical(终 列表示中的相邻部首或层次表示中的相邻部首或元 节点)或元部首meta-radical(非终节点)序列,见图 部首之间都建立1个PDF,负对数似然作为匹配的 5(b).在识别中,输入字符与每一类的树结构模板 代价值 逐个匹配.在每一层,输入模式(笔划块)通过DP匹 共使用了4个一元几何特征,包括:单个部首的 配分割成部首/元部首.当与非终节点匹配时,需调 宽度、高度、边界框的中心的横坐标和纵坐标,这4 用DP子程序分割该元部首为更小的部首/元部首 个特征用部首所在字符的大小进行归一化.部首对 序列,并作为下一层的输入,同时得到元部首的匹配 的二元几何特征包括3个:相邻部首的边界框的宽 距离值 度、高度、中心横坐标和纵坐标的差。 令,”,…,出和”,”,…,分别表示 3.3.4路径评价 在第1层的模型部首/元部首序列和预分割基元序 对于序列表示法所采用的集束搜索中,搜索空 列(1≤l≤3).D(m1,n)表示在第l层的m,个模 间中的一条路径对应于输入字符的1个候选部首分 型和n,个基元的最优匹配距离.D)(m1,n1)为第1 割串.而在层次表示法所用的嵌套DP中,每一层的 层的DP匹配距离,也是最终的字符匹配距离. 1条路径对应从上一层输人(元部首)的1个部首/ 算法1描述了输入字符的层次分割的基元序列 元部首分割串.在2种方法中,路径的评价对最优的 与树结构模板的匹配过程, 路径搜索起重要的作用. 算法1嵌套DP: 令R=r1r,表示某一类字符的部首模型串序 输入:第1层部首/元部首序列r",”,…, 列,S=s…s,表示基元(块)序列X可能的候选部 和输入字符预分割基元序列s0,,,。 首模式序列.在最优部首串R·下最优的分割路径 1)字符匹配初始化:l=1. S的评价定义如下: 2)第1层DP匹配初始化:D(0,0)=0. (R',S)=ag母axP(R,S)= 3)迭代:Fori=1,2,…,m,j=1,2,…,n1, arg min(-log P(R,S)). (1) D((ij)-min[D((i-1j-k)+ 将部首似然和几何信息似然包含在式(1)中, d(”,)]. logP(R,S1X)可近似地表示为 式中:是由基元织1…号9构成的 log P(R,S)=(a:log P(S.I r.)+ 笔划块 4)DP匹配终止,得到D9(m,n). A2log P(S9 I r:)A3log P(S2 I r-1,r)). 在DP中,若为元部首,则d(r”, 式中:入1+入2+入3=1,T。表示候选部首串路径的长 )由第l+1层的DP匹配得到.将 度,P(SIr,)表示在类T,下部首模型S%的条件概 ”表示为下一层的部首/元部首序列+)… 率,P(S1r)和P(Sr-1,)分别度量一元和二元 :,将预分割为下一层的基元序 几何特征概率,S、S1和S2分别对应部首形状特 征、一元特征和二元特征 列+w…”,设1=1+1,调用上面的步骤2) 2种搜索方法的区别在于:在集束搜索中,在每 4),得到d(r9,)=D0(m1, 个切分点处保留多条代价较小的部分路径:而在DP ni-). 中仅保留1条最小的部分路径.搜索终止时,所得到 若,为部首模型(终结点),匹配代价定义如 的最小的累加匹配代价值对应于最优的部首分割. 下:d(r9,)=-logP(r0,),由字符分类器给出. 4 实验结果与分析 3.3.3几何信息模型 本文提出的基于部首的方法在6763类 与部首类别有关的几何特征是指单个部首的几 (GB2312-80中的字符)的手写汉字数据库上作性能 何特征(一元特征)或者相邻2个部首间的几何关 评价.共60套样本,选择了5773类左右与上下结
·390· 智能系统学报 第5卷 构的字符进行了实验.用50套样本训练部首分类 类),然而部首方法由于涉及到多个候选的部首分 器,剩余的10套用来测试性能。 割,并没有节省计算开销.由于“层次表示+DP搜 每个部首模型的建立与在整字识别中5)一样,需 索”方法需要与每一类的树结构模板进行匹配,所 要归一化、特征提取、分类3个阶段.矩归一化方法用 花费的时间大概是“序列表示+集束搜索”的3倍. 来归一化点坐标序列,用基于归一化的特征提取(or 与部首类别有关的一元和二元几何特征可以提 malization-cooperated feature extraction,.NCFE)直接从 高字符的识别率,表3给出了来自左右与上下结构 轨迹提取方向直方图特征(512维)[s],利用Fisher线性 的字符对,字符类别不同但字符部首的序列表示相 鉴别分析(LDA)进行降维,最终得到160维的特征向 同,融入二元几何信息就能有效地区分这些字符对. 量.用修正的二次判别函数(modified quadratic discrim- 表3序列表示相同的字符对 inant function,MQDF)分类器[16对特征进行分类从训 Table 3 Character pairs with the same radical sequences 练样本提取到的部首模型还用来估计几何上下文的高 左右结构 上下结构 斯PDF.在路径评价中,分别设置参数入1=0.1, 吧 邑 2=0.2和入3=0.7. 标 柰 实现算法用Miscrosoft Visual C++6.0,所有的 测试结果都在ntel双核处理器、2GB内存的P℃机 呗 员 上得到. 晾 景 首先,在左右结构的4284类字符集上给出了 色 0 采用2种预分割方法的实验结果,如表1所示.实验 晖 聚 在图4识别框架下完成,没有进行子笔划提取,也没 屺 岂 有利用几何信息,采用了“序列表示+集束搜索”算 旰 法.从表1可以看出1层水平分割方法取得了更高 旱 的识别率,而部首的类别数大于3层嵌套的类别数. 对于这2种部首方法,识别错误主要源于预分 考虑到上下结构的字符在水平方向没有可分性,若 割错误和具有同种结构的相似字的混淆.此外,尽管 用1层的水平分割方法并不能有效地提取到简单的 在预分割之前引入了角点检测来消除部首间的连 部首基元,因而将3层嵌套分割方法运用在左右与 笔,但对于严重倾斜或重叠度大的部首,仍旧不能较 上下结构的字符上,同时也体现出了这2种结构的 好地分割.图10~11分别给出了预分割错误和相似 递归层次特性 字混淆的例子。 表12种分割方法在识别率的比较 Table 1 Test accuracies of two pre-segmentation methods 预分割方法 部首类别数识别率/% 图10预分割错误的例子 1层水平分制 1118 97.71 Fig.10 Examples of pre-segmentation error 3层嵌套分制 913 97.24 在实验中,基于3层嵌套分割,采用了2种不同 的路径搜索方法:“序列表示法+集束搜索”和“层 程扇跷美 次表示法+DP搜索”.表2列出了这2种方法和整 坟。玫半。袢阻隍药。荮芄一艽莱菜 字识别方法的结果比较,从表中可以看出基于部首 图11相似字的混淆例子 的方法取得了与整字识别可比的识别精度. Fig.11 Examples of confusion between similar characters 表2部首方法与整字识别方法的识别率 Table 2 Test accuracies of radical-based and holistic methods 5 结束语 方法 类别数识别率/% 本文提出了一种基于部首的联机手写汉字识别 部首方法+序列表示+集束搜索1149 97.22 方法,充分利用字符的层次结构特性,引入了3层嵌 部首方法+层次表示+嵌套DP 1149 97.18 套分割来确保部首的正确分割.在识别中,采用了2 整字识别 5773 97.14 种字符部首字典表示和相应不同的搜索方法.实验 结果表明,基于部首的方法取得了与整字识别方法相 基于部首的识别方法的主要优势是,与字符类 当的结果,而且节省了存储开销.此外,预分割方法和 (5773类)相比,具有较小的部首类别数(1149 相似部首的鉴别还需要进一步研究.本文只考虑了左
第5期 马龙龙等:基于统计部首模型的联机手写汉宇识别方法 391· 右结构和上下结构的字符,对特殊结构的字符的研究 [10]LU Yingjian,ZHANG Liqin,DAI Juwei.A new approach 还在进行中,最终将各种结构的字符集成到一个识别 to on-line handwriting Chinese character recognition[C]// 框架中.另外将来也考虑将基于部首的联机手写汉字 Proceedings of the 2nd International Conference on Docu- 识别方法用于字符串识别和书写人适应. ment Analysis and Recognition.Tsukuba,Japan,1993: 192-195. 参考文献: [11]CHELLAPILLA K.SIMARD P.A new radical based ap- proach to offline handwrtten East-Asian character recogni- [1].LIU Chenglin,JAEGER S,NAKAGAWA M.Online hand- tion[C]//Proceedings of the 10th International Workshop written Chinese character recognition::the state of the art on Frontiers in Handwriting Recognition.La Baule, .IEEE Transactions on Pattern Analysis and Machine France,2006::261-266. Intelligence,2004,26(2):198-213. [2]]LU Chenglin,KOGA M,FUJISAWA H.Lexicon-driven 2.KWON J,SHIN B,KIM J H.Recognition of on-line cur- segmentation and recognition of handwriten character sive Korean characters combining statistical and structural strings for Japanese address reading[J].IEEE Transac- methods[J]].Pattern Recognition,1997,30(8)):1255- tions on Pattern Analysis and Machine Intelligence,2002, 1263. 24(11):1425-1437. [3]KANG K W.KIM JH.Utilization of hierarchical stochastic [13]]MA Longlong,LIU Chenglin.A new radical-based ap- relationship modeling for Hangul character recognition[]. proach to online handwritten Chinese character recognition IEEE Transactions on Pattern Analysis and Machine Intelli- [C]//Proceedings of the 19th International Conference on gence,2004,26(9)1:1185-1196 Pattern Recognition.Tampa,USA,2008:14. 4]OTA I,YAMAMOTO R,NISHIMOTO T,et al.Online [14]MA Longlong LIU Chenglin.On-line handwiten Chinese handwritten kanji recognition based on inter-stroke grammar character recognition based on nested segmentation of radi- [C]//Proceedings of the 9th International Conference on cals[C]//Proceedings of 2009 Chinese Conference on Pat- Document Analysis and Recognition.Curitiba,Brazil, tern Recogniton First CJK Joint Workshop on Pattern 2007:1188-1192.. Recognition.Nanjing,China,2009::15 5]KAWAMURA A.YURA K.HAYAMA T,et al.On-line [15]]LIU Chenglin,ZHOU Xiangdong.Online Japanese charac- recognition of freely handwrtten Japanese characters using er recognition using trajectory-based normalization and di- directional feature densities[C]//Proceedings of the 11th rection feature extraction[C]//Proceedings of the 10th In- International Conference on Pattern Recognition.Hague, ternational Workshop on Frontiers in Handwriting Recogni- Netherlands,.1992,2:183-186. tion.La Baule,France,2006:217-222. ]HAMANAKA M,YAMADA K,TSUKUMO J.On-line Jap- [16]KIMURA F.TAKASHINA K.TSURUOKA S.et al.Mod- anese character recognition experiments by an f-line meth ified quadratic discriminant functions and the application to od based on normalied-cooperated feature extraction[C]// Chinese character recognition[J]IEE Transactions on. Proceedings of the 2nd International Conference on Docu- Patterm Analysis and Machine Intellience,1987,9(1)): ment Analysis and Recognition.Tsukuba,Japan,1993: 149-153. 204-207. 作者简介: ]KIM HJ,KIM KH,KIM S K,et al.On-line recognition 马龙龙,男,1981年生,博士研究生, of handwriten Chinese characters based on hidden Markov 主要研究方向为联机手写汉字识别, models[J].Paten Recognition,1997,30(9)::1489- 1499. [8]NAKAI M.AKIRA N.SHIMODAIRA H.et al.Substroke approach to HMM-based on-line kanji handwriting recogni- tion[C]]//Proceedings of the 6th International Conference on Document Analysis and Recognition.Seattle,USA, 刘成林,男,1967年生,研究员、博 2001:491-495 士生导师,主要研究方向为模式识别和 9ZHANG Yaodong,LIU Peng,SOONG F K.Minimum error 文字识别.2005年获得IAPR/ICDAR青 discriminative training for radical-based online Chinese 年科学家奖,发表学术论文90余篇. handwriting recognition[C]//Proceedings of the 9th Inter- national Conference on Document Analysis and Recognition. Curitiba,Brazil,2007:53-57
[14] MA Longlong,LIU Chenglin. On-line handwiten Chinese character recognition based on nested segmentation of radicals[ C] //Proceedings of 2009 Chinese Conference on Pattern Recogniton & First CJK Joint Workshop on Pattern Recognition. Nanjing,China,2009: 1-5. [8] NAKAI M,AKIRA N,SHIMODAIRA H,et al. Substroke approach to HMM-based on-line kanji handwriting recognition[ C] //Proceedings of the 6th International Conference on Document Analysis and Recognition. Seattle,USA, 2001: 491-495. [12] LU Chenglin,KOGA M,FUJISAWA H. Lexicon-driven segmentation and recognition of handwriten character strings for Japanese address reading[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, 24(11) : 1425-1437. 4] OTA I,YAMAMOTO R,NISHIMOTO T, et al. Online 刘成林,男,1967年生,研究员、博 士生导师,主要研究方向为模式识别和 文字识别.2005年获得IAPR/ICDAR 青 年科学家奖,发表学术论文90余篇. handwritten kanji recognition based on inter-stroke grammar [C] //Proceedings of the 9th International Conference on Document Analysis and Recognition. Curitiba,Brazil, 2007;1188-1192. 右结构和上下结构的字符,对特殊结构的字符的研究 还在进行中,最终将各种结构的字符集成到一个识别 框架中.另外将来也考虑将基于部首的联机手写汉字 识别方法用于字符串识别和书写人适应. [15] LIU Chenglin,ZHOU Xiangdong.Online Japanese characer recognition using trajectory-based normalization and direction feature extraction[ C] //Proceedings of the 10th International Workshop on Frontiers in Handwriting Recognition. La Baule,France,2006: 217-222. [6] HAMANAKA M,YAMADA K,TSUKUMO J. On-line Japanese character recognition experiments by an f-line method based on normalied-cooperated feature extraction[ C] // Proceedings of the 2nd International Conference on Document Analysis and Recognition. Tsukuba,Japan,1993: 204-207. [2] KWON J, SHIN B,KIM J H. Recognition of on-line cursive Korean characters combining statistical and structural methods[J] . Pattern Recognition,1997,30(8) : 1255- 1263. [13] MA Longlong,LIU Chenglin. A new radical-based approach to online handwritten Chinese character recognition [C] //Proceedings of the 19th International Conference on Pattern Recognition. Tampa,USA,2008: 14. 马龙龙,男,1981年生,博士研究生, 主要研究方向为联机手写汉字识别. [10] LU Yingjian,ZHANG Liqin,DAI Juwei. A new approach to on-line handwriting Chinese character recognition[ C]// Proceedings of the 2nd International Conference on Document Analysis and Recognition. Tsukuba,Japan,1993: 192-195. [16] KIMURA F,TAKASHINA K,TSURUOKA S,et al. Modified quadratic discriminant functions and the application to Chinese character recognition[J] . IEE Transactions on Patterm Analysis and Machine Intellience,1987,9(1) : 149-153. [9] ZHANG Yaodong,LIU Peng,SO0NG F K. Minimum error discriminative training for radical-based online Chinese handwriting recognition[ C] //Proceedings of the 9th International Conference on Document Analysis and Recognition. Curitiba,Brazil,2007: 53-57. [11]CHELLAPILLA K,SIMARD P. A new radical based approach to offline handwrtten East-Asian character recognition[ C]//Proceedings of the 10th International Workshop on Frontiers in Handwriting Recognition. La Baule, France,2006: 261-266. [7] KIM HJ,KIM KH,KIM S K,et al. On-line recognition of handwriten Chinese characters based on hidden Markov models[J]. Paten Recognition,1997,30(9) : 1489- 1499. [1] LIU Chenglin,JAEGER S, NAKAGAWA M. Online handwritten Chinese character recognition: the state of the art [J] . IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(2) : 198-213. 391· 作者简介: 第5期 马龙龙,等: 基于统计部首模型的联机手写汉宇识别方法 [5] KAWAMURA A,YURA K,HAYAMA T,et al. On-line recognition of freely handwrtten Japanese characters using directional feature densities[ C]//Proceedings of the 11th International Conference on Pattern Recognition. Hague, Netherlands,1992,2: 183-186. [3] KANG K W,KIM JH. Utilization of hierarchical stochastic relationship modeling for Hangul character recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(9) : 1185-1196. 参考文献: