正在加载图片...
第5期 马龙龙,等:基于统计部首模型的联机手写汉字识别方法 ·389· 图9给出了搜索空间中部分节点的扩展例子. 系(二元特征),用高斯概率密度函数(probability 这个搜索空间是在未引人几何信息下的一个空间 density function,PDF)来模型化一元与二元特征.对 图,CR表示候选部首模型,RN表示树结构中的部 于序列表示法,二元关系指部首串中连续2个部首 首节点.最优的分割路径用粗黑线表示 间的关系;而在层次表示法中,指在每一层的相邻部 3.3.2层次表示法+动态搜索 首或元部首(meta-radical)间的关系.为每一类部首 在层次表示法中,每一类字符用最多3层的树 的一元特征建立1个PDF,同时对每一类字符,在序 结构表示(根节点除外),每一层是部首radical(终 列表示中的相邻部首或层次表示中的相邻部首或元 节点)或元部首meta-radical(非终节点)序列,见图 部首之间都建立1个PDF,负对数似然作为匹配的 5(b).在识别中,输入字符与每一类的树结构模板 代价值 逐个匹配.在每一层,输入模式(笔划块)通过DP匹 共使用了4个一元几何特征,包括:单个部首的 配分割成部首/元部首.当与非终节点匹配时,需调 宽度、高度、边界框的中心的横坐标和纵坐标,这4 用DP子程序分割该元部首为更小的部首/元部首 个特征用部首所在字符的大小进行归一化.部首对 序列,并作为下一层的输入,同时得到元部首的匹配 的二元几何特征包括3个:相邻部首的边界框的宽 距离值 度、高度、中心横坐标和纵坐标的差。 令,”,…,出和”,”,…,分别表示 3.3.4路径评价 在第1层的模型部首/元部首序列和预分割基元序 对于序列表示法所采用的集束搜索中,搜索空 列(1≤l≤3).D(m1,n)表示在第l层的m,个模 间中的一条路径对应于输入字符的1个候选部首分 型和n,个基元的最优匹配距离.D)(m1,n1)为第1 割串.而在层次表示法所用的嵌套DP中,每一层的 层的DP匹配距离,也是最终的字符匹配距离. 1条路径对应从上一层输人(元部首)的1个部首/ 算法1描述了输入字符的层次分割的基元序列 元部首分割串.在2种方法中,路径的评价对最优的 与树结构模板的匹配过程, 路径搜索起重要的作用. 算法1嵌套DP: 令R=r1r,表示某一类字符的部首模型串序 输入:第1层部首/元部首序列r",”,…, 列,S=s…s,表示基元(块)序列X可能的候选部 和输入字符预分割基元序列s0,,,。 首模式序列.在最优部首串R·下最优的分割路径 1)字符匹配初始化:l=1. S的评价定义如下: 2)第1层DP匹配初始化:D(0,0)=0. (R',S)=ag母axP(R,S)= 3)迭代:Fori=1,2,…,m,j=1,2,…,n1, arg min(-log P(R,S)). (1) D((ij)-min[D((i-1j-k)+ 将部首似然和几何信息似然包含在式(1)中, d(”,<9…s9>)]. logP(R,S1X)可近似地表示为 式中:<织1…s9>是由基元织1…号9构成的 log P(R,S)=(a:log P(S.I r.)+ 笔划块 4)DP匹配终止,得到D9(m,n). A2log P(S9 I r:)A3log P(S2 I r-1,r)). 在DP中,若为元部首,则d(r”, 式中:入1+入2+入3=1,T。表示候选部首串路径的长 <s9+1…g9>)由第l+1层的DP匹配得到.将 度,P(SIr,)表示在类T,下部首模型S%的条件概 ”表示为下一层的部首/元部首序列+)… 率,P(S1r)和P(Sr-1,)分别度量一元和二元 :,将<91g”>预分割为下一层的基元序 几何特征概率,S、S1和S2分别对应部首形状特 征、一元特征和二元特征 列+w…”,设1=1+1,调用上面的步骤2) 2种搜索方法的区别在于:在集束搜索中,在每 4),得到d(r9,<9+1…s9>)=D0(m1, 个切分点处保留多条代价较小的部分路径:而在DP ni-). 中仅保留1条最小的部分路径.搜索终止时,所得到 若,为部首模型(终结点),匹配代价定义如 的最小的累加匹配代价值对应于最优的部首分割. 下:d(r9,<&8+s⑧>)=-logP(r0,<s91 …s⑧>),由字符分类器给出. 4 实验结果与分析 3.3.3几何信息模型 本文提出的基于部首的方法在6763类 与部首类别有关的几何特征是指单个部首的几 (GB2312-80中的字符)的手写汉字数据库上作性能 何特征(一元特征)或者相邻2个部首间的几何关 评价.共60套样本,选择了5773类左右与上下结
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有