正在加载图片...
第5期 马少平,等:基于多Aget系统的脱机手写体汉字识别 ·403· 对各候选综合评判的结果,可视为C上的模糊 Zadeh算子强调单个Agent的作用,当有一个 集,记为 Aget对某个候选表现出很强的可信度时,就将该 B=(b1,b2,…,bn)∈F(C) 候选作为评判结果.而概率算子则考虑了更综合的 式中:b:反映了综合评判后,待识字x被识别为c: 情况,具有一定的加权平均的意义 的可能程度, 由于各Agent对候选的评判是基于统计知识进 由模糊映射与模糊关系的关系及模糊关系与模 行的,同时又存在着“数据稀疏”问题,所以这种评 糊变换的关系,模糊映射了可以惟一地诱导出模糊 判带有很大的先验性和不准确性;因此在评判时采 关系: 用具有加权平均意义的概率算子比用主元素决定的 「f(41)1 T12 …T11 Zadeh算子要好一些,经实际测试也证明了这一点. f(u2) T21 T22 T2n 而且这与多Agent系统发挥各Agent的综合优势也 R△R△ ∈Mmn 是相吻合的, L孔u)打 LTml Tm2 4系统测试 式中:Mmxn为m×n矩阵的全体 由R又可以惟一地诱导出一个模糊变换: 以上文所述模型为基础,实现了一个基于多A TR:F(A)→F(C), gent的手写体文本汉字识别系统,对系统的性能进 行了测试.为了更好地体现多Aget的作用,特意选 W→Ta(W)△WR. 取了一个早期的识别率相对比较低的脱机手写体汉 这样,由三元组(A,C,R)构成了一个模糊综合评 字单字识别系统,以体现多种知识融合的作用, 判模型.当给定一个权重分配W=(01,02,…, 测试条件如下: 0nm)∈F(A)后,则输出一个模糊综合评判B=WoR= 1)训练样本:中科院自动化所样本库,共含国 (b1,b2,…,bn)∈F(C),于是有 标一级汉字50套; (b2,b2,…,bn)=(01,02,…,0m) 2)汉语语料库:《人民日报》语料库,共含汉字 T11T12 TIn 1500万个; 3)识别库大小:1.9MB; T2 T22 Iin 4)后处理库大小:4.5MB; 5)文章内容:从《人民日报》、《新清华》上选取 LTml Tm2 T 的5篇文章,每篇文章的字数从770字到2855字 如果bn=max{b1,b2,…,bn},则评判co为x的识别 不等; 结果.式中算子“。”可取Zadeh算子(∧,V)、概率 6)书写对象:随机选取的6位书写者; 算子(·,+)或其他模糊算子.采用不同的算子,所 7)书写要求:按自己习惯工整手写. 强调的内容不同,评判的结果也有所不同, 采用以下指标测试系统的性能: 当采用Zadeh算子时, 单字识别率-单字识别确字数×100%, 总字数 6=(aAg,j=1,2,…,n 综合识别率=综合正确字数×100%, 式中: 总字数 x∧y=min(x,y)), 综合校正率= x Vy =max(x,y). 综合正确字数-单字识别正确字数×100%. 总字数·单字识别正确字数 当采用概率算子时, 式中:“单字识别正确字数”指的是只采用识别Agent b,=01·Ty+02·Ty+…+0m·T网, 时,系统能正确识别的汉字数;“综合正确字数”指的是 j=1,2,…,n 采用多Aget之后,系统总的正确识别的汉字数, 式中: 综合校正率是反映多Agent汉字识别系统性能 x·y=xXy, 的一个重要指标,它反映了采用多Agent之后系统 x +y =x +y-x x y. 误识率的下降程度」
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有