第5期马少平，等：基于多Aget系统的脱机手写体汉字识别 ·4

正在加载图片...

第5期马少平，等：基于多Aget系统的脱机手写体汉字识别 ·403· 对各候选综合评判的结果，可视为C上的模糊 Zadeh算子强调单个Agent的作用，当有一个集，记为 Aget对某个候选表现出很强的可信度时，就将该 B=(b1,b2,…,bn)∈F(C) 候选作为评判结果.而概率算子则考虑了更综合的式中：b:反映了综合评判后，待识字x被识别为c: 情况，具有一定的加权平均的意义的可能程度，由于各Agent对候选的评判是基于统计知识进由模糊映射与模糊关系的关系及模糊关系与模行的，同时又存在着“数据稀疏”问题，所以这种评糊变换的关系，模糊映射了可以惟一地诱导出模糊判带有很大的先验性和不准确性；因此在评判时采关系：用具有加权平均意义的概率算子比用主元素决定的「f（41)1 T12 …T11 Zadeh算子要好一些，经实际测试也证明了这一点. f(u2） T21 T22 T2n 而且这与多Agent系统发挥各Agent的综合优势也 R△R△ ∈Mmn 是相吻合的， L孔u）打 LTml Tm2 4系统测试式中：Mmxn为m×n矩阵的全体由R又可以惟一地诱导出一个模糊变换：以上文所述模型为基础，实现了一个基于多A TR:F(A)→F(C), gent的手写体文本汉字识别系统，对系统的性能进行了测试.为了更好地体现多Aget的作用，特意选 W→Ta(W)△WR. 取了一个早期的识别率相对比较低的脱机手写体汉这样，由三元组(A,C,R)构成了一个模糊综合评字单字识别系统，以体现多种知识融合的作用，判模型.当给定一个权重分配W=(01,02,…, 测试条件如下： 0nm)∈F(A)后，则输出一个模糊综合评判B=WoR= 1)训练样本：中科院自动化所样本库，共含国 (b1,b2,…,bn)∈F(C),于是有标一级汉字50套； (b2,b2,…,bn）=(01,02,…,0m） 2)汉语语料库：《人民日报》语料库，共含汉字 T11T12 TIn 1500万个； 3)识别库大小：1.9MB; T2 T22 Iin 4)后处理库大小：4.5MB; 5)文章内容：从《人民日报》、《新清华》上选取 LTml Tm2 T 的5篇文章，每篇文章的字数从770字到2855字如果bn=max{b1,b2,…,bn},则评判co为x的识别不等；结果.式中算子“。”可取Zadeh算子（∧，V)、概率 6)书写对象：随机选取的6位书写者；算子(·，+)或其他模糊算子.采用不同的算子，所 7)书写要求：按自己习惯工整手写. 强调的内容不同，评判的结果也有所不同，采用以下指标测试系统的性能：当采用Zadeh算子时，单字识别率-单字识别确字数×100%，总字数 6=(aAg,j=1,2,…,n 综合识别率=综合正确字数×100%，式中：总字数 x∧y=min(x,y）), 综合校正率= x Vy =max(x,y). 综合正确字数-单字识别正确字数×100%. 总字数·单字识别正确字数当采用概率算子时，式中：“单字识别正确字数”指的是只采用识别Agent b,=01·Ty+02·Ty+…+0m·T网，时，系统能正确识别的汉字数；“综合正确字数”指的是 j=1,2,…,n 采用多Aget之后，系统总的正确识别的汉字数，式中：综合校正率是反映多Agent汉字识别系统性能 x·y=xXy, 的一个重要指标，它反映了采用多Agent之后系统 x +y =x +y-x x y. 误识率的下降程度」

<<向上翻页向下翻页>>

点击下载：机器感知与模式识别：基于多Agent系统的脱机手写体汉字识别