正在加载图片...
第5期 马少平,等:基于多Aget系统的脱机手写体汉字识别 ·401· 分配器根据感知到的信息,分发给适合的方法.方法 局部黑板是Agent的私有数据库,用于存储求解问 集是该Aget能力的体现,与知识库相配合,实现对 题所需的各种数据、中间结果及最终结果等.发送器 问题的求解.方法集至少由3部分内容组成:投标方 将求解结果或任务请求发送给系统的管理者,以实 法、问题求解方法和辩论协商方法.方法集和知识库 现与环境或其他Agent的交互. 构成了Agent的大脑,是Agent最重要的组成部分, 环境 感知器 局 任务分配器 部 黑 !识市 管理者 发送器 板 方法集 Agent 图2 Agent的一般结构 Fig.2 General structure for recognition Agent Agent根据其功能的不同,可以分为以下几类: 别结果的手段。 1)扫描Aget:启动扫描仪,获得待识别文字的 各类Agent与环境信息层的关系如图3所示, 图像信息. 结果层 校对 2)切分Agent:对版面进行分析,将版面中的每 知层 个汉字从图像中分离出来,得到待识字样本;必要 词层 后处理 时,切分Agent也可以给出样本的结构信息,如左右 单字层 识别评价乳处理 结构、上下结构等 特征层 识别 3)预处理Agent:消除样本中存在的噪声,对汉 样木尽 预处理特抽取 字笔画边缘进行平滑处理,然后再对汉字样本进行 版层 6切分 非线性整形变换及大小归一化处理。 6扫描 4)特征抽取Agent:从归一化后的汉字样本中 抽取识别用特征 图3知识源与信息层的关系 5)识别Agent:对于不同的特征,采用不同的方 Fig.3 Relationship between knowledge sources and in- 法对待识样本进行分类,得到候选字及其识别参数。 formation layers 6)识别评价Agent:应用单字识别系统的误识 2.5仲裁 模型及识别参数对候选字进行评价,得到候选字的 对于脱机手写体汉字识别来说,各Agent的处 识别信度. 理结果很难做到完全一致,当出现任何不一致时,系 7)词汇处理Aget:利用词汇知识对前后相关联的 统就进行辩论协商,系统开销太大.一种可行的办法 候选字进行构词分析,提出假设,并给出信度评价. 就是对结果进行模糊综合评判,当评判结果达到一 8)后处理Agent:对各候选可能形成的短语或 定的可信度时,就认为该结果是一致的,否则被认为 句子提出假设,利用汉语语言模型进行分析,给出信 是有矛盾冲突的.只有在模糊评判意义下发生冲突 度评价 时才进行辩论协商。 9)仲裁Agent:对不同的Agent给出的结果,用 2.6协商与辩论 某种评判方法进行综合评判,一致的部分确定下来, 协商是多Agent系统中关键的组成部分12].若 产生矛盾的部分,送交管理者组织辩论. 干个Aget简单地堆放在一起,永远是几个独立的 10)自动校对Aget:对识别结果中与语言模型 个体,只有相互协调合作,才能使其综合能力具有质 不相符的部分提出警告,提示给用户。 的变化.辩论是协商的一种方式,通过辩论,使得各 11)人工校对Agent:提供一种便于用户校对识 Aget间取得一致的意见,也就是说,得到一个对于
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有