第3期 穆妮热穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·455· 输人文本 比较后其识别准确率提高到99%。这说明,从文中 搜索到的维吾尔谚语是在维吾尔谚语语料库里出现 N 关键词匹配 的,因此可以确切地判断当前的固定语句为维吾尔 谚语。因为“维汉平行谚语语料库”中的维吾尔谚语 端语料总数少于“维吾尔谚语语料库”中的维吾尔谚 、符号匹配> 语总数,因此,基于“维汉平行谚语语料库”(其他语 Y 料库关闭)从文本中识别谚语的准确率为43.47%。 词缀匹配 词缀匹配 “维汉平行谚语语料库”关闭状态与前面所述的“维 吾尔谚语语料库”关闭的状态是一个样的,就是说系 Y 、是否谚语 统只能通过上述的3层识别方法识别维吾尔谚语, N 其数据分析如表3所示。 表3谚语识别率对比性实验结果 输出谚语 新谚语待定表 Table 3 Proverb recognition rate comparative experiment- al results 图2维吾尔谚语识别系统流程图 Fig.2 Uyghur proverb recognition system flow chart 语料库状态 识别率/% 2.2维吾尔谚语语料库的构建 维吾尔谚语语料库(开放) 99 本研究所使用的文本为新疆师范大学“维吾尔 维吾尔谚语语料库(关闭) 96.9 语文研究基地“提供的以《语文》为名的小学维吾 维汉平行谚语语料库(开放) 43.47 尔文语文教材、新疆人民出版社出版的《维汉对照 维汉平行谚语语料库(关闭) 96.9 维吾尔谚语》(总共3000条)、《维吾尔谚语释解词 典》(总共6800条。 通过对比实验结果表3可知,维吾尔谚语语料 以《维吾尔谚语释解词典》和《维汉对照维吾 库开放状态下文本中识别谚语效率较高。当然用户 尔谚语词典》中的6490条维吾尔谚语(其中 也可以在没有谚语语料库状态下根据专属谚语的特 2956条包含维汉解释、读法(拼音)、类型等一系列 定规则判别当前固定语句是否为谚语,但是其判别 信息)组成的语料库为研究对象。用户根据需求进 率并不很理想。因此建议通过规则库进行筛选之后 行查询与匹配、统计与分类数据库,从而能方便快 再使用维吾尔谚语语料判断当前固定语句是否为维 速查找到所需信息。 吾尔谚语。 本文中收集的维吾尔谚语数据如表2所示。 2.4添加新谚语 表2维吾尔谚语收集率 维吾尔谚语是广大维吾尔族人民口头流传的固 Table 2 Uyghur proverb collection rates 定语句。到目前为止很多研究者已经收集了大量 语料库 总数 收集总数 差别 收集率% 维吾尔谚语,但是随着维吾尔族文化的发展,可能 纯语料 6800 6490 310 95.44 会生成新的维吾尔谚语,并且在文本中依然能与关 平行语料 3000 2956 44 98.53 键词连用,或者出现在括号里。这些固定语句不仅 满足关键词规则和标点符号规则,也符合谚语语 根据表2可知,本文中维吾尔谚语的收集率达 法、词缀规则。另外,这些固定语句可直接存放在 到95.44%,维汉平行谚语语料库的收集率达到 待定谚语库里供使用者人工处理,并进一步判定该 98.53%。无论是维吾尔谚语纯语料(单语言),还是 固定语句是否为新的维吾尔谚语。表4是小学维吾 维汉谚语平行语料,其收集率都较完整。 尔文语文教材中的新谚语数据分析。 2.3维吾尔谚语识别对比实验 表4新谚语比例 为了衡量上述所构建维吾尔谚语语料库和维汉 Table 4 Proportion of new proverbs 平行谚语语料库的实用性以及谚语识别方法的有效 语料库 谚语总数 新谚语 新谚语比例/% 性,本文中分别对维吾尔谚语语料库、维汉平行谚 语语料库的开放以及关闭状态进行识别。实验结果 语文教材 170 28 16.47 表明,系统通过规则词组、标点符号、谚语词缀等 从表4可知,小学维吾尔文教材中识别的维吾 3层识别步骤筛选后的维吾尔谚语识别率达到 尔谚语的总数共170条,其中新谚语数目为28条, 96.9%,如果将此结果再与《维吾尔谚语语料库》 占总谚语数目的16.47%。䙹ࡥ䩚䃹ڟ 䒿ڑ᪳᱘ げणࡥ䙹 䃹㐬ࡥ䙹 ᭛॒䅆䄙 䒿ܦ䅆䄙 䅆䄙ᒱ㶔 䃹㐬ࡥ䙹 N N N N N Y Y Y Y Y 图 2 维吾尔谚语识别系统流程图 Fig. 2 Uyghur proverb recognition system flow chart 2.2 维吾尔谚语语料库的构建 本研究所使用的文本为新疆师范大学“维吾尔 语文研究基地”提供的以《语文》为名的小学维吾 尔文语文教材、新疆人民出版社出版的《维汉对照 维吾尔谚语》(总共 3 000 条)、《维吾尔谚语释解词 典》(总共 6 800 条 [18] )。 以《维吾尔谚语释解词典》和《维汉对照维吾 尔谚语词典》中的 6 490 条维吾尔谚语 (其中 2 956 条包含维汉解释、读法 (拼音)、类型等一系列 信息) 组成的语料库为研究对象。用户根据需求进 行查询与匹配、统计与分类数据库,从而能方便快 速查找到所需信息。 本文中收集的维吾尔谚语数据如表 2 所示。 表 2 维吾尔谚语收集率 Table 2 Uyghur proverb collection rates 语料库 总数 收集总数 差别 收集率/% 纯语料 6 800 6 490 310 95.44 平行语料 3 000 2 956 44 98.53 根据表 2 可知,本文中维吾尔谚语的收集率达 到 95.44%,维汉平行谚语语料库的收集率达到 98.53%。无论是维吾尔谚语纯语料 (单语言),还是 维汉谚语平行语料,其收集率都较完整。 2.3 维吾尔谚语识别对比实验 为了衡量上述所构建维吾尔谚语语料库和维汉 平行谚语语料库的实用性以及谚语识别方法的有效 性,本文中分别对维吾尔谚语语料库、维汉平行谚 语语料库的开放以及关闭状态进行识别。实验结果 表明,系统通过规则词组、标点符号、谚语词缀等 3 层识别步骤筛选后的维吾尔谚语识别率达到 96.9%,如果将此结果再与《维吾尔谚语语料库》 比较后其识别准确率提高到 99%。这说明,从文中 搜索到的维吾尔谚语是在维吾尔谚语语料库里出现 的,因此可以确切地判断当前的固定语句为维吾尔 谚语。因为“维汉平行谚语语料库”中的维吾尔谚语 端语料总数少于“维吾尔谚语语料库”中的维吾尔谚 语总数,因此,基于“维汉平行谚语语料库”(其他语 料库关闭) 从文本中识别谚语的准确率为 43.47%。 “维汉平行谚语语料库”关闭状态与前面所述的“维 吾尔谚语语料库”关闭的状态是一个样的,就是说系 统只能通过上述的 3 层识别方法识别维吾尔谚语, 其数据分析如表 3 所示。 表 3 谚语识别率对比性实验结果 Table 3 Proverb recognition rate comparative experimental results 语料库状态 识别率/% 维吾尔谚语语料库 (开放) 99 维吾尔谚语语料库 (关闭) 96.9 维汉平行谚语语料库 (开放) 43.47 维汉平行谚语语料库 (关闭) 96.9 通过对比实验结果表 3 可知,维吾尔谚语语料 库开放状态下文本中识别谚语效率较高。当然用户 也可以在没有谚语语料库状态下根据专属谚语的特 定规则判别当前固定语句是否为谚语,但是其判别 率并不很理想。因此建议通过规则库进行筛选之后 再使用维吾尔谚语语料判断当前固定语句是否为维 吾尔谚语。 2.4 添加新谚语 维吾尔谚语是广大维吾尔族人民口头流传的固 定语句[19]。到目前为止很多研究者已经收集了大量 维吾尔谚语,但是随着维吾尔族文化的发展,可能 会生成新的维吾尔谚语,并且在文本中依然能与关 键词连用,或者出现在括号里。这些固定语句不仅 满足关键词规则和标点符号规则,也符合谚语语 法、词缀规则。另外,这些固定语句可直接存放在 待定谚语库里供使用者人工处理,并进一步判定该 固定语句是否为新的维吾尔谚语。表 4 是小学维吾 尔文语文教材中的新谚语数据分析。 表 4 新谚语比例 Table 4 Proportion of new proverbs 语料库 谚语总数 新谚语 新谚语比例/% 语文教材 170 28 16.47 从表 4 可知,小学维吾尔文教材中识别的维吾 尔谚语的总数共 170 条,其中新谚语数目为 28 条, 占总谚语数目的 16.47%。 第 3 期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·455·