第3期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·453· 中广泛应用,通常由语素、词、词组、句子等基本单 1)肯定形式:谚语中的动词词干后附加词尾 位逐级组建构成。维吾尔谚语作为维吾尔语言的 3-·-)构成的谚语。 一个重要的组成部分,与其他的维吾尔语言成分结 2)将来时第三人称单数词尾:构成的 合在一起,构成了一种完整的语言网络系统1。根 谚语。 据维吾尔谚语自身的语法、语义、结构特征将谚语 3)第二人称祈使句分为肯定和否定两种形式 从这一网络系统中提取出来是从计算机角度对维吾 的谚语。 尔谚语语言结构的探讨与研究,提供了一个新的视 4)过去式时态接陈述式第三人称,即在副词、 角,同时该研究在舆情分析、语言理解以及机器翻 动词等词类后附加词尾华构成的谚语10 译中将会被广泛使用。除此之外,考察维吾尔谚 5)否定形式的谚语:在动词词干后附加词尾 语的使用率、覆盖率,统计新谚语,在文本分析研究 心o人构成。 中具有重要意义,并且在传承民族优秀文化、饮食 6)谓语是以形容词结尾的谚语。等6种语法 文化、道德观念、哲学思想等方面起一定的作用1。 结构规则。例如: u·…(慷慨者的笑能 1维吾尔谚语规则知识库的建设 使小气鬼哭) 维吾尔族谚语是流传在维吾尔族人民群众口头 山3《》(断臂 上的定型的现成语,具有意义的完整性、结构的简 人的痛苦只有断臂人知道) 短性、结构的稳定性、语言的通俗性、哲理及教育性 1.1.2维吾尔谚语关系规则 等特点。在语法和结构上,维吾尔谚语也有其自成 根据维吾尔谚语提出了并列、假设、取舍、连锁 格的结构系统。 等4种关系规则。 根据语言学界对谚语的研究结论和语言学理 根据上述的维吾尔谚语的句型结构归纳的规 论可,从维吾尔谚语的语义、语法结构两方面入手, 则(词缀)总数有75种,词缀的含义是黏附在词根 提出辨别维吾尔谚语的基本原则,并根据基本的原 上构成新词的语素,它本身不能单独构成词。在维 则建立成规则库为计算机自动划界并识别维吾尔谚 吾尔语言中黏附在词根前面的词缀称为前词缀(前 语提供基础⑧。到目前为止,维吾尔谚语规则库包 缀),黏附在词根后面的词缀称为后词缀(简称后 括词缀、关键词、关联词等几个形式。通过对语料 缀),插入词根中间的词缀称为中词缀(简称中缀)。 库中的维吾尔谚语进行分析与研究归纳出谚语识别 另外,维吾尔谚语中有一种特殊词缀,即由两个或 规则。 者两个以上中缀黏附在词根后面,本文中均可以双 1.1维吾尔谚语规则知识库 中缀和多中缀,例如表1所示。 本文通过分析小学1年级到6年级的维吾尔文 表1维吾尔谚语词缀(部分) Table 1 Part of Uyghur proverbs suffixes display 语文教材后,收集了在文本中紧跟着维吾尔谚语前 面或者是后面出现,用来引用当前谚语的词组或句 后缀 例子 汉译(例子) 子,用其作为搜索的对象从而缩小了文本中维吾尔 49 山产L黄金的价值金匠知 谚语的搜索范围。其部分规则如下(总规则词组为 中缀 例子 汉译(例子) 12种): 与其给了得罪人,不如不给 (此比喻中这样说的…) …g为… ·岁3地→* 34g25山a5(1 归3s州 当恶人 (有这样一说……)3心(2 双中缀&多 例子 汉译(例子) (有这样的俗话) s5(3 中缀 35u.595ss(4 ., 山2岁uw心片金钱面前莫动心,说起当官 l 莫眼 (从此留下这种话语/比喻)。其基于标点符号的 规则:“)”和“:”等这些符号作为谚语识别候选规 根据6490条维吾尔谚语自身的特点,归纳了 则,为下一步判断谚语作为参考。 75种词缀,其中有35个后词缀(后加成分),6个中 1.1.1基于维吾尔语附加成分特征的规则研究 缀,34个双中缀和多中缀。 根据维吾尔谚语的语法结构,对谚语进行分类 1.2维吾尔谚语歧义现象 判断9。例如: 歧义是指语言中对一个词语或一种结构有两种中广泛应用,通常由语素、词、词组、句子等基本单 位逐级组建构成[2]。维吾尔谚语作为维吾尔语言的 一个重要的组成部分,与其他的维吾尔语言成分结 合在一起,构成了一种完整的语言网络系统[3]。根 据维吾尔谚语自身的语法、语义、结构特征将谚语 从这一网络系统中提取出来是从计算机角度对维吾 尔谚语语言结构的探讨与研究,提供了一个新的视 角,同时该研究在舆情分析、语言理解以及机器翻 译中将会被广泛使用[4]。除此之外,考察维吾尔谚 语的使用率、覆盖率,统计新谚语,在文本分析研究 中具有重要意义,并且在传承民族优秀文化、饮食 文化、道德观念、哲学思想等方面起一定的作用[5]。 1 维吾尔谚语规则知识库的建设 维吾尔族谚语是流传在维吾尔族人民群众口头 上的定型的现成语,具有意义的完整性、结构的简 短性、结构的稳定性、语言的通俗性、哲理及教育性 等特点。在语法和结构上,维吾尔谚语也有其自成 一格的结构系统[6]。 根据语言学界对谚语的研究结论和语言学理 论 [7] ,从维吾尔谚语的语义、语法结构两方面入手, 提出辨别维吾尔谚语的基本原则,并根据基本的原 则建立成规则库为计算机自动划界并识别维吾尔谚 语提供基础[8]。到目前为止,维吾尔谚语规则库包 括词缀、关键词、关联词等几个形式。通过对语料 库中的维吾尔谚语进行分析与研究归纳出谚语识别 规则。 1.1 维吾尔谚语规则知识库 本文通过分析小学 1 年级到 6 年级的维吾尔文 语文教材后,收集了在文本中紧跟着维吾尔谚语前 面或者是后面出现,用来引用当前谚语的词组或句 子,用其作为搜索的对象从而缩小了文本中维吾尔 谚语的搜索范围。其部分规则如下 (总规则词组为 12 种): (从此留下这种话语/比喻)。其基于标点符号的 规则:“‹›”和“:”等这些符号作为谚语识别候选规 则,为下一步判断谚语作为参考。 1.1.1 基于维吾尔语附加成分特征的规则研究 根据维吾尔谚语的语法结构,对谚语进行分类 判断[9]。例如: 1) 肯定形式:谚语中的动词词干后附加词尾 构成的谚语。 2) 将来时第三人称单数词尾 构成的 谚语。 3) 第二人称祈使句分为肯定和否定两种形式 的谚语。 4) 过去式时态接陈述式第三人称,即在副词、 动词等词类后附加词尾 构成的谚语[10]。 5) 否定形式的谚语:在动词词干后附加词尾 构成。 6) 谓语是以形容词结尾的谚语。等 6 种语法 结构规则。例如: (慷慨者的笑能 使小气鬼哭) ( 断 臂 人的痛苦只有断臂人知道) 1.1.2 维吾尔谚语关系规则 根据维吾尔谚语提出了并列、假设、取舍、连锁 等 4 种关系规则。 根据上述的维吾尔谚语的句型结构归纳的规 则 (词缀) 总数有 75 种,词缀的含义是黏附在词根 上构成新词的语素,它本身不能单独构成词。在维 吾尔语言中黏附在词根前面的词缀称为前词缀 (前 缀),黏附在词根后面的词缀称为后词缀 (简称后 缀),插入词根中间的词缀称为中词缀 (简称中缀)。 另外,维吾尔谚语中有一种特殊词缀,即由两个或 者两个以上中缀黏附在词根后面,本文中均可以双 中缀和多中缀,例如表 1 所示。 表 1 维吾尔谚语词缀 (部分) Table 1 Part of Uyghur proverbs suffixes display 后缀 例子 汉译 (例子) 黄金的价值金匠知 中缀 例子 汉译 (例子) 与其给了得罪人,不如不给 当恶人 双中缀&多 中缀 例子 汉译 (例子) 金钱面前莫动心,说起当官 莫眼 根据 6 490 条维吾尔谚语自身的特点,归纳了 75 种词缀,其中有 35 个后词缀 (后加成分),6 个中 缀,34 个双中缀和多中缀。 1.2 维吾尔谚语歧义现象 歧义是指语言中对一个词语或一种结构有两种 第 3 期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·453·