第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201706092 网络出版t地址:http:/kns.cnki.net/cms/detail/23.1538.TP.20180408.1131.012.html 基于词缀的维吾尔谚语识别关键技术研究 穆妮热穆合塔尔2,李晓2,杨雅婷2,艾孜尔古丽,周喜2 (1.中国科学院新疆理化技术研究所,新疆乌鲁木齐83001山,2.新疆民族语音语言信息处理实验室,新疆乌鲁木齐 830011:3.中国科学院大学,北京100049:4.新疆师范大学计算机科学技术学院,新疆乌鲁木齐830054) 摘要:在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要 组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度 对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则 的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互 译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础: 关键词:维吾尔谚语:谚语词缀:谚语规则:词缀覆盖率;谚语规则库:谚语语料库:识别系统 中图分类号:TP391.1 文献标志码:A文章编号:1673-4785(2018)03-0452-06 中文引用格式:穆妮热·穆合塔尔,李晓,杨雅婷,等.基于词缀的维吾尔谚语识别关键技术研究J.智能系统学报,2018,13(3): 452-457. 英文引用格式:Munire-Muhetaer,LI Xiao,YANG Yating,etal.Affix-based key technology for Uyghur proverb recognition|J. CAAI transactions on intelligent systems,2018,13(3):452-457. Affix-based key technology for Uyghur proverb recognition Munire Muhetaer,LI Xiao,YANG Yating2,AZRAGUL ZHOU Xi2 (1.Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Science,Urumqi 830011,China;2.Xinjiang Key Laboratory of Minority Speech and Language Information Processing,Urumqi 830011,China;3.University of Chinese Academy of Science,Beijing 100049,China;4.School of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054, China) Abstract:In fields of natural language processing such as natural language understanding,machine translation,and pub- lic opinion analysis,Uyghur proverb recognition is an important part of the whole text entity recognition.To meet the need of Uyghur proverb informationization,this paper establishes a relatively complete corpus of Uyghur proverbs.The grammar and semantic structure of Uygur proverbs were analyzed from the perspective of traditional linguistics,and a knowledge base that comprises functional genres(affixes)of Uyghur proverbs and obeys Uyghur proverb rules was con- structed.In addition,the knowledge base was combined with natural language processing technologies to realize an in- formation software system that can recognize Uyghur proverbs from text and mutually translate between Chinese and Uyghur language.The system also laid a new foundation for understanding and processing Uyghur language and charac- ters by computer. Keywords:Uyghur proverbs;proverbs affix;proverb rules;coverage rate of affix;proverb rule bases;proverb corpus; recognition system 收稿日期:2017-06-30.网络出版日期:201804-08. 基金项目:新疆维吾尔自治区重点实验室开放课题(2015KL031): 维吾尔语是在新疆维吾尔自治区范围内使用人 新疆维吾尔自治区重大科技专项课题(2016A03007-3): 新疆维吾尔自治区自然科学基金项目(2015211B034): 数较多的语言,维吾尔语信息化是我国少数民族语 中科院战略性先导科技专项项目XDA06030400):新疆 维吾尔自治区社会科学基金项日(2016CYY067). 言文字信息化的重要组成部分之一,一直以来得到 通信作者:李晓.E-mail:xiaoli@ms.xjb.ac.cn. 了党和国家的高度重视。维吾尔谚语在维吾尔语
DOI: 10.11992/tis.201706092 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180408.1131.012.html 基于词缀的维吾尔谚语识别关键技术研究 穆妮热·穆合塔尔1,2,3,李晓1,2,杨雅婷1,2,艾孜尔古丽4 ,周喜1,2 (1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011; 2. 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011; 3. 中国科学院大学,北京 100049; 4. 新疆师范大学 计算机科学技术学院,新疆 乌鲁木齐 830054) 摘 要:在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要 组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度 对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类 (词缀) 组成的、专属维吾尔谚语规则 的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互 译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。 关键词:维吾尔谚语;谚语词缀;谚语规则;词缀覆盖率;谚语规则库;谚语语料库;识别系统 中图分类号:TP391.1 文献标志码:A 文章编号:1673−4785(2018)03−0452−06 中文引用格式:穆妮热·穆合塔尔, 李晓, 杨雅婷, 等. 基于词缀的维吾尔谚语识别关键技术研究[J]. 智能系统学报, 2018, 13(3): 452–457. 英文引用格式:Munire·Muhetaer , LI Xiao, YANG Yating, et al. Affix-based key technology for Uyghur proverb recognition[J]. CAAI transactions on intelligent systems, 2018, 13(3): 452–457. Affix-based key technology for Uyghur proverb recognition Munire·Muhetaer 1,2,3 ,LI Xiao1,2 ,YANG Yating1,2 ,AZRAGUL 4 ,ZHOU Xi1,2 (1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China; 2. Xinjiang Key Laboratory of Minority Speech and Language Information Processing, Urumqi 830011, China; 3. University of Chinese Academy of Science, Beijing 100049, China; 4. School of Computer Science and Technology, Xinjiang Normal University, Urumqi 830054, China) Abstract: In fields of natural language processing such as natural language understanding, machine translation, and public opinion analysis, Uyghur proverb recognition is an important part of the whole text entity recognition. To meet the need of Uyghur proverb informationization, this paper establishes a relatively complete corpus of Uyghur proverbs. The grammar and semantic structure of Uygur proverbs were analyzed from the perspective of traditional linguistics, and a knowledge base that comprises functional genres (affixes) of Uyghur proverbs and obeys Uyghur proverb rules was constructed. In addition, the knowledge base was combined with natural language processing technologies to realize an information software system that can recognize Uyghur proverbs from text and mutually translate between Chinese and Uyghur language. The system also laid a new foundation for understanding and processing Uyghur language and characters by computer. Keywords: Uyghur proverbs; proverbs affix; proverb rules; coverage rate of affix; proverb rule bases; proverb corpus; recognition system 维吾尔语是在新疆维吾尔自治区范围内使用人 数较多的语言,维吾尔语信息化是我国少数民族语 言文字信息化的重要组成部分之一,一直以来得到 了党和国家的高度重视[1]。维吾尔谚语在维吾尔语 收稿日期:2017−06−30. 网络出版日期:2018−04−08. 基金项目:新疆维吾尔自治区重点实验室开放课题 (2015KL031); 新疆维吾尔自治区重大科技专项课题 (2016A03007-3); 新疆维吾尔自治区自然科学基金项目 (2015211B034); 中科院战略性先导科技专项项目 (XDA06030400);新疆 维吾尔自治区社会科学基金项目 (2016CYY067). 通信作者:李晓. E-mail:xiaoli@ms.xjb.ac.cn. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018
第3期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·453· 中广泛应用,通常由语素、词、词组、句子等基本单 1)肯定形式:谚语中的动词词干后附加词尾 位逐级组建构成。维吾尔谚语作为维吾尔语言的 3-·-)构成的谚语。 一个重要的组成部分,与其他的维吾尔语言成分结 2)将来时第三人称单数词尾:构成的 合在一起,构成了一种完整的语言网络系统1。根 谚语。 据维吾尔谚语自身的语法、语义、结构特征将谚语 3)第二人称祈使句分为肯定和否定两种形式 从这一网络系统中提取出来是从计算机角度对维吾 的谚语。 尔谚语语言结构的探讨与研究,提供了一个新的视 4)过去式时态接陈述式第三人称,即在副词、 角,同时该研究在舆情分析、语言理解以及机器翻 动词等词类后附加词尾华构成的谚语10 译中将会被广泛使用。除此之外,考察维吾尔谚 5)否定形式的谚语:在动词词干后附加词尾 语的使用率、覆盖率,统计新谚语,在文本分析研究 心o人构成。 中具有重要意义,并且在传承民族优秀文化、饮食 6)谓语是以形容词结尾的谚语。等6种语法 文化、道德观念、哲学思想等方面起一定的作用1。 结构规则。例如: u·…(慷慨者的笑能 1维吾尔谚语规则知识库的建设 使小气鬼哭) 维吾尔族谚语是流传在维吾尔族人民群众口头 山3《》(断臂 上的定型的现成语,具有意义的完整性、结构的简 人的痛苦只有断臂人知道) 短性、结构的稳定性、语言的通俗性、哲理及教育性 1.1.2维吾尔谚语关系规则 等特点。在语法和结构上,维吾尔谚语也有其自成 根据维吾尔谚语提出了并列、假设、取舍、连锁 格的结构系统。 等4种关系规则。 根据语言学界对谚语的研究结论和语言学理 根据上述的维吾尔谚语的句型结构归纳的规 论可,从维吾尔谚语的语义、语法结构两方面入手, 则(词缀)总数有75种,词缀的含义是黏附在词根 提出辨别维吾尔谚语的基本原则,并根据基本的原 上构成新词的语素,它本身不能单独构成词。在维 则建立成规则库为计算机自动划界并识别维吾尔谚 吾尔语言中黏附在词根前面的词缀称为前词缀(前 语提供基础⑧。到目前为止,维吾尔谚语规则库包 缀),黏附在词根后面的词缀称为后词缀(简称后 括词缀、关键词、关联词等几个形式。通过对语料 缀),插入词根中间的词缀称为中词缀(简称中缀)。 库中的维吾尔谚语进行分析与研究归纳出谚语识别 另外,维吾尔谚语中有一种特殊词缀,即由两个或 规则。 者两个以上中缀黏附在词根后面,本文中均可以双 1.1维吾尔谚语规则知识库 中缀和多中缀,例如表1所示。 本文通过分析小学1年级到6年级的维吾尔文 表1维吾尔谚语词缀(部分) Table 1 Part of Uyghur proverbs suffixes display 语文教材后,收集了在文本中紧跟着维吾尔谚语前 面或者是后面出现,用来引用当前谚语的词组或句 后缀 例子 汉译(例子) 子,用其作为搜索的对象从而缩小了文本中维吾尔 49 山产L黄金的价值金匠知 谚语的搜索范围。其部分规则如下(总规则词组为 中缀 例子 汉译(例子) 12种): 与其给了得罪人,不如不给 (此比喻中这样说的…) …g为… ·岁3地→* 34g25山a5(1 归3s州 当恶人 (有这样一说……)3心(2 双中缀&多 例子 汉译(例子) (有这样的俗话) s5(3 中缀 35u.595ss(4 ., 山2岁uw心片金钱面前莫动心,说起当官 l 莫眼 (从此留下这种话语/比喻)。其基于标点符号的 规则:“)”和“:”等这些符号作为谚语识别候选规 根据6490条维吾尔谚语自身的特点,归纳了 则,为下一步判断谚语作为参考。 75种词缀,其中有35个后词缀(后加成分),6个中 1.1.1基于维吾尔语附加成分特征的规则研究 缀,34个双中缀和多中缀。 根据维吾尔谚语的语法结构,对谚语进行分类 1.2维吾尔谚语歧义现象 判断9。例如: 歧义是指语言中对一个词语或一种结构有两种
中广泛应用,通常由语素、词、词组、句子等基本单 位逐级组建构成[2]。维吾尔谚语作为维吾尔语言的 一个重要的组成部分,与其他的维吾尔语言成分结 合在一起,构成了一种完整的语言网络系统[3]。根 据维吾尔谚语自身的语法、语义、结构特征将谚语 从这一网络系统中提取出来是从计算机角度对维吾 尔谚语语言结构的探讨与研究,提供了一个新的视 角,同时该研究在舆情分析、语言理解以及机器翻 译中将会被广泛使用[4]。除此之外,考察维吾尔谚 语的使用率、覆盖率,统计新谚语,在文本分析研究 中具有重要意义,并且在传承民族优秀文化、饮食 文化、道德观念、哲学思想等方面起一定的作用[5]。 1 维吾尔谚语规则知识库的建设 维吾尔族谚语是流传在维吾尔族人民群众口头 上的定型的现成语,具有意义的完整性、结构的简 短性、结构的稳定性、语言的通俗性、哲理及教育性 等特点。在语法和结构上,维吾尔谚语也有其自成 一格的结构系统[6]。 根据语言学界对谚语的研究结论和语言学理 论 [7] ,从维吾尔谚语的语义、语法结构两方面入手, 提出辨别维吾尔谚语的基本原则,并根据基本的原 则建立成规则库为计算机自动划界并识别维吾尔谚 语提供基础[8]。到目前为止,维吾尔谚语规则库包 括词缀、关键词、关联词等几个形式。通过对语料 库中的维吾尔谚语进行分析与研究归纳出谚语识别 规则。 1.1 维吾尔谚语规则知识库 本文通过分析小学 1 年级到 6 年级的维吾尔文 语文教材后,收集了在文本中紧跟着维吾尔谚语前 面或者是后面出现,用来引用当前谚语的词组或句 子,用其作为搜索的对象从而缩小了文本中维吾尔 谚语的搜索范围。其部分规则如下 (总规则词组为 12 种): (从此留下这种话语/比喻)。其基于标点符号的 规则:“‹›”和“:”等这些符号作为谚语识别候选规 则,为下一步判断谚语作为参考。 1.1.1 基于维吾尔语附加成分特征的规则研究 根据维吾尔谚语的语法结构,对谚语进行分类 判断[9]。例如: 1) 肯定形式:谚语中的动词词干后附加词尾 构成的谚语。 2) 将来时第三人称单数词尾 构成的 谚语。 3) 第二人称祈使句分为肯定和否定两种形式 的谚语。 4) 过去式时态接陈述式第三人称,即在副词、 动词等词类后附加词尾 构成的谚语[10]。 5) 否定形式的谚语:在动词词干后附加词尾 构成。 6) 谓语是以形容词结尾的谚语。等 6 种语法 结构规则。例如: (慷慨者的笑能 使小气鬼哭) ( 断 臂 人的痛苦只有断臂人知道) 1.1.2 维吾尔谚语关系规则 根据维吾尔谚语提出了并列、假设、取舍、连锁 等 4 种关系规则。 根据上述的维吾尔谚语的句型结构归纳的规 则 (词缀) 总数有 75 种,词缀的含义是黏附在词根 上构成新词的语素,它本身不能单独构成词。在维 吾尔语言中黏附在词根前面的词缀称为前词缀 (前 缀),黏附在词根后面的词缀称为后词缀 (简称后 缀),插入词根中间的词缀称为中词缀 (简称中缀)。 另外,维吾尔谚语中有一种特殊词缀,即由两个或 者两个以上中缀黏附在词根后面,本文中均可以双 中缀和多中缀,例如表 1 所示。 表 1 维吾尔谚语词缀 (部分) Table 1 Part of Uyghur proverbs suffixes display 后缀 例子 汉译 (例子) 黄金的价值金匠知 中缀 例子 汉译 (例子) 与其给了得罪人,不如不给 当恶人 双中缀&多 中缀 例子 汉译 (例子) 金钱面前莫动心,说起当官 莫眼 根据 6 490 条维吾尔谚语自身的特点,归纳了 75 种词缀,其中有 35 个后词缀 (后加成分),6 个中 缀,34 个双中缀和多中缀。 1.2 维吾尔谚语歧义现象 歧义是指语言中对一个词语或一种结构有两种 第 3 期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·453·
·454· 智能系统学报 第13卷 或多种解释,是语言研究中梳理的一个关键点Ⅲ。 维吾尔谚语自动识别系统 1)谚语成为句子成分 维吾尔谚语进行自动识别时在不同的规则层次 中出现不同的歧义现象。不符合规则的现象分为以 谚语识别模块 谚语查询模块 谚语统计模块 下两类:新谚语和谚语成为句子成分。对于基于关 键词规则方法来说,有的谚语可以直接引用,前后 图1维吾尔谚语识别系统功能图 Fig.1 Functional diagram Uyghur proverb recognition 不加任何词语,而且作为固定组合时也可以充当句 system 子的其他成分,比如:主语、宾语等。但这种可能非 1)维吾尔谚语判断模块 常有限2。如: 维吾尔谚语判断模块从多种角度进行判别: ①强盗收拾贼是免不了的。 ①通过由关键词、标点符号、附加成分(词 sw州ywL3u5,,5之9 缀)组成的三层识别方法,从文本中识别出可能成 ②你可知瞧着被子仲腿,一个巴掌拍不响的道理。 为谚语的固定语句并判断该固定语句是否为维吾尔 心u心Wyu野巴头g 谚语; 虽然固定语句是维吾尔谚语,但是具备了一个 ②对话框中输入固定语句,系统通过匹配当前 非维吾尔谚语该有的句子结构和语法结构),比如 固定语句的附加成分(词缀)后判断该输入语句是 上述例子①②。然而,这类谚语,往往需要借助人 维吾尔谚语或者是成语或者是其他类固定语句。 工处理后才能判断是否是谚语。 2)维吾尔谚语统计模块 2)谚语成为其他固定语句 此模块主要功能分为两部分:一是对已判别好 维吾尔谚语作为语言中的一种固定的定型语 的维吾尔谚语成分进行统计;二是按照规则知识库 句,谚语、成语和格言构成并列关系,三者同属于非 对语料库中的谚语逐条自动进行判断其是否为维吾 生语范畴并且构成上下位关系。谚语、成语和格言 尔谚语。 的语义结构与功能存在某些交错。因此、计算机对 3)维吾尔谚语查询模块 维吾尔谚语进行自动处理时须有专属维吾尔谚语的 查询模块的主要功能是根据使用者的需求,输 特定规则,后再使用计算机进行处理。 出维吾尔谚语其他相关信息。 谚语与成语。在结构上,虽然都大于词,但谚 2.1系统功能的实现 语一般为一个完整的句子或者复句,而成语则多为 本系统识别功能主要有以下几个:1)识别关键 词组。系统自动识别时,部分维吾尔谚语除了句 词;2)识别标点符号后自动地确定目标,固定语句 的界定范围,以便后续进行判断:3)识别功能语类 尾用句号以外,句中由逗号隔开,这就表明维吾尔 (功能语类是指用来表达语法意义的成分,本文中的 谚语的形式是以句号、逗号相配合组成的谚语,而 词缀):4)将维吾尔谚语语料库中的所有谚语作为查 成语则只是以句号结束。 询对象验证查询功能,即当输人维吾尔谚语上一句 谚语和格言。在结构上,维吾尔谚语一般由一 或下一句时,系统就将自动查询维吾尔谚语的上一 个或两个句子组成,这是由维吾尔谚语的语义简洁 句(下一句),并且输出维吾尔文解释、汉译、汉译解 性所决定的。而格言有的是由一个或两个句子构 释、拼音和类型等一系列信息供用户使用:5)统计 成,有的则是由几个句子构成的语段。 功能,此功能包括维吾尔谚语成分统计和词缀覆盖 谚语与歌谣。维吾尔谚语语言结构形式类似于 率统计。前者根据谚语语料库里每一个完整的维吾 维吾尔语歌谣,但是在结构、语义和句法功能上同 尔谚语行数和词数进行统计。后者则根据已有的词 样存在差别61。通常维吾尔谚语最长不超过两三 缀对“纯谚语”语料库中的所有维吾尔谚语进行统计 句,而维吾尔语歌谣则以两句以上为多见叨。 与计算,即检测维吾尔谚语关键技术研究系统的 2维吾尔谚语识别系统研究与设计 精准度。维吾尔谚语自动识别系统总流程图如图2 所示。 本研究中开发的维吾尔谚语自动识别系统分为 本文中设计的维吾尔谚语自动识别系统在文本 维吾尔谚语判断模块、维吾尔谚语查询模块及维吾 中充分利用3层条件识别出维吾尔谚语。识别系统 尔谚语统计模块三大模块,如图1所示。 判断率已超过97%
或多种解释,是语言研究中梳理的一个关键点[11]。 1) 谚语成为句子成分 维吾尔谚语进行自动识别时在不同的规则层次 中出现不同的歧义现象。不符合规则的现象分为以 下两类:新谚语和谚语成为句子成分。对于基于关 键词规则方法来说,有的谚语可以直接引用,前后 不加任何词语,而且作为固定组合时也可以充当句 子的其他成分,比如:主语、宾语等。但这种可能非 常有限[12]。如: ① 强盗收拾贼是免不了的。 ② 你可知瞧着被子伸腿,一个巴掌拍不响的道理。 虽然固定语句是维吾尔谚语,但是具备了一个 非维吾尔谚语该有的句子结构和语法结构[13] ,比如 上述例子①②。然而,这类谚语,往往需要借助人 工处理后才能判断是否是谚语。 2) 谚语成为其他固定语句 维吾尔谚语作为语言中的一种固定的定型语 句,谚语、成语和格言构成并列关系,三者同属于非 生语范畴并且构成上下位关系。谚语、成语和格言 的语义结构与功能存在某些交错。因此、计算机对 维吾尔谚语进行自动处理时须有专属维吾尔谚语的 特定规则,后再使用计算机进行处理[14]。 谚语与成语。在结构上,虽然都大于词,但谚 语一般为一个完整的句子或者复句,而成语则多为 词组[15]。系统自动识别时,部分维吾尔谚语除了句 尾用句号以外,句中由逗号隔开,这就表明维吾尔 谚语的形式是以句号、逗号相配合组成的谚语,而 成语则只是以句号结束。 谚语和格言。在结构上,维吾尔谚语一般由一 个或两个句子组成,这是由维吾尔谚语的语义简洁 性所决定的。而格言有的是由一个或两个句子构 成,有的则是由几个句子构成的语段。 谚语与歌谣。维吾尔谚语语言结构形式类似于 维吾尔语歌谣,但是在结构、语义和句法功能上同 样存在差别[16]。通常维吾尔谚语最长不超过两三 句,而维吾尔语歌谣则以两句以上为多见[17]。 2 维吾尔谚语识别系统研究与设计 本研究中开发的维吾尔谚语自动识别系统分为 维吾尔谚语判断模块、维吾尔谚语查询模块及维吾 尔谚语统计模块三大模块,如图 1 所示。 㐠४ᅀ䅆䄙㜖ߔ䃲ݗ㈧㐋 䅆䄙䃲ݗὍಃ 䅆䄙ᴑ䄎Ὅಃ 䅆䄙㐋䃍Ὅಃ 图 1 维吾尔谚语识别系统功能图 Fig. 1 Functional diagram Uyghur proverb recognition system 1) 维吾尔谚语判断模块 维吾尔谚语判断模块从多种角度进行判别: ①通过由关键词、标点符号、附加成分 (词 缀) 组成的三层识别方法,从文本中识别出可能成 为谚语的固定语句并判断该固定语句是否为维吾尔 谚语; ②对话框中输入固定语句,系统通过匹配当前 固定语句的附加成分 (词缀) 后判断该输入语句是 维吾尔谚语或者是成语或者是其他类固定语句。 2) 维吾尔谚语统计模块 此模块主要功能分为两部分:一是对已判别好 的维吾尔谚语成分进行统计;二是按照规则知识库 对语料库中的谚语逐条自动进行判断其是否为维吾 尔谚语。 3) 维吾尔谚语查询模块 查询模块的主要功能是根据使用者的需求,输 出维吾尔谚语其他相关信息。 2.1 系统功能的实现 本系统识别功能主要有以下几个:1) 识别关键 词;2) 识别标点符号后自动地确定目标,固定语句 的界定范围,以便后续进行判断;3) 识别功能语类 (功能语类是指用来表达语法意义的成分,本文中的 词缀);4) 将维吾尔谚语语料库中的所有谚语作为查 询对象验证查询功能,即当输入维吾尔谚语上一句 或下一句时,系统就将自动查询维吾尔谚语的上一 句 (下一句),并且输出维吾尔文解释、汉译、汉译解 释、拼音和类型等一系列信息供用户使用;5) 统计 功能,此功能包括维吾尔谚语成分统计和词缀覆盖 率统计。前者根据谚语语料库里每一个完整的维吾 尔谚语行数和词数进行统计。后者则根据已有的词 缀对“纯谚语”语料库中的所有维吾尔谚语进行统计 与计算,即检测维吾尔谚语关键技术研究系统的 精准度。维吾尔谚语自动识别系统总流程图如图 2 所示。 本文中设计的维吾尔谚语自动识别系统在文本 中充分利用 3 层条件识别出维吾尔谚语。识别系统 判断率已超过 97%。 ·454· 智 能 系 统 学 报 第 13 卷
第3期 穆妮热穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·455· 输人文本 比较后其识别准确率提高到99%。这说明,从文中 搜索到的维吾尔谚语是在维吾尔谚语语料库里出现 N 关键词匹配 的,因此可以确切地判断当前的固定语句为维吾尔 谚语。因为“维汉平行谚语语料库”中的维吾尔谚语 端语料总数少于“维吾尔谚语语料库”中的维吾尔谚 、符号匹配> 语总数,因此,基于“维汉平行谚语语料库”(其他语 Y 料库关闭)从文本中识别谚语的准确率为43.47%。 词缀匹配 词缀匹配 “维汉平行谚语语料库”关闭状态与前面所述的“维 吾尔谚语语料库”关闭的状态是一个样的,就是说系 Y 、是否谚语 统只能通过上述的3层识别方法识别维吾尔谚语, N 其数据分析如表3所示。 表3谚语识别率对比性实验结果 输出谚语 新谚语待定表 Table 3 Proverb recognition rate comparative experiment- al results 图2维吾尔谚语识别系统流程图 Fig.2 Uyghur proverb recognition system flow chart 语料库状态 识别率/% 2.2维吾尔谚语语料库的构建 维吾尔谚语语料库(开放) 99 本研究所使用的文本为新疆师范大学“维吾尔 维吾尔谚语语料库(关闭) 96.9 语文研究基地“提供的以《语文》为名的小学维吾 维汉平行谚语语料库(开放) 43.47 尔文语文教材、新疆人民出版社出版的《维汉对照 维汉平行谚语语料库(关闭) 96.9 维吾尔谚语》(总共3000条)、《维吾尔谚语释解词 典》(总共6800条。 通过对比实验结果表3可知,维吾尔谚语语料 以《维吾尔谚语释解词典》和《维汉对照维吾 库开放状态下文本中识别谚语效率较高。当然用户 尔谚语词典》中的6490条维吾尔谚语(其中 也可以在没有谚语语料库状态下根据专属谚语的特 2956条包含维汉解释、读法(拼音)、类型等一系列 定规则判别当前固定语句是否为谚语,但是其判别 信息)组成的语料库为研究对象。用户根据需求进 率并不很理想。因此建议通过规则库进行筛选之后 行查询与匹配、统计与分类数据库,从而能方便快 再使用维吾尔谚语语料判断当前固定语句是否为维 速查找到所需信息。 吾尔谚语。 本文中收集的维吾尔谚语数据如表2所示。 2.4添加新谚语 表2维吾尔谚语收集率 维吾尔谚语是广大维吾尔族人民口头流传的固 Table 2 Uyghur proverb collection rates 定语句。到目前为止很多研究者已经收集了大量 语料库 总数 收集总数 差别 收集率% 维吾尔谚语,但是随着维吾尔族文化的发展,可能 纯语料 6800 6490 310 95.44 会生成新的维吾尔谚语,并且在文本中依然能与关 平行语料 3000 2956 44 98.53 键词连用,或者出现在括号里。这些固定语句不仅 满足关键词规则和标点符号规则,也符合谚语语 根据表2可知,本文中维吾尔谚语的收集率达 法、词缀规则。另外,这些固定语句可直接存放在 到95.44%,维汉平行谚语语料库的收集率达到 待定谚语库里供使用者人工处理,并进一步判定该 98.53%。无论是维吾尔谚语纯语料(单语言),还是 固定语句是否为新的维吾尔谚语。表4是小学维吾 维汉谚语平行语料,其收集率都较完整。 尔文语文教材中的新谚语数据分析。 2.3维吾尔谚语识别对比实验 表4新谚语比例 为了衡量上述所构建维吾尔谚语语料库和维汉 Table 4 Proportion of new proverbs 平行谚语语料库的实用性以及谚语识别方法的有效 语料库 谚语总数 新谚语 新谚语比例/% 性,本文中分别对维吾尔谚语语料库、维汉平行谚 语语料库的开放以及关闭状态进行识别。实验结果 语文教材 170 28 16.47 表明,系统通过规则词组、标点符号、谚语词缀等 从表4可知,小学维吾尔文教材中识别的维吾 3层识别步骤筛选后的维吾尔谚语识别率达到 尔谚语的总数共170条,其中新谚语数目为28条, 96.9%,如果将此结果再与《维吾尔谚语语料库》 占总谚语数目的16.47%
䙹ࡥ䩚䃹ڟ 䒿ڑ᪳᱘ げणࡥ䙹 䃹㐬ࡥ䙹 ᭛॒䅆䄙 䒿ܦ䅆䄙 䅆䄙ᒱ㶔 䃹㐬ࡥ䙹 N N N N N Y Y Y Y Y 图 2 维吾尔谚语识别系统流程图 Fig. 2 Uyghur proverb recognition system flow chart 2.2 维吾尔谚语语料库的构建 本研究所使用的文本为新疆师范大学“维吾尔 语文研究基地”提供的以《语文》为名的小学维吾 尔文语文教材、新疆人民出版社出版的《维汉对照 维吾尔谚语》(总共 3 000 条)、《维吾尔谚语释解词 典》(总共 6 800 条 [18] )。 以《维吾尔谚语释解词典》和《维汉对照维吾 尔谚语词典》中的 6 490 条维吾尔谚语 (其中 2 956 条包含维汉解释、读法 (拼音)、类型等一系列 信息) 组成的语料库为研究对象。用户根据需求进 行查询与匹配、统计与分类数据库,从而能方便快 速查找到所需信息。 本文中收集的维吾尔谚语数据如表 2 所示。 表 2 维吾尔谚语收集率 Table 2 Uyghur proverb collection rates 语料库 总数 收集总数 差别 收集率/% 纯语料 6 800 6 490 310 95.44 平行语料 3 000 2 956 44 98.53 根据表 2 可知,本文中维吾尔谚语的收集率达 到 95.44%,维汉平行谚语语料库的收集率达到 98.53%。无论是维吾尔谚语纯语料 (单语言),还是 维汉谚语平行语料,其收集率都较完整。 2.3 维吾尔谚语识别对比实验 为了衡量上述所构建维吾尔谚语语料库和维汉 平行谚语语料库的实用性以及谚语识别方法的有效 性,本文中分别对维吾尔谚语语料库、维汉平行谚 语语料库的开放以及关闭状态进行识别。实验结果 表明,系统通过规则词组、标点符号、谚语词缀等 3 层识别步骤筛选后的维吾尔谚语识别率达到 96.9%,如果将此结果再与《维吾尔谚语语料库》 比较后其识别准确率提高到 99%。这说明,从文中 搜索到的维吾尔谚语是在维吾尔谚语语料库里出现 的,因此可以确切地判断当前的固定语句为维吾尔 谚语。因为“维汉平行谚语语料库”中的维吾尔谚语 端语料总数少于“维吾尔谚语语料库”中的维吾尔谚 语总数,因此,基于“维汉平行谚语语料库”(其他语 料库关闭) 从文本中识别谚语的准确率为 43.47%。 “维汉平行谚语语料库”关闭状态与前面所述的“维 吾尔谚语语料库”关闭的状态是一个样的,就是说系 统只能通过上述的 3 层识别方法识别维吾尔谚语, 其数据分析如表 3 所示。 表 3 谚语识别率对比性实验结果 Table 3 Proverb recognition rate comparative experimental results 语料库状态 识别率/% 维吾尔谚语语料库 (开放) 99 维吾尔谚语语料库 (关闭) 96.9 维汉平行谚语语料库 (开放) 43.47 维汉平行谚语语料库 (关闭) 96.9 通过对比实验结果表 3 可知,维吾尔谚语语料 库开放状态下文本中识别谚语效率较高。当然用户 也可以在没有谚语语料库状态下根据专属谚语的特 定规则判别当前固定语句是否为谚语,但是其判别 率并不很理想。因此建议通过规则库进行筛选之后 再使用维吾尔谚语语料判断当前固定语句是否为维 吾尔谚语。 2.4 添加新谚语 维吾尔谚语是广大维吾尔族人民口头流传的固 定语句[19]。到目前为止很多研究者已经收集了大量 维吾尔谚语,但是随着维吾尔族文化的发展,可能 会生成新的维吾尔谚语,并且在文本中依然能与关 键词连用,或者出现在括号里。这些固定语句不仅 满足关键词规则和标点符号规则,也符合谚语语 法、词缀规则。另外,这些固定语句可直接存放在 待定谚语库里供使用者人工处理,并进一步判定该 固定语句是否为新的维吾尔谚语。表 4 是小学维吾 尔文语文教材中的新谚语数据分析。 表 4 新谚语比例 Table 4 Proportion of new proverbs 语料库 谚语总数 新谚语 新谚语比例/% 语文教材 170 28 16.47 从表 4 可知,小学维吾尔文教材中识别的维吾 尔谚语的总数共 170 条,其中新谚语数目为 28 条, 占总谚语数目的 16.47%。 第 3 期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·455·
·456· 智能系统学报 第13卷 2.5词缀覆盖率 维吾尔谚语系统的分析、设计与实现详细地说 计算词缀覆盖率时,对收集的6490条维吾尔 明系统的设计路线和功能模块,并进行小规模的实 谚语进行分析。其中包含后缀的维吾尔谚语共3786 验,即测试系统。本文阐述了维吾尔谚语规则库、 条,由中词缀相连接的维吾尔谚语共1555条,由双 源数据库和设计系统的模型与设计中的一些细节, 中缀和多中缀相连接的维吾尔谚语共2356条。因 并且对维吾尔谚语语料库的各项语料统计进行分 为谚语本身句法结构多样,附加成分(词缀)连接 析,为自动识别系统提供了良好的基础。系统依据 特征极其不规律,包含上述词缀的维吾尔谚语共 用户所提交的含有维吾尔谚语的任何一种格式的文 4934条,覆盖率百分比为75.81%。其余1556条 本,通过关键词和相关符号,与语料库、规则库进行 维吾尔谚语是没有特殊的语法结构或者没有包含特 判断,获得所需的维吾尔谚语,根据需要进行查询 定的词缀,未覆概率百分比为24.19%。其数据分析 与匹配,进行统计与分类,可快速地找到所需数 如表5所示。 据。本研究除了在语言理解、维汉汉维机器翻译中 表5谚语词缀覆盖率 起重要作用之外,还能为中考、高考中考维吾尔语 Table 5 Proverbs suffix coverage 语文的全体学生提供一个良好的学习平台,对教学 匹配谚匹配覆未匹配未匹配 词缀类型 个数 研究及推广维吾尔语言也会起到很大作用。 语个数盖率%谚语覆盖率% 双中缀和多中缀34 2356 36.30 4134 63.9 参考文献: 中缀 61555 23.964935 76.04 []杨艳,何天字.基于短语的关系数据库关键词查询方法), 后缀 35378658.33 2704 41.66 计算机研究与发展,2012,49S1):276-282 YANG Yan,HE Tianyu.Phrase-based keyword search over 表5中分别显示每一种功能语类(词缀)在 relational databases[J].Computer research and development, 维吾尔谚语语料库中占的百分比,其中被双中缀和 2012,49(S1):276-282 多中缀覆盖的维吾尔谚语占总谚语的36.30%,唯有 [2]张红雨.汉维谚语对比D1.重庆:西南大学,2010:15-20. 中缀和后缀覆盖的维吾尔谚语分别占为23.96% ZHANG Hongyu.The development of chemical curriculum 和58.33%。值得一提的是,维吾尔谚语语料库里 comparision of Chinese Uighur proverbs[D].Chongqing: 的6490条维吾尔谚语中的某些维吾尔谚语有同时 Southwest University,2010:15-20. 与后缀和中缀以及双中缀相连接的可能性,即系统 [3)杨德明.再论维吾尔谚语的翻译).民族翻译,2014(4): 从文本中识别出维吾尔谚语时,有可能会在同一条 81-86. 维吾尔谚语本身匹配到上述的3种词缀。比如: YANG Deming.On the translation of Uyghur proverbs[J]. s:维吾尔文 Minority translators journal,2014(4):81-86. 汉译:(没有青杏哪来杏仁)四 [4马俊民.论维语谚语的汉译】.语言与翻译,1985(3): 此谚语中包含后缀和中缀,假设关系5山…格 47-52 式,还有否定形式词缀:在动词词干后附加词尾 MA Junmin.On the translation of Uyghur language into Chinese[J].Language and translation,1985(3):47-52 yohoipdlo o 本文中的覆盖率是指所有谚语词缀的频率由高 [⑤)]芦风娟.基于语料库的英语谚语及其变体使用研究D] 临汾:山西师范大学,2013:12-15, 到底降序排列时其每一条谚语词缀与其整个谚语的 频率之和在全部语料中所占的比重,用来度量测试 LU Fengjuan.A corpus-based study on the Usage of Eng- 完整性和测试有效性0,如公式(1)所示。 lish proverbs and their variations[D].Linfen:Shanxi Nor- mal University,2013:12-15. F=∑是x10% (1) [6]马俊民,廖泽余.维汉对照维吾尔谚语M.乌鲁木齐:新 式中:F,为识别对象i的覆盖率,n,为识别对象i 疆人民出版社,2007:1-300. 的出现次数,N为所有语料中调查对象出现的总量。 [刀陈雪慧.汉维谚语中比喻修辞对比研究D].乌鲁木齐:新 疆师范大学,2013:8-12 3结束语 CHEN Xuehui.Chinese proverbs and Uygur proverbs com- parative study of figures of speech[D].Urumchi:Xinjiang 本文从计算语言学理论角度归纳出维吾尔谚语 Normal University,2013:8-12. 的语法结构模式,为文本中自动识别维吾尔谚语系 [8]力提甫托乎提,从短语结构到最简方案:阿尔泰语言的 统的实现构建了较完整的维吾尔谚语语料库与只属 句法结构M.北京:中央民族大学出版社,2004:80-140. 于维吾尔谚语语法的维吾尔谚语规则知识库。 [9]刘正江.维吾尔语成语研究概述】.喀什师范学院学报
2.5 词缀覆盖率 计算词缀覆盖率时,对收集的 6 490 条维吾尔 谚语进行分析。其中包含后缀的维吾尔谚语共 3 786 条,由中词缀相连接的维吾尔谚语共 1 555 条,由双 中缀和多中缀相连接的维吾尔谚语共 2 356 条。因 为谚语本身句法结构多样,附加成分 (词缀) 连接 特征极其不规律,包含上述词缀的维吾尔谚语共 4 934 条,覆盖率百分比为 75.81%。其余 1 556 条 维吾尔谚语是没有特殊的语法结构或者没有包含特 定的词缀,未覆概率百分比为 24.19%。其数据分析 如表 5 所示。 表 5 谚语词缀覆盖率 Table 5 Proverbs suffix coverage 词缀类型 个数 匹配谚 语个数 匹配覆 盖率/% 未匹配 谚语 未匹配 覆盖率/% 双中缀和多中缀 34 2 356 36.30 4134 63.9 中缀 6 1 555 23.96 4935 76.04 后缀 35 3 786 58.33 2704 41.66 表 5 中分别显示每一种功能语类 (词缀) 在 维吾尔谚语语料库中占的百分比,其中被双中缀和 多中缀覆盖的维吾尔谚语占总谚语的 36.30%,唯有 中缀和后缀覆盖的维吾尔谚语分别占为 23.96% 和 58.33%。值得一提的是,维吾尔谚语语料库里 的 6 490 条维吾尔谚语中的某些维吾尔谚语有同时 与后缀和中缀以及双中缀相连接的可能性,即系统 从文本中识别出维吾尔谚语时,有可能会在同一条 维吾尔谚语本身匹配到上述的 3 种词缀。比如: :维吾尔文 汉译:(没有青杏哪来杏仁) [11]。 此谚语中包含后缀和中缀,假设关系 格 式,还有否定形式词缀:在动词词干后附加词尾 。 本文中的覆盖率是指所有谚语词缀的频率由高 到底降序排列时其每一条谚语词缀与其整个谚语的 频率之和在全部语料中所占的比重,用来度量测试 完整性和测试有效性[20] ,如公式 (1) 所示。 Fi = ∑ ni N ×100% (1) 式中:Fi 为识别对象 i 的覆盖率,ni 为识别对象 i 的出现次数,N 为所有语料中调查对象出现的总量。 3 结束语 本文从计算语言学理论角度归纳出维吾尔谚语 的语法结构模式,为文本中自动识别维吾尔谚语系 统的实现构建了较完整的维吾尔谚语语料库与只属 于维吾尔谚语语法的维吾尔谚语规则知识库。 维吾尔谚语系统的分析、设计与实现详细地说 明系统的设计路线和功能模块,并进行小规模的实 验,即测试系统。本文阐述了维吾尔谚语规则库、 源数据库和设计系统的模型与设计中的一些细节, 并且对维吾尔谚语语料库的各项语料统计进行分 析,为自动识别系统提供了良好的基础。系统依据 用户所提交的含有维吾尔谚语的任何一种格式的文 本,通过关键词和相关符号,与语料库、规则库进行 判断,获得所需的维吾尔谚语,根据需要进行查询 与匹配,进行统计与分类,可快速地找到所需数 据。本研究除了在语言理解、维汉/汉维机器翻译中 起重要作用之外,还能为中考、高考中考维吾尔语 语文的全体学生提供一个良好的学习平台,对教学 研究及推广维吾尔语言也会起到很大作用。 参考文献: 杨艳, 何天宇. 基于短语的关系数据库关键词查询方法[J]. 计算机研究与发展, 2012, 49(S1): 276–282. YANG Yan, HE Tianyu. Phrase-based keyword search over relational databases[J]. Computer research and development, 2012, 49(S1): 276–282. [1] 张红雨. 汉维谚语对比[D]. 重庆: 西南大学, 2010: 15-20. ZHANG Hongyu. The development of chemical curriculum comparision of Chinese Uighur proverbs[D]. Chongqing: Southwest University, 2010: 15-20. [2] 杨德明. 再论维吾尔谚语的翻译[J]. 民族翻译, 2014(4): 81–86. YANG Deming. On the translation of Uyghur proverbs[J]. Minority translators journal, 2014(4): 81–86. [3] 马俊民. 论维语谚语的汉译[J]. 语言与翻译, 1985(3): 47–52. MA Junmin. On the translation of Uyghur language into Chinese[J]. Language and translation, 1985(3): 47–52. [4] 芦风娟. 基于语料库的英语谚语及其变体使用研究[D]. 临汾: 山西师范大学, 2013: 12-15. LU Fengjuan. A corpus-based study on the Usage of English proverbs and their variations[D]. Linfen: Shanxi Normal University, 2013: 12-15. [5] 马俊民, 廖泽余. 维汉对照维吾尔谚语[M]. 乌鲁木齐: 新 疆人民出版社, 2007: 1-300. [6] 陈雪慧. 汉维谚语中比喻修辞对比研究[D]. 乌鲁木齐:新 疆师范大学, 2013: 8-12. CHEN Xuehui. Chinese proverbs and Uygur proverbs comparative study of figures of speech[D]. Urumchi: Xinjiang Normal University, 2013: 8-12. [7] 力提甫·托乎提. 从短语结构到最简方案: 阿尔泰语言的 句法结构[M]. 北京: 中央民族大学出版社, 2004: 80-140. [8] [9] 刘正江. 维吾尔语成语研究概述[J]. 喀什师范学院学报, ·456· 智 能 系 统 学 报 第 13 卷
第3期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·457· 2004,25(2):59-61 Journal of Chinese information processing,2014,28(5): LIU Zhengjiang.The general research situation about idiom 192-197 of Uygur language[J].Journal of Kashgar teachers college, [18]玉素甫·艾白都拉,艾孜尔古丽,祖丽皮亚.基于网站用词 2004.25(2):59-61. 调查的现代维吾尔语词长研究.计算机应用与软件, [10]力提甫·托乎提.维吾尔语及其他阿尔泰语言的生成句法 2012,29(5):32-34 研究M.北京:民族出版社,2001:60-120. ABAYDULA Y.AZRAGUL,ZULPIYA.Research on [11]张勇.维吾尔谚语研究D].乌鲁木齐:新疆大学,2005: word length of modern Uyghur based on surveying web- 10-97. site wording[J].Computer applications and software,2012, ZHANG Yong.Study on Uygur proverbs[D].Urumchi: 29(5)32-34. Xinjiang University,2005:10-97. [19]李燕萍.从维吾尔语谚语中的复句看现代维吾尔语复句 [12]张勇.维吾尔谚语研究视角与理论方法琐谈刀.新疆大 的演变J.喀什师范学院学报,2006,27(5):57-60 学学报:社会科学版,2004,32(1):130-134. LI Yanping.Observe and study the development orbit of ZHANG Yong.On the perspective and theoretical meth- the sentence of two clauses in the modern Uighur language ods of Uyghur proverb research[J].Journal of Xinjiang from those are retained in the Uighur proverbs[J].Journal university:social science edition,2004,32(1):130-134. of Kashgar teachers college,2006,27(5):57-60. 13]阿比达·吾买尔,吐尔根依布拉音.维吾尔语句子边界识 [20]付东明,陈得军.维吾尔谚语研究趋势与反思).语言与 别算法的设计与实现.新疆大学学报:自然科学版, 翻译,2014(1):29-33. 2008(3):360-363 UMAR A,IBRAYIM T.Research and implementation of FU Dongming,CHEN Dejun.Uygur proverb research Uyghur sentence boundary detection[J].Journal of Xinji- trends and reflection[J].Language and translation,2014(1): ang university:natural science edition,2008(3):360-363. 29-33. [14纠艾斯卡尔·亚克甫.维吾尔谚语检索系统的研究与实现 作者简介: D].青岛:中国海洋大学,2012:34-70. 穆妮热·穆合塔尔,女,1989年生, YAKUP A.Research and realization of Uyghur ideom re- 博土,主要研究方向为多种语言信息 triaval system[D].Qingdao:Ocean University of China, 处理、机器翻译、自然语言处理。 2012:34-70. [15)刘正江.谈维吾尔语成语汉译的可译性限度).西北民 族大学学报:哲学社会科学版,2005(3):47-50. LIU Zhengjiang.On the translatability limits of Uyghur idioms in Chinese translation[J].Journal of northwest uni- 李晓,男,1957年生,研究员,主 versity for nationalities:philosophy and social science, 要研究方向为多语种信息处理、人工 2005(3):47-50. 智能。主持或承担过多项国家863, 中科院战略先导项目。发表学术论文 [16艾孜尔古丽·玉素甫.现代维吾尔语常用词计量研究D] 60余篇。 乌鲁木齐:新疆师范大学,2013:40-48. AZRAGUL.The research on modern Uygur language common words[D].Urumchi:Xinjiang Normal University, 2013:40-48 杨雅婷,女,1985年生,副研究 员,博士,主要研究方向为机器翻译和 [1刀艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉.现代维吾 自然语言处理。承担过多项国家 尔语常用词统计关键技术研究).中文信息学报,2014, 863、中科院战略先导项目。发表学术 28(5)192-197 论文30余篇。 AZRAGUL,NURAHMAT,ABAYDULA Y.Research on key technology of modern Uyghur language common[J]
2004, 25(2): 59–61. LIU Zhengjiang. The general research situation about idiom of Uygur language[J]. Journal of Kashgar teachers college, 2004, 25(2): 59–61. 力提甫·托乎提. 维吾尔语及其他阿尔泰语言的生成句法 研究[M]. 北京: 民族出版社, 2001: 60-120. [10] 张勇. 维吾尔谚语研究[D]. 乌鲁木齐: 新疆大学, 2005: 10-97. ZHANG Yong. Study on Uygur proverbs[D]. Urumchi: Xinjiang University, 2005: 10-97. [11] 张勇. 维吾尔谚语研究视角与理论方法琐谈[J]. 新疆大 学学报: 社会科学版, 2004, 32(1): 130–134. ZHANG Yong. On the perspective and theoretical methods of Uyghur proverb research[J]. Journal of Xinjiang university: social science edition, 2004, 32(1): 130–134. [12] 阿比达·吾买尔, 吐尔根·依布拉音. 维吾尔语句子边界识 别算法的设计与实现[J]. 新疆大学学报: 自然科学版, 2008(3): 360–363. UMAR A, IBRAYIM T. Research and implementation of Uyghur sentence boundary detection[J]. Journal of Xinjiang university: natural science edition, 2008(3): 360–363. [13] 艾斯卡尔·亚克甫. 维吾尔谚语检索系统的研究与实现 [D]. 青岛: 中国海洋大学, 2012: 34-70. YAKUP A. Research and realization of Uyghur ideom retriaval system[D]. Qingdao: Ocean University of China, 2012: 34-70. [14] 刘正江. 谈维吾尔语成语汉译的可译性限度[J]. 西北民 族大学学报: 哲学社会科学版, 2005(3): 47–50. LIU Zhengjiang. On the translatability limits of Uyghur idioms in Chinese translation[J]. Journal of northwest university for nationalities: philosophy and social science, 2005(3): 47–50. [15] 艾孜尔古丽·玉素甫. 现代维吾尔语常用词计量研究[D]. 乌鲁木齐: 新疆师范大学, 2013: 40-48. AZRAGUL. The research on modern Uygur language common words[D]. Urumchi: Xinjiang Normal University, 2013: 40-48. [16] 艾孜尔古丽, 努尔艾合买提, 玉素甫•艾白都拉. 现代维吾 尔语常用词统计关键技术研究[J]. 中文信息学报, 2014, 28(5): 192–197. AZRAGUL, NURAHMAT, ABAYDULA Y. Research on key technology of modern Uyghur language common[J]. [17] Journal of Chinese information processing, 2014, 28(5): 192–197. 玉素甫·艾白都拉, 艾孜尔古丽, 祖丽皮亚. 基于网站用词 调查的现代维吾尔语词长研究[J]. 计算机应用与软件, 2012, 29(5): 32–34. ABAYDULA Y, AZRAGUL, ZULPIYA. Research on word length of modern Uyghur based on surveying website wording[J]. Computer applications and software, 2012, 29(5): 32–34. [18] 李燕萍. 从维吾尔语谚语中的复句看现代维吾尔语复句 的演变[J]. 喀什师范学院学报, 2006, 27(5): 57–60. LI Yanping. Observe and study the development orbit of the sentence of two clauses in the modern Uighur language from those are retained in the Uighur proverbs[J]. Journal of Kashgar teachers college, 2006, 27(5): 57–60. [19] 付东明, 陈得军. 维吾尔谚语研究趋势与反思[J]. 语言与 翻译, 2014(1): 29–33. FU Dongming, CHEN Dejun. Uygur proverb research trends and reflection[J]. Language and translation, 2014(1): 29–33. [20] 作者简介: 穆妮热·穆合塔尔,女,1989 年生, 博士,主要研究方向为多种语言信息 处理、机器翻译、自然语言处理。 李晓,男,1957 年生,研究员,主 要研究方向为多语种信息处理、人工 智能。主持或承担过多项国家 863、 中科院战略先导项目。发表学术论文 60 余篇。 杨雅婷,女,1985 年生,副研究 员,博士,主要研究方向为机器翻译和 自然语言处理。承担过多项国家 863、中科院战略先导项目。发表学术 论文 30 余篇。 第 3 期 穆妮热·穆合塔尔,等:基于词缀的维吾尔谚语识别关键技术研究 ·457·