正在加载图片...
·504. 智能系统学报 第11卷 层分析都有重要意义。命名实体识别属于自然语言 张玥杰等4提出以最大嫡模型作为框架,结合中文 处理的基础研究领域,是组块分析刊、数据挖掘、信 实体特点,融合全局特征和局部特征识别命名实体, 息抽取)、信息检索)、句法分析4、语义分析阿、 取得了很好的效果,正确率达到87.29%;Y.Benajiba 自动文摘阿、问答系统刀和机器翻译8例等自然语言处 等结合阿拉伯语语言特点,提出基于支持向量机 理过程中的重要基础,同时也是重要的预处理过程。 的命名实体识别方法,F值达到82.71%。3)基于混 越南语命名实体识别是很困难的一项任务。原 合的方法,潘正高等16结合中文命名实体的特点, 因包括:1)实体复杂。越南国家受多文化的影响, 采用规则与统计相结合的方法进行中文命名实体识 在实体命名方面显示出命名实体的多样性和复杂 别,互相弥补不足,取得了很好的效果;YH.Cai 性;越南地名命名广泛,主要分为基本地名和复合 等7针对中文组织机构名识别中的标注语料匮乏 地名;越南语实体拼写多样化,比如:东京(D6g问题,提出一种基于协同训练机制的机构名识别方 Kinh,Toki6,T6-ky-6,T6-ki-6),胡志明(tphcm,h6chi法,主要将条件随机场、支持向量机和记忆学习方 minh,hochimin.)等;地名中同时含有数字出现,比 法组合成一个分类体系,实验表明,混合方法能有 如第1坊h,tp hcm.(“phuong1”),3号国道(“qudc 效地互相弥补不足;如S.Biswas等18主要提出一 16s63”),同时越南语和其他语言一样都存在外来 种基于隐马尔可夫模型和最大嫡模型的结合,同时 词现象等;2)越南语有其独特的语言特点。越南语 根据语言特点,制定规则集识别命名实体,取得了 是孤立语,没有丰富的形态变化;越南语词是由一 很好的效果;M.A.Meselhi等II9提出一种新的混合 个或多个词素构成;越南人名和中国人名类似,唯 方法,把规则和统计相结合提高命名实体识别的正 一不同在于人名存在垫字,例如Nguyen Thi Tuyet'” 确率,实验表明该方法取得的效果要高于单独使用 阮氏雪,常见的垫字有“文”(Van)人、“妙”(Dieu)人 规则或者统计分析的正确率。4)其他方法,尹继豪 “女”(Nt)“玉”(ngoc入“氏”(Thi)等;越南地 等2针对中文机构名称自动识别提出了简化的一 名各音节首字母大写;比如:昆明(Con Minh)、 体化N最佳层叠模型,该模型实现了汉语切分、词性 云南(Van Nam):非汉越外国地名,首字母大写, 标注、组块分析和机构名实体识别,同时加入启发 音节内部使用”连接,比如:Oen-linh-tom;越南语 信息和机构名称缩写处理,命名实体识别效果显著 机构、团体名称一般第一个音节首字母大写(词组 提高。目前,在越南语实体识别方面有部分研究: 除外)等。以上问题给越南语命名实体识别带来极 V.H.Nguyen等2]首先规范越南语的微博内容,然 大的困难与挑战。 后在支持向量机模型中融入特征进行只针对越南语 1相关研究 微博语料进行实体识别,该研究有一定的局限性; R.C.Sam等22为了解决大规模标记训练语料不足 对于英语和汉语等语言,命名实体的研究都取 的问题,提出半监督学习方法实现越南语文本的命 得了较好的研究成果。目前命名实体的研究,主要 名实体识别,并结合指代词与模糊启发式信息;间 有以下几类方法:1)基于规则的方法,R.Alfred等9 丹辉等2结合越南语实体特点,提出了基于规则的 根据马来西亚语的语言特点,制定马来西亚语命名 越南语的命名实体识别,由于语言的多样性和复杂 实体识别的规则集合;如李楠等1©根据中文化学领 性,该方法所制定的规则集合难以覆盖完全且工作 域中实体特点,制定中文化学领域的命名实体识别 量很大,难以识别新实体、外来实体和缩写实体等: 的规则集合,并引用启发式信息;Elsebai等根据 同时该工作只针对人名、地名、组织机构名进行识 阿拉伯语命名实体特点,制定阿拉伯语命名实体识 别,并没有对数字、百分号、时间和货币做出识别, 别的规则集合,进行识别实体。2)基于统计的方法; 但是这些实体对于文本分析等应用十分重要;潘清 S.Zhao等2结合印第安语言特点提出基于隐马尔 清等24采用条件随机场模型对越南语的命名实体 可夫模型的命名实体识别方法;I.Ahmed等l3使用 识别,该方法的局限性在于:单一的模板识别多种 最大嫡模型进行命名实体识别,取得了很好的效果; 类型实体,所选取的特征只有词、词性以及上下文·504· 智 能 系 统 学 报 第 11 卷 层分析都有重要意义。命名实体识别属于自然语言 处理的基础研究领域,是组块分析[1]、数据挖掘、信 息抽取[2]、信息检索[3]、句法分析[4]、语义分析[5]、 自动文摘[6]、问答系统[7]和机器翻译[8]等自然语言处 理过程中的重要基础,同时也是重要的预处理过程。 越南语命名实体识别是很困难的一项任务。原 因包括:1)实体复杂。越南国家受多文化的影响, 在实体命名方面显示出命名实体的多样性和复杂 性;越南地名命名广泛,主要分为基本地名和复合 地名;越南语实体拼写多样化,比如:东京(Đông Kinh, Tôkiô, Tô-ky-ô, Tô-ki-ô),胡志明(tphcm, hồ chí minh, hochimin.)等;地名中同时含有数字出现,比 如第 1 坊 h, tp hcm.(“phường 1”),3 号国道(“quốc lộ số 3”),同时越南语和其他语言一样都存在外来 词现象等;2)越南语有其独特的语言特点。越南语 是孤立语,没有丰富的形态变化;越南语词是由一 个或多个词素构成;越南人名和中国人名类似,唯 一不同在于人名存在垫字,例如“Nguyễn Thị Tuyết” 阮氏雪,常见的垫字有“文”(Văn)、“妙”(Diệu)、 “女”(Nữ)、“玉”(ngọc)、“氏”(Thị)等;越南地 名各音节首字母大写;比如:昆明(Côn Minh)、 云南(Vân Nam);非汉越外国地名,首字母大写, 音节内部使用“-”连接,比如:Oen-linh-tợn;越南语 机构、团体名称一般第一个音节首字母大写(词组 除外)等。以上问题给越南语命名实体识别带来极 大的困难与挑战。 1 相关研究 对于英语和汉语等语言,命名实体的研究都取 得了较好的研究成果。目前命名实体的研究,主要 有以下几类方法:1)基于规则的方法, R.Alfred 等[9] 根据马来西亚语的语言特点,制定马来西亚语命名 实体识别的规则集合;如李楠等[10]根据中文化学领 域中实体特点,制定中文化学领域的命名实体识别 的规则集合,并引用启发式信息;Elsebai 等[11]根据 阿拉伯语命名实体特点,制定阿拉伯语命名实体识 别的规则集合,进行识别实体。2)基于统计的方法; S.Zhao 等[12]结合印第安语言特点提出基于隐马尔 可夫模型的命名实体识别方法;I.Ahmed 等[13]使用 最大熵模型进行命名实体识别,取得了很好的效果; 张玥杰等[14]提出以最大熵模型作为框架,结合中文 实体特点,融合全局特征和局部特征识别命名实体, 取得了很好的效果,正确率达到 87.29%;Y.Benajiba 等[15]结合阿拉伯语语言特点,提出基于支持向量机 的命名实体识别方法,F 值达到 82.71%。3)基于混 合的方法, 潘正高等[16]结合中文命名实体的特点, 采用规则与统计相结合的方法进行中文命名实体识 别,互相弥补不足,取得了很好的效果; Y.H.Cai 等[17]针对中文组织机构名识别中的标注语料匮乏 问题,提出一种基于协同训练机制的机构名识别方 法,主要将条件随机场、支持向量机和记忆学习方 法组合成一个分类体系,实验表明,混合方法能有 效地互相弥补不足;如 S.Biswas 等[18]主要提出一 种基于隐马尔可夫模型和最大熵模型的结合,同时 根据语言特点,制定规则集识别命名实体,取得了 很好的效果;M.A.Meselhi 等[19]提出一种新的混合 方法,把规则和统计相结合提高命名实体识别的正 确率,实验表明该方法取得的效果要高于单独使用 规则或者统计分析的正确率。4)其他方法,尹继豪 等[20]针对中文机构名称自动识别提出了简化的一 体化 N 最佳层叠模型,该模型实现了汉语切分、词性 标注、组块分析和机构名实体识别,同时加入启发 信息和机构名称缩写处理,命名实体识别效果显著 提高。目前,在越南语实体识别方面有部分研究: V.H.Nguyen 等[21]首先规范越南语的微博内容,然 后在支持向量机模型中融入特征进行只针对越南语 微博语料进行实体识别,该研究有一定的局限性; R.C.Sam 等[22]为了解决大规模标记训练语料不足 的问题,提出半监督学习方法实现越南语文本的命 名实体识别,并结合指代词与模糊启发式信息;闫 丹辉等[23]结合越南语实体特点,提出了基于规则的 越南语的命名实体识别,由于语言的多样性和复杂 性,该方法所制定的规则集合难以覆盖完全且工作 量很大,难以识别新实体、外来实体和缩写实体等; 同时该工作只针对人名、地名、组织机构名进行识 别,并没有对数字、百分号、时间和货币做出识别, 但是这些实体对于文本分析等应用十分重要;潘清 清等[24]采用条件随机场模型对越南语的命名实体 识别,该方法的局限性在于:单一的模板识别多种 类型实体,所选取的特征只有词、词性以及上下文
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有