正在加载图片...
第4卷第5期 智能系统学报 VoL.4 No.5 2009年10月 CAAI Transactions on Intelligent Systems 0ct.2009 doi:10.3969/j.i8sn.16734785.2009.05.004 基于双向标注融合的汉语最长短语识别方法 鉴萍,宗成庆 (中国科学院自动化研究所模式识别国家重点实验室,北京100190) 摘要:汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行 双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利 用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结 果实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果. 关键词:最长名词短语识别;介词短语识别;序列标注;双向标注;分歧点 中图分类号:TP391 文献标识码:A文章编号:16734785(2009)05040608 A new approach to identifying Chinese maximal-length phrases using bidirectional labeling JIAN Ping,ZONG Cheng-qing National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China) Abstract:Chinese maximal-length phrases (maximal-length noun phrases and prepositional phrases)possess re- markable linguistic properties.Bidirectional labeling results of Chinese maximal-length phrases obtained using se- quential classifiers reveal complementary properties in both directions.In this paper,both left-right and right-left sequential labeling were employed to identify the Chinese maximal-length noun phrases and prepositional phrases. Then a novel "fork position"based probabilistic algorithm was developed to fuse the bidirectional results.Experi- ments were carried out on the Penn Chinese Treebank,a segmented,part-of-speech tagged,and fully bracketed corpus.The results confirmed that the proposed algorithm is able to effectively exploit the complementary strengths of the two directions. Keywords:maximal-length noun phrase identification;prepositional phrase identification;sequence labeling;bidi- rectional labeling;fork position 组块分析(chunking)是自然语言处理一个重要 自动文摘等其他自然语言处理任务提供帮助, 的子任务,它将句子切分为结构相对独立而且互不 最长名词短语(maximal-length noun phrase, 重叠的组块(短语),以降低完全句法分析的难度. MNP)和介词短语(prepositional phrase,PP)是2种 实际上,与基本短语相比,如果能雅确地分离出句子 重要的、研究较多的短语类型.实际上,介词短语也 中的最长短语成分,将更大程度地降低完全句法分 可以有最长和最短之分,但是由于介词短语的嵌套 析的歧义.所谓最长短语,是指不被其他任何相同类 在汉语句子中比较少见(据统计,宾州中文树库 型短语所包含的短语.它与最短(基本)短语相对, V5.011中共有5.28%的介词短语具有嵌套现象), 内部可包含多种成分结构,是一个完整的语义单元. 最长介词短语(maximal-length prepositional phrase, 除了作为完全句法分析的预处理以外,最长短语识 MPP)和一般介词短语(PP)通常不做区分.本文以 别后得到的清晰的句子结构框架还将为机器翻译、 汉语最长名词短语和介词短语的识别为任务,并在 以下章节中用MNP和PP分别表示这2种短语.本 收稿日期:200908-28. 基金项目:国家自然科学基金资助项目(60736014、90820303);“十一 文中的PP严格来说是指MPP. 五”国家科技支撑计划项目(2006BAH03B02):国家“863” 识别MNP和PP的传统方法是估计短语的边界 计划资助项目(2006AA0101084):中国新加坡数字媒体研 究院资助项目. 概率分布[2).而已有实验结果证明这类方法通常 通信作者:鉴萍.E-mail:pjian@nlpr.ia.ac,cm 只有加入了规则或语言知识才能取得较好的效
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有