第4卷第5期 智能系统学报 VoL.4 No.5 2009年10月 CAAI Transactions on Intelligent Systems 0ct.2009 doi:10.3969/j.i8sn.16734785.2009.05.004 基于双向标注融合的汉语最长短语识别方法 鉴萍,宗成庆 (中国科学院自动化研究所模式识别国家重点实验室,北京100190) 摘要:汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行 双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利 用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结 果实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果. 关键词:最长名词短语识别;介词短语识别;序列标注;双向标注;分歧点 中图分类号:TP391 文献标识码:A文章编号:16734785(2009)05040608 A new approach to identifying Chinese maximal-length phrases using bidirectional labeling JIAN Ping,ZONG Cheng-qing National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China) Abstract:Chinese maximal-length phrases (maximal-length noun phrases and prepositional phrases)possess re- markable linguistic properties.Bidirectional labeling results of Chinese maximal-length phrases obtained using se- quential classifiers reveal complementary properties in both directions.In this paper,both left-right and right-left sequential labeling were employed to identify the Chinese maximal-length noun phrases and prepositional phrases. Then a novel "fork position"based probabilistic algorithm was developed to fuse the bidirectional results.Experi- ments were carried out on the Penn Chinese Treebank,a segmented,part-of-speech tagged,and fully bracketed corpus.The results confirmed that the proposed algorithm is able to effectively exploit the complementary strengths of the two directions. Keywords:maximal-length noun phrase identification;prepositional phrase identification;sequence labeling;bidi- rectional labeling;fork position 组块分析(chunking)是自然语言处理一个重要 自动文摘等其他自然语言处理任务提供帮助, 的子任务,它将句子切分为结构相对独立而且互不 最长名词短语(maximal-length noun phrase, 重叠的组块(短语),以降低完全句法分析的难度. MNP)和介词短语(prepositional phrase,PP)是2种 实际上,与基本短语相比,如果能雅确地分离出句子 重要的、研究较多的短语类型.实际上,介词短语也 中的最长短语成分,将更大程度地降低完全句法分 可以有最长和最短之分,但是由于介词短语的嵌套 析的歧义.所谓最长短语,是指不被其他任何相同类 在汉语句子中比较少见(据统计,宾州中文树库 型短语所包含的短语.它与最短(基本)短语相对, V5.011中共有5.28%的介词短语具有嵌套现象), 内部可包含多种成分结构,是一个完整的语义单元. 最长介词短语(maximal-length prepositional phrase, 除了作为完全句法分析的预处理以外,最长短语识 MPP)和一般介词短语(PP)通常不做区分.本文以 别后得到的清晰的句子结构框架还将为机器翻译、 汉语最长名词短语和介词短语的识别为任务,并在 以下章节中用MNP和PP分别表示这2种短语.本 收稿日期:200908-28. 基金项目:国家自然科学基金资助项目(60736014、90820303);“十一 文中的PP严格来说是指MPP. 五”国家科技支撑计划项目(2006BAH03B02):国家“863” 识别MNP和PP的传统方法是估计短语的边界 计划资助项目(2006AA0101084):中国新加坡数字媒体研 究院资助项目. 概率分布[2).而已有实验结果证明这类方法通常 通信作者:鉴萍.E-mail:pjian@nlpr.ia.ac,cm 只有加入了规则或语言知识才能取得较好的效
第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 ·407· 果3].原因是这类短语具有比基本短语等其他类 注结果来识别汉语MNP和PP.首先,通过对汉语语 型的短语更复杂的结构,特别是对汉语来说.汉语的 法现象的初步考察,发现采用基于分类器的确定性 短语套叠现象比较普遍,一个某种类型的最长短语 标注方法进行双向标注,其结果可以体现汉语句子 可以包含其他所有类型的短语成分,甚至可以包含 在2个方向上的互补性.据此,使用短语级融合策略 一个从句.而且它们具有长距离的依存关系,仅依赖 融合该双向结果,但同时证明使用位置级投票结果 边界信息会带来更多歧义.所以研究者们起初都是 的短语级融合在基于历史的标注系统中并不能得到 试图从最长短语的内部结构或其所处的外部环境寻 很好的效果.因此,提出了一种基于“分歧点”的概 找规律,判定它的边界.这需要耗费一定的时间和人 率融合算法,以实验证明这一融合算法能够发掘这 力来熟悉该种语言的短语特性. 2个方向的互补特性,并得到较好的识别精度, 近些年来,采用序列标注模型和复杂机器学习 1 汉语中的特殊语法现象 方法,t如HMMs(hidden Markov models)、SVMs(up port vector machines)CRFs conditional random 汉语不是严格具有中心词方向性(head-direct- fields)等进行组块分析,特别是基本名词短语的识 d)的语言.这给从单一方向进行汉语句法分析带 别,取得了很大的成功[6).作为相似任务,人们也 来了困难.但是如果把组块分析作为完全句法分析 试图将最长短语的识别看作一个序列标注问题,利 的前处理,这一问题将会得到缓解.因为与很多印欧 用机器学习方法提高识别系统的可移植性.文献 语言(如英语)不同,大多数的汉语短语是具有中心 [9]将基于SVM分类器的序列标注算法作为其汉 词方向性的们.例如,汉语名词短语以名词为中心 语MNP识别系统的基线方法,通过加入扩充组块特 词,中心词一般在短语尾部,而英语名词短语的中心 征和分类标点特征来提高识别精度.其基线系统和 词位置要灵活一些.图1给出了2个例子,中心词用 改进系统分别取得了87.01%和89.66%的F,值性 下划线标出, 能.文献[10]使用CRFs进行汉语MNP的标注,其 一般人的看法 二阶模型对长度大于4个词的复杂MNP的识别能 the view of average person 力达到了70.3%.这些工作证明了序列标注算法对 政府和军队邈导人 the government and army leaders 最长短语的识别同样是有效的,但与基本短语相比, 识别性能要差很多.主要原因是基于焦点词周围有 图1名词短语及其中心词举例 限特征信息的序列标注模型很推捕捉最长短语内部 Fig.1 Examples of Chinese NP and their heads 的长距离关联.需要根据语言本身的特性选择合适 据统计,宾州中文树库V5.0的83065个MNP 的标注算法和识别策略。 中约有97.2%是以最后一个词为中心词的.极少数 输出级的系统融合技术已被广泛用于提高基本 是以成对标点(如括号)或词“等”为中心词.另外, 短语识别系统的性能?,12],多是采用投票的方法 汉语名词短语中频繁使用的结构助词“的”也通常 从多个系统输出结果中产生出一个最好的结果.文 位于短语的后半部分,特别是对长短语来说, 献[7]和[11]在序列的每一个位置上进行投票.因 可以肯定,如果采用基于历史标注结果的决策 为只考虑某一位置上的最好结果,这类方法有可能 模型,句子中的名词和助词“的”必能在该模型由右 生成不合法的输出.文献[12]提出了基于句子和基 至左(即反向)对MNP进行标注时起到指导作用, 于短语的投票方法,拥有最多在位置级投票中获胜 减少判定短语左边界时的歧义.理论上讲,在基于历 的标记的句子级/短语级候选将作为最后输出,候选 史的标注模型中,汉语MNP的反向标注结果要好于 标记序列的合法性可以保证融合结果的合法性.文 正向标注结果 献[12]还以实验证明了以上所述3类融合策略中, 但这并不表明MNP的正向标注没有可取之处, 短语级融合达到了基本短语识别的最好效果.另外, 些冠词和形容词可以作为名词短语的起始标志. 当候选系统数量较少或候选结果得到的票数相等 对于图2中的第1个例子,如果从右向左进行判别, 时,可使用加法准则、乘法准则等概率融合策略代替 标注器可能会受动词“违背”的影响,把“约定”判定 投票,其前提是可以获得各个候选结果的条件后验 为短语的左边界(名词短语常在动词后面做动词的 概率, 宾语).而从左向右标注则更有可能正确识别左边 本文将选择合适的序列标注算法,并融合正向 界“这”,因为语料中限定词(POS(part of speech)标 (由左至右)和反向(由右至左)2个方向的序列标 记为DT)常作为名词短语的起始词.同理,图2第2
·408 智能系统学报 第4卷 个例子中的形容词“惟一”(POS标记为刀)可以作 结点(标记)之间存在一阶马尔可夫性,每一个标注 为正向标注的标志词, 位置(y:)的状态只与前一个位置(:-1)有关.各标 这种违背约定的行为 注位置之间更紧密的关联需要使用高阶的马尔可夫 DT M VV NN DEC NN 依赖模型.例如在二阶CRF模型中,以组块分析为 惟·有资格在欧盟内部发行欧元的机构 例,位置i上的输出可表示为y:=t-1t:,t:-1和t:分 JJ VE NN P NR NN VV NN DEC NN 别是i-1和i位置的组块标记.马尔可夫依赖存在 图2汉语名词短语起始位置的限定词和形容词 于标记组-2t-1和-1t:之间,即y-1=t-2t-1 Fig.2 Determiner and adjective at the beginning of Chinese 与基于CRFs的判别式模型不同,使用序列分 NPs 类器的标注算法本质上是一个确定性模型.它将序 汉语PP以介词为中心词并且中心词多位于短 列标注看作一串分类问题,使用分类器为每一个位 语首(在宾州中文树库中这一比例为98.21%),特 置选择最优标注结果,以单个位置上的局部最优近 殊情况是修饰介词中心词的副词等会出现在介词的 似全局最优.给定当前标注状态c,位置i的最优预 前面.因此,介词是PP识别的一个最明显标志,将 测为 指引标注器正确判断PP的右边界.这也证明了对 y:=arg maxp(yl c,i). 汉语PP的正向标注效果要好于反向标注。 c通常表示为一组当前标注时刻的上下文特征.因 反向标注汉语PP也有可以捕捉的标志词,如 为算法在标注的每一步都做出决策,标注状态确定 表方位的PP“在…上”和“当…时”中的方位词“上” 性地传递,后续的决策可以使用前面已产生的所有 和“时”.另一个反向标注具有的优势是它可以避免 正向标注对PP右边界后面第一个词的过分依赖. 标注结果,即c可以包含y-1,y:-2,…,o·各种分类 算法里,SVMs在序列标注模型中应用最多同时也 因为语料中介词短语常出现在动词前面,所以正向 具有较好的效果] 标注器可能会直到遇见动词才确定短语的右边界, 基于CRFs的标注模型和基于SVMs的标注模 造成标注错误.反向标注则不会出现这样的问题。 型都有很好的特征表达能力.CRF模型的优点是可 综上所述,基于历史特征的标注模型对汉语 以得到全局最优解,但同时也导致其计算因子之间 MNP或PP正反2个方向的识别能力有一定的差 具有不确定性,算法不能很好地捕捉序列中的长距 异.但由于汉语本身的特点,这2个优劣不同的结果 离关联.使用高阶模型可以起到一定的缓和作用,但 之间仍具有互补性.而且在理论上,随着短语长度和 相应的计算消耗也会急剧增加.与此相比,基于 内部依存关系距离的增长,这一互补性也将增强.基 SVMs的确定性模型因为可以参考已有标注结果, 本短语因为结构简单,缺乏能使不同方向标注结果 更易于发现序列元素之间的依存关系,贴合识别汉 产生较大差异的长距离依存歧义,所以其双向标注 语最长短语所需要的“基于历史特征的标注模型” 结果的差异较小,互补性也较弱.文献[7]的实验结 在此类模型中,已有标注历史是以特征的形式应用 果和文献[14]的预备实验结果显示了这一特点在 于当前决策,历史标记元数的增长不会给算法带来 基本名词短语分析任务上的体现, 过多计算负担.因此,结合上一节对汉语最长短语特 2 选择合适的序列标注方法 点的分析,选择基于SVM分类器的确定性标注模型 进行汉语MNP和PP的识别. 判别式的(如基于MEMM(maximal entropy Markov model)或CRFs)序列标注算法和基于分类 3 基于“分歧点”的概率融合 器(如最大熵模型或SVMs)的序列标注算法都是自 然语言处理任务中常用的序列标注方法[78,12,151] 以加法准则为例,常用的分类器融合策略可用下 式表示「(这里仅以等类别先验概率融合为例): 基于CRFs的序列标注[8]以兼具生成式模型和 R 序列分类器模型的优点著称,可以使用观测序列的 o=arg max∑P(0;|ok) 任何特征并搜索全局最优标注结果.在线性链CRF 式中:0是各分类器中待分类的模式.若K个子分类 模型中,给定观测序列x的最大概率标记序列为 器给出的后验概率的加和最大,则该类别作为最后 y=arg maxpa(J|x)=arg max入∑f(y,x,i). 输出.将加法准则应用到基于分类器的双向序列标 式中:条件概率p(ylx)为全局特征向量∑f(y,x, 注问题,位置i的最佳输出标记为 )的A加权,i表示标注位置.CRFs假设在各个状态 =argmax[P(yl cf)+P(yl c)].(1)
第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 ·409· 式中:c⊙表示某一特定方向的标注器在位置i的分 不能作为正向标注器选择y而不选择的依据.以 析状态,包含取自观测序列的静态特征和取自已标 一对用于短语标注的标记序列为例: 注历史的动态特征,它作为序列分类器的输人;下标 正向:00B I f和b分别表示正向(forwards)和反向(backwards); 和y分别是正向标注器和反向标注器在位置i的 反向:0BII 输出标记类别. i-1 ii+l 当子分类器的个数为2时,上述加法准则可以 其中:“B”(begin)表示一个短语的起始位置,“I” 等价为减法形式.同时我们引入量E来分解原有的 (inside)表示短语内部除起始位置以外的位置,“0” 最大化问题: (outside)表示短语外部.在正向分析中标记为B E(y)=P(I c)-P(I c), 的类别信任度为P(B10)-P(II0)(假设只使用前 E()P(cf)-P(I c). (2) 一个标注结果):同样在反向分析中标记为I的信任 式中:y和,中使E(y)较大者作为当前位置的输出 度为P(III)-P(B10).显然,概率P(IIO)不具有 标记.实际上,E(y)在这里表达了标记的类别信任 比较意义,因为在该标注体系中串“O”是不合法 度,即分类器有多大把握选择当前输出类别而不是 的,P(II0)接近于0. 其他类别(如另一个分类器给出的候选类别): 由以上分析可以看出,在基于历史的双向标注 在位置级序列标注融合策略中,每个位置上的 系统中,沿某一方向第一个与另一方向标注结果不 标记是分别计算的: 同的那个位置,才能真实反映该方向整个标记序列 :=arg maxE:(y), (或一个短语片段)的信任度.将这个位置称作“分 Y=开h 并排列成最后的标记序列.而基于句子和基于短语 歧点”(fork position),并提出了一种基于“分歧点” 的融合试图寻找“一列”最好的标注结果: 的概率融合算法, 5=aU》: 图3为一个双向短语标注示意图,少和分别 此类方法依然使用每个位置的融合结果: 是正向和反向标记序列图中黑色圆表示识别出的 短语起始位置(标记为B的位置);灰色圆表示识别 (0)=∑4: 出的短语内部(标记为I的位置);白色圆表示短语 式中: 外部(标记为0的位置).虚线划出的部分是覆盖某 y:=arg maxe:(y); 一片段上正反2个方向有效短语标记(即B和I)的 4:= Y=YuTh 最小区域,称之为有效区域,并以此作为融合单位. 0. otherwise. 所以,所要给出的融合算法也是短语级的, 最终结果由候选标记序列(整个句子或一个短语片 x.○-○0○○○○- 段)所含有的在位置级融合中获胜的标记的个数 工4:决定 O+O○O*●0*0O- 但是,上述区域级的融合策略并不适于基于历 史特征的标注模型融合.原因是基于历史的概率模 .-○-○●●●●●*○ 型中某一位置的决策与已标注历史有关,动态特征 ia in 的不一致导致分析状态不一致,相同位置上不同标 图3基于“分歧点”的融合算法示意图 注器输出结果之间是“不公平”竞争.例如,一个错 Fig.3 An illustration of the fork position based algorithm 误的短语识别结果,可能因为后续标记与较早的标 图中和标出的分别是正向标注的分歧点和 记之间具有更小的歧义而获胜. 反向标注的分歧点.整个有效区域内某方向标记序 从另一个角度解释这个问题,把式(2)重写为 列的信任度由该方向分歧点的标记类别信任度来决 E()=P(Ic4,y-)-P(1c4o,-), 定: E()=P(Ico,)-P(lc0,). E(y)=P(l cf)-p(I cfia)), 原标注器分析状态c分解为静态部分c'和动态部分 E(yb)=P(1c6m)-P(y|cm)). y)—2个方向上的已有标注结果(“-”和“+” 因为r和i分别是2个候选序列由左至右和由右至 分别表示i左边和右边的位置).如果y-)与反向 左发生分歧的位置,所以有y)=y-)和y+)= 标记序列中的y-)不一致,概率P(yIc0,y-) y+),分歧点标记的后验概率具有融合意义.上述
·410 智能系统学报 第4卷 融合例子相应地转化为比较P(010)-P(B10) 的距离差作为类别信任度用于融合, (正向,位置i-1)和P(I1I)-P(B1I)(反向, YamCha2]是一个基于SVM分类器的开源序 位置). 列标注工具,因为可以重定义静动态特征并能输出 因为基于历史特征的标注模型对汉语MNP或 类别打分,所以将其作为短语标注器,并使用SVMs PP正反2个方向的识别能力有一定的差异,使用加 的二阶多项式核函数,惩罚参数c设置为0.01. 权融合(权值ω≥0),得到最终的融合算法为 子系统的权值通过在语料库上进行格点搜索 y=arg maxωE(J): (grid search)获得.为简单起见,将反向标注器的权 Y=yKb 值0,固定为1.00,只遍历正向标注器的权值0,搜 4 实验和结果分析 索范围是0.30~2.50,间隔为0.05.所有测试集使 4.1实验设置 用语料库给出的标准分词和POS标注, 实验在宾州中文树库V5.0上进行,使用所有 4.2主要实验结果 《新华日报》语料.该语料分布在698个原始文件 表1和表2分别是上述各系统在9493句语料 中,共9493个句子.本文从中提取出了24436个 上进行十折交叉检验得到的对MNP和PP识别的平 MNP和8282个PP(并列PP如“从…到…”在宾州 均F1值(F1 score).w,固定为1.00时,o:对MNP 中文树库中是以一个最长介词短语出现的,但是考 和PP分别取为0.55和2.00(因为2融合使用的 虑到它表示的是2个相互独立的PP,因此将其看作 是两类别距离差,权值做了相应的映射).融合结果 2个PP).由于对只含有一个词的MNP的识别没有 一栏括号中表示的是融合后F,值与单向结果中较 太大意义,因此本文的实验不包括单个词的MNP; 高值的差 但是单个词的PP多是由于省略了介词中心词,而 表1MNP识别的融合结果(w=0.55)(F,值)】 且数量很少,所以在实验中没有将它们剔除. Table 1 Combining results for MNPs(=0.55)(F score)% 实验使用I0B2标注体系0],并添加了2个标 融合算法 正向 反向 融合 记符号:“H”和“S”,用来区分短语中心词和非中心 Phrase-based 83.22 85.93 86.09(+0.16) 词.这样,共有5类标记用于最长短语的识别: M1融合 83.22 85.93 86.94(+1.01) “BH”、“BS”、“H”、“S”和“O”. 实验主要比较以下4个标注和融合系统, M2融合 83.1485.86 86.91(+1.05) 1)单向标注:包括对MNP和PP的正向和反向 标注.直接使用序列标注器的输出结果,静态特征窗 表2PP识别的融合结果(w=2.00)(F1值) 口均设为9,动态特征使用五元历史标注结果,即当 Table 2 Combining results for PPs (=2.00)(F score)% 前位置之前的4个历史标记.这一值是根据语料中 融合算法 正向 反向 融合 MNP和PP的平均长度(分别是5.40个词和5.38个 Phrase-based 84.3674.47 84.65(+0.29) 词)选取的, M1融合 84.36 74.47 85.98(+1.62) 2)基于短语的融合算法(phrase-based):实现了 M2融合 83.8474.53 85.51(+1.67) 文献[11]提出的基于短语的融合策略.因为只有2 个候选系统,每个位置上的投票由加法准则代替.当 可以看出,无论是对MNP还是PP,2个方向的 这2个候选序列所含有的在位置级融合中获胜的标 标注结果之间都有明显的差异.MNP的反向标注性 记个数相等时,将退而比较这2个候选序列的各标 能好于正向标注,PP的正向标注性能好于反向标 记后验概率和. 注.相比之下,PP的双向标注结果差别更大,说明介 3)基于“分歧点”的概率融合算法—采用 词对PP的识别具有更强的引导作用.M2融合使用 “one vs..others”多类分类策略(M1融合):SVM分 “pair-wise”多类分类策略,不同于基于短语的融合 类器使用“one vs.others”模式时,类别打分为该类 和M1融合使用的“one vs..others”策略,所以单向 别到分类面的距离.利用逻辑回归方法,将这些距离 标注结果有细微差别 转化为类别的后验概率用于融合. 比较这3种融合方法,可以发现基于短语的融 4)基于“分歧点”的概率融合算法一采用 合对识别性能有一定的提高,但幅度很小(分别为 “pair-wise”多类分类策略(M2融合):分类器使用 0.16%和0.29%).本文提出的基于“分歧点”的融 “pair-wise”模式时,分类的依据是两两类别的分类 合算法可以将MNP和PP的识别精度分别提高 情况.本文直接提取2个候选类别在二类分类器中 1.05%和1.67%.M1和M2的融合能力基本相似
第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 411· M2融合对精度的提高相对更多一些,原因可以解 前一个位置的标注,将其与使用2元标注历史的 释为两类分类器的判别结果更直接体现相关类别之 SVMs一起比较,即:CRFs的阶数=n-1.CRF标 间的差距,并可能排除其他类别的干扰.但因为 注器采用开源工具CRF+[2]和Pocket CRF](用 “pair-wise”单向分类结果稍差,M2融合结果反不及 于高阶CRFs的训练与测试).实验同时比较了 M1融合. SVMs和CRFs在相同处理器条件下的训练和测试 文献[3]利用短语边界分布概率和丰富语言学 时间 知识识别汉语MNP,得到了83.8%的识别精度(F, 表4与基于CRFs的序列标注结果比较 值).虽然实验语料不一致,但仍能说明本文所使用 Table 4 Comparisons with CRF-based labeling results 的机器学习方法对汉语MNP的识别是有效的,而且 标注 正向/反向/ 训练时测试时 具有更好的可移植性.文献[9]是使用SVM分类器 历史元 算法 % % 间/min 间/s 进行汉语MNP识别的相似工作,其改进系统对精度 n=1 SVMs 76.86 76.86 387 42 的提高主要在于使用了更细致的标点POS标注.而 h=2 SVMs 80.78 84.04 136 19 本文的标注系统本身已使用了词形特征,所以重复 CRFs 78.77 78.84 10 <1 该方法在本实验语料上精度没有得到明显的提高. n=3 SVMs 80.94 83.93 139 20 4.3分析 CRFs 79.94 79.83 65 4 通过与其他识别任务和序列标注技术的比较, n=4 SVMs 80.77 84.26 131 20 本节进一步分析汉语MNP和PP的特性及所述标注 CRFs 79.70 79.53 275 12 和融合策略的适应性.以下实验使用单一的训练和 n=5 SVMs80.9484.62 147 21 CRFs80.2080.081320 51 测试集,原9493句中的前7493句用来训练标注模 型,最后的1000句用来测试 从标注方向角度来看,基于CRFs的系统基本 首先将基于SVMs的标注方法用于基本名词短 不具有2个方向上的一致差异性.基于SVMs的系 语(base NP)的识别,并用基于“分歧点”的方法进 统则除了一元模型外都有明显的方向差异,而且平 行融合.考虑到基本名词短语的平均长度,除五元历 均识别性能要好于CRFs.从历史元角度来看,阶数 史特征模型外,还给出了使用三元历史的标注结果 的增加似乎不能改变CRF系统对MNP识别的现 状,且因复杂度的增加,算法的训练和测试时间也迅 (n表示历史元数).同样使用F,值作为评价标准, 结果列于表3. 速上升.而使用历史特征的SVM系统则具有平稳的 表3对基本名词短语的识别和融合结果(F1值) 消耗.这些都证明了基于SVM分类器的确定性标注 Table 3 Results for base NP identification (F score ) 模型更适合于汉语最长短语的识别: 标注对象 最后,考察上述系统双向识别结果的互补能力, 历史元 正向 反向 融合 以短语识别的召回率(recall)为评价标准.“理想” Base NP n=3 89.25 89.20 89.49 结果是指双向标注结果的并集中所含正确短语占语 n=5 89.2589.03 89.40 料库中短语的比例.SVM分类器对各种短语均使用 MNP n=5 80.9484.62 85.99 5元标注历史,CRFs阶数为4. 从实验结果看出,无论是使用三元还是五元模 表5双向标注的互补能力(召回率) 型,正反2个方向的基本名词短语识别结果之间没 Table 5 Complementary ability of bidirectional labeling 有明显差别,这与文献[7]和文献[14]给出的结论 (Recall) % 一致,而且多元的历史标注特征甚至可能增加识别 标注 标注 正向 反向 融合 算法 对象 理想 的歧义.对其双向结果进行融合后,精度也没有明显 提高,这证明基本名词短语识别在正反2个方向上 SVMs MNP 81.93 85.05 86.70 89.36 的互补性较弱.最长短语因具有长距离依存关系,其 PP 82.78 73.56 85.35 89.37 边界的确定更依赖动态的标记特征,所以有显著的 NP 88.39 88.68 88.78 90.29 融合效果 CRFs MNP80.20 80.08 80.57 实验还将基于SVMs的确定性方法与基于 CRFs的判别式方法进行了比较,二者对MNP的单 PP 82.2081.97 82.57 向标注结果列于表4.“n=1”表示算法不使用任 虽然基于SVMs的标注系统对MNP的正向标 何已标注结果.具有一阶马尔可夫性的CRFs考虑 注结果比反向标注差3个百分点,但它的加入却能
·412 智能系统学报 第4卷 使正确识别结果的含量接近90%,比反向结果还要 [5]于俊伟,黄德根.汉语介词短语的自动识别[J].中文信 高出4个百分点,对PP更是如此.这证实了基于历 息学报,2005,19(4):17-23 史的分类器模型能够体现最长短语识别在汉语句子 GAN Junwei,HUANG Degen.Automatic identification of 正反2个方向上的互补性,基于“分歧点”的融合算 Chinese prepositional phrase[J].Journal of Chinese Infor- mation Processing,2005,19(4):17-23. 法能部分地发掘这一特性,同时也显示出融合精度 [6]ZHOU Guodong,SU Jian,TEY Tongguan.Hybrid text 依然还有很大的提升空间 chunking[C]//Proceedings of the 2nd Workshop on Learn- 同样是使用基于SVMs的标注系统,NP的理想 ing Language in Logic and the 4th Conference on Computa- 融合精度与单向精度的差别不大,能够改进融合算 tional Natural Language Learning.Lisbon,Portugal,2000: 法的余地很小.而对于CRFs系统,其最长短语双向 163-165. 标注结果基本不具有互补能力 [7]KUDO T,MATSUMOTO Y.Chunking with support vector machines[C]//Proceedings of the North American Chapter 5 结束语 of the Association for Computational Linguistics.Pittsburgh, 本论文把广泛用于基本短语识别的基于复杂机 USA,2001:192-199. 器学习方法的序列标注技术用于汉语最长名词短语 [8]SHA Fei,PEREIRA F.Shallow parsing with conditional random fields [C]//Proceedings of the North American 和介词短语的识别,并从任务的语言学特殊性和序列 Chapter of the Association for Computational Linguistics. 标注算法的特点出发考察了算法的适应性.通过理论 Edmonton,Canada,2003:213-220. 分析和实验,证明了基于分类器的确定性标注方法对 [9]BAI Xuemei,LI Jinji,KIM Dongil,et al.Identification of 最长短语的识别是有效的,并且其双向结果有一定的 maximal-length noun phrases based on expanded chunks and 互补性.在此基础上提出的基于“分歧点”的融合算法 classified punctuations in Chinese[C]//Proceedings of In- 恰能发掘它们之间的互补性,并达到较高的融合精 terational Conference on Computer Processing of Oriental 度.本文提出的短语识别策略同样适用于其他具有相 Languages.Singapore,2006:268-276. 似特性的短语或语言,因此具有一定的普遍意义.实 [10]冯冲,陈肇雄,黄河燕,等.基于条件随机域的复杂最 验表明,对汉语MNP和PP双向标注融合方法的研 长名词短语识别[J].小型微型计算机系统,2006,27 (6):1134-1139 究还有很大的探索空间,这也指引我们继续寻找更 FENG Chong,CHEN Zhaoxiong,HUANG Heyan,et al. 有效的融合策略以进一步提高识别精度. Recognition of complex maximal length noun phrase using 参考文献: conditional random fields[J].Mini-Micro Systems,2006 27(6):1134-1139 [1]XUE Nanwen,XIA Fei,CHIOU Fudong,et al.The Penn [11]TJONG KIM SANG E F.Noun phrase recognition by sys- Chinese Treebank:phrase structure annotation of a large tem combination[C]//Proceedings of the North American corpus[J].Natural Language Engineering,2005,11(2): Chapter of the Association for Computational Linguistics. 207-238. Seattle,USA,2000:50-55. [2]李文捷,周明,潘海华,等。基于语料库的中文最长名 [12]CHEN Wenliang,ZHANG Yujie,ISAHARA H.An em- 词短语的自动抽取[C]/计算语言学进展与应用.北 pirical study of Chinese chunking[C]//Proceedings of the 京:清华大学出版社,1995:119-124 Joint Conference of the International Committee on Compu- LI Wenjie,ZHOU Ming,PAN Haihua,et al.Corpus-based tational Linguistics and the Association for Computational maximal-length Chinese noun phrases extraction[C]//Ad- Linguistics.Sydney,Australia,2006:97-104. vances and Applications on Computational Linguistics.Bei- [13]LEE Linshan,LIN Longji,CHEN Kehjiann.An efficient jing:Tsinghua University Press,1995:119-124. natural language processing system specially designed for [3]周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别 the Chinese language [J].Computational Linguistics, [J].软件学报,2000,11(2):195-201 1991,17(4):347-374. ZHOU Qiang,SUN Maosong,HUANG Changning.Auto- [14]WU Yuchieh,YANG Jiechi,LEE Yueshi,et al.Efficient matic identification of Chinese maximal noun phrases[J. and robust phrase chunking using support vector machines Journal of Software,2000,11(2):195-201. [C]//Proceedings of Asia Information Retrieval Symposi- [4]王立霞,孙宏林.现代汉语介词短语边界识别研究[J] um.Singapore,2006:350-361. 中文信息学报,2005,19(3):80-86. [15]RATNAPARKHI A.A maximum entropy model for part-of- WANG Lixia,SUN Honglin.Automatic recognition of prep speech tagging[C]//Proceedings of the Empirical Methods ositional phrases in Chinese[J].Journal of Chinese Infor in Natural Language Processing.New Brunswick,USA mation Processing,2005,19(3):80-86. 1996:133-142
第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 ·413· [16]MCCALLUM A,FREITAG D,PEREIRA F.Maximum entro- [23]QIAN X.Pocket CRF[EB/OL].(2008-08-05)[2009- py Markov models for inforin xtraction and seetio 02-25 ]http://sourceforge.net/projects/pocket-crf-1/ [C]//Proceedings of the International Conference on Machine files/. Learning.Stanford,USA,2000:591-598. 作者简介: [17]TAN Yongmei,YAO Tianshun,CHEN Qing,et al.Ap- 鉴萍,女,1982年生,博士研究 plying conditional random fields to Chinese shallow parsing 生,主要研究方向为自然语言处理、依 [C]//Proceedings of the Conference on Intelligent Text 存句法分析. Processing and Computational Linguistics.Mexico City, Mexico,2005:167-176. [18]宗成庆.统计自然语言处理[M].北京:清华大学出版 社,2008:175-177,179-181. [19]KITTLER J,HATEF M,DUIN R P W,et al.On combi- 宗成庆,男,1963年生,研究员、博 ning classifiers[J].IEEE Transactions on Pattern Analysis 土生导师.中国科学院自动化研究所模 and Machine Intelligence,1998,20(3):226-239. 式识别国家重点实验室副主任,国际学 [20]TJONG KIM SANG E F,VEENSTRA J.Representing text 术期刊EEE Intelligent Systems副主 chunks[C]//Proceedings of European Chapter of the As- 编,清华大学特邀学术顾问和讲座教 sociation for Computational Linguistics.Bergen,Norway, 授,中国科学院研究生院兼职教授,亚 1999:173-179. 洲自然语言处理联合会(AFNP)执行理事,中国人工智能 [21]KUDO T.YamCha:Yet another multipurpose chunk anno- 学会理事及自然语言处理专业委员会副主任,中国中文信息 tator[EB/0L].(200509-05)[2009-02-25].htp:/ 学会理事及机器翻译专业委员会副主任,担任若干国际学术 www.chasen.org/~tAKu/software/yamcha/. 会议的程序委员会主席、委员等职务.主要研究方向为自然 22 KUDO T.CRF++:Yet another CRF toolkit EB/OL]. 语言处理理论与方法、机器翻译、人机对话等技术.作为项目 (2007-03-07)[2009-02-25].htp://cfpp.sourceforge.net/. 负责人承担国家及国际合作项目10余项,申请国家发明专 利多顶.发表学术论文70余篇,出版学术专著1部. 《计算机研究与发展》征订启事 《计算机研究与发展》(Journal of Computer Research and Development)是中国科学院计算技术研究所和中国计 算机学会联合主办、科学出版社出版的学术性刊物,中国计算机学会会刊.主要刊登计算机科学技术领域高水平 的学术论文、最新科研成果和重大应用成果.读者对象为从事计算机研究与开发的研究人员、工程技术人员、各大 专院校计算机相关专业的师生以及高新企业研发人员等. 《计算机研究与发展》于1958年创刊,是我国第一个计算机刊物,现已成为我国计算机领域权威性的学术期刊之 一.并历次被评为我国计算机类核心期刊、“中文重要期刊”和“中国百种杰出学术期刊”.此外,还被《中国学术期刊 文摘》、《中国科学引文索引》、“中国科学引文数据库”、“中国科技论文统计源数据库”、美国工程索引()检索系统、 日本《科学技术文献速报》、俄罗斯《文摘杂志》、英国《科学文摘》(SA)等国内外重要检索机构收录. 国内邮发代号:2654;国外发行代号:M603 国际标准连续出版物号:ISSN1000-239 国内统一连续出版物号:CN11-1777/TP 联系地址:(100190)北京中关村科学院南路6号《计算机研究与发展》编辑部 电 话:+86(10)62620696(兼传真);+86(10)62600350 网 址:http://crad.ict.ac.cn 邮 箱:crad@ict.ac.cn