第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 ·407· 果3].原因是这类短语具有比基本短语等其他类 注结果来识别汉语MNP和PP.首先,通过对汉语语 型的短语更复杂的结构,特别是对汉语来说.汉语的 法现象的初步考察,发现采用基于分类器的确定性 短语套叠现象比较普遍,一个某种类型的最长短语 标注方法进行双向标注,其结果可以体现汉语句子 可以包含其他所有类型的短语成分,甚至可以包含 在2个方向上的互补性.据此,使用短语级融合策略 一个从句.而且它们具有长距离的依存关系,仅依赖 融合该双向结果,但同时证明使用位置级投票结果 边界信息会带来更多歧义.所以研究者们起初都是 的短语级融合在基于历史的标注系统中并不能得到 试图从最长短语的内部结构或其所处的外部环境寻 很好的效果.因此,提出了一种基于“分歧点”的概 找规律,判定它的边界.这需要耗费一定的时间和人 率融合算法,以实验证明这一融合算法能够发掘这 力来熟悉该种语言的短语特性. 2个方向的互补特性,并得到较好的识别精度, 近些年来,采用序列标注模型和复杂机器学习 1 汉语中的特殊语法现象 方法,t如HMMs(hidden Markov models)、SVMs(up port vector machines)CRFs conditional random 汉语不是严格具有中心词方向性(head-direct- fields)等进行组块分析,特别是基本名词短语的识 d)的语言.这给从单一方向进行汉语句法分析带 别,取得了很大的成功[6).作为相似任务,人们也 来了困难.但是如果把组块分析作为完全句法分析 试图将最长短语的识别看作一个序列标注问题,利 的前处理,这一问题将会得到缓解.因为与很多印欧 用机器学习方法提高识别系统的可移植性.文献 语言(如英语)不同,大多数的汉语短语是具有中心 [9]将基于SVM分类器的序列标注算法作为其汉 词方向性的们.例如,汉语名词短语以名词为中心 语MNP识别系统的基线方法,通过加入扩充组块特 词,中心词一般在短语尾部,而英语名词短语的中心 征和分类标点特征来提高识别精度.其基线系统和 词位置要灵活一些.图1给出了2个例子,中心词用 改进系统分别取得了87.01%和89.66%的F,值性 下划线标出, 能.文献[10]使用CRFs进行汉语MNP的标注,其 一般人的看法 二阶模型对长度大于4个词的复杂MNP的识别能 the view of average person 力达到了70.3%.这些工作证明了序列标注算法对 政府和军队邈导人 the government and army leaders 最长短语的识别同样是有效的,但与基本短语相比, 识别性能要差很多.主要原因是基于焦点词周围有 图1名词短语及其中心词举例 限特征信息的序列标注模型很推捕捉最长短语内部 Fig.1 Examples of Chinese NP and their heads 的长距离关联.需要根据语言本身的特性选择合适 据统计,宾州中文树库V5.0的83065个MNP 的标注算法和识别策略。 中约有97.2%是以最后一个词为中心词的.极少数 输出级的系统融合技术已被广泛用于提高基本 是以成对标点(如括号)或词“等”为中心词.另外, 短语识别系统的性能?,12],多是采用投票的方法 汉语名词短语中频繁使用的结构助词“的”也通常 从多个系统输出结果中产生出一个最好的结果.文 位于短语的后半部分,特别是对长短语来说, 献[7]和[11]在序列的每一个位置上进行投票.因 可以肯定,如果采用基于历史标注结果的决策 为只考虑某一位置上的最好结果,这类方法有可能 模型,句子中的名词和助词“的”必能在该模型由右 生成不合法的输出.文献[12]提出了基于句子和基 至左(即反向)对MNP进行标注时起到指导作用, 于短语的投票方法,拥有最多在位置级投票中获胜 减少判定短语左边界时的歧义.理论上讲,在基于历 的标记的句子级/短语级候选将作为最后输出,候选 史的标注模型中,汉语MNP的反向标注结果要好于 标记序列的合法性可以保证融合结果的合法性.文 正向标注结果 献[12]还以实验证明了以上所述3类融合策略中, 但这并不表明MNP的正向标注没有可取之处, 短语级融合达到了基本短语识别的最好效果.另外, 些冠词和形容词可以作为名词短语的起始标志. 当候选系统数量较少或候选结果得到的票数相等 对于图2中的第1个例子,如果从右向左进行判别, 时,可使用加法准则、乘法准则等概率融合策略代替 标注器可能会受动词“违背”的影响,把“约定”判定 投票,其前提是可以获得各个候选结果的条件后验 为短语的左边界(名词短语常在动词后面做动词的 概率, 宾语).而从左向右标注则更有可能正确识别左边 本文将选择合适的序列标注算法,并融合正向 界“这”,因为语料中限定词(POS(part of speech)标 (由左至右)和反向(由右至左)2个方向的序列标 记为DT)常作为名词短语的起始词.同理,图2第2