第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 411· M2融合对精度的提高相对更多一些,原因可以解 前一个位置的标注,将其与使用2元标注历史的 释为两类分类器的判别结果更直接体现相关类别之 SVMs一起比较,即:CRFs的阶数=n-1.CRF标 间的差距,并可能排除其他类别的干扰.但因为 注器采用开源工具CRF+[2]和Pocket CRF](用 “pair-wise”单向分类结果稍差,M2融合结果反不及 于高阶CRFs的训练与测试).实验同时比较了 M1融合. SVMs和CRFs在相同处理器条件下的训练和测试 文献[3]利用短语边界分布概率和丰富语言学 时间 知识识别汉语MNP,得到了83.8%的识别精度(F, 表4与基于CRFs的序列标注结果比较 值).虽然实验语料不一致,但仍能说明本文所使用 Table 4 Comparisons with CRF-based labeling results 的机器学习方法对汉语MNP的识别是有效的,而且 标注 正向/反向/ 训练时测试时 具有更好的可移植性.文献[9]是使用SVM分类器 历史元 算法 % % 间/min 间/s 进行汉语MNP识别的相似工作,其改进系统对精度 n=1 SVMs 76.86 76.86 387 42 的提高主要在于使用了更细致的标点POS标注.而 h=2 SVMs 80.78 84.04 136 19 本文的标注系统本身已使用了词形特征,所以重复 CRFs 78.77 78.84 10 <1 该方法在本实验语料上精度没有得到明显的提高. n=3 SVMs 80.94 83.93 139 20 4.3分析 CRFs 79.94 79.83 65 4 通过与其他识别任务和序列标注技术的比较, n=4 SVMs 80.77 84.26 131 20 本节进一步分析汉语MNP和PP的特性及所述标注 CRFs 79.70 79.53 275 12 和融合策略的适应性.以下实验使用单一的训练和 n=5 SVMs80.9484.62 147 21 CRFs80.2080.081320 51 测试集,原9493句中的前7493句用来训练标注模 型,最后的1000句用来测试 从标注方向角度来看,基于CRFs的系统基本 首先将基于SVMs的标注方法用于基本名词短 不具有2个方向上的一致差异性.基于SVMs的系 语(base NP)的识别,并用基于“分歧点”的方法进 统则除了一元模型外都有明显的方向差异,而且平 行融合.考虑到基本名词短语的平均长度,除五元历 均识别性能要好于CRFs.从历史元角度来看,阶数 史特征模型外,还给出了使用三元历史的标注结果 的增加似乎不能改变CRF系统对MNP识别的现 状,且因复杂度的增加,算法的训练和测试时间也迅 (n表示历史元数).同样使用F,值作为评价标准, 结果列于表3. 速上升.而使用历史特征的SVM系统则具有平稳的 表3对基本名词短语的识别和融合结果(F1值) 消耗.这些都证明了基于SVM分类器的确定性标注 Table 3 Results for base NP identification (F score ) 模型更适合于汉语最长短语的识别: 标注对象 最后,考察上述系统双向识别结果的互补能力, 历史元 正向 反向 融合 以短语识别的召回率(recall)为评价标准.“理想” Base NP n=3 89.25 89.20 89.49 结果是指双向标注结果的并集中所含正确短语占语 n=5 89.2589.03 89.40 料库中短语的比例.SVM分类器对各种短语均使用 MNP n=5 80.9484.62 85.99 5元标注历史,CRFs阶数为4. 从实验结果看出,无论是使用三元还是五元模 表5双向标注的互补能力(召回率) 型,正反2个方向的基本名词短语识别结果之间没 Table 5 Complementary ability of bidirectional labeling 有明显差别,这与文献[7]和文献[14]给出的结论 (Recall) % 一致,而且多元的历史标注特征甚至可能增加识别 标注 标注 正向 反向 融合 算法 对象 理想 的歧义.对其双向结果进行融合后,精度也没有明显 提高,这证明基本名词短语识别在正反2个方向上 SVMs MNP 81.93 85.05 86.70 89.36 的互补性较弱.最长短语因具有长距离依存关系,其 PP 82.78 73.56 85.35 89.37 边界的确定更依赖动态的标记特征,所以有显著的 NP 88.39 88.68 88.78 90.29 融合效果 CRFs MNP80.20 80.08 80.57 实验还将基于SVMs的确定性方法与基于 CRFs的判别式方法进行了比较,二者对MNP的单 PP 82.2081.97 82.57 向标注结果列于表4.“n=1”表示算法不使用任 虽然基于SVMs的标注系统对MNP的正向标 何已标注结果.具有一阶马尔可夫性的CRFs考虑 注结果比反向标注差3个百分点,但它的加入却能