正在加载图片...
·408 智能系统学报 第4卷 个例子中的形容词“惟一”(POS标记为刀)可以作 结点(标记)之间存在一阶马尔可夫性,每一个标注 为正向标注的标志词, 位置(y:)的状态只与前一个位置(:-1)有关.各标 这种违背约定的行为 注位置之间更紧密的关联需要使用高阶的马尔可夫 DT M VV NN DEC NN 依赖模型.例如在二阶CRF模型中,以组块分析为 惟·有资格在欧盟内部发行欧元的机构 例,位置i上的输出可表示为y:=t-1t:,t:-1和t:分 JJ VE NN P NR NN VV NN DEC NN 别是i-1和i位置的组块标记.马尔可夫依赖存在 图2汉语名词短语起始位置的限定词和形容词 于标记组-2t-1和-1t:之间,即y-1=t-2t-1 Fig.2 Determiner and adjective at the beginning of Chinese 与基于CRFs的判别式模型不同,使用序列分 NPs 类器的标注算法本质上是一个确定性模型.它将序 汉语PP以介词为中心词并且中心词多位于短 列标注看作一串分类问题,使用分类器为每一个位 语首(在宾州中文树库中这一比例为98.21%),特 置选择最优标注结果,以单个位置上的局部最优近 殊情况是修饰介词中心词的副词等会出现在介词的 似全局最优.给定当前标注状态c,位置i的最优预 前面.因此,介词是PP识别的一个最明显标志,将 测为 指引标注器正确判断PP的右边界.这也证明了对 y:=arg maxp(yl c,i). 汉语PP的正向标注效果要好于反向标注。 c通常表示为一组当前标注时刻的上下文特征.因 反向标注汉语PP也有可以捕捉的标志词,如 为算法在标注的每一步都做出决策,标注状态确定 表方位的PP“在…上”和“当…时”中的方位词“上” 性地传递,后续的决策可以使用前面已产生的所有 和“时”.另一个反向标注具有的优势是它可以避免 正向标注对PP右边界后面第一个词的过分依赖. 标注结果,即c可以包含y-1,y:-2,…,o·各种分类 算法里,SVMs在序列标注模型中应用最多同时也 因为语料中介词短语常出现在动词前面,所以正向 具有较好的效果] 标注器可能会直到遇见动词才确定短语的右边界, 基于CRFs的标注模型和基于SVMs的标注模 造成标注错误.反向标注则不会出现这样的问题。 型都有很好的特征表达能力.CRF模型的优点是可 综上所述,基于历史特征的标注模型对汉语 以得到全局最优解,但同时也导致其计算因子之间 MNP或PP正反2个方向的识别能力有一定的差 具有不确定性,算法不能很好地捕捉序列中的长距 异.但由于汉语本身的特点,这2个优劣不同的结果 离关联.使用高阶模型可以起到一定的缓和作用,但 之间仍具有互补性.而且在理论上,随着短语长度和 相应的计算消耗也会急剧增加.与此相比,基于 内部依存关系距离的增长,这一互补性也将增强.基 SVMs的确定性模型因为可以参考已有标注结果, 本短语因为结构简单,缺乏能使不同方向标注结果 更易于发现序列元素之间的依存关系,贴合识别汉 产生较大差异的长距离依存歧义,所以其双向标注 语最长短语所需要的“基于历史特征的标注模型” 结果的差异较小,互补性也较弱.文献[7]的实验结 在此类模型中,已有标注历史是以特征的形式应用 果和文献[14]的预备实验结果显示了这一特点在 于当前决策,历史标记元数的增长不会给算法带来 基本名词短语分析任务上的体现, 过多计算负担.因此,结合上一节对汉语最长短语特 2 选择合适的序列标注方法 点的分析,选择基于SVM分类器的确定性标注模型 进行汉语MNP和PP的识别. 判别式的(如基于MEMM(maximal entropy Markov model)或CRFs)序列标注算法和基于分类 3 基于“分歧点”的概率融合 器(如最大熵模型或SVMs)的序列标注算法都是自 然语言处理任务中常用的序列标注方法[78,12,151] 以加法准则为例,常用的分类器融合策略可用下 式表示「(这里仅以等类别先验概率融合为例): 基于CRFs的序列标注[8]以兼具生成式模型和 R 序列分类器模型的优点著称,可以使用观测序列的 o=arg max∑P(0;|ok) 任何特征并搜索全局最优标注结果.在线性链CRF 式中:0是各分类器中待分类的模式.若K个子分类 模型中,给定观测序列x的最大概率标记序列为 器给出的后验概率的加和最大,则该类别作为最后 y=arg maxpa(J|x)=arg max入∑f(y,x,i). 输出.将加法准则应用到基于分类器的双向序列标 式中:条件概率p(ylx)为全局特征向量∑f(y,x, 注问题,位置i的最佳输出标记为 )的A加权,i表示标注位置.CRFs假设在各个状态 =argmax[P(yl cf)+P(yl c)].(1)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有