正在加载图片...
第5期 鉴萍,等:基于双向标注融合的汉语最长短语识别方法 ·409· 式中:c⊙表示某一特定方向的标注器在位置i的分 不能作为正向标注器选择y而不选择的依据.以 析状态,包含取自观测序列的静态特征和取自已标 一对用于短语标注的标记序列为例: 注历史的动态特征,它作为序列分类器的输人;下标 正向:00B I f和b分别表示正向(forwards)和反向(backwards); 和y分别是正向标注器和反向标注器在位置i的 反向:0BII 输出标记类别. i-1 ii+l 当子分类器的个数为2时,上述加法准则可以 其中:“B”(begin)表示一个短语的起始位置,“I” 等价为减法形式.同时我们引入量E来分解原有的 (inside)表示短语内部除起始位置以外的位置,“0” 最大化问题: (outside)表示短语外部.在正向分析中标记为B E(y)=P(I c)-P(I c), 的类别信任度为P(B10)-P(II0)(假设只使用前 E()P(cf)-P(I c). (2) 一个标注结果):同样在反向分析中标记为I的信任 式中:y和,中使E(y)较大者作为当前位置的输出 度为P(III)-P(B10).显然,概率P(IIO)不具有 标记.实际上,E(y)在这里表达了标记的类别信任 比较意义,因为在该标注体系中串“O”是不合法 度,即分类器有多大把握选择当前输出类别而不是 的,P(II0)接近于0. 其他类别(如另一个分类器给出的候选类别): 由以上分析可以看出,在基于历史的双向标注 在位置级序列标注融合策略中,每个位置上的 系统中,沿某一方向第一个与另一方向标注结果不 标记是分别计算的: 同的那个位置,才能真实反映该方向整个标记序列 :=arg maxE:(y), (或一个短语片段)的信任度.将这个位置称作“分 Y=开h 并排列成最后的标记序列.而基于句子和基于短语 歧点”(fork position),并提出了一种基于“分歧点” 的融合试图寻找“一列”最好的标注结果: 的概率融合算法, 5=aU》: 图3为一个双向短语标注示意图,少和分别 此类方法依然使用每个位置的融合结果: 是正向和反向标记序列图中黑色圆表示识别出的 短语起始位置(标记为B的位置);灰色圆表示识别 (0)=∑4: 出的短语内部(标记为I的位置);白色圆表示短语 式中: 外部(标记为0的位置).虚线划出的部分是覆盖某 y:=arg maxe:(y); 一片段上正反2个方向有效短语标记(即B和I)的 4:= Y=YuTh 最小区域,称之为有效区域,并以此作为融合单位. 0. otherwise. 所以,所要给出的融合算法也是短语级的, 最终结果由候选标记序列(整个句子或一个短语片 x.○-○0○○○○- 段)所含有的在位置级融合中获胜的标记的个数 工4:决定 O+O○O*●0*0O- 但是,上述区域级的融合策略并不适于基于历 史特征的标注模型融合.原因是基于历史的概率模 .-○-○●●●●●*○ 型中某一位置的决策与已标注历史有关,动态特征 ia in 的不一致导致分析状态不一致,相同位置上不同标 图3基于“分歧点”的融合算法示意图 注器输出结果之间是“不公平”竞争.例如,一个错 Fig.3 An illustration of the fork position based algorithm 误的短语识别结果,可能因为后续标记与较早的标 图中和标出的分别是正向标注的分歧点和 记之间具有更小的歧义而获胜. 反向标注的分歧点.整个有效区域内某方向标记序 从另一个角度解释这个问题,把式(2)重写为 列的信任度由该方向分歧点的标记类别信任度来决 E()=P(Ic4,y-)-P(1c4o,-), 定: E()=P(Ico,)-P(lc0,). E(y)=P(l cf)-p(I cfia)), 原标注器分析状态c分解为静态部分c'和动态部分 E(yb)=P(1c6m)-P(y|cm)). y)—2个方向上的已有标注结果(“-”和“+” 因为r和i分别是2个候选序列由左至右和由右至 分别表示i左边和右边的位置).如果y-)与反向 左发生分歧的位置,所以有y)=y-)和y+)= 标记序列中的y-)不一致,概率P(yIc0,y-) y+),分歧点标记的后验概率具有融合意义.上述
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有