正在加载图片...
·410 智能系统学报 第4卷 融合例子相应地转化为比较P(010)-P(B10) 的距离差作为类别信任度用于融合, (正向,位置i-1)和P(I1I)-P(B1I)(反向, YamCha2]是一个基于SVM分类器的开源序 位置). 列标注工具,因为可以重定义静动态特征并能输出 因为基于历史特征的标注模型对汉语MNP或 类别打分,所以将其作为短语标注器,并使用SVMs PP正反2个方向的识别能力有一定的差异,使用加 的二阶多项式核函数,惩罚参数c设置为0.01. 权融合(权值ω≥0),得到最终的融合算法为 子系统的权值通过在语料库上进行格点搜索 y=arg maxωE(J): (grid search)获得.为简单起见,将反向标注器的权 Y=yKb 值0,固定为1.00,只遍历正向标注器的权值0,搜 4 实验和结果分析 索范围是0.30~2.50,间隔为0.05.所有测试集使 4.1实验设置 用语料库给出的标准分词和POS标注, 实验在宾州中文树库V5.0上进行,使用所有 4.2主要实验结果 《新华日报》语料.该语料分布在698个原始文件 表1和表2分别是上述各系统在9493句语料 中,共9493个句子.本文从中提取出了24436个 上进行十折交叉检验得到的对MNP和PP识别的平 MNP和8282个PP(并列PP如“从…到…”在宾州 均F1值(F1 score).w,固定为1.00时,o:对MNP 中文树库中是以一个最长介词短语出现的,但是考 和PP分别取为0.55和2.00(因为2融合使用的 虑到它表示的是2个相互独立的PP,因此将其看作 是两类别距离差,权值做了相应的映射).融合结果 2个PP).由于对只含有一个词的MNP的识别没有 一栏括号中表示的是融合后F,值与单向结果中较 太大意义,因此本文的实验不包括单个词的MNP; 高值的差 但是单个词的PP多是由于省略了介词中心词,而 表1MNP识别的融合结果(w=0.55)(F,值)】 且数量很少,所以在实验中没有将它们剔除. Table 1 Combining results for MNPs(=0.55)(F score)% 实验使用I0B2标注体系0],并添加了2个标 融合算法 正向 反向 融合 记符号:“H”和“S”,用来区分短语中心词和非中心 Phrase-based 83.22 85.93 86.09(+0.16) 词.这样,共有5类标记用于最长短语的识别: M1融合 83.22 85.93 86.94(+1.01) “BH”、“BS”、“H”、“S”和“O”. 实验主要比较以下4个标注和融合系统, M2融合 83.1485.86 86.91(+1.05) 1)单向标注:包括对MNP和PP的正向和反向 标注.直接使用序列标注器的输出结果,静态特征窗 表2PP识别的融合结果(w=2.00)(F1值) 口均设为9,动态特征使用五元历史标注结果,即当 Table 2 Combining results for PPs (=2.00)(F score)% 前位置之前的4个历史标记.这一值是根据语料中 融合算法 正向 反向 融合 MNP和PP的平均长度(分别是5.40个词和5.38个 Phrase-based 84.3674.47 84.65(+0.29) 词)选取的, M1融合 84.36 74.47 85.98(+1.62) 2)基于短语的融合算法(phrase-based):实现了 M2融合 83.8474.53 85.51(+1.67) 文献[11]提出的基于短语的融合策略.因为只有2 个候选系统,每个位置上的投票由加法准则代替.当 可以看出,无论是对MNP还是PP,2个方向的 这2个候选序列所含有的在位置级融合中获胜的标 标注结果之间都有明显的差异.MNP的反向标注性 记个数相等时,将退而比较这2个候选序列的各标 能好于正向标注,PP的正向标注性能好于反向标 记后验概率和. 注.相比之下,PP的双向标注结果差别更大,说明介 3)基于“分歧点”的概率融合算法—采用 词对PP的识别具有更强的引导作用.M2融合使用 “one vs..others”多类分类策略(M1融合):SVM分 “pair-wise”多类分类策略,不同于基于短语的融合 类器使用“one vs.others”模式时,类别打分为该类 和M1融合使用的“one vs..others”策略,所以单向 别到分类面的距离.利用逻辑回归方法,将这些距离 标注结果有细微差别 转化为类别的后验概率用于融合. 比较这3种融合方法,可以发现基于短语的融 4)基于“分歧点”的概率融合算法一采用 合对识别性能有一定的提高,但幅度很小(分别为 “pair-wise”多类分类策略(M2融合):分类器使用 0.16%和0.29%).本文提出的基于“分歧点”的融 “pair-wise”模式时,分类的依据是两两类别的分类 合算法可以将MNP和PP的识别精度分别提高 情况.本文直接提取2个候选类别在二类分类器中 1.05%和1.67%.M1和M2的融合能力基本相似
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有