图２各方法效果对比Ｆｉｇ．２ＣｏｍｐａｒｉｓｏｎｗｉｔｈＢＬＥ

正在加载图片...

第3期胡金铭，等：引入复述技术的统计机器翻译研究综述 ·201· (2)所示：三 Pre(elf月=P(eIC(e))×P(C(e)ICf))= 6 三 #(e)x#(c(e),cD) (2) 尊三 #C(e)#C(f) 式中：C(e)、C()分别代表目标端和源端的短语类研究者认为复述片段含义相同，不应分别进行概率 0 估计，应对同类短语一并计算.可以验证，当P为0 模型训练参数调整语句改写时，Ppc不为O.所以当e出现的频次很小时，Pc会有图2各方法效果对比更好的概率估计.他提出了利用基于短语共现次数 Fig.2 Comparison with BLEU on various methods 和基于词序的2种相似度计算来进行短语聚类的方法，获得了很好的效果 1.1复述改善模型训练 Max针对短语概率估计提出了2个观点：1)一训练数据不足会引起数据稀疏，引入复述知识，个合适的短语需要更多地参与到概率估计：2)复述对已有的训练数据或者规则表进行处理可以改善这可以用来优化概率估计).他利用源端∫的上下文一问题.通常有2种途径：1)对训练数据的平行句对相似度的计算代替传统的频次统计，上下文相似度生成复述从而扩充训练数据的规模：2)利用短语间偏低的短语，其概率的估计也会较低，则相应译文可的复述关系平滑翻译模型的概率估计使其更加取度降低.如式(3)所示：准确. 以 sim(Cont(f),Cont(f)) 统计机器翻译的模型训练是通过大规模的双语 Pom(e;I f)= 平行语料获得.由于语言的多样性，训练集不能覆盖 sim(Cont(f),Cont(f)) 所有的语言现象，对稀有语种而言尤为明显.当无法 (3) 直接获得更多训练语料时，研究者利用复述技术扩充训练集的规模，提高模型的覆盖率.基本思想是对 w以 sim(Cont(f),Cont(p)) 双语平行句对(f,)的源端f生成句法等价的句级 P(e:I A= sim(Cont(f月，Cont(pk)) 复述fPP与目标端e重新组合构成新句对(fP,e) (4) 加入到训练集中.Bond针对词序、时态等语言学现象并结合句法信息生成复述I4).Nakov则对名词短式中：f是测试集中待译的源短语，f是∫在训练集语进行复述，首先识别句中的名词短语，利用人中出现的第k个特例，e,表示f的所有可能译文，e 是f的特定译文，Cont(f)是指f的上下文.P通过为定义的包含句法信息的复述规则，仅当句子中发比较测试语句中短语f的上下文与译文为e:的特例现符合复述转换规则结构的名词短语时才生成复 f的上下文的相似度，来估计e:是f译文的概率.式述.Nakov不但扩充训练集，还对已训练的规则表进 (4)利用复述对式(3)进行补充，作为另一个特征加行类似实验，结果表明对短语表进行复述并没有对训练数据进行复述的效果好.这是因为规则表是经入到模型中p:是f的复述，〈P:,e:〉是训练集中的短语对.同样，考虑上下文信息来估计e:是f译文的概过分词、对齐等前序步骤后得到，其中已含有噪声；率.式(3)解决了Max提出的第1个问题，使上下文同时对规则表复述没有考虑句法信息及上下文信信息更接近短语主导概率的估计，式(4)则缓解了息，新生成的翻译规则可能并不合理。上下文种类较少带来的数据稀疏问题，短语概率作为SMT的一个非常重要的特征，传 1.2复述提高调参效果统方法使用最大似然估计，通过词频的累加来计算，目前统计机器翻译的参数调整大多采用最小错如式(1)所示，式中#表示频次统计.这种方法的不足误率训练方法[18].通常使用基于n元组匹配的之处是，当短语出现次数较少时，其概率估计会出现 BLEU]等评测指标作为最小错误率.因此在调参较大误差.Kuhn和Max引入复述技术来进行平滑翻过程中所使用的开发集规模越大、多样性越强、参考译模型概率估计的研究。译文数量越多，n元组匹配的准确性就越高，调参的 #(f,e:) PRF(e:IA)=- (1) 效果也就越好.基于这个思想，Madnani引入复述知 ∑#(f,e) 识，对开发集的参考译文进行扩展，来增加参考译文 Kuhn利用短语聚类来进行平滑处理o],如式的多样性2).首先，利用层次短语系统训练出双语图２各方法效果对比Ｆｉｇ．２ＣｏｍｐａｒｉｓｏｎｗｉｔｈＢＬＥＵｏｎｖａｒｉｏｕｓｍｅｔｈｏｄｓ１．１复述改善模型训练训练数据不足会引起数据稀疏，引入复述知识，对已有的训练数据或者规则表进行处理可以改善这一问题．通常有２种途径：１）对训练数据的平行句对生成复述从而扩充训练数据的规模；２）利用短语间的复述关系平滑翻译模型的概率估计使其更加准确．统计机器翻译的模型训练是通过大规模的双语平行语料获得．由于语言的多样性，训练集不能覆盖所有的语言现象，对稀有语种而言尤为明显．当无法直接获得更多训练语料时，研究者利用复述技术扩充训练集的规模，提高模型的覆盖率．基本思想是对双语平行句对（ｆ，ｅ）的源端ｆ生成句法等价的句级复述ｆ’，ｆ’与目标端ｅ重新组合构成新句对（ｆ’，ｅ）加入到训练集中．Ｂｏｎｄ针对词序、时态等语言学现象并结合句法信息生成复述［１４］．Ｎａｋｏｖ则对名词短语进行复述［１５］，首先识别句中的名词短语，利用人为定义的包含句法信息的复述规则，仅当句子中发现符合复述转换规则结构的名词短语时才生成复述．Ｎａｋｏｖ不但扩充训练集，还对已训练的规则表进行类似实验，结果表明对短语表进行复述并没有对训练数据进行复述的效果好．这是因为规则表是经过分词、对齐等前序步骤后得到，其中已含有噪声；同时对规则表复述没有考虑句法信息及上下文信息，新生成的翻译规则可能并不合理．短语概率作为ＳＭＴ的一个非常重要的特征，传统方法使用最大似然估计，通过词频的累加来计算，如式（１）所示，式中＃表示频次统计．这种方法的不足之处是，当短语出现次数较少时，其概率估计会出现较大误差．Ｋｕｈｎ和Ｍａｘ引入复述技术来进行平滑翻译模型概率估计的研究．ＰＲＦ（ｅｉ｜ｆ）＝＃（ｆ，ｅｉ） ∑ｊ＃（ｆ，ｅｊ）．（１）Ｋｕｈｎ利用短语聚类来进行平滑处理［１６］，如式（２）所示：ＰＰＣ（ｅ｜ｆ）＝Ｐ（ｅ｜Ｃ（ｅ）） × Ｐ（Ｃ（ｅ）｜Ｃ（ｆ））＝＃（ｅ）＃Ｃ（ｅ） × ＃（Ｃ（ｅ），Ｃ（ｆ））＃Ｃ（ｆ）．（２）式中：Ｃ（ｅ）、Ｃ（ｆ）分别代表目标端和源端的短语类．研究者认为复述片段含义相同，不应分别进行概率估计，应对同类短语一并计算．可以验证，当ＰＲＦ为０时，ＰＰＣ不为０．所以当ｅ出现的频次很小时，ＰＰＣ会有更好的概率估计．他提出了利用基于短语共现次数和基于词序的２种相似度计算来进行短语聚类的方法，获得了很好的效果．Ｍａｘ针对短语概率估计提出了２个观点：１）一个合适的短语需要更多地参与到概率估计；２）复述可以用来优化概率估计［１７］．他利用源端ｆ的上下文相似度的计算代替传统的频次统计，上下文相似度偏低的短语，其概率的估计也会较低，则相应译文可取度降低．如式（３）所示：Ｐｃｏｎｔ（ｅｉ｜ｆ）＝ ∑〈ｆｋ，ｅｉ〉ｓｉｍ（Ｃｏｎｔ（ｆ），Ｃｏｎｔ（ｆｋ）） ∑〈ｆｋ，ｅｊ〉ｓｉｍ（Ｃｏｎｔ（ｆ），Ｃｏｎｔ（ｆｋ））．（３）Ｐｐａｒａ（ｅｉ｜ｆ）＝ ∑〈ｐｋ，ｅｉ〉ｓｉｍ（Ｃｏｎｔ（ｆ），Ｃｏｎｔ（ｐｋ）） ∑〈ｐｋ，ｅｊ〉ｓｉｍ（Ｃｏｎｔ（ｆ），Ｃｏｎｔ（ｐｋ））．（４）式中：ｆ是测试集中待译的源短语，ｆｋ是ｆ在训练集中出现的第ｋ个特例，ｅｊ表示ｆｋ的所有可能译文，ｅｉ是ｆｋ的特定译文，Ｃｏｎｔ（ｆ）是指ｆ的上下文．Ｐｃｏｎｔ通过比较测试语句中短语ｆ的上下文与译文为ｅｉ的特例ｆｋ的上下文的相似度，来估计ｅｉ是ｆ译文的概率．式（４）利用复述对式（３）进行补充，作为另一个特征加入到模型中．ｐｋ是ｆ的复述，〈ｐｋ，ｅｉ〉是训练集中的短语对．同样，考虑上下文信息来估计ｅｉ是ｆ译文的概率．式（３）解决了Ｍａｘ提出的第１个问题，使上下文信息更接近短语主导概率的估计，式（４）则缓解了上下文种类较少带来的数据稀疏问题．１．２复述提高调参效果目前统计机器翻译的参数调整大多采用最小错误率训练方法［１８］．通常使用基于ｎ元组匹配的ＢＬＥＵ［１９］等评测指标作为最小错误率．因此在调参过程中所使用的开发集规模越大、多样性越强、参考译文数量越多，ｎ元组匹配的准确性就越高，调参的效果也就越好．基于这个思想，Ｍａｄｎａｎｉ引入复述知识，对开发集的参考译文进行扩展，来增加参考译文的多样性［２０］．首先，利用层次短语系统训练出双语第３期胡金铭，等：引入复述技术的统计机器翻译研究综述 ·２０１·

<<向上翻页向下翻页>>

点击下载：【学术论文】引入复述技术的统计机器翻译研究综述