Good-Turing • 适用于评估大规模的数据 – 相似点： pr (

正在加载图片...

Good-Turing ·适用于评估大规模的数据相似点: p(w)=(c(w)+1)*N(c(w)+1)(TN(c(w) 其中:N(c)是数目为c的词的数量特别:对于训练集中没有出现的词,c(w)=0 p(W)=N(1)(T*N(0) 有利于数量少的词语(<5-10.,但N(c)较大) “调富济贫” 归一化(可以得到∑p()=1)Good-Turing • 适用于评估大规模的数据 – 相似点： pr (w)=(c(w)+1)*N(c(w)+1)/(|T|*N(c(w))), 其中：N(c)是数目为c的词的数量特别：对于训练集中没有出现的词，c(w)=0 pr (w)=N(1)/(|T|*N(0)) – 有利于数量少的词语（<5-10, 但N(c)较大） • “调富济贫” – 归一化（可以得到 w p'(w) =1 ）

<<向上翻页向下翻页>>

点击下载：《自然语言处理》课程教学资源（PPT课件讲稿）语言模型