语言模型的讨论 n多大? 理论上讲,越大越好 经验值:3, trigram用的最多 four-gram需要太多的参数,很难估计了 目前一般直接计算词形,不进行语言学处理, 如形态还原等 可靠性( Reliability)和可区别性( Discrimination 成反比,需要折中 n越大,区别力越大;n越小,可靠性越高语言模型的讨论 • n多大? – 理论上讲,越大越好 – 经验值:3,trigram用的最多 • four-gram需要太多的参数,很难估计了 • 目前一般直接计算词形,不进行语言学处理, 如形态还原等 • 可靠性(Reliability)和可区别性(Discrimination) 成反比,需要折中 – n越大,区别力越大;n越小,可靠性越高