正在加载图片...
第5章单词与词组的处理与分析 5.2.1.2高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧 义切分等现象的分析而提出来的。根据《现代汉语频率词典》, 对于报刊和政论性文章,不同音节词的词频构成为:双音节词大 约有74%;三音节词大约有3.7%;单音节词大约有7.2%;而 五以上字音节词则大约只有0.4%左右。汉语是一字一音节,因 而也可以说,两字组词的频率比其它所有方式的概率加起来都还 要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频 率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问 题也无能为力,出错率并不低。第 5 章 单词与词组的处理与分析 5 . 2 . 1 . 2 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧 义切分等现象的分析而提出来的。根据《现代汉语频率词典》, 对于报刊和政论性文章,不同音节词的词频构成为:双音节词大 约有74%;三音节词大约有3 . 7%;单音节词大约有17 . 2%;而 五以上字音节词则大约只有0 . 4%左右。汉语是一字一音节,因 而也可以说,两字组词的频率比其它所有方式的概率加起来都还 要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频 率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问 题也无能为力,出错率并不低
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有