正在加载图片...
Index/r toolkits LeMur. The Lemur Toolkit for anguage Modeling and End http:/lucene.apache.orahutchJava-basedindexing ovide web search application software 唾 中文切词 中文处理 口可以选用Bgam索引:中文大部分词是两个词 口比如:全文索引=>全文,文索,索引 英文处理 ahttp://tartarus.org/martin/porterstemmer/ ■中文和英文在词表的设计上是不同的,可以分开 处理,也可以统一按中文处理。9 Index/IR toolkits „ The Lemur Toolkit for Language Modeling and Information Retrieval „ Java-based indexing and search technology, provide web search application software http://lucene.apache.org/nutch/ http://www.lemurproject.org/ End 中文切词 „ 中文处理 … 可以选用Bigram索引:中文大部分词是两个词 … 比如:全文索引 => 全文,文索, 索引 „ 英文处理 … Stemming不是必须的,选作。 … http://tartarus.org/martin/PorterStemmer/ „ 中文和英文在词表的设计上是不同的,可以分开 处理,也可以统一按中文处理
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有