Index/r toolkits LeMur. The Lemur Toolkit for anguage Modeling and End http:/lucene.apache.orahutchJava-basedindexing ovide web search application software 唾 中文切词 中文处理 口可以选用Bgam索引:中文大部分词是两个词 口比如:全文索引=>全文,文索,索引 英文处理 ahttp://tartarus.org/martin/porterstemmer/ ■中文和英文在词表的设计上是不同的,可以分开 处理,也可以统一按中文处理。9 Index/IR toolkits The Lemur Toolkit for Language Modeling and Information Retrieval Java-based indexing and search technology, provide web search application software http://lucene.apache.org/nutch/ http://www.lemurproject.org/ End 中文切词 中文处理
可以选用Bigram索引:中文大部分词是两个词
比如:全文索引 => 全文,文索, 索引 英文处理
Stemming不是必须的,选作。
http://tartarus.org/martin/PorterStemmer/ 中文和英文在词表的设计上是不同的,可以分开 处理,也可以统一按中文处理