Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点: 。减少不同term的数量 ·识别相似的词 ·改进了检索性能,但不采用语言分析的方法 ■Stemming的缺点: ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了 Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION Stemming的优点: 减少不同term的数量 识别相似的词 改进了检索性能,但不采用语言分析的方法 Stemming的缺点: 正确率显然达不到100% 不正确的stemming算法可能改变词的含义 需要避免过分的截断 MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了