正在加载图片...
Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点: 。减少不同term的数量 ·识别相似的词 ·改进了检索性能,但不采用语言分析的方法 ■Stemming的缺点: ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了 Stemming „ 克服词形的变化,把所有同根词转变为单一形式 „ RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION „ Stemming的优点: „ 减少不同term的数量 „ 识别相似的词 „ 改进了检索性能,但不采用语言分析的方法 „ Stemming的缺点: „ 正确率显然达不到100% „ 不正确的stemming算法可能改变词的含义 „ 需要避免过分的截断 „ MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有