后继变化数Successor Variety 基于对文本集合的统计分析

点击下载：哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine

正在加载图片...

后继变化数Successor Variety 基于对文本集合的统计分析 ·给定一个足够大的语料库，可以通过统计的方法获得词干 ■这种方法是自动的，和语言关联性不大的后继变化数的定义： ·语料库中跟在某个字符串后的不同字符的数 ■考虑英文词典 ·pr?->后继变化数是多少？ ·pro?->? ·pr和pro谁更像一个词根？ ·直觉：如果一个字符串的后继变化数值很低，则可能是一个词根后继变化数Successor Variety 基于对文本集合的统计分析给定一个足够大的语料库, 可以通过统计的方法获得词干这种方法是自动的，和语言关联性不大的后继变化数的定义：语料库中跟在某个字符串后的不同字符的数考虑英文词典 pr? -> 后继变化数是多少？ pro? -> ? pr 和 pro 谁更像一个词根? 直觉：如果一个字符串的后继变化数值很低，则可能是一个词根

<<向上翻页向下翻页>>

点击下载：哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine