后继变化数Successor Variety 基于对文本集合的统计分析 ·给定一个足够大的语料库,可以通过统计的方法获得词干 ■这种方法是自动的,和语言关联性不大的 后继变化数的定义: ·语料库中跟在某个字符串后的不同字符的数 ■考虑英文词典 ·pr?->后继变化数是多少? ·pro?->? ·pr和pro谁更像一个词根? ·直觉:如果一个字符串的后继变化数值很低,则可能是一个 词根 后继变化数Successor Variety 基于对文本集合的统计分析 给定一个足够大的语料库, 可以通过统计的方法获得词干 这种方法是自动的,和语言关联性不大的 后继变化数的定义: 语料库中跟在某个字符串后的不同字符的数 考虑英文词典 pr? -> 后继变化数是多少? pro? -> ? pr 和 pro 谁更像一个词根? 直觉:如果一个字符串的后继变化数值很低,则可能是一个 词根