正在加载图片...
后继变化数Successor Variety 基于对文本集合的统计分析 ·给定一个足够大的语料库,可以通过统计的方法获得词干 ■这种方法是自动的,和语言关联性不大的 后继变化数的定义: ·语料库中跟在某个字符串后的不同字符的数 ■考虑英文词典 ·pr?->后继变化数是多少? ·pro?->? ·pr和pro谁更像一个词根? ·直觉:如果一个字符串的后继变化数值很低,则可能是一个 词根 后继变化数Successor Variety „ 基于对文本集合的统计分析 „ 给定一个足够大的语料库, 可以通过统计的方法获得词干 „ 这种方法是自动的,和语言关联性不大的 „ 后继变化数的定义: „ 语料库中跟在某个字符串后的不同字符的数 „ 考虑英文词典 „ pr? -> 后继变化数是多少? „ pro? -> ? „ pr 和 pro 谁更像一个词根? „ 直觉:如果一个字符串的后继变化数值很低,则可能是一个 词根
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有