正在加载图片...
信息检索与数据挖掘 2019/3/7 11 词汇量vs.文档集大小 Heaps定律:M=kTb ·M是词项的数目,T是文档集中词条的个数 ·参数k和b的典型取值为:30≤≤100和b≈0.5 词汇量大小M和文档集大小T在对数空间中,存在着 。 斜率为的线性关系 ·在对数空间中,这是这两者之间存在的最简单的关系 ·这是一个经验发现(“empirical law”) Heaps.定律是Heaps在1978年一本关于信息挖掘的专著 中提出的。事实上,他观察到在语言系统中,不同单 词的数目与文本篇幅(所有出现的单词累积数目)之 间存在幂函数的关系,其幂指数小于1。信息检索与数据挖掘 2019/3/7 11 词汇量 vs. 文档集大小 • Heaps定律:M = kT b • M是词项的数目,T是文档集中词条的个数 • 参数k和b的典型取值为:30≤k≤100和b≈0.5 • 词汇量大小M和文档集大小T在对数空间中,存在着 斜率为½的线性关系 • 在对数空间中,这是这两者之间存在的最简单的关系 • 这是一个经验发现(“empirical law”) Heaps定律是Heaps在1978年一本关于信息挖掘的专著 中提出的。事实上,他观察到在语言系统中,不同单 词的数目与文本篇幅(所有出现的单词累积数目)之 间存在幂函数的关系,其幂指数小于1
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有