正在加载图片...
信息检索与数据挖掘 2019/3/720 词典大小、倒排记录大小 ·M=400,000 219>N>216 →词项ID需32bit 。词典大小:M*32bits=1,600,000 Bytes=-1.6 MBytes .N=800.000 220>N>216 →文档D需32bit ·L*N=160,000,000220+8>N>220+7 。倒排记录:约L*N*32bits=640,000,000 Bytes-=0.64 GBytes ·不考虑倒排记录存储数据结构的额外开销 符号 含义 值 N 文档总数 800,.000 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400,000 20信息检索与数据挖掘 2019/3/7 20 词典大小、倒排记录大小 • M=400,000 219>N>216 词项ID需32bit • 词典大小:M*32bits=1,600,000Bytes=1.6MBytes • N=800,000 220>N>216 文档ID需32bit • L*N=160,000,000 220+8>N>220+7 • 倒排记录:约L*N*32bits=640,000,000Bytes=0.64GBytes • 不考虑倒排记录存储数据结构的额外开销 符号 含义 值 N 文档总数 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400,000 20
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有