正在加载图片...
信息检索与数据挖掘 2019/317 18 Reuters-RCV1语料:统计数据 符号 含义 值 N 文档总数 800,.000 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400.000 每个词条(Token)的平均字节数 6 (含空格和标点符号) 每个词条的平均字节数 4.5 (不含空格和标点符号) 每个词项的平均字节数 7.5 T 词条(Token)总数目 100.000.000 每个词条占4.5字节VS.每个词项占7.5字节:为什么? 18信息检索与数据挖掘 2019/3/7 18 Reuters-RCV1语料:统计数据 符号 含义 值 N 文档总数 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400,000 每个词条(Token)的平均字节数 (含空格和标点符号) 6 每个词条的平均字节数 (不含空格和标点符号) 4.5 每个词项的平均字节数 7.5 T 词条(Token)总数目 100,000,000 每个词条占4.5字节 VS. 每个词项占7.5字节:为什么? 18
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有