正在加载图片...
信息检索与数据挖掘 2019年4月9日 7 小结:词项-文档矩阵 ·C:MXN的词项-文档矩阵 。C的每一列即为向量空间模型中的一个向量 。文档和查询均表示为向量,相关度为向量的“距离” ·A=CTC ·A是词项i和词项i共现的文档数目 ·A=CCT ·A,是第i个文档与第个文档含有相同词项的数目 ·词项-文档计数(f矩阵C→CCT、CTC ·词项-文档权重(fidf矩阵C→CCT、CTC信息检索与数据挖掘 2019年4月9日 7 小结:词项-文档矩阵 • C :M×N 的词项-文档矩阵 • C的每一列即为向量空间模型中的一个向量 • 文档和查询均表示为向量,相关度为向量的“距离” • A=CTC • Aij是词项i 和词项j 共现的文档数目 • A=CCT • Aij是第i 个文档与第j 个文档含有相同词项的数目 • 词项-文档计数(tf)矩阵C→CCT 、CTC • 词项-文档权重(tf-idf)矩阵C→ CCT 、 CTC
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有