信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘 第5章向量模型及检索系统 一一第二讲检索系统
信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘 第5章 向量模型及检索系统 ——第二讲 检索系统
信息检索与数据挖掘 2019/3/16 3 本讲提纲 ①上一讲回顾 结果排序的重要性 结果排序的实现 完整的搜索系统 3
信息检索与数据挖掘 2019/3/16 3 本讲提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 3
信息检索与数据挖掘 2019/3/16 4 提纲 ①上一讲回顾 2 结果排序的重要性 3 结果排序的实现 ④完整的搜索系统 g
信息检索与数据挖掘 2019/3/16 4 提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 4
信息检索与数据挖掘 2019/3/16 5 回顾:从布尔模型到向量空间模型 布尔检索结果太 布尔模型 少或太多 布尔 词项-文档关联 矩阵 音 词项-文档计数 文档和 词项频率TF 查询均 评 矩阵 表示成 分 向量, 计算 TF-IDF 词项-文档权重 余弦 矩阵 相似度 对结果进行排序 向量空间模型
信息检索与数据挖掘 2019/3/16 5 回顾:从布尔模型到向量空间模型 文 档 评 分 布尔检索结果太 少或太多 对结果进行排序 词项频率TF TF-IDF 布尔 词项-文档计数 矩阵 词项-文档权重 矩阵 词项-文档关联 矩阵 布尔模型 向量空间模型 文档和 查询均 表示成 向量, 计算 余弦 相似度
信息检索与数据挖掘 2019/3/16 6 回顾:词项频率f 。t在d中的对数词频权重定义如下: (1+logiotft,a wEd=0 if tft.a> otherwise ·文档-词项的匹配得分 (1+logiotfi.a) 6
信息检索与数据挖掘 2019/3/16 6 回顾:词项频率tf • t 在 d 中的对数词频权重定义如下: • 文档-词项的匹配得分 6 𝑤𝑡,𝑑 = 1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑡∈𝑞∩𝑑 (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑)
信息检索与数据挖掘 2019/3/16 7 回顾:idf权重 ·df,是出现词项t的文档数目 ·df,是和词项t的信息量成反比的一个值 ·于是可以定义词项t的idf权重: N idf=og.) (其中W是文档集中文档的数目) ·idf,是反映词项t的信息量的一个指标 逆文档频率:多个文档中都会出现的常见词、高频词idf较 低;反之罕见词的idf高
信息检索与数据挖掘 2019/3/16 7 回顾:idf权重 • dft 是出现词项t的文档数目 • dft 是和词项t的信息量成反比的一个值 • 于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) • idft 是反映词项t的信息量的一个指标 7 逆文档频率:多个文档中都会出现的常见词、高频词idf较 低;反之罕见词的idf高 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )
信息检索与数据挖掘 2019/3/16 8 ▣顾:f-idf权重 。tf-idf权重 N wia=(1+lo)) ·tf-idf是信息检索中最著名的权重计算方法 。tf-idf值随着词项在单个文档中出现次数增加而增 大 ·tf-idf值随着词项在文档集中数目减少而增加 某一特定文件内的高词语频率,以及该词语在整个文件集合 中的低文件频率,可以产生出高权重的TF-IDF。因此,TF IDF倾向于过滤掉常见的词语,保留重要的词语。 8
信息检索与数据挖掘 2019/3/16 8 回顾:tf-idf权重 • tf-idf权重 • tf-idf 是信息检索中最著名的权重计算方法 • tf-idf值随着词项在单个文档中出现次数增加而增 大 • tf-idf值随着词项在文档集中数目减少而增加 8 某一特定文件内的高词语频率,以及该词语在整个文件集合 中的低文件频率,可以产生出高权重的TF-IDF。因此,TFIDF倾向于过滤掉常见的词语,保留重要的词语。 𝑤𝑡,𝑑 = (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑) × 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )
信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words) 。不考虑词在文档中出现的顺序 。“John is quicker than Mary”和“Mary is quicker than John”的表示结果一样 ·这就是词袋模型 ·TF、DF、IDF、TF-IDF都只考虑:词袋模型
信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words ) • 不考虑词在文档中出现的顺序 • “John is quicker than Mary ” 和“Mary is quicker than John ”的表示结果一样 • 这就是词袋模型 • TF、DF、IDF、TF-IDF都只考虑:词袋模型
信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image Object Bag-of-words
信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image
信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 Anthony Julius The Hamlet( Othello Macbet and Caesar Tempest h.. Cleopatra ANTHONY 1 1 0 0 001 1 BRUTUS 1 1 0 1 0 CAESAR 1 1 0 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 每篇文档表示成一个二值向量∈{0,1yM
信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 每篇文档表示成一个二值向量∈ {0, 1}|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0