中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统

❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统

团购合买资源类别：文库，文档格式：PDF，文档页数：96，文件大小：4.5MB

信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘第5章向量模型及检索系统一一第二讲检索系统

信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘第5章向量模型及检索系统 ——第二讲检索系统

信息检索与数据挖掘 2019/3/16 3 本讲提纲 ①上一讲回顾结果排序的重要性结果排序的实现完整的搜索系统 3

信息检索与数据挖掘 2019/3/16 3 本讲提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 3

信息检索与数据挖掘 2019/3/16 4 提纲 ①上一讲回顾 2 结果排序的重要性 3 结果排序的实现 ④完整的搜索系统 g

信息检索与数据挖掘 2019/3/16 4 提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 4

信息检索与数据挖掘 2019/3/16 5 回顾：从布尔模型到向量空间模型布尔检索结果太布尔模型少或太多布尔词项-文档关联矩阵音词项-文档计数文档和词项频率TF 查询均评矩阵表示成分向量，计算 TF-IDF 词项-文档权重余弦矩阵相似度对结果进行排序向量空间模型

信息检索与数据挖掘 2019/3/16 5 回顾：从布尔模型到向量空间模型文档评分布尔检索结果太少或太多对结果进行排序词项频率TF TF-IDF 布尔词项-文档计数矩阵词项-文档权重矩阵词项-文档关联矩阵布尔模型向量空间模型文档和查询均表示成向量，计算余弦相似度

信息检索与数据挖掘 2019/3/16 6 回顾：词项频率f 。t在d中的对数词频权重定义如下： (1+logiotft,a wEd=0 if tft.a> otherwise ·文档-词项的匹配得分 (1+logiotfi.a) 6

信息检索与数据挖掘 2019/3/16 6 回顾：词项频率tf • t 在 d 中的对数词频权重定义如下： • 文档-词项的匹配得分 6 𝑤𝑡,𝑑 = 1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑡∈𝑞∩𝑑 (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑)

信息检索与数据挖掘 2019/3/16 7 回顾：idf权重 ·df,是出现词项t的文档数目 ·df,是和词项t的信息量成反比的一个值 ·于是可以定义词项t的idf权重： N idf=og.） (其中W是文档集中文档的数目) ·idf,是反映词项t的信息量的一个指标逆文档频率：多个文档中都会出现的常见词、高频词idf较低；反之罕见词的idf高

信息检索与数据挖掘 2019/3/16 7 回顾：idf权重 • dft 是出现词项t的文档数目 • dft 是和词项t的信息量成反比的一个值 • 于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) • idft 是反映词项t的信息量的一个指标 7 逆文档频率：多个文档中都会出现的常见词、高频词idf较低；反之罕见词的idf高 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )

信息检索与数据挖掘 2019/3/16 8 ▣顾：f-idf权重。tf-idf权重 N wia=(1+lo)) ·tf-idf是信息检索中最著名的权重计算方法。tf-idf值随着词项在单个文档中出现次数增加而增大 ·tf-idf值随着词项在文档集中数目减少而增加某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF IDF倾向于过滤掉常见的词语，保留重要的词语。 8

信息检索与数据挖掘 2019/3/16 8 回顾：tf-idf权重 • tf-idf权重 • tf-idf 是信息检索中最著名的权重计算方法 • tf-idf值随着词项在单个文档中出现次数增加而增大 • tf-idf值随着词项在文档集中数目减少而增加 8 某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TFIDF倾向于过滤掉常见的词语，保留重要的词语。 𝑤𝑡,𝑑 = (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑) × 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )

信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words) 。不考虑词在文档中出现的顺序。“John is quicker than Mary”和“Mary is quicker than John”的表示结果一样 ·这就是词袋模型 ·TF、DF、IDF、TF-IDF都只考虑：词袋模型

信息检索与数据挖掘 2019/3/16 9 词袋模型（Bag of Words ） • 不考虑词在文档中出现的顺序 • “John is quicker than Mary ” 和“Mary is quicker than John ”的表示结果一样 • 这就是词袋模型 • TF、DF、IDF、TF-IDF都只考虑：词袋模型

信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image Object Bag-of-words

信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image

信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 Anthony Julius The Hamlet( Othello Macbet and Caesar Tempest h.. Cleopatra ANTHONY 1 1 0 0 001 1 BRUTUS 1 1 0 1 0 CAESAR 1 1 0 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 每篇文档表示成一个二值向量∈{0,1yM

信息检索与数据挖掘 2019/3/16 11 二值关联矩阵每篇文档表示成一个二值向量∈ {0, 1}|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0

点击下载完整版文档（PDF格式）

共96页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录