当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.2 检索系统

资源类别:文库,文档格式:PDF,文档页数:96,文件大小:4.5MB,团购合买
❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统
点击下载完整版文档(PDF)

信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘 第5章向量模型及检索系统 一一第二讲检索系统

信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘 第5章 向量模型及检索系统 ——第二讲 检索系统

信息检索与数据挖掘 2019/3/16 3 本讲提纲 ①上一讲回顾 结果排序的重要性 结果排序的实现 完整的搜索系统 3

信息检索与数据挖掘 2019/3/16 3 本讲提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 3

信息检索与数据挖掘 2019/3/16 4 提纲 ①上一讲回顾 2 结果排序的重要性 3 结果排序的实现 ④完整的搜索系统 g

信息检索与数据挖掘 2019/3/16 4 提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 4

信息检索与数据挖掘 2019/3/16 5 回顾:从布尔模型到向量空间模型 布尔检索结果太 布尔模型 少或太多 布尔 词项-文档关联 矩阵 音 词项-文档计数 文档和 词项频率TF 查询均 评 矩阵 表示成 分 向量, 计算 TF-IDF 词项-文档权重 余弦 矩阵 相似度 对结果进行排序 向量空间模型

信息检索与数据挖掘 2019/3/16 5 回顾:从布尔模型到向量空间模型 文 档 评 分 布尔检索结果太 少或太多 对结果进行排序 词项频率TF TF-IDF 布尔 词项-文档计数 矩阵 词项-文档权重 矩阵 词项-文档关联 矩阵 布尔模型 向量空间模型 文档和 查询均 表示成 向量, 计算 余弦 相似度

信息检索与数据挖掘 2019/3/16 6 回顾:词项频率f 。t在d中的对数词频权重定义如下: (1+logiotft,a wEd=0 if tft.a> otherwise ·文档-词项的匹配得分 (1+logiotfi.a) 6

信息检索与数据挖掘 2019/3/16 6 回顾:词项频率tf • t 在 d 中的对数词频权重定义如下: • 文档-词项的匹配得分 6 𝑤𝑡,𝑑 = 1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑡∈𝑞∩𝑑 (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑)

信息检索与数据挖掘 2019/3/16 7 回顾:idf权重 ·df,是出现词项t的文档数目 ·df,是和词项t的信息量成反比的一个值 ·于是可以定义词项t的idf权重: N idf=og.) (其中W是文档集中文档的数目) ·idf,是反映词项t的信息量的一个指标 逆文档频率:多个文档中都会出现的常见词、高频词idf较 低;反之罕见词的idf高

信息检索与数据挖掘 2019/3/16 7 回顾:idf权重 • dft 是出现词项t的文档数目 • dft 是和词项t的信息量成反比的一个值 • 于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) • idft 是反映词项t的信息量的一个指标 7 逆文档频率:多个文档中都会出现的常见词、高频词idf较 低;反之罕见词的idf高 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )

信息检索与数据挖掘 2019/3/16 8 ▣顾:f-idf权重 。tf-idf权重 N wia=(1+lo)) ·tf-idf是信息检索中最著名的权重计算方法 。tf-idf值随着词项在单个文档中出现次数增加而增 大 ·tf-idf值随着词项在文档集中数目减少而增加 某一特定文件内的高词语频率,以及该词语在整个文件集合 中的低文件频率,可以产生出高权重的TF-IDF。因此,TF IDF倾向于过滤掉常见的词语,保留重要的词语。 8

信息检索与数据挖掘 2019/3/16 8 回顾:tf-idf权重 • tf-idf权重 • tf-idf 是信息检索中最著名的权重计算方法 • tf-idf值随着词项在单个文档中出现次数增加而增 大 • tf-idf值随着词项在文档集中数目减少而增加 8 某一特定文件内的高词语频率,以及该词语在整个文件集合 中的低文件频率,可以产生出高权重的TF-IDF。因此,TF￾IDF倾向于过滤掉常见的词语,保留重要的词语。 𝑤𝑡,𝑑 = (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑) × 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )

信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words) 。不考虑词在文档中出现的顺序 。“John is quicker than Mary”和“Mary is quicker than John”的表示结果一样 ·这就是词袋模型 ·TF、DF、IDF、TF-IDF都只考虑:词袋模型

信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words ) • 不考虑词在文档中出现的顺序 • “John is quicker than Mary ” 和“Mary is quicker than John ”的表示结果一样 • 这就是词袋模型 • TF、DF、IDF、TF-IDF都只考虑:词袋模型

信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image Object Bag-of-words

信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image

信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 Anthony Julius The Hamlet( Othello Macbet and Caesar Tempest h.. Cleopatra ANTHONY 1 1 0 0 001 1 BRUTUS 1 1 0 1 0 CAESAR 1 1 0 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 每篇文档表示成一个二值向量∈{0,1yM

信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 每篇文档表示成一个二值向量∈ {0, 1}|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共96页,可试读20页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有