苏州大学：文档评分与向量空间模型（PPT讲稿）

1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型

团购合买资源类别：文库，文档格式：PPT，文档页数：50，文件大小：720.5KB

文档评分与向量空间模型主讲人:陈文亮李正华稍微删减苏州大学计算机学院

文档评分与向量空间模型主讲人：陈文亮李正华稍微删减苏州大学计算机学院

提纲 1.排序式检索 2.词项频率词项频率 3.tf-idf权重计算 4.向量空间模型

提纲 2 1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型

为什么要排序 Ba6百度新网页贴吧组道查乐凰片地圆文库要多信息检索百度一下信息检索,百度百科信息检索( Information Retrieval)是指信息按一定的方式组织起来, 并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半音分, 起源定义类型主要环节热点捡索原因 baikebaidu.com/2013-10-09 影影 12345678910下-页>(百度为您到相果0

为什么要排序

排序式检索( Ranked retrieval) 迄今为止,我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择对应用开发来说也非常简单,很容易就可以返回1000多条结果然而对大多数用户来说不方便大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询大部分用户不愿意逐条浏览1000多条结果,特别是对web搜索更是如此对于刚才的例子,40M的文档,相信大家都不会想去看

5 排序式检索(Ranked retrieval) ▪迄今为止，我们主要关注的是布尔查询 ▪文档要么匹配要么不匹配 ▪对自身需求和文档集性质非常了解的专家而言，布尔查询是不错的选择 ▪对应用开发来说也非常简单，很容易就可以返回1000多条结果 ▪然而对大多数用户来说不方便 ▪大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询 ▪大部分用户不愿意逐条浏览1000多条结果，特别是对Web搜索更是如此 ▪对于刚才的例子，40M的文档，相信大家都不会想去看。 5

布尔搜索的不足:结果过少或者过多布尔查询常常会倒是过少(=0或者过多(>1000的结果查询1(布尔或操作):[ standard user d|ink650] →200000个结果-太多查询2(布尔与操作): Istandard user dlink650 no card found] →0个结果-太少在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询

6 布尔搜索的不足: 结果过少或者过多 ▪布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 ▪查询 1 (布尔或操作): [standard user dlink 650] ▪→ 200,000 个结果 – 太多 ▪查询2 (布尔与操作): [standard user dlink 650 no card found] ▪→ 0 个结果 – 太少 ▪在布尔检索中，需要大量技巧来生成一个可以获得合适规模结果的查询 6

排序式检索排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前

7 排序式检索 ▪排序式检索可以避免产生过多或者过少的结果 ▪大规模的返回结果可以通过排序技术来避免 ▪只需要显示前10条结果 ▪不会让用户感觉到信息太多 ▪前提：排序算法真的有效，即相关度大的文档结果会排在相关度小的文档结果之前 7

排序式检索中的评分技术 "我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档如何实现? 通常做法是对每个查询文档对赋一个[,1之间的分值该分值度量了文档和查询的匹配程度怎么做?

8 排序式检索中的评分技术 ▪我们希望，在同一查询下，文档集中相关度高的文档排名高于相关度低的文档 ▪如何实现？ ▪通常做法是对每个查询-文档对赋一个[0, 1]之间的分值 ▪该分值度量了文档和查询的匹配程度 ▪怎么做？ 8

查询-文档匹配评分计算如何计算查询文档的匹配得分?原则先从单词项查询开始若该词项不出现在文档当中,该文档得分应该为0 该词项在文档中出现越多,则得分越高

9 查询-文档匹配评分计算 ▪如何计算查询-文档的匹配得分？原则 ▪先从单词项查询开始 ▪若该词项不出现在文档当中，该文档得分应该为0 ▪该词项在文档中出现越多，则得分越高 9

提纲排序式检索词项频率 3.t-idf权重计算 4.向量空间模型

提纲 10 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型

二值关联矩阵 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY 1110111 1111000 0000011 0110011 0010011 1010010 WORSER 每篇文档可以看成是一个二值的向量∈{0,1 11

11 二值关联矩阵每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V| 11 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0

点击下载完整版文档（PPT格式）

共50页，可试读17页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录