文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院
文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院
提纲 1.排序式检索 2.词项频率词项频率 3.tf-idf权重计算 4.向量空间模型
提纲 2 1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型
为什么要排序 Ba6百度新网页贴吧组道查乐凰片地圆文库要多 信息检索 百度一下 信息检索,百度百科 信息检索( Information Retrieval)是指信息按一定的方式组织起来, 并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索 就是信息检索过程的后半音分, 起源定义类型主要环节热点捡索原因 baikebaidu.com/2013-10-09 影影 12345678910下-页>(百度为您到相果0
为什么要排序
排序式检索( Ranked retrieval) 迄今为止,我们主要关注的是布尔查询 文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对web搜索 更是如此 对于刚才的例子,40M的文档,相信大家都不会想去看
5 排序式检索(Ranked retrieval) ▪迄今为止,我们主要关注的是布尔查询 ▪文档要么匹配要么不匹配 ▪对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 ▪对应用开发来说也非常简单,很容易就可以返回1000多条结果 ▪然而对大多数用户来说不方便 ▪大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 ▪大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索 更是如此 ▪对于刚才的例子,40M的文档,相信大家都不会想去看。 5
布尔搜索的不足:结果过少或者过多 布尔查询常常会倒是过少(=0或者过多(>1000的结果 查询1(布尔或操作):[ standard user d|ink650] →200000个结果-太多 查询2(布尔与操作): Istandard user dlink650 no card found] →0个结果-太少 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询
6 布尔搜索的不足: 结果过少或者过多 ▪布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 ▪查询 1 (布尔或操作): [standard user dlink 650] ▪→ 200,000 个结果 – 太多 ▪查询2 (布尔与操作): [standard user dlink 650 no card found] ▪→ 0 个结果 – 太少 ▪在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询 6
排序式检索 排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多 前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前
7 排序式检索 ▪排序式检索可以避免产生过多或者过少的结果 ▪大规模的返回结果可以通过排序技术来避免 ▪只需要显示前10条结果 ▪不会让用户感觉到信息太多 ▪前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前 7
排序式检索中的评分技术 "我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 如何实现? 通常做法是对每个查询文档对赋一个[,1之间的分值 该分值度量了文档和查询的匹配程度 怎么做?
8 排序式检索中的评分技术 ▪我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 ▪如何实现? ▪通常做法是对每个查询-文档对赋一个[0, 1]之间的分值 ▪该分值度量了文档和查询的匹配程度 ▪怎么做? 8
查询-文档匹配评分计算 如何计算查询文档的匹配得分?原则 先从单词项查询开始 若该词项不出现在文档当中,该文档得分应该 为0 该词项在文档中出现越多,则得分越高
9 查询-文档匹配评分计算 ▪如何计算查询-文档的匹配得分?原则 ▪先从单词项查询开始 ▪若该词项不出现在文档当中,该文档得分应该 为0 ▪该词项在文档中出现越多,则得分越高 9
提纲 排序式检索 词项频率 3.t-idf权重计算 4.向量空间模型
提纲 10 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型
二值关联矩阵 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY 1110111 1111000 0000011 0110011 0010011 1010010 WORSER 每篇文档可以看成是一个二值的向量∈{0,1 11
11 二值关联矩阵 每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V| 11 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0