当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

苏州大学:文档评分与向量空间模型(PPT讲稿)

资源类别:文库,文档格式:PPT,文档页数:50,文件大小:720.5KB,团购合买
1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型
点击下载完整版文档(PPT)

文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院

文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院

提纲 1.排序式检索 2.词项频率词项频率 3.tf-idf权重计算 4.向量空间模型

提纲 2 1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型

为什么要排序 Ba6百度新网页贴吧组道查乐凰片地圆文库要多 信息检索 百度一下 信息检索,百度百科 信息检索( Information Retrieval)是指信息按一定的方式组织起来, 并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索 就是信息检索过程的后半音分, 起源定义类型主要环节热点捡索原因 baikebaidu.com/2013-10-09 影影 12345678910下-页>(百度为您到相果0

为什么要排序

排序式检索( Ranked retrieval) 迄今为止,我们主要关注的是布尔查询 文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对web搜索 更是如此 对于刚才的例子,40M的文档,相信大家都不会想去看

5 排序式检索(Ranked retrieval) ▪迄今为止,我们主要关注的是布尔查询 ▪文档要么匹配要么不匹配 ▪对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 ▪对应用开发来说也非常简单,很容易就可以返回1000多条结果 ▪然而对大多数用户来说不方便 ▪大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 ▪大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索 更是如此 ▪对于刚才的例子,40M的文档,相信大家都不会想去看。 5

布尔搜索的不足:结果过少或者过多 布尔查询常常会倒是过少(=0或者过多(>1000的结果 查询1(布尔或操作):[ standard user d|ink650] →200000个结果-太多 查询2(布尔与操作): Istandard user dlink650 no card found] →0个结果-太少 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询

6 布尔搜索的不足: 结果过少或者过多 ▪布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 ▪查询 1 (布尔或操作): [standard user dlink 650] ▪→ 200,000 个结果 – 太多 ▪查询2 (布尔与操作): [standard user dlink 650 no card found] ▪→ 0 个结果 – 太少 ▪在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询 6

排序式检索 排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多 前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前

7 排序式检索 ▪排序式检索可以避免产生过多或者过少的结果 ▪大规模的返回结果可以通过排序技术来避免 ▪只需要显示前10条结果 ▪不会让用户感觉到信息太多 ▪前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前 7

排序式检索中的评分技术 "我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 如何实现? 通常做法是对每个查询文档对赋一个[,1之间的分值 该分值度量了文档和查询的匹配程度 怎么做?

8 排序式检索中的评分技术 ▪我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 ▪如何实现? ▪通常做法是对每个查询-文档对赋一个[0, 1]之间的分值 ▪该分值度量了文档和查询的匹配程度 ▪怎么做? 8

查询-文档匹配评分计算 如何计算查询文档的匹配得分?原则 先从单词项查询开始 若该词项不出现在文档当中,该文档得分应该 为0 该词项在文档中出现越多,则得分越高

9 查询-文档匹配评分计算 ▪如何计算查询-文档的匹配得分?原则 ▪先从单词项查询开始 ▪若该词项不出现在文档当中,该文档得分应该 为0 ▪该词项在文档中出现越多,则得分越高 9

提纲 排序式检索 词项频率 3.t-idf权重计算 4.向量空间模型

提纲 10 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型

二值关联矩阵 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY 1110111 1111000 0000011 0110011 0010011 1010010 WORSER 每篇文档可以看成是一个二值的向量∈{0,1 11

11 二值关联矩阵 每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V| 11 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共50页,可试读17页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有