北京大学：《数据结构与算法》课程教学资源（实习课件PPT）搜索引擎技术介绍

概述信息检索模型信息检索系统的评价标准 Web搜索引擎的难点 Web搜索引擎体系结构 Web Crawler 预处理索引和查找检索结果排序

团购合买资源类别：文库，文档格式：PDF，文档页数：51，文件大小：399.62KB

搜索引擎技术介绍王栋

Topics 概述 ■信息检索模型 ■信息检索系统的评价标准 ■Wveb搜索引擎的难点 ■Web搜索引擎体系结构 ■ Web crawler ■预处理索引和查找检索结果排序

Topics 概述信息检索模型信息检索系统的评价标准 Web搜索引擎的难点 Web搜索引擎体系结构 Web Crawler 预处理索引和查找检索结果排序

概述搜索引擎属于信息检索( nformation retrieva,R)范畴信息检索的基本任务口如何找到并定位特定资源? 口这些资源可能来自 Web 数据库 ■文件系统如果目标资源是Web,就称为Wveb搜索引擎口 Google,百度, Yahoo!

概述搜索引擎属于信息检索(Information Retrieval，IR)范畴信息检索的基本任务如何找到并定位特定资源？这些资源可能来自 Web 数据库文件系统 …. 如果目标资源是Web，就称为Web搜索引擎 Google，百度，Yahoo！

Web User F system Get Users Present Query Search Gathe Results Data Index Search Document Index Index Figure 1.5 A typical application integration with Lucene

信息检索模型(1/3) ■信息检索模型(| R model)可形式化地表示为一个四元组其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(q,d)是一个排序函数,它给查询q和文档d之间的相关度赋予一个排序值,即相天度评价常见的信息检索模型有: 口布尔模型( Boolean mode) 口向量空间模型( Vector Space Model) 口概率模型( Probabilistic Model) 口推理网络模型( Inference Network Mode)

信息检索模型(1/3) 信息检索模型（IR model）可形式化地表示为一个四元组：其中 D是一个文档集合， Q是一个查询集合， F是一个对文档和查询建模的框架，R(q, d) 是一个排序函数，它给查询 q和文档 d之间的相关度赋予一个排序值，即相关度评价。常见的信息检索模型有：布尔模型（Boolean Model ）向量空间模型（Vector Space Model ）概率模型（Probabilistic Model ）推理网络模型（Inference Network Model ）

信息检索模型(12) 信息检索的一个核心问题是如何决定查询和文档之间的相关度,節信息检索模型中的排序函数R(q,d)。 ■常用的相关度评价方法是向量空间模型( ector Space Model, vsm ■向量空间模型基于共有词汇假设( shared bag of words),即査询和文档都被认为是有所有关键词组成的 N维向量,相关度根据他们在向量空间中的夹角的 cosine 值表示,即 R(d, a)=cos(d, a)=d g / q 那么如何决定N维向量每一维的权重,即N维向量中每个关键词的权重呢??

信息检索模型(1/2) 信息检索的一个核心问题是如何决定查询和文档之间的相关度，即信息检索模型中的排序函数R(q,d) 。常用的相关度评价方法是向量空间模型(Vector Space Model，VSM) 向量空间模型基于共有词汇假设（shared bag of words），即查询和文档都被认为是有所有关键词组成的 N维向量，相关度根据他们在向量空间中的夹角的cosine 值表示，即 R(d, q) = cos(d, q) = d·q / |d| ×|q| 那么如何决定 N维向量每一维的权重，即 N维向量中每个关键词的权重呢？？

信息检索模型(2/2) 齪搋度閣对亨旻韁優棼躑猝續養熛亼比躞睥「謦, 就是说出 ,英语中的 the 基于这一原理,“逆文本频率指数”( nverse Document Frequency,|DF)通常被用来计算关键词的权重。关键词t的IDF值可以被表示为: IDF(t)=log( N/df(t)) 其中N是所有文档总数,dft表示单词t的文档频率( Document Frequency), 即单词t在多少篇文档中出现。 IDF是一个单词在语言中的统计特性,所以少量新文档加入对它影响很小,可以一次计算后作为单词的属性使用。把TF(t,d)定义为单词t在文档d中的出现频率,那么文档d中关键词t的权重可以表示为 Weight(t, d)=TF(t, d)*IDF(t 其中,DF(对单词t来说是一个全局权值,而TF(,d则是单词t在文档d中的局部权值

信息检索模型(2/2) 根据信息论原理，信息单位出现的频率越大，携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小，比如汉语中的 “ 的 ”，英语中的 “the”。基于这一原理， “逆文本频率指数 ” （Inverse Document Frequency, IDF）通常被用来计算关键词的权重。关键词 t 的IDF值可以被表示为： IDF(t) = log( N/ df(t) ) 其中 N是所有文档总数， df(t)表示单词 t的文档频率(Document Frequency)，即单词 t在多少篇文档中出现。 IDF是一个单词在语言中的统计特性，所以少量新文档加入对它影响很小，可以一次计算后作为单词的属性使用。把TF(t, d)定义为单词 t在文档 d中的出现频率，那么文档 d中关键词 t的权重可以表示为： Weight(t, d) = TF(t, d) * IDF(t) 其中，IDF(t)对单词 t来说是一个全局权值，而TF(t, d)则是单词 t在文档 d中的局部权值

原理根据TF*DF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小; ■另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大

原理根据TF*IDF公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大

信息检索系统的评价标准效率”几乎是任何计算机系统都需要考虑的问题,比如算法的时空效率,对于信息检索系统,重要的效率指标通常有: 口系统的查询响应时间( Response time) 口系统的查询吞吐量( Request throughput)。效果”关注用户需求的满足程度,对于信息检索系统通常有两个指标:查全率(Reca)和查准率( Precision)。口查全率定义为检索结果集中的相关文档占整个文档全集中的相关文档的百分比口查准率定义为检索结果集中与用户査询相关的文档占整个检索结果中所有文档的百分比。口紊是箱笑看約1男相关是能在意素晕衡案和查准率之间存在着相反的相互依赖关系,即查准率和査全率往能两全其美,通常查准率高时,查全率低;查全率高时,查

信息检索系统的评价标准 “效率 ”几乎是任何计算机系统都需要考虑的问题，比如算法的时空效率，对于信息检索系统，重要的效率指标通常有：系统的查询响应时间（Response time ）系统的查询吞吐量（Request throughput）。 “效果 ”关注用户需求的满足程度，对于信息检索系统通常有两个指标：查全率（Recall）和查准率（Precision）。查全率定义为检索结果集中的相关文档占整个文档全集中的相关文档的百分比查准率定义为检索结果集中与用户查询相关的文档占整个检索结果中所有文档的百分比。查全率是衡量检索系统取回相关信息的能力，查准率是衡量检索系统拒绝非相关信息的能力。实验证明，在信息检索中，查全率和查准率之间存在着相反的相互依赖关系，即查准率和查全率往往不能两全其美，通常查准率高时，查全率低；查全率高时，查准率低

Web搜索引擎的难点数据口数据规模巨大且增长快比如,Web上的网页量级是 billion,中国的Web页面就有几十亿口Web的异构性口多种多样 40000000 35000000 ■文本、图片、视频、音频等 30000000 口非结构化和半结构化数据 25000000 20000000 ■比如,文本数据和XML数据 0000000 用户口如何表达查询需求? 口如何解释查询结果?

Web搜索引擎的难点数据数据规模巨大且增长快比如，Web上的网页量级是billion，中国的web页面就有几十亿！ Web的异构性多种多样文本、图片、视频、音频等非结构化和半结构化数据比如，文本数据和XML数据用户如何表达查询需求？如何解释查询结果？ Internet growth 0 5000000 10000000 15000000 20000000 25000000 30000000 35000000 40000000 Sep-69 Sep-72 Sep-75 Sep-78 Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Hosts

点击下载完整版文档（PDF格式）

共51页，可试读17页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录