2 信息检索模型(2/2) 根据信息论原理，信息单位出现的频率越大，携

正在加载图片...

信息检索模型(2/2) 原理髋優殺鷂碼x獰旻醫棼躊徨霰大迁勰睥薛醫醫∵·出 ■根据TF+DF公式,文档集中包含某一词条薇案x键高额键向mDFe可以鞍为:m 的文档越多,说明它区分文档类别属性的能力越低,其权值越小率多少是中:出表示单词的文规 Document Frequency? 语言中的统计特性,所以少量新文档加入对它影响很小,可 ■另一方面,某一文档中某一词条出现的频 d中的出现频率,那么文档d中关键词t的权重可率越高,说明它区分文档内容属性的能力 ght(t, d)=TF(L d)*IDF(t) 越强,其权值越大來说是一个全屙权值,而TF(d则是单词在文档d中的唾信息检索系统的评价标准 Wveb搜索引擎的难点要考虑的问题,比如算系统,重要的效率指标通常 ■数据口数据规模巨大且增长快比如,Web上的网页量级是b画on,中国的wb页面就有几十亿! 系统的查询吞吐量( Request throughput) Web的异构性 ■“效果关注用户需求的满足程度,对于信息检索系统通常口多种多样口盒券为检索结果集中的相关文档占整个文档全集中的相关口非结构化和半结构化数据口彙薷窑爻檎棼琵中与用户查通相关的文档古整个检索结比如,文本数据和XML数据 ■用户口素纔是背霜奖畜1另相关是确在意难秦举签空率如何表达查询需求如何解释查询结果? Wveb搜索引擎体系结构2 信息检索模型(2/2) 根据信息论原理，信息单位出现的频率越大，携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小，比如汉语中的“的”，英语中的 “the”。基于这一原理，“逆文本频率指数”（Inverse Document Frequency, IDF）通常被用来计算关键词的权重。关键词t的IDF值可以被表示为： IDF(t) = log( N/ df(t) ) 其中N是所有文档总数， df(t)表示单词t的文档频率(Document Frequency)，即单词t在多少篇文档中出现。 IDF是一个单词在语言中的统计特性，所以少量新文档加入对它影响很小，可以一次计算后作为单词的属性使用。把TF(t, d)定义为单词t在文档d中的出现频率，那么文档d中关键词t的权重可以表示为： Weight(t, d) = TF(t, d) * IDF(t) 其中，IDF(t)对单词t来说是一个全局权值，而TF(t, d)则是单词t在文档d中的局部权值。原理根据TF*IDF公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。信息检索系统的评价标准 “效率”几乎是任何计算机系统都需要考虑的问题，比如算法的时空效率，对于信息检索系统，重要的效率指标通常有：系统的查询响应时间（Response time）系统的查询吞吐量（Request throughput）。 “效果”关注用户需求的满足程度，对于信息检索系统通常有两个指标：查全率（Recall）和查准率（Precision）。查全率定义为检索结果集中的相关文档占整个文档全集中的相关文档的百分比查准率定义为检索结果集中与用户查询相关的文档占整个检索结果中所有文档的百分比。查全率是衡量检索系统取回相关信息的能力，查准率是衡量检索系统拒绝非相关信息的能力。实验证明，在信息检索中，查全率和查准率之间存在着相反的相互依赖关系，即查准率和查全率往往不能两全其美，通常查准率高时，查全率低；查全率高时，查准率低。 Web搜索引擎的难点数据数据规模巨大且增长快比如，Web上的网页量级是billion，中国的web页面就有几十亿！ Web的异构性多种多样文本、图片、视频、音频等非结构化和半结构化数据比如，文本数据和XML数据用户如何表达查询需求？如何解释查询结果？ Internet growth 0 5000000 10000000 15000000 20000000 25000000 30000000 35000000 40000000 Sep-69 Sep-72 Sep-75 Sep-78 Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Hosts Web搜索引擎体系结构 Query Engine Central Index indexer Webpages crawlers Query Ranked List of URLs

<<向上翻页向下翻页>>

点击下载：北京大学：《数据结构与算法》课程教学资源（实习讲义）搜索引擎技术介绍