正在加载图片...
信息检索模型(2/2) 原理 髋優殺鷂碼x獰旻醫棼躊徨霰大迁勰睥薛醫醫∵·出 ■根据TF+DF公式,文档集中包含某一词条 薇案x键高额键向mDFe可以鞍为:m 的文档越多,说明它区分文档类别属性的 能力越低,其权值越小 率多少是中:出表示单词的文规 Document Frequency? 语言中的统计特性,所以少量新文档加入对它影响很小,可 ■另一方面,某一文档中某一词条出现的频 d中的出现频率,那么文档d中关键词t的权重可 率越高,说明它区分文档内容属性的能力 ght(t, d)=TF(L d)*IDF(t) 越强,其权值越大 來说是一个全屙权值,而TF(d则是单词在文档d中的 唾 信息检索系统的评价标准 Wveb搜索引擎的难点 要考虑的问题,比如算 系统,重要的效率指标通常 ■数据 口数据规模巨大且增长快 比如,Web上的网页量级是b画on,中国的wb页面就有几十亿! 系统的查询吞吐量( Request throughput) Web的异构性 ■“效果关注用户需求的满足程度,对于信息检索系统通常 口多种多样 口盒券 为检索结果集中的相关文档占整个文档全集中的相关 口非结构化和半结构化数据 口彙薷窑爻檎棼琵中与用户查通相关的文档古整个检索结 比如,文本数据和XML数据 ■用户 口素纔是背霜奖畜1另相关是确在意难秦举签空率 如何表达查询需求 如何解释查询结果? Wveb搜索引擎体系结构2 信息检索模型(2/2) „ 根据信息论原理,信息单位出现的频率越大,携带的信息越小。这就是说出 现频度很高的词对于文档区分的作用很小,比如汉语中的“的”,英语中的 “the”。 „ 基于这一原理,“逆文本频率指数”(Inverse Document Frequency, IDF)通 常被用来计算关键词的权重。关键词t的IDF值可以被表示为: IDF(t) = log( N/ df(t) ) 其中N是所有文档总数, df(t)表示单词t的文档频率(Document Frequency), 即单词t在多少篇文档中出现。 „ IDF是一个单词在语言中的统计特性,所以少量新文档加入对它影响很小,可 以一次计算后作为单词的属性使用。 „ 把TF(t, d)定义为单词t在文档d中的出现频率,那么文档d中关键词t的权重可 以表示为: Weight(t, d) = TF(t, d) * IDF(t) 其中,IDF(t)对单词t来说是一个全局权值,而TF(t, d)则是单词t在文档d中的 局部权值。 原理 „ 根据TF*IDF公式,文档集中包含某一词条 的文档越多,说明它区分文档类别属性的 能力越低,其权值越小; „ 另一方面,某一文档中某一词条出现的频 率越高,说明它区分文档内容属性的能力 越强,其权值越大。 信息检索系统的评价标准 „ “效率”几乎是任何计算机系统都需要考虑的问题,比如算 法的时空效率,对于信息检索系统,重要的效率指标通常 有: … 系统的查询响应时间(Response time) … 系统的查询吞吐量(Request throughput)。 „ “效果”关注用户需求的满足程度,对于信息检索系统通常 有两个指标:查全率(Recall)和查准率(Precision)。 … 查全率定义为检索结果集中的相关文档占整个文档全集中的相关 文档的百分比 … 查准率定义为检索结果集中与用户查询相关的文档占整个检索结 果中所有文档的百分比。 … 查全率是衡量检索系统取回相关信息的能力,查准率是衡量检索 系统拒绝非相关信息的能力。实验证明,在信息检索中,查全率 和查准率之间存在着相反的相互依赖关系,即查准率和查全率往 往不能两全其美,通常查准率高时,查全率低;查全率高时,查 准率低。 Web搜索引擎的难点 „ 数据 … 数据规模巨大且增长快 „ 比如,Web上的网页量级是billion,中国的web页面就有几十亿! … Web的异构性 … 多种多样 „ 文本、图片、视频、音频等 … 非结构化和半结构化数据 „ 比如,文本数据和XML数据 „ 用户 … 如何表达查询需求? … 如何解释查询结果? Internet growth 0 5000000 10000000 15000000 20000000 25000000 30000000 35000000 40000000 Sep-69 Sep-72 Sep-75 Sep-78 Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Hosts Web搜索引擎体系结构 Query Engine Central Index indexer Webpages crawlers Query Ranked List of URLs
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有