正在加载图片...
·46 智能系统学报 第2卷 寻找主题无关的判断页面质量的方法作为搜索引擎 根据TREC网络信息检索部分的较权威的定 技术发展的最大挑战之一 义51,关键资源页面应当是某个关键站点的入口页 己有的网络信息检索研究,对用户笼统概念上 面,此站点需要提供关于某个主题的可靠信息 的“高质量页面”给出了较科学明确的定义能够为 需要特别指出的是,这里所提到的入口页面不 某个主题提供高质量信息或者链接的少部分页面被 一定是通常意义上的“主页”,它可能是大规模站点 称为这个主题的关键资源页面,而寻找关键资源页 的接入页面,也有可能是某个子站点或者某一类页 面的任务称为主题过滤(topic distillation).反映国 面集合的接入页面.如http:/www.nida.nih.govW 际信息检索研究最高水平的SIGIR(International drugpages/marijuana.html是美国药物滥用治疗研 ACM SIGIR Conference on Research and Develop- 究所(NDA)关于大麻方面信息的关键资源页面, ment in Information Retrieval)会议上.,主题过滤技 但它并不是一个通常意义上的“主页”,这个页面只 术无论从论文数目还是质量来看,一直都是近年讨 是为用户提供一个NDA站点内部相关信息页面 论的热点.作为信息检索领域权威评测会议的 的访问索引」 TREC,也从2002年开始,在其Web信息检索部 从定义中可以看出,关键资源页面之所以“关 分,使用主题过滤任务代替了传统的相关资源查找 键”,是因为它提供给用户一个关于某个主题的可靠 任务1.查找关键资源,是当前网络信息检索的发 信息的入口.用户通过关键资源页面,可以比较快捷 展热点,也已经获得了一些卓有成效的理论研究和 的查找到所需要的信息.同时,某个主题的关键资源 实验结果4,!但总的来说,主题过滤研究的发展还 页面数要比其相关页面数少得多(相关页面动辄成 停留在一个比较低的水平上,作为评价标准的前10 百上千,而关键资源页面往往只有几个到十几个), 位结果检索精度(Precision at 10 documents, 这也方便用户将注意力集中到少数一些与自己的查 P@10)一直在20%左右徘徊4.s),而表现网络数据 询主题最贴切的页面上 不同于普通数据的许多非文本内容特征也没有得到 关于所有可能的主题的关键资源页面的总和 充分的考察 就构成了网络环境中的关键资源页面集合.可见这 文中对关键资源页面的若干非内容特征进行了 个页面集合只占网络页面全集的小部分,其余大部 考察,这些特征包括已有一定研究9·山,但尚未对 分页面则是信息量较少的页面,以及包含错误和冗 关键资源页面进行专门考察的UL分级特征、网 余信息的页面这说明,定位关键资源页面集合,可 页文本长度特征、入链接个数特征,也包括了根据关 以起到在网络信息环境中去粗取精的作用.这也就 键资源定义提出的新特征:站点自身出链接特征.关 是文中关注关键资源页面判定,希望能够通过非内 键资源页面在这些特征上的分布与普通网络页面有 容特征进行用户查询主题无关的定位关键资源页面 着明显的差异,从而使查询主题无关的判定关键资 的原因 源页面成为可能.综合利用非内容特征进行决策树 1.2Web页面非内容特征研究的已有成果 学习,使得人们能够从大规模测试页面全集中提取 文中考察Web页面非内容特征的目的,是试图 出一个关键资源页面集合.在关键资源页面集合上 利用这些特征进行主题无关的关键资源定位.尽管 进行的检索证明:可以使用较少的页面索引量获得 对于站点主页非内容特征的考察,已经有一定的基 较高的检索质量 础,但是站点主页与关键资源页面的巨大差异,使文 中的工作很少能够借鉴一些现有的研究结论.对于 1相关研究工作概述 关键资源页面非内容特征的考察,只能是从头起步 1.1主题过滤与关键资源页面 当前关于网页非内容特征的研究成果,大多是 主题过滤(topic distillation)技术以查找关键资 在主页查找工作的推动下得到的.主页查找即站点 源页面为目的,与查找相关页面的传统检索技术不 查找或导航类查找,按照Broder的统计],此类查 同,它强调检索结果页面应当是用户获取信息的重 找在网络搜索引擎的日常查询中占有约20%的份 要途径而非唯一来源.用户可以通过访问结果页面 额.由于主页有明显的非内容特征如UL特征、链接 以及与其相链接的其他页面来获得完整的信息,而 特征等,在主页查找中使用这些特征也成为了必然 不是从有限的页面内资源中获取知识.主题过滤技 链接特征一直是人们考察非内容特征的重点, 术的提出,是为了用更有限的页面提供给用户更多 经典的链接分析方法,如PageRank和HITS算法,分 的关键信息 别作为Google和IBM CLEVER的核心算法,在促进网 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net寻找主题无关的判断页面质量的方法作为搜索引擎 技术发展的最大挑战之一. 已有的网络信息检索研究 ,对用户笼统概念上 的“高质量页面”给出了较科学明确的定义. 能够为 某个主题提供高质量信息或者链接的少部分页面被 称为这个主题的关键资源页面 ,而寻找关键资源页 面的任务称为主题过滤 (topic distillation) . 反映国 际信息检索研究最高水平的 SIGIR ( International ACM SIGIR Conference on Research and Develop2 ment in Information Retrieval) 会议上 ,主题过滤技 术无论从论文数目还是质量来看 ,一直都是近年讨 论的热点. 作为信息检索领域权威评测会议的 TREC ,也从 2002 年开始 ,在其 Web 信息检索部 分 ,使用主题过滤任务代替了传统的相关资源查找 任务[ 4 - 6 ] . 查找关键资源 ,是当前网络信息检索的发 展热点 ,也已经获得了一些卓有成效的理论研究和 实验结果[4 - 8 ] . 但总的来说 ,主题过滤研究的发展还 停留在一个比较低的水平上 ,作为评价标准的前 10 位 结 果 检 索 精 度 ( Precision at 10 documents , P @10) 一直在 20 %左右徘徊[4 - 5 ] ,而表现网络数据 不同于普通数据的许多非文本内容特征也没有得到 充分的考察. 文中对关键资源页面的若干非内容特征进行了 考察 ,这些特征包括已有一定研究[ 9 - 11 ] ,但尚未对 关键资源页面进行专门考察的 URL 分级特征、网 页文本长度特征、入链接个数特征 ,也包括了根据关 键资源定义提出的新特征 :站点自身出链接特征. 关 键资源页面在这些特征上的分布与普通网络页面有 着明显的差异 ,从而使查询主题无关的判定关键资 源页面成为可能. 综合利用非内容特征进行决策树 学习 ,使得人们能够从大规模测试页面全集中提取 出一个关键资源页面集合. 在关键资源页面集合上 进行的检索证明 :可以使用较少的页面索引量获得 较高的检索质量. 1 相关研究工作概述 1. 1 主题过滤与关键资源页面 主题过滤(topic distillation) 技术以查找关键资 源页面为目的 ,与查找相关页面的传统检索技术不 同 ,它强调检索结果页面应当是用户获取信息的重 要途径而非唯一来源. 用户可以通过访问结果页面 以及与其相链接的其他页面来获得完整的信息 ,而 不是从有限的页面内资源中获取知识. 主题过滤技 术的提出 ,是为了用更有限的页面提供给用户更多 的关键信息. 根据 TREC 网络信息检索部分的较权威的定 义[5 ] ,关键资源页面应当是某个关键站点的入口页 面 ,此站点需要提供关于某个主题的可靠信息. 需要特别指出的是 ,这里所提到的入口页面不 一定是通常意义上的“主页”,它可能是大规模站点 的接入页面 ,也有可能是某个子站点或者某一类页 面集合的接入页面. 如 http :/ / www. nida. nih. gov/ drugpages/ marijuana. html 是美国药物滥用治疗研 究所(NIDA) 关于大麻方面信息的关键资源页面 , 但它并不是一个通常意义上的“主页”,这个页面只 是为用户提供一个 NIDA 站点内部相关信息页面 的访问索引. 从定义中可以看出 ,关键资源页面之所以“关 键”,是因为它提供给用户一个关于某个主题的可靠 信息的入口. 用户通过关键资源页面 ,可以比较快捷 的查找到所需要的信息. 同时 ,某个主题的关键资源 页面数要比其相关页面数少得多 (相关页面动辄成 百上千 ,而关键资源页面往往只有几个到十几个) , 这也方便用户将注意力集中到少数一些与自己的查 询主题最贴切的页面上. 关于所有可能的主题的关键资源页面的总和 , 就构成了网络环境中的关键资源页面集合. 可见这 个页面集合只占网络页面全集的小部分 ,其余大部 分页面则是信息量较少的页面 ,以及包含错误和冗 余信息的页面. 这说明 ,定位关键资源页面集合 ,可 以起到在网络信息环境中去粗取精的作用. 这也就 是文中关注关键资源页面判定 ,希望能够通过非内 容特征进行用户查询主题无关的定位关键资源页面 的原因. 1. 2 Web 页面非内容特征研究的已有成果 文中考察 Web 页面非内容特征的目的 ,是试图 利用这些特征进行主题无关的关键资源定位. 尽管 对于站点主页非内容特征的考察 ,已经有一定的基 础 ,但是站点主页与关键资源页面的巨大差异 ,使文 中的工作很少能够借鉴一些现有的研究结论. 对于 关键资源页面非内容特征的考察 ,只能是从头起步. 当前关于网页非内容特征的研究成果 ,大多是 在主页查找工作的推动下得到的. 主页查找即站点 查找或导航类查找 ,按照 Broder 的统计[12 ] ,此类查 找在网络搜索引擎的日常查询中占有约 20 %的份 额.由于主页有明显的非内容特征如 URL 特征、链接 特征等 ,在主页查找中使用这些特征也成为了必然. 链接特征一直是人们考察非内容特征的重点 , 经典的链接分析方法 ,如 PageRank 和 HITS 算法 ,分 别作为 Google 和 IBM CLEVER 的核心算法 ,在促进网 · 64 · 智 能 系 统 学 报 第 2 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有