寻找主题无关的判断页面质量的方法作为搜索引擎技术发展的最大挑战之一. 已

正在加载图片...

·46 智能系统学报第2卷寻找主题无关的判断页面质量的方法作为搜索引擎根据TREC网络信息检索部分的较权威的定技术发展的最大挑战之一义51，关键资源页面应当是某个关键站点的入口页己有的网络信息检索研究，对用户笼统概念上面，此站点需要提供关于某个主题的可靠信息的“高质量页面”给出了较科学明确的定义能够为需要特别指出的是，这里所提到的入口页面不某个主题提供高质量信息或者链接的少部分页面被一定是通常意义上的“主页”，它可能是大规模站点称为这个主题的关键资源页面，而寻找关键资源页的接入页面，也有可能是某个子站点或者某一类页面的任务称为主题过滤(topic distillation).反映国面集合的接入页面.如http:/www.nida.nih.govW 际信息检索研究最高水平的SIGIR(International drugpages/marijuana.html是美国药物滥用治疗研 ACM SIGIR Conference on Research and Develop- 究所(NDA)关于大麻方面信息的关键资源页面， ment in Information Retrieval)会议上.，主题过滤技但它并不是一个通常意义上的“主页”，这个页面只术无论从论文数目还是质量来看，一直都是近年讨是为用户提供一个NDA站点内部相关信息页面论的热点.作为信息检索领域权威评测会议的的访问索引」 TREC,也从2002年开始，在其Web信息检索部从定义中可以看出，关键资源页面之所以“关分，使用主题过滤任务代替了传统的相关资源查找键”，是因为它提供给用户一个关于某个主题的可靠任务1.查找关键资源，是当前网络信息检索的发信息的入口.用户通过关键资源页面，可以比较快捷展热点，也已经获得了一些卓有成效的理论研究和的查找到所需要的信息.同时，某个主题的关键资源实验结果4，！但总的来说，主题过滤研究的发展还页面数要比其相关页面数少得多（相关页面动辄成停留在一个比较低的水平上，作为评价标准的前10 百上千，而关键资源页面往往只有几个到十几个)，位结果检索精度(Precision at 10 documents, 这也方便用户将注意力集中到少数一些与自己的查 P@10)一直在20%左右徘徊4.s),而表现网络数据询主题最贴切的页面上不同于普通数据的许多非文本内容特征也没有得到关于所有可能的主题的关键资源页面的总和充分的考察就构成了网络环境中的关键资源页面集合.可见这文中对关键资源页面的若干非内容特征进行了个页面集合只占网络页面全集的小部分，其余大部考察，这些特征包括已有一定研究9·山，但尚未对分页面则是信息量较少的页面，以及包含错误和冗关键资源页面进行专门考察的UL分级特征、网余信息的页面这说明，定位关键资源页面集合，可页文本长度特征、入链接个数特征，也包括了根据关以起到在网络信息环境中去粗取精的作用.这也就键资源定义提出的新特征：站点自身出链接特征.关是文中关注关键资源页面判定，希望能够通过非内键资源页面在这些特征上的分布与普通网络页面有容特征进行用户查询主题无关的定位关键资源页面着明显的差异，从而使查询主题无关的判定关键资的原因源页面成为可能.综合利用非内容特征进行决策树 1.2Web页面非内容特征研究的已有成果学习，使得人们能够从大规模测试页面全集中提取文中考察Web页面非内容特征的目的，是试图出一个关键资源页面集合.在关键资源页面集合上利用这些特征进行主题无关的关键资源定位.尽管进行的检索证明：可以使用较少的页面索引量获得对于站点主页非内容特征的考察，已经有一定的基较高的检索质量础，但是站点主页与关键资源页面的巨大差异，使文中的工作很少能够借鉴一些现有的研究结论.对于 1相关研究工作概述关键资源页面非内容特征的考察，只能是从头起步 1.1主题过滤与关键资源页面当前关于网页非内容特征的研究成果，大多是主题过滤(topic distillation)技术以查找关键资在主页查找工作的推动下得到的.主页查找即站点源页面为目的，与查找相关页面的传统检索技术不查找或导航类查找，按照Broder的统计]，此类查同，它强调检索结果页面应当是用户获取信息的重找在网络搜索引擎的日常查询中占有约20%的份要途径而非唯一来源.用户可以通过访问结果页面额.由于主页有明显的非内容特征如UL特征、链接以及与其相链接的其他页面来获得完整的信息，而特征等，在主页查找中使用这些特征也成为了必然不是从有限的页面内资源中获取知识.主题过滤技链接特征一直是人们考察非内容特征的重点，术的提出，是为了用更有限的页面提供给用户更多经典的链接分析方法，如PageRank和HITS算法，分的关键信息别作为Google和IBM CLEVER的核心算法，在促进网 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net寻找主题无关的判断页面质量的方法作为搜索引擎技术发展的最大挑战之一. 已有的网络信息检索研究 ,对用户笼统概念上的“高质量页面”给出了较科学明确的定义. 能够为某个主题提供高质量信息或者链接的少部分页面被称为这个主题的关键资源页面 ,而寻找关键资源页面的任务称为主题过滤 (topic distillation) . 反映国际信息检索研究最高水平的 SIGIR ( International ACM SIGIR Conference on Research and Develop2 ment in Information Retrieval) 会议上 ,主题过滤技术无论从论文数目还是质量来看 ,一直都是近年讨论的热点. 作为信息检索领域权威评测会议的 TREC ,也从 2002 年开始 ,在其 Web 信息检索部分 ,使用主题过滤任务代替了传统的相关资源查找任务[ 4 - 6 ] . 查找关键资源 ,是当前网络信息检索的发展热点 ,也已经获得了一些卓有成效的理论研究和实验结果[4 - 8 ] . 但总的来说 ,主题过滤研究的发展还停留在一个比较低的水平上 ,作为评价标准的前 10 位结果检索精度 ( Precision at 10 documents , P @10) 一直在 20 %左右徘徊[4 - 5 ] ,而表现网络数据不同于普通数据的许多非文本内容特征也没有得到充分的考察. 文中对关键资源页面的若干非内容特征进行了考察 ,这些特征包括已有一定研究[ 9 - 11 ] ,但尚未对关键资源页面进行专门考察的 URL 分级特征、网页文本长度特征、入链接个数特征 ,也包括了根据关键资源定义提出的新特征 :站点自身出链接特征. 关键资源页面在这些特征上的分布与普通网络页面有着明显的差异 ,从而使查询主题无关的判定关键资源页面成为可能. 综合利用非内容特征进行决策树学习 ,使得人们能够从大规模测试页面全集中提取出一个关键资源页面集合. 在关键资源页面集合上进行的检索证明 :可以使用较少的页面索引量获得较高的检索质量. 1 相关研究工作概述 1. 1 主题过滤与关键资源页面主题过滤(topic distillation) 技术以查找关键资源页面为目的 ,与查找相关页面的传统检索技术不同 ,它强调检索结果页面应当是用户获取信息的重要途径而非唯一来源. 用户可以通过访问结果页面以及与其相链接的其他页面来获得完整的信息 ,而不是从有限的页面内资源中获取知识. 主题过滤技术的提出 ,是为了用更有限的页面提供给用户更多的关键信息. 根据 TREC 网络信息检索部分的较权威的定义[5 ] ,关键资源页面应当是某个关键站点的入口页面 ,此站点需要提供关于某个主题的可靠信息. 需要特别指出的是 ,这里所提到的入口页面不一定是通常意义上的“主页”,它可能是大规模站点的接入页面 ,也有可能是某个子站点或者某一类页面集合的接入页面. 如 http :/ / www. nida. nih. gov/ drugpages/ marijuana. html 是美国药物滥用治疗研究所(NIDA) 关于大麻方面信息的关键资源页面 , 但它并不是一个通常意义上的“主页”,这个页面只是为用户提供一个 NIDA 站点内部相关信息页面的访问索引. 从定义中可以看出 ,关键资源页面之所以“关键”,是因为它提供给用户一个关于某个主题的可靠信息的入口. 用户通过关键资源页面 ,可以比较快捷的查找到所需要的信息. 同时 ,某个主题的关键资源页面数要比其相关页面数少得多 (相关页面动辄成百上千 ,而关键资源页面往往只有几个到十几个) , 这也方便用户将注意力集中到少数一些与自己的查询主题最贴切的页面上. 关于所有可能的主题的关键资源页面的总和 , 就构成了网络环境中的关键资源页面集合. 可见这个页面集合只占网络页面全集的小部分 ,其余大部分页面则是信息量较少的页面 ,以及包含错误和冗余信息的页面. 这说明 ,定位关键资源页面集合 ,可以起到在网络信息环境中去粗取精的作用. 这也就是文中关注关键资源页面判定 ,希望能够通过非内容特征进行用户查询主题无关的定位关键资源页面的原因. 1. 2 Web 页面非内容特征研究的已有成果文中考察 Web 页面非内容特征的目的 ,是试图利用这些特征进行主题无关的关键资源定位. 尽管对于站点主页非内容特征的考察 ,已经有一定的基础 ,但是站点主页与关键资源页面的巨大差异 ,使文中的工作很少能够借鉴一些现有的研究结论. 对于关键资源页面非内容特征的考察 ,只能是从头起步. 当前关于网页非内容特征的研究成果 ,大多是在主页查找工作的推动下得到的. 主页查找即站点查找或导航类查找 ,按照 Broder 的统计[12 ] ,此类查找在网络搜索引擎的日常查询中占有约 20 %的份额.由于主页有明显的非内容特征如 URL 特征、链接特征等 ,在主页查找中使用这些特征也成为了必然. 链接特征一直是人们考察非内容特征的重点 , 经典的链接分析方法 ,如 PageRank 和 HITS 算法 ,分别作为 Google 和 IBM CLEVER 的核心算法 ,在促进网 · 64 · 智能系统学报第 2 卷

<<向上翻页向下翻页>>

点击下载：清华大学：【智能系统】基于非内容信息的网络关键资源有效定位