第2卷第1期 智能系统学报 Vol.2 Ng 1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 基于非内容信息的网络关键资源有效定位 刘奕群,张敏,马少平 (清华大学智能技术与系统国家重点实验室,北京100084) 摘要:网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到wb上一小部分数据,而其中又充斥着大 量的低质量信息.如何在用户查询无关的条件下找到Wb上高质量的关键资源,是Web信息检索面临的挑战.基于 大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征 进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(T℉EC)标准评测平台上进行的超 过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Wb关键信息;在仅为 全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少 的索引量获取较高的检索性能是完全可能的 关键词:网络信息检索;关键资源页面:主题过滤:机器学习 中图分类号:TP181,TP391.3文献标识码:A文章编号:16734785(2007)01-004508 Web key resource page selection based on non-content information LIU Yi-qun,ZHAN G Min,MA Shao-ping (State Key Lab of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Information growth makes it impossible for search engines to crawl and index all pages on the Web.Meanwhile indexed page set is filled with low quality information and spam.It is quite a challenge to select high quality Web pages(key resource pages)query-independently.With analysis in nomcontent fea- tures of key resources,a pre-selection method was introduced in topic distillation research.A decision tree was constructed to locate key resource pages using query-independent nomcontent features including inde- gree,document length,URL-type and two novel proposed features involving site's self-link structure a- nalysis.Although the result page set contained only about 20 pages of the whole collection,it covered more than 70%of key resources.Furthermore,information retrieval on this page set made more than 60% improvement with respect to that on all pages.It shows an effective way to get better performance in topic distillation with a smaller data set. Key words:web information retrieval;key resource page;topic distillation;link structure analysis 当前网络信息检索技术面临的最大挑战来自网静态页面数目也将超过200亿.容易想象,在未来很 络信息环境本身.由于网络数据的大量膨胀,目前己 长的时间里,随着网络技术在更多国家中得到发展」 经没有任何搜索引擎能够索引到Web上的所有网 Web数据将继续其增长趋势,这对数据收集、索引 页.根据Sullivan等的评测),2003年2月时, 的建立更新及检索都带来几乎无法逾越的障碍」 Google是世界上索引量最大的搜索引擎(索引到33 然而,Web信息的一大特点是其内容质量参差 亿Web页面).但即使是按照加州大学伯克利分校 不齐.Google公司的Henzinger等人指出1:大量 How Much Info计划II的保守估计,当时的Web仅 冗余信息、低质量信息与Web中的有用信息鱼龙混 杂,给现代搜索引擎的发展带来了极大的问题.一方 收稿日期:200604-23. 面,由于网络数据的极大丰富,无法索引到所有的有 基金项目:国家重点基础研究(973)资助项目(2004CB318108);国家 自然科学基金资助项目(60223004,60321002,60303005, 用页面,另一方面,占用宝贵收集时间和存储空间的 60503064):教育部科学技术研究重点资助项目(104236). 数据却有许多是低质量的.因此Henzinger等人将 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 2 卷第 1 期 智 能 系 统 学 报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 基于非内容信息的网络关键资源有效定位 刘奕群 ,张 敏 ,马少平 (清华大学 智能技术与系统国家重点实验室 ,北京 100084) 摘 要 :网络信息的爆炸式增长 ,使得当前任何搜索引擎都只可能索引到 Web 上一小部分数据 ,而其中又充斥着大 量的低质量信息. 如何在用户查询无关的条件下找到 Web 上高质量的关键资源 ,是 Web 信息检索面临的挑战. 基于 大规模网页统计的方法发现 ,多种网页非内容特征可以用于关键资源页面的定位 ,利用决策树学习方法对这些特征 进行综合 ,即可以实现用户查询无关的关键资源页面定位. 在文本信息检索会议( TREC) 标准评测平台上进行的超 过 19 G文本数据规模的实验表明 ,这种定位方法能够利用 20 %左右的页面覆盖超过 70 %的 Web 关键信息 ;在仅为 全部页面 24 %的关键资源集合上的检索结果 ,比在整个页面集合上的检索有超过 60 %的性能提高. 这说明使用较少 的索引量获取较高的检索性能是完全可能的. 关键词 :网络信息检索 ;关键资源页面 ;主题过滤 ;机器学习 中图分类号 : TP181 ,TP391. 3 文献标识码 :A 文章编号 :167324785 (2007) 0120045208 Web key resource page selection based on non2content information L IU Yi2qun ,ZHAN G Min ,MA Shao2ping (State Key Lab of Intelligent Technology and Systems , Tsinghua University , Beijing 100084 , China) Abstract :Information growt h makes it impo ssible for search engines to crawl and index all pages on t he Web. Meanwhile indexed page set is filled with low quality information and spam. It is quite a challenge to select high quality Web pages (key resource pages) query2independently. Wit h analysis in non2content fea2 t ures of key resources , a pre2selection met hod was introduced in topic distillation research. A decision tree was constructed to locate key resource pages using query2independent non2content feat ures including in2de2 gree , document lengt h , URL2type and two novel proposed features involving site’s self2link struct ure a2 nalysis. Although t he result page set contained only about 20 % pages of the whole collection , it covered more t han 70 % of key resources. Furt hermore , information retrieval on this page set made more t han 60 % improvement with respect to t hat on all pages. It shows an effective way to get better performance in topic distillation wit h a smaller data set. Keywords :web information retrieval ; key resource page ; topic distillation ; link struct ure analysis 收稿日期 :2006204223. 基金项目 :国家重点基础研究(973) 资助项目(2004CB318108) ;国家 自然科学基金资助项目(60223004 , 60321002 , 60303005 , 60503064) ;教育部科学技术研究重点资助项目(104236) . 当前网络信息检索技术面临的最大挑战来自网 络信息环境本身. 由于网络数据的大量膨胀 ,目前已 经没有任何搜索引擎能够索引到 Web 上的所有网 页. 根 据 Sullivan 等 的 评 测[1 ] , 2003 年 2 月 时 , Google 是世界上索引量最大的搜索引擎(索引到 33 亿 Web 页面) . 但即使是按照加州大学伯克利分校 How Much Info 计划[2 ]的保守估计 ,当时的 Web 仅 静态页面数目也将超过 200 亿. 容易想象 ,在未来很 长的时间里 ,随着网络技术在更多国家中得到发展 , Web 数据将继续其增长趋势 ,这对数据收集、索引 的建立更新及检索都带来几乎无法逾越的障碍. 然而 ,Web 信息的一大特点是其内容质量参差 不齐. Google 公司的 Henzinger 等人指出[3 ] :大量 冗余信息、低质量信息与 Web 中的有用信息鱼龙混 杂 ,给现代搜索引擎的发展带来了极大的问题. 一方 面 ,由于网络数据的极大丰富 ,无法索引到所有的有 用页面 ;另一方面 ,占用宝贵收集时间和存储空间的 数据却有许多是低质量的. 因此 Henzinger 等人将