·52 智能系统学报 第2卷 关键资源页面提取方法也带来了新的问题,从 evidence in home page finding [J ]In ACM Transac- 文中的实验结果中可以看出,提取出的关键资源页 tions on Information Systems TOIS),2003,21 (3): 面集合在检索特征上与web页面全集有明显的不 286.313 同,因此系统考察己有检索方法在关键资源页面集 [10]WESTERVELD T,HIEMSTRA D,KRAAD W.Re- 合上的表现,从而确立这个集合上可以应用的方法 trieving web pages using content,links,URLs and an- 体系是很有必要的.需要考察的可能内容包括:各种 chors [A].In Voorhees and Harman [7][C].[s.1.] 己有检索模型的性能如何;各种链接分析算法是否 2000. 有效;通常使用的链接文本检索方法是否能取得性 [11]KRAAU W,WESTERVELD T,HIEMSTRA D.The 能的提高等等.此外,尽管文中在评价关键资源页面 importance of prior probabilities for entry page search 集合本身的质量上完成了一些工作,但仍然缺乏从 [A].In 25th annual international ACM SIGIR confer- 检索性能层次评价集合质量的尝试.这些可能都是 ence on research and development in information retriev- 未来研究工作的方向」 al [C].pages 27-34. [12]BRODER A.A taxonomy of Web search [J ]SIGIR 参考文献: Forum,2002,36(2):1-8. [1]SULLIVAN D.Search engine sizes EB/OL ]From [13 ]CRASWELL N,HAWKING D.Stephen robertson.effec- search engine watch web site http:/searchenginewatch. tive site finding using link anchor information [A].In 24th com/reports/article.php/2156481,2005-01 -28/2005 ACM-SIGIR Conference on Research and Development in -06-18. Information Retrieval [C].pages 250-257. [2]L YMAN P,HAL R V.How much information 2003 [14]MITCHELL T M.Chapter 3:Decision Tree Learning, EB/OL ]On line at:http://www.sims.berkeley. in Machine Learning M].McGraw-Hill International cdu/how-muchrinfo2003,2003-10-30/2005-06- Editions,1997. [15]RU SBERGEN C J.Information Retireval M].Butter- 18. [3]MONIKA R H,MOTWANI R,SILVERSTEIN C. worths,London,1979 Challenges in web search engines [A ]Georg Gottlob, [16]HA WKIN GD,CRASWELL N.Overview of the TREC Toby Walsh eds.D CAI-03,Proceedings of the Eigh- -2001 web track [A].In Voorhees and Harman [7] teenth International Joint Conference on Artificial Intelli- [C1.[s.1.],2001. gence [C].San Francisco:Morgan Kaufmann Press, 作者简介: 2003. 刘奕群,男,1981年生,博士研究 [4]HAWKINGD,CRASWELL N.Overview of the TREC 生.主要研究方向为信息检索、机器学 习与网络用户行为分析.发表学术论文 -2002 web track [A ]In Voorhees and Buckland [6] 10余篇」 [C].[s.1.】,2002 [5]HAW KIN G D,CRASWELL N.Overview of the TREC Email:liuyiqun03 @mails.tsing- 2003 web track EB/OL ]On line at:http://trec.nist. hua.edu.cn. gov/pubs/trec12/papers/WEB.OVERVIEW.pdf,2004 张敏,女,1977年生,助理研究 -02/2005-01. [6]VOORHEES E M,BUCKLAND PL.The eleventh text 员.主要研究方向为信息检索、机器学 习、自然语言处理、基于认知的信息处 retrieval conference (TREC-2002),volume 11 M]. National Institute of Standards and Technology,NIST, 理,以及在网络环境下用户行为模式的 2003. 抽取和分析,及其对相关网络信息获取 技术.发表学术论文40余篇。 [7]DAVISON B D.Topical locality in the web [A].Pro- ceedings of the 23rd Annual International Conference on 马少平,男,1961年生,教授,博士 Research and Development in Information Retrieval [C]. 生导师.主要研究方向为知识工程、信 [s.1.],2000 息检索、汉字识别与后处理以及中文古 [8 ]BHARAT K,HENZIN GER M.Improved algorithms 籍数字化.承担过多项国家自然科学基 for topic distillation in a hyperlinked environment [A ] 金、“863”高技术项目、“973”项目及国 In 21st International ACM SIGIR Conference on Re- 际合作项目.在脱机手写体汉字识别和 search and Development in Information Retrieval [C]. 后处理方面达到了国际先进水平.“脱 [s.1.1,1998 机手写体汉字与数字识别系统”1998年1月获得国家教委 [9]CRASWELL N,HAWKIN G D.Query-independent 科技进步二等奖.发表论文60余篇,出版教材2部. 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net关键资源页面提取方法也带来了新的问题 ,从 文中的实验结果中可以看出 ,提取出的关键资源页 面集合在检索特征上与 web 页面全集有明显的不 同 ,因此系统考察已有检索方法在关键资源页面集 合上的表现 ,从而确立这个集合上可以应用的方法 体系是很有必要的. 需要考察的可能内容包括 :各种 已有检索模型的性能如何 ;各种链接分析算法是否 有效 ;通常使用的链接文本检索方法是否能取得性 能的提高等等. 此外 ,尽管文中在评价关键资源页面 集合本身的质量上完成了一些工作 ,但仍然缺乏从 检索性能层次评价集合质量的尝试. 这些可能都是 未来研究工作的方向. 参考文献 : [1 ] SULL IVAN D. Search engine sizes [ EB/ OL ]. From search engine watch web site http :/ / searchenginewatch. com/ reports/ article. php/ 2156481 , 2005 - 01 - 28/ 2005 - 06 - 18. [2 ]L YMAN P , HAL R V. How much information 2003 [ EB/ OL ]. On line at : http :/ / www. sims. berkeley. edu/ how2much2info22003 , 2003 - 10 - 30/ 2005 - 06 - 18. [3 ] MONIKA R H , MO TWANI R , SILV ERSTEIN C. Challenges in web search engines [ A ]. Georg Gottlob , Toby Walsh eds. IJCAI - 03 , Proceedings of the Eigh2 teenth International Joint Conference on Artificial Intelli2 gence [ C ]. San Francisco : Morgan Kaufmann Press , 2003. [4 ] HAWKIN G D , CRASWELL N. Overview of the TREC - 2002 web track [ A ]. In Voorhees and Buckland [ 6 ] [C]. [s. l. ] ,2002. [5 ] HAWKIN G D , CRASWELL N. Overview of the TREC 2003 web track [ EB/ OL ]. On line at : http :/ / trec. nist. gov/ pubs/ trec12/ papers/ WEB. OV ERVIEW. pdf , 2004 - 02/ 2005 - 01. [6 ]VOORHEES E M , BUCKLAND P L. The eleventh text retrieval conference ( TREC - 2002) , volume 11 [ M ]. National Institute of Standards and Technology , NIST , 2003. [7 ]DAVISON B D. Topical locality in the web [ A ]. Pro2 ceedings of the 23rd Annual International Conference on Research and Development in Information Retrieval [C]. [s. l. ] ,2000. [8 ] B HARA T K , HENZIN GER M. Improved algorithms for topic distillation in a hyperlinked environment [ A ]. In 21st International ACM SIGIR Conference on Re2 search and Development in Information Retrieval [ C ]. [s. l. ] , 1998. [9 ] CRASWELL N , HAWKIN G D. Query - independent evidence in home page finding [J ]. In ACM Transac2 tions on Information Systems ( TOIS) , 2003 , 21 ( 3) : 286 - 313. [10 ]WESTERV ELD T , HIEMSTRA D , KRAAIJ W. Re2 trieving web pages using content , links , URLs and an2 chors [ A ]. In Voorhees and Harman [ 7 ] [ C]. [ s. l. ] , 2000. [11 ] KRAAIJ W , WESTERV ELD T , HIEMSTRA D. The importance of prior probabilities for entry page search [ A ]. In 25th annual international ACM SIGIR confer2 ence on research and development in information retriev2 al [C]. pages 27 - 34. [12 ]BRODER A. A taxonomy of Web search [J ]. SIGIR Forum , 2002 , 36 (2) :1 - 8. [13 ]CRASWELL N , HAWKING D. Stephen robertson. effec2 tive site finding using link anchor information [ A ]. In 24th ACM - SIGIR Conference on Research and Development in Information Retrieval [C]. pages 250 - 257. [14 ]MITCHELL T M. Chapter 3 : Decision Tree Learning , in Machine Learning [ M ]. Mc Graw2Hill International Editions , 1997. [15 ]RIJ SBERGEN C J. Information Retireval [ M]. Butter2 worths , London , 1979. [ 16 ] HAWKIN G D , CRASWELL N. Overview of the TREC - 2001 web track [ A ]. In Voorhees and Harman [ 7 ] [C]. [s. l. ] ,2001. 作者简介 : 刘奕群 ,男 , 1981 年生 ,博士研究 生. 主要研究方向为信息检索、机器学 习与网络用户行为分析. 发表学术论文 10 余篇. E2mail : liuyiqun03 @ mails. tsing2 hua. edu. cn. 张 敏 ,女 , 1977 年生 ,助理研究 员. 主要研究方向为信息检索、机器学 习、自然语言处理、基于认知的信息处 理 ,以及在网络环境下用户行为模式的 抽取和分析 ,及其对相关网络信息获取 技术. 发表学术论文 40 余篇. 马少平 ,男 ,1961 年生 ,教授 ,博士 生导师. 主要研究方向为知识工程、信 息检索、汉字识别与后处理以及中文古 籍数字化. 承担过多项国家自然科学基 金“、863”高技术项目、“973”项目及国 际合作项目. 在脱机手写体汉字识别和 后处理方面达到了国际先进水平.“脱 机手写体汉字与数字识别系统”1998 年 1 月获得国家教委 科技进步二等奖. 发表论文 60 余篇 ,出版教材 2 部. · 25 · 智 能 系 统 学 报 第 2 卷