第1期 刘奕群,等:基于非内容信息的网络关键资源有效定位创 ·47· 络信息检索工具的发展方面取得了极大的成功, 引用的度量 除链接特征之外,非内容特征还有多种形式: 3)URL分级特征是表示页面URL种类的一 Westerveld等人在2000年提出了URL分级特 个非内容特征,由Kraaij等人在文献[l1]中提出 征,,这种特征比较之前通常使用的URL长度特 页面的URL划分为ROOT,SUBROOT,PATH 征更为合理,其核心思想是将页面的UL分为 FLE4类,其中ROOT类的UL只包括域名,而从 Root,Subroot,Path和File4级.由于统计结果发 ROOT类到FLE类其URL中的“/"逐渐增多 现,绝大部分的站点主页不属于Fle类,因此对非 文中着重考察的是这些特征在网络页面全集与 F1le类页面进行加权就可以提升主页查找的性能, Westerveld与其同事Kraaij等在次年总结了包括 关键资源集合上的差异,经过对.GOV和关键资源 URL分类特征在内的多种非内容特征,并在SIGIR 训练集合的统计,这种差异是确实存在的,如表1和 2001上发表:而Craswell等人则于2003年对各 表2所示 类主题无关的非内容特征包括页面长度特征、入度 表1.①V与关键资源训练集合在非内容特征值的分布差异 (入链接个数)特征、URL分级特征和PageRank数 Table 1 Differences bet ween GOV corpus and key resource 值特征在主页查找中的应用进行了系统总结,,他 set in several nomcontent features % 指出:入度特征和URL分级特征对于主页查找是 特征 GOV 关键资源训练集 有效的,而PageRank数值和文档长度特征的功能 则不太明显 页面长度≤ 16.08 1.17 关键资源页面与站点主页有一定的关联,但二 1000 入度习0 10.78 51.03 者发挥的功能具有很大的差异.一部分关键资源页 URL分级≠ 面是站点主页,但关键资源页面又远不是所在站点 12.61 57.27 FLE 的主页.这就决定了对关键资源页面非内容特征的 考察,一方面要对站点主页查找中常用的非内容特 表2.G0V与关键资源训练集合的非内容特征平均值差异 征针对关键资源页面进行分析和筛选,另一方面则 Table 2 Differences bet ween.GOV corpus and key resource 需要发现关键资源页面特有的非内容特征 set noncontent feature in mean values 2关键资源页面的非内容特征分析 特征 GOV 关键资源训练集 文中采用基于大规模网页数据统计的方法考察 页面长度 7037.43 9008.02 入度 9.94 153.12 关键资源页面的非内容特征,以便实现主题无关的 URL分级 / / 关键资源页面判定,从而将关键资源页面从普通页 面中区别开来.将要讨论的非内容特征除了上文提 由统计数据可以看出: 到的一些常用特征外,还包括根据关键资源的特性, 1)关键资源训练集的平均页面长度与普通页面 提出的一种新特征站点自身出链接特征 比较接近.但是表1的实验结果说明,2个页面集合 作为基于统计方法的基础,本节使用的大规模 语料库是.GOV网页数据库·,而用于统计关键资 上的页面长度分布还是有差异,主要表现在关键资 源页面特征的“关键资源训练集合”则是指在TREC 源页面是长度较短(1000词)页面的可能性很 2002主题过滤任务的标准答案基础上,用手工标出 小,这个特征有助于去除冗余页面 关键资源的方式加以筛选,而得到的符合关键资源 2)表2显示,关键资源页面的平均入度比普通 定义的页面 页面要大得多,这可以使用反映网页链接关系的内 2.1常用网页非内容特征在关键资源页面集合上 容推荐假设s](recommendation assumption)解释: 的考察 一个页面被其他页面所引用,反映这个页面的内容 常用于网络信息检索的网页非内容特征主要包 被其他页面的作者所推荐.拥有较多入度的页面,是 括:页面长度特征、入度特征和URL分级特征. 内容质量比较高的页面,它成为关键资源页面的可 1)页面长度是指经过过滤无用字符等预处理之 能性也就比较大 后的页面包含的单词数 3)根据表1的统计结果,FLE类型的网页在 2)入度特征是指某页面被多少个外部页面链接 GOV语料库中占了大多数:但在关键资源训练集 ·,G0V是由超过120万个网页、近20G数据组成的实验性网络语 中,FLE与非FLE类型的页面数基本相等,非 料库,它是由CSIRO(澳大利亚联邦工业研究组织)在2002年初基 于真实网络环境抓取到的.可以认为它是一个真实网络环境的采 FLE类型的页面反而更多一些.这说明关键资源 样,详细信息参见http:/es.csro.au/TRECWeb/govinfo.html 页面的URL更倾向属于非FLE类型 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net络信息检索工具的发展方面取得了极大的成功. 除链接特征之外 ,非内容特征还有多种形式 : Westerveld 等人在 2000 年提出了 URL 分级特 征[10 ] ,这种特征比较之前通常使用的 URL 长度特 征更为合理 ,其核心思想是将页面的 U RL 分为 Root , Subroot , Path 和 File4 级. 由于统计结果发 现 ,绝大部分的站点主页不属于 File 类 ,因此对非 File 类页面进行加权就可以提升主页查找的性能. Westerveld 与其同事 Kraaij 等在次年总结了包括 URL 分类特征在内的多种非内容特征 ,并在 SIGIR 2001 上发表[11 ] ;而 Craswell 等人则于 2003 年对各 类主题无关的非内容特征包括页面长度特征、入度 (入链接个数) 特征、U RL 分级特征和 PageRank 数 值特征在主页查找中的应用进行了系统总结[ 9 ] ,他 指出 :入度特征和 URL 分级特征对于主页查找是 有效的 ,而 PageRank 数值和文档长度特征的功能 则不太明显. 3 . GOV 是由超过 120 万个网页、近 20 G数据组成的实验性网络语 料库 ,它是由 CSIRO (澳大利亚联邦工业研究组织) 在 2002 年初基 于真实网络环境抓取到的. 可以认为它是一个真实网络环境的采 样 ,详细信息参见 http :/ / es. csiro. au/ TRECWeb/ govinfo. html 关键资源页面与站点主页有一定的关联 ,但二 者发挥的功能具有很大的差异. 一部分关键资源页 面是站点主页 ,但关键资源页面又远不是所在站点 的主页. 这就决定了对关键资源页面非内容特征的 考察 ,一方面要对站点主页查找中常用的非内容特 征针对关键资源页面进行分析和筛选 ,另一方面则 需要发现关键资源页面特有的非内容特征. 2 关键资源页面的非内容特征分析 文中采用基于大规模网页数据统计的方法考察 关键资源页面的非内容特征 ,以便实现主题无关的 关键资源页面判定 ,从而将关键资源页面从普通页 面中区别开来. 将要讨论的非内容特征除了上文提 到的一些常用特征外 ,还包括根据关键资源的特性 , 提出的一种新特征 ———站点自身出链接特征. 作为基于统计方法的基础 ,本节使用的大规模 语料库是. GOV 网页数据库3 ,而用于统计关键资 源页面特征的“关键资源训练集合”则是指在 TREC 2002 主题过滤任务的标准答案基础上 ,用手工标出 关键资源的方式加以筛选 ,而得到的符合关键资源 定义的页面. 2. 1 常用网页非内容特征在关键资源页面集合上 的考察 常用于网络信息检索的网页非内容特征主要包 括 :页面长度特征、入度特征和 U RL 分级特征. 1) 页面长度是指经过过滤无用字符等预处理之 后的页面包含的单词数. 2) 入度特征是指某页面被多少个外部页面链接 引用的度量. 3) URL 分级特征是表示页面 URL 种类的一 个非内容特征 ,由 Kraaij 等人在文献[ 11 ]中提出 , 页面的 URL 划分为 ROO T ,SUBROO T , PA T H , FIL E4 类 ,其中 ROO T 类的 U RL 只包括域名 ,而从 ROO T 类到 FIL E 类其 U RL 中的“/ ”逐渐增多. 文中着重考察的是这些特征在网络页面全集与 关键资源集合上的差异 ,经过对. GOV 和关键资源 训练集合的统计 ,这种差异是确实存在的 ,如表 1 和 表 2 所示. 表 1 . GOV与关键资源训练集合在非内容特征值的分布差异 Table 1 Differences between . GOV corpus and key resource set in several non2content features % 特征 . GOV 关键资源训练集 页面长度 ≤ 1 000 16. 08 1. 17 入度 ≥10 10. 78 51. 03 URL 分级 ≠ FIL E 12. 61 57. 27 表 2 . GOV与关键资源训练集合的非内容特征平均值差异 Table 2 Differences between . GOV corpus and key resource set non2content feature in mean values 特征 . GOV 关键资源训练集 页面长度 7 037. 43 9 008. 02 入度 9. 94 153. 12 URL 分级 / / 由统计数据可以看出 : 1) 关键资源训练集的平均页面长度与普通页面 比较接近. 但是表 1 的实验结果说明 ,2 个页面集合 上的页面长度分布还是有差异 ,主要表现在关键资 源页面是长度较短 ( ≤1 000 词) 页面的可能性很 小 ,这个特征有助于去除冗余页面. 2) 表 2 显示 ,关键资源页面的平均入度比普通 页面要大得多. 这可以使用反映网页链接关系的内 容推荐假设[13 ] (recommendation assumption) 解释 : 一个页面被其他页面所引用 ,反映这个页面的内容 被其他页面的作者所推荐. 拥有较多入度的页面 ,是 内容质量比较高的页面 ,它成为关键资源页面的可 能性也就比较大. 3) 根据表 1 的统计结果 ,FIL E 类型的网页在. GOV 语料库中占了大多数 ;但在关键资源训练集 中 ,FIL E 与非 FIL E 类型的页面数基本相等 ,非 FIL E 类型的页面反而更多一些. 这说明关键资源 页面的 URL 更倾向属于非 FIL E 类型. 第 1 期 刘奕群 ,等 :基于非内容信息的网络关键资源有效定位创 · 74 ·