络信息检索工具的发展方面取得了极大的成功. 除链接特征之外 ,非内容特征还

正在加载图片...

第1期刘奕群，等：基于非内容信息的网络关键资源有效定位创 ·47· 络信息检索工具的发展方面取得了极大的成功，引用的度量除链接特征之外，非内容特征还有多种形式： 3)URL分级特征是表示页面URL种类的一 Westerveld等人在2000年提出了URL分级特个非内容特征，由Kraaij等人在文献[l1]中提出征，，这种特征比较之前通常使用的URL长度特页面的URL划分为ROOT,SUBROOT,PATH 征更为合理，其核心思想是将页面的UL分为 FLE4类，其中ROOT类的UL只包括域名，而从 Root,Subroot,Path和File4级.由于统计结果发 ROOT类到FLE类其URL中的“/"逐渐增多现，绝大部分的站点主页不属于Fle类，因此对非文中着重考察的是这些特征在网络页面全集与 F1le类页面进行加权就可以提升主页查找的性能， Westerveld与其同事Kraaij等在次年总结了包括关键资源集合上的差异，经过对.GOV和关键资源 URL分类特征在内的多种非内容特征，并在SIGIR 训练集合的统计，这种差异是确实存在的，如表1和 2001上发表：而Craswell等人则于2003年对各表2所示类主题无关的非内容特征包括页面长度特征、入度表1.①V与关键资源训练集合在非内容特征值的分布差异 (入链接个数)特征、URL分级特征和PageRank数 Table 1 Differences bet ween GOV corpus and key resource 值特征在主页查找中的应用进行了系统总结，，他 set in several nomcontent features % 指出：入度特征和URL分级特征对于主页查找是特征 GOV 关键资源训练集有效的，而PageRank数值和文档长度特征的功能则不太明显页面长度≤ 16.08 1.17 关键资源页面与站点主页有一定的关联，但二 1000 入度习0 10.78 51.03 者发挥的功能具有很大的差异.一部分关键资源页 URL分级≠ 面是站点主页，但关键资源页面又远不是所在站点 12.61 57.27 FLE 的主页.这就决定了对关键资源页面非内容特征的考察，一方面要对站点主页查找中常用的非内容特表2.G0V与关键资源训练集合的非内容特征平均值差异征针对关键资源页面进行分析和筛选，另一方面则 Table 2 Differences bet ween.GOV corpus and key resource 需要发现关键资源页面特有的非内容特征 set noncontent feature in mean values 2关键资源页面的非内容特征分析特征 GOV 关键资源训练集文中采用基于大规模网页数据统计的方法考察页面长度 7037.43 9008.02 入度 9.94 153.12 关键资源页面的非内容特征，以便实现主题无关的 URL分级 / / 关键资源页面判定，从而将关键资源页面从普通页面中区别开来.将要讨论的非内容特征除了上文提由统计数据可以看出：到的一些常用特征外，还包括根据关键资源的特性， 1)关键资源训练集的平均页面长度与普通页面提出的一种新特征站点自身出链接特征比较接近.但是表1的实验结果说明，2个页面集合作为基于统计方法的基础，本节使用的大规模语料库是.GOV网页数据库·，而用于统计关键资上的页面长度分布还是有差异，主要表现在关键资源页面特征的“关键资源训练集合”则是指在TREC 源页面是长度较短(1000词)页面的可能性很 2002主题过滤任务的标准答案基础上，用手工标出小，这个特征有助于去除冗余页面关键资源的方式加以筛选，而得到的符合关键资源 2)表2显示，关键资源页面的平均入度比普通定义的页面页面要大得多，这可以使用反映网页链接关系的内 2.1常用网页非内容特征在关键资源页面集合上容推荐假设s](recommendation assumption)解释：的考察一个页面被其他页面所引用，反映这个页面的内容常用于网络信息检索的网页非内容特征主要包被其他页面的作者所推荐.拥有较多入度的页面，是括：页面长度特征、入度特征和URL分级特征. 内容质量比较高的页面，它成为关键资源页面的可 1)页面长度是指经过过滤无用字符等预处理之能性也就比较大后的页面包含的单词数 3)根据表1的统计结果，FLE类型的网页在 2)入度特征是指某页面被多少个外部页面链接 GOV语料库中占了大多数：但在关键资源训练集 ·,G0V是由超过120万个网页、近20G数据组成的实验性网络语中，FLE与非FLE类型的页面数基本相等，非料库，它是由CSIRO(澳大利亚联邦工业研究组织)在2002年初基于真实网络环境抓取到的.可以认为它是一个真实网络环境的采 FLE类型的页面反而更多一些.这说明关键资源样，详细信息参见http:/es.csro.au/TRECWeb/govinfo.html 页面的URL更倾向属于非FLE类型 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net络信息检索工具的发展方面取得了极大的成功. 除链接特征之外 ,非内容特征还有多种形式 : Westerveld 等人在 2000 年提出了 URL 分级特征[10 ] ,这种特征比较之前通常使用的 URL 长度特征更为合理 ,其核心思想是将页面的 U RL 分为 Root , Subroot , Path 和 File4 级. 由于统计结果发现 ,绝大部分的站点主页不属于 File 类 ,因此对非 File 类页面进行加权就可以提升主页查找的性能. Westerveld 与其同事 Kraaij 等在次年总结了包括 URL 分类特征在内的多种非内容特征 ,并在 SIGIR 2001 上发表[11 ] ;而 Craswell 等人则于 2003 年对各类主题无关的非内容特征包括页面长度特征、入度 (入链接个数) 特征、U RL 分级特征和 PageRank 数值特征在主页查找中的应用进行了系统总结[ 9 ] ,他指出 :入度特征和 URL 分级特征对于主页查找是有效的 ,而 PageRank 数值和文档长度特征的功能则不太明显. 3 . GOV 是由超过 120 万个网页、近 20 G数据组成的实验性网络语料库 ,它是由 CSIRO (澳大利亚联邦工业研究组织) 在 2002 年初基于真实网络环境抓取到的. 可以认为它是一个真实网络环境的采样 ,详细信息参见 http :/ / es. csiro. au/ TRECWeb/ govinfo. html 关键资源页面与站点主页有一定的关联 ,但二者发挥的功能具有很大的差异. 一部分关键资源页面是站点主页 ,但关键资源页面又远不是所在站点的主页. 这就决定了对关键资源页面非内容特征的考察 ,一方面要对站点主页查找中常用的非内容特征针对关键资源页面进行分析和筛选 ,另一方面则需要发现关键资源页面特有的非内容特征. 2 关键资源页面的非内容特征分析文中采用基于大规模网页数据统计的方法考察关键资源页面的非内容特征 ,以便实现主题无关的关键资源页面判定 ,从而将关键资源页面从普通页面中区别开来. 将要讨论的非内容特征除了上文提到的一些常用特征外 ,还包括根据关键资源的特性 , 提出的一种新特征 ———站点自身出链接特征. 作为基于统计方法的基础 ,本节使用的大规模语料库是. GOV 网页数据库3 ,而用于统计关键资源页面特征的“关键资源训练集合”则是指在 TREC 2002 主题过滤任务的标准答案基础上 ,用手工标出关键资源的方式加以筛选 ,而得到的符合关键资源定义的页面. 2. 1 常用网页非内容特征在关键资源页面集合上的考察常用于网络信息检索的网页非内容特征主要包括 :页面长度特征、入度特征和 U RL 分级特征. 1) 页面长度是指经过过滤无用字符等预处理之后的页面包含的单词数. 2) 入度特征是指某页面被多少个外部页面链接引用的度量. 3) URL 分级特征是表示页面 URL 种类的一个非内容特征 ,由 Kraaij 等人在文献[ 11 ]中提出 , 页面的 URL 划分为 ROO T ,SUBROO T , PA T H , FIL E4 类 ,其中 ROO T 类的 U RL 只包括域名 ,而从 ROO T 类到 FIL E 类其 U RL 中的“/ ”逐渐增多. 文中着重考察的是这些特征在网络页面全集与关键资源集合上的差异 ,经过对. GOV 和关键资源训练集合的统计 ,这种差异是确实存在的 ,如表 1 和表 2 所示. 表 1 . GOV与关键资源训练集合在非内容特征值的分布差异 Table 1 Differences between . GOV corpus and key resource set in several non2content features % 特征 . GOV 关键资源训练集页面长度 ≤ 1 000 16. 08 1. 17 入度 ≥10 10. 78 51. 03 URL 分级 ≠ FIL E 12. 61 57. 27 表 2 . GOV与关键资源训练集合的非内容特征平均值差异 Table 2 Differences between . GOV corpus and key resource set non2content feature in mean values 特征 . GOV 关键资源训练集页面长度 7 037. 43 9 008. 02 入度 9. 94 153. 12 URL 分级 / / 由统计数据可以看出 : 1) 关键资源训练集的平均页面长度与普通页面比较接近. 但是表 1 的实验结果说明 ,2 个页面集合上的页面长度分布还是有差异 ,主要表现在关键资源页面是长度较短 ( ≤1 000 词) 页面的可能性很小 ,这个特征有助于去除冗余页面. 2) 表 2 显示 ,关键资源页面的平均入度比普通页面要大得多. 这可以使用反映网页链接关系的内容推荐假设[13 ] (recommendation assumption) 解释 : 一个页面被其他页面所引用 ,反映这个页面的内容被其他页面的作者所推荐. 拥有较多入度的页面 ,是内容质量比较高的页面 ,它成为关键资源页面的可能性也就比较大. 3) 根据表 1 的统计结果 ,FIL E 类型的网页在. GOV 语料库中占了大多数 ;但在关键资源训练集中 ,FIL E 与非 FIL E 类型的页面数基本相等 ,非 FIL E 类型的页面反而更多一些. 这说明关键资源页面的 URL 更倾向属于非 FIL E 类型. 第 1 期刘奕群 ,等 :基于非内容信息的网络关键资源有效定位创 · 74 ·

<<向上翻页向下翻页>>

点击下载：清华大学：【智能系统】基于非内容信息的网络关键资源有效定位