·48 智能系统学报 第2卷 总之,这些常用的非内容特征在关键资源页面 接数目较大(>20)时,关键资源训练集上的分布百 上有不同于.G0V页面的分布,这种分布差异可以 分比明显高于.GOV语料库」 被用于关键资源页面的主题无关定位. % 2.2关键资源页面集合的站点自身出链接特征 60 50 ☆GOV语料库 关键资源页面是为用户提供高质量信息接入点 (关键资源训练集 40 的页面,这决定了它最重要的不是自身提供信息,而 30 是作为关键站点内容的代表提供链向站点内其他高 质量页面的链接.例如美国药物滥用治疗研究所 (NDA)关于大麻滥用方面信息的关键资源页面 10 2030400无流 http://www.nida.nih.gov/drugpages/marijuana. 站点自身出链接个数/个 html,它基本没有除去链接之外的文字内容,但这个 图1 站点自身出链接个数在关键资源训练集合和.GOV 页面提供了链向子站点内部其他与大麻信息相关的 语料库上的不同分布 页面链接,这些链接对浏览者获取大麻滥用方面的 Fig.I Site self link number of key resource training 信息是大有帮助的」 set and.GOV 由于关键资源页面是关键资源站点的代表和用 在统计平均值上,关键资源训练集合的站点自 户访问的接口,因此它应当具有能够直接链接到本 身出链接个数是37,而.G0V中的平均数目是18. 站点/子站点内的大多数页面,也即必须具有Cra 这也说明了站点自身出链接数目较小的页面更可能 swell等人在文献[l3]中提出的“导航功能”(navi 是普通页面,而这个数目较大的页面比较可能是关 gational function).为了更清楚的表述关键资源页 键资源页面 面的这个链接特征,把页面出链接划分为指向站点 2)站点自身出链接文本比率(site self link an- 内部的出链接和指向站点外部的出链接2类.由于 chor rate) 关键资源页面首先是站点内部高质量页面的代表, 关键资源页面的站点自身出链接文本可以认为 因此指向站点内部的出链接是我们考察的重点,这 是整个关键资源站点内容的概括.这是由链接文本 种出链接数目的多少和质量的好坏,直接影响到关 的特性所决定的,Craswell在文献[I3]中指出:对某 键资源页面本身的质量高低.为区别一般出链接,在 个确定的页面A而言,指向它的链接文本可以看作 下文中称之为“站点自身出链接” 是对此页面A的概括客观(通常来自其他作者)的 理想情况下,关键资源页面的站点自身出链接 描述.因此对关键资源页面而言,它的站点自身出链 接文本可以看作此页面作者对站点内其他页面的一 应当个数多,质量高.具体到内容无关信息而言,无 个简要介绍,这些文本的集合,也就可以作为整个站 法考察这种出链接描述文本于某个主题是否相关, 点内页面的一个综述」 但链接描述文本的长度是可知的,通过长度标准,评 站点自身出链接文本比率的定义为 判链接文本是否包含了足够的其他页面描述信息也 site self link rate=WordCount(site self link anchor) 是可行的.因此,站点自身出链接个数的多少,以及 Word Count (full text) 站点自身出链接描述文字的长短是否可以作为考察 (1) 关键资源页面质量的标准呢?下面将把站点自身出 对于关键资源页面而言,站点自身出链接文本 链接特征细化成此2个标准分别加以考查: 比率与站点自身出链接个数是类似的非内容特征,2 I)站点自身出链接个数(site self link number) 者的不同在于,站点自身出链接文本比率一定程度 关键资源页面作为关键资源站点的入口页面和 上反映了站点自身出链接质量的高低.仅仅列出导 代表,应当拥有较多的站点自身出链接.也就是说, 航信息的站点自身出链接,与给出子页面简要介绍 关键资源页面的站点自身出链接个数从总体上讲应 的站点自身出链接,其质量是显然不同的.站点自身 出链接文本比率较高的页面,可以认为其出链接质 当比普通页面更多.图1的统计数据中,横坐标表示 量较高。 站点自身出链接的个数,而纵坐标表示.GOV语料 关键资源页面一般都是关键资源站点的入口页 库和关键资源训练集合上的不同分布百分比.由统 面,其对应的站点自身出链接担负着引导用户访问 计数据可以看出,大部分(超过55%).G0V语料库 的任务,因此链接质量较高,这类页面也相应的拥有 中的页面站点自身出链接个数小于10,而关键资源 较大的出链接文本比率 训练集中的这个比例在20%左右;而站点自身出链 对于关键资源页面而言,站点自身出链接文本 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net总之 ,这些常用的非内容特征在关键资源页面 上有不同于. GOV 页面的分布 ,这种分布差异可以 被用于关键资源页面的主题无关定位. 2. 2 关键资源页面集合的站点自身出链接特征 关键资源页面是为用户提供高质量信息接入点 的页面 ,这决定了它最重要的不是自身提供信息 ,而 是作为关键站点内容的代表提供链向站点内其他高 质量页面的链接. 例如美国药物滥用治疗研究所 (N IDA) 关于大麻滥用方面信息的关键资源页面 http :/ / www. nida. nih. gov/ drugpages/ marijuana. html ,它基本没有除去链接之外的文字内容 ,但这个 页面提供了链向子站点内部其他与大麻信息相关的 页面链接 ,这些链接对浏览者获取大麻滥用方面的 信息是大有帮助的. 由于关键资源页面是关键资源站点的代表和用 户访问的接口 ,因此它应当具有能够直接链接到本 站点/ 子站点内的大多数页面 ,也即必须具有 Cra2 swell 等人在文献[ 13 ]中提出的“导航功能”( navi2 gational f unction) . 为了更清楚的表述关键资源页 面的这个链接特征 ,把页面出链接划分为指向站点 内部的出链接和指向站点外部的出链接 2 类. 由于 关键资源页面首先是站点内部高质量页面的代表 , 因此指向站点内部的出链接是我们考察的重点 ,这 种出链接数目的多少和质量的好坏 ,直接影响到关 键资源页面本身的质量高低. 为区别一般出链接 ,在 下文中称之为“站点自身出链接”. 理想情况下 ,关键资源页面的站点自身出链接 应当个数多 ,质量高. 具体到内容无关信息而言 ,无 法考察这种出链接描述文本于某个主题是否相关 , 但链接描述文本的长度是可知的 ,通过长度标准 ,评 判链接文本是否包含了足够的其他页面描述信息也 是可行的. 因此 ,站点自身出链接个数的多少 ,以及 站点自身出链接描述文字的长短是否可以作为考察 关键资源页面质量的标准呢 ? 下面将把站点自身出 链接特征细化成此 2 个标准分别加以考查: 1) 站点自身出链接个数(site self link number) 关键资源页面作为关键资源站点的入口页面和 代表 ,应当拥有较多的站点自身出链接. 也就是说 , 关键资源页面的站点自身出链接个数从总体上讲应 当比普通页面更多. 图 1 的统计数据中 ,横坐标表示 站点自身出链接的个数 ,而纵坐标表示. GOV 语料 库和关键资源训练集合上的不同分布百分比. 由统 计数据可以看出 ,大部分 (超过 55 %) . GOV 语料库 中的页面站点自身出链接个数小于 10 ,而关键资源 训练集中的这个比例在 20 %左右 ;而站点自身出链 接数目较大( > 20) 时 ,关键资源训练集上的分布百 分比明显高于. GOV 语料库. 图 1 站点自身出链接个数在关键资源训练集合和. GOV 语料库上的不同分布 Fig. 1 Site self link number of key resource training set and . GOV 在统计平均值上 ,关键资源训练集合的站点自 身出链接个数是 37 ,而. GOV 中的平均数目是 18. 这也说明了站点自身出链接数目较小的页面更可能 是普通页面 ,而这个数目较大的页面比较可能是关 键资源页面. 2) 站点自身出链接文本比率 (site self link an2 chor rate) 关键资源页面的站点自身出链接文本可以认为 是整个关键资源站点内容的概括. 这是由链接文本 的特性所决定的 ,Craswell 在文献[13 ]中指出 :对某 个确定的页面 A 而言 ,指向它的链接文本可以看作 是对此页面 A 的概括客观 (通常来自其他作者) 的 描述. 因此对关键资源页面而言 ,它的站点自身出链 接文本可以看作此页面作者对站点内其他页面的一 个简要介绍 ,这些文本的集合 ,也就可以作为整个站 点内页面的一个综述. 站点自身出链接文本比率的定义为 site self link rate = WordCount (site self link anchor) Word Count (full text) . (1) 对于关键资源页面而言 ,站点自身出链接文本 比率与站点自身出链接个数是类似的非内容特征 ,2 者的不同在于 ,站点自身出链接文本比率一定程度 上反映了站点自身出链接质量的高低. 仅仅列出导 航信息的站点自身出链接 ,与给出子页面简要介绍 的站点自身出链接 ,其质量是显然不同的. 站点自身 出链接文本比率较高的页面 ,可以认为其出链接质 量较高. 关键资源页面一般都是关键资源站点的入口页 面 ,其对应的站点自身出链接担负着引导用户访问 的任务 ,因此链接质量较高 ,这类页面也相应的拥有 较大的出链接文本比率. 对于关键资源页面而言 ,站点自身出链接文本 · 84 · 智 能 系 统 学 报 第 2 卷