正在加载图片...
第1期 刘奕群,等:基于非内容信息的网络关键资源有效定位创 ·51· 在上述假设下,召回率可以通过关键资源测试 面检索的效果有明显的提高,如下面的结果列表所 集在实验所得到的结果集合中的覆盖度来估计,即: 示 recall=兰实验结果集合n关键资源测试集 表4不同页面集合上的检索效果比较 #.关键资源测试集 Table 4 Content retrieval results for different result sets 4) 在精度的计算中,由于关键资源页面的总数可 全部页 关键资源 TREC2003 评价方式 以用.GOV页面总数和K来计算,而#(.GOV页 面集合 页面集合 最优结果 面集合)XK Xrecall则表示了关键资源页面在实验 Precision @10 0.0720 0.1240 0.1240 结果集中的数目,因此精度表达式为 R-precision 0.1145 0.1670 0.1636 precision #LGOV页面集合)X K Xrecall #(实验结果集合) 实验比较了TREC2003主题提炼任务在2个 (5) 页面集合上的性能,可以看出关键资源页面集合的 为了在关键资源覆盖率与页面集合大小之间找 检索效果明显好于页面全集.为了方便比较,2组实 到较好的平衡点,利用通常使用的均衡评价精度与 验都只采用了BM2500权重计算公式和此公式默认 召回率的F-measure评价is7,它的定义为 的实验参数.评价方式采用的是TREC网络信息检 F(r.p)=1+a tecall Xprecision 索任务通用的前l0位结果平均精度(Precision@ 6) recall +a Xprecision l0)和R精度(R-precision).在Precision@I0评价 式中precision的权重为1,而recall的权重为a.在 上,关键资源页面检索比较全部页面集合检索有 关键资源页面性能判定的评价中,由于试图用实验 72.22%的提高,而在R-precision评价上性能提高 得到的关键资源页面集合代替原有页面集合进行检 的比例是45.85%.检索性能的差异可以作如下解 索,因此关键资源页面的召回率应当得到更多的重 释:关键资源页面集合中用少量的页面集中了大量 视,以保证原有页面集合信息尽量少丢失由此设定 的关键资源,在这样的集合里进行主题提炼检索的 a=2.取K=1/6,则根据此实验数据得到的精度一 难度要远小于在页面全集上进行检索.从另一个角 召回率评价结果如下(与图4中的实验结果集合一 度,也可以认为关键资源页面定位的过程去除了 一对应): web信息环境中的大量冗余信息,在一个信息有效 ◆-precision。-recall 性高的页面集合上进行检索的效果自然会好 0.75 --F2-measure 为了验证方法的有效性,还把这2组结果与 065 TREC2003的最优结果1进行了比较,实验证明,关 0.55 键资源页面集合上的检索效果与TREC2003主题 提炼任务的最优结果性能相当,在R-precision评价 0.45 上还优于这个结果.这也充分说明了基于非内容信 0.35 息进行关键资源定位对于主题过滤任务是行之有效 集1 集2集3 集4 集5 的 结果 图5不同实验结果集合的精度、召回率和 5结论与未来工作 F-measure评价数值比较 网络数据的爆炸性增长与低质量信息的泛滥给 Fig.5 Recall,Precision and F-measure values of 网络信息检索技术的发展带来了巨大的挑战,文中 different result sets 提出了一种综合利用web页面的非内容信息进行 从实验结果可以看出,随着召回率的上升,实验 关键资源页面提取的方法,利用这种方法得到的关 结果集合的精度是逐步下降的,而F-measure值则 键资源页面集合,可以用20%左右的web页面数 先增后减,结果集4的F-measure评价最高.此结果 量,覆盖超过70%的关键信息.基于关键资源页面 集的页面数占页面总量的24.89%,但其包含的关 集合的检索,也获得了远远超过在页面全集上检索 键资源页面却占测试集的73.12%,满足用较少页 的效果.这说明利用web页面正文内容以外的信 面覆盖较多关键资源信息的要求,下面的检索实验 息,去除冗余页面,在保证检索效果的前提下,将搜 中就是基于这个页面集合完成的, 索引擎索引的页面控制在少量高质量页面上是完全 4.4基于关键资源页面集合的检索实验结果 可能的.这对于在索引量一定的条件下提高搜索引 关键资源页面定位的最终结果评价,还要落实 擎的信息覆盖率至关重要;同时也为在信息覆盖率 到关键资源页面集合检索的效能提高上.实验结果 一定的情况下减少搜索引擎维护索引的成本提供了 说明,基于关键资源页面集合的检索效果比全部页 一个解决途径 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net在上述假设下 ,召回率可以通过关键资源测试 集在实验所得到的结果集合中的覆盖度来估计 ,即 : recall = # (实验结果集合 ∩关键资源测试集) # 关键资源测试集 . (4) 在精度的计算中 ,由于关键资源页面的总数可 以用. GOV 页面总数和 K 来计算 ,而 # (. GOV 页 面集合) ×K ×recall 则表示了关键资源页面在实验 结果集中的数目 ,因此精度表达式为 precision = # (. GOV 页面集合) ×K ×recall # (实验结果集合) . (5) 为了在关键资源覆盖率与页面集合大小之间找 到较好的平衡点 ,利用通常使用的均衡评价精度与 召回率的 F2measure 评价[15 ] ,它的定义为 Fα( r, p) = (1 +α) recall ×precision recall +α×precision . (6) 式中 :precision 的权重为 1 ,而 recall 的权重为α. 在 关键资源页面性能判定的评价中 ,由于试图用实验 得到的关键资源页面集合代替原有页面集合进行检 索 ,因此关键资源页面的召回率应当得到更多的重 视 ,以保证原有页面集合信息尽量少丢失. 由此设定 α= 2. 取 K = 1/ 6 ,则根据此实验数据得到的精度 — 召回率评价结果如下 (与图 4 中的实验结果集合一 一对应) : 图 5 不同实验结果集合的精度、召回率和 F2measure 评价数值比较 Fig. 5 Recall , Precision and F2measure values of different result sets 从实验结果可以看出 ,随着召回率的上升 ,实验 结果集合的精度是逐步下降的 ,而 F2measure 值则 先增后减 ,结果集 4 的 F2measure 评价最高. 此结果 集的页面数占页面总量的 24. 89 % ,但其包含的关 键资源页面却占测试集的 73. 12 % ,满足用较少页 面覆盖较多关键资源信息的要求 ,下面的检索实验 中就是基于这个页面集合完成的. 4. 4 基于关键资源页面集合的检索实验结果 关键资源页面定位的最终结果评价 ,还要落实 到关键资源页面集合检索的效能提高上. 实验结果 说明 ,基于关键资源页面集合的检索效果比全部页 面检索的效果有明显的提高 ,如下面的结果列表所 示. 表 4 不同页面集合上的检索效果比较 Table 4 Content retrieval results for different result sets 评价方式 全部页 面集合 关键资源 页面集合 TREC2003 最优结果 Precision @ 10 0. 072 0 0. 124 0 0. 124 0 R2precision 0. 114 5 0. 167 0 0. 163 6 实验比较了 TREC2003 主题提炼任务在 2 个 页面集合上的性能 ,可以看出关键资源页面集合的 检索效果明显好于页面全集. 为了方便比较 ,2 组实 验都只采用了BM2500 权重计算公式和此公式默认 的实验参数. 评价方式采用的是 TREC 网络信息检 索任务通用的前 10 位结果平均精度 (Precision @ 10) 和 R2精度 (R2precision) . 在 Precision @10 评价 上 ,关键资源页面检索比较全部页面集合检索有 72. 22 %的提高 ,而在 R2precision 评价上性能提高 的比例是 45. 85 %. 检索性能的差异可以作如下解 释 :关键资源页面集合中用少量的页面集中了大量 的关键资源 ,在这样的集合里进行主题提炼检索的 难度要远小于在页面全集上进行检索. 从另一个角 度 ,也可以认为关键资源页面定位的过程去除了 web 信息环境中的大量冗余信息 ,在一个信息有效 性高的页面集合上进行检索的效果自然会好. 为了验证方法的有效性 ,还把这 2 组结果与 TREC2003 的最优结果[5 ]进行了比较 ,实验证明 ,关 键资源页面集合上的检索效果与 TREC2003 主题 提炼任务的最优结果性能相当 ,在 R2precision 评价 上还优于这个结果. 这也充分说明了基于非内容信 息进行关键资源定位对于主题过滤任务是行之有效 的. 5 结论与未来工作 网络数据的爆炸性增长与低质量信息的泛滥给 网络信息检索技术的发展带来了巨大的挑战 ,文中 提出了一种综合利用 web 页面的非内容信息进行 关键资源页面提取的方法 ,利用这种方法得到的关 键资源页面集合 ,可以用 20 %左右的 web 页面数 量 ,覆盖超过 70 %的关键信息. 基于关键资源页面 集合的检索 ,也获得了远远超过在页面全集上检索 的效果. 这说明利用 web 页面正文内容以外的信 息 ,去除冗余页面 ,在保证检索效果的前提下 ,将搜 索引擎索引的页面控制在少量高质量页面上是完全 可能的. 这对于在索引量一定的条件下提高搜索引 擎的信息覆盖率至关重要 ;同时也为在信息覆盖率 一定的情况下减少搜索引擎维护索引的成本提供了 一个解决途径. 第 1 期 刘奕群 ,等 :基于非内容信息的网络关键资源有效定位创 · 15 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有