正在加载图片...
·50 智能系统学报 第2卷 试集,实验基本沿用了TREC2002与TREC2003主 口测试集在实验结果集中的比例 100▣训练集在实验结果集中的比例 题提炼任务的查询主题及标准答案.由于 实验结果集在.GOV中的比例 TREC2002主题提炼任务的目标是查找关键资源站 点所包含的页面而不一定是关键资源页面41,因 此专门对这部分的答案集合进行了手工筛选,以找 出标准答案页面对应的站点/子站点入口页面 例如TREC2002主题提炼任务的599号主题 集2 集3 集4 集5 “scientific research misconduct”,原有的答案包括 结果 子站点http://ori.dhhs.gov/html/misconduct/内 图4不同特征判定阈值下的实验结果集合数据 的24个页面,手工筛选后,将这些页面用这个子站 Fig.4 Key resource coverage and result set size with 点的入口页面http:/ori.dhhs.gov/html/miscon- different nomcontent feature threshold 特征判定阈值下,都可以用20%左右的网页数量 duct/casesummaries.asp代替. 覆盖超过70%的关键资源页面.这说明依靠非内容 关键资源测试集直接采用了TREC2003主题 提炼任务的查询主题与标准答案,此任务共提供了 特征进行关键资源页面的定位是完全可能的.实验 50个查询主题和对应主题的516个标准答案.任务 得到的“关键资源页面集合"”确实能够覆盖大部分关 键资源页面.这也说明仍有约30%的关键资源页面 的目的是查找与主题相对应的关键资源页面,查询 不被实验结果集合所包括,因此在实验结果集合上 主题来源于真实网络搜索引擎的用户查询,包含的 内容领域涉及社会政治经济生活的方方面面,因此 进行主题提炼查找的性能上限即为70%左右.但 具有较高的权威性 是,当前主题提炼任务按平均精度计算的性能一般 都在20%上下浮动4·引,因此这个上限对主题提炼 4.2基于关键资源页面集合的统计结果 特征取值离散化时判定阈值的选取不同,得到 任务的性能影响甚微 的决策树形式也会有不同;对应的,关键资源页面集 2)实验结果得到的高质量集合覆盖关键资源页 合的规模也有差异,实验中不同的实验结果集对应 面的比例是随着这个集合的规模而增加的.与 的非内容特征阈值如表3所示,而图4则给出了这 GOV集合规模相等的关键资源页面集合可以覆盖 些实验结果集合覆盖关键资源页面的相关实验数 所有的关键资源,但这个集合显然不能称之为“高质 据 量”,因此必须定义一个评价标准,从而能够在关键 资源覆盖率与页面集合大小之间找到较好的平衡 表3对应不同实验结果集合的非内容特征阈值 点,从而筛选出质量较高的关键资源页面 Ta ble 3 Corresponding non-content feature thresholds for 4.3关键资源页面集合的评价标准 different result sets 关键资源页面判定结果的评价与一般的分类问 结果结果结果结果 结果 题有类似之处,其问题可以归结到“用最小规模的关 集1 集2 集3 集4 集5 键资源页面集合覆盖最大数量的关键资源页面”,对 站点自身出 50 50 30 10 10 于此类问题,一般采用精度一召回率的评价标准.召 链接数目 回率和精度的一般定义为 站点自身出 0.10.050.050.1 0.05 链接文本比率 recall=相关页面集合n检索结果页面集合L #相关页面集合 2 图4中的纵轴标志着不同比例的数值,分别是: 测试集在实验结果集中的比例R,训练集在实验结 precision=兰相关页面集会n检索结果顶面集金 #检索结果页面集合 果集中的比例和实验结果集在.GOV语料库中 (3 的比例.一个理想的实验结果,应该用较小的页 由于无法判断实验结果集合中所有的关键资源页 面数,包括较多的关键资源页面,也就是说要在 面,因此在精度和召回率的计算中必须进行关键资 尽量小的情况下,保证R和R较大 源数目的估计.为此引入如下假设: 从图4的实验结果中可以得到如下2个重要结 1)关键资源训练集合是.GOV中所有关键资源 论 页面的一个均一采样k; 1)使用文中提出的关键资源定位算法,在多种 2)关键资源页面占.G0V页面总量的比例为k 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net试集 ,实验基本沿用了 TREC2002 与 TREC2003 主 题 提 炼 任 务 的 查 询 主 题 及 标 准 答 案. 由 于 TREC2002 主题提炼任务的目标是查找关键资源站 点所包含的页面而不一定是关键资源页面[ 4 ,6 ] ,因 此专门对这部分的答案集合进行了手工筛选 ,以找 出标准答案页面对应的站点/ 子站点入口页面. 例如 TREC2002 主题提炼任务的 599 号主题 “scientific research misconduct”,原有的答案包括 子站点 http :/ / ori. dhhs. gov/ html/ misconduct/ 内 的 24 个页面 ,手工筛选后 ,将这些页面用这个子站 点的入口页面 http :/ / ori. dhhs. gov/ html/ miscon2 duct/ casesummaries. asp 代替. 关键资源测试集直接采用了 TREC2003 主题 提炼任务的查询主题与标准答案 ,此任务共提供了 50 个查询主题和对应主题的 516 个标准答案. 任务 的目的是查找与主题相对应的关键资源页面 ,查询 主题来源于真实网络搜索引擎的用户查询 ,包含的 内容领域涉及社会政治、经济生活的方方面面 ,因此 具有较高的权威性. 4. 2 基于关键资源页面集合的统计结果 特征取值离散化时判定阈值的选取不同 ,得到 的决策树形式也会有不同 ;对应的 ,关键资源页面集 合的规模也有差异 ,实验中不同的实验结果集对应 的非内容特征阈值如表 3 所示 ,而图 4 则给出了这 些实验结果集合覆盖关键资源页面的相关实验数 据. 表 3 对应不同实验结果集合的非内容特征阈值 Table 3 Corresponding non2content feature thresholds for different result sets 结果 集 1 结果 集 2 结果 集 3 结果 集 4 结果 集 5 站点自身出 链接数目 50 50 30 10 10 站点自身出 链接文本比率 0. 1 0. 05 0. 05 0. 1 0. 05 图 4 中的纵轴标志着不同比例的数值 ,分别是 : 测试集在实验结果集中的比例 R1 ,训练集在实验结 果集中的比例 R2 和实验结果集在. GOV 语料库中 的比例 R3 . 一个理想的实验结果 ,应该用较小的页 面数 ,包括较多的关键资源页面 ,也就是说要在 R3 尽量小的情况下 ,保证 R1 和 R2 较大. 从图 4 的实验结果中可以得到如下 2 个重要结 论 : 1) 使用文中提出的关键资源定位算法 ,在多种 图 4 不同特征判定阈值下的实验结果集合数据 Fig. 4 Key resource coverage and result set size with different non2content feature threshold 特征判定阈值下 ,都可以用 20 %左右的网页数量 , 覆盖超过 70 %的关键资源页面. 这说明依靠非内容 特征进行关键资源页面的定位是完全可能的. 实验 得到的“关键资源页面集合”确实能够覆盖大部分关 键资源页面. 这也说明仍有约 30 %的关键资源页面 不被实验结果集合所包括 ,因此在实验结果集合上 进行主题提炼查找的性能上限即为 70 %左右. 但 是 ,当前主题提炼任务按平均精度计算的性能一般 都在 20 %上下浮动[4 - 5 ] ,因此这个上限对主题提炼 任务的性能影响甚微. 2) 实验结果得到的高质量集合覆盖关键资源页 面的比例是随着这个集合的规模而增加的. 与. GOV 集合规模相等的关键资源页面集合可以覆盖 所有的关键资源 ,但这个集合显然不能称之为“高质 量”,因此必须定义一个评价标准 ,从而能够在关键 资源覆盖率与页面集合大小之间找到较好的平衡 点 ,从而筛选出质量较高的关键资源页面. 4. 3 关键资源页面集合的评价标准 关键资源页面判定结果的评价与一般的分类问 题有类似之处 ,其问题可以归结到“用最小规模的关 键资源页面集合覆盖最大数量的关键资源页面”. 对 于此类问题 ,一般采用精度 —召回率的评价标准. 召 回率和精度的一般定义为 recall = # (相关页面集合 ∩检索结果页面集合) # 相关页面集合 . (2) precision = # (相关页面集合 ∩检索结果页面集合) # 检索结果页面集合 . (3) 由于无法判断实验结果集合中所有的关键资源页 面 ,因此在精度和召回率的计算中必须进行关键资 源数目的估计. 为此引入如下假设 : 1) 关键资源训练集合是. GOV 中所有关键资源 页面的一个均一采样 k ; 2) 关键资源页面占. GOV 页面总量的比例为 k. · 05 · 智 能 系 统 学 报 第 2 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有