信息检索与数据挖掘 2019/3/25 1 信息检索与数据挖掘 第6章检索的评价
信息检索与数据挖掘 2019/3/25 1 信息检索与数据挖掘 第6章 检索的评价
信息检索与数据挖掘 2019/3/25 3 提纲 ①上一讲回顾 ②检索系统的评价概述 3 无序检索结果的评价 ④有序检索结果的评价 ⑤为IR系统构建测试集 6检索结果的展示
信息检索与数据挖掘 2019/3/25 3 提纲 ❶ 上一讲回顾 ❷ 检索系统的评价概述 ❸ 无序检索结果的评价 ❹ 有序检索结果的评价 ❺ 为IR系统构建测试集 ❻ 检索结果的展示
信息检索与数据挖掘 2019/3/25 4 搜索系统组成 用户查询 语言分析器 0 结果 文档 自由文本查询分析器 页面 0 索引器 拼写校正 评分排序 文档缓存 域索引及字 段索引中的 非精确 层次型位置倒 k-gram 评分参数 元数据 topK检索 排索引 索引 训练 索引 机器学习 集合
信息检索与数据挖掘 2019/3/25 4 搜索系统组成 4
信息检索与数据挖掘 2019/3/25 5 综合评分 已经介绍的评分函数有余弦相似度、静态得分、近 邻性等。 ·如何将这些评分组合才是最优的? •通用方法一 机器学习 机器学习有下面几种定义:“机器学习是一门人工智能的科学,该领域的主要 研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机 器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据 或以往的经验,以此优化计算机程序的性能标准。”一种经常引用的英文定义 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P,if its performance at tasks in T,as measured by P,improves with experience E
信息检索与数据挖掘 2019/3/25 5 综合评分 • 已经介绍的评分函数有余弦相似度、静态得分、近 邻性等。 • 如何将这些评分组合才是最优的? • 通用方法——机器学习 5 机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要 研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机 器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据 或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义 是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E
信息检索与数据挖掘 2019/3/25 6 提纲 ①上一讲回顾 检索系统的评价概述 3 无序检索结果的评价 ④有序检索结果的评价 ⑤为IR系统构建测试集 6检索结果的展示
信息检索与数据挖掘 2019/3/25 6 提纲 ❶ 上一讲回顾 ❷ 检索系统的评价概述 ❸ 无序检索结果的评价 ❹ 有序检索结果的评价 ❺ 为IR系统构建测试集 ❻ 检索结果的展示
信息检索与数据挖掘 2019/3/25 8 为什么要评价R? ·前面各章介绍了信息检索系统设计中的各种方法。 怎样才能知道其中哪些技术在哪些应用中有效? ·信息检索已经发展成为一门高度经验性的学科,需要在 具有代表性的文档集上进行全面细致的评价,从而论证 新技术的应用所带来的性能提升。 ·通过评价可以判断不同技术的优劣,不同因素对系 统的影响,从而促进本领域研究水平的不断提高 ·信息检索系统的日标是较少消耗情况下尽快、全面 返回准确的结果。 8
信息检索与数据挖掘 2019/3/25 8 为什么要评价IR? • 前面各章介绍了信息检索系统设计中的各种方法。 怎样才能知道其中哪些技术在哪些应用中有效? • 信息检索已经发展成为一门高度经验性的学科,需要在 具有代表性的文档集上进行全面细致的评价,从而论证 新技术的应用所带来的性能提升。 • 通过评价可以判断不同技术的优劣,不同因素对系 统的影响,从而促进本领域研究水平的不断提高。 • 信息检索系统的目标是较少消耗情况下尽快、全面 返回准确的结果。 8
信息检索与数据挖掘 2019/3/25 9 搜索引擎的评价 ·建立索引的速度 。查询语言的表达能力 ·每小时索引的文档数量 ·是否能表达复杂的信息需求 。平均的文档大小 ·对复杂查询的处理速度 。搜索的速度 ·流畅和清晰的用户界面 。和索引大小相关 。是否免费? User Interface Text query Text operations Logical User Query Indexing Collection feedback Operations Manager Query R Searching Text R Text Ranked Retrieved Collection Docs Ranking Docs
信息检索与数据挖掘 2019/3/25 9 搜索引擎的评价 • 建立索引的速度 • 每小时索引的文档数量 • 平均的文档大小 • 搜索的速度 • 和索引大小相关 • 查询语言的表达能力 • 是否能表达复杂的信息需求 • 对复杂查询的处理速度 • 流畅和清晰的用户界面 • 是否免费?
信息检索与数据挖掘 2019/3/25 10 搜索引擎的评价 ·上述的评价标准都是可以定量的 ·我们可以测量速度或者索引大小 ·关键的评价标准:用户满意度 ·用户满意度如何定义? ·搜索引擎响应速度和索引的覆盖范围是要考虑的因素 ·但是如果结果不能让用户满意,响应速度再快,也是没 有意义的 ·需要一种定量的方法来衡量用户满意度 如何用客观的measurement给出主观的满意度
信息检索与数据挖掘 2019/3/25 10 搜索引擎的评价 • 上述的评价标准都是可以定量的 • 我们可以测量速度或者索引大小 • 关键的评价标准:用户满意度 • 用户满意度如何定义? • 搜索引擎响应速度和索引的覆盖范围是要考虑的因素 • 但是如果结果不能让用户满意,响应速度再快,也是没 有意义的 • 需要一种定量的方法来衡量用户满意度 如何用客观的 measurement 给出主观的满意度
信息检索与数据挖掘 2019/3/25 11 用户满意度的衡量 ·关键问题:我们要使哪种用户满意? ·根据搜索服务的不同定位而异 ·Web搜索引擎 ·用户通过搜索引擎发现自己想要的东西,以后会继续使用这个 搜索引擎 ·可以统计用户的“回头率” ·电子商务网站 ·用户发现自己想要的东西,就会购买 。可以统计用户购买所花费时间,以及统计购买的用户占总的搜索的用 户的百分比 ·企业:关心“用户的生产力” ·用户使用搜索引擎寻找信息,能节省多少时间? ·也需要考虑其他的准则:访问的安全性,访问的广度
信息检索与数据挖掘 2019/3/25 11 用户满意度的衡量 • 关键问题:我们要使哪种用户满意? • 根据搜索服务的不同定位而异 • Web搜索引擎 • 用户通过搜索引擎发现自己想要的东西,以后会继续使用这个 搜索引擎 • 可以统计用户的“回头率” • 电子商务网站 • 用户发现自己想要的东西,就会购买 • 可以统计用户购买所花费时间,以及统计购买的用户占总的搜索的用 户的百分比 • 企业:关心“用户的生产力” • 用户使用搜索引擎寻找信息,能节省多少时间? • 也需要考虑其他的准则:访问的安全性,访问的广度
信息检索与数据挖掘 2019/3/25 12 满意度是很难衡量的 ·最通常的度量:搜索结果的相关度 ·用搜索结果的相关度这个客观度量来替代对满意度的评 估 。→如何衡量相关度? ·衡量相关度需要3个要素: 1.评测文档集合 2.评测查询集合 3.对每个查询的每个返回文档做出“相关”或者“不相关” 的评价(有些也可能不是二值的)
信息检索与数据挖掘 2019/3/25 12 满意度是很难衡量的 • 最通常的度量:搜索结果的相关度 • 用搜索结果的相关度这个客观度量来替代对满意度的评 估 • 如何衡量相关度? • 衡量相关度需要3个要素: 1. 评测文档集合 2. 评测查询集合 3. 对每个查询的每个返回文档做出“相关”或者“不相关” 的评价(有些也可能不是二值的)