信息检索与数据挖掘 2019/3/25 1 信息检索与数据挖掘 第7章相关反馈和查询扩展
信息检索与数据挖掘 2019/3/25 1 信息检索与数据挖掘 第7章 相关反馈和查询扩展
信息检索与数据挖掘 2019/3/25 3 本讲内容 ·查询优化概述 ·相关反馈(relevance feedback) ·相关反馈概述 ·Rocchio相关反馈算法 ·隐式相关反馈 。伪相关反馈 ·相关反馈的假设条件及评价方法 。查询扩展(Query expansion)
信息检索与数据挖掘 2019/3/25 3 本讲内容 • 查询优化概述 • 相关反馈(relevance feedback) • 相关反馈概述 • Rocchio 相关反馈算法 • 隐式相关反馈 • 伪相关反馈 • 相关反馈的假设条件及评价方法 • 查询扩展(Query expansion)
信息检索与数据挖掘 2019/3/25 4 回顾:检索系统 能否让查询结果更相关? 用户查询 语言分析器 0 结果 文档 自由文本查询分析器 页面 素器 拼写校正 评分排序 文档缓存 域和字段素引 非精确TopK 层次型位置倒排 K-gram 评分参数 中的元数据 检素 索引 素引 训练集 素引 机器学习 查询优化
信息检索与数据挖掘 2019/3/25 4 回顾:检索系统 能否让查询结果更相关? 查询优化
信息检索与数据挖掘 2019/3/25 5 信息需求≠查询 图喜马拉雅百度搜索 https://www.baidu.com/s7wd=%E59696969C96E996A9%6AC96E6968B96899E9969E 度 喜马拉雅高度喜马拉雅高度 a 百度一下 喜马拉雅 百度一下 网页 新闻贴吧 知道 音乐图片 视频 地图 文库 更多》 百度为您找到相关结果约4,100.000个 了按索工具 网页 新闻 贴吧 知道 音乐 图片 视频 地图 文库 更多。 喜马拉雅山脉海拔: 百度为您找相关结果约20.900.000个 了搜索工具 平均7000-8000米以上 ②为您推荐: 喜马拉雅电台喜马拉雅app 喜马拉雅睡前故童 喜马拉雅在线刻收听 喜马拉雅山脉(梵语:hima alaya,意为雪域),藏语意为雪的故 喜马拉雅FM国内专业音频分享平台随时随地听我想听 乡。位于青藏高原南藏边缘。是世界海拔最高的山脉,其中有110 国内专业音频分享平台随时随地,听我想听4亿用户选择的在线音须平 多座山蜂高达或超过海拔7350米。是东亚大.洋情> 台。马东、郭德纲、吴晓波等20多万大咖入驻1亿多条原创有声内容 来自百度百科【报甜 覆盖有声书、儿童、相声评书 、 wwww.ximalaya.com/explore/,Vs-百度快照 喜马拉雅山脉百度百科 喜马拉雅山脉作为一个影响空气和水的大循环系统的气候大分界线对 喜马拉雅FM电台节目在线收听喜马拉雅FM 于南面的印度次大陆和北面的中亚高地的气象状况具有决定性的影 6天前-喜马拉雅FM播客节目精选。喜马拉雅FM播客节目精选。收起03-嫁人当嫁王小川?13 响。由于位置和令人惊叹的高度,大 85600:00/20:3000003天前下载到手机赞(14)评论(45)转采(3) 地理情况气候特征主要资源水系情况人文历史更多> www.ximalaya.com89141..,Va-百度快盟 baike.baidu.com/ 喜马拉雅好声音网络电台主播喜马拉雅M 喜马拉雅山海拔高度?百度知道 欢迎收听喜马拉雅好声音网络电台在这里您可以了解更多喜马拉雅好声音主播,个人电台动态 2个回答-提可时问:2013年05月27日 信息。喜马拉雅FM,听我想听响 最佳答案:喜马拉雅脉位于西意白治区与巴基斯坦、印度、尼泊尔、锡金、不丹等国边境上 www.ximalaya.com/zhubo.,V3-百度快照 东西绵延2400多公里南北宽约200一300公里,由几列大致平行的山脉组成,呈向南 https://zhidao.baidu.com/quest.. 喜马拉雅开放平台 喜马拉推山的高度是怎么量出来的呢 3个回答 2009-12-18 喜马拉雅开放平台open.ximalaya.com将喜马拉雅海量音频内容开放给第三方合作方。通过移 喜马拉雅山的准确尚度是多2 4个回答 2016-02-22 动应用SDK和完善的接入文档让接入喜马拉雅音频内容更便捷。 喜马拉雅山有多高2 2个回答 2008-04-04 open.ximalaya.coml,-百度快照-204条评价 更多知道相送问题≥ 喜马拉雅FM-国内专业音频分享平台.随时随地.听我想听H 高度高度高度MP3电台节目免费下载喜马拉雅FM 国内专业音颜分享平台随时随地,听我想听4亿用户选择的在线音频平台。马东、郭德纲、吴 电台须道最近更新了高度高度高度MP3,您可以免费下载高度高度高度等电台节目精彩粉 晓波等20多万大咖入驻1亿多条原创有声内容覆盖有声书、儿童、相声评书、… 呈不容错过1喜马拉雅听书 ww.ximalaya.com/downl..,,Va-百度快照
信息检索与数据挖掘 2019/3/25 5 信息需求 ≠ 查询
信息检索与数据挖掘 网版 百度 知否知否应是绿肥红瘦 网页 新闻 贴吧 知道 音乐 图片 视频 地图 文库 更多 信息需求未查询 百度为您找到相关结果约3,130.000个 了搜索工具 Q为您推荐: 知香知香独视剧 知香应是绿肥红瘦d 庶女攻略 木僅花西月锦绣 如梦令作夜雨疏☒骤百度汉语 关键词: 作者:李清照 昨夜雨疏风骤。浓睡不消残酒。试问卷帘人,却道海棠依旧。知否。知 知否知否应是绿肥红瘦 否。应是绿肥红瘦。 来自百度汉语!报错 信息需求: 知否?知否?应是绿肥红瘦关心则乱)全文阅读-乐文小说 小说知否?知否?应是绿肥红瘦的简介:一个消极怠工的古代庶女生活如此艰难何必卖力奋斗。 (1)李清照的词 古代贵族女子的人生基调是由家族决定的,还流行株连,一个飞来横祸就会 https:www.lewenxiaoshuo.coml..,-百度快照 (2)网络小说 知否知否应是绿肥红瘦百度百科 (3)电视剧 类型:电视剧作品 导演:张开宙 简介:《知否知否应是绿肥红度》是由东阳正午阳光影视有限公司出 品,侯鸿亮制片,张开宙执导,管璐、吴桐编剧。赵丽颖、冯绍幢 朱一龙、施诗、张佳宁、善翠芬、刘物、高露、王仁君、 剧情值个分集剧情演盟员麦角色个绍墓后花絮更多> baike.baidu.com/ 《知否?知否?应是绿肥红瘦》关心则乱~19楼全文免费阅读 四开始阅读作者:关心侧乱 19楼提供《知否?知否?应是绿肥红度》的最新章节和大量的VP章节,更新及时,欢迎光临本站 阅读《知否?知否?应是绿肥红瘦)您也可以选择收藏《知否?知否?应是绿肥 最新章节:221第220回 w 19lou tw/html/07 百度快昭
信息检索与数据挖掘 2019/3/25 6 信息需求 ≠ 查询 关键词: 知否知否 应是绿肥红瘦 信息需求: (1)李清照 的 词 (2)网络小说 (3)电视剧
信息检索与数据挖掘 2019/3/25 8 为何有时用户感觉召回率低? ·在大多数文档集中,同一概念可以用不同的词来表 达,这个现象称为一义多词(synonymy),它会 对大部分信息检索系统的召回率产生影响。 ·比如,输入查询aircraft时我们希望能找到包含plane的文 档,当然,这里的plane指的是飞机(airplane),而不是 木工刨(woodworking plane)。 ·另外,我们也希望在查找hermodynamicsl时能够与 特定环境下的heat匹配上。 一义多词 LS1可以帮助我们发现相关文档
信息检索与数据挖掘 2019/3/25 8 为何有时用户感觉召回率低? • 在大多数文档集中,同一概念可以用不同的词来表 达,这个现象称为一义多词(synonymy),它会 对大部分信息检索系统的召回率产生影响。 • 比如,输入查询aircraft时我们希望能找到包含plane的文 档,当然,这里的plane指的是飞机(airplane),而不是 木工刨(woodworking plane)。 • 另外,我们也希望在查找thermodynamics时能够与 特定环境下的heat匹配上。 一义多词 LSI可以帮助我们发现相关文档
信息检索与数据挖掘 2019/3/25 9 搜索中提高召回率的方法 ·本讲的主题:两种提高召回率的方法一相关反馈及 查询扩展 。考虑查询q:[aircraft].. ·某篇文档d包含“plane'?,但是不包含“aircraft” ·显然对于查询q,一个简单的R系统不会返回文档d, 即使d是和q最相关的文档 ·我们试图改变这种做法: ·也就是说,我们会返回不包含查询词项的相关文档
信息检索与数据挖掘 2019/3/25 9 搜索中提高召回率的方法 • 本讲的主题:两种提高召回率的方法—相关反馈及 查询扩展 • 考虑查询q: [aircraft] . . . • 某篇文档 d 包含“plane”, 但是不包含 “aircraft” • 显然对于查询q,一个简单的IR系统不会返回文档d, 即使d是和q最相关的文档 • 我们试图改变这种做法: • 也就是说,我们会返回不包含查询词项的相关文档
信息检索与数据挖掘 2019/3/25 10 关于召回▣率Recall ·本讲当中会放松召回率的定义,即(在前几页)给用 户返回更多的相关文档。 ·这可能实际上会降低召回率,比如,将jaguar扩展 为jaguart(美洲虎;一种汽车品牌)十panthera(豹属) 。可能会去掉一些相关的文档,但是可能增加前几页 返回给用户的相关文档数
信息检索与数据挖掘 2019/3/25 10 关于召回率Recall • 本讲当中会放松召回率的定义,即(在前几页)给用 户返回更多的相关文档。 • 这可能实际上会降低召回率,比如,将jaguar扩展 为jaguar(美洲虎;一种汽车品牌)+panthera(豹属) • 可能会去掉一些相关的文档,但是可能增加前几页 返回给用户的相关文档数
信息检索与数据挖掘 2019/3/25 11 提高召回率的方法 。本章主要讨论系统中进行查询优化(query refinement)的各种方法,包括全自动的方法和用 户参与的方法。 ·局部(local)方法 ·对用户查询进行局部的即时的分析 ·主要的局部方法:相关反馈(relevance feedback) ·全局(Global)方法 ·进行一次性的全局分析(比如分析整个文档集)来产生同/ 近义词词典(thesaurus) ·利用该词典进行查询扩展
信息检索与数据挖掘 2019/3/25 11 提高召回率的方法 • 本章主要讨论系统中进行查询优化(query refinement)的各种方法,包括全自动的方法和用 户参与的方法。 • 局部(local)方法 • 对用户查询进行局部的即时的分析 • 主要的局部方法:相关反馈(relevance feedback) • 全局(Global)方法 • 进行一次性的全局分析(比如分析整个文档集)来产生同/ 近义词词典 (thesaurus) • 利用该词典进行查询扩展
信息检索与数据挖掘 2019/3/25 12 小结:查询优化的动机 查询优化(query refinement). ·查询不能准确表示信息需求→召回率低? 。查询优化的目标? 。提高召回率 ·查询优化的可能途径? ·局部(local')方法:相关反馈(relevance feedback) ·全局(Global)方法:查询扩展
信息检索与数据挖掘 2019/3/25 12 小结:查询优化的动机 查询优化(query refinement) • 查询不能准确表示信息需求召回率低? • 查询优化的目标? • 提高召回率 • 查询优化的可能途径? • 局部(local)方法:相关反馈(relevance feedback) • 全局(Global)方法:查询扩展