信息检索与数据挖掘 2019/2/26 2 课程内容 第1章绪论 。1 。 第2章布尔检索及倒排索引 ·第3章词典查找及扩展的倒排索引 。 第4章索引构建和索引压缩 。 第5章向量模型及检索系统 。 第6章检索的评价 第7章相关反馈和查询扩展 。 第8章概率模型 。1 第9章基于语言建模的检索模型 。 第10章文本分类 第11章文本聚类 第12章Web搜索 第13章多媒体信息检索 ·第14章其他应用简介 2
信息检索与数据挖掘 2019/2/26 2 课程内容 • 第1章 绪论 • 第2章 布尔检索及倒排索引 • 第3章 词典查找及扩展的倒排索引 • 第4章 索引构建和索引压缩 • 第5章 向量模型及检索系统 • 第6章 检索的评价 • 第7章 相关反馈和查询扩展 • 第8章 概率模型 • 第9章 基于语言建模的检索模型 • 第10章 文本分类 • 第11章 文本聚类 • 第12章 Web搜索 • 第13章 多媒体信息检索 • 第14章 其他应用简介 2
信息检索与数据挖掘 2019/2/26 3 1.1.2信息检索 。Information Retrieval:这个术语产生于Calvin Mooers1948年在MIT的硕士论文。 ·Information Retrieval(IR):从大规模非结构化数据 (通常是文本)的集合(通常保存在计算机上)中找出 满足用户信息需求的资料(通常是文档)的过程 Mooers Law An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it.Where an information retrieval system tends not to be used,a more capable information retrieval system may tend to be used even less. 穆尔斯定律:当拥有信息比不拥有信息会使用户付出更大的努力或 给用户造成更大的麻烦时。用户会倾向于不使用信息检索系统。 3
信息检索与数据挖掘 2019/2/26 3 1.1.2 信息检索 • Information Retrieval这个术语产生于 Calvin Mooers 1948年在MIT的硕士论文。 • Information Retrieval(IR):从大规模非结构化数据 (通常是文本)的集合(通常保存在计算机上)中找出 满足用户信息需求的资料(通常是文档)的过程 3 Mooers Law : An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it. Where an information retrieval system tends not to be used, a more capable information retrieval system may tend to be used even less. 穆尔斯定律:当拥有信息比不拥有信息会使用户付出更大的努力或 给用户造成更大的麻烦时。用户会倾向于不使用信息检索系统
信息检索与数据挖掘 2019/2/26 4 1.1.3数据挖掘 数据挖掘(Data Mining)从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程 数据挖掘的基本内容 ·特征提取、分类、聚类 。话题检测、自动摘要 ·智能问答等 信息检索可以帮助人们从海量的数据中 快速的找到有用的信息 数据挖掘可以从大数据中提取出隐含的 、先前未知的并有潜在价值的信息
信息检索与数据挖掘 2019/2/26 4 1.1.3 数据挖掘 • 数据挖掘(Data Mining)从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程 • 数据挖掘的基本内容 • 特征提取、分类、聚类 • 话题检测、自动摘要 • 智能问答等 4 信息检索可以帮助人们从海量的数据中 快速的找到有用的信息 数据挖掘可以从大数据中提取出隐含的 、先前未知的并有潜在价值的信息
信息检索与数据挖掘 2019/2/26 5 1.4.1信息检索的基本概念 查询 文档 文档集 相关度 确定文档和查询之间的相关度是R的核心问题 5
信息检索与数据挖掘 2019/2/26 5 查询 相关度 文档 文档集 1.4.1 信息检索的基本概念 5 确定文档和查询之间的相关度是IR的核心问题
信息检索与数据挖掘 2019/2/26 6 1.4.2信息检索系统的基本组成 IR系统示意图 Collection IR Ouery System 1. Result 1 2. Result 2 Ranked 3.Result 3 results 6
信息检索与数据挖掘 2019/2/26 6 IR系统示意图 IR System Collection Ranked results Query 1. Result 1 2. Result 2 3. Result 3 . . 1.4.2 信息检索系统的基本组成 6
信息检索与数据挖掘 2019/2/26 7 1.4.2信息检索系统的基本组成 IR系统的组成框架 User Interface Text query Text operations Logical View User Query Indexing Collection feedback Operations Manager Query R Searching Text R Text Ranked Retrieved Collection Docs Ranking Docs 7
信息检索与数据挖掘 2019/2/26 7 IR系统的组成框架 query User feedback Query R Ranked Docs User Interface Text operations Query Operations Indexing Collection Manager Searching Ranking Text R Retrieved Docs Text Collection Text Logical View 1.4.2 信息检索系统的基本组成 7
信息检索与数据挖掘 2019/2/26 8 1.4.2信息检索系统的基本组成 ·用户接口(User Interface):用户和IR系统的人机接口 ·输入查询(Query) ·返回排序后的结果文档(Ranked Docs)并对其进行可视化 (Visualization) ·支持用户进行相关反馈(Feedback) ·用户的两种任务:retrieval或者browsing ·IR的两种模式:pull(ad hoc)或者push(filtering)) ·Pu11:用户是主动的发起请求,在一个相对稳定的数据集合上进行 查询 ·Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进 行操作,将满足用户兴趣的数据推送给用户 8
信息检索与数据挖掘 2019/2/26 8 • 用户接口(User Interface):用户和IR系统的人机接口 • 输入查询(Query) • 返回排序后的结果文档(Ranked Docs)并对其进行可视化 (Visualization) • 支持用户进行相关反馈(Feedback) • 用户的两种任务:retrieval 或者 browsing • IR的两种模式: pull (ad hoc) 或者 push (filtering) • Pull: 用户是主动的发起请求,在一个相对稳定的数据集合上进行 查询 • Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进 行操作,将满足用户兴趣的数据推送给用户 1.4.2 信息检索系统的基本组成 8
信息检索与数据挖掘 2019/2/26 9 1.4.2信息检索系统的基本组成 ·文本处理(Text Operations):对查询和文本进行的预处理操作 。中文分词(Chinese Word Segmentation) 。 词干还原(Stemming) ·停用词消除(Stop-word removal) 查询处理(Query operations):) 对经过文本处理后的查询进行进一 步处理,得到查询的内部表示(Query Representation) ·查询扩展(Query Expansion):利用同义词或者近义词对查询进行扩展 ·查询重构(Query Reconstruction):利用用户的相关反馈信息对查询进行修 改 文本索引(Indexing):对经过文本处理后的文本进行进一步处理, 。1 得到文本的内部表示(Text Representation),通常基于索引项 (Term)来表示 ·向量化、概率计算 ·组成成倒排表进行存储 9
信息检索与数据挖掘 2019/2/26 9 • 文本处理(Text Operations):对查询和文本进行的预处理操作 • 中文分词(Chinese Word Segmentation) • 词干还原(Stemming) • 停用词消除(Stop-word removal) • 查询处理(Query operations):对经过文本处理后的查询进行进一 步处理,得到查询的内部表示(Query Representation) • 查询扩展(Query Expansion):利用同义词或者近义词对查询进行扩展 • 查询重构(Query Reconstruction):利用用户的相关反馈信息对查询进行修 改 • 文本索引(Indexing):对经过文本处理后的文本进行进一步处理, 得到文本的内部表示(Text Representation),通常基于索引项 (Term)来表示 • 向量化、概率计算 • 组成成倒排表进行存储 1.4.2 信息检索系统的基本组成 9
信息检索与数据挖掘 2019/2/26 10 1.4.2信息检索系统的基本组成 .搜索(Searching):从文本中查找包含查询中索引 项的文本 ·排序(Ranking):对搜索出的文本按照某种方式来 计算其相关度 Logical View:指的是查询或者文本的表示,通 常采用一些关键词或者索引项(index term)来表 示一段查询或者文本。 10
信息检索与数据挖掘 2019/2/26 10 • 搜索(Searching):从文本中查找包含查询中索引 项的文本 • 排序(Ranking):对搜索出的文本按照某种方式来 计算其相关度 • Logical View:指的是查询或者文本的表示,通 常采用一些关键词或者索引项(index term)来表 示一段查询或者文本。 1.4.2 信息检索系统的基本组成 10
信息检索与数据挖掘 2019/2/26 11 1.5.4授课内容 ·第一章绪论 信息检索的典型应用。信息检索的基本概念和发展历史。信息检 索和其他相关学科(自然语言处理、机器学习、概率统计、模式识 别、数据库、数据挖掘等等)的关系。信息检索系统的基本构架和 般流程。 ·第二章布尔检索及倒排索引 字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操 作。短语查询的处理。布尔检索模型及其扩展。 ·第三章词典查找及扩展的倒排索引 支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查 询处理的索引结构。支持拼写或发音纠错处理的索引结构。 11
信息检索与数据挖掘 2019/2/26 11 1.5.4 授课内容 • 第一章 绪论 信息检索的典型应用。信息检索的基本概念和发展历史。信息检 索和其他相关学科(自然语言处理、机器学习、概率统计、模式识 别、数据库、数据挖掘等等)的关系。信息检索系统的基本构架和 一般流程。 • 第二章 布尔检索及倒排索引 字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操 作。短语查询的处理。布尔检索模型及其扩展。 • 第三章 词典查找及扩展的倒排索引 支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查 询处理的索引结构。支持拼写或发音纠错处理的索引结构。 11