提纲 概念 体系结构 ■意义 。历史 困难 相关领域 ■主要搜索引擎 评价 ■信息检索的应用 主要研究机构、会议、期刊 本课程主要内容
提纲 概念 体系结构 意义 历史 困难 相关领域 主要搜索引擎 评价 信息检索的应用 主要研究机构、会议、期刊 本课程主要内容
定义 ■信息检索:从非结构化的文档集中找出 与用户需求相关的信息 ■和其它相关技术的区别 。和数据库的区别 ■数据库是结构化数据 ·和情报检索的区别 ·情报检索介绍如何利用信息检索工具
定义 信息检索:从非结构化的文档集中找出 与用户需求相关的信息 和其它相关技术的区别 和数据库的区别 数据库是结构化数据 和情报检索的区别 情报检索介绍如何利用信息检索工具
处理的对象 ■非结构化数据 ·文本数据:新闻、科技论文等 ·网页:HTML、XML 。多媒体数据:图像、视频、图形、音频 ■目前最主要的处理对象是互联网
处理的对象 非结构化数据 文本数据:新闻、科技论文等 网页:HTML、XML 多媒体数据:图像、视频、图形、音频 目前最主要的处理对象是互联网
典型的IR任务 ·给定 ·自然语言的文档集合 ,用户的提问(Quey) ■查找 ·和query相关的经过排序(Rank)的文档子集
典型的IR任务 给定 自然语言的文档集合 用户的提问(Query) 查找 和query相关的经过排序(Rank)的文档子集
IR系统 Document corpus Query IR String System 1.Docl 2.D0c2 Ranked 3.Doc3 Documents
IR系统 IR System Query String Document corpus Ranked Documents 1. Doc1 2. Doc2 3. Doc3 .