本科:Web信息搜索 §7Web搜索引擎 课程总结与复习 (Course Review) 徐悦牲Yueshen Xu) ysxu@xidian.edu.cn xuyueshen@163.com 知识与数据工程研究中心 历些毛子代技七 XIDIAN UNIVERSITY
§7 Web搜索引擎 课程总结与复习 (Course Review) 徐悦甡(Yueshen Xu) ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息搜索
本节提纲 历些毛子科枚大多 XIDIAN UNIVERSITY 口课程总结与复习 ■Web信息搜索概述 GFS MapReduce BigTable ■全文检索+网页排序 多媒体检索 复习、重述 ■ 文本聚类 重要知识点 ■文本分类 ■推荐系统 ■语义网 知识图谱 2017/16/9 软件工程系
2017/6/9 软件工程系 本节提纲 课程总结与复习 Web信息搜索概述 GFS + MapReduce + BigTable 全文检索 + 网页排序 多媒体检索 文本聚类 文本分类 推荐系统 语义网 知识图谱 复习、重述 重要知识点
整体课程安排 历些毛子种枝大等 XIDIAN UNIVERSITY >信息检索引擎 K Google 名sK回 查询 YAHOO! Sougou嗣 Query 中国雅虎 为了用户 Ba怂百度 /数据 Sog9u搜狗 索引 聚类 ⑤0S0搜提 倒排 分类 ⑤中搜 有道y9udao 查询 推荐 爬虫 相似性 分布式 语义网 知识图谱 为了系统 建模 智能 排垿(Modeling) 2017/6/9 Ranking 软件工程系
2017/6/9 软件工程系 整体课程安排 查询 (Query) 建模 (Modeling) 排序 (Ranking) 信息检索引擎 为了用户 /数据 为了系统 /智能 索引 倒排 查询 爬虫 分布式 … 聚类 分类 推荐 相似性 语义网 知识图谱
信息检索概述 历些毛子种枚大》 XIDIAN UNIVERSITY Document corpus Query IR String System 1.Docl 2.Doc2 Ranked 3.Doc3 Documents 信息检索!=搜索引擎!=Web检索 一部分信息检索不需要涉及Web访问 201716/9 软件工程系
2017/6/9 软件工程系 信息检索概述 4 信息检索 != 搜索引擎 != Web检索 一部分信息检索不需要涉及Web访问
搜索引擎 历些毛子种枝大等 XIDIAN UNIVERSITY Web spider Search Indexer The Web 2017/6/9 软件工程系
2017/6/9 软件工程系 搜索引擎 5
术语总结 历些毛子代枚大多 XIDIAN UNIVERSITY 口Web搜索 V(World Wide Web)为典型代表的网络上检索、过滤和推荐信 息的的方法与技术 口检索 ■由用户提出查询请求,系统根据此查询请求对所存储信息进行查询 并给出查询结果 口过滤(聚类分类) ■系统根据预先设定的条件,对与该条件相符的信息进行提取、隔离 或封堵 口推荐 ■ 系统将用户需要的重要信息从大量的一般信息中提取出来,并主动 推荐给用户 2017/16/9 6 软件工程系
2017/6/9 软件工程系 术语总结 Web搜索 WWW(World Wide Web)为典型代表的网络上检索、过滤和推荐信 息的的方法与技术 检索 由用户提出查询请求,系统根据此查询请求对所存储信息进行查询 并给出查询结果 过滤(聚类/分类) 系统根据预先设定的条件,对与该条件相符的信息进行提取、隔离 或封堵 推荐 系统将用户需要的重要信息从大量的一般信息中提取出来,并主动 推荐给用户 6
工具课 历些毛子代枝大等 XIDIAN UNIVERSITY 口网络文件系统 ▣分布式文件系统 ▣MapReduce ▣HDFS ▣Lucene 2017/6/9 软件工程系
2017/6/9 软件工程系 工具课 网络文件系统 分布式文件系统 MapReduce HDFS Lucene 7
网络文件系统 历些毛子科枚大》 XIDIAN UNIVERSITY 文件服 磁盘上存 务器 客户 储有共享 的文件系 统 请求 2017/16/9 软件工程系
2017/6/9 软件工程系 网络文件系统 8
分布式文件系统 历些毛子种枝大等 XIDIAN UNIVERSITY ImDFS Storage group 1 client up2 ←二 2017/6/9 软件工程系
2017/6/9 软件工程系 分布式文件系统 9
分布式计算平台 历忠子代枚大号 XIDIAN UNIVERSITY →MapReduce sort splito map merge reduce parto sort splito map merge sort reduce part1 splito map Map Reduce 201716/9 何 软件工程系
2017/6/9 软件工程系 分布式计算平台 MapReduce 10 split0 map sort reduce part0 merge split0 map sort split0 map sort reduce part1 merge Map Reduce