Lecture10 Hadoop生态系统 10.1 Hadoop总体架构 10.2HDFS文件系统 10.3分布式存储架构 10.4 Hadoop资源管理与作业调度 Big Data Computing Technology,2017 Fall
Lecture 10 Hadoop生态系统 Big Data Computing Technology, 2017 Fall 1 10.1 Hadoop总体架构 10.2 HDFS文件系统 10.3 分布式存储架构 10.4 Hadoop资源管理与作业调度
10.1 Hadoop总体架构 ·系统架构: ·部署在低成本的Intel/Linux硬件平台上 ·由多台装有Intel x86处理器的服务器或PC机组成 ·通过高速局域网构成一个计算集群 ·各个节点上运行Linux操作系统 ·三大主要模式: ·单机模式(standalone mode) ·虚拟分布模式(pseudo-distributed mode) ·完全分布模式(completely distributed Mode) Big Data Computing Technology,2017 Fall
10.1 Hadoop总体架构 Big Data Computing Technology, 2017 Fall 2 • 系统架构: • 部署在低成本的Intel/Linux硬件平台上 • 由多台装有Intel x86处理器的服务器或PC机组成 • 通过高速局域网构成一个计算集群 • 各个节点上运行Linux操作系统 • 三大主要模式: • 单机模式(standalone mode) • 虚拟分布模式(pseudo-distributed mode) • 完全分布模式(completely distributed Mode)
10.1 Hadoop总体架构 集群配置: ·硬件配置: ·NameNode(执行作业调度、资源调配、系统监控等任务) ·DataNode(承担具体的数据计算任务) ·软件配置: ·Linux O/S ·JDK1.6以上版本 ·SSH(Security Shell)安全协议 ·网络配置: ·NameNode?到机架(Rack)的网络连接 ·机架内部的DataNode之间的网络连接 Big Data Computing Technology,2017 Fall
10.1 Hadoop总体架构 Big Data Computing Technology, 2017 Fall 3 集群配置: • 硬件配置: • NameNode(执行作业调度、资源调配、系统监控等任务) • DataNode(承担具体的数据计算任务) • 软件配置: • Linux O/S • JDK 1.6以上版本 • SSH(Security Shell)安全协议 • 网络配置: • NameNode到机架(Rack)的网络连接 • 机架内部的DataNode之间的网络连接
10.1 Hadoop总体架构 集群软件配置: ·主节点运行的程序或进程: ·主节点程序Namenode ·Jobtracker守护进程 ·管理集群所用的Hadoop工具程序和集群监控浏览器 ·从节点运行的程序: ·从节点程序Datanode ·任务管理进程Tasktracker ·区别: ·主节点程序提供Hadoop集群管理、协调和资源调度功能 ·从节点程序主要实现Hadoop文件系统(HDFS)存储功 能和书点数琚还理坊能。 Big Data Computing Technology,2017 Fall
10.1 Hadoop总体架构 Big Data Computing Technology, 2017 Fall 4 集群软件配置: • 主节点运行的程序或进程: • 主节点程序Namenode • Jobtracker 守护进程 • 管理集群所用的Hadoop 工具程序和集群监控浏览器 • 从节点运行的程序: • 从节点程序Datanode • 任务管理进程Tasktracker • 区别: • 主节点程序提供 Hadoop 集群管理、协调和资源调度功能 • 从节点程序主要实现 Hadoop 文件系统(HDFS)存储功 能和节点数据处理功能
10.1 Hadoop总体架构 Hadoop软件架构: ·组成: ·基于HDS/HBasel的数据存储系统 ·基于YARN/Zookeeper的管理调度系统 ·支持不同计算模式的处理引擎 Big Data Computing Technology,2017 Fall
10.1 Hadoop总体架构 Big Data Computing Technology, 2017 Fall 5 Hadoop软件架构: • 组成: • 基于HDFS/HBase的数据存储系统 • 基于YARN/Zookeeper的管理调度系统 • 支持不同计算模式的处理引擎
10.1 Hadoop总体架构 数据存储系统 ·组成: ·分布式文件系统HDFS(Hadoop Distributed File System) ·分布式非关系型数据库Hbase ·数据仓库及数据分析工具Hive和Pig ·用于数据采集、转移和汇总的工具Sqoop和Flume。 ·HDFS文件系统构成了Hadoop数据存储体系的基 础 Big Data Computing Technology,2017 Fall
10.1 Hadoop总体架构 Big Data Computing Technology, 2017 Fall 6 数据存储系统 • 组成: • 分布式文件系统HDFS(Hadoop Distributed File System) • 分布式非关系型数据库Hbase • 数据仓库及数据分析工具Hive和Pig • 用于数据采集、转移和汇总的工具Sqoop和Flume。 • HDFS文件系统构成了Hadoop数据存储体系的基 础
10.1 Hadoop总体架构 管理调度系统: ·Zookeeper:提供分布式协调服务管理 ·Oozie:负责作业调度 ·Ambari:提供集群配置、管理和监控功能 ·Chukwa:大型集群监控系统 ·YARN:集群资源调度管理系统 Big Data Computing Technology,2017 Fall
10.1 Hadoop总体架构 Big Data Computing Technology, 2017 Fall 7 管理调度系统: • Zookeeper:提供分布式协调服务管理 • Oozie:负责作业调度 • Ambari:提供集群配置、管理和监控功能 • Chukwa:大型集群监控系统 • YARN:集群资源调度管理系统
10.2HDFS文件系统 分布式文件系统: ·结构: ·物理存储资源和对象分散存储在通过网络相连的远程节点上 主控服务器(也称元数据服务器):负责管理命名空间和文件 目录, ·远程数据服务器(也称存储服务器)节点:存储实际文件数据 ·特点 ·透明性 ·高可用性 ·支持并发访问 ·可扩展性 ·安全性 Big Data Computing Technology,2017 Fall
10.2 HDFS文件系统 Big Data Computing Technology, 2017 Fall 8 分布式文件系统: • 结构: • 物理存储资源和对象分散存储在通过网络相连的远程节点上 • 主控服务器(也称元数据服务器):负责管理命名空间和文件 目录, • 远程数据服务器(也称存储服务器)节点:存储实际文件数据 • 特点 • 透明性 • 高可用性 • 支持并发访问 • 可扩展性 • 安全性
10.2HDFS文件系统 分布式文件系统: 檄理行储资源和对象分散存储在通过网络州连的远程节 接释备翼,(也称元数据服务器):负责管理命名空间 ·远程数据服务器(也称存储服务器)节点:存储实际文 件薮籍 ·特点 ·透明性 ·高可用性 ·支持并发访问 ·可扩展性 ·安全性 Big Data Computing Technology,2017 Fall
10.2 HDFS文件系统 Big Data Computing Technology, 2017 Fall 9 分布式文件系统: • 物理存储资源和对象分散存储在通过网络相连的远程节 点上 • 主控服务器(也称元数据服务器):负责管理命名空间 和文件目录, • 远程数据服务器(也称存储服务器)节点:存储实际文 件数据 • 特点 • 透明性 • 高可用性 • 支持并发访问 • 可扩展性 • 安全性
10.2HDFS文件系统 HDFS体系结构: ·唯一主节点:运行NameNode,JobTracker, Zookeeper,Hmaster等负责集群管理、资源配 置、作业调度的程序 ·多个从节点(dataNode):承担数据存储及计 算任务。 ·客户端(Client):用于支持客户操作HDFS Big Data Computing Technology,2017 Fall 10
10.2 HDFS文件系统 Big Data Computing Technology, 2017 Fall 10 HDFS体系结构: • 唯一主节点:运行NameNode,JobTracker, Zookeeper,Hmaster等负责集群管理、资源配 置、作业调度的程序 • 多个从节点(dataNode):承担数据存储及计 算任务。 • 客户端(Client):用于支持客户操作HDFS