
《大数据处理》课程大纲一、课程名称:大数据处理二、课程性质:必修、理论课三、学时与学分:40学时,3学分四、课程先导课:C语言程序设计、数据结构、算法设计与分析、数据库系统原理、操作系统等五、课程简介“大数据处理”是一门工程性、技术性和实践性都很强的核心专业基础课程,它主要包含了大数据处理模式、大数据存储模式、大数据编程模式以及大数据处理体系结构等诸多方面,是大数据分析以及应用的基础,在计算机学科系列课程中,是综合应用前期基础课程最集中的一门课程,其技术支撑了当前生活中大规模数据分析应用。通过本课程的学习,使学习者掌握数据处理和整体流程,能够针对实践中遇到的数据完成数据建模、处理以及分析工作。大数据处理模式方面,主要让大家熟练应用大数据的并行和分布式处理;在大数据存储模式方面,主要让学习者了解大数据如何存储以及相应的文件系统;在大数据编程模式方面,主要让学习者了解批处理、流处理、交互式处理以及图处理;在大数据处理体系结构方面,主要让大家了解当前常用的数据中心结构。此外,本课程还将介绍大数据管理和系统优化方面的技术。以上所有知识点都将辅以大数据处理实例并结合相应大数据处理系统从而让学习者能胜任工作中遇到的各类大数据处理实践问题。六、课程目标通过相关教学活动,帮助学生掌握大数据处理的基本概念、原理与架构,使学习者掌握数据处理和整体流程,能够针对实践中遇到的数据完成数据建模、处理以及分析工作,具有设计开发大数据处理算法和应用程序的基本能力。同时,了解大数据发展的最前沿技术,并深入认识和理解大数据的发展趋势和解决实际问题的能力。课程的具体目标包括:目标1:使学生能系统掌握大数据并行处理有关的基本概念、基本原理、基本架构,使学生了解分布式集群系统,并熟悉基于分布式集群系统设计的Hadoop系统的组件功能及其运行机制,了解大数据分布式流处理系统、大数据图计算系
《大数据处理》课程大纲 一、课程名称:大数据处理 二、课程性质:必修、理论课 三、学时与学分:40 学时,3 学分 四、课程先导课:C 语言程序设计、数据结构、算法设计与分析、数据库系统原 理、操作系统等 五、课程简介 “大数据处理”是一门工程性、技术性和实践性都很强的核心专业基础课程, 它主要包含了大数据处理模式、大数据存储模式、大数据编程模式以及大数据处 理体系结构等诸多方面,是大数据分析以及应用的基础,在计算机学科系列课程 中,是综合应用前期基础课程最集中的一门课程,其技术支撑了当前生活中大规 模数据分析应用。通过本课程的学习,使学习者掌握数据处理和整体流程,能够 针对实践中遇到的数据完成数据建模、处理以及分析工作。大数据处理模式方面, 主要让大家熟练应用大数据的并行和分布式处理;在大数据存储模式方面,主要 让学习者了解大数据如何存储以及相应的文件系统;在大数据编程模式方面,主 要让学习者了解批处理、流处理、交互式处理以及图处理;在大数据处理体系结 构方面,主要让大家了解当前常用的数据中心结构。此外,本课程还将介绍大数 据管理和系统优化方面的技术。以上所有知识点都将辅以大数据处理实例并结合 相应大数据处理系统从而让学习者能胜任工作中遇到的各类大数据处理实践问 题。 六、课程目标 通过相关教学活动,帮助学生掌握大数据处理的基本概念、原理与架构,使 学习者掌握数据处理和整体流程,能够针对实践中遇到的数据完成数据建模、处 理以及分析工作,具有设计开发大数据处理算法和应用程序的基本能力。同时, 了解大数据发展的最前沿技术,并深入认识和理解大数据的发展趋势和解决实际 问题的能力。 课程的具体目标包括: 目标 1:使学生能系统掌握大数据并行处理有关的基本概念、基本原理、基 本架构,使学生了解分布式集群系统,并熟悉基于分布式集群系统设计的 Hadoop 系统的组件功能及其运行机制,了解大数据分布式流处理系统、大数据图计算系

统、以及相应的大数据管理系统。培养学生的并行数据处理理念与分布式协同管理理念。目标2:使学生能够掌握分布式存储系统HDFS的分布式存储方案及数据的分布式管理方式,了解HDFS的特点、架构、数据读取过程、数据写入过程,了解分布式存储划分策略以及数据存储一致性问题和数据容错问题,熟悉并掌握分布式键值系统以及与传统关系数据库的异同。培养学生能根据各种应用需要及数据类型特点,制定合适的大数据存储方案。目标3:使学生能够掌握MapReduce编程技术,能够了解MapReduce编程模型理念、工作原理及主要特点,熟悉MapReduce数据流概念以及Map过程、Shuffle过程和Reduce过程,利用案例分析,使学生会使用MapReduce思想处理实际大数据分析工作。七、教学设计及对课程目标的支持第一章大数据处理基础1.教学目标1)了解大数据基本特征;2)了解大数据存储模式:3)了解大数据处理模式:4)了解大数据编程模式;5)了解大数据处理体系结构。本章教学支持课程目标1。2.教学重点1)理解大数据的特征这是大数据处理课程的出发点,要求学生能深刻理解当前日常生活中有那些属于大数据,能从自身感受上感知大数据的存在,并能认识到大数据的4V特征,从根本上理解大数据与传统数据的基本不同,理解为什么传统的处理方法不适用于大数据处理。2)理解分布式计算的内涵分布式计算是大数据处理的核心技术,要求学生熟悉分布式集群计算的概念以及实际架构,理解多线程、多任务、多主机的计算环境,理解分布式计算与传统计算模式的区别。3.教学难点1)大数据4V特征定义
统、以及相应的大数据管理系统。培养学生的并行数据处理理念与分布式协同管 理理念。 目标 2:使学生能够掌握分布式存储系统 HDFS 的分布式存储方案及数据的 分布式管理方式,了解 HDFS 的特点、架构、数据读取过程、数据写入过程,了 解分布式存储划分策略以及数据存储一致性问题和数据容错问题,熟悉并掌握分 布式键值系统以及与传统关系数据库的异同。培养学生能根据各种应用需要及数 据类型特点,制定合适的大数据存储方案。 目标 3:使学生能够掌握 MapReduce 编程技术,能够了解 MapReduce 编程 模型理念、工作原理及主要特点,熟悉 MapReduce 数据流概念以及 Map 过程、 Shuffle 过程和 Reduce 过程,利用案例分析,使学生会使用 MapReduce 思想处理 实际大数据分析工作。 七、教学设计及对课程目标的支持 第一章 大数据处理基础 1.教学目标 1)了解大数据基本特征; 2)了解大数据存储模式; 3)了解大数据处理模式; 4)了解大数据编程模式; 5)了解大数据处理体系结构。 本章教学支持课程目标 1。 2.教学重点 1)理解大数据的特征 这是大数据处理课程的出发点,要求学生能深刻理解当前日常生活中有那些 属于大数据,能从自身感受上感知大数据的存在,并能认识到大数据的 4V 特征, 从根本上理解大数据与传统数据的基本不同,理解为什么传统的处理方法不适用 于大数据处理。 2)理解分布式计算的内涵 分布式计算是大数据处理的核心技术,要求学生熟悉分布式集群计算的概念 以及实际架构,理解多线程、多任务、多主机的计算环境,理解分布式计算与传 统计算模式的区别。 3.教学难点 1)大数据 4V 特征定义

理解大数据4V特征与传统数据的区别。2)分布式计算模型理解分布式与并行计算概念4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业、课外实践、课外阅读等教学形式。1)讨论围绕大数据产生由来、特征、与传统数据不同展开。2)作业围绕大数据特征、分布式计算、并行计算布置。3)课外实践要求学生数据大数据处理软件等开发工具。4)课外阅读阅读关于大数据技术国内外发展过程的文献。第二章大数据存储基础本章的主要知识点包括大数据存储系统的特点:分布式文件系统;分布式键值系统;新型存储器件的内存系统。1.教学目标1)熟练掌握分布式存储系统概念与特点;2)掌握分布式文件系统架构3)掌握分布式键值系统;4)掌握新型存储器件的内存系统。本章教学支持的课程目标为目标2。2.教学重点1)分布式文件系统及特点理解分布式文件系统HDFS的系统架构,熟悉数据分布概念,理解数据复制与一致性,理解数据容错机制、理解分布式文件系统的数据读写流程。2)分布式键值系统与特点理解分布式键值系统Dynamo的系统架构,熟悉数据分布概念,理解数据复制与一一致性,理解数据容错机制、理解分布式键值系统的负载均衡以及数据读写流程。3.教学难点1)HDFS系统架构
理解大数据 4V 特征与传统数据的区别。 2)分布式计算模型 理解分布式与并行计算概念 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业、课外实践、课 外阅读等教学形式。 1)讨论 围绕大数据产生由来、特征、与传统数据不同展开。 2)作业 围绕大数据特征、分布式计算、并行计算布置。 3)课外实践 要求学生数据大数据处理软件等开发工具。 4)课外阅读 阅读关于大数据技术国内外发展过程的文献。 第二章 大数据存储基础 本章的主要知识点包括大数据存储系统的特点;分布式文件系统;分布式键 值系统;新型存储器件的内存系统。 1.教学目标 1)熟练掌握分布式存储系统概念与特点; 2)掌握分布式文件系统架构; 3)掌握分布式键值系统; 4)掌握新型存储器件的内存系统。 本章教学支持的课程目标为目标 2。 2.教学重点 1)分布式文件系统及特点 理解分布式文件系统 HDFS 的系统架构,熟悉数据分布概念,理解数据复制 与一致性,理解数据容错机制、理解分布式文件系统的数据读写流程。 2)分布式键值系统与特点 理解分布式键值系统 Dynamo 的系统架构,熟悉数据分布概念,理解数据复 制与一致性,理解数据容错机制、理解分布式键值系统的负载均衡以及数据读写 流程。 3.教学难点 1)HDFS 系统架构

理解HDFS基本结构,理解NameNode工作原理,理解SecondaryNameNode工作原理,理解DataNode工作原理,理解HDFS副本存访策略,。2)分布式键值系统特点熟悉分布式键值系统数据结构、数据模型与存储方式,理解分布式键值系统与其他格式相互转换方式,理解分布式键值系统的表设计,理解分布式键值系统与传统关系数据库RDBMS的区别。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读等教学形式。1)课堂讨论围绕分布式键值系统与传统关系数据库RDBMS的区别展开。2)作业围绕HDFS副本存访策略等内容布置。3)课外阅读分布式键值系统等相关论文。第三章大数据管理基础本章的主要知识点包括大数据管理的现实需求;大数据的划分策略:大数据的组织管理方式;大数据仓库系统。1.教学目标1)了解大数据特征及相应的管理需求;2)掌握大数据的划分策略;3)掌握大数据的组织管理方式;4)了解大数据仓库系统。本章教学支持的课程目标为目标1和目标3。2.教学重点1)大数据划分大数据的划分策略,数据一致性理论。2)大数据的组织管理方式关系数据库:键值数据库:列值数据库:文档数据库:图数据库。3.教学难点1)数据一致性理论让学生理解在分布式场景下,在保证数据具有一定穴余度的情况下,在更新数据时如何保证数据的一致性
理解 HDFS 基本结构,理解 NameNode 工作原理,理解 Secondary NameNode 工作原理,理解 DataNode 工作原理,理解 HDFS 副本存访策略,。 2)分布式键值系统特点 熟悉分布式键值系统数据结构、数据模型与存储方式,理解分布式键值系统 与其他格式相互转换方式,理解分布式键值系统的表设计,理解分布式键值系统 与传统关系数据库 RDBMS 的区别。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读 等教学形式。 1)课堂讨论 围绕分布式键值系统与传统关系数据库 RDBMS 的区别展开。 2)作业 围绕 HDFS 副本存访策略等内容布置。 3)课外阅读 分布式键值系统等相关论文。 第三章 大数据管理基础 本章的主要知识点包括大数据管理的现实需求;大数据的划分策略;大数据 的组织管理方式;大数据仓库系统。 1.教学目标 1)了解大数据特征及相应的管理需求; 2)掌握大数据的划分策略; 3)掌握大数据的组织管理方式; 4)了解大数据仓库系统。 本章教学支持的课程目标为目标 1 和目标 3。 2.教学重点 1)大数据划分 大数据的划分策略,数据一致性理论。 2)大数据的组织管理方式 关系数据库;键值数据库;列值数据库;文档数据库;图数据库。 3.教学难点 1)数据一致性理论 让学生理解在分布式场景下,在保证数据具有一定冗余度的情况下,在更新 数据时如何保证数据的一致性

2)大数据的组织管理让学生理解五种大数据的组织管理方式:关系数据库、键值数据库、列族数据库、文档数据库、图书库,以及这些组织管理的适用场景。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业与讨论。1)讨论本章课堂讨论主要围绕大数据分片存储的划分方式展开。2)作业本章课堂讨论五种大数据的组织管理方式的异同。第四章大数据编程本章的主要知识点包括函数式编程概念、起源以及特点,针对大数据的处理而设计的MapReduce编程模型,以及对应的案例研究。1.教学目标1)掌握函数式编程概念、起源以及特点;2)掌握针对大数据处理而设计的MapReduce编程模型;3)掌握基于MapReduce编程模型而设计的两个案例分析:本章教学支持课程目标1-目标3。2.教学重点1)函数式编程让学生充分理解函数式编程理念,从函数式编程的起源开始介绍,让学生理解函数式编程的语言家族发展历程,从而深入理解函数式编程的概念及函数式编程的特点。2)MapReduce编程深刻理解MapReduce的编程思想,以问题提出做为切入点,让学生了解MapReduce的起源,熟悉MapReduce的基本功能模块以及这些模块的工作原理,理解MapReduce编程模型的主要特点。3.教学难点1)函数式编程概念掌握理解函数式编程的概念及函数式编程的特点。2)MapReduce编程模块
2)大数据的组织管理 让学生理解五种大数据的组织管理方式:关系数据库、键值数据库、列族数 据库、文档数据库、图书库,以及这些组织管理的适用场景。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业与讨论。 1)讨论 本章课堂讨论主要围绕大数据分片存储的划分方式展开。 2)作业 本章课堂讨论五种大数据的组织管理方式的异同。 第四章 大数据编程 本章的主要知识点包括函数式编程概念、起源以及特点,针对大数据的处理 而设计的 MapReduce 编程模型,以及对应的案例研究。 1.教学目标 1)掌握函数式编程概念、起源以及特点; 2)掌握针对大数据处理而设计的 MapReduce 编程模型; 3)掌握基于 MapReduce 编程模型而设计的两个案例分析; 本章教学支持课程目标 1-目标 3。 2.教学重点 1)函数式编程 让学生充分理解函数式编程理念,从函数式编程的起源开始介绍,让学生理 解函数式编程的语言家族发展历程,从而深入理解函数式编程的概念及函数式编 程的特点。 2)MapReduce 编程 深刻理解 MapReduce 的编程思想,以问题提出做为切入点,让学生了解 MapReduce 的起源,熟悉 MapReduce 的基本功能模块以及这些模块的工作原理, 理解 MapReduce 编程模型的主要特点。 3.教学难点 1)函数式编程概念 掌握理解函数式编程的概念及函数式编程的特点。 2)MapReduce 编程模块

深刻理解MapReduce的编程思想,课程教学阶段要让学生了解MapReduce的起源,熟悉MapReduce的基本功能模块以及这些模块的工作原理,理解MapReduce编程模型的主要特点。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读。1)讨论本章课堂讨论围绕函数式编程概念以及两个案例分析开展。2)作业本章课堂讨论主要围绕MapReduce功能模块作用。3)课外实践完成两个基于MapReduce的MapReduce案例。4)课外阅读最新MapReduce系统研究进展的论文和业界的新进展。第五章大数据流处理本章的主要知识点包括流处理的基本概念与应用,分布式流处理的模型与理论知识,开源流处理系统介绍以及相应的编程模型,相关的流处理系统机制与优化策略。1.教学目标1)掌握流处理基本概念与应用;2)掌握分布式流处理计算模型:3)熟悉开源流处理系统及编程模型:4)了解流处理系统的调度机制及优化策略;本章教学支持课程目标1。2.教学重点1)流处理概念深刻理解流处理系统的的工作原理与特点,能区分流处理与传统离线处理模式的区别。2)分布式流处理编程模型能理解分布式流处理编程模型,让学生能理解使用流处理编程模型的优点与缺点。3.教学难点1)流处理概念
深刻理解 MapReduce 的编程思想,课程教学阶段要让学生了解 MapReduce 的起源,熟悉 MapReduce 的基本功能模块以及这些模块的工作原理,理解 MapReduce 编程模型的主要特点。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读。 1)讨论 本章课堂讨论围绕函数式编程概念以及两个案例分析开展。 2)作业 本章课堂讨论主要围绕 MapReduce 功能模块作用。 3)课外实践 完成两个基于 MapReduce 的 MapReduce 案例。 4)课外阅读 最新 MapReduce 系统研究进展的论文和业界的新进展。 第五章 大数据流处理 本章的主要知识点包括流处理的基本概念与应用,分布式流处理的模型与理 论知识,开源流处理系统介绍以及相应的编程模型,相关的流处理系统机制与优 化策略。 1.教学目标 1)掌握流处理基本概念与应用; 2)掌握分布式流处理计算模型; 3)熟悉开源流处理系统及编程模型; 4)了解流处理系统的调度机制及优化策略; 本章教学支持课程目标 1。 2.教学重点 1)流处理概念 深刻理解流处理系统的的工作原理与特点,能区分流处理与传统离线处理模 式的区别。 2)分布式流处理编程模型 能理解分布式流处理编程模型,让学生能理解使用流处理编程模型的优点与 缺点。 3.教学难点 1)流处理概念

掌握流处理概念及发展历程。2)分布式流处理编程模型综合应用流处理模型处理现实问题。4.教学环节设计围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外实践、课外阅读。1)讨论本章课堂讨论围绕分布式流处理的特点与优化设计等内容展开。2)作业分析讨论分布式流处理与传统分布式处理系统的区别。3)课外实践安装部署ApacheStormSparkStmaming、ApacheFlink等流处理系统4)课外阅读最新流处理系统Storm的研究进展的论文和业界的新进展。第六章图计算本章的主要知识点包括图计算的理论知识与特点、图计算的并行编程模型、图的划分和通信策略、单机图计算系统、图计算硬件加速技术以及基于上述知识的图算法案例研究。1.教学目标1)熟悉图计算的基本概念与特点;2)掌握图计算的并行编程模型;3)掌握图划分和通信的方法;4)了解单机图计算系统;5)了解图计算硬件加速技术;6)了解图计算的实际应用案例。本章教学支持的课程目标为目标1和目标3。2.教学重点1)图计算概念与特点使学生理解图计算的基础概念,熟悉图计算的特点,能够分析得出图计算与传统技术模式的区别。2)图计算编程模型
掌握流处理概念及发展历程。 2)分布式流处理编程模型 综合应用流处理模型处理现实问题。 4.教学环节设计 围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外 实践、课外阅读。 1)讨论 本章课堂讨论围绕分布式流处理的特点与优化设计等内容展开。 2)作业 分析讨论分布式流处理与传统分布式处理系统的区别。 3)课外实践 安装部署 Apache Storm 、Spark Stmaming 、Apache Flink 等流处理系统 4)课外阅读 最新流处理系统 Storm 的研究进展的论文和业界的新进展。 第六章 图计算 本章的主要知识点包括图计算的理论知识与特点、图计算的并行编程模型、 图的划分和通信策略、单机图计算系统、图计算硬件加速技术以及基于上述知识 的图算法案例研究。 1.教学目标 1)熟悉图计算的基本概念与特点; 2)掌握图计算的并行编程模型; 3)掌握图划分和通信的方法; 4)了解单机图计算系统; 5)了解图计算硬件加速技术; 6)了解图计算的实际应用案例。 本章教学支持的课程目标为目标 1 和目标 3。 2.教学重点 1)图计算概念与特点 使学生理解图计算的基础概念,熟悉图计算的特点,能够分析得出图计算与 传统技术模式的区别。 2)图计算编程模型

使学生熟悉图计算编程模型,以案例研究的方式,让学生了解以点为中心的编程模型,以边为中心的编程模型,以路径为中心的编程模型,以子图为中心的编程模型,以及这些模型的优点与缺点。3.教学难点1)图计算概念与特点图数据结构不同于传统的数据类型,学生需要对图数据结构有深入了解,理解图处理的广度优先搜索、深度优先搜索两个算法。4.教学环节设计围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外实践、课外阅读。1)讨论本章课堂讨论围绕图数据处理的概念与处理策略等内容展开。2)作业分析讨论图数据处理与传统分布式处理系统的区别。3)课外实践实现并行图搜索算法来理解并行图计算模式4)课外阅读最新图数据处理加速的研究进展的论文和业界的新进展。第七章大数据管理系统本章的主要知识点包括大数据统一资源管理、大数据系统资源调度策略、大数据系统的协调技术、大数据经典管理软件案例研究。1.教学目标1)掌握大数据统一资源管理的设计思想与架构:2)熟悉大数据系统资源调度策略;3)熟悉大数据系统的协调技术:4)了解经典大数据资源管理软件。本章教学支持的课程目标为目标1和目标3。2.教学重点与难点1)大数据统一资源管理的设计思想与架构使学生熟悉大数据统一资源管理的设计思想,熟悉大数据统一资源管理的基本架构,熟悉大数据统一资源管理的工作流程。2)大数据系统资源调度策略与协同
使学生熟悉图计算编程模型,以案例研究的方式,让学生了解以点为中心的 编程模型,以边为中心的编程模型,以路径为中心的编程模型,以子图为中心的 编程模型,以及这些模型的优点与缺点。 3.教学难点 1)图计算概念与特点 图数据结构不同于传统的数据类型,学生需要对图数据结构有深入了解,理 解图处理的广度优先搜索、深度优先搜索两个算法。 4.教学环节设计 围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外 实践、课外阅读。 1)讨论 本章课堂讨论围绕图数据处理的概念与处理策略等内容展开。 2)作业 分析讨论图数据处理与传统分布式处理系统的区别。 3)课外实践 实现并行图搜索算法来理解并行图计算模式 4)课外阅读 最新图数据处理加速的研究进展的论文和业界的新进展。 第七章 大数据管理系统 本章的主要知识点包括大数据统一资源管理、大数据系统资源调度策略、大 数据系统的协调技术、大数据经典管理软件案例研究。 1.教学目标 1)掌握大数据统一资源管理的设计思想与架构; 2)熟悉大数据系统资源调度策略; 3)熟悉大数据系统的协调技术; 4)了解经典大数据资源管理软件。 本章教学支持的课程目标为目标 1 和目标 3。 2.教学重点与难点 1)大数据统一资源管理的设计思想与架构 使学生熟悉大数据统一资源管理的设计思想,熟悉大数据统一资源管理的基 本架构,熟悉大数据统一资源管理的工作流程。 2)大数据系统资源调度策略与协同

4.教学环节设计围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外实践。1)讨论本章课堂讨论围绕大数据管理系统的设计思想等内容展开。2)作业分析讨论统一资源管理的设计思想,如何能高效管理和调度。3)课外实践安装并使用YARN和ZooKeeper来管理大数据系统第八章大数据优化技术本章的主要知识点包括大数据存储优化,大数据任务调度优化、大数据处理的运行时优化。1.教学目标1)了解大数据存储优化策略;2)了解大数据调度优化策略:3)了解大数据运行时优化策略:本章教学支持的课程目标为目标1和目标3。2.教学重点1)大数据存储优化策略;2)大数据调度优化策略;3)大数据运行时优化策略。3.教学难点1)大数据调度优化策略的实现通过具体案例分析,使学生能够针对不同的大数据处理任务,设计相应的任务调度模型,设计数据本地化策略,监控整个处理系统的负载情况,并给出负载均衡策略,针对一些拖后腿问题提出优化,并能推理预测执行。4.围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外实践。1)讨论本章课堂讨论围绕大数据管理系统的设计思想等内容展开。2)作业分析讨论统一资源管理的设计思想,如何能高效管理和调度
4.教学环节设计 围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课外 实践。 1)讨论 本章课堂讨论围绕大数据管理系统的设计思想等内容展开。 2)作业 分析讨论统一资源管理的设计思想,如何能高效管理和调度。 3)课外实践 安装并使用 YARN 和 ZooKeeper 来管理大数据系统 第八章 大数据优化技术 本章的主要知识点包括大数据存储优化,大数据任务调度优化、大数据处理 的运行时优化。 1.教学目标 1)了解大数据存储优化策略; 2)了解大数据调度优化策略; 3)了解大数据运行时优化策略; 本章教学支持的课程目标为目标 1 和目标 3。 2.教学重点 1)大数据存储优化策略; 2)大数据调度优化策略; 3)大数据运行时优化策略。 3.教学难点 1)大数据调度优化策略的实现 通过具体案例分析,使学生能够针对不同的大数据处理任务,设计相应的任 务调度模型,设计数据本地化策略,监控整个处理系统的负载情况,并给出负载 均衡策略,针对一些拖后腿问题提出优化,并能推理预测执行。 4.围绕教学重点和教学难点,除课堂讲授外,还需综合应用讨论、作业、课 外实践。 1)讨论 本章课堂讨论围绕大数据管理系统的设计思想等内容展开。 2)作业 分析讨论统一资源管理的设计思想,如何能高效管理和调度

3)课外实践安装部署k8s分布式容器系统,观察系统的任务调度策略与效果九、教与学1.教学方法主要的教学环节包括课堂授课、研讨、课后作业、实际项目案例开发等环节。本课程的教学设计特色主要体现在如下三个方面:1)基于问题的教学方法。将围绕课程教学的重、难点,精心设计若于探究性问题,引导同学深入思考,加深所学重、难点知识的理解和应用。2)强化构造观、系统观和工程观。其中,构造观强调分布式处理理念的设计与实现,是系统类课程最基本的教学方法;系统观强调并行计算对任务运行正确性或性能的影响,是培养系统工程师的有效方法;工程观帮助学生考虑工程制约因素,树立选择恰当技术方案、优化工程的意识。根据不同的教学内容,强化构造观、系统观和工程观中的部分或全部。3)强调动手实践。该课程的教学与独立设置的课程实验相配合,实验内容与理论课程教学进度同步,通过实验加深对所学理论知识的理解,提升学生应用理论知识解决复杂问题的能力通过实验也可以检验理论课程的学习效果。2.学习方法“大数据处理"是一门理论性、技术性和实践性都很强的核心专业基础课程,学习过程中,首先要注重对课程基本理论的钻研,要引导学生积极参与课堂讨论、深刻理解原理和技术本质;其次,要站在系列课程的角度学习,本课程的学习需要C语言程序设计、数据结构、算法设计与分析、数据库系统原理、操作系统等等前导课的知识和技术支撑;第三,独立完成课程配套开设的独立实验,通过实验,加强对课程理论知识的理解,同时,训练学生发现问题、分析问题和解决问题的能力;第四,认真完成课后讨论与练习。十、学时分配序号主要内容学时分配12第1章大数据处理基础42第2章大数据存储基础43第3章大数据管理基础X2第4章大数据编程25第5章大数据流处理66第6章图计算
3)课外实践 安装部署 k8s 分布式容器系统,观察系统的任务调度策略与效果 九、教与学 1.教学方法 主要的教学环节包括课堂授课、研讨、课后作业、实际项目案例开发等环节。 本课程的教学设计特色主要体现在如下三个方面: 1)基于问题的教学方法。将围绕课程教学的重、难点,精心设计若干探究 性问题,引导同学深入思考,加深所学重、难点知识的理解和应用。 2)强化构造观、系统观和工程观。其中,构造观强调分布式处理理念的设 计与实现,是系统类课程最基本的教学方法;系统观强调并行计算对任务运行正 确性或性能的影响,是培养系统工程师的有效方法;工程观帮助学生考虑工程制 约因素,树立选择恰当技术方案、优化工程的意识。根据不同的教学内容,强化 构造观、系统观和工程观中的部分或全部。 3)强调动手实践。该课程的教学与独立设置的课程实验相配合,实验内容 与理论课程教学进度同步,通过实验加深对所学理论知识的理解,提升学生应用 理论知识解决复杂问题的能力,通过实验也可以检验理论课程的学习效果。 2.学习方法 “大数据处理”是一门理论性、技术性和实践性都很强的核心专业基础课程, 学习过程中,首先要注重对课程基本理论的钻研,要引导学生积极参与课堂讨论、 深刻理解原理和技术本质;其次,要站在系列课程的角度学习,本课程的学习需 要 C 语言程序设计、数据结构、算法设计与分析、数据库系统原理、操作系统 等等前导课的知识和技术支撑;第三,独立完成课程配套开设的独立实验,通过 实验,加强对课程理论知识的理解,同时,训练学生发现问题、分析问题和解决 问题的能力;第四,认真完成课后讨论与练习。 十、学时分配 序号 主要内容 学时分配 1 第 1 章 大数据处理基础 2 2 第 2 章 大数据存储基础 4 3 第 3 章 大数据管理基础 4 4 第 4 章 大数据编程 2 5 第 5 章 大数据流处理 2 6 第 6 章 图计算 6