华中科技大学：计算机科学与技术学院《大数据分析》课程教学大纲（2021版）.pdf_大学文库

《大数据分析》课程大纲一、课程名称：大数据分析二、课程性质：选修、理论课三、学时与学分：40 学时，2.5 学分四、课程先导课：高级语言程序设计，大数据导论、Python 语言等五、课程简介针对大数据集合的 4v 特性，了解如何将数据挖掘原理应用与解剖大型复杂数据集，包括非常大型数据库中的数据集，或通过数据解析来进行挖掘，学习探索和分析的数据模式，了解将数据转化为有价值的可用信息的大数据分析方式和工具。课程将系统地介绍大数据分析的理论、算法，包括初级数据挖掘和高级关系挖掘、协同滤波等经典大数据分析算法，同时就文本大数据分析、知识计算、网络数据挖掘、社会媒体分析等内容进行应用方面的简述。六、课程目标通过相关教学活动，让学生接触并理解大数据分析的工作原理，掌握常见的大数据分析方法，使学生具有 Python 大数据分析和开发的能力。提升学生数据分析的能力。课程的具体目标包括：目标 1：熟悉基本的 map-reduce 处理思想，掌握 shuffle 和 combine 过程的原理与意义，以培养学生对大数据问题的基本思考模式。目标 2：了解 PageRank 问题的背景与应用场景，掌握概率转移矩阵的迭代运算方法，了解设置阻尼系数和归一化过程的意义。目标 3：熟悉频繁项集、支持度、关联规则和置信度的概念，掌握 Apriori 和 pcy 算法原理。目标 4：掌握 kmeans 算法核心要点，掌握两种基本的评价指标并且能够可视化两个维度下的聚类效果图。目标 5：了解协同过滤(CF)与基于内容推荐(CB)两种推荐算法的基本思想与应用场景，掌握这两种推荐算法的实现。在此基础上，进一步要求学生掌握 MinHash 算法的基本原理，要求能够运用该算法对效用矩阵进行降维处理

七、课程目标对毕业要求的支撑关系支撑的毕业要求二级指标点对应课程目标1.3能将软硬件知识、相关工程知识和模型方法用于推演和分析计算目标2、3、4、5机复杂工程问题1.4能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程目标1问题解决方案进行比较和综合2.1能综合运用数学、自然科学、工程科学以及计算机科学的基本原目标2、3、4、5理，识别、判断和表达计算机复杂工程问题的关键环节3.1掌握与计算机复杂工程问题有关的工程设计和软硬件产品开发全周期、全流程的基本设计/开发方法和技术，了解影响设计目标和技目标2、3、4、5术方案的多种因素八、教学设计及对课程目标的支持第一章大数据分析系统与平台1.教学目标1）了解国际、国内大数据分析平台与工具：2）理解MapReduce编程模型及其核心思想；3）编写MapReduce程序实例--词频统计(WordCount)；4）掌握MapReduce分布式计算框架的基本组成及各部分的主要功能；5）熟练掌握MapReduce框架下常用编程组件与功能模块的使用及实现6）熟悉与了解常见的大数据分析系统，包括HadoopMapRedcue、Spark等对大数据分析计算的性能评价指标，理解不同数据分析系统的特点及局限性；2.教学重点1）MapReduce编程模型MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员将自已的程序运行在分布式系统上。通过指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。2）MapReduce的工作过程从大数据分析课程的实践需求出发，要求学生能深刻理解MapReduce先分后总的分布式数据分析的内涵，明确大数据分析课程要解决什么问题，利用MapReduce工具可以解决什么问题。要求学生理解从输入文件分片由MapTask处理到Reduce端合并输出的分布式处理分析过程

七、课程目标对毕业要求的支撑关系支撑的毕业要求二级指标点对应课程目标 1.3 能将软硬件知识、相关工程知识和模型方法用于推演和分析计算机复杂工程问题目标 2、3、4、5 1.4 能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程问题解决方案进行比较和综合目标 1 2.1 能综合运用数学、自然科学、工程科学以及计算机科学的基本原理，识别、判断和表达计算机复杂工程问题的关键环节目标 2、3、4、5 3.1 掌握与计算机复杂工程问题有关的工程设计和软硬件产品开发全周期、全流程的基本设计/开发方法和技术，了解影响设计目标和技术方案的多种因素目标 2、3、4、5 八、教学设计及对课程目标的支持第一章大数据分析系统与平台 1.教学目标 1）了解国际、国内大数据分析平台与工具； 2）理解 MapReduce 编程模型及其核心思想； 3）编写 MapReduce 程序实例-词频统计(Word Count)； 4）掌握 MapReduce 分布式计算框架的基本组成及各部分的主要功能； 5）熟练掌握 MapReduce 框架下常用编程组件与功能模块的使用及实现； 6）熟悉与了解常见的大数据分析系统，包括 Hadoop MapRedcue、Spark 等对大数据分析计算的性能评价指标，理解不同数据分析系统的特点及局限性； 2.教学重点 1）MapReduce 编程模型 MapReduce 是一种编程模型，用于大规模数据集（大于 1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员将自己的程序运行在分布式系统上。通过指定一个 Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的 Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。 2）MapReduce 的工作过程从大数据分析课程的实践需求出发，要求学生能深刻理解 MapReduce 先分后总的分布式数据分析的内涵，明确大数据分析课程要解决什么问题，利用 MapReduce 工具可以解决什么问题。要求学生理解从输入文件分片由 MapTask 处理到 Reduce 端合并输出的分布式处理分析过程

3）MapTask工作原理要求学生能理解MapTask的工作机制。具体来说，理解MapTask处理流程划分的五个阶段以及每个阶段的具体任务。4）ReduceTask工作原理要求学生能理解ReduceTask的工作机制。具体来说，理解ReduceTask处理流程划分的三个阶段以及每个阶段的具体任务。5）Shuffle工作原理Shuffle过程包含在Map和Reduce两端，即Mapshuffle和Reduceshuffl。要求学生掌握Map端的Shuffle过程包括：对Map的结果进行分区、排序、分割，然后将属于同一划分（分区）的输出合并在一起并写在磁盘上，最终得到一个分区有序的文件，分区有序的含义是map输出的键值对按分区进行排列，具有相同partition值的键值对存储在一起，每个分区里面的键值对又按key值进行升序排列。要求学生掌握Reduce端的Shuffle过程主要包括：复制Map输出、排序合并两个阶段。6）MapReduce性能优化策略进行大数据运算，当数据量极其大时，那么对MapReduce性能的优化重要性不言而喻，尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。要求学生了解下列与MapReduce相关的性能优化策略和方法，主要包括四个方面：数据输入、Map阶段、Reduce阶段、Shuffle阶段。3.教学难点1）MapReduce工作过程从大数据分析课程的实践需求出发，要求学生能深刻理解MapReduce先分后总的分布式数据分析的内涵，明确大数据分析课程要解决什么问题，利用MapReduce工具可以解决什么问题。要求学生深入了解从输入文件分片由MapTask处理到Reduce端合并输出的整个分布式处理分析过程。4.教学环节设计围绕教学重点和教学难点，综合应用课堂讲授与讨论、编成实践与作业、课外阅读等教学形式。1）讨论围绕不同大数据处理系统的性能评价指标及其内涵和局限性等问题展开讨论。2）编程实践与作业

3）MapTask 工作原理要求学生能理解 MapTask 的工作机制。具体来说，理解 MapTask 处理流程划分的五个阶段以及每个阶段的具体任务。 4）ReduceTask 工作原理要求学生能理解 ReduceTask 的工作机制。具体来说，理解 ReduceTask 处理流程划分的三个阶段以及每个阶段的具体任务。 5）Shuffle 工作原理 Shuffle 过程包含在 Map 和 Reduce 两端，即 Map shuffle 和 Reduce shuffl。要求学生掌握 Map 端的 Shuffle 过程包括：对 Map 的结果进行分区、排序、分割，然后将属于同一划分（分区）的输出合并在一起并写在磁盘上，最终得到一个分区有序的文件，分区有序的含义是 map 输出的键值对按分区进行排列，具有相同 partition 值的键值对存储在一起，每个分区里面的键值对又按 key 值进行升序排列。要求学生掌握 Reduce 端的 Shuffle 过程主要包括：复制 Map 输出、排序合并两个阶段。 6）MapReduce 性能优化策略进行大数据运算，当数据量极其大时，那么对 MapReduce 性能的优化重要性不言而喻，尤其是 Shuffle 过程中的参数配置对作业的总执行时间影响特别大。要求学生了解下列与 MapReduce 相关的性能优化策略和方法，主要包括四个方面：数据输入、Map 阶段、Reduce 阶段、Shuffle 阶段。 3.教学难点 1）MapReduce 工作过程从大数据分析课程的实践需求出发，要求学生能深刻理解 MapReduce 先分后总的分布式数据分析的内涵，明确大数据分析课程要解决什么问题，利用 MapReduce 工具可以解决什么问题。要求学生深入了解从输入文件分片由 MapTask 处理到 Reduce 端合并输出的整个分布式处理分析过程。 4.教学环节设计围绕教学重点和教学难点，综合应用课堂讲授与讨论、编成实践与作业、课外阅读等教学形式。 1）讨论围绕不同大数据处理系统的性能评价指标及其内涵和局限性等问题展开讨论。 2）编程实践与作业

围绕 MapReduce 的编程运行及优化，要求学生参与一系列经典案例的编程实践，包括：词频统计、倒排索引、数据去重和 TopN 等。 3）课外阅读推荐学生阅读关于国际大数据分析技术相关的最新资料、报道。第二章链接分析（Link Analysis）与 PageRank 本章的主要知识点包括 PageRank、随机游走、特定主题游走、图的相似性、 Link Spam、TrustRank、HITS 等。PageRank 是谷歌的镇店之宝，一种用来对网络中节点的重要性排序的算法。这个算法最初是用来对网页重要性进行排序。人们对 PageRank 进行个各种改动，基于相关算法在推荐、社会网络分析、自然语言处理等领域推出了很多实用的解决方案。本章内容要求学生围绕着两个基本问题展开学习，即 PageRank 算法是怎么来的呢？怎么计算？ 1.教学目标 1）了解 PageRank 基本概念,根据网页重要性进行页面排名； 2）掌握基本的 PageRank 算法； 3）理解 PageRank 的矩阵表达； 4）理解并掌握 PageRank 的矩阵表达实例； 5）深刻理解密迭代方法; 6）从马尔可夫角度看待 PageRank; 7）理解进阶版 PageRank 的必要性； 9）理解 Teleport 实列； 10）PageRank 算法效率分析； 11)理解和掌握完整版 PageRank 算法； 12）基于特定主题的 PageRank; 2.教学重点 1）PageRank 的基本算法要求学生理解 PageRank 算法利用网络的图结构来评价网页的重要性，这里的图结构是指指向网页的链接，也就是 Inlink。要求理解 PageRank 算法的两种假设：数量假设（指向该网站的数量越多，重要性越高）和质量假设（指向该网站越权威，重要性越高）；并由此为基准理解 PageRank 基本算法思想及定义。 2）PageRank 的矩阵表达理解 Column stochastic (列随机) 矩阵，即矩阵 M(每一个列上的元素之和为 1，符合上面约束条件还有行随机矩阵和双随机矩阵)，我们假设网页 j 有 dj 个外链

接，第i个外链接指向第i个网页，即可倒出PageRank的矩阵表达式。要求学生理解矩阵特征值、特征向量的概念。3）理解和掌握密送代计算方法根据PageRank矩阵表达的分析，要找到重要度的向量，就是要求转移矩阵M的特征值为1的特征值向量。求这个特征向量的方法就是PowerIteratiorMethod，也就是是求绝对值最大的特征值向量的方法。要求学生理解和掌握密迭代方法的原理和计算。4）理解什么是Teleport及进阶版PageRank要求学生理解基本版PageRank无法处理的两种情况：“网页只有入度没有出度（DeadEnd）”以及“网页即使有出度也是指向其本身（SpiderTraps）”。DeadEnd是一个严重问题；第二种情况SpiderTraps不会对收敛性产生影响，但收敛到的PageRank不是理想目标。以上两种情况的解决方法就是“teleport”（随机跳转）。5）特定主题游走了解原始的PageRank算法只能提供通用的importancescore这一局限性。优化目标：不只是根据importancescore来评估网页，而是加上该网页离某个主题的距离，例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终的PageRank算法计算结果。3.教学难点1）理解和掌握密迭代计算方法要求学生理解并熟练掌握PageRank矩阵表达的分析，理解要找到重要度的向量，就是要求转移矩阵M的特征值为1的特征值向量。求这个特征向量的方法就是PowerIterationMethod，也就是是求绝对值最大的特征值向量的方法。2）深刻理解掌握特定主题游走深刻理解原始的PageRank算法只能提供通用的importancescore这一局限性。根据不同具体需求设立优化目标，不只是根据单一的importancescore来评估网页，而是加上该网页离某个主题的距离，例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终的PageRank算法计算结果。4.教学环节设计围绕教学重点和教学难点，综合应用课堂讲授与讨论、编成实践与作业、课外阅读等教学形式。1)讨论

接，第 j 个外链接指向第 i 个网页，即可倒出 PageRank 的矩阵表达式。要求学生理解矩阵特征值、特征向量的概念。 3）理解和掌握密迭代计算方法根据 PageRank 矩阵表达的分析，要找到重要度的向量，就是要求转移矩阵 M 的特征值为 1 的特征值向量。求这个特征向量的方法就是 Power Iteration Method，也就是是求绝对值最大的特征值向量的方法。要求学生理解和掌握密迭代方法的原理和计算。 4）理解什么是 Teleport 及进阶版 PageRank 要求学生理解基本版 PageRank 无法处理的两种情况：“网页只有入度没有出度（Dead End）”以及“网页即使有出度也是指向其本身（Spider Traps）”。 Dead End 是一个严重问题；第二种情况 Spider Traps 不会对收敛性产生影响，但收敛到的 PageRank 不是理想目标。以上两种情况的解决方法就是“teleport”（随机跳转）。 5）特定主题游走了解原始的 PageRank 算法只能提供通用的 importance score 这一局限性。优化目标：不只是根据 importance score 来评估网页，而是加上该网页离某个主题的距离，例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终的 PageRank 算法计算结果。 3.教学难点 1）理解和掌握密迭代计算方法要求学生理解并熟练掌握 PageRank 矩阵表达的分析，理解要找到重要度的向量，就是要求转移矩阵 M 的特征值为 1 的特征值向量。求这个特征向量的方法就是 Power Iteration Method，也就是是求绝对值最大的特征值向量的方法。 2）深刻理解掌握特定主题游走深刻理解原始的 PageRank 算法只能提供通用的 importance score 这一局限性。根据不同具体需求设立优化目标，不只是根据单一的 importance score 来评估网页，而是加上该网页离某个主题的距离，例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终的 PageRank 算法计算结果。 4.教学环节设计围绕教学重点和教学难点，综合应用课堂讲授与讨论、编成实践与作业、课外阅读等教学形式。 1）讨论

4）了解奇异值分解算法在稀疏矩阵中如何运用：5）掌握CUR分解算法的原理及实现。本章教学支持课程目标1。2.教学重点1）SVD分解算法的原理理解SVD中对高维矩阵进行低维表示的矩阵分析手段，可对任意矩阵进行精确表示，并去除表示中的非重要部分来获得任意维度的近似表示。和特征分解不同，SVD奇异值分解能够用于任意m*n矩阵，并不要求要分解的矩阵为方阵。2）SVD的缺陷首先是可解释性较差：对于SVD分解通常的理解应该是，左奇异向量以及右奇异向量分别张成了原始矩阵所在的列空间以及行空间，但是对于原始矩阵而言，并没有较强的可解释性。其次是太过密集：就算原始矩阵是一个稀疏矩阵，该矩阵所分解而成的U、V矩阵仍然是高度密集的，这在某些应用场景下是难以接受的。3）SVD的应用a.奇异值分解可以被用来计算矩阵的广义逆阵（伪逆）。b．奇异值分解的另一个应用是给出矩阵的列空间、零空间和秩的表示。对角矩阵的非零对角元素的个数对应于矩阵的秩。与零奇异值对应的右奇异向量生成矩阵的零空间，与非零奇异值对应的左奇异向量则生成矩阵的列空间。在线性代数数值计算中奇异值分解一一般用于确定矩阵的有效秩。c.奇异值分解在统计中的主要应用为主成分分析（PCA）。数据集的特征值（在SVD中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量张成空间为降维后的空间。4）CUR分解算法的原理针对SVD分解的缺陷，CUR分解的可解释性不仅更强，也更适用于稀疏蔬矩阵的情况。具体来讲，对于一个秩k矩阵A，如果选择其中k列张成矩阵A的列空间，选择其中飞行张成矩阵A的行空间，那么也应该能够通过组合这些线性映射来恢复原矩阵。5）CUR的应用与传统的主成分分析的矩阵分解方法相比较，在特征选择方面，CUR分解方法不仅具有很高的准确度，而且还具有很好的可解释性；在矩阵恢复方面，CUR矩阵分解方法具有很高的稳定性同时还具有很高的准确度3.教学难点

4）了解奇异值分解算法在稀疏矩阵中如何运用； 5）掌握 CUR 分解算法的原理及实现。本章教学支持课程目标 1。 2.教学重点 1）SVD 分解算法的原理理解 SVD 中对高维矩阵进行低维表示的矩阵分析手段，可对任意矩阵进行精确表示，并去除表示中的非重要部分来获得任意维度的近似表示。和特征分解不同，SVD 奇异值分解能够用于任意 m*n 矩阵，并不要求要分解的矩阵为方阵。 2）SVD 的缺陷首先是可解释性较差：对于 SVD 分解通常的理解应该是，左奇异向量以及右奇异向量分别张成了原始矩阵所在的列空间以及行空间，但是对于原始矩阵而言，并没有较强的可解释性。其次是太过密集：就算原始矩阵是一个稀疏矩阵，该矩阵所分解而成的 U、V 矩阵仍然是高度密集的，这在某些应用场景下是难以接受的。 3）SVD 的应用 a. 奇异值分解可以被用来计算矩阵的广义逆阵（伪逆）。 b. 奇异值分解的另一个应用是给出矩阵的列空间、零空间和秩的表示。对角矩阵的非零对角元素的个数对应于矩阵的秩。与零奇异值对应的右奇异向量生成矩阵的零空间，与非零奇异值对应的左奇异向量则生成矩阵的列空间。在线性代数数值计算中奇异值分解一般用于确定矩阵的有效秩。 c. 奇异值分解在统计中的主要应用为主成分分析（PCA）。数据集的特征值（在 SVD 中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量张成空间为降维后的空间。 4）CUR 分解算法的原理针对 SVD 分解的缺陷，CUR 分解的可解释性不仅更强，也更适用于稀疏矩阵的情况。具体来讲，对于一个秩 k 矩阵 A ，如果选择其中 k 列张成矩阵 A 的列空间，选择其中 k 行张成矩阵 A 的行空间，那么也应该能够通过组合这些线性映射来恢复原矩阵。 5）CUR 的应用与传统的主成分分析的矩阵分解方法相比较，在特征选择方面，CUR 分解方法不仅具有很高的准确度，而且还具有很好的可解释性；在矩阵恢复方面，CUR 矩阵分解方法具有很高的稳定性同时还具有很高的准确度 3.教学难点