《大数据分析与挖掘》课程教学大纲 一、课程基本信息 课程代码:16054103 课程名称:大数据分析与挖掘 英文名称:Big data analysis and mining 课程类别:专业课 时:48 学 分:3 适用对象:软件工程,计算机科学与技术,大数据管理 老核方式:老查 先修课程:数理统计与概率论,算法设计,JAVA/Python程序设计 二、课程简介 大数据分析与挖掘是软件工程,计算机科学与技术,大数据管理专业必修课,它 集理论,技术和应用性 一身,不仅是当前计算机,软件工程领域最热门高级前沿应用 技术,并且涉及跨学科领域知识和概率论,数学及算法理论知识,是计算机,软件工 程的重要课程模块,同时是大数据管理专业的核心理论课程。 当前在新基建和数字化革命大潮下,各行各业都在应用大数据分析与挖掘技术, 并紧密结合机器学习深度学习算法,可为行业带来巨大价值。数据分析与挖掘是当前 最热的技术与职业方向,在未来几年都将获得飞速发展,前景非常 阔, 是学生未来 进入社会成才求职的重要核心技能,可以说学好大数据分析与挖掘原理,概念与技术, 必将使得学生未来计算机专业发展和职业生涯获得高起点和巨大发展潜力与竞争力。 本课程从实战出发,学习大数据分析与挖据理论算法与编程工具,围绕真实案例 学习并掌握数据分析与挖掘的关键任务和方法。包括主要的数据分析全流程任务:数 据探索, 数据预处理 数据可视化展示 数据建模,模型验订 分析结果展 与应用:同时针对不同的数据分析阶段任务在讲解原理同时,介绍大量当前最新的学 术界,业界研究方法,技术与模型。课程在讲解数据分类,数据预测模型,及复杂数 据分析场景时,引入了华为网络产品线产品数据部多个经典数据分析与挖据案例,并 且引入阿里数据中台架构,天池I实训平台,及应用典型案例。让学生学以致用, 紧跟行业最领先技术水平,同时,面对我国民族企业,头部公司在大数据分析与挖趣 领域取得的巨 大商业成功与前沿技术成果应用产生强烈民族自豪感,为国家数字化经 济与技术发展努力奋斗,勇攀知识高峰立下志向。 Big data analysis and mining is a required course for software engineering, computer science and technology,and big data management.It integrates theory. technology and applicat It is not only the most popular ad application technology in the field of computer and so anced ftware engineering,bu also involves interdisciplinary knowledge,probability theory,mathematics, 1
1 《大数据分析与挖掘》课程教学大纲 一、课程基本信息 课程代码:16054103 课程名称:大数据分析与挖掘 英文名称:Big data analysis and mining 课程类别:专业课 学 时:48 学 分:3 适用对象: 软件工程,计算机科学与技术,大数据管理 考核方式:考查 先修课程:数理统计与概率论,算法设计,JAVA/Python 程序设计 二、课程简介 大数据分析与挖掘是软件工程,计算机科学与技术,大数据管理专业必修课,它 集理论,技术和应用性一身,不仅是当前计算机,软件工程领域最热门高级前沿应用 技术,并且涉及跨学科领域知识和概率论,数学及算法理论知识,是计算机,软件工 程的重要课程模块,同时是大数据管理专业的核心理论课程。 当前在新基建和数字化革命大潮下,各行各业都在应用大数据分析与挖掘技术, 并紧密结合机器学习深度学习算法,可为行业带来巨大价值。数据分析与挖掘是当前 最热的技术与职业方向,在未来几年都将获得飞速发展,前景非常广阔,是学生未来 进入社会成才求职的重要核心技能,可以说学好大数据分析与挖掘原理,概念与技术, 必将使得学生未来计算机专业发展和职业生涯获得高起点和巨大发展潜力与竞争力。 本课程从实战出发,学习大数据分析与挖掘理论算法与编程工具,围绕真实案例 学习并掌握数据分析与挖掘的关键任务和方法。包括主要的数据分析全流程任务:数 据探索,数据预处理,数据可视化展示,数据建模,模型验证与评估,分析结果展示 与应用;同时针对不同的数据分析阶段任务在讲解原理同时,介绍大量当前最新的学 术界,业界研究方法,技术与模型。课程在讲解数据分类,数据预测模型,及复杂数 据分析场景时,引入了华为网络产品线产品数据部多个经典数据分析与挖掘案例,并 且引入阿里数据中台架构,天池 AI 实训平台,及应用典型案例。让学生学以致用, 紧跟行业最领先技术水平,同时,面对我国民族企业,头部公司在大数据分析与挖掘 领域取得的巨大商业成功与前沿技术成果应用产生强烈民族自豪感,为国家数字化经 济与技术发展努力奋斗,勇攀知识高峰立下志向。 Big data analysis and mining is a required course for software engineering, computer science and technology, and big data management. It integrates theory, technology, and application. It is not only the most popular advanced application technology in the field of computer and software engineering, but also involves interdisciplinary knowledge, probability theory, mathematics
and algorithm theory.It is an important course model of computer and software engineering at the same time.it is the core theoretical course of big data management ma jor. At present,in the tide of new infrastructure and digital revolution,all alks of life are applying bigdata analysis and mining technology,and closly combined with machine learning deep learning algorithm,which can bring great value to the industry.Data analysis and mining is the hottest technology and career direction at present.It will get rapid development in the next few years,and has a very broad prospect.It is an important core skill for students to enter the society and become talents in the e future It can be said that learning the principle,concept and technology of big data analysis and mining well will make the future computer professional development and career of students obtain a high starting point and great development potential Strength and competitiveness. Starting from the actual combat,this cour rse will introduce the theoretical algorithm and programming tools of big data analysis and mining, and introduce the key tasks and methods of data analysis and mining around real cases.Including the main data analysis tasks:data exploration,data preprocessing,data visualization display,data modeling,model validation and evaluation,analysis results display and application;at the same time accordi ng to different data analysis tasks in the stage of explaining the principle,at the same time,introduce a large number of the latest academic, industry research methods,technologies and models.In explaining data classification,data prediction model,and complex data analysis scenarios, the course introduces several classic data analysis and mining cases from the product d cases of Alih twork product line ta platform architecture,Tianch ning platform and typical application.Let students apply what they have learned and keep up with the most advanced technology level in the industry.At the same time, in the face of china's national enterprises.the head companys huge business nd the application of cutting edge achie in the analysis a od min ing generate a stro g sen nse of n ationa and strive for the national digital economic and Technological Development and set up the ambition to climb the peak of knowledge bravely. 三、课程性质与教学目的 大数据分析挖掘是高级数据处理和分析技术。本课程包括数据挖掘的理论和实践 两部分。本课程是专业课,属于高年级专业技术基础应用课程,注重理论和编程实践 及应用结合,强调理论和应用性,同时要把数据分析技术应用到不同场景和领域,需 2
2 and algorithm theory. It is an important course model of computer and software engineering At the same time, it is the core theoretical course of big data management major. At present, in the tide of new infrastructure and digital revolution, all walks of life are applying big data analysis and mining technology, and closely combined with machine learning deep learning algorithm, which can bring great value to the industry. Data analysis and mining is the hottest technology and career direction at present. It will get rapid development in the next few years, and has a very broad prospect. It is an important core skill for students to enter the society and become talents in the future. It can be said that learning the principle, concept and technology of big data analysis and mining well will make the future computer professional development and career of students obtain a high starting point and great development potential Strength and competitiveness. Starting from the actual combat, this course will introduce the theoretical algorithm and programming tools of big data analysis and mining, and introduce the key tasks and methods of data analysis and mining around real cases. Including the main data analysis tasks: data exploration, data preprocessing, data visualization display, data modeling, model validation and evaluation, analysis results display and application; at the same time, according to different data analysis tasks in the stage of explaining the principle, at the same time, introduce a large number of the latest academic, industry research methods, technologies and models. In explaining data classification, data prediction model, and complex data analysis scenarios, the course introduces several classic data analysis and mining cases from the product data Department of Huawei network product line, and introduces typical cases of Alibaba data platform architecture,Tianchi AI training platform and typical application. Let students apply what they have learned and keep up with the most advanced technology level in the industry. At the same time, in the face of China's national enterprises, the head company's huge business success and the application of cutting-edge technology achievements in the field of big data analysis and mining generate a strong sense of national pride, and strive for the national digital economic and Technological Development and set up the ambition to climb the peak of knowledge bravely. 三、课程性质与教学目的 大数据分析挖掘是高级数据处理和分析技术。本课程包括数据挖掘的理论和实践 两部分。本课程是专业课,属于高年级专业技术基础应用课程,注重理论和编程实践 及应用结合,强调理论和应用性,同时要把数据分析技术应用到不同场景和领域,需
要跨领域知识,是一门综合性较强,应用类课程。 通过本课程学习,使学生了解大数据分析和挖掘方法的思想和技术,掌握重要数 据挖掘技术的基本原理,并能熟练使用Python语言实现主流的数据挖掘算法。能够 运用最先进的计算机信息技术,即基于数学原理,算法理论的数据分析和挖据技术去 应用到祖国经济政治建设方方面面,从海量的历史和现实大量社会、经济、生产、生 活数据中分析,挖掘出有价值的知识与规律,为进一步提升全社会信息化,数字化, 智能化水平,创造更多新的信息化智能化产品和系统,向学生传授造福人类共同命运 体而莫定技术基础和储备的学习理念与目的。 四、教学内容及要求 第一部分:Python语言程序设计 第一章Python基本语法元素 (一)目的与要求 l.掌握基本Python语法元素,包括程序基本结构,注释,数据类型,语 句,函数等概念。 2.通过学习简单程序例子,可以编写简单python程序。 (二)教学内容 1.程序设计基本方法。掌握IPO,输入-处理-输出的程序设计方法。 2.Python开发环境配置。会搭建windows和linux等多系统下Python 开发环境。 3.简单Python程序实例:温度转换 4.Python程序语法元素分析 (三)思考与实践 通过温习程序设计基本方法,学习搭建Python开发环境及简单程序实例,对 比Python与学过的java,C+等语言的语法,环境,程序结构不同,快速掌握python 简单程序开发,并可以完成10行左右简单程序编写。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第二章基本数据类型 (一)目的与要求 掌握基本python数据类型,并能在程序中灵活应用。 (二)教学内容 数字类型及操作,程序实例。字符串类型及操作,程序实例。Tim爬库使用。 (三)思老与实我 利用数字类型,字符串类型实现简单程序实例。 3
3 要跨领域知识,是一门综合性较强,应用类课程。 通过本课程学习,使学生了解大数据分析和挖掘方法的思想和技术,掌握重要数 据挖掘技术的基本原理,并能熟练使用 Python 语言实现主流的数据挖掘算法。能够 运用最先进的计算机信息技术,即基于数学原理,算法理论的数据分析和挖掘技术去 应用到祖国经济政治建设方方面面,从海量的历史和现实大量社会、经济、生产、生 活数据中分析,挖掘出有价值的知识与规律,为进一步提升全社会信息化,数字化, 智能化水平,创造更多新的信息化智能化产品和系统,向学生传授造福人类共同命运 体而奠定技术基础和储备的学习理念与目的。 四、教学内容及要求 第一部分:Python 语言程序设计 第一章 Python 基本语法元素 (一)目的与要求 1.掌握基本 Python 语法元素,包括程序基本结构,注释,数据类型,语 句,函数等概念。 2.通过学习简单程序例子,可以编写简单 python 程序。 (二)教学内容 1.程序设计基本方法。掌握 IPO,输入-处理-输出的程序设计方法。 2.Python 开发环境配置。 会搭建 windows 和 linux 等多系统下 Python 开发环境。 3.简单 Python 程序实例:温度转换 4.Python 程序语法元素分析 (三)思考与实践 通过温习程序设计基本方法,学习搭建 Python 开发环境及简单程序实例,对 比 Python 与学过的 java,C++等语言的语法,环境,程序结构不同,快速掌握 python 简单程序开发,并可以完成 10 行左右简单程序编写。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第二章 基本数据类型 (一)目的与要求 掌握基本 python 数据类型,并能在程序中灵活应用。 (二)教学内容 数字类型及操作,程序实例。字符串类型及操作,程序实例。Time 库使用。 (三)思考与实践 利用数字类型,字符串类型实现简单程序实例
(四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果 第三章函数和代码复用 (一)目的与要求 掌握Python函数与代码复用,可编程应用。 (一)教学内容 函数定义与使用,实例七段数码管绘制。代码复用与函数递归,Pyinstaller打 句库使用,科赫雪花小句赛实例。 (三)思考与实践 利用函数,代码复用,递归等功能实现简单程序实例。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第四章组合数据类型 (一)目的与要求 掌握Python组合数据类型,可编程应用。 (二)教学内容 集合数据类型及操作, 序列类型及操作,基本统计值计算程序实例,字典类型 及操作,jieba库的使用,文本词频统计实例。 (三)思考与实践 利用组合数据类型实现简单程序实例。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第二部分:数据分析挖掘实战 第五章数据挖掘引言 (·)目的与要求 掌握数据挖掘的概念,了解基本的数据挖掘分析步骤流程,方法。 (二)教学内容 数据挖掘产生的背景,定义,和基本流程。数据挖据的主要方法。数据挖掘的 应用场景与案例。 (三)思考与实践 掌握数据挖掘主要概念,流程,方法,并与现实应用场景相联系,找到可能的 数据挖掘问题,应用场景
4 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第三章 函数和代码复用 (一)目的与要求 掌握 Python 函数与代码复用,可编程应用。 (二)教学内容 函数定义与使用,实例七段数码管绘制。代码复用与函数递归,Pyinstaller 打 包库使用,科赫雪花小包裹实例。 (三)思考与实践 利用函数,代码复用,递归等功能实现简单程序实例。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第四章 组合数据类型 (一)目的与要求 掌握 Python 组合数据类型,可编程应用。 (二)教学内容 集合数据类型及操作,序列类型及操作,基本统计值计算程序实例,字典类型 及操作,jieba 库的使用,文本词频统计实例。 (三)思考与实践 利用组合数据类型实现简单程序实例。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第二部分:数据分析挖掘实战 第五章 数据挖掘引言 (一)目的与要求 掌握数据挖掘的概念,了解基本的数据挖掘分析步骤流程,方法。 (二)教学内容 数据挖掘产生的背景,定义,和基本流程。数据挖掘的主要方法。数据挖掘的 应用场景与案例。 (三)思考与实践 掌握数据挖掘主要概念,流程,方法,并与现实应用场景相联系,找到可能的 数据挖掘问题,应用场景
(四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,调查研究,案例讨论等手段提 高教学效果。 第六章认识数据 (一)目的与要求 介绍数据探索的背景,概念,掌握数据探索的主要方法,步骤。 (二)教学内容 数据对象与属性类型,数据基本统计描述方法,数据可视化方法,数据相似性 和相异性度量方法。 (三)思老与实践 会利用Python等编程工具进行数据探索,包括数据统计描述,可视化展示, 相似性与相异性度量实现。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第七章数据预处理 (一)目的与要求 掌握数据预处理的主要方法 (二)教学内容 数据预处理的基本思想和数据规范化,数据离散化,数据清洗,特征提取与特 征选择。 (三)思考与实践 会利用python等工具进行数据清洗,离散化,规范化,特征提取等数据预处理 工作,为数据分析与挖掘做好高质量数据准备。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果 第八章关联规则挖掘 (一)目的与要求 掌握数据挖掘经典方法,关联规则挖掘方法及应用。 (二)教学内容 关联规则挖掘背景,概念,频繁模式与关联规则概念,频繁项集的典型挖掘方 法,关联规则的生成方法,关联规则的其他类型,关联规则模型的度量。 (三)思考与实践 5
5 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,调查研究,案例讨论等手段提 高教学效果。 第六章 认识数据 (一)目的与要求 介绍数据探索的背景,概念,掌握数据探索的主要方法,步骤。 (二)教学内容 数据对象与属性类型,数据基本统计描述方法,数据可视化方法,数据相似性 和相异性度量方法。 (三)思考与实践 会利用 Python 等编程工具进行数据探索,包括数据统计描述,可视化展示, 相似性与相异性度量实现。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第七章 数据预处理 (一)目的与要求 掌握数据预处理的主要方法。 (二)教学内容 数据预处理的基本思想和数据规范化,数据离散化,数据清洗,特征提取与特 征选择。 (三)思考与实践 会利用 python 等工具进行数据清洗,离散化,规范化,特征提取等数据预处理 工作,为数据分析与挖掘做好高质量数据准备。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第八章 关联规则挖掘 (一)目的与要求 掌握数据挖掘经典方法,关联规则挖掘方法及应用。 (二)教学内容 关联规则挖掘背景,概念,频繁模式与关联规则概念,频繁项集的典型挖掘方 法,关联规则的生成方法,关联规则的其他类型,关联规则模型的度量。 (三)思考与实践
分析具体应用场景是否是关联规则挖掘,可以利用Python工具进行适合场景的 关联规则挖掘,并进行模型评估,和应用关联挖掘结果。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第九章数据分类 (一)目的与要求 掌握数据挖掘经典方法,数据分类方法及应用。 (二)数学内容 分类的概念,决策树分类,朴素贝叶斯分类,K近邻分类,分类性能的度量方法。 介绍华为全球存储解决方案分析案例,即根据服务器生产线全球存储服务器现网运行 性能和配置数据,进行现网应用分类分析及网络扩容方案生成在线报告,支持一线市 场方案决策。这里利用随机森林,支持向量机等经典模型改进算法进行海量全球存储 器性能和配置数据的分析与应用类型分类,并获取了极高性能,取得巨大商业价值。 通过该案例,一方面将数据分类技术应用到实际的生产实践,检验理论与知识学习, 同时可以了解到民族企业华为的巨大商业体系运转一角,增强民族自豪感,澈发斗志 与学习热情。 (三)用考与实践 分析具体应用场景是否是分类任务,可以利用Python工具进行适合场景的分类 预测,并进行模型评估,和应用分类分析结果。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践,调查研究,案例分 析等手段提高教学效果 第十章数值预测 (一)目的与要求 掌握数据挖掘经典方法,数据预测方法及应用。 (二)教学内容 数值预测概念,回归方法,回归树与模型树,K近邻数值预测和预测误差的度量。 介绍华为无线市场部为解决华为全球无线产品线市场计划与供应链供备货压力大,备 货成本及损失过大问题,采用机器学习与大数据分析技术根据历史市场计划,供备货, 销售行情等关键数据进行未来中长期无线市场计划预测。该项目通过Hadoop/Spark 集群大数据处理与开发,基于Pythor的机器学习算法开发,基于市场计划关键特征 向量采用ARIM时间序列预测算法进行中长期无线关键备件趋势预测与定量预测,并 采用了华为云GU大型集群进行神经网络算法加速,获得巨大商业利润.通过该案例
6 分析具体应用场景是否是关联规则挖掘,可以利用 Python 工具进行适合场景的 关联规则挖掘,并进行模型评估,和应用关联挖掘结果。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践等手段提高教学效果。 第九章 数据分类 (一)目的与要求 掌握数据挖掘经典方法,数据分类方法及应用。 (二)教学内容 分类的概念,决策树分类,朴素贝叶斯分类,K 近邻分类,分类性能的度量方法。 介绍华为全球存储解决方案分析案例,即根据服务器生产线全球存储服务器现网运行 性能和配置数据,进行现网应用分类分析及网络扩容方案生成在线报告,支持一线市 场方案决策。这里利用随机森林,支持向量机等经典模型改进算法进行海量全球存储 器性能和配置数据的分析与应用类型分类,并获取了极高性能,取得巨大商业价值。 通过该案例,一方面将数据分类技术应用到实际的生产实践,检验理论与知识学习, 同时可以了解到民族企业华为的巨大商业体系运转一角,增强民族自豪感,激发斗志 与学习热情。 (三)思考与实践 分析具体应用场景是否是分类任务,可以利用 Python 工具进行适合场景的分类 预测,并进行模型评估,和应用分类分析结果。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践,调查研究,案例分 析等手段提高教学效果。 第十章 数值预测 (一)目的与要求 掌握数据挖掘经典方法,数据预测方法及应用。 (二)教学内容 数值预测概念,回归方法,回归树与模型树,K 近邻数值预测和预测误差的度量。 介绍华为无线市场部为解决华为全球无线产品线市场计划与供应链供备货压力大,备 货成本及损失过大问题,采用机器学习与大数据分析技术根据历史市场计划,供备货, 销售行情等关键数据进行未来中长期无线市场计划预测。该项目通过 Hadoop/Spark 集群大数据处理与开发,基于 Python 的机器学习算法开发,基于市场计划关键特征 向量采用 ARIMA 时间序列预测算法进行中长期无线关键备件趋势预测与定量预测,并 采用了华为云 GPU 大型集群进行神经网络算法加速,获得巨大商业利润。通过该案例
一方面将数据预测技术应用到实际的生产实践,检验理论与知识学习,同时可以了解 到民族企业华为的巨大商业体系运转一角,了解无线市场部5G4G运营体制一角,了 解华为云GU集群强大性能,增强民族自豪感,激发斗志与学习热情。 (三)思考与实践 分析具体应用场景是否是数值预测任务,可以利用Python工具进行适合场景的 数值预测,并进行模型评估,和应用数值预测结果。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践,调查研究,案 例分析等手段提高教学效果。 第十一章聚类分析 (一)目的与要求 掌握数据挖掘经典方法,聚类分析方法及应用 (三)教学内容 介绍聚类分析概念,相似度度量方法,K均值聚类法,层次聚类方法,DBSCAN 方法,聚类效果衡量方法。至此学完所有经典数据分析与挖掘模型,介绍阿里天 池A实训平台(具体访问网址见参考资料)。该平台免费向高校开放AL实训解 决方案,公开天池经典赛事课程,代码及计算资源,实验工具,经典案例,数据 集,和在线交互式数据分析工具notebook。介绍相关使用方案,在线编程工具, 并以一个天池数据分析案例为例全程在线进行数据分析开发演示。果上选定天池 竞赛题目,进行分组讨论与实践,演示。通过天池数据分析实训平台介绍与使 用,使同学们获得业内最先进的大数据分析挖据开发平台技术,并接触企业第一 手数据分析案例和赛事,实现高质量的理论实践,提高动手能力,同时也可了解 国内顶尖大数据分析技术发展现状,增强民族自豪感,激发学习热情。 (三)思考与实践 分析具体应用场景是否是聚类任务,可以利用Python工具进行适合场景的聚类 分析,并进行模型评估,和应用聚类分析结果。学会利用阿里的天池AI实训平台进 行数据分析与挖掘项目开发,应用。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践,调查研究,案例分 析,分组讨论等手段提高教学效果。 第十二章挖掘复杂的数据类型 (一)目的与要求 掌握复杂数据类型挖掘方法,及应用。了解当前业内大数据分析与挖掘技术发 7
7 一方面将数据预测技术应用到实际的生产实践,检验理论与知识学习,同时可以了解 到民族企业华为的巨大商业体系运转一角,了解无线市场部 5G 4G 运营体制一角,了 解华为云 GPU 集群强大性能,增强民族自豪感,激发斗志与学习热情。 (三)思考与实践 分析具体应用场景是否是数值预测任务,可以利用 Python 工具进行适合场景的 数值预测,并进行模型评估,和应用数值预测结果。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践,调查研究,案 例分析等手段提高教学效果。 第十一章 聚类分析 (一)目的与要求 掌握数据挖掘经典方法,聚类分析方法及应用。 (三)教学内容 介绍聚类分析概念,相似度度量方法,K 均值聚类法,层次聚类方法,DBSCAN 方法,聚类效果衡量方法。至此学完所有经典数据分析与挖掘模型,介绍阿里天 池 AI 实训平台(具体访问网址见参考资料)。该平台免费向高校开放 AI 实训解 决方案,公开天池经典赛事课程,代码及计算资源,实验工具,经典案例,数据 集,和在线交互式数据分析工具 notebook。介绍相关使用方案,在线编程工具, 并以一个天池数据分析案例为例全程在线进行数据分析开发演示。课上选定天池 竞赛题目,进行分组讨论与实践,演示。通过天池 AI 数据分析实训平台介绍与使 用,使同学们获得业内最先进的大数据分析挖掘开发平台技术,并接触企业第一 手数据分析案例和赛事,实现高质量的理论实践,提高动手能力,同时也可了解 国内顶尖大数据分析技术发展现状,增强民族自豪感,激发学习热情。 (三)思考与实践 分析具体应用场景是否是聚类任务,可以利用 Python 工具进行适合场景的聚类 分析,并进行模型评估,和应用聚类分析结果。学会利用阿里的天池 AI 实训平台进 行数据分析与挖掘项目开发,应用。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,编程实践,调查研究,案例分 析,分组讨论等手段提高教学效果。 第十二章 挖掘复杂的数据类型 (一)目的与要求 掌握复杂数据类型挖掘方法,及应用。了解当前业内大数据分析与挖掘技术发
展前沿,了解最新最热的商业化大数据分析与挖掘产品和系统。 (三)教学内容 复杂数据类型挖掘方法,包括序列类型,网络类型,时间空间数据,地理数据, 移动对象和物联网系统数据,多煤体数据,文本数据,Wb数据,流数据等。介 绍阿里数据智能最佳实践,阿里数据中台,介绍其定义,顶层设计,策略与建设 实践,与传统数据仓库差异,与数据湖的区别联系,面临的主要技术挑战,及其 行业应用。通过对阿里数据中台介绍,了解当前业内大数据分析与挖掘,数据智 能技术发展前沿,了解最新最热的商业化大数据分析与挖掘产品和系统,同时了 解国内行业巨头在数字化和智能化方面最新进展丰硕成果,增强民族自豪感,激 发学习热情。 (三)思老与实我 了解复杂数据类型数据挖掘方法,并会利用Python工具等进行应用。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,调查研究,案例分析等手段提高 教学效果。 五、各教学环节学时分配 教学环 学 教学时数 实验 实习 教学 单 课 环节 课程内容 第 Python基本语法元 第二章基本数据类型 第三章函数和代码复用 第四章组合数据类型 2 第五章数据挖掘引言 第六章认识数据 第七章数据预处理 第八章关联规则挖掘
8 展前沿,了解最新最热的商业化大数据分析与挖掘产品和系统。 (三)教学内容 复杂数据类型挖掘方法,包括序列类型,网络类型,时间空间数据,地理数据, 移动对象和物联网系统数据,多媒体数据,文本数据,Web 数据,流数据等。介 绍阿里数据智能最佳实践,阿里数据中台,介绍其定义,顶层设计,策略与建设 实践,与传统数据仓库差异,与数据湖的区别联系,面临的主要技术挑战,及其 行业应用。通过对阿里数据中台介绍,了解当前业内大数据分析与挖掘,数据智 能技术发展前沿,了解最新最热的商业化大数据分析与挖掘产品和系统,同时了 解国内行业巨头在数字化和智能化方面最新进展丰硕成果,增强民族自豪感,激 发学习热情。 (三)思考与实践 了解复杂数据类型数据挖掘方法,并会利用 Python 工具等进行应用。 (四)教学方法与手段 课堂讲授为主,结合网络课程辅助,课堂讨论,调查研究,案例分析等手段提高 教学效果。 五、各教学环节学时分配 教学环 节 教学时数 课程内容 讲 课 习 题 课 讨 论 课 实验 实习 其他 教学 环节 小 计 第一章 Python 基本语法元 素 2 1 3 第二章 基本数据类型 2 1 3 第三章 函数和代码复用 2 1 3 第四章 组合数据类型 1 2 3 第五章 数据挖掘引言 2 2 第六章 认识数据 2 1 3 第七章 数据预处理 2 1 2 5 第八章 关联规则挖掘 3 1 2 6
第九章数据分类 6 第十章数值预测 第十一章聚类分析 第十二章挖掘复杂的数据 类型 合计 26 16 48 六、课程考核 (一)考核方式:期末课程设计 (二)成绩构成 平时成绩占比:40% 期末考试占比:60% (三)成绩考核标准 平时成绩由:考勤,课堂表现,实验,分享,小组长贡献构成,期末考试采用课 程设计形式,主要是指定大数据分析与挖掘的行业应用项目,完成指定项目设计,分 析,模型评估与结果展示,提交文档和可执行带注释代码,及分析建模结果。文档描 述清晰,代码运行正确,模型效果性能较好都是相应的踩分点。 七、推荐教材和教学参考资源 推荐教材: 1.Python数据分析与挖掘实践(第二版),张良均,机械工业出版社,2019.3 2.数据挖掘导论(第二版)Pang-Ning Tan/Michael Steinbach/Vipin Kumar著, 范明/范宏建译,人民邮电出版社,2018.10 3.Python语言程序设计基础(第二版)嵩天、礼欣、黄天羽著,高等教有出版社,2017.2 参考书目: 1.机器学习,周志华,清华大学出版社 2.利用Python进行数据分析,Wes Mckinney,.机械工业出版社 3.高教版Python语言程序设计冲刺试卷(含线上题库)(第二版),黄天羽、李芬芬著,高 等教有出版社,2019.14 4.Python基础教程Magnus Lie Hetland人民邮电出版社02/2018 5.天池1实训平台 https://tianchi.aliyun.com/education?spm-5176.15098393.J 4642415020.12.529e5cd6 UKUiAS&lang-zh-cn 6.阿里云数据中台专栏博客(一)一(六) http3:/y4,a1ium,com/artic1les/60457123pm=a2c4e,11153940.0.0.462232667ubAh0 9
9 第九章 数据分类 3 1 2 6 第十章 数值预测 2 2 4 第十一章 聚类分析 3 1 2 6 第十二章 挖掘复杂的数据 类型 2 2 4 合计 26 1 3 16 2 48 六、课程考核 (一)考核方式:期末课程设计 (二)成绩构成 平时成绩占比:40% 期末考试占比:60% (三)成绩考核标准 平时成绩由:考勤,课堂表现,实验,分享,小组长贡献构成,期末考试采用课 程设计形式,主要是指定大数据分析与挖掘的行业应用项目,完成指定项目设计,分 析,模型评估与结果展示,提交文档和可执行带注释代码,及分析建模结果。文档描 述清晰,代码运行正确,模型效果性能较好都是相应的踩分点。 七、推荐教材和教学参考资源 推荐教材: 1.Python 数据分析与挖掘实践(第二版),张良均,机械工业出版社,2019.3 2.数据挖掘导论(第二版)Pang-Ning Tan / Michael Steinbach / Vipin Kumar 著, 范明 / 范宏建译,人民邮电出版社,2018.10 3.Python 语言程序设计基础(第二版)嵩天、礼欣、黄天羽著,高等教育出版社,2017.2 参考书目: 1. 机器学习,周志华,清华大学出版社 2. 利用 Python 进行数据分析,Wes Mckinney, 机械工业出版社 3. 高教版 Python 语言程序设计冲刺试卷(含线上题库)(第二版),黄天羽、李芬芬著,高 等教育出版社,2019.14 4. Python 基础教程 Magnus Lie Hetland 人民邮电出版社 02/2018 5. 天池 AI 实训平台 https://tianchi.aliyun.com/education?spm=5176.15098393.J_4642415020.12.529e5cd6 UKUiAS&lang=zh-cn 6.阿里云数据中台专栏博客(一)-(六) https://yq.aliyun.com/articles/604571?spm=a2c4e.11153940.0.0.462232667ubAn0
八、其他说明 无。 大纲修订人:胡苏 修订日期:2023-2-21 大纲审定人: 审定日期: 注:在第二、三、四、七部分引入课程思政建设内容,其中第四部分的教学内容部分,引入思政 教学知识点四个以上,均已标红加粗显示。 10
10 八、其他说明 无。 大纲修订人:胡苏 修订日期:2023-2-21 大纲审定人: 审定日期: 注:在第二、三、四、七部分引入课程思政建设内容,其中第四部分的教学内容部分,引入思政 教学知识点四个以上,均已标红加粗显示