《大数据理论方法与应用》课程教学大纲 一、课程基本信息 课程代码:18060122 课程名称:大数据理论方法与应用 英文名称:Theory,.method and application of big data 课程类别:专业课 时:32 学 分:2 适用对象:因际贸易、因际商务专业大三学生 老核方式:老试 先修课程:《统计学》《计量经济学》《多元统计分析》 二、课程简介 紧抓课程改革核心环节,不断提升教学质量,将“课程思政”作为融合德育与智 育的融合主渠道,是逐步实现“立德树人”的综合教育理念的前进方向。大数据方法 是以海量数据中信息的挖掘与处理作为研究对象,研究数据处理方法和数据挖掘方法 的方法论科学,侧重从定量角度探索大量数据所体现出的规律性。它按照数据挖据方 法简易度,由浅入深来构造内容体系。第一部分探讨数据预处理的方法。第二部分介 绍数据挖掘的基本算法及应用。 The big data method is a methodology science studving the data processing methods and data mining method,it's research object is the mining and processing of massive data and it focus on exploring the regular pattern of a large number of data quantitatively.It's content system is based the simplicity of data mining methods,from shallow to deep.The first part discusses the method of data preprocessing.The second part introduces the basic algorithm and application of data mining. 三、课程性质与教学目的 本课程是统计学专业主干必修课程之一,也是财经类院校其他专业的选修课程 属于社会科学。其基本特点在于理论性、方法性和实际应用性强。 本课程的教学目的主要是为了让学生能系统地掌握大数据的处理与挖掘方法,为 参加大数据分析、数据挖掘方面的工作,进行相关方面内容的科学研究打下基础。并 培养学生经世济民、诚信服务的职业素养,和追求真理、勇攀科学高峰的责任感和使 命感。 四、教学内容及要求 第1章数据挖据概述 (一)目的与要求
1 《大数据理论方法与应用》课程教学大纲 一、课程基本信息 课程代码:18060122 课程名称:大数据理论方法与应用 英文名称:Theory, method and application of big data 课程类别:专业课 学 时:32 学 分:2 适用对象: 国际贸易、国际商务专业大三学生 考核方式:考试 先修课程:《统计学》《计量经济学》《多元统计分析》 二、课程简介 紧抓课程改革核心环节,不断提升教学质量,将“课程思政”作为融合德育与智 育的融合主渠道,是逐步实现“立德树人”的综合教育理念的前进方向。大数据方法 是以海量数据中信息的挖掘与处理作为研究对象,研究数据处理方法和数据挖掘方法 的方法论科学,侧重从定量角度探索大量数据所体现出的规律性。它按照数据挖掘方 法简易度,由浅入深来构造内容体系。第一部分探讨数据预处理的方法。第二部分介 绍数据挖掘的基本算法及应用。 The big data method is a methodology science studying the data processing methods and data mining method, it’s research object is the mining and processing of massive data, and it focus on exploring the regular pattern of a large number of data quantitatively. It’s content system is based the simplicity of data mining methods, from shallow to deep. The first part discusses the method of data preprocessing. The second part introduces the basic algorithm and application of data mining. 三、课程性质与教学目的 本课程是统计学专业主干必修课程之一,也是财经类院校其他专业的选修课程, 属于社会科学。其基本特点在于理论性、方法性和实际应用性强。 本课程的教学目的主要是为了让学生能系统地掌握大数据的处理与挖掘方法,为 参加大数据分析、数据挖掘方面的工作,进行相关方面内容的科学研究打下基础。并 培养学生经世济民、诚信服务的职业素养,和追求真理、勇攀科学高峰的责任感和使 命感。 四、教学内容及要求 第 1 章 数据挖掘概述 (一) 目的与要求
1.理解数据挖掘的过程、对象、方法和应用 2.了解常用的数据挖掘算法 3.介绍大数据在思政课方面的应用 (二)教学内容 1.1为什么要学习数据挖掘 1.2什么是数据挖掘 1.3数据挖据能给出什 1.3.1数据挖掘结果有哪些呈现方式 1.3.2数据挖掘结果有那些基本特红 1.4数据挖掘能解决什么问题 1.4.1数据预测 1.4.2发现数据的内在结构 1.4.3发现关联性 1.4.4模式诊断 1.5数据挖掘解决问题的思路 1.6数据挖据有哪些典型的商业应用 1.6.1数据挖掘在客户细分中的应用 1.6.2数据挖掘在客户流失分析中的应用 1.6.3数据挖掘在营销响应分析中的应用 1.6.4数据挖掘在交叉销售中的应用 1.6.5数据挖掘在欺诈甄别中的应用 1.7大数据在思政教育方面的应用案例 (三)思考与实践 1、常用的数据挖掘算法有哪些? 2、还可用哪些大数据技术促进思政教育 (四)教学方法与手段 采用多媒体辅助教学 第2章数据 (一)目的与要求 1,掌握数据的分类 2.掌握数据挖据中常用的数据预处理方法 (一教学内容 2.1数据类型 2.1.1属性与度量 2.1.2数据集的类型
2 1.理解数据挖掘的过程、对象、方法和应用 2.了解常用的数据挖掘算法 3. 介绍大数据在思政课方面的应用 (二) 教学内容 1.1 为什么要学习数据挖掘 1.2 什么是数据挖掘 1.3 数据挖掘能给出什么 1.3.1 数据挖掘结果有哪些呈现方式 1.3.2 数据挖掘结果有哪些基本特征 1.4 数据挖掘能解决什么问题 1.4.1 数据预测 1.4.2 发现数据的内在结构 1.4.3 发现关联性 1.4.4 模式诊断 1.5 数据挖掘解决问题的思路 1.6 数据挖掘有哪些典型的商业应用 1.6.1 数据挖掘在客户细分中的应用 1.6.2 数据挖掘在客户流失分析中的应用 1.6.3 数据挖掘在营销响应分析中的应用 1.6.4 数据挖掘在交叉销售中的应用 1.6.5 数据挖掘在欺诈甄别中的应用 1.7 大数据在思政教育方面的应用案例 (三)思考与实践 1、常用的数据挖掘算法有哪些? 2、还可用哪些大数据技术促进思政教育? (四)教学方法与手段 采用多媒体辅助教学 第 2 章 数据 (一)目的与要求 1.掌握数据的分类 2. 掌握数据挖掘中常用的数据预处理方法 (二)教学内容 2.1 数据类型 2.1.1 属性与度量 2.1.2 数据集的类型
2.2数据质量 2.2.1测量和数据收集问题 2.2.2关于应用的问题 2.3数据预处理 2.3.1聚集 2.3.2抽样 2.3.3维归约 2.3.4特征子集选择 2.3.5特征创建 2.3.6离散化和二元化 2.3.7变量变换 2.4相似性和相异性的度量 2.41基础 2.4.2简单属性之间的相似度和相异度 2.4.3数据对象之间的相异度 2.4.4数据对象之间的相似度 2.4.5邻近性度量的例子 2.4.6邻近度计算问题 2.4.7选取正确的邻近性度量 (三)思考与实践 1、数据可分为哪几类 (四)教学方法与手段 采用多媒体辅助教学 第5章基于规则的分类和组合预测:给出易懂且稳健的预测 (一)目的与要求 1.掌握决策树算法的原理及应用 2.掌握组合预测方法 3.掌握分类预测在思政教育中的应用 (二)教学内容 5.1决策树概述 5.1.1什么是决策树? 5.1.2决策树的几何意义是什么? 5.1.3决策树的核心问题 5.2分类回归树的生长过程 5.2.1分类树的生长过程 3
3 2.2 数据质量 2.2.1 测量和数据收集问题 2.2.2 关于应用的问题 2.3 数据预处理 2.3.1 聚集 2.3.2 抽样 2.3.3 维归约 2.3.4 特征子集选择 2.3.5 特征创建 2.3.6 离散化和二元化 2.3.7 变量变换 2.4 相似性和相异性的度量 2.4.1 基础 2.4.2 简单属性之间的相似度和相异度 2.4.3 数据对象之间的相异度 2.4.4 数据对象之间的相似度 2.4.5 邻近性度量的例子 2.4.6 邻近度计算问题 2.4.7 选取正确的邻近性度量 (三)思考与实践 1、数据可分为哪几类? (四)教学方法与手段 采用多媒体辅助教学 第 5 章 基于规则的分类和组合预测:给出易懂且稳健的预测 (一)目的与要求 1.掌握决策树算法的原理及应用 2. 掌握组合预测方法 3. 掌握分类预测在思政教育中的应用 (二)教学内容 5.1 决策树概述 5.1.1 什么是决策树? 5.1.2 决策树的几何意义是什么? 5.1.3 决策树的核心问题 5.2 分类回归树的生长过程 5.2.1 分类树的生长过程
5.2.2回归树的生长过程 5.2.3损失矩阵对分类树的影响 5.3分类回归树的剪枝 5.3.1最小代价复杂度的测度 5.3.2分类问归树后剪枝过程 5.3.3分类回归树的交叉验证剪枝 5.4分类回归树的实现和应用 5.4.1分类回归树的实现 5.4.2分类回归树的应用:提炼不同消费行为顾客的主要特征 5.5建立分类回归树的组合预测模型:给出稳健的预测 5.5.1袋装技术 5.5.2袋装技术的实现 5.5.3袋装技术的应用:稳健定位目标客户 5.5.4推进技术 5.5.5推进技术的实现 5.5.6推进技术的应用:稳健定位日标客户 5.6随机森林:具有随机性的组合预测 5.6.1什么是随机森林? 5.6.2随机森林的实现 5.6.3随机森林的应用:稳健定位目标客户 5.7各类算法在思政教育方面的应用与比较 (三)思考与实践 1、决策树算法的基本原理是? 2、为什么要讲行组合预测: (四)教学方法与手段 采用多煤体辅助数学 第8章常规聚类:直观的数据全方位自动分组 (·)目的与要求 1.掌握聚类分析的原理 2.掌握实现聚类分析的方法 3.掌握聚类算法在思政教育中的应用 (二)教学内容 8.1聚类分析概述 8.1.1聚类分析目标:发现数据中的“自然小类” 8.1.2有那些主流的聚类算法? 4
4 5.2.2 回归树的生长过程 5.2.3 损失矩阵对分类树的影响 5.3 分类回归树的剪枝 5.3.1 最小代价复杂度的测度 5.3.2 分类回归树后剪枝过程 5.3.3 分类回归树的交叉验证剪枝 5.4 分类回归树的实现和应用 5.4.1 分类回归树的实现 5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征 5.5 建立分类回归树的组合预测模型:给出稳健的预测 5.5.1 袋装技术 5.5.2 袋装技术的实现 5.5.3 袋装技术的应用:稳健定位目标客户 5.5.4 推进技术 5.5.5 推进技术的实现 5.5.6 推进技术的应用:稳健定位目标客户 5.6 随机森林:具有随机性的组合预测 5.6.1 什么是随机森林? 5.6.2 随机森林的实现 5.6.3 随机森林的应用:稳健定位目标客户 5.7 各类算法在思政教育方面的应用与比较 (三)思考与实践 1、决策树算法的基本原理是? 2、为什么要进行组合预测? (四)教学方法与手段 采用多媒体辅助教学 第 8 章 常规聚类:直观的数据全方位自动分组 (一)目的与要求 1.掌握聚类分析的原理 2.掌握实现聚类分析的方法 3. 掌握聚类算法在思政教育中的应用 (二)教学内容 8.1 聚类分析概述 8.1.1 聚类分析目标:发现数据中的“自然小类” 8.1.2 有哪些主流的聚类算法?
8.2基于质心的聚类:K-Means聚类 8.2.1K-Means聚类中的距离测度:体现全方位性 8.2.2K-Means聚类过程:多次自动分组 8.2.3K-Means聚类的实现和模拟分析 8.2.4K-Means聚类的应用:环境污染的区域划分 8.3K-means算法在思政教育方面的应用与比较 (三)思考与实践 1、不同聚类方法的区别在哪里? (四)教学方法与手段 采用多媒体辅助教学 第10章发现数据中的关联特征:关联是推荐的依据 (一)目的与要求 1.掌握关联分析的原理 2.掌握实现关联分析的方法 (二)教学内容 10.1简单关联规则及其测度 10.1.1什么是简单关联规则 10.1.2如何评价简单关联规则的有效性? 10.1.3如何评价简单关联规则的实用性? l0.2 Apriori算法:发现简单关联规则的高效算法 10.2.1搜索频繁项集:Apriori算法的重中之重 10.2.2依频繁项集产生简单关联规则:水到渠成 10.2.3 Apriori算法的实现和应用示例 10.2.4简单关联的可视化实现和应用示例 10.3 Eclat算法:更快速地发现频繁项集 10.3.1 Eclat算法原理:对等类是核心 10.3.2 Eclat算法的实现和应用示例 10.4简单关联分析应用:商品推荐 10.4.1发现连带销售商品 10.4.2顾客选择性倾向对比 1O.5序列关联分析及SPADE算法:发现数据中的时序关联性 10.5.1序列关联中有哪些基本概念? 10.5.2 SPADE算法:发现序列关联规则的高效算法 10.5.3序列关联分析的实现及应用示例 10.6序列关联分析应用:发现网民的浏览习惯 5
5 8.2 基于质心的聚类:K-Means 聚类 8.2.1 K-Means 聚类中的距离测度:体现全方位性 8.2.2 K-Means 聚类过程:多次自动分组 8.2.3 K-Means 聚类的实现和模拟分析 8.2.4 K-Means 聚类的应用:环境污染的区域划分 8.3 K-means 算法在思政教育方面的应用与比较 (三)思考与实践 1、不同聚类方法的区别在哪里? (四)教学方法与手段 采用多媒体辅助教学 第 10 章 发现数据中的关联特征:关联是推荐的依据 (一)目的与要求 1.掌握关联分析的原理 2.掌握实现关联分析的方法 (二)教学内容 10.1 简单关联规则及其测度 10.1.1 什么是简单关联规则? 10.1.2 如何评价简单关联规则的有效性? 10.1.3 如何评价简单关联规则的实用性? 10.2 Apriori 算法:发现简单关联规则的高效算法 10.2.1 搜索频繁项集:Apriori 算法的重中之重 10.2.2 依频繁项集产生简单关联规则:水到渠成 10.2.3 Apriori 算法的实现和应用示例 10.2.4 简单关联的可视化实现和应用示例 10.3 Eclat 算法:更快速地发现频繁项集 10.3.1 Eclat 算法原理:对等类是核心 10.3.2 Eclat 算法的实现和应用示例 10.4 简单关联分析应用:商品推荐 10.4.1 发现连带销售商品 10.4.2 顾客选择性倾向对比 10.5 序列关联分析及 SPADE 算法:发现数据中的时序关联性 10.5.1 序列关联中有哪些基本概念? 10.5.2 SPADE 算法:发现序列关联规则的高效算法 10.5.3 序列关联分析的实现及应用示例 10.6 序列关联分析应用:发现网民的浏览习惯
(三)思考与实践 1小、如何实现关联分析 (四)教学方法与手段 采用多媒体辅助教学 第12章模式甄别:诊断异常数据 (一)目的与要求 1.掌握诊断异常数据的方法 (二)教学内容 12.1模式甄别方法和评价概林 12.1.1模式甄别方法 12.1.2模式甄别结果及评价:风险评分 12.2模式甄别的无监督侦测方法及应用示例 12.2.1依概率侦测模式 12.2.2依距离侦测模式:DB方法 12.2.3依密度侦测模式:L0F方法 12.3模式甄别的有监督侦测方法及应用示例 12.3.1朴素贝叶斯分类法及示例 12.3.2 Logistic回归及示例 12.3.3非平衡数据集的SM0TE处理 12.4模式甄别的半监督侦测方法及应用示例 12.4.1半监督分类:自训练分类模型 12.4.2自训练分类模型的实现及应用示例 (三)思考与实践 1、有哪几种常用的模式甄别方法? (四)教学方法与手段 采用多媒体辅助教学 五 ,各教学环节学时分配 教学环节 习 教学时数 实验 其他教 论 课 果 学环节 计 课程内容 第一章数据挖掘概述 4 4
6 (三)思考与实践 1、如何实现关联分析? (四)教学方法与手段 采用多媒体辅助教学 第 12 章 模式甄别:诊断异常数据 (一)目的与要求 1.掌握诊断异常数据的方法 (二)教学内容 12.1 模式甄别方法和评价概述 12.1.1 模式甄别方法 12.1.2 模式甄别结果及评价:风险评分 12.2 模式甄别的无监督侦测方法及应用示例 12.2.1 依概率侦测模式 12.2.2 依距离侦测模式:DB 方法 12.2.3 依密度侦测模式:LOF 方法 12.3 模式甄别的有监督侦测方法及应用示例 12.3.1 朴素贝叶斯分类法及示例 12.3.2 Logistic 回归及示例 12.3.3 非平衡数据集的 SMOTE 处理 12.4 模式甄别的半监督侦测方法及应用示例 12.4.1 半监督分类:自训练分类模型 12.4.2 自训练分类模型的实现及应用示例 (三)思考与实践 1、有哪几种常用的模式甄别方法? (四)教学方法与手段 采用多媒体辅助教学 五、各教学环节学时分配 教学环节 教学时数 课程内容 讲 课 习 题 课 讨 论 课 实验 其他教 学环节 小 计 第一章 数据挖掘概述 4 4
第二章数据 第五章基于规则的分类和 10 组合预测 第八章常规聚类 第十章发现数据中的关 联特征 第十二章模式甄别 2 2 合计 32 注:带*号为选讲内容,可根据需要自行进行选择。 六、推荐教材和教学参考资源 [)熊平.数据挖掘算法与Clementine实践.清华大学出版社,201l年 [2]张浩彬.小白学数据挖掘与机器学习.电子工业出版社,2018年 [3]Pang-Ning Tan等.数据挖掘导论.人民邮电出版社,2O11年 [4 Drew Conway、John My1 es White.机器学习.机械工业出版社,2013年出版: 比、其他说明 大纲修订人:雷小乔 修订日期:2020年12月 大纲审定人:刘照德 审定日期:2020年12月
7 第二章 数据 4 4 第五章 基于规则的分类和 组合预测 10 10 第八章 常规聚类 8 8 第十章 发现数据中的关 联特征 4 4 第十二章 模式甄别 2 2 合计 32 32 注:带*号为选讲内容,可根据需要自行进行选择。 六、推荐教材和教学参考资源 [1] 熊平.数据挖掘算法与 Clementine 实践.清华大学出版社,2011 年 [2] 张浩彬.小白学数据挖掘与机器学习.电子工业出版社,2018 年 [3] Pang-Ning Tan 等.数据挖掘导论.人民邮电出版社,2011 年 [4] Drew Conway、John Myles White. 机器学习.机械工业出版社,2013 年出版; 七、其他说明 大纲修订人:雷小乔 修订日期:2020 年 12 月 大纲审定人:刘照德 审定日期:2020 年 12 月