《数据采集与预处理》课程教学大纲 一、课程基本信息 课程代码:20110083 课程名称:数据采集与预处理 英文名称:DataAcquisition and Preprocessing 课程类别:专业课 时:48 学 分:3 适用对象:2020级大数据管理与应用专业 考核方式:考查 先修课程:Python程序设计 二、课程简介 本课程详细阐述了大数据领域数据采集与预处理的相关理论和技术,是大数据管 理与应用专业的核心课程。课程内容共8章,包括概述、大数据实验环境搭建、网络 数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成 ETL工具Kettle、使用pandas进行数据清洗。通过本课程的学习,引导学生向数据 工程师方向发展。 This course describes in detail the relevant theories and technologies of data acquisition and preprocessing in the field of big data.The course consists of 8 chapters,including overview,establishment of big data experimental environment,network data collection,distributed message system Kafka,log collection system flume,data integration in data warehouse,ETL tool kettle,and data cleaning using pandas. 三、课程性质与教学目的 《数据采集与预处理》是大数据管理与应用专业开设的一门专业基础课。课程全 面、系统的介绍大数据领域数据采集与预处理的相关理论和技术。 通过本课程的学习旨在让学生实现以下教学目的: (1)培养合格的社会主义事业接班人: (2) 拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法: (3)熟悉大数据实验环境的搭建方法:了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法:了解Kafka的特性,掌握使用Python操作Kafka的方 1
1 《数据采集与预处理》课程教学大纲 一、课程基本信息 课程代码:20110083 课程名称:数据采集与预处理 英文名称:Data Acquisition and Preprocessing 课程类别:专业课 学 时:48 学 分:3 适用对象:2020 级大数据管理与应用专业 考核方式:考查 先修课程:Python 程序设计 二、课程简介 本课程详细阐述了大数据领域数据采集与预处理的相关理论和技术,是大数据管 理与应用专业的核心课程。课程内容共 8 章,包括概述、大数据实验环境搭建、网络 数据采集、分布式消息系统 Kafka、日志采集系统 Flume、数据仓库中的数据集成、 ETL 工具 Kettle、使用 pandas 进行数据清洗。通过本课程的学习,引导学生向数据 工程师方向发展。 This course describes in detail the relevant theories and technologies of data acquisition and preprocessing in the field of big data. The course consists of 8 chapters, including overview, establishment of big data experimental environment, network data collection, distributed message system Kafka, log collection system flume, data integration in data warehouse, ETL tool kettle, and data cleaning using pandas. 三、课程性质与教学目的 《数据采集与预处理》是大数据管理与应用专业开设的一门专业基础课。课程全 面、系统的介绍大数据领域数据采集与预处理的相关理论和技术。 通过本课程的学习旨在让学生实现以下教学目的: (1) 培养合格的社会主义事业接班人; (2) 拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法; (3) 熟悉大数据实验环境的搭建方法;了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法;了解 Kafka 的特性,掌握使用 Python 操作 Kafka 的方
法:了解Flume的组件功能,掌握使用Flume采集数据的方法:了解数据仓库中的数 据集成方法,熟悉ETL和CDC:掌握ETL工具Kettle的基本使用方法:掌握使用pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野 培养学生的数据能力。 四、教学内容及要求 第一章概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务:掌握数据的概念、类型、组织形式等:掌握数据预处理的主要步骤: 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就:理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性。 (二)教学内容 1.1.数据 1.1.1. 数据的概念 1.1.2. 数据类型 1.1.3. 数据的组织形式 1.1.4. 数据的价值 1.1.5. 数据爆炸 1.2.数据分析过程 1.3.数据采集与预处理的任务 1.4.数据采集 1.4.1. 数据采集的概 1.4.2. 数据采集的三大要点 1.4.3. 数据采集的数据源 1.4.4. 数据采集方法 1.5.数据清洗 1.5.1. 数据清洗的应用领域 1.5.2. 数据清洗的实现方式 1.5.3. 数据清洗的内容 1.5.4. 数据清洗的注意事项 1.5.5. 数据清洗的基本流程 2
2 法;了解 Flume 的组件功能,掌握使用 Flume 采集数据的方法;了解数据仓库中的数 据集成方法,熟悉 ETL 和 CDC;掌握 ETL 工具 Kettle 的基本使用方法;掌握使用 pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野, 培养学生的数据能力。 四、教学内容及要求 第一章 概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务;掌握数据的概念、类型、组织形式等;掌握数据预处理的主要步骤; 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就;理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性。 (二)教学内容 1.1. 数据 1.1.1. 数据的概念 1.1.2. 数据类型 1.1.3. 数据的组织形式 1.1.4. 数据的价值 1.1.5. 数据爆炸 1.2. 数据分析过程 1.3. 数据采集与预处理的任务 1.4. 数据采集 1.4.1. 数据采集的概念 1.4.2. 数据采集的三大要点 1.4.3. 数据采集的数据源 1.4.4. 数据采集方法 1.5. 数据清洗 1.5.1. 数据清洗的应用领域 1.5.2. 数据清洗的实现方式 1.5.3. 数据清洗的内容 1.5.4. 数据清洗的注意事项 1.5.5. 数据清洗的基本流程
1.5.6. 数据清洗的评价标准 1.6.数据集成 1.7.数据转换 1.7.1. 数据转换策略 1.7.2. 平滑处理 1.7.3. 规范化处理 1.8.数据脱敏 1.8.1. 数据脱敏原则 1.8.2. 数据脱敏方法 (三)思考与实践 1.数据采集与预处理在大数据应用过程的重要性? 2.数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括Python、 JDK、MySQL、 Hadoop等的搭建方法,为后续的实验开展提供基础。 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.1.Python的安装和使用 2.1.1. Python简介 2.1.2. Python的安装 2.1.3. Python的基本使用方法 2.1.4. Python基础语法知识 2.1.5. Python第三方模块的安装 2.2.JDK的安装 2.3.MySQL数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言SQL 2.3.3. 安转vSOL 2.3.4. MySQL数据库的实用方法 3
3 1.5.6. 数据清洗的评价标准 1.6. 数据集成 1.7. 数据转换 1.7.1. 数据转换策略 1.7.2. 平滑处理 1.7.3. 规范化处理 1.8. 数据脱敏 1.8.1. 数据脱敏原则 1.8.2. 数据脱敏方法 (三)思考与实践 1. 数据采集与预处理在大数据应用过程的重要性? 2. 数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章 大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括 Python、 JDK、MySQL、Hadoop 等的搭建方法,为后续的实验开展提供基础。 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.1. Python 的安装和使用 2.1.1. Python 简介 2.1.2. Python 的安装 2.1.3. Python 的基本使用方法 2.1.4. Python 基础语法知识 2.1.5. Python 第三方模块的安装 2.2. JDK 的安装 2.3. MySQL 数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言 SQL 2.3.3. 安装 MySQL 2.3.4. MySQL 数据库的实用方法
2.3.5.使用Python操作MySQL数据库 2.4.Hadoop的安装和使用 2.4.1. Hadoop简介 2.4.2. 分布式文件系统HDFS 2.4.3. Hadoop的安装 2.4.4. HDFS的基本使用方法 (三)思老与实 1.Python语言的优点? 2.关系型数据库的特点? 3.HDFS的体系结构。 4.实践:实验1熟悉MySQL和HDFS操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引孳或需要网络数据的企业提供数据来源:掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1.网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2.网页基础知识 3.2.1. 超文本和HT 3.2.2. HTTP 3.3.用Python实现HTTP请求 3.3.1. urllib模块 3.3.2. ur11ib3模块 3.3.3. requests模块 3.4.定制requests 3.4.1. 传递URL参数 3.4.2. 定制请求头 3.4.3. 网络超时
4 2.3.5. 使用 Python 操作 MySQL 数据库 2.4. Hadoop 的安装和使用 2.4.1. Hadoop 简介 2.4.2. 分布式文件系统 HDFS 2.4.3. Hadoop 的安装 2.4.4. HDFS 的基本使用方法 (三)思考与实践 1. Python 语言的优点? 2. 关系型数据库的特点? 3. HDFS 的体系结构。 4. 实践:实验 1 熟悉 MySQL 和 HDFS 操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章 网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引擎或需要网络数据的企业提供数据来源;掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1. 网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2. 网页基础知识 3.2.1. 超文本和 HTML 3.2.2. HTTP 3.3. 用 Python 实现 HTTP 请求 3.3.1. urllib 模块 3.3.2. urllib3 模块 3.3.3. requests 模块 3.4. 定制 requests 3.4.1. 传递 URL 参数 3.4.2. 定制请求头 3.4.3. 网络超时
3.5.解析网页 3.5.1. BeautifulSoup简介 3.5.2 BeautifulSoup四大对象 3.5.3. 遍历文档树 3.5.4. CSS选择器 3.6.综合实例 3.6.1. 实例1:采集网页数据保存到文本 36.2. 实例2:采集网页数据保存到MSQL数据库 3.7.Scrapy框架 3.7.1. Scrapy框架概述 3.7.2. Xpath语言 3.7.3 crapy框架应用实例 (三)思考与实践 1.网络爬虫有哪些类型? 2.什么是反爬机制? 工作流的主要步骤有哪些? 网络爬虫初级实践 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章分布式消息系统Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统Kafka与传统消息系统之间的区别。 (二)教学内容 4.1.Kafka简介 4.1.1. Kafka的特性 412. Kafka的应用场景 4.1.3. Kafka的消息传递摸式 4.2.Kafka在大数据生态系统中的作用 4.3.Kafka与F1ume的区别与联系 4.4.Kafka相关概念 4.5.Kafka的安装和使用 4.5.1. 安装Kafka 4.5.2. 使用Kafka 5
5 3.5. 解析网页 3.5.1. BeautifulSoup 简介 3.5.2. BeautifulSoup 四大对象 3.5.3. 遍历文档树 3.5.4. CSS 选择器 3.6. 综合实例 3.6.1. 实例 1:采集网页数据保存到文本 3.6.2. 实例 2:采集网页数据保存到 MySQL 数据库 3.7. Scrapy 框架 3.7.1. Scrapy 框架概述 3.7.2. Xpath 语言 3.7.3. Scrapy 框架应用实例 (三)思考与实践 1. 网络爬虫有哪些类型? 2. 什么是反爬机制? 3. Scrapy 工作流的主要步骤有哪些? 4. 实践:实验 2 网络爬虫初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章 分布式消息系统 Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统 Kafka 与传统消息系统之间的区别。 (二)教学内容 4.1. Kafka 简介 4.1.1. Kafka 的特性 4.1.2. Kafka 的应用场景 4.1.3. Kafka 的消息传递模式 4.2. Kafka 在大数据生态系统中的作用 4.3. Kafka 与 Flume 的区别与联系 4.4. Kafka 相关概念 4.5. Kafka 的安装和使用 4.5.1. 安装 Kafka 4.5.2. 使用 Kafka
4.6.使用Python操作Kafka 4.7.Kafka与MySQL的组合使用 (三)思考与实践 .Kafka与传统的消息系统有什么区别,有哪些优点? 2.理解Kafka的总体架构中各组件的功能,熟悉Kafka的主要应用场景。 3.实践:实验3熟悉Kafka的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第五章日志采集系统Flume (一)目的与要求 通过本章的学习要求学生达到:理解下lume是一个高可用、高可靠、分布 式的海量日志采集、聚合和传输系统,Flume支持在日志系统中定制各类数据 发送方,用于收集数据:同时,F1ume提供对数据进行简单处理,并写到个中 数据接收方(可定制)的能力。 (二)数学内容 5.1.Flume简介 5.2.F1lume的安装和使用 5.2.1 Flume的安装 5.2.2. Flume的实用 5.3.F1lume和Kafka的组合使用 5.4.采集日志文件到HDFS 5.4.1. 采集目录到HDF 5.4.2. 采集文件到HDFS 5.5.采集MySQL数据到HDFS 5.5.1. 准备工作 5.5.2. 创建MySQL数据库 5.5.3. 配置和启动Flume (三)思考与实践 1.熟悉Flume的技术架构。 2.能熟练使用Flume对日志数据进行采集。 3.实践:实验4熟悉F1ume的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等
6 4.6. 使用 Python 操作 Kafka 4.7. Kafka 与 MySQL 的组合使用 (三)思考与实践 1. Kafka 与传统的消息系统有什么区别,有哪些优点? 2. 理解 Kafka 的总体架构中各组件的功能,熟悉 Kafka 的主要应用场景。 3. 实践:实验 3 熟悉 Kafka 的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第五章 日志采集系统 Flume (一)目的与要求 通过本章的学习要求学生达到:理解 Flume 是一个高可用、高可靠、分布 式的海量日志采集、聚合和传输系统,Flume 支持在日志系统中定制各类数据 发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到个中 数据接收方(可定制)的能力。 (二)教学内容 5.1. Flume 简介 5.2. Flume 的安装和使用 5.2.1. Flume 的安装 5.2.2. Flume 的实用 5.3. Flume 和 Kafka 的组合使用 5.4. 采集日志文件到 HDFS 5.4.1. 采集目录到 HDFS 5.4.2. 采集文件到 HDFS 5.5. 采集 MySQL 数据到 HDFS 5.5.1. 准备工作 5.5.2. 创建 MySQL 数据库 5.5.3. 配置和启动 Flume (三)思考与实践 1. 熟悉 Flume 的技术架构。 2. 能熟练使用 Flume 对日志数据进行采集。 3. 实践:实验 4 熟悉 Flume 的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等
第六章数据仓库中的数据集成 (一)目的与要求 通过本章的学习要求学生达到:熟悉数据集成是数据仓库的关键部分,实 时主动数据仓库可以使用针对传统数据仓库开发的数据集成技术完成数据的 批量加载:同时由于增加了对实时主动决策的支持,实时主动数据仓库还需 要使用实时的连续数据集成技术,以使数据源中发生的数据变化及时反映到 数据仓库中,保证为实时应用提供最新数据。 (二)教学内容 6.1.数据仓库的概念 6.1.1. 传统的数据仓库 6.1.2. 实时主动数据仓库 6.2.数据集成 6.2.1. 数据集成方式 6.2.2. 数据分发方式 6.2.3. 数据集成技术 6.3.ETL 631 ETL简介 6.3.2. ETL基本模块 6.3.3. ETL模式 6.3.4. ETL工具 6.4.CDC 6.4.1. CDC的特性 6.4.2. CDC的组成 6.4.3. CDC的具体应用场景 6.4.4. CDC需要考虑的问题 (三)思考与实践 1.传统数据仓库和实时主动数据仓库的区别? 2.理解ETL的基本模块及其功能。 3.理解CDC的特性机器组成部分 (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等 第七章ETL工具Kettle (一)目的与要求 通过本章的学习要求学生达到:可以安装和运行Kettle工具,并利用
7 第六章 数据仓库中的数据集成 (一)目的与要求 通过本章的学习要求学生达到:熟悉数据集成是数据仓库的关键部分,实 时主动数据仓库可以使用针对传统数据仓库开发的数据集成技术完成数据的 批量加载;同时由于增加了对实时主动决策的支持,实时主动数据仓库还需 要使用实时的连续数据集成技术,以使数据源中发生的数据变化及时反映到 数据仓库中,保证为实时应用提供最新数据。 (二)教学内容 6.1. 数据仓库的概念 6.1.1. 传统的数据仓库 6.1.2. 实时主动数据仓库 6.2. 数据集成 6.2.1. 数据集成方式 6.2.2. 数据分发方式 6.2.3. 数据集成技术 6.3. ETL 6.3.1. ETL 简介 6.3.2. ETL 基本模块 6.3.3. ETL 模式 6.3.4. ETL 工具 6.4. CDC 6.4.1. CDC 的特性 6.4.2. CDC 的组成 6.4.3. CDC 的具体应用场景 6.4.4. CDC 需要考虑的问题 (三)思考与实践 1. 传统数据仓库和实时主动数据仓库的区别? 2. 理解 ETL 的基本模块及其功能。 3. 理解 CDC 的特性机器组成部分。 (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第七章 ETL 工具 Kettle (一)目的与要求 通过本章的学习要求学生达到:可以安装和运行 Kettle 工具,并利用
Kettle工具实现数据抽取、转换和加载。 (二)教学内容 7.L.Kettle的基本概念 7.2.Kettle的基本功能 7.3.安装Kettle 7.4.数据抽取 7.4.1. 把文本文件导入Fxce1文件 7.4.2. 把文本文件导入MySQL数据库 7.4.3. 把Excel文件导入MySQL数据库 7.5.数据清洗与转换 7.5.1. 使用Kettle实现数据排序 7.5.2. 在Kettle中用正则表达式清洗数据 7.5.3. 使用Kettle去除缺失值 7.5.4. 使用Kettle转化MySQL数据库中的数据 7.6.数据加载 7.6.1. 把本地文件加载到HDFS 7.6.2. 把DFS文件加载到MySQL数据库中 (三)思老与实践 1.理解ETL的全过程。 2.实践:实验5熟悉Kettle的基本使用方法。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第八章使用pandas进行数据清洗 (一)目的与要求 通过本章的学习要求学生达到:熟练安装pandas,并能使用pandas进行 快速的分析数据、数据清洗和准备等工作。 (二)教学内容 8.l.NumPy的基本使用方法 8.1.1. 数组创律 8.1.2. 数组索引和切片 8.1.3. 数组坛官 8.2.pandas的数据结构 821. Series 8.2.2.Dataframe
8 Kettle 工具实现数据抽取、转换和加载。 (二)教学内容 7.1. Kettle 的基本概念 7.2. Kettle 的基本功能 7.3. 安装 Kettle 7.4. 数据抽取 7.4.1. 把文本文件导入 Excel 文件 7.4.2. 把文本文件导入 MySQL 数据库 7.4.3. 把 Excel 文件导入 MySQL 数据库 7.5. 数据清洗与转换 7.5.1. 使用 Kettle 实现数据排序 7.5.2. 在 Kettle 中用正则表达式清洗数据 7.5.3. 使用 Kettle 去除缺失值 7.5.4. 使用 Kettle 转化 MySQL 数据库中的数据 7.6. 数据加载 7.6.1. 把本地文件加载到 HDFS 7.6.2. 把 HDFS 文件加载到 MySQL 数据库中 (三)思考与实践 1. 理解 ETL 的全过程。 2. 实践:实验 5 熟悉 Kettle 的基本使用方法。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第八章 使用 pandas 进行数据清洗 (一)目的与要求 通过本章的学习要求学生达到:熟练安装 pandas,并能使用 pandas 进行 快速的分析数据、数据清洗和准备等工作。 (二)教学内容 8.1. NumPy 的基本使用方法 8.1.1. 数组创建 8.1.2. 数组索引和切片 8.1.3. 数组运算 8.2. pandas 的数据结构 8.2.1. Series 8.2.2. DataFrame
8.2.3索对象 8.3.pandas的基本功能 8.3.1. 重新索引 8.3.2. 丢弃指定轴上的项 8.3.3. 索引、选取和过滤 8.3.4. 算术运算 8.3.5. DataFrame和Series之间的运算 8.3.6. 函数应用和映射 8.3.7. 排序和排名 8.3.8. 分组 8.3.9. shape()函数 8.3.10. info()函数 8.3.11 cut0函数 8.4.汇总和描述统计 8.4.1. 与描状统计相关的函数 8.4.2. 唯一值、值计数以及成员资格 8.5.处理缺失数据 8.5.1. 检查缺失值 8.5.2. 清理/填充缺失值 8.5.3. 排除缺少的值 8.6.综合实例 8.6.1.Matplotlib的实用方法 8.6.2. 实例1:对一个数据集进行基本操作 8.6.3. 实例2:百度搜索指数分析 8.6.4. 实例3:电影评分数据分析 8.6.5.实例4:App行为数据预处理 (三)思考与实践 l.掌握pandas的具体功能。 2.能使用pandas对数据进行清洗。 3.实践:实验6 pandas数据清洗初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 9
9 8.2.3. 索引对象 8.3. pandas 的基本功能 8.3.1. 重新索引 8.3.2. 丢弃指定轴上的项 8.3.3. 索引、选取和过滤 8.3.4. 算术运算 8.3.5. DataFrame 和 Series 之间的运算 8.3.6. 函数应用和映射 8.3.7. 排序和排名 8.3.8. 分组 8.3.9. shape()函数 8.3.10. info()函数 8.3.11. cut()函数 8.4. 汇总和描述统计 8.4.1. 与描述统计相关的函数 8.4.2. 唯一值、值计数以及成员资格 8.5. 处理缺失数据 8.5.1. 检查缺失值 8.5.2. 清理/填充缺失值 8.5.3. 排除缺少的值 8.6. 综合实例 8.6.1. Matplotlib 的实用方法 8.6.2. 实例 1:对一个数据集进行基本操作 8.6.3. 实例 2:百度搜索指数分析 8.6.4. 实例 3:电影评分数据分析 8.6.5. 实例 4:App 行为数据预处理 (三)思考与实践 1. 掌握 pandas 的具体功能。 2. 能使用 pandas 对数据进行清洗。 3. 实践:实验 6 pandas 数据清洗初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等
五、各教学环节学时分配 散学环节 讲 习 讨 其他 教学时数 实验 实习 教学 荣 米 课 环节 课程内容 第一章 3 第二章 2 2 第三章 第四章 2 第五章 4 第六章 第七章 4 第八章 4 合计 18 6 48 “各教学环节学时分配” 中, “其它教学环节”主要指习题课、课堂讨论、 课程设计、观看视 频、现场参观等教学环节。 六、课程考核 (一)考核方式:考试 (二)成绩构成 平时成绩占比:40%期末考试占比:60% (三)成绩考核标准 (1)平时成绩:包括上课考勤、作业、实验报告: (2)期末考试:采用笔试,开卷。 七、推荐教材和教学参考资源 推荐教材: 林子雨编著《数据采集与预处理》,人民邮电出版社,ISBN:978-7-115-58063-4 参考书目与文献: 10
10 五、各教学环节学时分配 教学环节 教学时数 课程内容 讲 课 习 题 课 讨 论 课 实验 实习 其他 教学 环节 小 计 第一章 3 3 第二章 2 2 4 第三章 3 2 1 6 第四章 3 2 1 6 第五章 3 4 1 8 第六章 4 1 5 第七章 3 4 1 8 第八章 3 4 1 8 合计 24 18 6 48 “各教学环节学时分配”中,“其它教学环节”主要指习题课、课堂讨论、课程设计、观看视 频、现场参观等教学环节。 六、课程考核 (一)考核方式:考试 (二)成绩构成 平时成绩占比:40% 期末考试占比:60% (三)成绩考核标准 (1)平时成绩:包括上课考勤、作业、实验报告; (2)期末考试:采用笔试,开卷。 七、推荐教材和教学参考资源 推荐教材: 林子雨编著《数据采集与预处理》,人民邮电出版社,ISBN: 978-7-115-58063-4 参考书目与文献: