《商务数据采集与分析》课程教学大纲 一、课程基本信息 课程代码:20110242 课程名称:商务数据采集与分析 英文名称: 课程类别:专业课 学 时:32 学 分:2 适用对象:2020级电子商务专业 老核方式:老杳 先修课程:Python程序设计 二、课程简介 本课程详细阐述了商务数据分析与应用中数据采集和处理问题,是电子商务专业 的专业选修课程。课程内容共8章,包括概述、大数据实验环境搭建、网络数据采集、 分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具 Kettle、使用pandas进行数据清洗。本果程结合市场上常用的数据采集和处理工具 产教融合,能开发学生的自发探索能力,同时引导学生坚持中国道路、弘扬中国精神, 培养学生爱国情怀:树立法治意识,坚守法规:培养匠人精神和奉献精神。 This course describes data collection and processing in business data analysis and application in detail,and is a professional elective course for e-commerce majors.The course content consists of 8 chapters,including overview,big data experiment environment construction,network data collection,distributed message system Kafka,log collection system Flume, data integration in data warehouse,ETL tool Kettle,and data cleaning using Pandas.This course combines data collection and processing tools commonly used in the market,and integrates production and teaching,which can develop students'spontaneous exploration ability,guide students to adhere to the Chinese road,promote the Chinese spirit,and cultivate students'patriotism Set up the consciousness of rule of law and stick to laws and regulations; Cultivate the spirit of craftsmanship and dedication. 三、课程性质与教学目的 《商务数据采集与分析》是电子商务专业开设的一门专业课。课程全面、系统的 介绍大数据领域数据采集与处理的相关理论和技术。 1
1 《商务数据采集与分析》课程教学大纲 一、课程基本信息 课程代码:20110242 课程名称:商务数据采集与分析 英文名称: 课程类别:专业课 学 时:32 学 分:2 适用对象:2020 级电子商务专业 考核方式:考查 先修课程:Python 程序设计 二、课程简介 本课程详细阐述了商务数据分析与应用中数据采集和处理问题,是电子商务专业 的专业选修课程。课程内容共 8 章,包括概述、大数据实验环境搭建、网络数据采集、 分布式消息系统 Kafka、日志采集系统 Flume、数据仓库中的数据集成、ETL 工具 Kettle、使用 pandas 进行数据清洗。本课程结合市场上常用的数据采集和处理工具, 产教融合,能开发学生的自发探索能力,同时引导学生坚持中国道路、弘扬中国精神, 培养学生爱国情怀;树立法治意识,坚守法规;培养匠人精神和奉献精神。 This course describes data collection and processing in business data analysis and application in detail, and is a professional elective course for e-commerce majors. The course content consists of 8 chapters, including overview, big data experiment environment construction, network data collection, distributed message system Kafka, log collection system Flume, data integration in data warehouse, ETL tool Kettle, and data cleaning using Pandas. This course combines data collection and processing tools commonly used in the market, and integrates production and teaching, which can develop students' spontaneous exploration ability, guide students to adhere to the Chinese road, promote the Chinese spirit, and cultivate students' patriotism; Set up the consciousness of rule of law and stick to laws and regulations; Cultivate the spirit of craftsmanship and dedication. 三、课程性质与教学目的 《商务数据采集与分析》是电子商务专业开设的一门专业课。课程全面、系统的 介绍大数据领域数据采集与处理的相关理论和技术
通过本课程的学习旨在让学生实现以下教学目的: (1)培养合格的社会主义事业接班人: (2)拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法: (3)熟悉大数据实验环境的搭建方法:了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法:了解Kafka的特性,掌握使用Python操作Kafka的方 法:了解Flume的组件功能,掌握使用Flume采集数据的方法:了解数据仓库中的数 据集成方法,熟悉ETL和CDC:掌握ETL工具Kettle的基本使用方法:掌握使用pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野 培养学生的数据能力。 四、教学内容及要求 第一章概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务:掌握数据的概念、类型、组织形式等:掌握数据预处理的主要步骤: 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就:理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性 (二)教学内容 a)数据 i.数据的概念 ii.数据类型 iii.数据的组织形式 iv.数据的价值 V,数据爆炸作 b)数据分析过程 C)数据采集与预处理的任务 d)数据采集 ⅰ。数据采集的概今 ii.数据采集的三大要点 iii.数据采集的数据源 iv.数据采集方法
2 通过本课程的学习旨在让学生实现以下教学目的: (1) 培养合格的社会主义事业接班人; (2) 拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法; (3) 熟悉大数据实验环境的搭建方法;了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法;了解 Kafka 的特性,掌握使用 Python 操作 Kafka 的方 法;了解 Flume 的组件功能,掌握使用 Flume 采集数据的方法;了解数据仓库中的数 据集成方法,熟悉 ETL 和 CDC;掌握 ETL 工具 Kettle 的基本使用方法;掌握使用 pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野, 培养学生的数据能力。 四、教学内容及要求 第一章 概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务;掌握数据的概念、类型、组织形式等;掌握数据预处理的主要步骤; 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就;理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性。 (二)教学内容 a) 数据 i. 数据的概念 ii. 数据类型 iii. 数据的组织形式 iv. 数据的价值 v. 数据爆炸 b) 数据分析过程 c) 数据采集与预处理的任务 d) 数据采集 i. 数据采集的概念 ii. 数据采集的三大要点 iii. 数据采集的数据源 iv. 数据采集方法
e)数据清洗 1.数据清洗的应用领域 ii.数据清洗的实现方式 ii.数据清洗的内容 iv.数据清洗的注意事项 V。数据清洗的基本流程 v.数据清洗的评价标准 f)数据集成 g)数据转换 1.数据转换策略 ii.平滑处理 iii.规范化处理 h)数据脱敏 i.数据脱敏原则 ii.数据脱敏方法 (三)思考与实践 1.数据采集与预处理在大数据应用过程的重要性? 2.数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括Python DK、MySQL、Hadoop等的搭建方法,为后续的实验开展提供基础 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.l.Python的安装和使用 2.1.1. Python简介 2.1.2. Python的安装 2.1.3. Python的基本使用方法 2.1.4. Python基础语法知识 2.1.5. Python第三方模块的安装 3
3 e) 数据清洗 i. 数据清洗的应用领域 ii. 数据清洗的实现方式 iii. 数据清洗的内容 iv. 数据清洗的注意事项 v. 数据清洗的基本流程 vi. 数据清洗的评价标准 f) 数据集成 g) 数据转换 i. 数据转换策略 ii. 平滑处理 iii. 规范化处理 h) 数据脱敏 i. 数据脱敏原则 ii. 数据脱敏方法 (三)思考与实践 1. 数据采集与预处理在大数据应用过程的重要性? 2. 数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章 大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括 Python、 JDK、MySQL、Hadoop 等的搭建方法,为后续的实验开展提供基础。 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.1. Python 的安装和使用 2.1.1. Python 简介 2.1.2. Python 的安装 2.1.3. Python 的基本使用方法 2.1.4. Python 基础语法知识 2.1.5. Python 第三方模块的安装
2.2.JDK的安装 2.3.MySQL数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言SQL 2.3.3. 安装MySOL 2.3.4. MySQL数据库的实用方法 2.3.5. 使用Python操作vSOL.数据库 2.4.Hadoop的安装和使用 2.4.1. Hadoop简介 2.4.2. 分布式文件系统HDFS 2.4.3. Hadoop的安装 2.4.4. HDFS的基本使用方法 (三)思考与实践 l.Python语言的优点? 2.关系型数据库的特点? 3.HDFS的体系结构。 4.实践:实验1熟悉MySQL和HDS操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引擎或需要网络数据的企业提供数据来源:掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1.网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2.网页基础知识 3.2.1. 超文本和HT 3.2.2. HTTP 3.3.用Python实现HTTP请求 3.3.1. url1ib模块
4 2.2. JDK 的安装 2.3. MySQL 数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言 SQL 2.3.3. 安装 MySQL 2.3.4. MySQL 数据库的实用方法 2.3.5. 使用 Python 操作 MySQL 数据库 2.4. Hadoop 的安装和使用 2.4.1. Hadoop 简介 2.4.2. 分布式文件系统 HDFS 2.4.3. Hadoop 的安装 2.4.4. HDFS 的基本使用方法 (三)思考与实践 1. Python 语言的优点? 2. 关系型数据库的特点? 3. HDFS 的体系结构。 4. 实践:实验 1 熟悉 MySQL 和 HDFS 操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章 网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引擎或需要网络数据的企业提供数据来源;掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1. 网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2. 网页基础知识 3.2.1. 超文本和 HTML 3.2.2. HTTP 3.3. 用 Python 实现 HTTP 请求 3.3.1. urllib 模块
3.3.2. url1ib3模块 3.3.3. requests模块 3.4.定制requests 3.4.1. 传递URL参数 3.42 定制请求头 3.4.3. 网络超时 3.5.解析网页 3.5.1. BeautifulSoup简介 3.5.2. BeautifulSoup四大对象 3.5.3. 遍历文档树 3.5.4. CSS选择器 3.6.综合实例 3.6.1. 实例1:采集网而数据保存到文木 3.6.2. 实例2:采集网页数据保存到MySQL数据库 3.7.Scrapy框架 3.7.1. Scrapy框架概述 37.2 Xpath语言 3.7.3. Scrapy框架应用实例 (三)思考与实践 1.网络爬虫有哪些类型 2.什么是反爬机制? 3.Scrapy 工作流的主要步骤有哪些 4.实践:实验2网络爬虫初级实践。 (四)数学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章分布式消息系统Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统Kafka与传统消息系统之间的区别。 (二)教学内容 4.1.Kafka简介 4.1.L.Kafka的特性 4.1.2. Kafka的应用场景 4.1.3. Kafka的消息传递模式 5
5 3.3.2. urllib3 模块 3.3.3. requests 模块 3.4. 定制 requests 3.4.1. 传递 URL 参数 3.4.2. 定制请求头 3.4.3. 网络超时 3.5. 解析网页 3.5.1. BeautifulSoup 简介 3.5.2. BeautifulSoup 四大对象 3.5.3. 遍历文档树 3.5.4. CSS 选择器 3.6. 综合实例 3.6.1. 实例 1:采集网页数据保存到文本 3.6.2. 实例 2:采集网页数据保存到 MySQL 数据库 3.7. Scrapy 框架 3.7.1. Scrapy 框架概述 3.7.2. Xpath 语言 3.7.3. Scrapy 框架应用实例 (三)思考与实践 1. 网络爬虫有哪些类型? 2. 什么是反爬机制? 3. Scrapy 工作流的主要步骤有哪些? 4. 实践:实验 2 网络爬虫初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章 分布式消息系统 Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统 Kafka 与传统消息系统之间的区别。 (二)教学内容 4.1. Kafka 简介 4.1.1. Kafka 的特性 4.1.2. Kafka 的应用场景 4.1.3. Kafka 的消息传递模式
4.2.Kafka在大数据生态系统中的作用 4.3.Kafka与Flume的区别与联系 4.4.Kafka相关概念 4.5.Kafka的安装和使用 4.5.1.安转Kafk 4.5.2. 使用Kafka 4.6.使用Python操作Kafka 4.7.Kafka与MySQL的组合使用 (三)思考与实践 1.Kafka与传统的消息系统有什么区别,有哪些优点? 2.理解Kafka的总体架构中各组件的功能,熟悉Kafka的主要应用场景, 3.实践:实验3熟悉Kafka的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第五章日志采集系统Flume (一)目的与要求 通过本章的学习要求学生达到:理解下Iume是一个高可用、高可靠、分布 式的海量日志采集、聚合和传输系统,Flue支持在日志系统中定制各类数据 发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到个中 数据接收方(可定制)的能力。 (二)教学内容 5.1.Flume简介 5.2.F1ume的安装和使用 5.2.1. Flume的安装 5.2.2. Flume的实用 5.3.Flume和Kafka的组合使用 5.4.采集日志文件到HDFS 5.4.1. 采集目录到HDFS 5.4.2. 采集文件到HDFS 5.5.采集MySQL数据到HDFS 5.5.1. 准备工作 5.5.2. 创建MySQL数据库 5.53. 配置和启动Flume (三)思考与实践
6 4.2. Kafka 在大数据生态系统中的作用 4.3. Kafka 与 Flume 的区别与联系 4.4. Kafka 相关概念 4.5. Kafka 的安装和使用 4.5.1. 安装 Kafka 4.5.2. 使用 Kafka 4.6. 使用 Python 操作 Kafka 4.7. Kafka 与 MySQL 的组合使用 (三)思考与实践 1. Kafka 与传统的消息系统有什么区别,有哪些优点? 2. 理解 Kafka 的总体架构中各组件的功能,熟悉 Kafka 的主要应用场景。 3. 实践:实验 3 熟悉 Kafka 的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第五章 日志采集系统 Flume (一)目的与要求 通过本章的学习要求学生达到:理解 Flume 是一个高可用、高可靠、分布 式的海量日志采集、聚合和传输系统,Flume 支持在日志系统中定制各类数据 发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到个中 数据接收方(可定制)的能力。 (二)教学内容 5.1. Flume 简介 5.2. Flume 的安装和使用 5.2.1. Flume 的安装 5.2.2. Flume 的实用 5.3. Flume 和 Kafka 的组合使用 5.4. 采集日志文件到 HDFS 5.4.1. 采集目录到 HDFS 5.4.2. 采集文件到 HDFS 5.5. 采集 MySQL 数据到 HDFS 5.5.1. 准备工作 5.5.2. 创建 MySQL 数据库 5.5.3. 配置和启动 Flume (三)思考与实践
1.熟悉Flume的技术架构。 2.能熟练使用Flume对日志数据进行采集。 3.实践:实验4熟悉F1ume的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第六章数据仓库中的数据集成 (一)目的与要求 通过本章的学习要求学生达到:熟悉数据集成是数据仓库的关键部分,实 时主动数据仓库可以使用针对传统数据仓库开发的数据集成技术完成数据的 批量加载:同时由于幽加了对对实时主动决策的支特,实时主动数据合库还需 要使用实时的连续数据集成技术,以使数据源中发生的数据变化及时反映到 数据仓库中,保证为实时应用提供最新数据。 (二)教学内容 6.1.数据仓库的概念 6.1.1. 传统的数据仓库 612 实时主动数据仓库 6.2.数据集成 6.2.1. 数据集成方式 6.2.2. 数据分发方式 6.2.3. 数据集成技术 6.3.ETL 6.3.1 ETL简介 6.3.2. ETL基本模块 6.3.3. ETL模式 6.3.4. ETLL具 6.4.CDC 6.4.1. CDC的特性 6.4.2 CDC的组成 6.4.3. CDC的具体应用场员 6.4.4. CDC需要考虑的问题 (三)思考与实践 1.传统数据仓库和实时主动数据仓库的区别? 2.理解ETL的基本模块及其功能。 3.理解CDC的特性机器组成部分。 7
7 1. 熟悉 Flume 的技术架构。 2. 能熟练使用 Flume 对日志数据进行采集。 3. 实践:实验 4 熟悉 Flume 的基本使用方法 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第六章 数据仓库中的数据集成 (一)目的与要求 通过本章的学习要求学生达到:熟悉数据集成是数据仓库的关键部分,实 时主动数据仓库可以使用针对传统数据仓库开发的数据集成技术完成数据的 批量加载;同时由于增加了对实时主动决策的支持,实时主动数据仓库还需 要使用实时的连续数据集成技术,以使数据源中发生的数据变化及时反映到 数据仓库中,保证为实时应用提供最新数据。 (二)教学内容 6.1. 数据仓库的概念 6.1.1. 传统的数据仓库 6.1.2. 实时主动数据仓库 6.2. 数据集成 6.2.1. 数据集成方式 6.2.2. 数据分发方式 6.2.3. 数据集成技术 6.3. ETL 6.3.1. ETL 简介 6.3.2. ETL 基本模块 6.3.3. ETL 模式 6.3.4. ETL 工具 6.4. CDC 6.4.1. CDC 的特性 6.4.2. CDC 的组成 6.4.3. CDC 的具体应用场景 6.4.4. CDC 需要考虑的问题 (三)思考与实践 1. 传统数据仓库和实时主动数据仓库的区别? 2. 理解 ETL 的基本模块及其功能。 3. 理解 CDC 的特性机器组成部分
(四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等 第七章ETL工具Kettle (一)目的与要求 通过本章的学习要求学生达到:可以安装和运行Kettle工具,并利用 Kettle工具实现数据抽取、转换和加载。 (二)教学内容 7.1.Kett1e的基本概今 7.2.Kettle的基本功能 7.3.安装Kettle 7.4.数据抽取 7.4.1. 把文本文件导入Excel文件 7.4.2. 把文本文件导入MySQL数据库 7.4.3. 把Excel文件导入MySQL数据库 7.5.数据清洗与转换 7.5.1. 使用Kettle实现数据排序 7.5.2. 在Kettle中用正则表达式清洗数据 7.5.3. 使用Kettle去除缺失值 7.5.4. 使用Kettle转化MySQL数据库中的数据 7.6.数据加载 7.6.1. 把本地文件加载到HDS 7.6.2. 把HDFS文件加载到MySQL数据库中 (三)思考与实践 1.理解ETL的全过程。 2.实践:实验5熟悉Kett1e的基本使用方法。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第八章使用pandas进行数据清洗 (一)目的与要求 通过本章的学习要求学生达到:熟练安装pandas,并能使用pandas进行 快速的分析数据、数据清洗和准备等工作。 (二)教学内容 8.L.NumPy的基本使用方法
8 (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第七章 ETL 工具 Kettle (一)目的与要求 通过本章的学习要求学生达到:可以安装和运行 Kettle 工具,并利用 Kettle 工具实现数据抽取、转换和加载。 (二)教学内容 7.1. Kettle 的基本概念 7.2. Kettle 的基本功能 7.3. 安装 Kettle 7.4. 数据抽取 7.4.1. 把文本文件导入 Excel 文件 7.4.2. 把文本文件导入 MySQL 数据库 7.4.3. 把 Excel 文件导入 MySQL 数据库 7.5. 数据清洗与转换 7.5.1. 使用 Kettle 实现数据排序 7.5.2. 在 Kettle 中用正则表达式清洗数据 7.5.3. 使用 Kettle 去除缺失值 7.5.4. 使用 Kettle 转化 MySQL 数据库中的数据 7.6. 数据加载 7.6.1. 把本地文件加载到 HDFS 7.6.2. 把 HDFS 文件加载到 MySQL 数据库中 (三)思考与实践 1. 理解 ETL 的全过程。 2. 实践:实验 5 熟悉 Kettle 的基本使用方法。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第八章 使用 pandas 进行数据清洗 (一)目的与要求 通过本章的学习要求学生达到:熟练安装 pandas,并能使用 pandas 进行 快速的分析数据、数据清洗和准备等工作。 (二)教学内容 8.1. NumPy 的基本使用方法
8.1.1. 数组创建 8.1.2. 数组索引和切片 8.1.3. 数组运算 8.2.pandas的数据结构 8.2.1.Series 8.2.2. DataFrame 8.2.3. 索引对象 8.3.pandas的基本功能 8.3.1. 重新索引 8.3.2. 丢弃指定轴上的项 8.3.3. 索引、选取和过滤 8.3.4. 算术运算 8.3.5. DataFrame和Series之间的运算 8.3.6. 函数应用和映射 83.7. 排序和排名 8.3.8. 分组 839 shape()函数 8.3.10.info0函数 8.3.11. cut0函数 8.4.汇总和描述统计 8.4.1. 与描述统计相关的函数 8.4.2. 唯一值、值计数以及成员资格 8.5。处理缺失数 8.5.1. 检查缺失值 8.5.2. 清理/填充缺失值 8.5.3. 排除缺少的值 8.6.综合实例 8.6.1. Matplotlib的实用方法 8.6.2. 实例1:对一个数据集进行基本操作 8.6.3. 实例2:百度搜索指数分析 8.6.4. 实例3:电影评分数据分析 8.6.5. 实例4:App行为数据预处理 (三)思考与实践 l.掌握pandas的具体功能。 2.能使用pandas对数据进行清洗。 9
9 8.1.1. 数组创建 8.1.2. 数组索引和切片 8.1.3. 数组运算 8.2. pandas 的数据结构 8.2.1. Series 8.2.2. DataFrame 8.2.3. 索引对象 8.3. pandas 的基本功能 8.3.1. 重新索引 8.3.2. 丢弃指定轴上的项 8.3.3. 索引、选取和过滤 8.3.4. 算术运算 8.3.5. DataFrame 和 Series 之间的运算 8.3.6. 函数应用和映射 8.3.7. 排序和排名 8.3.8. 分组 8.3.9. shape()函数 8.3.10. info()函数 8.3.11. cut()函数 8.4. 汇总和描述统计 8.4.1. 与描述统计相关的函数 8.4.2. 唯一值、值计数以及成员资格 8.5. 处理缺失数据 8.5.1. 检查缺失值 8.5.2. 清理/填充缺失值 8.5.3. 排除缺少的值 8.6. 综合实例 8.6.1. Matplotlib 的实用方法 8.6.2. 实例 1:对一个数据集进行基本操作 8.6.3. 实例 2:百度搜索指数分析 8.6.4. 实例 3:电影评分数据分析 8.6.5. 实例 4:App 行为数据预处理 (三)思考与实践 1. 掌握 pandas 的具体功能。 2. 能使用 pandas 对数据进行清洗
3.实践:实验6 pandas数据清洗初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 五、各教学环节学时分配 散学环节 其他 教学时暂 令 白 实验 实习 教学 喻 课 环节 课程内容 第一章 2 第二章 2 第三章 2 第四章 第五章 2 第六章 第七章 4 第八章 4 8 合计 12 16 4 32 “各教学环节学时分配”中,“其它教学环节”主要指习题课、课堂讨论、课程设计、观看视 频、现场参观等教学环节。 六、课程考核 (一)考核方式:课程论文 (二)成绩构成 平时成绩占比:40%课程论文占比:60% (三)成绩考核标准 (1)平时成绩:包括上课考勤、作业、实验报告: (2)期末考试:课程论文。 10
10 3. 实践:实验 6 pandas 数据清洗初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 五、各教学环节学时分配 教学环节 教学时数 课程内容 讲 课 习 题 课 讨 论 课 实验 实习 其他 教学 环节 小 计 第一章 2 2 第二章 1 2 4 第三章 1 2 1 6 第四章 2 2 6 第五章 1 2 1 8 第六章 1 1 5 第七章 2 4 8 第八章 2 4 1 8 合计 12 16 4 32 “各教学环节学时分配”中,“其它教学环节”主要指习题课、课堂讨论、课程设计、观看视 频、现场参观等教学环节。 六、课程考核 (一)考核方式:课程论文 (二)成绩构成 平时成绩占比:40% 课程论文占比:60% (三)成绩考核标准 (1)平时成绩:包括上课考勤、作业、实验报告; (2)期末考试:课程论文