
《Python网络爬虫实务》教学大纲课程类别(必修/选修):选修课程名称:Python网络爬虫实务课程英文名称:PythonWebCrawlerPractice其中实验/实践学时:16总学时/周学时/学分:32/2/2先修课程:Python与大数据分析,Web前端应用开发后续课程支撑:新媒体营销,深度学习授课地点:实验楼503授课时间:2-17周周一9,10节授课对象:2023级电商开课学院:粤台产业科技学院任课教师姓名/职称:巩泊成/助教答疑时间、地点与方式:课堂或课后,教室或通讯软件,当面或线上答疑课程考核方式:开卷()闭卷()课程论文()其它(V)报告使用教材:《Python爬虫超详细实战攻略:微课视频版》,夏敏捷等,清华大学出版社,2021年1月,ISBN:9787302538752教学参考资料:无课程简介:爬虫程序是数据技术收集信息的基础,爬取到需要的数据后,就可以对数据进行分析和建立应用。网络肥虫就是自动的从互联网上获取数据的程序基本上我们在浏览网站时所能见到的数据都可以通过爬虫程序保存下来,可以透过爬虫程序来获取相关的数据。本课程主要分成四大部分,第一部分为网络爬虫相关基础知识,包括html,浏览器开发者工具、http请求的介绍。第二部分为数据请求方法介绍,包含urllib和requests的使用操作。第三部分为数据提取方法,包括正则化、Xpath及beautifulsoup4等三种提取数据的方法。第四部分为进阶爬虫技术及综合实践,包括js逆向分析、selenium工具、scrapy框架及实际爬虫演练。1
1 《Python 网络爬虫实务》教学大纲 课程名称: Python 网络爬虫实务 课程类别(必修/选修):选修 课程英文名称:Python Web Crawler Practice 总学时/周学时/学分:32/2/2 其中实验/实践学时:16 先修课程: Python 与大数据分析,Web 前端应用开发 后续课程支撑:新媒体营销,深度学习 授课时间:2-17 周 周一 9,10 节 授课地点:实验楼 503 授课对象: 2023 级电商 开课学院: 粤台产业科技学院 任课教师姓名/职称: 巩泊成/助教 答疑时间、地点与方式:课堂或课后,教室或通讯软件,当面或线上答疑 课程考核方式:开卷()闭卷()课程论文()其它(√)报告 使用教材: 《Python 爬虫超详细实战攻略:微课视频版》,夏敏捷等,清华大学出版社,2021 年 1 月,ISBN:9787302538752 教学参考资料: 无 课程简介: 爬虫程序是数据技术收集信息的基础,爬取到需要的数据后,就可以对数据进行分析和建立应用。网络爬虫就是自动的从互联网上获取数据的程序。 基本上我们在浏览网站时所能见到的数据都可以通过爬虫程序保存下来,可以透过爬虫程序来获取相关的数据。本课程主要分成四大部分,第一部分为 网络爬虫相关基础知识,包括 html, 浏览器开发者工具、http 请求的介绍。第二部分为数据请求方法介绍,包含 urllib 和 requests 的使用操作。第 三部分为数据提取方法,包括正则化、Xpath及 beautifulsoup4等三种提取数据的方法。第四部分为进阶爬虫技术及综合实践,包括 js逆向分析、selenium 工具、scrapy 框架及实际爬虫演练

课程教学目标及对毕业要求指标点的支撑:毕业要求支撑毕业要求指标点课程教学目标目标1:1-工程知识:能够运用数学、基础科学、计算机科培养学生具备计算机软件设计、企业互联网与电子商务系1-工程知识:能够将数学、自然科学、学与技术、企业互联网平台系统、电子商务信息管统开发、大数据分析、跨境电商经营管理等领域专业知识工程基础和专业知识用于解决计算机理与信息系统、电子商务经营管理等相关知识,对与技能,成为专业技术人才,能以科学方法解决问题与进工程专业的复杂工程问题。企业互联网与电子商务系统开发运维问题具有解决能力。行创新。目标2折3-设计/开发解决方案:能够设计(开3-设计/开发解决方案:能够掌握企业互联网与电培养学生具有独立思考、创新思维、组织管理、沟通协调、发)满足计算机工程特定需求的体系,子商务系统的前端设计、后端设计、数据库设计、自我挑战、终身学习的能力。并在设计环节中考虑社会、健康、安全、数据挖掘、大数据分析、云计算等基础理论与技术,法律、文化及环境等因素。在提出复杂具有追求创新的意识,对企业互联网与电子商务系工程问题的解决方案时具有创新意识。统开发运维问题提出创新解决方案。目标38-职业规范:具有人文社会科学素养、8-职业规范:进行企业互联网与电子商务系统开发提升学生人文素养、社会服务的情操,培养学生良好的职社会责任感,能够在工程实践中理解并运维工作时,能够遵守职业道德与规范,履行社会遵守工程职业道德和行为规范,做到责业道德与社会责任感。任并发挥正面影响力。任担当、贡献国家、服务社会。目标4:9-个人和团队:在解决计算机工程专业9-个人和团队:具有积极正面谋事的人格特质与良培养学生具有创新力、团队力、专业力、跨界力、服务力的复杂工程问题时,能够在多学科组成性团队互动的做事态度,在企业互联网与电子商务与英语运用能力,并具有国际观,奉献社会国家及人类。的团队中承担个体、团队成员或负责人系统开发运维复杂问题解决过程中能够发挥关键的角色。性作用,让问题以团队合作方式快速完成。2
2 课程教学目标及对毕业要求指标点的支撑: 课程教学目标 支撑毕业要求指标点 毕业要求 目标 1: 培养学生具备计算机软件设计、企业互联网与电子商务系 统开发、大数据分析、跨境电商经营管理等领域专业知识 与技能,成为专业技术人才,能以科学方法解决问题与进 行创新。 1-工程知识:能够将数学、自然科学、 工程基础和专业知识用于解决计算机 工程专业的复杂工程问题。 1-工程知识:能够运用数学、基础科学、计算机科 学与技术、企业互联网平台系统、电子商务信息管 理与信息系统、电子商务经营管理等相关知识,对 企业互联网与电子商务系统开发运维问题具有解 决能力。 目标 2: 培养学生具有独立思考、创新思维、组织管理、沟通协调、 自我挑战、终身学习的能力。 3-设计/开发解决方案:能够设计(开 发)满足计算机工程特定需求的体系, 并在设计环节中考虑社会、健康、安全、 法律、文化及环境等因素。在提出复杂 工程问题的解决方案时具有创新意识。 3-设计/开发解决方案:能够掌握企业互联网与电 子商务系统的前端设计、后端设计、数据库设计、 数据挖掘、大数据分析、云计算等基础理论与技术, 具有追求创新的意识,对企业互联网与电子商务系 统开发运维问题提出创新解决方案。 目标 3: 提升学生人文素养、社会服务的情操,培养学生良好的职 业道德与社会责任感。 8-职业规范:具有人文社会科学素养、 社会责任感,能够在工程实践中理解并 遵守工程职业道德和行为规范,做到责 任担当、贡献国家、服务社会。 8-职业规范:进行企业互联网与电子商务系统开发 运维工作时,能够遵守职业道德与规范,履行社会 责任并发挥正面影响力。 目标 4: 培养学生具有创新力、团队力、专业力、跨界力、服务力 与英语运用能力,并具有国际观,奉献社会国家及人类。 9-个人和团队:在解决计算机工程专业 的复杂工程问题时,能够在多学科组成 的团队中承担个体、团队成员或负责人 的角色。 9-个人和团队:具有积极正面谋事的人格特质与良 性团队互动的做事态度,在企业互联网与电子商务 系统开发运维复杂问题解决过程中能够发挥关键 性作用,让问题以团队合作方式快速完成

理论教学进程表支撑教学模式周次教学主题授课数师学时数教学内容(重点、难点、课程思政融入点)教学方法作业安排课程线下/混合式目标重点:anaconda安装、Pycharm安装、爬目标虫基础概念介绍-目标课程思政融入点:透过人文关怀角度教学课堂讲授与巩泊成线下11开发工具安装三小组讨论阀述网络肥虫抵念,培养学生具备专业知识用于造福人民,善尽社会责任,业养成目标四科学严谨、认真细致、实事求是的科学态度和职业道德。重点:HTML标签、HTTP基本原理与请求、目标课堂讲授与浏览器开发者模式的使用-巩泊成线下12HTML基础与网络小组讨论目标难点:浏览器开发者模式的使用三目标重点:urllib的基础操作、GET与POST请课堂讲授与-巩泊成线下3求静态网页采集1小组讨论目标难点:urllib模块操作二线下巩泊成1静态网页采集Ⅱ重点:requests的基础操作、GET与POST课堂讲授与课后作业:urllib目标3
3 理论教学进程表 周次 教学主题 授课教师 学时数 教学内容(重点、难点、课程思政融入点) 教学模式 线下/混合式 教学方法 作业安排 支撑 课程 目标 1 开发工具安装 巩泊成 1 重点:anaconda 安装、Pycharm 安装、爬 虫基础概念介绍 课程思政融入点:透过人文关怀角度教学 阐述网络爬虫概念,培养学生具备专业知 识用于造福人民,善尽社会责任,並养成 科学严谨、认真细致、实事求是的科学态 度和职业道德。 线下 课堂讲授与 小组讨论 目 标 一 目 标 三 目 标 四 2 HTML 基础与网络 巩泊成 1 重点:HTML 标签、HTTP 基本原理与请求、 浏览器开发者模式的使用 难点:浏览器开发者模式的使用 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 3 静态网页采集 I 巩泊成 1 重点:urllib 的基础操作、GET 与 POST 请 求 难点:urllib 模块操作 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 4 静态网页采集 II 巩泊成 1 重点:requests 的基础操作、GET 与 POST 线下 课堂讲授与 课 后 作 业: urllib 目 标

请求小组讨论1与requests练习目标难点:requests模块操作三目标课堂讲授与数据提取方法:重点:正则表达式基础语法一巩泊成1线下5小组讨论正则表达式I目标难点:正则表达式使用方法二目标课堂讲授与-数据提取方法:置点:re的基础操作线下巩泊成16小组讨论目标正则表达式II难点:re库函数的使用二重点:Xpath安装、Xpath语法、Ixml模块目标难点:Xpath语法、1xml模块课堂讲授与数据提取方法:一巩泊成线下17课程思政融入点:透过华为公司在5G网络小组讨论Xpath目标通讯技术领先全球却遭到美国无情打压,二鼓励学生面对问题克服问题,学习从逆境中持续成长进步。目标-数据提取方法:重点:CSS选择器使用课堂讲授与课后作业:爬虫案例巩泊成1线下8bs4实践目标难点:CSS选择器使用小组讨论福三4
4 请求 难点:requests 模块操作 小组讨论 与 requests 练习 一 目 标 二 5 数据提取方法: 正则表达式 I 巩泊成 1 重点:正则表达式基础语法 难点:正则表达式使用方法 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 6 数据提取方法: 正则表达式 II 巩泊成 1 重点:re 的基础操作 难点:re 库函数的使用 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 7 数据提取方法: Xpath 巩泊成 1 重点:Xpath 安装、Xpath 语法、lxml 模 块 难点:Xpath 语法、lxml 模块 课程思政融入点:透过华为公司在 5G 网络 通讯技术领先全球却遭到美国无情打压, 鼓励学生面对问题克服问题,学习从逆境 中持续成长进步。 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 8 数据提取方法: bs4 巩泊成 1 重点:CSS 选择器使用 难点:CSS 选择器使用 线下 课堂讲授与 小组讨论 课后作业:爬虫案例 实践 目 标 一 目 标 二

目标-动态网页数据接重点:js逆向解析数据接口课堂讲授与巩泊成1线下9口解析目标难点:js逆向解析数据接口小组讨论三目标重点:安装chromedriver、Selenium查找-Selenium自动化课堂讲授与巩泊成1线下10节点、切换iFrame工具I目标小组讨论难点:Selenium查找节点三目标重点:动作链、页面滚动、延时等待、选Selenium自动化课堂讲授与课后作业:selenium-线下巩泊成111项卡管理、异常处理、绕过检测工具II小组讨论练习目标难点:动作链、页面滚动、绕过检测三目标重点:Scrapy框架的安装与原理三课堂讲授与巩泊成1线下12Serapy框架I小组讨论目标难点:Scrapy框架原理四目标重点:Scrapy框架基本操作-课堂讲授与1线下巩泊成13Scrapy框架II小组讨论目标难点:Scrapy框架基本操作三重点:多多线程基础知识、多线程编程课后作业:爬虫案例目标课堂讲授与巩泊成1线下14多线程爬虫三实践难点:多线程编程小组讨论5
5 9 动态网页数据接 口解析 巩泊成 1 重点:js 逆向解析数据接口 难点:js 逆向解析数据接口 线下 课堂讲授与 小组讨论 目 标 一目 标 二 10 Selenium 自动化 工具 I 巩泊成 1 重点:安装 chromedriver、Selenium 查找 节点、切换 iFrame 难点:Selenium 查找节点 线下 课堂讲授与 小组讨论 目 标 一目 标 二 11 Selenium 自动化 工具 II 巩泊成 1 重点:动作链、页面滚动、延时等待、选 项卡管理、异常处理、绕过检测 难点:动作链、页面滚动、绕过检测 线下 课堂讲授与 小组讨论 课后作业:selenium 练习 目 标 一目 标 二 12 Scrapy 框架 I 巩泊成 1 重点:Scrapy 框架的安装与原理 难点:Scrapy 框架原理 线下 课堂讲授与 小组讨论 目 标 三目 标 四 13 Scrapy 框架 II 巩泊成 1 重点:Scrapy 框架基本操作 难点:Scrapy 框架基本操作 线下 课堂讲授与 小组讨论 目 标 一目 标 二 14 多线程爬虫 巩泊成 1 重点:多线程基础知识、多线程编程 难点:多线程编程 线下 课堂讲授与 小组讨论 课后作业:爬虫案例 实践 目 标 三

目标四目标/重点:数据库存储的基本操作课堂讲授与巩泊成线下115数据存储目标难点:python操作数据库小组讨论二目标三重点:唯品会商品信息采集课堂讲授与巩泊成线下116综合练习小组讨论目标难点:各种肥爬虫工具综合应用四合计16实践教学进程表教学支撑课项目类型(验证/综合周次学时实验项目名称授课教师教学内容(重点、难点、课程思政融入点)/设计)方法程目标目标一1综合实验课程前准备及软件安装巩泊成1重点:PyCharm、anaconda软件安装目标二重点:浏览器开发者模式的使用、HTML标签目标一巩泊成综合实验HTML基础与网络12目标二难点:浏览器开发者模式的使用目标一重点:urllib的基础操作、GET与POST请求巩泊成综合实验13静态网页采集1难点:urllib模块操作目标二巩泊成综合实验1目标一重点:requests的基础操作、GET与POST请4静态网页采集II6
6 目 标 四 15 数据存储 巩泊成 1 重点:数据库存储的基本操作 难点:python 操作数据库 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 16 综合练习 巩泊成 1 重点:唯品会商品信息采集 难点:各种爬虫工具综合应用 线下 课堂讲授与 小组讨论 目 标 三 目 标 四 合计 16 实践教学进程表 周次 实验项目名称 授课教师 学时 教学内容(重点、难点、课程思政融入点) 项目类型(验证/综合 /设计) 教学 方法 支撑课 程目标 1 课程前准备及软件安装 巩泊成 1 重点:PyCharm、anaconda 软件安装 综合 实验 目标一 目标二 2 HTML 基础与网络 巩泊成 1 重点:浏览器开发者模式的使用、HTML 标签 难点:浏览器开发者模式的使用 综合 实验 目标一 目标二 3 静态网页采集 I 巩泊成 1 重点:urllib 的基础操作、GET 与 POST 请求 难点:urllib 模块操作 综合 实验 目标一 目标二 4 静态网页采集 II 巩泊成 1 重点:requests 的基础操作、GET 与 POST 请 综合 实验 目标一

求目标二难点:requests模块操作重点:正则表达式基础语法目标一数据提取方法:正则表综合实验巩泊成15达式1目标二难点:正则表达式使用方法重点:re的基础操作难点:re库函数的使用课程思政融入点:要求学生处理实验数据必须目标一数据提取方法:正则表巩泊成综合实验16达式II目标二坚持实事求实、严谨的科学态度:要求学生实验过程中主动恩考理论原理,在实验过程中去验证实验原理,使理论与实践相辅相成。重点:Xpath安装、Xpath语法、1xml模块目标一1综合实验巩泊成1数据提取方法:Xpath难点:Xpath语法、1xml模块目标二重点:CSS选择器使用目标一巩泊成1综合实验8数据提取方法:bs4目标二难点:CSS选择器使用目标一重点:js逆向解析数据接口巩泊成1综合实验9动态网页数据接口解析难点:js逆向解析数据接口目标二重点:安装chromedriver、Selenium查找节目标一1综合巩泊成实验10Selenium自动化工具I点、切换iFrame目标二难点:Selenium查找节点重点:动作链、页面滚动、延时等待、选项卡目标一综合巩泊成实验111Selenium自动化工具II管理、异常处理、绕过检测目标二难点:动作链、页面滚动、绕过检测7
7 求难点:requests 模块操作 目标二 5 数据提取方法:正则表 达式 I 巩泊成 1 重点:正则表达式基础语法 难点:正则表达式使用方法 综合 实验 目标一 目标二 6 数据提取方法:正则表 达式 II 巩泊成 1 重点:re 的基础操作 难点:re 库函数的使用 课程思政融入点:要求学生处理实验数据必须 坚持实事求实、严谨的科学态度;要求学生实 验过程中主动思考理论原理,在实验过程中去 验证实验原理,使理论与实践相辅相成。 综合 实验 目标一 目标二 7 数据提取方法:Xpath 巩泊成 1 重点:Xpath 安装、Xpath 语法、lxml 模块 难点:Xpath 语法、lxml 模块 综合 实验 目标一 目标二 8 数据提取方法:bs4 巩泊成 1 重点:CSS 选择器使用 难点:CSS 选择器使用 综合 实验 目标一 目标二 9 动态网页数据接口解析 巩泊成 1 重点:js 逆向解析数据接口 难点:js 逆向解析数据接口 综合 实验 目标一 目标二 10 Selenium 自动化工具 I 巩泊成 1 重点:安装 chromedriver、Selenium 查找节 点、切换 iFrame 难点:Selenium 查找节点 综合 实验 目标一 目标二 11 Selenium 自动化工具 II 巩泊成 1 重点:动作链、页面滚动、延时等待、选项卡 管理、异常处理、绕过检测 难点:动作链、页面滚动、绕过检测 综合 实验 目标一 目标二

重点:Scrapy框架的安装与原理目标一1巩泊成综合实验12Scrapy框架I目标二难点:SScrapy框架原理重点:SScrapy框架基本操作目标一实验巩泊成综合13Scrapy框架II目标二难点:Scrapy框架基本操作目标一重点:多线程基础知识、多线程编程1综合实验巩泊成14多线程爬虫难点:多线程编程目标二重点:数据库存储的基本操作目标一1综合巩泊成实验15数据存储目标二难点:python操作数据库重点:F目标一唯品会商品信息采集1综合实验巩泊成16综合练习难点:各种鹿虫工具综合应用目标二合计16课程考核评价依据及成绩比例(%)课程目标支撑毕业要求指标点作业课堂表现期末报告1-3515目标一105目标二2-310155n10目标三4-15n7-210目标四总计4040201008
8 12 Scrapy 框架 I 巩泊成 1 重点:Scrapy 框架的安装与原理 难点:Scrapy 框架原理 综合 实验 目标一 目标二 13 Scrapy 框架 II 巩泊成 1 重点:Scrapy 框架基本操作 难点:Scrapy 框架基本操作 综合 实验 目标一 目标二 14 多线程爬虫 巩泊成 1 重点:多线程基础知识、多线程编程 难点:多线程编程 综合 实验 目标一 目标二 15 数据存储 巩泊成 1 重点:数据库存储的基本操作 难点:python 操作数据库 综合 实验 目标一 目标二 16 综合练习 巩泊成 1 重点:唯品会商品信息采集 难点:各种爬虫工具综合应用 综合 实验 目标一 目标二 合计 16 课程考核 课程目标 支撑毕业要求指标点 评价依据及成绩比例(%) 作业 课堂表现 期末报告 目标一 1-3 10 5 15 目标二 2-3 10 5 15 目标三 4-1 10 5 5 目标四 7-2 10 5 5 总计 40 20 40 100

备注:1)根据东莞理工学院考试管理规定》第士二条规定,广课3次(或6课时)学生不得登加该课程的期终者核2)各项考核标准见附件所示。大纲编写时间:2025年9月5日系(部)审查意见:同意系(部)主任签名:日期:2025年9月6日备注:9
9 备注:1)根据《东莞理工学院考试管理规定》第十二条规定:旷课 3 次(或 6 课时)学生不得参加该课程的期终考核。2)各项考核标准见附件所示。 大纲编写时间:2025 年 9 月 5 日 系(部)审查意见: 同意 系(部)主任签名: 日期:2025 年 9 月 6 日 备注:

作业评分标准评分标准观测点A(100)B(85)C(70)D(O)概念比较清楚,作业比较认真,概念基本清楚,答题基本正概念不太清楚,答题错误基本概念掌握程度概念清楚,答题正确。较多。答题比较正确。确。概念比较清楚,作业比较认真,概念基本清楚,答题基本正概念不太清楚,答题错误解决问题的方案正确性解题思路清晰,计算正确确。较多。答题比较正确。未交作业或后期补交,不按时完成,书写较为一般,按时完成,书写工整、清晰,按时完成,书写清晰,主要符号、作业完成态度部分符号、单位按照规范执能辨识,符号、单位等不单位按照规范执行符号、单位等按规范要求执行行按照规范执行实验评分标准评分标准观测点A(100)B(85)C(70)D (O)预习报告按时完成,内容完整、正确,按时完成,内容基本完整,书写延时完成,内容基本完整,未提交或后期补交,内容清晰能够辨识字迹清晰工整不完整,不能辨识(权重0.3)实验操作操作规范,步骤合理清晰,在能按要求较完整完成操作,实验基本能按要求进行操作,实操作不规范,实验步骤不规定的时间完成实验(权重0.4)合理,未在规定的时间内过程安排较为合理,在规定时间验部分步骤安排不合理,完10
10 作业评分标准 观测点 评分标准 A(100) B(85) C(70) D(0) 基本概念掌握程度 概念清楚,答题正确。 概念比较清楚,作业比较认真, 答题比较正确。 概念基本清楚,答题基本正 确。 概念不太清楚,答题错误 较多。 解决问题的方案正确性 解题思路清晰,计算正确 概念比较清楚,作业比较认真, 答题比较正确。 概念基本清楚,答题基本正 确。 概念不太清楚,答题错误 较多。 作业完成态度 按时完成,书写工整、清晰, 符号、单位等按规范要求执行 按时完成,书写清晰,主要符号、 单位按照规范执行 按时完成,书写较为一般, 部分符号、单位按照规范执 行 未交作业或后期补交,不 能辨识,符号、单位等不 按照规范执行 实验评分标准 观测点 评分标准 A(100) B(85) C(70) D(0) 预习报告 (权重 0.3) 按时完成,内容完整、正确, 字迹清晰工整 按时完成,内容基本完整,书写 清晰 延时完成,内容基本完整, 能够辨识 未提交或后期补交,内容 不完整,不能辨识 实验操作 (权重 0.4) 操作规范,步骤合理清晰,在 规定的时间完成实验 能按要求较完整完成操作,实验 过程安排较为合理,在规定时间 基本能按要求进行操作,实 验部分步骤安排不合理,完 操作不规范,实验步骤不 合理,未在规定的时间内