中央财经大学：《大数据金融》课程教学课件（PPT讲稿）第9章金融数据的爬虫

团购合买资源类别：文库，文档格式：PPTX，文档页数：39，文件大小：16.28MB

第九讲金融数据的爬虫

金融数据的爬虫第九讲

章前导读在传统的金融数据分析场景中，数据往往是较为简单且结构化的，可以直接获取后进行分析和研究。01随着大数据时代的到来，与金融活动相关的数据量02级出现大幅上升，数据的储存形式也变得多样如何收集和分析此类非结构化的数据越来越受到重视，而批量获取和解析上述非结构化数据最常用的03方法便是网络爬虫技术

章前导读 01 在传统的金融数据分析场景中，数据往往是较为简单且结构化的，可以直接获取后进行分析和研究。 02 随着大数据时代的到来，与金融活动相关的数据量级出现大幅上升，数据的储存形式也变得多样。 03 如何收集和分析此类非结构化的数据越来越受到重视，而批量获取和解析上述非结构化数据最常用的方法便是网络爬虫技术

学习目标从网络爬虫的基本原理和操作步骤入手，从信息获取和信息解析两方面对网络爬虫进行了详细的介绍。理解网络爬虫的基本思路，了解Request、Selenium模块与模拟浏览器操作，熟悉API获取方法，掌握HTML语言与网页解析

学习目标从网络爬虫的基本原理和操作步骤入手，从信息获取和信息解析两方面对网络爬虫进行了详细的介绍。理解网络爬虫的基本思路，了解 Request、Selenium模块与模拟浏览器操作，熟悉 API获取方法，掌握HTML语言与网页解析

目录网络爬虫概述及其应用场景CONTENT网络爬虫之信息获取网络爬虫之信息解析网络爬虫在金融领域的应用

01网络爬虫概述及其应用场景

01 网络爬虫概述及其应用场景

网络爬虫的基本原理（又称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动抓取网络网络爬虫信息的程序或者脚本。网页响应的原理请求和响应两类行为，网络爬虫的基本原理浏览器向服务器发起请求、服务器接收到请求并进行解析、服务器返回对应的响应、浏览器对返回的响应进行解析和展示。在上述基础上模拟浏览器向服务器发起请求，并获取相关的响应内容，可以理解为采用自动化、程序化和批量化的方式从网页上获取需要的信息

网络爬虫网络爬虫的基本原理 • （又称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动抓取网络信息的程序或者脚本。网页响应的原理请求和响应两类行为。浏览器向服务器发起请求、服务器接收到请求并进行解析、服务器返回对应的响应、浏览器对返回的响应进行解析和展示。网络爬虫的基本原理在上述基础上模拟浏览器向服务器发起请求，并获取相关的响应内容，可以理解为采用自动化、程序化和批量化的方式从网页上获取需要的信息

网络爬虫的基本步骤CurlRequests库网络爬虫的基本步骤信息获取Selenium库V信息获取V信息解析网API络爬虫BeautifulSoup库值得注意的是，在爬虫实战中XPath信息解析信息获取要比信息解析更为重要，大多数时候信息解析的失正表达式败是由于网站反爬虫的存在导致信息获取困难

网络爬虫的基本步骤 ◼ 值得注意的是，在爬虫实战中，信息获取要比信息解析更为重要，大多数时候信息解析的失败是由于网站反爬虫的存在导致信息获取困难。 ⚫ 网络爬虫的基本步骤 ✓ 信息获取 ✓ 信息解析

网络爬虫的分类与应用场景网络爬虫分类网络爬虫应用场景根据网络爬虫的规模大小分为信息检索领域：搜索引擎的检索功能福金融领域：批量获取企业新闻、公司年报全网站爬虫：爬取工作量较大，往往采用scrapy爬虫框架来爬取。等，优化投融资决策部分网站爬虫：可提炼网页变化规则，根据此电商领域：获取店铺产品、比价和流量等，规则构造网址进行爬虫分析产品市场竞争力学术研究领域：从数据库中无法获取的大根据网页的编写方式分为数据（上市公司舆情数据）信息聚合领域：从各类公开数据中提取出静态网页爬虫：requests库同一主体的信息并进行展示，例如企查查动态网页爬虫：requests库和selenium库和天眼查等

网络爬虫的分类与应用场景根据网络爬虫的规模大小分为：网络爬虫分类 ➢ 全网站爬虫：爬取工作量较大，往往采用 scrapy爬虫框架来爬取。 ➢ 部分网站爬虫：可提炼网页变化规则，根据此规则构造网址进行爬虫。根据网页的编写方式分为： ➢ 静态网页爬虫：requests库 ➢ 动态网页爬虫：requests库和selenium库网络爬虫应用场景 • 信息检索领域：搜索引擎的检索功能 • 金融领域：批量获取企业新闻、公司年报等，优化投融资决策 • 电商领域：获取店铺产品、比价和流量等，分析产品市场竞争力 • 学术研究领域：从数据库中无法获取的大数据（上市公司舆情数据） • 信息聚合领域：从各类公开数据中提取出同一主体的信息并进行展示，例如企查查和天眼查等

网络爬虫与反爬虫大部分网络爬虫失败的原因都来常见的反爬虫机制自于网站本身的反爬虫设置。IP访问频率限制登录限制网页验证码等网络爬虫的法律问题检查在网站根目录下存在robots协议，其中标注了该网站的哪些页面可以被抓取、哪些页面不可以被抓取

网络爬虫与反爬虫 ◆ 大部分网络爬虫失败的原因都来自于网站本身的反爬虫设置。 ◆ 常见的反爬虫机制 ✓ IP访问频率限制 ✓ 登录限制 ✓ 网页验证码等 ◆ 网络爬虫的法律问题检查在网站根目录下存在robots协议，其中标注了该网站的哪些页面可以被抓取、哪些页面不可以被抓取

02网络爬虫之信息获取

02 网络爬虫之信息获取

点击下载完整版文档（PPTX格式）

共39页，可试读13页，点击继续阅读 ↓↓

点击下载（PPTX格式）

浏览记录