
第九讲金融数据的爬虫
金融数据的爬虫 第九讲

章前导读在传统的金融数据分析场景中,数据往往是较为简单且结构化的,可以直接获取后进行分析和研究。01随着大数据时代的到来,与金融活动相关的数据量02级出现大幅上升,数据的储存形式也变得多样如何收集和分析此类非结构化的数据越来越受到重视,而批量获取和解析上述非结构化数据最常用的03方法便是网络爬虫技术
章前导读 01 在传统的金融数据分析场景中,数据往往是较为简 单且结构化的,可以直接获取后进行分析和研究。 02 随着大数据时代的到来,与金融活动相关的数据量 级出现大幅上升,数据的储存形式也变得多样。 03 如何收集和分析此类非结构化的数据越来越受到重 视,而批量获取和解析上述非结构化数据最常用的 方法便是网络爬虫技术

学习目标从网络爬虫的基本原理和操作步骤入手,从信息获取和信息解析两方面对网络爬虫进行了详细的介绍。理解网络爬虫的基本思路,了解Request、Selenium模块与模拟浏览器操作,熟悉API获取方法,掌握HTML语言与网页解析
学习目标 从网络爬虫的基本原理和操作步骤入 手,从信息获取和信息解析两方面对网络 爬虫进行了详细的介绍。 理解网络爬虫的基本思路,了解 Request、Selenium模块与模拟浏览器操 作,熟悉 API获取方法,掌握HTML语言与 网页解析

目录网络爬虫概述及其应用场景CONTENT网络爬虫之信息获取网络爬虫之信息解析网络爬虫在金融领域的应用
目 录

01网络爬虫概述及其应用场景
01 网络爬虫概述及其应用场景

网络爬虫的基本原理(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动抓取网络网络爬虫信息的程序或者脚本。网页响应的原理请求和响应两类行为,网络爬虫的基本原理浏览器向服务器发起请求、服务器接收到请求并进行解析、服务器返回对应的响应、浏览器对返回的响应进行解析和展示。在上述基础上模拟浏览器向服务器发起请求,并获取相关的响应内容,可以理解为采用自动化、程序化和批量化的方式从网页上获取需要的信息
网络爬虫 网络爬虫的基本原理 • (又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动抓取网络 信息的程序或者脚本。 网页响应的原理 请求和响应两类行为。 浏览器向服务器发起请求、服务器接收到请求并进行解析、 服务器返回对应的响应、浏览器对返回的响应进行解析和展示。 网络爬虫的基本原理 在上述基础上模拟浏览器向服务器 发起请求,并获取相关的响应内容,可 以理解为采用自动化、程序化和批量化 的方式从网页上获取需要的信息

网络爬虫的基本步骤CurlRequests库网络爬虫的基本步骤信息获取Selenium库V信息获取V信息解析网API络爬虫BeautifulSoup库值得注意的是,在爬虫实战中XPath信息解析信息获取要比信息解析更为重要,大多数时候信息解析的失正表达式败是由于网站反爬虫的存在导致信息获取困难
网络爬虫的基本步骤 ◼ 值得注意的是,在爬虫实战中, 信息获取要比信息解析更为重 要,大多数时候信息解析的失 败是由于网站反爬虫的存在导 致信息获取困难。 ⚫ 网络爬虫的基本步骤 ✓ 信息获取 ✓ 信息解析

网络爬虫的分类与应用场景网络爬虫分类网络爬虫应用场景根据网络爬虫的规模大小分为信息检索领域:搜索引擎的检索功能福金融领域:批量获取企业新闻、公司年报全网站爬虫:爬取工作量较大,往往采用scrapy爬虫框架来爬取。等,优化投融资决策部分网站爬虫:可提炼网页变化规则,根据此电商领域:获取店铺产品、比价和流量等,规则构造网址进行爬虫分析产品市场竞争力学术研究领域:从数据库中无法获取的大根据网页的编写方式分为数据(上市公司舆情数据)信息聚合领域:从各类公开数据中提取出静态网页爬虫:requests库同一主体的信息并进行展示,例如企查查动态网页爬虫:requests库和selenium库和天眼查等
网络爬虫的分类与应用场景 根据网络爬虫的规模大小分为: 网络爬虫分类 ➢ 全网站爬虫:爬取工作量较大,往往采用 scrapy爬虫框架来爬取。 ➢ 部分网站爬虫:可提炼网页变化规则,根据此 规则构造网址进行爬虫。 根据网页的编写方式分为: ➢ 静态网页爬虫:requests库 ➢ 动态网页爬虫:requests库和selenium库 网络爬虫应用场景 • 信息检索领域:搜索引擎的检索功能 • 金融领域:批量获取企业新闻、公司年报 等,优化投融资决策 • 电商领域:获取店铺产品、比价和流量等, 分析产品市场竞争力 • 学术研究领域:从数据库中无法获取的大 数据(上市公司舆情数据) • 信息聚合领域:从各类公开数据中提取出 同一主体的信息并进行展示,例如企查查 和天眼查等

网络爬虫与反爬虫大部分网络爬虫失败的原因都来常见的反爬虫机制自于网站本身的反爬虫设置。IP访问频率限制登录限制网页验证码等网络爬虫的法律问题检查在网站根目录下存在robots协议,其中标注了该网站的哪些页面可以被抓取、哪些页面不可以被抓取
网络爬虫与反爬虫 ◆ 大部分网络爬虫失败的原因都来 自于网站本身的反爬虫设置。 ◆ 常见的反爬虫机制 ✓ IP访问频率限制 ✓ 登录限制 ✓ 网页验证码等 ◆ 网络爬虫的法律问题 检查在网站根目录下存在robots协 议,其中标注了该网站的哪些页面可以被 抓取、哪些页面不可以被抓取

02网络爬虫之信息获取
02 网络爬虫之信息获取