/2、/3，爬取两页就是/1、/2。瀆瀇濴瀅瀇_瀅濸瀄瀈濸瀆瀇函数我们

点击下载：《数据科学引论——Python之道》课程教学资源（教案）05 数据收集

正在加载图片...

/2、3,爬取两页就是/1、/2。 start_request函数我们不用去深究，这是涉及到Scrapy语法的问题。如果你有兴趣去修改，可以去参考其教程。我们回到爬虫当中最复杂也就是最关键的一部分，就是专门负责如何去解析的parser函数，它有一个参数叫做response,其中包含的就是从网页上爬取下来的所有HTML代码，然后我们将分条目从里面获取到我们想要的信息。首先，我们看到的是quotes=response.css(div.quote"),这条语句的意思是提取出名言列表。什么是名言列表？网页爬虫的工作过程是跟网页密切相关的。我们回到第一页，可以看到其中包含好几条名言，爬虫实际解析的是HTML代码，我们可以看右边HTML代码中有好几个div,每一个class为quotes的div 就是一条名言。 t年50.451,2 arm The world as we have created it is a process of our thinking.It cannot be changed without changing our thinking." by Albert Einstein (about) Tags:chanpe deep-thoughts thinking world "It is our choices,Harry,that show what we truly are,far more than our abilities." by J.K.Rowling (about) dlv ctass-"tags"/div </div> Tags:abities choices e ty=htp/ sdmagentyoe-http/ "There are only two ways to live your life.One is as though nothing is a miracle.The other is as though everything is a miracle. 我们通过选择器把名言一条一条地区分开来，然后再从中展开得到里面的名言信息。第一条语句的含义就是将HTML代码中的所有div的class等于quote 的名言以列表形式一条一条全部提取出来。一旦这条语句执行完，我们就会提取到每条已经分隔开的名言了。然后，我们要对每一条名言提取关键内容，即名言内容，作者以及标签的提取，代码中的for循环就是对每一条名言进行这样的操/2、/3，爬取两页就是/1、/2。瀆瀇濴瀅瀇_瀅濸瀄瀈濸瀆瀇函数我们不用去深究，这是涉及到 S濶瀅濴瀃瀌语法的问题。如果你有兴趣去修改，可以去参考其教程。我们回到爬虫当中最复杂也就是最关键的一部分，就是专门负责如何去解析的瀃濴瀅瀆濸瀅函数，它有一个参数叫做瀅濸瀆瀃瀂瀁瀆濸，其中包含的就是从网页上爬取下来的所有 HTML 代码，然后我们将分条目从里面获取到我们想要的信息。首先，我们看到的是瀄瀈瀂瀇濸瀆 = 瀅濸瀆瀃瀂瀁瀆濸.濶瀆瀆("濷濼瀉.瀄瀈瀂瀇濸"), 这条语句的意思是提取出名言列表。什么是名言列表？网页爬虫的工作过程是跟网页密切相关的。我们回到第一页，可以看到其中包含好几条名言，爬虫实际解析的是 HTML 代码，我们可以看右边 HTML 代码中有好几个濷濼瀉，每一个濶濿濴瀆瀆为瀄瀈瀂瀇濸瀆的濷濼瀉就是一条名言。我们通过选择器把名言一条一条地区分开来，然后再从中展开得到里面的名言信息。第一条语句的含义就是将 HTML 代码中的所有濷濼瀉的濶濿濴瀆瀆等于瀄瀈瀂瀇濸的名言以列表形式一条一条全部提取出来。一旦这条语句执行完，我们就会提取到每条已经分隔开的名言了。然后，我们要对每一条名言提取关键内容，即名言内容，作者以及标签的提取，代码中的濹瀂瀅循环就是对每一条名言进行这样的操

<<向上翻页向下翻页>>

点击下载：《数据科学引论——Python之道》课程教学资源（教案）05 数据收集