正在加载图片...
/2、3,爬取两页就是/1、/2。 start_request函数我们不用去深究,这是涉及到Scrapy语法的问题。如果你 有兴趣去修改,可以去参考其教程。 我们回到爬虫当中最复杂也就是最关键的一部分,就是专门负责如何去解析 的parser函数,它有一个参数叫做response,其中包含的就是从网页上爬取下 来的所有HTML代码,然后我们将分条目从里面获取到我们想要的信息。 首先,我们看到的是quotes=response.css(div.quote"),这条语句的意思是 提取出名言列表。什么是名言列表?网页爬虫的工作过程是跟网页密切相关的。 我们回到第一页,可以看到其中包含好几条名言,爬虫实际解析的是HTML代 码,我们可以看右边HTML代码中有好几个div,每一个class为quotes的div 就是一条名言。 t年50.451,2 arm The world as we have created it is a process of our thinking.It cannot be changed without changing our thinking." by Albert Einstein (about) Tags:chanpe deep-thoughts thinking world "It is our choices,Harry,that show what we truly are,far more than our abilities." by J.K.Rowling (about) dlv ctass-"tags"/div </div> Tags:abities choices e ty=htp/ sdmagentyoe-http/ "There are only two ways to live your life.One is as though nothing is a miracle.The other is as though everything is a miracle. 我们通过选择器把名言一条一条地区分开来,然后再从中展开得到里面的名 言信息。第一条语句的含义就是将HTML代码中的所有div的class等于quote 的名言以列表形式一条一条全部提取出来。一旦这条语句执行完,我们就会提取 到每条已经分隔开的名言了。然后,我们要对每一条名言提取关键内容,即名言 内容,作者以及标签的提取,代码中的for循环就是对每一条名言进行这样的操/2、/3,爬取两页就是/1、/2。 瀆瀇濴瀅瀇_瀅濸瀄瀈濸瀆瀇 函数我们不用去深究,这是涉及到 S濶瀅濴瀃瀌 语法的问题。如果你 有兴趣去修改,可以去参考其教程。 我们回到爬虫当中最复杂也就是最关键的一部分,就是专门负责如何去解析 的 瀃濴瀅瀆濸瀅 函数,它有一个参数叫做 瀅濸瀆瀃瀂瀁瀆濸,其中包含的就是从网页上爬取下 来的所有 HTML 代码,然后我们将分条目从里面获取到我们想要的信息。 首先,我们看到的是 瀄瀈瀂瀇濸瀆 = 瀅濸瀆瀃瀂瀁瀆濸.濶瀆瀆("濷濼瀉.瀄瀈瀂瀇濸"), 这条语句的意思是 提取出名言列表。什么是名言列表?网页爬虫的工作过程是跟网页密切相关的。 我们回到第一页,可以看到其中包含好几条名言,爬虫实际解析的是 HTML 代 码,我们可以看右边 HTML 代码中有好几个 濷濼瀉,每一个 濶濿濴瀆瀆 为 瀄瀈瀂瀇濸瀆 的 濷濼瀉 就是一条名言。 我们通过选择器把名言一条一条地区分开来,然后再从中展开得到里面的名 言信息。第一条语句的含义就是将 HTML 代码中的所有 濷濼瀉 的 濶濿濴瀆瀆 等于 瀄瀈瀂瀇濸 的名言以列表形式一条一条全部提取出来。一旦这条语句执行完,我们就会提取 到每条已经分隔开的名言了。然后,我们要对每一条名言提取关键内容,即名言 内容,作者以及标签的提取,代码中的 濹瀂瀅 循环就是对每一条名言进行这样的操
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有