《数据科学引论——Python之道》课程教学资源（教案讲义）05 数据收集

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：2.08MB

作。在循环中，我们先提取每条名言中的作者名，在每个quote对象上调用css 函数，找到HTML中的smal.author,提取其中的文本内容。由于一条名言可能包含多条smal.author,所以我们使用extract_first()提取第一条。接下来，我们再提取名言的文字内容，就是class=text中的文本内容，并且提取第一条信息。最后，我们要提取tags,tags有一点特殊，因为每条名言都有好几个tag,我们希望都能提取出来，所以提取它时不是调用extract_first(),而是调用extract0,这时会返回一个列表。最终，当我们得到三项关键信息之后，我们需要做一个整合，并输出整合的内容。因为我们目标是JSON格式，并且Python提供将字典直接转换成JSON的功能，所以我们先要把这三个变量转换成字典，然后将字典转换成JSON,最后写入到文件。最后两条语句是为了及时SON字符串写入文件，如果不写它们，写入就会在缓满了或其他适当条件满足时才触发。我们暂时不用去深究这两条语句的含义。每一个parser只针对一个网页，因为我们之前指定了两个网页，所以它会分别对两个网页都执行一遍，把所有的数据都爬取下来，并且输出到一个文件中。之后，我们就要执行一下这个爬虫来看看效果。前面的代码只是在定义爬虫任务，然后我们要如何真正执行任务呢？就需要让Scrapy去执行process..start)(,我们可以看到它输出的一些调试信息，执行爬虫任务启动后，将执行My9pde,这御分的代码块，如果确实非常了解scrapy的运行机制，那么可以做定制，否测不建议自行修改。 In [2]:from scrapy.cravler import CrawlerProcess process.crawl(MySpider) process..start()这句代码就是开始了整个泥虫过程，会输出一大维信息，可以无规我们可以从目录中找到写出的SON文件，使用文本编辑器打开，就可以发

现以JSON格式存储的数据。 {"author":"Albert Einstein","text":"\u201cThe world as we have created it is a process of our t {"author":"J.K.Rowling","text":"\u201cIt is our choices,Harry,that show what we truly are,f "author":"Jane Austen","text": {"author": 'Marilyn Monroe". text":"\u201cImperfection is beauty,madness is genius and it's bet {"author":"Albert Einstein","text":"\u201cTry not to become a man of success.Rather become a m {"author":"Andr\u00e9 Gide","text":"\u201cIt is better to be hated for what you are than to be {"author":"Thomas A.Edison","text":"\u201cI have not failed.I've just found 10,000 ways that {"author":"Eleanor Roosevelt" ("author":"Steve "text":"u201cA woman is like a tea bag;you never know how stron roees at you ake Noatert,you're Martin", with u know,night.\u201d" 12 {"author": "J.K.Rowling", \u201cIt takes a great deal of bravery to stand up to our enem {"author":"Albert Einstein","text":"\u201cIf you can't explain it to a six year old,you don't 14 15 acm8r:6eger8,t-202Yueonene,n6eEpenaitrcaLema5sygvs {"author":"Douglas Adams","text":"\u201cI may not have gone where I intended to go,but i think author":"Elie Wiesel","text": \u201cThe opposite of love is not h nate,it's indiffe nce The "author": "Friedrich Nietzsche", u201cIt is not a lack of love,but a lack of friendshi tauthor "Mark Twain","text":"\u201cGood friends,good books,and a sleepy conscience:this is 2 {"author":"Allen Saunders","text":"\u201cLife is what happens to us while we are making other p 21 二、Python网络爬虫实践样例二这一次我们将会通过一个更加复杂但非常贴近实际的爬虫例子来进行说明。要爬取的内容来自于T桔子网站，这是一个非常流行的提供有关新公司投资融资等最新信息的网站。我们目的就是从URL中爬取它的前10页，这个网页相对来说比前一个笔记爬取的网页要复杂得多。我们要爬取的信息包括每一家公司的成立时间、地点、最新融资情况。 import os elass MySpider(scrapy.Spider): name -"spider" def init encoding='GBK self.csvwriter csv.DictNriter( self.tile,tieldnames=['name','type','date','province'l) #设置待恋职网咕列表 self.uris [ wuw.itjuzi.com/company?mortby=foundtimespage='+str(i)) dof start reguests(self): Beif.init uri8() for url in self.urls: yield scrapy.Request(url-url,callback-self.parse) 这里的UL和前面的例子不太一样，它长了许多，所以我们先要确定页码的分布情况，即页码的规律是怎么样的。例如，我们点击第2页，发现pge=2, 所以基本可以确认，在自动翻页时，只需要改变URL中“page=”后面的数字就

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录