正在加载图片...
网络爬虫 veb是一个有向图 a Google's mission: Organize the world <href information and make it universally <href accessible and useful ■第一步要解决信息的获取问题 ■网络爬虫( Web crawler)是搜索引擎的 重要组成部分,它负责把网上的数据抓取 <href (craw)下来供搜索引擎使用。 网页为节点 网页中的 Hyper Link为有向边 唾 系统框图 High-performance Crawler need A high level view of a web crawler Scalable Parallel. distributed ■Fast o Bottleneck? Network utilization n Document D DoS. robotbxt D Traps, errors, crash recovery Read/write ■ Continuous 口 Batch or incrementa 大规模爬取器 图唾 大规模爬取器:性能和可靠性问题 ■避免让DNS查询成为瓶颈 ■同时并发抓取多个网页(例如一台机器200个并发) Http 口这是充分利用网络带宽的基础 normalizer 多进程、多线程 口用一个数据结构,显式将一个抓取过程的状态表达出来 MisPageKnown? 口检查结束标志 ■URL提取中的问题 口消除重复,减少冗余的抓取(不那么容易,同义URL问 口避免“ spider traps",陷入少量网站中 pool cf URLS3 网络爬虫 „ Google's mission: Organize the world's information and make it universally accessible and useful. „ 第一步要解决信息的获取问题 „ 网络爬虫( Web Crawler)是搜索引擎的 重要组成部分,它负责把网上的数据抓取 (Crawl)下来供搜索引擎使用。 Web是一个有向图 <href …> <href …> <href …> <href …> <href …> <href …> <href …> 网页为节点 网页中的HyperLink为有向边 系统框图 High-performance Crawler need… „ Scalable … Parallel , distributed „ Fast … Bottleneck? Network utilization „ Polite … DoS, robot.txt „ Robust … Traps, errors, crash recovery „ Continuous … Batch or incremental 大规模爬取器的一种结构图 大规模爬取器:性能和可靠性问题 „ 避免让DNS查询成为瓶颈 „ 同时并发抓取多个网页(例如一台机器200个并发) … 这是充分利用网络带宽的基础 „ 多进程、多线程 „ 利用异步sockets(Soumen的观点) … 用一个数据结构,显式将一个抓取过程的状态表达出来 … 检查结束标志 „ URL提取中的问题 … 消除重复,减少冗余的抓取(不那么容易,同义URL问 题) … 避免“spider traps”,陷入少量网站中
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有