信息检索与数据挖掘 2019/5/13 7 爬取过程 从已知的种子URL开始 •获取页面并进行解析 •提取页面中包含的链接 把链接放入到队列中 •对队列中的URL获豫页面并解析,提取链 接放入队列中,如此循环 爬取并解析了的 URL 尚未发现的Web 待采集URL池 种子页面 Web信息检索与数据挖掘 2019/5/13 7 爬取过程 Web 爬取并解析了的 URL 待采集URL池 尚未发现的Web 种子页面 •从已知的种子URL开始 •获取页面并进行解析 •提取页面中包含的链接 •把链接放入到队列中 •对队列中的URL获取页面并解析,提取链 接放入队列中,如此循环