正在加载图片...
信息检索与数据挖掘 2019/5/13 9 礼貌性 Robots.txt源于1994年的协议,对爬取过程进行限制 htp:lwww.robotstxt..org/orig.html关于Robots.txt的说明 ·显式的礼貌:根据网站站长的说明,选择允许爬取 的部分进行爬取 。按robots.txt说的做,如下面写法的意思是:任何roboti都 不能访问“yoursite/temp/P”开头的网址,除了名叫 “searchengine的: □taobao.com https://www.taobao.com/robots.txt User-agent: User-agent:Baiduspider Disallow:/yoursite/temp/ Allow: /article Allow:/oshtml Disallow:/product/ User-agent:searchengine Disallow: User-Agent: Googlebot Disallow: Allow: /article Allow: /oshtml ·隐式的礼貌:即使没有特别的说明 8也应该频繁 Allow: /dianpu 的访问同一个网站 Allow: /oversea Allow: /list Disallow: User-agent:Bingbot信息检索与数据挖掘 2019/5/13 9 礼貌性 • 显式的礼貌: 根据网站站长的说明,选择允许爬取 的部分进行爬取 • 按robots.txt说的做,如下面写法的意思是:任何robot都 不能访问 “/yoursite/temp/”开头的网址, 除了名叫 “searchengine”的: User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: • 隐式的礼貌: 即使没有特别的说明,也不应该频繁 的访问同一个网站 Robots.txt 源于1994年的协议,对爬取过程进行限制 http://www.robotstxt.org/orig.html 关于Robots.txt的说明
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有