正在加载图片...
信息检索与数据挖掘 2019/5/13 8 采集器必须具有的功能 ·礼貌性:Wb服务器有显示或隐式的策略控制采集器的访问 。只爬允许爬的内容、尊重robots.txt ·鲁棒性:能从采集器陷阱中跳出,能处理Wb服务器的其他 恶意行为 ·分布式:应该可以在多台机器上分布式运行 。可扩展性:添加更多机器后采集率应该提高 ·性能和效率:充分利用不同的系统资源,包括处理器、存储 器和网络带宽 ·优先抓取“有用的网页” ·新鲜度:对原来抓取的网页进行更新 。功能可扩展性:支持多方面的功能扩展,例如处理新的数 据格式、新的抓取协议等信息检索与数据挖掘 2019/5/13 8 采集器必须具有的功能 • 礼貌性: Web服务器有显示或隐式的策略控制采集器的访问 • 只爬允许爬的内容、尊重 robots.txt • 鲁棒性: 能从采集器陷阱中跳出,能处理Web服务器的其他 恶意行为 • 分布式: 应该可以在多台机器上分布式运行 • 可扩展性: 添加更多机器后采集率应该提高 • 性能和效率: 充分利用不同的系统资源,包括处理器、存储 器和网络带宽 • 优先抓取“有用的网页” • 新鲜度: 对原来抓取的网页进行更新 • 功能可扩展性:支持多方面的功能扩展,例如处理新的数 据格式、新的抓取协议等
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有