信息检索与数据挖掘 2019/5/13 1 5月21日12:00前,提交文献阅读相关素材 6月3日12:00前,提交实验报告及相关素材 信息检索与数据挖掘 第12章Web搜索 4月29日,补充:概率图及主题模型 5月6日,补充:数据挖掘经典算法概述(1) 5月8日,补充: 数据挖掘经典算法概述(2) 5月13日,第12章Web搜索 5月15日,第13章多媒体信息检索 5月20日,复习 5月22日,同学们文献阅读报告 5月27日,同学们文献阅读报告 6月3日,期末考试【暂定】
信息检索与数据挖掘 2019/5/13 1 信息检索与数据挖掘 第12章 Web搜索 4月29日,补充:概率图及主题模型 5月6日,补充:数据挖掘经典算法概述(1) 5月8日,补充:数据挖掘经典算法概述(2) 5月13日,第12章 Web搜索 5月15日,第13章 多媒体信息检索 5月20日,复习 5月22日,同学们文献阅读报告 5月27日,同学们文献阅读报告 6月3日,期末考试【暂定】 5月21日12:00前,提交文献阅读相关素材 6月3日12:00前,提交实验报告及相关素材
信息检索与数据挖掘 2019/5/13 3 本讲内容:Web搜索 .Web采集 ·采集器 。连接服务器 ·链接分析 ·锚文本 ·链接分析:Pagerank ·链接分析:HITS
信息检索与数据挖掘 2019/5/13 3 本讲内容:Web搜索 • Web采集 • 采集器 • 连接服务器 • 链接分析 • 锚文本 • 链接分析:Pagerank • 链接分析:HITS
信息检索与数据挖掘 2019/5/13 4 Web搜索基本流程 用户 兰 Neb 网络爬虫 Search 索器 1 Web 索引 广告索引
信息检索与数据挖掘 2019/5/13 4 Web搜索基本流程 Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds) Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Web 广告索引 网络爬虫 索引器 索引 Search 用户
信息检索与数据挖掘 2019/5/13 5 ← 令☒htp/zhidao..baidu.com/searchi、d 图百度知道搜索信息检索 介★海 转换·四选择 Ba怂知道 fama2014sinav LV1 我的道√ 消息 ☑可 新闻网页贴吧知道音乐图片视频地图百科文库经验 信息检索 搜索答案 我要提问 共900,632条结果筛选答案 推广链接 信息检索百度百科 付费广告 Sc论文翻译机构哪家好2 信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信,e信息的 上海熠逊生物技术有限公司主要提供SC学术 过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过 论文发表支持基金申请咨询,标书修改科研 www.yxlwsci.com V1 起源【定义1娄型|主要环节 什么是搜索引擎优化首选百度! 信息检索与利用试题题目 什么是搜索引擎优化?选百度,覆盖95%网民成 问:信息检索与利用试题题目1详细论述如何利用数据库查找《北京大学学报》… 为近50万家中国企业开展营销推广的首选1 答:信息检索答案题型一1、信息素养或素质的具体内容有那些?信息素质是指用户在利用以计算机 www.baidu.com V3 及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的主动参与信息活动、自 征信报告Ease Credit 觉应用信息技术的意识、态度、理念及具备的获娶识别、 Easecredit国内领先的在线B2B大数据服务公 2014-07-033个回答 司.我们致力于提供更快捷和更低成本的在 www.easecredit.cn Vi 信息检索 一心医译十年成就买医学文 答:第一章信息:信息是事物存在的方式,运动状态及其特征的反映,是事物发出的信号,消息信息 医药学大词典医学文献王用药参考为您的学 的特征:载体依附性无线共享性永不枯竭性开发增值性应用时效性存在普遍性知识:知识是信息的 习工作添动力现在购买很优惠! 升华和结果,系统化理论化的的信息就称为就称为知识 99yide.com Vi 2014-10-29回答者:望月曦激1个回答心3 算法生成的结果 信息检索》来当当网正」 买《信息检索》来当当网,正版低价,49元免运 什么是信息检索? 费,15年品质保证购书首选!《信息检索》 问:1信息源的类型:个人信息源,组织机构信息源,实物型信息源,文献型信 www.dangdang.com Va 答:你想问什么?信息检索就象你搜索东西,得给出最合适的词条 2014-10-29回答者:4541825603个回答 搜索引擎用桌面百度一键启 百度公司全新推出桌面百度,更智能更快挂的
信息检索与数据挖掘 2019/5/13 5 算法生成的结果 付费广告
信息检索与数据挖掘 2019/5/13 6 Web文档集 没有设计/多人协作 。 ·分散的内容创作、链接,民主化的发布 内容包含真理、谎言、矛盾和大量猜 测… 非结构化的(text,html,…),半结构 化的(XL,有注释的照片),结构化的 (数据库)… ·规模比之前的文本集大得多…但是其 中有很多重复的记录 ·增长-最开始每几个月就翻一倍,现 在涨速下降但依然在扩大 ·内容可能是动态生成的 The Web
信息检索与数据挖掘 2019/5/13 6 Web文档集 • 没有设计/多人协作 • 分散的内容创作、链接, 民主化的发布 • 内容包含真理、谎言、矛盾和大量猜 测 … • 非结构化的(text, html, …), 半结构 化的 (XML, 有注释的照片), 结构化的 (数据库)… • 规模比之前的文本集大得多… 但是其 中有很多重复的记录 • 增长– 最开始每几个月就翻一倍,现 在涨速下降但依然在扩大 • 内容可能是动态生成的 The Web
信息检索与数据挖掘 2019/5/13 7 爬取过程 从已知的种子URL开始 •获取页面并进行解析 •提取页面中包含的链接 把链接放入到队列中 •对队列中的URL获豫页面并解析,提取链 接放入队列中,如此循环 爬取并解析了的 URL 尚未发现的Web 待采集URL池 种子页面 Web
信息检索与数据挖掘 2019/5/13 7 爬取过程 Web 爬取并解析了的 URL 待采集URL池 尚未发现的Web 种子页面 •从已知的种子URL开始 •获取页面并进行解析 •提取页面中包含的链接 •把链接放入到队列中 •对队列中的URL获取页面并解析,提取链 接放入队列中,如此循环
信息检索与数据挖掘 2019/5/13 8 采集器必须具有的功能 ·礼貌性:Wb服务器有显示或隐式的策略控制采集器的访问 。只爬允许爬的内容、尊重robots.txt ·鲁棒性:能从采集器陷阱中跳出,能处理Wb服务器的其他 恶意行为 ·分布式:应该可以在多台机器上分布式运行 。可扩展性:添加更多机器后采集率应该提高 ·性能和效率:充分利用不同的系统资源,包括处理器、存储 器和网络带宽 ·优先抓取“有用的网页” ·新鲜度:对原来抓取的网页进行更新 。功能可扩展性:支持多方面的功能扩展,例如处理新的数 据格式、新的抓取协议等
信息检索与数据挖掘 2019/5/13 8 采集器必须具有的功能 • 礼貌性: Web服务器有显示或隐式的策略控制采集器的访问 • 只爬允许爬的内容、尊重 robots.txt • 鲁棒性: 能从采集器陷阱中跳出,能处理Web服务器的其他 恶意行为 • 分布式: 应该可以在多台机器上分布式运行 • 可扩展性: 添加更多机器后采集率应该提高 • 性能和效率: 充分利用不同的系统资源,包括处理器、存储 器和网络带宽 • 优先抓取“有用的网页” • 新鲜度: 对原来抓取的网页进行更新 • 功能可扩展性:支持多方面的功能扩展,例如处理新的数 据格式、新的抓取协议等
信息检索与数据挖掘 2019/5/13 9 礼貌性 Robots.txt源于1994年的协议,对爬取过程进行限制 htp:lwww.robotstxt..org/orig.html关于Robots.txt的说明 ·显式的礼貌:根据网站站长的说明,选择允许爬取 的部分进行爬取 。按robots.txt说的做,如下面写法的意思是:任何roboti都 不能访问“yoursite/temp/P”开头的网址,除了名叫 “searchengine的: □taobao.com https://www.taobao.com/robots.txt User-agent: User-agent:Baiduspider Disallow:/yoursite/temp/ Allow: /article Allow:/oshtml Disallow:/product/ User-agent:searchengine Disallow: User-Agent: Googlebot Disallow: Allow: /article Allow: /oshtml ·隐式的礼貌:即使没有特别的说明 8也应该频繁 Allow: /dianpu 的访问同一个网站 Allow: /oversea Allow: /list Disallow: User-agent:Bingbot
信息检索与数据挖掘 2019/5/13 9 礼貌性 • 显式的礼貌: 根据网站站长的说明,选择允许爬取 的部分进行爬取 • 按robots.txt说的做,如下面写法的意思是:任何robot都 不能访问 “/yoursite/temp/”开头的网址, 除了名叫 “searchengine”的: User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: • 隐式的礼貌: 即使没有特别的说明,也不应该频繁 的访问同一个网站 Robots.txt 源于1994年的协议,对爬取过程进行限制 http://www.robotstxt.org/orig.html 关于Robots.txt的说明
信息检索与数据挖掘 2019/5/13 10 改进后的采集器 采集的过程 多个 从URL池中取一个URL:抓 取URL对应的文档 分析该文档丛中提取指向其 它页面的链接 检查URL内容是否已经存在, 不存在就加入到索引中 爬取并解析了的 URL 种子页面 尚未发现的Web 待采集URL池 爬虫线程
信息检索与数据挖掘 2019/5/13 10 改进后的采集器 爬取并解析了的 URL 尚未发现的Web 种子页面 待采集URL池 爬虫线程 •采集的过程 •多个 •从URL池中取一个URL:抓 取URL对应的文档 •分析该文档从中提取指向其 它页面的链接 •检查URL内容是否已经存在, 不存在就加入到索引中
信息检索与数据挖掘 2019/5/13 11 采集器基本架构 DNS 文 URL 指纹 过滤器 集合 W 分析 抓取 内容 重复 URL URL 过滤 去重 待采集URL池
信息检索与数据挖掘 2019/5/13 11 采集器基本架构 WWW DNS 分析 内容 重复 ? 文档 指纹 URL 去重 URL 集合 待采集URL池 URL 过滤 过滤器 抓取