上岸文通大学 SHANGHAI JIAO TONG UNIVERSITY 第16章 网络搜索引擎 K 1日gG
第16章 网络搜索引擎
© 上岸文通大学 SHANGHAI JIAO TONG UNIVERSITY 搜索引擎概述 1日gG
搜索引擎概述
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。业-包ttp/1nt.a1 ibrary.con//1/boo/11b/1252985/91 ebfla6953e4ab5829478bde1ne52/6921b56232b7?e8b7b4分X9搜 P 文件E)编舒(但)查看()收藏夹(a)工具()杯助() 奇女规夹 色网络环境下的文科信息检索 正文234页¥ 202/234◆ +于 ©痛小 文字摘录 色打印 创铝↓下较 网读模式:目目昌 书内搜索 回国可 目录 》 》 学通:计p明 第16章l 网络搜索引擎 理器 16.1 搜索弓引多概述 16.1.1搜索引擎的工作原理 16.1.1.1搜索引擎的概念 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的 信息,在对信息进行组织和处理后,将处理后的信息显示给用户,为用户提供基于Wb平台的 检索服务的系统。 对于用户而言,搜索引擎提供一个包含搜索框的页面,用户在搜索框内输入词语,通过浏 览器提交给搜索引肇后,搜索引擎就会返回与用户所输入的内容相关的信息列表。 16.1.1.2搜索引擎的工作原理 搜索引擎的工作原理大致如下: 网环境下的文科信息检索 2019/5131 6
网络环境下的文科信息检索 2019/5/31 6
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件(E)编绿(但)查看()收藏夹(a)工具(D帮助() 奇女规夹 色刚络环境下的文科信息检索 正文234顶~202234◆ ⊙t放于 痛小文字摘录 打印石纠↓下载闵读模式:目目昌风 书内搜索 16.1.1.2搜索引擎的工作原理 搜索引擎的工作原理大致如下: 录 (1)抓取网页:每个独立的搜索号引繁都有自己的被称为“蜘蛛”之类(spider)的网页抓取程 >》 序。网页抓取程序顺着网页中的超链接,连续地抓取网页。被抓取的网页被称为“网页快照”。 由于互联网中超链接的应用很普遍,从理论上讲,从一定范围的网页出发,能搜集到绝大多数 的网页。 (2)处理网页:搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其 中,最重要的就是提取关键词,建立索引文件。此外,还包括去除重复网页、分析超链接、计算 网页的重要度。 (3)提供检索:用户输入关键词进行检索,搜索引整从索引数据库中找出与该关键词匹配 的网页。为了用户便于判断,除了网页标题和URL外,搜索引擎还会提供一段来自网页的摘 要以及其他信息。 16.1.2搜索引擎的类型 按照信息搜索方法和服务方式的不同,搜索引擎大致可分为:全文搜索引擎、目录式搜索 引擎、元搜索引擎等类型。 16.1.2.1-全文搜索引擎 全文搜索引擎:又称“关键词搜索引肇”、“机器人搜索引擎”、“自动搜录式搜索引擎”,是名 副其实的搜索引擎。这类搜索引擎利用网络Rob©t自动搜索技术对各种网络资源进行抽取、 标引、归并、排序,并创建可按关键词查询的Wb网页索引数据库。当用户输人检索词后,搜 索引擎会自动将其与存贮在网上的信息特征进行比较匹配,提供包含该关键词信息的所有网 址,以及通向该网站的链接。Googlet(谷歌)、“百度”即属此类。 优点:收录的信息量巨大,索引撕捏左细道士托典七次面然小位白一如 网络环境下的文科信息检索 2019/5131 7
网络环境下的文科信息检索 2019/5/31 7
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件E)编舒(但)查看()收藏夹(a)工具()标助() 奇女规夹 色网络环境下的文科信息检索 正文234页202■/234◆ ⊙+放于 缩小文字摘录 打印石创铝↓下载阅读模式:目目昌 书内搜索 安人及其巴同怎。 16.1.2搜索引擎的类型 录 >》 按照信息搜索方法和服务方式的不同,搜索引擎大致可分为:全文搜索引擎、目录式搜索 引擎、元搜索引擎等类型 16.1.2.1全文搜索引擎 全文搜索引整:又称“关键词搜索引擎”、“机器人搜索引擎”、“自动搜录式搜索引擎”,是名 副其实的搜索引繁。这类搜索引整利用网络R。bot自动搜索技术对各种网络资源进行抽取、 标引、归并、排序,并创建可按关键词查询的Wb网页索引数据库。当用户输人检索词后,搜 索引擎会自动将其与存贮在网上的信息特征进行比铰匹配,提供包含该关键词信息的所有网 址,以及通向该网站的链接。Google(谷歌)、“百度”即属此类。 优点:收录的信息量巨大,索引数据库规模大,耗费人力资源较小,信息更新速度快,适合 第16章网络搜索写引擎 203 生生给麦h占后同点白t2应水低.+同一上虚司哈法不同△由边己意数后4排 网络环境下的文科信息检索 2019/5131 8
网络环境下的文科信息检索 2019/5/31 8
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件(E)璃舒(但)查看()收燕夹(a)工具(D帮助() 奇女规夹 色两络环境下的文科信息检索 正文234顶 203234◆ ⊙t动于 ©痛小 文字摘录 打印创始◆下较同读模式:目目号网 书内搜索 第16章网络搜索弓引警 203 目 特性检索。缺点:返回信息量过多,查准率较低:对同一关键词的检索,不同全文搜索引擎反馈 >》 的结果相差很大,须从结果中进行筛选,费时费力。 16.1.2.2目录式搜索引擎 目录式搜索引擎:又称“目录索引”,其实只是按目录分类的网站链接列表而已,虽有搜索 功能,从严格意义上来讲,算不上真正的搜索引擎。这类“搜素引擎”是人工干预型搜索引整, 其数据库由人工建立,主要通过人工发现信息。编辑人员以某种分类体系为依据,按网络资源 的主要性质进行分类,将其分为若干主题。目录界面一般采用分级结构,可从基本的大类人 口,逐级向下访问,通过层层点击直至找到所需内容,也可利用目录提供的搜索功能直接查询 关键词。Yahoo(雅虎)、新浪分类目录搜索即属此类。 优点:网络资源经过人工筛选,查准率较高。只要按搜索引繁的分类体系,层层深人即可。 缺点:搜索范围较小,查全率较低:没有统一、科学的分类体系为依据,类目交叉,内容重复:需 投入较多的人力,难以跟上网络资源的增长步伐。 目前,目录式搜索引擎和全文搜索引整之间的界限越来越模糊,很多搜索引擎同时提供分 类和关键词检索两种方式。 16.1.2.3元搜索引擎 元搜索引擎:是指建立在多个搜索引擎基础之上的多元集成型搜索引擎。这类搜索引繁 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。WebCrawler、搜星 搜索引擎即属此类。 元搜索引擎可分为:搜索引擎目录和多元搜索引肇两类。 搜索弓引整目录是将主要的搜索马引整集中起来,并按类型或检索问顺第编排,组织成目最, 网络环境下的文科信息检索 2019/5131 9
网络环境下的文科信息检索 2019/5/31 9
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件(E)编绿(但)查看()收藏夹(a)工具(D帮助() 奇女规夹 色网络环境下的文科信息检索 正文234顶 203234◆ ⊙+放天缩小文字摘录 打印石纠↓下数网读模式:目目昌 书内搜索 16.1.2.3元液原李 元搜索引擎:是指建立在多个搜索引擎基础之上的多元集成型搜索引擎。这类搜索引繁 录 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。WebCrawler、搜星 7 搜索引擎即属此类。 元搜索引擎可分为:搜索引擎目录和多元搜索引擎两类。 搜索引擎目录是将主要的搜索引整集中起来,并按类型或检索问题等编排、组织成目录, 相当于传统文献的书目之书目、索引之索引。其功能是指号引用户找到合适的搜索引繁。 多元搜索引整是将多个搜索引擎集成在一起,提供一个统一的检索界面,接收并处理查询 提问。一次查询可以同时检索多个独立搜索引整,再经过聚合、去重之后,输出检索结果。使 用元搜素引擎能够大大提高网页覆盖率。 16.2搜表弓引警至要 搜索引肇从1990年延生,到1993年大批涌现,发展至今,已有3000多种。 中国互联网络信息中心(China Internet Network Information Center,简称CNNIC)发布 的《CNNIC中国搜索引擎市场调查报告》(2006)①显示:北京(京)、上海(沪)和广州(穗)三地 搜索引整用户的首选搜索引擎:百度,占62.1%,谷歌(Google),占25.3%,雅虎搜索,占 4.8%,搜狐搜狗(Sogou),占3.2%:新浪爱问(iAsk),占1.2%:其他搜索引擎,占3.3%。 《CNNIC搜索引擎市场调查报告》(2007)②显示:中国(全国)搜索用户的搜索引肇首选 率:百度,占74.5%:谷歌(Google),占14.3%:搜孤,占2.86:雅虎系,占2.1%。 中国高端用户首选百度的用户达47.726:首选Google的达42.32%。 网络环境下的文科信息检索 2019/5131 10
网络环境下的文科信息检索 2019/5/31 10
C网络环境下的文科信息检紫一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件(E)璃舒(但)查看()收燕夹(a)工具(D帮助() 奇女规夹 福网钻环境下的文科信息检索 正文234页 204234◆ +动天痛小 文字摘录 打印石纠↓下数网读模式:目目昌 书内搜索 目 16.2.1Go0gle(谷歌) Google(谷歌)被公认为目前全球规模最大的搜索引繁(见图16-1)。它提供简单易用的免 费服务,用户可在瞬间得到相关的搜索结果。该搜索引擎被誉为“网络上寻找答案的终极杀 手”。 网址:http://www.Google.com/ Google 形编 5好人 所有再其行中文州汽合能体中文料河。中雪的同页 亡费t超~Co9地大全C0o种comn里nah Ge娘为我的主其 图16-1 Google主页/关键词检索界面 网络环境下的文科信息检索 2019/5131 11
网络环境下的文科信息检索 2019/5/31 11
Google 感网址: https://www.google.com/ https://www.google.com.hk https://www.google.com.tw/ https://www.google.com.sg https://www.google.co.jp 网络环境下的文科信息检索 2019/5131 12
网络环境下的文科信息检索 2019/5/31 12 Google 网址 : https://www.google.com/ https://www.google.com.hk https://www.google.com.tw/ https://www.google.com.sg/ https://www.google.co.jp/ ……
GGoogle -阿x ←→eBhttps:/www.goog1e.coa ☆三 Gmad图片用 Google G0oge罄套 羊气不错 Google提供:English 广告高务Goog0大金 棍私机条教设置 网络环境下的文科信息检索 2019/5131 13
网络环境下的文科信息检索 2019/5/31 13