第二章网络信息采集技术介绍作业讲评 1.选释盟 (1)C (2)BC (3)BCD (4)ABCD (5)ABC 注意:第1愿的备选答案中的四个选择项军是网路信息采集的适用原则,对旧信息除是它的 时效性原测。其它3个原则也要求认真掌握。 第2题中选择答案C,其中A是用户获取信息比较别动,而不是主动,这是信息推送技术的一 个主要特点,它是一种信息获取技术,但对用户米说比较核动,不能透邦内容。 第4愿,网络信息采集软件,教材中使用的是G工,网络信息采集大师,这是比较典型的一 款采集信息,信息分类、数据输出的实用软件。在使用这个软件的时候注意它的“数据提取规则” 项下的设置中有一个“前标识符”“后标识符”的编写原则,要注意网页一定要在tet载件的到 览器中打开,然后点击“源文件”按钮米分析数据。查找正确的前后标肌符。一定要多加陈习才能 做到熟练运用。 2.判斯题 (1)(√)(2)()(3)(×)(4)(√)(5)(√) 第3题,b信息以超文本硅接方式组飘。基本组织单元应该是信息节点,而不是字符串,信 息节点之间通过链接进行联系,通过链接从一个信息节点到另一个信息节点, 3.思考题 (1)答:网铬信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及深集 手段的现代化。网络资源采集原则主要有全面性原则、针对性原则、时效性原则、选择性原则、全 程性原则。 (2)答:严格的资源深集标准是信息责源可掌性的关量保障之一。可以从内容和形式两个方面 对网铬信息宽源的质量进行评价。 内容标准主要包括权城性。实用性、准确性,时效性、鞋特性、全面性等。 形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的页面设 计. 挂意:以上两道愿挥是本章应该掌握的重点问圈,希望同学们能在理解的基础上完全拿暴。另 外,第3恩也是本章的一个重点内容,课后要多风读教材中提到的知识。 (3)答:目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。 人工采集是通常的网格信息采集方式。常见的人工获取网洛信息的主要方式有:通过相关领城 的学科主题指南或学科信息门户进行搜素、使用搜索引草采集信息、利用专业网站查找、限踪综合 性门户的相关栏目、跟踪相关的重要国际组织或机构的网站、了解相关学科领域的专家并搜寻他们 的个人网站、搜索和如入相关领域的重要主题性惠件列表等。人工采集方法有一个共同点:用户手 工键入一个L或电子邮件地址。这些客户端软作就蛙接到信息源。用户可以从信息源上获取所需 信息
1 第二章 网络信息采集技术介绍 作业讲评 1.选择题 (1)C (2)BC (3)BCD (4)ABCD (5)ABC 注意:第 1 题的备选答案中的四个选择项都是网络信息采集的适用原则,对旧信息删除是它的 时效性原则。其它 3 个原则也要求认真掌握。 第 2 题中选择答案 BC,其中 A 是用户获取信息比较别动,而不是主动,这是信息推送技术的一 个主要特点,它是一种信息获取技术,但对用户来说比较被动,不能选择内容。 第 4 题,网络信息采集软件,教材中使用的是 NETGET,网络信息采集大师,这是比较典型的一 款采集信息、信息分类、数据输出的实用软件。在使用这个软件的时候注意它的“数据提取规则” 项下的设置中有一个“前标识符”“后标识符”的编写原则,要注意网页一定要在 netget 软件的浏 览器中打开,然后点击“源文件”按钮来分析数据,查找正确的前后标识符。一定要多加练习才能 做到熟练运用。 2.判断题 (1)(√) (2)(√) (3)(×) (4)(√) (5)(√) 第 3 题,Web 信息以超文本链接方式组织,基本组织单元应该是信息节点,而不是字符串,信 息节点之间通过链接进行联系,通过链接从一个信息节点到另一个信息节点。 3.思考题 (1)答:网络信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及采集 手段的现代化。网络资源采集原则主要有全面性原则、针对性原则、时效性原则、选择性原则、全 程性原则。 (2)答:严格的资源采集标准是信息资源可靠性的关键保障之一。可以从内容和形式两个方面 对网络信息资源的质量进行评价。 内容标准主要包括权威性、实用性、准确性、时效性、独特性、全面性等。 形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的页面设 计。 注意:以上两道题都是本章应该掌握的重点问题,希望同学们能在理解的基础上完全掌握。另 外,第 3 题也是本章的一个重点内容,课后要多阅读教材中提到的知识。 (3)答:目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。 人工采集是通常的网络信息采集方式。常见的人工获取网络信息的主要方式有:通过相关领域 的学科主题指南或学科信息门户进行搜索、使用搜索引擎采集信息、利用专业网站查找、跟踪综合 性门户的相关栏目、跟踪相关的重要国际组织或机构的网站、了解相关学科领域的专家并搜寻他们 的个人网站、搜索和加入相关领域的重要主题性邮件列表等。人工采集方法有一个共同点:用户手 工键入一个 URL 或电子邮件地址,这些客户端软件就链接到信息源,用户可以从信息源上获取所需 信息
信息采集技术是在用户设定某些信息源的某类信息后,采集器就自动地定期从这些信息源中取 出用户所需的最新信息。这是一种定向收集和定题收集相结合的主动的、限除式的多向收集,它的 特点是获取信息主动、灵清。 信息推送也是一种信息获取技术。网路公司通过一崖的技术标准或协议,从网上的信息题成信 息制作商获取信息,经过加工之后,通过固定的领道向用户发送信息。这种方式的特点是用户获取 信息比较被动,只能定制白己的频道,信息的来源以及信息的具体内容往往不能灵话地控制: 网络信息资源采集的策略主要有以下几种:《1)限制采集的深度:(2)限制某些蛙接:(3)限 制授素跳转:(4)限制采集的文件类型,(5)采集成不采集某些目录下的文作,除此外,还可过滤 国的信息、限制采集文作的最大长度,限制站点采集的最大页数等等。 (4)答:目前,网铬信息采集技术不断发展,取得了很大的进步。 资源定位检案技术:互联网是以TP/IP和HTTP为核心面爱展起来的。L俗称网址,是描述 网络信息资源的字符串一一统一贤源定位符。网路数据库、网上出版物、网格机构等有因定的阻。 联机数据库检索中心,期刊、报纸等电子出版物,图书算、高校、企业、政府等机构都有难一明确 的网址。利用网洛测克器(如)查找网址,可以快捷、方便地获得针对性极强的“对口”网路信息, “超链接”搜需技术:中信息以超文木链接方式组织。同一主题或相关的信息因超级链接构 成了庞大的无形的跳跃式的信息网。人们可以根据它顺腰颜瓜,在网上自由地测克信息,边浏蓖点 击边分析棉选,一步一步根据链接典转查阅,直至获得令人满意的结果。 网络搜素引摩技术:艘索引摩技术集中体现在四个方面:访问、阅读、整理b信息的信息采 集,建立包含关健信息的素引数据库,根据用户请求查找素引数据库相关文档的搜索软件。以及为 用户是供可视化的查询输入和结果输出界面的用户接口。目牌,实现网路信息检素的授素引要技术 可以分为两类,即网站分类目录技术和全文案引检索技术, 中挖据技术:是从■及其相关的资源和行为中抽取有用的模式和隐含信息,利用b技术 中的文本总结技术,可以从文档中抽取出关键信息,以简洁的形式对b文药的信息进行摘要或表 示,使用户大致了解吨文档的内容,对其相关性进行取含。 除以上技术外,知识发暖技术,通用信息检索技术、自燃语言处理技术等也有了很大的发展。 (5)答:随着计算机及通调技术的发展,网路信息采集技术也在不断发展。网洛信息采集技术 的发展趋势主要表现在以下几方面: 检索工具的多语种化:多语种检索即提供多语种的检素环境供检索者选择,系统按折定的语种 进行检索并输出检素结果。许多搜索引攀露在构适跨语言搜常引肇。 检索工具的惊合化和专业化:综合性的检常工具要求面向一切学科,跨越所有领线,提供全面 的信息。另一方面,由于有些用户对所需信息的深度、内容的精确性和相关性要求较高,为了提高 检素质量,专业网络检索工具必须面向特定的专业额域。满足专业用户的信息需求。 检索寻址的内容化:基于内容的检素是指根据媒体对象的语文,特征进行检索,利用多爆体信 息分析处理程序,对其内容进行全面准确的标月,建立“内容一对象”关系型素引多煤体数据库。 检索时计算机程序自动获取用户查询内容,然后与多煤体素引库匹配并提供内容完全一数的检素结 2
2 信息采集技术是在用户设定某些信息源的某类信息后,采集器就自动地定期从这些信息源中取 出用户所需的最新信息。这是一种定向收集和定题收集相结合的主动的、跟踪式的多向收集,它的 特点是获取信息主动、灵活。 信息推送也是一种信息获取技术。网络公司通过一定的技术标准或协议,从网上的信息源或信 息制作商获取信息,经过加工之后,通过固定的频道向用户发送信息。这种方式的特点是用户获取 信息比较被动,只能定制自己的频道,信息的来源以及信息的具体内容往往不能灵活地控制。 网络信息资源采集的策略主要有以下几种:(1)限制采集的深度;(2)限制某些链接;(3)限 制搜索跳转;(4)限制采集的文件类型;(5)采集或不采集某些目录下的文件。除此外,还可过滤 旧的信息、限制采集文件的最大长度、限制站点采集的最大页数等等。 (4)答:目前,网络信息采集技术不断发展,取得了很大的进步。 资源定位检索技术:互联网是以 TCP/IP 和 HTTP 为核心而发展起来的。URL 俗称网址,是描述 网络信息资源的字符串——统一资源定位符。网络数据库、网上出版物、网络机构等有固定的 URL。 联机数据库检索中心,期刊、报纸等电子出版物,图书馆、高校、企业、政府等机构都有唯一明确 的网址。利用网络浏览器(如 IE)查找网址,可以快捷、方便地获得针对性极强的“对口”网络信息。 “超链接”搜索技术:Web 信息以超文本链接方式组织,同一主题或相关的信息因超级链接构 成了庞大的无形的跳跃式的信息网。人们可以根据它顺藤摸瓜,在网上自由地浏览信息,边浏览点 击边分析筛选,一步一步根据链接跳转查阅,直至获得令人满意的结果。 网络搜索引擎技术:搜索引擎技术集中体现在四个方面:访问、阅读、整理 Web 信息的信息采 集,建立包含关键信息的索引数据库,根据用户请求查找索引数据库相关文档的搜索软件,以及为 用户提供可视化的查询输入和结果输出界面的用户接口。目前,实现网络信息检索的搜索引擎技术 可以分为两类,即网站分类目录技术和全文索引检索技术。 web 挖掘技术:是从 www 及其相关的资源和行为中抽取有用的模式和隐含信息,利用 web 技术 中的文本总结技术,可以从文档中抽取出关键信息,以简洁的形式对 web 文档的信息进行摘要或表 示,使用户大致了解 web 文档的内容,对其相关性进行取舍。 除以上技术外,知识发现技术、通用信息检索技术、自然语言处理技术等也有了很大的发展。 (5)答:随着计算机及通讯技术的发展,网络信息采集技术也在不断发展。网络信息采集技术 的发展趋势主要表现在以下几方面: 检索工具的多语种化:多语种检索即提供多语种的检索环境供检索者选择,系统按指定的语种 进行检索并输出检索结果。许多搜索引擎都在构造跨语言搜索引擎。 检索工具的综合化和专业化:综合性的检索工具要求面向一切学科,跨越所有领域,提供全面 的信息。另一方面,由于有些用户对所需信息的深度、内容的精确性和相关性要求较高,为了提高 检索质量,专业网络检索工具必须面向特定的专业领域,满足专业用户的信息需求。 检索寻址的内容化:基于内容的检索是指根据媒体对象的语义、特征进行检索,利用多媒体信 息分析处理程序,对其内容进行全面准确的标引,建立“内容—对象”关系型索引多媒体数据库。 检索时计算机程序自动获取用户查询内容,然后与多媒体索引库匹配并提供内容完全一致的检索结
果。 检索工具的智能化:就是果用人工智能进行信息检需的技术。它可以模拟人脑的思雄方式,分 析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检需。智陵检 索技术主要体现在语义理解、知识管理和知识检索三个方面
3 果。 检索工具的智能化:就是采用人工智能进行信息检索的技术。它可以模拟人脑的思维方式,分 析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。智能检 索技术主要体现在语义理解、知识管理和知识检索三个方面