
期末在线自测题3 一、单选题(每小题2分.共30分) 1.下列椰顷不属于大数据的发展历程?D (A)成熟期 ()南芽期 (C)大规模应用期 (D)送茫期 2.分布式文件系统指的是什么?A ()把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群 (8) 用于在Hao0p与传统数递库之间进行数据传速 (C) 一个高可用的,高可靠的。分布式的海量日志采集,聚合和传输的系统 (D】一种高吞吐量的分布式发布订阅消息系统,可以处建消费者规模的网站中的所 有动作流数据 3.下面对SecondaryNameNode第二名称节点的描述,得个是错误的?A (A) SecondaryNameNod一般是并行运行在多合机整上 () 它是用菜保有名称节点中对HD「S元数据信息的备份,并减少名称节点重启的 时问 (C) SecondaryN归m阳No均通过HTTPGET方式从NaT阳Node上获取到Fsimage和 EL0g文件,并下载到本地的相应目录下 (D】SecandaryNameNode是HDFS架构中的一个组成都分 4.下面关于主服务器Mas主要负责表和Re9i0n的管理工作的描述,幕个是错误的?D (A)在Region分裂成合并后,负责重新满整Re)on的分有 (旧】对发生故障失效的Region服务摆上的Region进行迁移 ()管理用户对表的增加、删除、修改、查询等操作 (D】不支持不同Region服务得之问的负载均衡 5.下列关于键值:据库的描述,得一项是错误的?D (A)扩展性好,灵活性好 (B)大量写操作时性能高 (C)无法存储结构化信息 (D】条件查询效率高 6.下列关于云数据岸的描述,哪个是销误的?C (A) 云数据库是都署和虚抱化在云计算环境中的数据库 (8) 云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法 (C)云数据床价格不菲,蜂护费用极共昂贵 (D)云数据库具有高可扩展性,高可用性,采用多租形式和支持资源有效分发等特点 7.下列关于阿里云DS的说法,哪个是错误的?D (A)RDS是阿里云提供的关系型数据库服务 〔旧)RDS由专业数据库管理团队维护 (C)RDS具有安全稳定、数据可靠、白动备份 (D)RD5实例,是用户购买DS服务的基本单位.在实例中,用户只能包创建一个数 裙库
期末在线自测题 3 一、单选题(每小题 2 分,共 30 分) 1. 下列哪项不属于大数据的发展历程?D (A) 成熟期 (B) 萌芽期 (C) 大规模应用期 (D) 迷茫期 2. 分布式文件系统指的是什么?A (A) 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群 (B) 用于在 Hadoop 与传统数据库之间进行数据传递 (C) 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 (D) 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所 有动作流数据 3. 下面对 SecondaryNameNode 第二名称节点的描述,哪个是错误的?A (A) SecondaryNameNode 一般是并行运行在多台机器上 (B) 它是用来保存名称节点中对 HDFS 元数据信息的备份,并减少名称节点重启的 时间 (C) SecondaryNameNode 通过 HTTPGET 方式从 NameNode 上获取到 FsImage 和 EditLog 文件,并下载到本地的相应目录下 (D) SecondaryNameNode 是 HDFS 架构中的一个组成部分 4. 下面关于主服务器 Master 主要负责表和 Region 的管理工作的描述,哪个是错误的?D (A) 在 Region 分裂或合并后,负责重新调整 Region 的分布 (B) 对发生故障失效的 Region 服务器上的 Region 进行迁移 (C) 管理用户对表的增加、删除、修改、查询等操作 (D) 不支持不同 Region 服务器之间的负载均衡 5. 下列关于键值数据库的描述,哪一项是错误的?D (A) 扩展性好,灵活性好 (B) 大量写操作时性能高 (C) 无法存储结构化信息 (D) 条件查询效率高 6. 下列关于云数据库的描述,哪个是错误的?C (A) 云数据库是部署和虚拟化在云计算环境中的数据库 (B) 云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法 (C) 云数据库价格不菲,维护费用极其昂贵 (D) 云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点 7. 下列关于阿里云 RDS 的说法,哪个是错误的?D (A) RDS 是阿里云提供的关系型数据库服务 (B) RDS 由专业数据库管理团队维护 (C) RDS 具有安全稳定、数据可靠、自动备份 (D) RDS 实例,是用户购买 RDS 服务的基本单位,在实例中,用户只能创建一个数 据库

8.下列关于Map和Reduce函数的招述,界个是错误的?C (A)Map将小数据集进一步解析成一批:对,输入Map函数中进行处理 (B)Mp每一个输入的会输出一批。是计算的中问 结果 (C) Reduoe输入的中问结果k2Lsv2)P中的Lsw2)表示是一批属于不同k2 的value (D)Reduce输入的中问结果中的Usy2)表示是一批属于同一个k2 的value 9.下列那个不属于YAQN体系结构中ApplicationMaster的功能?D (A)任务调度、监控与客钠 (8) 为应用程序申请资源 〔C)将中请的资源分配给内部任务 (D》处理来白Res0 urceManger的命令 10.下面关于Hwe的描述铺误的是:(D) A,Hlwe是一个构建在Hadoop之上的数据仓库工具 B.he是由Facebook公司开发的 C,He在某种程度上可以看作是用户编程接口,其本身并不存储和处建数据 D.He定义了简单的类似SQL的查询语言—HeQL,它与大都分SQL语法无法兼客 11.在S0ak生态系统组件的应用场景中,下列哪项说法是错误的7C A)S即ark应用在复杂的批量数据处理 B)S0 ark SQL是基于历史数据的交互式查询 (C)Spark Streaming是基于历史数据的数批挖掘 DyGrachx是图结构数据的处理 12.下列关于S0m设计思想,描述有误的是7A (A)S1orm将Streams的状态转换过程抽象为Spout (B)Sorm认为每个Seam都有一个源头,并把这个源头抽象为Sp0ut (C)Sorm将Spouts和Bols组成的网结抽象成Topolo (0} To0 ology里面的每个处理组件(S0ot或Bot)都包含处理逐辑,而组件之问 的连接则表示数据流动的方向 13.Fk常见的应用场景,不包括:(D) A.事件整动型应用 B.数据分析应用 C,数据流水线应用 D,正反债应用 14.下列哪个不属于PageRank算法在Pregel和MapReduce中实现方式的区别7D (A)Pregel将PageRank处理对象看成是连通图,而apReduce则将其看成是键值 对 ()Prg将计算细化到顶点.同时在顶点内控制循环迭代次数 (C)MpR●duoe将计算批量化处理,按任务进行循环选代控制 (D)图算法如果用Preg阳实现,需要一系列的Pre的调用 15.下列哪个说法是错误的?D (A) 无论是亚马进还是N区,其推荐系统的基况都是ltemCF算法 (旧)心mCF算法是给日标用户推荐那些和他们之前喜欢的物品相微的物品 (C) eCF算法主要通过分析用户的行为记录来计算物品之间的相似度
8. 下列关于 Map 和 Reduce 函数的描述,哪个是错误的?C (A) Map 将小数据集进一步解析成一批对,输入 Map 函数中进行处理 (B) Map 每一个输入的会输出一批。是计算的中间 结果 (C) Reduce 输入的中间结果中的 List(v 2 )表示是一批属于不同 k 2 的 value (D) Reduce 输入的中间结果中的 List(v 2 )表示是一批属于同一个 k 2 的 value 9. 下列哪个不属于 YARN 体系结构中 ApplicationMaster 的功能?D (A) 任务调度、监控与容错 (B) 为应用程序申请资源 (C) 将申请的资源分配给内部任务 (D) 处理来自 ResourceManger 的命令 10. 下面关于 Hive 的描述错误的是:(D) A.Hive 是一个构建在 Hadoop 之上的数据仓库工具 B.Hive 是由 Facebook 公司开发的 C.Hive 在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据 D.Hive 定义了简单的类似 SQL 的查询语言——HiveQL,它与大部分 SQL 语法无法兼容 11. 在 Spark 生态系统组件的应用场景中,下列哪项说法是错误的?C (A)Spark 应用在复杂的批量数据处理 (B)Spark SQL 是基于历史数据的交互式查询 (C)Spark Streaming 是基于历史数据的数据挖掘 (D)GraphX 是图结构数据的处理 12. 下列关于 Storm 设计思想,描述有误的是?A (A) Storm 将 Streams 的状态转换过程抽象为 Spout (B) Storm 认为每个 Stream 都有一个源头,并把这个源头抽象为 Spout (C) Storm 将 Spouts 和 Bolts 组成的网络抽象成 Topology (D) Topology 里面的每个处理组件(Spout 或 Bolt)都包含处理逻辑, 而组件之间 的连接则表示数据流动的方向 13. Flink 常见的应用场景,不包括:(D) A.事件驱动型应用 B.数据分析应用 C.数据流水线应用 D.正反馈应用 14. 下列哪个不属于 PageRank 算法在 Pregel 和 MapReduce 中实现方式的区别?D (A) Pregel 将 PageRank 处理对象看成是连通图,而 MapReduce 则将其看成是键值 对 (B) Pregel 将计算细化到顶点,同时在顶点内控制循环迭代次数 (C) MapReduce 将计算批量化处理,按任务进行循环迭代控制 (D) 图算法如果用 Pregel 实现,需要一系列的 Pregel 的调用 15. 下列哪个说法是错误的?D (A) 无论是亚马逊还是 Netflix,其推荐系统的基础都是 ItemCF 算法 (B) ItemCF 算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品 (C) ItemCF 算法主要通过分析用户的行为记录来计算物品之间的相似度

(D)实现UCF算法的关健步囊是计算物品与物品之间的相攸度 二、多选题(每小题4分,共20分)】 1.物联网主要由下列哪些部分组成的?ABCD 〔A)应用层 (旧)处理层 (C)感知层 (D)网路层 2.关系数据库已经流行银多年.并且Hadoop已经有了HDFS和M阳cRedu,为什么需要 HBase ABCD (A)Had0op可以很好地解决大规模数据的离线批量处理阿题,但是.受限于Hadoop M即Reduoe编程框架的高延迟数据处理机制,使得Ha3Op无法满足大规模数 解实时处理应用的需求上 () HDFS面向批量访问模式,不是随机访问模式 传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能 问题 (D】传统关系数据库在数据结构变化时一般需要停机蜂护:空列液费存储空问 3.下列关于云数据岸的描述,哪些是正确的?ABCD (A)Amazon是云数摆库市场的先行者 (B)Google C1 oud SQL是谷歌公司推出的基于ySQL的云数据库 (C)从数据模型的角来说。云数据库并非一种全新的数据库技术 (D)云数据库并没有专属于白己的数据模型 4.下列哪些属于Hadoop20相对于Hadoop1.0的改进7ABCD (A)设计了HDFS HA (8) 提供名称节点热备机制 (C) 设计了HDFS Federation.管理多个命名空间 (D)设计了新的资源管理E架YARN 5.Storm具有以下些特点?ABCD (A) 整合性:S0m可方便地与队列系统和数据序系统进行整合 ()篇易的AP:Stom的AP例在使用上即简单又方便 (C)容性:Storm可白动进行故薄节点的重启、任务的重新分配 (0) 可扩展性:St0m的并行特性使其可以运行在分布式集群中 三、判断题(每小题3分,共30分) 1物联网的关键技术包括:识别和感知技术、网络与通信技术、数据挖据与胞合技术和信息 处理一体化技术。(×) 2.客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了客户端。(√) 3.BgTe起初用于解决典型的互联网搜索问题。〔√) 4.RDBM5借励于索引机制可以实现快速查询.很多W0SQL数深库没有面向复杂查询的索
(D) 实现 UserCF 算法的关键步骤是计算物品与物品之间的相似度 二、多选题(每小题 4 分,共 20 分) 1. 物联网主要由下列哪些部分组成的?ABCD (A) 应用层 (B) 处理层 (C) 感知层 (D) 网络层 2. 关系数据库已经流行很多年,并且 Hadoop 已经有了 HDFS 和 MapReduce,为什么需要 HBase?ABCD (A) Hadoop 可以很好地解决大规模数据的离线批量处理问题,但是,受限于 Hadoop MapReduce 编程框架的高延迟数据处理机制,使得 Hadoop 无法满足大规模数 据实时处理应用的需求上 (B) HDFS 面向批量访问模式,不是随机访问模式 (C) 传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能 问题 (D) 传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间 3. 下列关于云数据库的描述,哪些是正确的?ABCD (A) Amazon 是云数据库市场的先行者 (B) Google Cloud SQL 是谷歌公司推出的基于 MySQL 的云数据库 (C) 从数据模型的角度来说,云数据库并非一种全新的数据库技术 (D) 云数据库并没有专属于自己的数据模型 4. 下列哪些属于 Hadoop2.0 相对于 Hadoop1.0 的改进?ABCD (A) 设计了 HDFS HA (B) 提供名称节点热备机制 (C) 设计了 HDFS Federation,管理多个命名空间 (D) 设计了新的资源管理框架 YARN 5. Storm 具有以下哪些特点?ABCD (A) 整合性:Storm 可方便地与队列系统和数据库系统进行整合 (B) 简易的 API:Storm 的 API 在使用上即简单又方便 (C) 容错性:Storm 可自动进行故障节点的重启、任务的重新分配 (D) 可扩展性:Storm 的并行特性使其可以运行在分布式集群中 三、判断题(每小题 3 分,共 30 分) 1. 物联网的关键技术包括:识别和感知技术、网络与通信技术、数据挖掘与融合技术和信息 处理一体化技术。(×) 2. 客户端是用户操作 HDFS 最常用的方式,HDFS 在部署时都提供了客户端。(√) 3. BigTable 起初用于解决典型的互联网搜索问题。(√) 4. RDBMS 借助于索引机制可以实现快速查询,很多 NoSQL 数据库没有面向复杂查询的索

引。(V) 5.Mnes编的数摆库模式s九ema)只能在未运行前静态重配置。(×】 6YAN可以实现·一个集群多个框架”,即在一个集群上部著一个统一的资源调度管理框 架。(V) 7.在Hive HA中,在Hadoo0集群上构建的数据仓库是由单个Hwe实例法行管理的。() 8.S即ak生态系统组件MLb的应用场景是基于历史数据的交互式查询。(×】 9.Spark Streaming可以实现毫秒级响应.而Flink只能实现秒级响应。〔x】 10.U2rCF算法推荐的是那些和目标用户有共同兴题爱好的其他用户所喜欢的物品。(√) 四、简答题(每小题10分,共20分)】 1试述在Hado0p体系架构中HBa50与其他组成部分的相互关系。 答:HBae利用Hadoop MapReduce来处理HBae中的海量数据,实现高性能计算:利用 Z0Ok阳0r作为协同眼务,实现稳定服务和失败恢复:使用HDFS作为高可靠的底层存储。 利用廉价集群程供海量数据存储能力:SqO0p为HB阳se的底层数据导入功能,Pg和He为 HBse提供了高层语言支持,HBase是igTabl的开源实现。 2.S印ak已打造出结构一体化,功能多样化的大数据生态系统.试透5ak的生意系统, 答:Sk的设计遵循一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系 统.既能够提供内存计算框架。也可以支特SQL即席查询、实时流式计算、机器学习和图 计算等。S即ak可以郎署在资源管理露YARN之上,提供一站式的大数裙解决方案。因此 S即3k所提供的生态系统同时支持批处理、交互式查询和流数据处理
引。(√) 5. Mnesia 的数据库模式(schema)只能在未运行前静态重配置。(×) 6. YARN 可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框 架。(√) 7. 在 Hive HA 中,在 Hadoop 集群上构建的数据仓库是由单个 Hive 实例进行管理的。(×) 8. Spark 生态系统组件 MLlib 的应用场景是基于历史数据的交互式查询。(×) 9. Spark Streaming 可以实现毫秒级响应,而 Flink 只能实现秒级响应。(×) 10. UserCF 算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品。(√) 四、简答题(每小题 10 分,共 20 分) 1.试述在 Hadoop 体系架构中 HBase 与其他组成部分的相互关系。 答: HBase 利用 Hadoop MapReduce 来处理 HBase 中的海量数据,实现高性能计算;利用 Zookeeper 作为协同服务,实现稳定服务和失败恢复;使用 HDFS 作为高可靠的底层存储, 利用廉价集群提供海量数据存储能力; Sqoop 为 HBase 的底层数据导入功能,Pig 和 Hive 为 HBase 提供了高层语言支持,HBase 是 BigTable 的开源实现。 2. Spark 已打造出结构一体化,功能多样化的大数据生态系统,试述 Spark 的生态系统。 答:Spark 的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系 统,既能够提供内存计算框架,也可以支持 SQL 即席查询、实时流式计算、机器学习和图 计算等。Spark 可以部署在资源管理器 YARN 之上,提供一站式的大数据解决方案。因此, Spark 所提供的生态系统同时支持批处理、交互式查询和流数据处理