
期末在线自测题2 一、单选题(每小题2分,共30分) 1下面郴个选项属干大数据技术的“数据存储和管理:技术层直的功能?A (A)利用分布式文件系统、数超仓岸、关系数据库等实现对结构化、半结构化和丰结 构化海量数见的存储和管理 () 利用分布式并行编程模型和计算框菜,结合机器学习和数据控据算法.实现对海 量数据的处理和分析 (C) 构建隐私数据保护体系和数据皮全体系,有效保护个人隐私和数据安全 (D]把实时采集的数据作为流计算系统的输入,进行实处理分析 2在Hadoop项日结构中,MapRedu知指的是什么?A (A) 分布式并行编程模型 《8) 迹计算框架 (C) Hadocp上的工作流管理系镜 《D】提供分布式协调一数性里务 3下列零一项不属于HD5采用抽象的扶隔念帮米的好处?C 《A) 简化系统设计 (8) 支持大规极文件存储 (c) 大的跨平台漾容性 (D) 适合数据备份 4美于HB的8的三层结构中各层次的名称和作用的说法,椰个是结误的?A (A)Z0 okeeper文件记录了用户数据表的R%gi0n位置信息 (8) -RO0T-表记素了META表的ggn位置信息 (c) META表保存了HBa5阳中所有用户数据表的Region位置信息 (D] Zookeeper文件记录了-ROOT-表的位置信息 5下列椰一项不属于N0SQL的四大类型7D A) 文格数据库 图数据库 (C) 列族数地库 《D】时间问置数据库 60SQL数据库的三大理论基石不包括哪项?D 风)最终一敢性 阳CAP (CJBASE (DACID 7.下列关于UMP系统功就的说法,哪个是错误的?D (A) 充分利用主从库实现用户读写操作的分离,实现负双均衔 《)UMP系统实规了对于用户透明的读写分离功能 (C) UWP采用的两种资源隔离方式(用Cgroup限制MSQ进程资源和在Pr0对服 务裤端限制QPS引 《D]UMP系统只设计了一种机制来保证数据安全 8下列关于MhpR0d网的说法,哪个描送是错误的?D
期末在线自测题 2 一、单选题(每小题 2 分,共 30 分) 1. 下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A (A) 利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结 构化海量数据的存储和管理 (B) 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海 量数据的处理和分析 (C) 构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 (D) 把实时采集的数据作为流计算系统的输入,进行实时处理分析 2. 在 Hadoop 项目结构中,MapReduce 指的是什么?A (A) 分布式并行编程模型 (B) 流计算框架 (C) Hadoop 上的工作流管理系统 (D) 提供分布式协调一致性服务 3. 下列哪一项不属于 HDFS 采用抽象的块概念带来的好处?C (A) 简化系统设计 (B) 支持大规模文件存储 (C) 强大的跨平台兼容性 (D) 适合数据备份 4. 关于 HBase 的三层结构中各层次的名称和作用的说法,哪个是错误的?A (A) Zookeeper 文件记录了用户数据表的 Region 位置信息 (B) -ROOT-表记录了.META.表的 Region 位置信息 (C) .META.表保存了 HBase 中所有用户数据表的 Region 位置信息 (D) Zookeeper 文件记录了-ROOT-表的位置信息 5. 下列哪一项不属于 NoSQL 的四大类型?D (A) 文档数据库 (B) 图数据库 (C) 列族数据库 (D) 时间戳数据库 6. NoSQL 数据库的三大理论基石不包括哪项?D (A)最终一致性 (B)CAP (C)BASE (D)ACID 7. 下列关于 UMP 系统功能的说法,哪个是错误的?D (A) 充分利用主从库实现用户读写操作的分离,实现负载均衡 (B) UMP 系统实现了对于用户透明的读写分离功能 (C) UMP 采用的两种资源隔离方式(用 Cgroup 限制 MySQL 进程资源和在 Proxy 服 务器端限制 QPS) (D) UMP 系统只设计了一种机制来保证数据安全 8. 下列关于 MapReduce 的说法,哪个描述是错误的?D

(A) MapRedu0具有广泛的应用.比如关系代数运算、分组与聚合运算等 《) 即R网将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两 个函数 (c) 编程人员在不会分有式并行编程的情况下,也可以很容易将白己的程序运行在 分布式系统上,完减海量数据集的计算 《D)不同的Map任务之间可以进行信 9下列哪一个不属于HDF510中存在的问题?A (A) 无法水平扩展 ) 单点故障间题 《C)单一命名空同 《D】系统整体性能受限于单个名称节点的吾肚 10.以下哪个不是数据仓库的特性:C) A,面向主题的 B,集成的 C.功态变化的 D.反驶历史变化的 11.下列关于5a归特性的描选.错误的是哪一项?A (A)Sc网h语法复杂。但是能提供忧霜的A刊计算 (阳c归具备强大的并发性,支特函数式编程.可以更好地支持分布式系统 (CjScala兼容wn,运行速度快。且能融合到Had0ap生态圈中 DSch是S和ak的主要编程语宫 12下列愿一项不属于Som的特点?B (A)支特各种编程语言:50m支持使用各种编程语言来定义任务 《) 容结性:S心m界要人工进行放障节点的重启、任务的重新分配 《C)可扩展性:m的并行特性使其可以运行在分布式集群中 (D) 免费、开源:S0m是一款开源框架,可以免费使用 13以下哪个不是ink的忧势?C A同时支特流处理和壮处理 B.支持有状态计算 C不支持增量选代 D.同时支持高吞吐、低延迟,高性能 14.下列关于PageRank算法在MapR0duam中的实现的湖述,错误的是?A 《A)解析网页的任务就是分析一个页直的随接数。但是不减初值 《)PageRank分配就是多次选代计算贾面的PageRank值 (C) 数数阶段的任务就是由一个非并行组件决定是否达到收数 (D) 一板判斯是否牧数的条件是所有网页的PaRk值不再变化,成者运行30次 以后载门就认为已经收敛了 15.下面关于Tiet0ast的棉述,哪个是错误的?) LT1etst是在线创作基于时间柏事件记载服务的网站 B提供个性化的时闻线眼务 C.Timetoast基于1ash平台,可以在类似f1ash时间轴上任意加入事件 D.T1量etost是个提债复柔统计图表的工具
(A) MapReduce 具有广泛的应用,比如关系代数运算、分组与聚合运算等 (B) MapReduce 将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两 个函数 (C) 编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在 分布式系统上,完成海量数据集的计算 (D) 不同的 Map 任务之间可以进行通信 9. 下列哪一个不属于 HDFS1.0 中存在的问题?A (A) 无法水平扩展 (B) 单点故障问题 (C) 单一命名空间 (D) 系统整体性能受限于单个名称节点的吞吐量 10. 以下哪个不是数据仓库的特性:(C) A.面向主题的 B.集成的 C.动态变化的 D.反映历史变化的 11. 下列关于 Scala 特性的描述,错误的是哪一项?A (A)Scala 语法复杂,但是能提供优雅的 API 计算 (B)Scala 具备强大的并发性,支持函数式编程,可以更好地支持分布式系统 (C)Scala 兼容 Java,运行速度快,且能融合到 Hadoop 生态圈中 (D)Scala 是 Spark 的主要编程语言 12. 下列哪一项不属于 Storm 的特点?B (A) 支持各种编程语言:Storm 支持使用各种编程语言来定义任务 (B) 容错性:Storm 需要人工进行故障节点的重启、任务的重新分配 (C) 可扩展性:Storm 的并行特性使其可以运行在分布式集群中 (D) 免费、开源:Storm 是一款开源框架,可以免费使用 13. 以下哪个不是 Flink 的优势? C A. 同时支持流处理和批处理 B. 支持有状态计算 C. 不支持增量迭代 D. 同时支持高吞吐、低延迟、高性能 14. 下列关于 PageRank 算法在 MapReduce 中的实现的描述,错误的是?A (A) 解析网页的任务就是分析一个页面的链接数,但是不赋初值 (B) PageRank 分配就是多次迭代计算页面的 PageRank 值 (C) 收敛阶段的任务就是由一个非并行组件决定是否达到收敛 (D) 一般判断是否收敛的条件是所有网页的 PageRank 值不再变化,或者运行 30 次 以后我们就认为已经收敛了 15. 下面关于 Timetoast 的描述,哪个是错误的?(D) A.Timetoast 是在线创作基于时间轴事件记载服务的网站 B.提供个性化的时间线服务 C.Timetoast 基于 flash 平台,可以在类似 flash 时间轴上任意加入事件 D.Timetoast 是一个提供复杂统计图表的工具

二、多选题(每小题4分,共20分) 1.下面哪个属于大数据的应用领域?ABCD 〔A)智能医疗研发 (阳)监控身体情况 (C)实时草握交通状况 (0)金购交易 2HDFS采用抽象的块概念可以带来以下哪几个明显的好处?ACD (A)支持大规模文件存储 (阳)支持小规模文件存储 (C)适合数据备份 (D)篇化系统设计 3.关系数据岸引以为做的两个关键特性(完善的事务机制和高效的查询机制),到了Wb20 时代却成了鸡助.主要表现在以下哪几个方面7ACD (A)Wb20网姑系统通常不要求严格的数据库事务 (旧)Wb2D网站系统基本上不用关系数据库来存储数据 (C)Wb20并不要求严格的读写实时性 (D)Wb20通常不包含大量复杂的SQL查询 4.M阳pR阳duoe的作业主要包括什么?AB (A)从磁查或从网络读取数据.即口密集工作 ()计算数据.即CPU密集工作 (©)针对不同的工作节点选择合适硬件类型 (D)负责协调集群中的数规存储 5.Scal归具有以下哪几个主要特点?A8CD (A)5cae的优势是提供了PL(Read-Eval-PrintLoop,交互式解释器),提高程序开发效率 (B)Scal归兼客jawa,运行速度快,且能融合到Had0p生态圈中 C)SCa山具备强大的并发性,支持函数式编程 D归可以更好地支持分布式系统 三、判断题(每小题3分.共30分) 1,云计算平合层(PaS)指的将基础设性计算资源和存储)作为服务出租。(×) 2.Hadoop的核心是HDFS和MapReduce。〔√) 3.魔虫持续不断地抓取新页面,这些页面每隔一段时问地存储到gb阳里。(×】 4.NoSQL很难实现横向扩展,RDBM5可以餐客易通过添加更多设备来支持更大规模的数据。 (x) 5.同一个公司只能提供采用不同数据模型的单个云数据库服务。(×) 6.在MapReduce工作流程中,用户可以显式地从一台机器向另一台机器发送消息。(×) 7.Hw阳适合于长时间的批处理查询分析.而m即3适合于实时文互式SQL查询。〔√) 8.Hado0 MapReduce提供了内存计算,可将中问结果放到内存中,对于选代运算效率更 高。(×) 9.Spark Streaming通过采用微糯处理方法实现了高吞吐和容错性,但是铅性了低遥迟和实 时处理能力。(V)
二、多选题(每小题 4 分,共 20 分) 1.下面哪个属于大数据的应用领域?ABCD (A) 智能医疗研发 (B) 监控身体情况 (C) 实时掌握交通状况 (D) 金融交易 2. HDFS 采用抽象的块概念可以带来以下哪几个明显的好处?ACD (A) 支持大规模文件存储 (B) 支持小规模文件存储 (C) 适合数据备份 (D) 简化系统设计 3. 关系数据库引以为傲的两个关键特性(完善的事务机制和高效的查询机制),到了 Web2.0 时代却成了鸡肋,主要表现在以下哪几个方面?ACD (A) Web2.0 网站系统通常不要求严格的数据库事务 (B) Web2.0 网站系统基本上不用关系数据库来存储数据 (C) Web2.0 并不要求严格的读写实时性 (D) Web2.0 通常不包含大量复杂的 SQL 查询 4. MapReduce 的作业主要包括什么?AB (A) 从磁盘或从网络读取数据,即 IO 密集工作 (B) 计算数据,即 CPU 密集工作 (C) 针对不同的工作节点选择合适硬件类型 (D) 负责协调集群中的数据存储 5. Scala 具有以下哪几个主要特点?ABCD (A)Scala 的优势是提供了 REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率 (B)Scala 兼容 Java,运行速度快,且能融合到 Hadoop 生态圈中 (C)Scala 具备强大的并发性,支持函数式编程 (D)Scala 可以更好地支持分布式系统 三、判断题(每小题 3 分,共 30 分) 1. 云计算平台层(PaaS)指的将基础设施(计算资源和存储)作为服务出租。(×) 2. Hadoop 的核心是 HDFS 和 MapReduce。(√) 3. 爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储到 BigTable 里。(×) 4. NoSQL 很难实现横向扩展,RDBMS 可以很容易通过添加更多设备来支持更大规模的数据。 (×) 5. 同一个公司只能提供采用不同数据模型的单个云数据库服务。(×) 6. 在 MapReduce 工作流程中,用户可以显式地从一台机器向另一台机器发送消息。(×) 7. Hive 适合于长时间的批处理查询分析,而 Impala 适合于实时交互式 SQL 查询。(√) 8. Hadoop MapReduce 提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更 高。(×) 9. Spark Streaming 通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实 时处理能力。(√)

10.Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图。(W) 四、简答题(每小题10分,共20分)】 1.请阐述HDF5的名称节点中关于数据块到数据节点的煦射信息是如何维护的? 答:HDFS的名称节点中关于数据块到数据节点的铁射信息,是由数据节点不断向名称节点 发送心跳信息来维护的。数据节点把白己维护的数据块列表发送给名称节点,名称节点根据 各个数据节点汇报结果生成肤射信息。 2.试述MapReduce和Hadoop的关系. 答:谷歌公可最先提出了分布式并行编程模型MepR阳duog.Hado0 D MapR阳uC阳是它的 开源实现。谷歌的MapReduce运行在分布式文件系统GFS上,与谷歌类似. HadoopMapReduce运行在分布式文件系统HDFS上。相对而言,HadoopMapReduo要比 谷歌MapReduce的使用门檀低很多,程序员即使设有任何分布式程序开发经验,也可以银 轻松地开发出分布式程序并部善到计算机集群中
10. Google Fusion Tables 让一般使用者也可以轻松制作出专业的统计地图。(√) 四、简答题(每小题 10 分,共 20 分) 1. 请阐述 HDFS 的名称节点中关于数据块到数据节点的映射信息是如何维护的? 答:HDFS 的名称节点中关于数据块到数据节点的映射信息,是由数据节点不断向名称节点 发送心跳信息来维护的,数据节点把自己维护的数据块列表发送给名称节点,名称节点根据 各个数据节点汇报结果生成映射信息。 2. 试述 MapReduce 和 Hadoop 的关系。 答: 谷歌公司最先提出了分布式并行编程模型 MapReduce, Hadoop MapReduce 是它的 开源实现。谷歌的 MapReduce 运 行 在分 布式 文件 系统 GFS 上 ,与 谷歌类似, HadoopMapReduce 运行在分布式文件系统 HDFS 上。相对而言,HadoopMapReduce 要比 谷歌 MapReduce 的使用门槛低很多,程序员即使没有任何分布式程序开发经验,也可以很 轻松地开发出分布式程序并部署到计算机集群中