
期末在线自测题4 一、单选题(每小题2分.共30分) 1,下列哪个不属于Hadoop的特性?A (A)成本高 ()离可靠性 (C)高容错性 (D)运行在Linux平台上 2.下面那一项不属于计算机集群中的节点?8 (A)主替点(Master Nod) (B)源节点(SourceNode】 (C) 名称结点NameNode】 (D)从节点(Slave Node 3.HDFS采用了什么模型?B 〔A)分层模型 () 主从结构模型 (C) 管道-过减整模型 (D】点对点模型 4.HBse只有一个针对行键的素引,如果要访问HB型e表中的行,下面哪种方式是不可行 的?B (A)通过单个行健访问 ()通过时问殿访问 (C)通过一个行健的区问来访问 (D)全表扫描 5.下列关于列族数据库的描述,哪一项是错误的?A (A)查找速度慢.可扩展性差 (旧)功能较少,大都不支特强事务一致性 (c) 容易进行分布式扩展 (D)复杂性低 6.下列哪一个不属于云数据库产品?A 〔A)本地安装MySQL (9)阿里云RDS (c) Orade Cloud (D)百度云数据库 7.下列关于MapReduoe模型的相述,错误的是愿一项?D (A)MapR6du阳采用·分而治之”策略 (旧)MpR●duoe设计的一个建念就是·计算向数摆靠拔 (C)MapReduce框架采用了Master/Save架构 (D】MapReduce应用程序只能用ava来写 8.下面哪个选项不属于Hado3p1.0的问题?D (A)单一名称节点,存在单点失效问题 (旧)单一命名空间,无法实现资源隔离
期末在线自测题 4 一、单选题(每小题 2 分,共 30 分) 1. 下列哪个不属于 Hadoop 的特性?A (A) 成本高 (B) 高可靠性 (C) 高容错性 (D) 运行在 Linux 平台上 2. 下面哪一项不属于计算机集群中的节点?B (A) 主节点(Master Node) (B) 源节点(SourceNode) (C) 名称结点(NameNode) (D) 从节点(Slave Node) 3. HDFS 采用了什么模型?B (A) 分层模型 (B) 主从结构模型 (C) 管道-过滤器模型 (D) 点对点模型 4. HBase 只有一个针对行健的索引,如果要访问 HBase 表中的行,下面哪种方式是不可行 的?B (A) 通过单个行健访问 (B) 通过时间戳访问 (C) 通过一个行健的区间来访问 (D) 全表扫描 5. 下列关于列族数据库的描述,哪一项是错误的?A (A) 查找速度慢,可扩展性差 (B) 功能较少,大都不支持强事务一致性 (C) 容易进行分布式扩展 (D) 复杂性低 6. 下列哪一个不属于云数据库产品?A (A) 本地安装 MySQL (B) 阿里云 RDS (C) Oracle Cloud (D) 百度云数据库 7. 下列关于 MapReduce 模型的描述,错误的是哪一项?D (A) MapReduce 采用“ 分而治之”策略 (B) MapReduce 设计的一个理念就是“ 计算向数据靠拢” (C) MapReduce 框架采用了 Master/Slave 架构 (D) MapReduce 应用程序只能用 Java 来写 8. 下面哪个选项不属于 Hadoop1.0 的问题?D (A) 单一名称节点,存在单点失效问题 (B) 单一命名空间,无法实现资源隔离

(C)资源管理效率低 (D)很难上手 9.下列关于Hve基本操作命令的解释错误的是C) Acr8 ate databas9 userdb/创建数据库srdb B create t3 ble if not exsts usr(d bigintname string.age int)∥知果usr表不存在,创建表usr. 含三个属性id.n3me,age C load data local inpath /usr/ocal/data'overwrite in8 o table usr;∥把目 承'usr/local/data'下的数批文件中的数据以遍加的方式装载进Usr表 D insert overwrite table s钟udent select·from user where age>10/向表sr1中插入来白ug 表的a2大于10的数据并覆盖su02nt表中原有数据 10.下列关于S0ak的描述.钥误的是哪一项?D (AS即ark最初由美国加州怕克利大学(UCBarkeley)的AMP实验室于200g年开发 (B)Spark在2014年打破了Hadoop保持的基准排序纪录 (CS即ark用十分之一的计算资源,载得了比Hado0p快3倍的速度 DSp8k运行模式单一 11.下列关于流计算的说法.谭项是铺误的?D (A)实时获取来白不同数规源的海量数据,经过实时分析处理,获得有价值的信息 (⑧)查计算乘承一个基本理念,即数据的价值随着时问的流逝而降低 (C)对于一个叠计算系统来说.它应该支持TB级县至是PB级的数据规模 (D》流计算只需要保证较低的延迟时间,即只达到秒级别即可处理一切问题 12.以下个不属于数据分析应用?A A.基于规则的报警 B,移动应用中的产品更新及实验评估分析 C消费者技术中的实时数据即席分析 D.大规模图分析 13.在Pre0细计算模型中,图中的每个顶点会对应一个计算单元,下列哪一项不属于计算单 元的成员变量?D (A)顶点值(《Vertex value):顶点对应的PR值 (旧)出射边《Outd灯e):只需要表示一条边,可以不取值 (C)消息(Messa0e):传递的消息 (D)入射边《lut edge):只需要表示一条边.可以不取值 14.下列关于数据可视化的描述,哪个是错误的?0 A,数据可视化是指将大型数据集中的数据以图形图像形式表示 且利用数据分析和开发工具发现其中未知信息的处理过程 C,爱据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示 D.将数据的各个属性值以一推数据的形式表示 15下列哪一项说法是错误的?C (A)山sCF算法推荐的是幕些和目标用户有共同兴趣爱好的其他用户所喜欢的物品 (日)emCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品 (C)emCF算法的推荐更偏向社会化,而UserCF算法的推荐更偏向于个性化 eCF算法倾向于餐荐与用户已购买商品相似的商品,往往会出现多样性不足。 推荐新锁度较低的问题
(C) 资源管理效率低 (D) 很难上手 9. 下列关于 Hive 基本操作命令的解释错误的是:(C) A create database userdb;//创建数据库 userdb B create table if not exists usr(id bigint,name string,age int);//如果 usr 表不存在,创建表 usr, 含三个属性 id,name,age C load data local inpath ‘/usr/local/data’ overwrite into table usr; // 把 目 录’/usr/local/data’下的数据文件中的数据以追加的方式装载进 usr 表 D insert overwrite table student select * from user where age>10; //向表 usr1 中插入来自 usr 表的 age 大于 10 的数据并覆盖 student 表中原有数据 10. 下列关于 Spark 的描述,错误的是哪一项?D (A)Spark 最初由美国加州伯克利大学(UCBerkeley)的 AMP 实验室于 2009 年开发 (B)Spark 在 2014 年打破了 Hadoop 保持的基准排序纪录. (C)Spark 用十分之一的计算资源,获得了比 Hadoop 快 3 倍的速度 (D)Spark 运行模式单一 11. 下列关于流计算的说法,哪项是错误的?D (A) 实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息 (B) 流计算秉承一个基本理念,即 数据的价值随着时间的流逝而降低 (C) 对于一个流计算系统来说,它应该支持 TB 级甚至是 PB 级的数据规模 (D) 流计算只需要保证较低的延迟时间,即只达到秒级别即可处理一切问题 12. 以下哪个不属于数据分析应用?A A.基于规则的报警 B.移动应用中的产品更新及实验评估分析 C.消费者技术中的实时数据即席分析 D. 大规模图分析 13. 在 Pregel 计算模型中,图中的每个顶点会对应一个计算单元,下列哪一项不属于计算单 元的成员变量?D (A) 顶点值(Vertex value):顶点对应的 PR 值 (B) 出射边(Out edge):只需要表示一条边,可以不取值 (C) 消息(Message):传递的消息 (D) 入射边(Iut edge):只需要表示一条边,可以不取值 14. 下列关于数据可视化的描述,哪个是错误的?(D) A.数据可视化是指将大型数据集中的数据以图形图像形式表示 B.利用数据分析和开发工具发现其中未知信息的处理过程 C.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示 D.将数据的各个属性值以一维数据的形式表示 15. 下列哪一项说法是错误的?C (A) UserCF 算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品 (B) ItemCF 算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品 (C) ItemCF 算法的推荐更偏向社会化,而 UserCF 算法的推荐更偏向于个性化 (D) ItemCF 算法倾向于推荐与用户已购买商品相似的商品,往往会出现多样性不足、 推荐新颖度较低的问题

二、多选题(每小题4分,共20分) 1.下面那个是Hadoop20的组件?AD (A)ResourceManager (B)JobTracker (c) TaskTracker (D)NodeManager (A)SecondaryNameNod:号助NameNode收集文件系统运行的状态信息 2.HBa5e访阿接口类型包括哪些7ACD (A) Native lava AP列 (8) HBase Shell (C) Thrift Gateway (D】REST Gateway 3.UWP系统架构依粮的愿些开题组件?A8C0 (A)Mnesia (8) LVS (C)RabbitMQ (D)ZooKeeper 4.下列说法正确的是:(BCD) A数据仓库Hive不需要借助于HDFS就可以完成数据的存储 B Impala和Hve,HDFS、HBase等工具可以统一都署在一个Hadoop平合上 C Hive本身不存储和处理数据.依赖HDFS存储数据,依赖M饱oReduce处理数据 D HiveQL语法与传统的SQL语法很相似 5.Flink有那几种部著模式:(A9CD】 A.YARN集群模式 BLocal模式 C运行在GCE(谷歌云服务)和C2(亚马逊云服务》上 D.Standalone集群模式 三、判断题(每小题3分.共30分) L.在一个基本的Hadoop集群中,SecondaryNameNode主要负责执行由obTracker指瀑 的任务。(x) 2HDF5还采用了相应的数露存放、数据读取和数据复制策略,来提升系统整体读写响应性 能。(V) 3.HBa5阳采用了更加简单的数据模型。它把数据存储为未经解驿的字符串。(√】 4.MongoDB通过设置个别属性的常引来实现更快的排序。《x) 5.MpR阳du0阳主斐用于批处理、实时、计算密集型应用。《×) 6.YARN既是资源管理调度框架,也是一个计算框架,(×) 7.在HwHA中,客户端的查询请求首先访同HAPro时,由HAProxy对访问请求进行转发 ()
二、多选题(每小题 4 分,共 20 分) 1. 下面哪个是 Hadoop2.0 的组件?AD (A) ResourceManager (B) JobTracker (C) TaskTracker (D) NodeManager (A) SecondaryNameNode:帮助 NameNode 收集文件系统运行的状态信息 2. HBase 访问接口类型包括哪些?ABCD (A) Native Java API (B) HBase Shell (C) Thrift Gateway (D) REST Gateway 3. UMP 系统架构依赖的哪些开源组件?ABCD (A) Mnesia (B) LVS (C) RabbitMQ (D) ZooKeeper 4. 下列说法正确的是:(BCD) A 数据仓库 Hive 不需要借助于 HDFS 就可以完成数据的存储 B Impala 和 Hive、HDFS、HBase 等工具可以统一部署在一个 Hadoop 平台上 C Hive 本身不存储和处理数据,依赖 HDFS 存储数据,依赖 MapReduce 处理数据 D HiveQL 语法与传统的 SQL 语法很相似 5. Flink 有哪几种部署模式:(ABCD) A.YARN 集群模式 B.Local 模式 C.运行在 GCE(谷歌云服务)和 EC2(亚马逊云服务)上 D.Standalone 集群模式 三、判断题(每小题 3 分,共 30 分) 1. 在一个基本的 Hadoop 集群中,SecondaryNameNode 主要负责执行由 JobTracker 指派 的任务。(×) 2. HDFS 还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性 能。(√) 3. HBase 采用了更加简单的数据模型,它把数据存储为未经解释的字符串。(√) 4. MongoDB 通过设置个别属性的索引来实现更快的排序。(×) 5. MapReduce 主要用于批处理、实时、计算密集型应用。(×) 6. YARN 既是资源管理调度框架,也是一个计算框架。(×) 7. 在 Hive HA 中,客户端的查询请求首先访问 HAProxy,由 HAProxy 对访问请求进行转发。 (√)

8流计算的处理渣程一般包含三个阶段:数诺实时采集、数据批量计算、实时查询服务。 () 9.在默认情况下,Preo计算框果并不会开启Combiner功能。(√)】 10.推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售。《√) 四、简答题(每小题10分,共20分】 1当一台Reon服务整意外终止时.Master如何发理这种意外蜂止情况?为了族复这台发 生意外的Region服务器上的Region.3sta应该做出哪些处理包括如何使用HL0g进行恢 复7 答:Zookeeper会实时监测每个Reg0n服务器的状态,当某个Region服务器发生故障时, Z0 okeeper会通知Master, M阳s1er首先会处理该故障Rego0服务器上面遗留的HL0g文件,这个速丽的HL0g文件中 包含了来白多个Region对象的日志记录。 系统会根据每条日志记录所属的Region对象对HL0g数据进行桥分.分别收到相应Reg0m 对象的目录下,然后,再将失效的Rg0M重新分配到可用的eg0n服务器中,并把与该 Region对象相关的HLog日志记录也发送给相应的Reg0n服务器, Region服务器领取到分配始白己的Region对象以及与之相关的HLog日志记录以后,会重 新微一追日志记录中的各种裸作,把日志记录中的数据写入到eS0re缓存中,然后,刷 新到磁盘的StoreFile文件中,完威数据恢复. 2.试分析推荐系统的动机以及所能解决的问题。 答:为了让用户从海量信息中高效地获得白己所需的信息,推荐系统应运而生。 推养系统是大数据在互联网领域的典型应用。它可以通过分析用户的历史记录来了解用户的 喜好,从而主动为用户推荐其感兴锂的信息。满足用户的个性化推荐需求。 推荐系统是白动联系用户和物品的一种工具。和搜索引肇相比,推荐系统通过研究用户的兴 趣偏好,进行个性化计算。推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘白 己潜在的需求
8. 流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务。 (×) 9. 在默认情况下,Pregel 计算框架并不会开启 Combiner 功能。(√) 10. 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售。(√) 四、简答题(每小题 10 分,共 20 分) 1.当一台 Region 服务器意外终止时,Master 如何发现这种意外终止情况?为了恢复这台发 生意外的 Region 服务器上的 Region,Master 应该做出哪些处理(包括如何使用 HLog 进行恢 复)? 答:Zookeeper 会实时监测每个 Region 服务器的状态,当某个 Region 服务器发生故障时, Zookeeper 会通知 Master。 Master 首先会处理该故障 Region 服务器上面遗留的 HLog 文件,这个遗留的 HLog 文件中 包含了来自多个 Region 对象的日志记录。 系统会根据每条日志记录所属的 Region 对象对 HLog 数据进行拆分,分别放到相应 Region 对象的目录下,然后,再将失效的 Region 重新分配到可用的 Region 服务器中,并把与该 Region 对象相关的 HLog 日志记录也发送给相应的 Region 服务器。 Region 服务器领取到分配给自己的 Region 对象以及与之相关的 HLog 日志记录以后,会重 新做一遍日志记录中的各种操作,把日志记录中的数据写入到 MemStore 缓存中,然后,刷 新到磁盘的 StoreFile 文件中,完成数据恢复。 2. 试分析推荐系统的动机以及所能解决的问题。 答:为了让用户从海量信息中高效地获得自己所需的信息,推荐系统应运而生。 推荐系统是大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的 喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。 推荐系统是自动联系用户和物品的一种工具,和搜索引擎相比,推荐系统通过研究用户的兴 趣偏好,进行个性化计算。推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自 己潜在的需求