
期末在线自测题1 一、单选题(每小题2分,共30分) 第一次信息化浪潮主要解决什么问题?(B) 信息传输 信息处理 信息爆炸 信息转换 在一个基本的Hadoop集群中,DataNode主要负责什么?(D) 负责执行由JobTracker指派的任务 协调数据计算任务 负责协调集群中的数据存储 存储被拆分的数据块 在HDFS中,默认一个块多大?(A) 64MB 32KB 128KB 16KB 在HBase访问接口中,Pig主要用在哪个场合?(D) 适合Hadoop MapReduce作业并行批处理HBase表数据 适合HBase管理使用 适合其他异构系统在线访问HBase表数据 适合做数据统计 下面关于Region的说法,哪个是错误的?(C) 同一个Region不会被分拆到多个Region服务器 为了加快访问速度,.META.表的全部Region都会被保存在内存中 一个-ROOT-表可以有多个Region 为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效问题 下列哪一项不属于数据库事务具有ACID四性?(A) 间断性 原子性 一致性 持久性 UMP系统是构建在一个大的集群之上的,下列哪一项不属于系统向用户提供的功能?(D) 读写分离
期末在线自测题 1 一、单选题(每小题 2 分,共 30 分) 第一次信息化浪潮主要解决什么问题?(B) 信息传输 信息处理 信息爆炸 信息转换 在一个基本的 Hadoop 集群中,DataNode 主要负责什么?(D) 负责执行由 JobTracker 指派的任务 协调数据计算任务 负责协调集群中的数据存储 存储被拆分的数据块 在 HDFS 中,默认一个块多大?(A) 64MB 32KB 128KB 16KB 在 HBase 访问接口中,Pig 主要用在哪个场合?(D) 适合 Hadoop MapReduce 作业并行批处理 HBase 表数据 适合 HBase 管理使用 适合其他异构系统在线访问 HBase 表数据 适合做数据统计 下面关于 Region 的说法,哪个是错误的?(C) 同一个 Region 不会被分拆到多个 Region 服务器 为了加快访问速度,.META.表的全部 Region 都会被保存在内存中 一个-ROOT-表可以有多个 Region 为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效问题 下列哪一项不属于数据库事务具有 ACID 四性?(A) 间断性 原子性 一致性 持久性 UMP 系统是构建在一个大的集群之上的,下列哪一项不属于系统向用户提供的功能?(D) 读写分离

分库分表 数据安全 资源合并 下列关于MapReduce工作流程,哪个描述是正确的?(A) 所有的数据交换都是通过MapReduce框架自身去实现的 不同的Map任务之间会进行通信 不同的Reduce任务之间可以发生信息交换 用户可以显式地从一台机器向另一合机器发送消息 下列哪项是Hadoop生态系统中Spark的功能?(D) 处理大规模数据的脚本语言 工作流和协作服务引擎,协调Hadoop上运行的不同任务 不支持DAG作业的计算框架 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算 下面哪个不可能是Hive的执行引擎?(C) MapReduce Tez Storm Spark 下列关于Spark的描述,错误的是哪一项?(C) 使用DAG执行引擎以支持循环数据流与内存计算析 可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC.2等云环境 8 支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交 互式编程 可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC.2等云环境 中 下列哪项不属于流计算的处理流程的三个阶段?(B) 数据实时采集 数据批量采集 数据实时计算 实时查询服务 以下哪个属于数据流水线应用?(B) 基于规则的报警 实时查询索引构建 移动应用中的产品更新及实验评估分析 费者技术中的实时数据即席分析
分库分表 数据安全 资源合并 下列关于 MapReduce 工作流程,哪个描述是正确的?(A) 所有的数据交换都是通过 MapReduce 框架自身去实现的 不同的 Map 任务之间会进行通信 不同的 Reduce 任务之间可以发生信息交换 用户可以显式地从一台机器向另一台机器发送消息 下列哪项是 Hadoop 生态系统中 Spark 的功能?(D) 处理大规模数据的脚本语言 工作流和协作服务引擎,协调 Hadoop 上运行的不同任务 不支持 DAG 作业的计算框架 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算 下面哪个不可能是 Hive 的执行引擎?(C) MapReduce Tez Storm Spark 下列关于 Spark 的描述,错误的是哪一项?(C) 使用 DAG 执行引擎以支持循环数据流与内存计算析 可运行于独立的集群模式中,可运行于 Hadoop 中,也可运行于 Amazon EC2 等云环境 中 支持使用 Scala、Java、Python 和 R 语言进行编程,但是不可以通过 Spark Shell 进行交 互式编程 可运行于独立的集群模式中,可运行于 Hadoop 中,也可运行于 Amazon EC2 等云环境 中 下列哪项不属于流计算的处理流程的三个阶段?(B) 数据实时采集 数据批量采集 数据实时计算 实时查询服务 以下哪个属于数据流水线应用?(B) 基于规则的报警 实时查询索引构建 移动应用中的产品更新及实验评估分析 费者技术中的实时数据即席分析

采用MapReduce实现PageRank的计算过程包括三个阶段,下列哪一项是错的?(D) 第一阶段:解析网页 第二阶段:PageRank分配 第三阶段:收敛阶段 第一阶段:收集网页 下列哪个不属于可视化工具?(D) Google Chart API D3 Visual.ly Spark 二、多选题(每小题4分,共20分) 信息科技为大数据时代提供哪些技术支撑?(ABC) 存储设备容量不断增加 网络带宽不断增加 CPU处理能力大幅提升 数据量不断增大 HDFS要实现以下哪几个目标?(ABC) 兼容廉价的硬件设备 流数据读写 大数据集 复杂的文件模型 关系数据库已经无法满足Web2.0的需求,主要表现在以下几个方面?(ABC) 无法满足海量数据的管理需求 无法满足数据高并发的需求 无法满足高可扩展性和高可用性的需求 使用难度高 MapReduce体系结构主要由以下那几个部分构成?(ABCD) Client JobTracker TaskTracker Task 以下属于Hive的基本数据类型的是?(ABCD) TINYINT FLOAT
采用 MapReduce 实现 PageRank 的计算过程包括三个阶段,下列哪一项是错的?(D) 第一阶段:解析网页 第二阶段:PageRank 分配 第三阶段:收敛阶段 第一阶段:收集网页 下列哪个不属于可视化工具?(D) Google Chart API D3 Visual.ly Spark 二、多选题(每小题 4 分,共 20 分) 信息科技为大数据时代提供哪些技术支撑?(ABC) 存储设备容量不断增加 网络带宽不断增加 CPU 处理能力大幅提升 数据量不断增大 HDFS 要实现以下哪几个目标?(ABC) 兼容廉价的硬件设备 流数据读写 大数据集 复杂的文件模型 关系数据库已经无法满足 Web2.0 的需求,主要表现在以下几个方面?(ABC) 无法满足海量数据的管理需求 无法满足数据高并发的需求 无法满足高可扩展性和高可用性的需求 使用难度高 MapReduce 体系结构主要由以下那几个部分构成?(ABCD) Client JobTracker TaskTracker Task 以下属于 Hive 的基本数据类型的是?(ABCD) TINYINT FLOAT

STRING BINARY 三、判断题(每小题3分,共30分) 在大数据的计算模式中,流计算解决的是针对流数据的实时计算问题。(对) Hadoop曾经被公认为行业大数据标准开源软件。(对) HDFS采用了冗余数据存储,增强了数据可靠性。(对) HBase不支持修改操作。(错) 从数据模型的角度来说,云数据库并非一种全新的数据库技术。(对) MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及 Task。(对) HDFS Federation中,属于不同命名空间的块可以构成同一个"块池”。(错) Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作。(对) 传统的数据处理系统系统无需用户主动发出查询,批量查询服务可以主动将结果推送给用 户。(错) 大数据魔镜是一款优秀的国产数据分析软件,可以让用户真正理解探索分析数据。(对) 四、简答题(每小题10分,共20分) 请阐述大数据、云计算和物联网三者之间的关系。 近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。 那么,大数据和云计算之间是什么关系呢? (1)从整体上看,大数据与云计算是相辅相成的 大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀, 即数据存储能力。云计算着眼于“计算”,关注T解决方案,提供T基础架构,看重的 是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算能力再强大,也难 以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水 月
STRING BINARY 三、判断题(每小题 3 分,共 30 分) 在大数据的计算模式中,流计算解决的是针对流数据的实时计算问题。(对) Hadoop 曾经被公认为行业大数据标准开源软件。(对) HDFS 采用了冗余数据存储,增强了数据可靠性。(对) HBase 不支持修改操作。(错) 从数据模型的角度来说,云数据库并非一种全新的数据库技术。(对) MapReduce 体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker 以及 Task。(对) HDFS Federation 中,属于不同命名空间的块可以构成同一个“块池”。(错) Spark 的计算模式也属于 MapReduce,但不局限于 Map 和 Reduce 操作。(对) 传统的数据处理系统系统无需用户主动发出查询,批量查询服务可以主动将结果推送给用 户。(错) 大数据魔镜是一款优秀的国产数据分析软件,可以让用户真正理解探索分析数据。(对) 四、简答题(每小题 10 分,共 20 分) 请阐述大数据、云计算和物联网三者之间的关系。 近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。 那么,大数据和云计算之间是什么关系呢? (1)从整体上看,大数据与云计算是相辅相成的 大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀, 即数据存储能力。云计算着眼于“计算”,关注 IT 解决方案,提供 IT 基础架构,看重的 是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算能力再强大,也难 以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水 月

(2)从技术上看,大数据根植于云计算 云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程摸型, 都是大数据技术的基础。 (3)物联网借助于云计算存储数据,借助于大数据技术分析数据。 2.简述UMP系统是如何保障数据安全的? 答:SSL数据库连接。SSL(Secure Sockets Layer)是为网络通信提供安全及数据完整性的 一种安全协议,它在传输层对网络连接进行加密。Poy服务器实现了完整的MySQL客户 端服务器协议,可以与客户端之间建立SSL数据库连接。 数据访问P白名单。可以把允许访问云数据库的P地址放入“白名单”,只有白名单内的 P地址才能访问,其他P地址的访问都会被拒绝,从而进一步保证账户安全。 记录用户操作日志。用户的所有操作记录都会被记录到日志分析服务器,通过检查用户操 作记录,可以发现隐藏的安全漏洞。 SQL拦截。Proy服务器可以根据要求拦截多种类型的SQL语句,比如全表扫描语句"select *
(2)从技术上看,大数据根植于云计算 云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce 编程模型, 都是大数据技术的基础。 (3)物联网借助于云计算存储数据,借助于大数据技术分析数据。 2. 简述 UMP 系统是如何保障数据安全的? 答:SSL 数据库连接。 SSL (Secure Sockets Layer) 是为网络通信提供安全及数据完整性的 一种安全协议,它在传输层对网络连接进行加密。Proxy 服务器实现了完整的 MySQL 客户 端服务器协议,可以与客户端之间建立 SSL 数据库连接。 数据访问 IP 白名单。可以把允许访问云数据库的 IP 地址放入“白名单”,只有白名单内的 IP 地址才能访问,其他 IP 地址的访问都会被拒绝,从而进一步保证账户安全。 记录用户操作日志。 用户的所有操作记录都会被记录到日志分析服务器,通过检查用户操 作记录,可以发现隐藏的安全漏洞。 SQL 拦截。Proxy 服务器可以根据要求拦截多种类型的 SQL 语句,比如全表扫描语句"select *