辽宁开放大学文本大数据在线自测4.docx_大学文库

(C)资源管理效率低 (D)很难上手 9.下列关于Hve基本操作命令的解释错误的是C) Acr8 ate databas9 userdb/创建数据库srdb B create t3 ble if not exsts usr(d bigintname string.age int)∥知果usr表不存在，创建表usr. 含三个属性id.n3me,age C load data local inpath /usr/ocal/data'overwrite in8 o table usr；∥把目承'usr/local/data'下的数批文件中的数据以遍加的方式装载进Usr表 D insert overwrite table s钟udent select·from user where age>10/向表sr1中插入来白ug 表的a2大于10的数据并覆盖su02nt表中原有数据 10.下列关于S0ak的描述.钥误的是哪一项？D (AS即ark最初由美国加州怕克利大学(UCBarkeley）的AMP实验室于200g年开发 (B)Spark在2014年打破了Hadoop保持的基准排序纪录 (CS即ark用十分之一的计算资源，载得了比Hado0p快3倍的速度 DSp8k运行模式单一 11.下列关于流计算的说法.谭项是铺误的？D (A)实时获取来白不同数规源的海量数据，经过实时分析处理，获得有价值的信息 (⑧)查计算乘承一个基本理念，即数据的价值随着时问的流逝而降低 (C)对于一个叠计算系统来说.它应该支持TB级县至是PB级的数据规模 (D》流计算只需要保证较低的延迟时间，即只达到秒级别即可处理一切问题 12.以下个不属于数据分析应用？A A.基于规则的报警 B,移动应用中的产品更新及实验评估分析 C消费者技术中的实时数据即席分析 D.大规模图分析 13.在Pre0细计算模型中，图中的每个顶点会对应一个计算单元，下列哪一项不属于计算单元的成员变量？D (A)顶点值(《Vertex value):顶点对应的PR值 (旧)出射边《Outd灯e):只需要表示一条边，可以不取值 (C)消息(Messa0e):传递的消息 (D)入射边《lut edge):只需要表示一条边.可以不取值 14.下列关于数据可视化的描述，哪个是错误的？0 A,数据可视化是指将大型数据集中的数据以图形图像形式表示且利用数据分析和开发工具发现其中未知信息的处理过程 C,爱据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示 D.将数据的各个属性值以一推数据的形式表示 15下列哪一项说法是错误的？C (A)山sCF算法推荐的是幕些和目标用户有共同兴趣爱好的其他用户所喜欢的物品 (日)emCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品 (C)emCF算法的推荐更偏向社会化，而UserCF算法的推荐更偏向于个性化 eCF算法倾向于餐荐与用户已购买商品相似的商品，往往会出现多样性不足。推荐新锁度较低的问题

（C）资源管理效率低（D）很难上手 9. 下列关于 Hive 基本操作命令的解释错误的是:(C) A create database userdb;//创建数据库 userdb B create table if not exists usr(id bigint,name string,age int);//如果 usr 表不存在，创建表 usr，含三个属性 id,name,age C load data local inpath ‘/usr/local/data’ overwrite into table usr; // 把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进 usr 表 D insert overwrite table student select * from user where age>10; //向表 usr1 中插入来自 usr 表的 age 大于 10 的数据并覆盖 student 表中原有数据 10. 下列关于 Spark 的描述，错误的是哪一项？D (A)Spark 最初由美国加州伯克利大学（UCBerkeley）的 AMP 实验室于 2009 年开发 (B)Spark 在 2014 年打破了 Hadoop 保持的基准排序纪录. (C)Spark 用十分之一的计算资源，获得了比 Hadoop 快 3 倍的速度 (D)Spark 运行模式单一 11. 下列关于流计算的说法，哪项是错误的？D （A）实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息（B）流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低（C）对于一个流计算系统来说，它应该支持 TB 级甚至是 PB 级的数据规模（D）流计算只需要保证较低的延迟时间，即只达到秒级别即可处理一切问题 12. 以下哪个不属于数据分析应用？A A．基于规则的报警 B．移动应用中的产品更新及实验评估分析 C.消费者技术中的实时数据即席分析 D. 大规模图分析 13. 在 Pregel 计算模型中，图中的每个顶点会对应一个计算单元，下列哪一项不属于计算单元的成员变量？D （A）顶点值（Vertex value）：顶点对应的 PR 值（B）出射边（Out edge）：只需要表示一条边，可以不取值（C）消息（Message）：传递的消息（D）入射边（Iut edge）：只需要表示一条边，可以不取值 14. 下列关于数据可视化的描述，哪个是错误的？(D) A.数据可视化是指将大型数据集中的数据以图形图像形式表示 B.利用数据分析和开发工具发现其中未知信息的处理过程 C.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示 D.将数据的各个属性值以一维数据的形式表示 15. 下列哪一项说法是错误的？C （A） UserCF 算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品（B） ItemCF 算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品（C） ItemCF 算法的推荐更偏向社会化，而 UserCF 算法的推荐更偏向于个性化（D） ItemCF 算法倾向于推荐与用户已购买商品相似的商品，往往会出现多样性不足、推荐新颖度较低的问题

8流计算的处理渣程一般包含三个阶段：数诺实时采集、数据批量计算、实时查询服务。 () 9.在默认情况下，Preo计算框果并不会开启Combiner功能。（√）】 10.推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售。《√) 四、简答题（每小题10分，共20分】 1当一台Reon服务整意外终止时.Master如何发理这种意外蜂止情况？为了族复这台发生意外的Region服务器上的Region.3sta应该做出哪些处理包括如何使用HL0g进行恢复7 答：Zookeeper会实时监测每个Reg0n服务器的状态，当某个Region服务器发生故障时， Z0 okeeper会通知Master, M阳s1er首先会处理该故障Rego0服务器上面遗留的HL0g文件，这个速丽的HL0g文件中包含了来白多个Region对象的日志记录。系统会根据每条日志记录所属的Region对象对HL0g数据进行桥分.分别收到相应Reg0m 对象的目录下，然后，再将失效的Rg0M重新分配到可用的eg0n服务器中，并把与该 Region对象相关的HLog日志记录也发送给相应的Reg0n服务器， Region服务器领取到分配始白己的Region对象以及与之相关的HLog日志记录以后，会重新微一追日志记录中的各种裸作，把日志记录中的数据写入到eS0re缓存中，然后，刷新到磁盘的StoreFile文件中，完威数据恢复. 2.试分析推荐系统的动机以及所能解决的问题。答：为了让用户从海量信息中高效地获得白己所需的信息，推荐系统应运而生。推养系统是大数据在互联网领域的典型应用。它可以通过分析用户的历史记录来了解用户的喜好，从而主动为用户推荐其感兴锂的信息。满足用户的个性化推荐需求。推荐系统是白动联系用户和物品的一种工具。和搜索引肇相比，推荐系统通过研究用户的兴趣偏好，进行个性化计算。推荐系统可发现用户的兴趣点，帮助用户从海量信息中去发掘白己潜在的需求

8. 流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务。（×） 9. 在默认情况下，Pregel 计算框架并不会开启 Combiner 功能。（√） 10. 推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售。（√）四、简答题（每小题 10 分，共 20 分） 1.当一台 Region 服务器意外终止时，Master 如何发现这种意外终止情况？为了恢复这台发生意外的 Region 服务器上的 Region,Master 应该做出哪些处理(包括如何使用 HLog 进行恢复)? 答：Zookeeper 会实时监测每个 Region 服务器的状态，当某个 Region 服务器发生故障时， Zookeeper 会通知 Master。 Master 首先会处理该故障 Region 服务器上面遗留的 HLog 文件，这个遗留的 HLog 文件中包含了来自多个 Region 对象的日志记录。系统会根据每条日志记录所属的 Region 对象对 HLog 数据进行拆分，分别放到相应 Region 对象的目录下，然后，再将失效的 Region 重新分配到可用的 Region 服务器中，并把与该 Region 对象相关的 HLog 日志记录也发送给相应的 Region 服务器。 Region 服务器领取到分配给自己的 Region 对象以及与之相关的 HLog 日志记录以后，会重新做一遍日志记录中的各种操作，把日志记录中的数据写入到 MemStore 缓存中，然后，刷新到磁盘的 StoreFile 文件中，完成数据恢复。 2. 试分析推荐系统的动机以及所能解决的问题。答：为了让用户从海量信息中高效地获得自己所需的信息，推荐系统应运而生。推荐系统是大数据在互联网领域的典型应用，它可以通过分析用户的历史记录来了解用户的喜好，从而主动为用户推荐其感兴趣的信息，满足用户的个性化推荐需求。推荐系统是自动联系用户和物品的一种工具，和搜索引擎相比，推荐系统通过研究用户的兴趣偏好，进行个性化计算。推荐系统可发现用户的兴趣点，帮助用户从海量信息中去发掘自己潜在的需求

辽宁开放大学 文本 大数据在线自测4

辽宁开放大学文本大数据在线自测4