第一章 单元测试
1、判断题:
数据,就是所有能输入到计算机,并被计算机程序处理的符号的总称为( )。
选项:
A:错
B:对
答案: 【对】
2、多选题:
大数据的4V特征包括( )。
选项:
A:规模庞大
B:价值巨大但价值密度低
C:变化频繁
D:种类繁多
答案: 【规模庞大;
价值巨大但价值密度低;
变化频繁;
种类繁多】
3、单选题:
2TB数据等于多少GB( )。
选项:
A:1000
B:2000
C:2048
D:1024
答案: 【2048】
4、多选题:
大数据包含下面类型( )。
选项:
A:半结构化数据
B:非结构化数据
C:纯文本数据
D:结构化数据
答案: 【半结构化数据;
非结构化数据;
纯文本数据;
结构化数据】
5、多选题:
大数据的生命周期一般会经历这么几个阶段( )。
选项:
A:采集与预处理
B:可视化
C:分析与挖掘
D:存储与管理
答案: 【采集与预处理;
可视化;
分析与挖掘;
存储与管理】
6、多选题:
大数据平台的基本架构,从技术架构的角度,可划分为这几个层次( )。
选项:
A:数据存储层
B:服务封装层
C:数据采集层
D:数据处理层
答案: 【数据存储层;
服务封装层;
数据采集层;
数据处理层】
7、单选题:
linux系统中cd命令的作用是( )。
选项:
A:将源文件复制至目标文件
B:删除一个目录中的一个或多个文件
C:移动文件或修改文件名
D:进入指定目录
答案: 【进入指定目录】
8、多选题:
vi编辑器的操作模式共分为( )。
选项:
A:底线命令模式
B:编辑模式
C:输入模式
D:命令模式
答案: 【底线命令模式;
编辑模式;
命令模式】
第二章 单元测试
1、多选题:
Flume的Agent包含这些组成部分( )。
选项:
A:Source
B:Channel
C:Event
D:Sink
答案: 【Source;
Channel;
Sink】
2、多选题:
Event由这两部分组成( )。
选项:
A:Body
B:Head
C:Array
D:K-V
答案: 【Body;
Head】
3、判断题:
Source是Flume中事件的源头,负责接收数据到Flume Agent,可以处理多种类型、多种格式的数据( )
选项:
A:错
B:对
答案: 【对】
4、判断题:
Channel是位于Source和Sink之间的缓冲区,对Source和Sink进行一对一处理( )
选项:
A:错
B:对
答案: 【错】
5、单选题:
在Flume的配置文件中,对某个目录下文件进行监控的命令是( )。
选项:
A:flume-ng
B:/bin/bash -c
C:exec
D:tail -f
答案: 【tail -f】
第三章 单元测试
1、单选题:
以下说法有误的是( )。
选项:
A:分布式存储系统可以实现数据容灾
B:分布式存储系统需要考虑数据的分块问题
C:传统单机存储方式扩容成本较低
D:“元数据”中不包含真正的文件数据
答案: 【】
2、单选题:
Hadoop 2.x中HDFS默认的block的大小为( )。
选项:
A:256MB
B:32MB
C:128MB
D:64MB
答案: 【】
3、单选题:
关于SecondaryNameNode 哪项是正确的( )。
选项:
A:它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
B:SecondaryNameNode 应与 NameNode 部署到一个节点
C:它对内存没有要求
D:它是 NameNode 的热备
答案: 【】
4、单选题:
以下哪一项用于配置HDFS的block大小( )。
选项:
A:dfs.name.dir
B:dfs.blocksize
C:dfs.replication
D:fs.defaultFS
答案: 【】
5、多选题:
HDFS中的NameNode节点用于存放元数据,元数据内容包含( )。
选项:
A:客户端硬件配置数据
B:数据块与数据节点的映射表
C:文件与数据块的映射表
D:每个数据块的内容
答案: 【】
6、判断题:
如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。( )
选项:
A:错
B:对
答案: 【】
7、判断题:
NameNode 负责管理元数据,客户端每次读写请求,它都会从磁盘中读取或者写入元数据信息并反馈客户端。( )
选项:
A:错
B:对
答案: 【】
8、判断题:
因为 HDFS 有多个数据副本,所以 NameNode 是不存在单点故障问题的。( )
选项:
A:错
B:对
答案: 【】
9、判断题:
读取HDFS文件可以使用命令hdfs dfs -get。( )
选项:
A:错
B:对
答案: 【】
第四章 单元测试
1、单选题:
以下说法有误的是( )。
选项:
A:MapReduce编程模型可以分为Map和Reduce两个阶段
B:分布式计算框架的实现需要考虑网络通信
C:MapReduce编程模型的核心思想是分而治之
D:Hadoop的MapReduce框架不能容忍任务出错
答案: 【】
2、单选题:
下面说法错误的是( )。
选项:
A:一个集群中某个确定的任务可以存在多个MapTask进程
B:MapTask负责汇总整个任务的执行结果
C:MapReduce可以逐行处理文本数据
D:MapReduce任务可以不跑在Hadoop集群中
答案: 【】
3、单选题:
下面哪项是错误的( )。
选项:
A:MapReduce的输出目录如果已经存在了,任务的输出结果将会覆盖该路径下的原有内容
B:Python提交MapReduce作业时,可以使用-o参数指定输出路径
C:MapReduce作业的运行内存并非越大越好
D:Python提交MapReduce作业时,可以使用-r hadoop指定集群模式运行
答案: 】
4、单选题:
MapReduce中Map阶段的输出将作为下面哪个阶段的输入( )。
选项:
A:Shuffle
B:Join
C:Split
D:Reduce
答案: 【】
5、多选题:
下列关于MapReduce说法正确的是( )。
选项:
A:MapReduce是一种计算框架
B:MapReduce来源于google的学术论文
C:MapReduce隐藏了并行计算的细节,方便使用
D:MapReduce程序只能用java语言编写
答案: 【】
第五章 单元测试
1、单选题:
以下说法有误的是( )。
选项:
A:实时数据传输问题在高并发场景下尤为明显
B:Kafka无法持久化数据
C:Kafka支持离线数据处理
D:Kafka由Scala语言编写
答案: 【
2、单选题:
以下对Kafka名词解释错误的是( )。
选项:
A:Consumer指消息的消费者
B:Broker指Kafka服务器
C:Partition指Kafka的数据副本
D:Offset是数据在分区中的唯一位置
答案: 】
3、单选题:
对市面上的消息队列产品描述正确的是( )。
选项:
A:Kafka支持事务
B:Kafka支持动态扩展
C:RabbitMQ支持动态扩展
D:ActiveMQ不支持集群模式
答案: 【
4、多选题:
以下描述正确的是( )。
选项:
A:Python语言可以通过kafka-python模块使用Kafka客户端
B:数据发送到Kafka需要经历序列化
C:utf-8编码方式不支持中文
D:Kafka的默认客户端端口号是50070
答案: 【】
5、多选题:
以下对消息模型的说法正确的是( )。
选项:
A:点对点模型中同一消息只有一个消费者可以消费
B:发布订阅模型消息可以重复消费
C:发布订阅模型以主题区分消息类别
D:点对点模型中消息被消费后即删除
答案: 【】
第六章 单元测试
1、多选题:
Spark框架的特色包括( )。
选项:
A:运行模式多样
B:运行速度快
C:容易使用
D:通用性
答案: 【】
2、多选题:
Spark 支持的集群管理器包括( )。
选项:
A:Apache Mesos
B:SparkCore
C:Hadoop YARN
D:Standalone
答案: 【】
3、多选题:
下面关于Spark 驱动程序 driver program的说法,正确的是( )。
选项:
A:驱动程序定义了分布式数据集以应用在集群中
B:驱动程序包含 Spark 应用程序中的主函数
C:驱动程序负责把并行操作发布到集群上
D:每个 Spark 应用程序都包含一个驱动程序
答案: 【】
4、多选题:
弹性分布式数据集RDD的特性包括( )。
选项:
A:弹性
B:分区
C:只读
D:依赖
答案: 【】
5、单选题:
在Spark 操作中,map(func)的作用是( )。
选项:
A:对RDD中的数据按照func进行计算得到新的RDD
B:返回排序后的数据集
C:返回一个新的数据集,这个数据集中的元素是通过func函数筛选后返回为true的元素
D:对元素为键值对的RDD中Key相同的元素的value进行reduce
答案: 【
6、单选题:
在Spark 操作中,collect()的作用是( )。
选项:
A:返回数据集中的元素个数
B:以数组的形式返回数据集中的所有元素
C:通过函数func聚合数据集中的元素
D:将数据集中的每个元素传递到函数func中运行
答案: 【
7、多选题:
从概念上而言,流数据(或数据流)是指( )。
选项:
A:在时间分布和数量上无限的一系列动态数据集合体
B:数据分时段批量到达
C:数据采用集中式处理
D:数据记录是流数据的最小组成单元
答案: 【】
8、判断题:
Spark Streaming最主要的抽象是离散化数据流,表示连续不断的数据流。( )
选项:
A:错
B:对
答案: 【】
9、单选题:
在Spark Streaming中,作为一个长期运行的task跑在一个Executor上,用于接收 DStream的组件是( )。
选项:
A:RDD
B:Analyzer
C:Streaming
D:Receiver
答案: 【
10、判断题:
在Spark Streaming中,可以通过streamingContext.awaitTermination()方法来手动结束流计算进程。( )
选项:
A:对
B:错
答案: 【】
第七章 单元测试
1、单选题:
以下说法有误的是( )。
选项:
A:HBase是非关系型数据库
B:HBase不需要考虑读写性能
C:HBase对事务的支持较差
D:HBase是一种key-value数据库
答案: 【
2、单选题:
下面说法错误的是( )。
选项:
A:HBase的一个表中可以有多个列族
B:一个HBase集群中只能有一个RegionServer
C:HBase一个RegionServer服务器中可以有多个Region
D:HBase表的一个列族可以包含多个列
答案: 【
3、多选题:
下面哪项关于HBase 的常用命令的描述是错误的( )。
选项:
A:HBase使用scan命令时可以指定扫描区间
B:HBase要查看表可以使用list_namespace
C:HBase一张正在使用的表可以直接使用drop命令删除
D:HBase全表扫描使用get命令
答案: 【】
4、多选题:
下面说法正确的是( )。
选项:
A:HBase的Master节点宕机后仍然可以查询
B:HBase可以自动对大表分片
C:HBase的Master节点宕机后不影响建表
D:Zookeeper记录了meta表存储在哪个RegionServer
答案: 【】
5、判断题:
HBase的预写日志可以降低数据丢失的风险。( )
选项:
A:错
B:对
答案: 【】
请先
!