hbase与spark笔试题(选择题)

2023-11-19

转自:https://www.cnblogs.com/cxzdy/p/5388451.html
http://www.bigdatastudy.net/show.aspx?id=175&cid=14

一、HBASE笔试题

  1. HBase来源于哪篇博文? C
    A The Google File System
    B MapReduce
    C BigTable
    D Chubby

  2. 下面对HBase的描述哪些是正确的? B、C、D
    A 不是开源的
    B 是面向列的
    C 是分布式的
    D 是一种NoSQL数据库

  3. HBase依靠()存储底层数据 A
    A HDFS
    B Hadoop
    C Memory
    D MapReduce

  4. HBase依赖()提供消息通信机制 A
    A Zookeeper
    B Chubby
    C RPC
    D Socket

  5. HBase依赖()提供强大的计算能力 D
    A Zookeeper
    B Chubby
    C RPC
    D MapReduce

  6. MapReduce与HBase的关系,哪些描述是正确的? B、C
    A 两者不可或缺,MapReduce是HBase可以正常运行的保证
    B 两者不是强关联关系,没有MapReduce,HBase可以正常运行
    C MapReduce可以直接访问HBase
    D 它们之间没有任何关系

  7. 下面哪些选项正确描述了HBase的特性? A、B、C、D
    A 高可靠性
    B 高性能
    C 面向列
    D可伸缩

  8. 下面与Zookeeper类似的框架是?D
    A Protobuf
    B Java
    C Kafka
    (Kafka是一个高吞吐量分布式消息系统。linkedin开源的kafka。 Kafka就跟这个名字一样,设计非常独特。首先,kafka的开发者们认为不需要在内存里缓存什么数据,操作系统的文件缓存已经足够完善和强大,只要你不搞随机写,顺序读写的性能是非常高效的。kafka的数据只会顺序append,数据的删除策略是累积到一定程度或者超过一定时间再删除。Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动pull的模型,这样大大减轻了服务器的负担。Kafka还强调减少数据的序列化和拷贝开销,它会将一些消息组织成Message Set做批量存储和发送,并且客户端在pull数据的时候,尽量以zero-copy的方式传输,利用sendfile(对应java里的 FileChannel.transferTo/transferFrom)这样的高级IO函数来减少拷贝开销。可见,kafka是一个精心设计,特定于某些应用的MQ系统,这种偏向特定领域的MQ系统我估计会越来越多,垂直化的产品策略值的考虑)
    D Chubby
    (MapReduce 很多人已经知道了,但关于Chubyy似乎熟悉它的就非常有限,这倒是不奇怪,因为MapReduce是一个针对开发人员的 ProgrammingModel,自然会有很多人去学习它,而Chubby更多的是一种为了实现MapReduce或者Bigtable而构建的内部的 工具,对于开发人员来说基本上是透明的。
    Chubby首先是一个分布式的文件系统。Chubby能够提供机制使得client可以在Chubby service上创建文件和执行一些文件的基本操作。说它是分布式的文件系统,是因为一个Chubby cell是一个分布式的系统,一般包含了5台机器,整个文件系统是部署在这5台机器上的。
    但是,从更高一点的语义层面上,Chubby是一个 lock service,一个针对松耦合的分布式系统的lock service。所谓lock service,就是这个service能够提供开发人员经常用的“锁”,“解锁”功能。通过Chubby,一个分布式系统中的上千个client都能够 对于某项资源进行“加锁”,“解锁”。
    那么,Chubby是怎样实现这样的“锁”功能的?就是通过文件。Chubby中的“锁”就是文件,在上例 中,创建文件其实就是进行“加锁”操作,创建文件成功的那个server其实就是抢占到了“锁”。用户通过打开、关闭和读取文件,获取共享锁或者独占锁; 并且通过通信机制,向用户发送更新信息。

综上所述,Chubby是一个lock service,通过这个lock service可以解决分布式中的一致性问题,而这个lock service的实现是一个分布式的文件系统。)

  1. 下面与HDFS类似的框架是?C
    A NTFS
    B FAT32
    C GFS(也是分布式文件系统,谷歌自己的分布式文件系统)
    D EXT3

  2. 下面哪些概念是HBase框架中使用的?A、C
    A HDFS
    B GridFS
    C Zookeeper
    D EXT3

第二部分:HBase核心知识点(对于Hbase实现核心LSM,会在下篇文章介绍)

  1. LSM含义是?A
    A 日志结构合并树(Log-Structured Merge Tree)
    B 二叉树
    C 平衡二叉树
    D 长平衡二叉树

  2. 下面对LSM结构描述正确的是? A、C
    A 顺序存储
    B 直接写硬盘
    C 需要将数据Flush到磁盘
    D 是一种搜索平衡树

  3. LSM更能保证哪种操作的性能?B
    A 读
    B 写
    C 随机读
    D 合并

  4. LSM的读操作和写操作是独立的?A
    A 是。
    B 否。
    C LSM并不区分读和写
    D LSM中读写是同一种操作

  5. LSM结构的数据首先存储在()。 B
    A 硬盘上
    B 内存中
    C 磁盘阵列中
    D 闪存中

16 HFile数据格式中的Data字段用于()。A
A 存储实际的KeyValue数据
B 存储数据的起点
C 指定字段的长度
D 存储数据块的起点

17 HFile数据格式中的MetaIndex字段用于()。D
A Meta块的长度
B Meta块的结束点
C Meta块数据内容
D Meta块的起始点

18 HFile数据格式中的Magic字段用于()。A
A 存储随机数,防止数据损坏
B 存储数据的起点
C 存储数据块的起点
D 指定字段的长度

19 HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()。A、D
A 是byte[]数组
B 没有固定的结构
C 数据的大小是定长的
D 有固定的结构

20 HFile数据格式中的KeyValue数据格式中Value部分是()。C
A 拥有复杂结构的字符串
B 字符串
C 二进制数据
D 压缩数据
第三部分:HBase高级应用介绍

31 HBase中的批量加载底层使用()实现。A
A MapReduce
B Hive
C Coprocessor
D Bloom Filter

  1. HBase性能优化包含下面的哪些选项?A、B、C、D
    A 读优化
    B 写优化
    C 配置优化
    D JVM优化

  2. Rowkey设计的原则,下列哪些选项的描述是正确的?A、B、C
    A 尽量保证越短越好
    B 可以使用汉字
    C 可以使用字符串
    D 本身是无序的

  3. HBase构建二级索引的实现方式有哪些? A、B
    A MapReduce
    B Coprocessor
    (HBase在0.92之后引入了协处理器(coprocessors),实现一些激动人心的新特性:能够轻易建立二次索引、复杂过滤器(谓词下推)以及访问控制等)
    C Bloom Filter
    D Filter

  4. 关于HBase二级索引的描述,哪些是正确的?A、B
    A 核心是倒排表
    B 二级索引概念是对应Rowkey这个“一级”索引
    C 二级索引使用平衡二叉树
    D 二级索引使用LSM结构

  5. 下列关于Bloom Filter的描述正确的是?A、C
    A 是一个很长的二进制向量和一系列随机映射函数
    B 没有误算率
    C 有一定的误算率
    D 可以在Bloom Filter中删除元素
    第四部分:HBase安装、部署、启动

  6. HBase官方版本可以安装在什么操作系统上?A、B、C
    A CentOS
    B Ubuntu
    C RedHat
    D Windows

  7. HBase虚拟分布式模式需要()个节点?A
    A 1
    B 2
    C 3
    D 最少3个

  8. HBase分布式模式最好需要()个节点?C
    A 1
    B 2
    C 3
    D 最少

  9. 下列哪些选项是安装HBase前所必须安装的?A、B
    A 操作系统
    B JDK
    C Shell Script
    D Java Code

  10. 解压.tar.gz结尾的HBase压缩包使用的Linux命令是?A
    A tar -zxvf
    B tar -zx
    C tar -s
    D tar -nf

二、spark笔试题

  1. spark 的四大组件下面哪个不是 ( D )
    A.Spark Streaming B Mlib C Graphx D Spark R

2.下面哪个端口不是 spark 自带服务的端口 ( C )
A.8080 B.4040 C.8090 D.18080

3.spark 1.4 版本的最大变化 ( B )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配

  1. Spark Job 默认的调度模式 ( A )
    A FIFO B FAIR C 无 D 运行时指定

5.哪个不是本地模式运行的个条件 ( D )
A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition默认值

6.下面哪个不是 RDD 的特点 ( C )
A. 可分区 B 可序列化 C 可修改 D 可持久化

  1. 关于广播变量,下面哪个是错误的 ( D )
    A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS

  2. 关于累加器,下面哪个是错误的 ( D )
    A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型

9.Spark 支持的分布式部署方式中哪个是错误的 ( D )
A standalone B spark on mesos C spark on YARN D Spark on local

10.Stage 的 Task 的数量由什么决定 ( A)

A Partition B Job C Stage D TaskScheduler

11.下面哪个操作是窄依赖 ( B )
A join B filter C group D sort

12.下面哪个操作肯定是宽依赖 ( C )
A map B flatMap C reduceByKey D sample

13.spark 的 master 和 worker 通过什么方式进行通信的? (D )
A http B nio C netty D Akka

14 默认的存储级别 (A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

15 spark.deploy.recoveryMode 不支持那种 ( D)
A.ZooKeeper B. FileSystem D NONE D hadoop

16.下列哪个不是 RDD 的缓存方法 (C )
A persist() B Cache() C Memory()

17.Task 运行在下来哪里个选项中 Executor 上的工作单元 (C )
A Driver program B. spark master C.worker node D Cluster manager

18.hive 的元数据存储在 derby 和 mysql 中有什么区别 (B )
A.没区别 B.多会话 C.支持网络环境 D数据库的区别

19.DataFrame 和 RDD 最大的区别 (B )
A.科学统计支持B.多了 schema C.存储方式不一样 D.外部数据源支持

20.Master 的 ElectedLeader 事件后做了哪些操作 (D )
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hbase与spark笔试题(选择题) 的相关文章

  • sql优化

    SQL总结 优化部分 1 应尽量避免在 where 子句中使用 或 lt gt 操作符 否则将引擎放弃使用索引而进行全表扫描 2 对查询进行优化 应尽量避免全表扫描 首先应考虑在 where 及 order by 涉及的列上建立索引 3 应

随机推荐

  • 模糊数学Python(一)模糊运算

    代码 import numpy as np def istype a 判断模糊矩阵a的类型 a np array a s np eye a shape 0 a shape 1 if a gt s all and a T a all retu
  • 安装12.04lts的两个问题总结

    因为在win7下有很多bug 老师叫我用Linux来完成项目的最后一步 啊啊啊 之前一直是在虚拟机里面搞 安装Ubuntu的过程中遇到了好多个问题 好吧好吧 下面总结一下 让遇到同样问题的朋友少走点弯路吧 1 分区问题 建立 主分区 之后
  • 数据操作之-dataframe常见操作:取行、列、切片、统计特征值

    import numpy as np import pandas as pd from pandas import from numpy import data DataFrame np arange 16 reshape 4 4 inde
  • Spring Boot 学习研究笔记(十八) 添加log4j2日志文件

    Spring Boot 添加log4j2日志文件 对于一个线上程序或者服务而言 重要的是要有日志输出 这样才能方便运维 而日志的输出需要有一定的规划 如日志命名 日志大小 日志分割的文件个数等 在SpringBoot的框架下 会使用log4
  • 栈头文件C语言

    Stack ADT h 栈模型头文件 数据类型定义 typedef char Name typedef struct stack node Name name struct stack node next Stack Node typede
  • GD32450i-EVAL学习笔记 6 - ADC

    目录 1 初始化ADC 1 1 使能RCU 1 2 设置频率 1 3 设置分辨率 1 4 设置数据对齐方式 1 5 使能扫描模式 1 6 设置触发模式 1 6 使能ADC 2 初始化通道规则 3 通道使能 4 软件触发使能 5 获取ADC的
  • C#List类容输出

    将集合中的类容 添加间隔符号后 输出为string List
  • vue之babel自动埋点

    公司项目是vue单页面技术 这天组长对我说 为了凸显我们的作用 做点外行或者新手看起来高深的东西 例如自动埋点 当时我的表情先是 然后摸鱼摸习惯了 就是这种状态 最后组长说领导的态度决定我们的绩效 没办法 为了money 无奈打开了老朋友
  • nacos集群部署遇到的问题总结

    问题一 内存不足 问题描述 nacos is starting with cluster Error occurred during initialization of VM Could not reserve enough space f
  • Eclipse android apk打包

    Eclipse android 开发更改apk名字 有以下几步 第一步 修改工程包名 在eclipse里 找到项目包和java包 原则上都一样 就可以按 F2 修改名字 随之 源 java也会得到相应的修改 然而每个 java文件都需要把如
  • Fortify 代码扫描安装使用教程

    前言 Fortify 能够提供静态和动态应用程序安全测试技术 以及运行时应用程序监控和保护功能 为实现高效安全监测 Fortify具有源代码安全分析 可精准定位漏洞产生的路径 以及具有1分钟1万行的扫描速度 Fortify SCA 支持丰富
  • 现在投资创客教育

    很多人会问创客要不要投资 就像吃西红柿鸡蛋面要不要用刀叉一样 你当然可以用 也可以用筷子 格物斯坦表示如果没有筷子 喜欢用手抓着吃也是可以的啊 投资人是路径的一种 不是唯一 更不是全部 投资创客教育是教育培训行业比较热门的话题 该行业未来是
  • Python基础语法学习之变量与赋值

    近几年Python飞速发展 开始学习Python的人群不在仅仅局限于编程开发者 许多其他行业的从业者也开始将Python作为自己的职业技能 本文仍然是针对零基础的初学者 继续学习Python的基础语法 变量与赋值 主要内容包括变量和赋值的概
  • el-checkbox-group限制勾选数量

  • 代理模式:静态代理和动态代理

    代理模式 代理对象增强对目标对象的功能 分类 静态代理 动态代理 jdk代理通过实现接口 cglib通过实现类实现 静态代理 JDK动态代理 CGLIB代理模式 通过回调拦截器方法实现代理对象的生成
  • 【计算机视觉】直接线性变换(DLT)求解P矩阵(2 使用SVD分解)(附MATLAB代码)

    引言 之前的帖子已经完成了一种计算直接线性变换的方法 是直接通过矩阵运算来进行的 不过随后得到的结果并不能满足精度要求 如果只是用来作为迭代优化的一个初值的话 对于精度的要求倒也不用那么高 但在查阅资料时又发现了另一种解法 是通过SVD分解
  • DataFrame对象创建

    文章目录 前言 一 创建DataFrame对象 二 使用步骤 前言 一 创建DataFrame对象 示例 将字典 年龄 23 22 21 岗位 客服 运营 公关 年购买量 10 15 8 转换成一个DataFrame对象 二 使用步骤 代码
  • 搭建主数据管理平台,解决多个系统数据不统一的问题

    如今的电子产业环境要求电子制造商必须能对产业中的各种变化做出迅速的反应 而这些变化产生了前所未有的大量数据 包括来自产品类别增加 供应中断和需求波动以及其它因素等多方面的数据 这些数据以多种格式存在于各种系统之中 虽然 企业为管理它们花费了
  • FastAPI准备之pydantic类型检查工具

    官方文档 https pydantic docs helpmanual io 这些组织都在用 Jupyter notebook FastAPI Amazon Web Services Uber Microsoft 优势 可以和IDE结合 可
  • hbase与spark笔试题(选择题)

    转自 https www cnblogs com cxzdy p 5388451 html http www bigdatastudy net show aspx id 175 cid 14 一 HBASE笔试题 HBase来源于哪篇博文