Hbase-hadoop集成中datanode、regionserver的作用

2023-12-24

根据我的理解，行被插入到 HBase 表中，并作为区域存储在不同的区域服务器中。因此，区域服务器存储数据

类似地，就 Hadoop 而言，数据存储在 hadoop 集群中的数据节点中。

假设我在 Hadoop 1.1.1 之上配置了 HBase 0.90.6，如下所示

2 个节点 - 主节点和从节点

Master node acts as,
- Hadoop - Namenode、Secondary Namenode、作业跟踪器、数据节点、任务跟踪器
- HBase - Master、RegionServer 和 Zookeeper。
Slave node acts as,
- Hadoop 数据节点和任务跟踪器
- HBase 区域服务器

根据我的说法，如果表数据存储在区域服务器中；那么数据节点和区域服务器的作用是什么？

数据节点存储数据。区域服务器本质上缓冲 I/O 操作；数据永久存储在HDFS（即数据节点）上。我认为将区域服务器放在“主”节点上不是一个好主意。

以下是区域管理方式的简化图：

您有一个运行 HDFS（NameNode + DataNode）的集群，复制因子为 3（每个 HDFS 块被复制到 3 个不同的 DataNode）。

您在与 DataNode 相同的服务器上运行 RegionServer。当写请求到达 RegionServer 时，它首先将更改写入内存并提交日志；然后在某个时刻，它决定将更改写入 HDFS 上的永久存储。这就是数据局部性发挥作用的地方：由于您在同一服务器上运行 RegionServer 和 DataNode，因此文件的第一个 HDFS 块副本将写入同一服务器。另外两个副本将被写入其他 DataNode。因此，为该区域提供服务的 RegionServer 几乎总是可以访问数据的本地副本。

如果 RegionServer 崩溃或 RegionMaster 决定将区域重新分配给另一个 RegionServer（以保持集群平衡）怎么办？新的 RegionServer 将被迫首先执行远程读取，但一旦执行压缩（将更改日志合并到数据中） - 新的文件将由新的 RegionServer 写入 HDFS，并在 RegionServer 上创建本地副本（再次强调，因为 DataNode 和 RegionServer 运行在同一台服务器上）。

注意：如果 RegionServer 崩溃，之前分配给它的 Region 将被重新分配给多个 RegionServer。

好读物：

Tom White，《Hadoop，权威指南》对 HDFS 架构有很好的解释。不幸的是，我没有阅读原始的 Google GFS 论文，所以我无法判断它是否容易理解。
谷歌大表 http://research.google.com/archive/bigtable-osdi06.pdf文章。 HBase 是 Google BigTable 的实现，我发现本文中的架构描述是最容易理解的。

以下是 Google Bigtable 和 HBase 实现之间的命名差异（来自 Lars George，“HBase，权威指南”）：

HBase-Bigtable
地区 - 平板电脑
RegionServer - 平板电脑服务器
冲洗 - 轻微压实
次要压缩 - 合并压缩
主要压实 - 主要压实
预写日志-提交日志
HDFS-GFS
Hadoop MapReduce - MapReduce
MemStore-内存表
HFile - SSTable
动物园管理员 - 胖乎乎的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hbase

Hbase-hadoop集成中datanode、regionserver的作用的相关文章

如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
HBase Shell 日志记录

使用 HBase shell 时我收到大量日志记录包括 INFO 和 DEBUG 消息虽然这对于学习 HBase 内部结构来说很有趣但它非常冗长并且可能会掩盖输出我尝试过以多种不同的方式更改日志记录级别包括所描述的here ht
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
HBase：返回不存在字段的记录

我在 HBase 中有一个人员表如下所示 ROW KEY COLUMN CELL dinesh column details code value dr 01 dinesh column status is error value fal
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
连接到在 Docker 中运行的 HBase

我无法连接到 Windows 上 Docker 中运行的 HBase banno hbase 独立 https registry hub docker com u banno hbase standalone 图像但是我可以连接到本地安
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是

随机推荐

从两列中创建一个元组 - PySpark

我的问题是基于这里的类似问题PySpark 添加一个新列其中包含从列创建的元组 https stackoverflow com questions 44067861 pyspark add a new column with a tupl
有没有计算对数正态均值和方差的Python方法？

我想了解是否有内置的 python 函数来计算对数正态平均值和方差我只需要这些信息然后将其输入scipy stats lognorm用于叠加在直方图之上的图只需使用numpy mean and numpy std似乎不是正确的想法因为
Eclipse 中出现“Java 运行时环境内存不足”消息

当我在 Eclipse 中运行 Java 代码时我收到以下消息 There is insufficient memory for the Java Runtime Environment to continue Native memory
如何将 StringVar 连接到 Python/Tkinter 中的文本小部件？

基本上我希望 Text 小部件的主体在 StringVar 发生变化时发生变化简而言之你不能至少不需要做额外的工作文本小部件不直接支持variable option 如果您想自己完成所有工作可以在变量上设置跟踪以便使文本小部
无法在 AWS Lambda (Python) 中导入模块

我有一个名为的 python 脚本foo py 它有一个 lambda 处理函数定义如下 def handler event context for record in event Records bucket record s3 buc
柯尔莫哥洛夫复杂度近似算法

我正在寻找一种算法可以计算给定输入字符串的柯尔莫哥洛夫复杂度的近似值因此如果 K 是字符串 S 的柯尔莫哥洛夫复杂度并且 t 代表时间那么该函数的行为将如下所示 limit t gt inf K approx t S K 理论上
如何使用 PowerShell cmdlet 对 PowerShell 脚本文件进行完整语法检查

我正在编写一个控制台应用程序来验证 PowerShell 脚本语法我的请求是验证 PowerShell 脚本而不执行该脚本我在下面的 PowerShell 命令中发现了这个命令它可以在不执行脚本的情况下执行语法检查 Get Comma
Self.Type 无法直接转换为 AnyClass 以扩展为 swift 中的 Objective-C 类

我正在尝试创建结构方法来创建具有正确笔尖名称的 UIViewController 以修复 iOS8 默认初始化程序问题为此我添加了扩展 extension UIViewController class func create gt Se
Jquery 选择器中的引号

我读过几个关于类似问题的答案人们总是说单引号和双引号之间没有区别问题是我有一小行代码似乎很重要 li data type veg append v 这段代码做了我希望他做的事情在链接末尾放置一个 v 但是这段代码 li data ty
ApacheConnectorProvider：泽西客户端 2.5.1

Ref https jersey java net documentation latest user guide html d0e4337 https jersey java net documentation latest user g
关于游戏循环、tick和实时编程的一些问题

首先我想为我的英语水平道歉因为我是法国人我目前正在使用 LWJGL 用 java 制作实时游戏我有一些关于游戏循环的问题我正在线程中运行渲染例程这是不是一个好主意通常渲染例程相当慢并且不应该减慢更重要的世界更新滴答例程
Xcode 3.1.4 中添加 -Wall 和 -Wextra 的位置

我试图找出在 Xcode 中添加额外警告标志的位置例如 Wall 和 Wextra 我在 Leopard 上使用版本 3 1 4 苹果的文档适用于旧版本如果我按照他们的说明进行操作它会将我带到与他们显示的完全不同的窗口他们还提供了特
Highcharts - 指定堆叠时间序列的顺序

Highcharts 有没有办法指定时间序列的堆叠顺序我发现的唯一方法是在系列出现时订购它们因此如果我有 A B 和 C 系列并且希望通过以下方式订购 B C A然后我将系列添加到B C A顺序使得系列 0 B 系列 1 C 系列
如何从 scala/sbt/slf4j 项目中排除公共日志记录？

我的 scala sbt 项目使用 grizzled slf4j 和 logback 第三方依赖项使用 Apache Commons Logging 对于 Java Maven 我将使用 jcl over slf4j 和 logback c
Android XML：投影被截断

我有一个带有边距的相对布局和一个嵌套在该布局内的浮动操作按钮
如何正确处理 ASP.Net Core 3 Web API 中的多个端点

我有 2 种方法来处理 HTTP GET 请求第一个方法用于int键入输入另一个用于string类型输入 GET api Fighters 5 HttpGet id public async Task
如果我在 MySQL 中存储 int(255) ，最大数量是多少？

我在mysql中使用int 255 作为我的id 这够长吗如果我有大约 1 000 000 条记录谢谢有些东西可能只是将其转换为int 11 为你因为你不能在一个字符中包含 255 个可见数字int 最大值将为2147483647
在 asp.net mvc 2.0 中使用 Html.DropDownListFor 助手时如何更改 id 值？

我有这样的部分观点现在您可以创建新产品并编辑现有产品编辑和创建都使用相同的形式加载时创建位于主页上编辑会在 jQuery UI 模型对话框中弹出并呈现新的部分视图因此就页面而言我有两个具有相同 id 的下拉框这很糟糕因为它
向下滚动到页面图像时是否能够部分加载页面图像，或者只是效果？

我在一些网站上注意到例如http mashable com http mashable com当您打开页面并尝试滚动它时它似乎在您到达它时加载图像我不知道这是否只是闪烁效果或者它确实是为了减少滚动到它之前的图像负载这是一个帮助您入
Hbase-hadoop集成中datanode、regionserver的作用

根据我的理解行被插入到 HBase 表中并作为区域存储在不同的区域服务器中因此区域服务器存储数据类似地就 Hadoop 而言数据存储在 hadoop 集群中的数据节点中假设我在 Hadoop 1 1 1 之上配置了 HBas

Hbase-hadoop集成中datanode、regionserver的作用

Hbase-hadoop集成中datanode、regionserver的作用 的相关文章

随机推荐

热门标签

Hbase-hadoop集成中datanode、regionserver的作用的相关文章