为何HBase速度很快

2023-05-16

为何HBase速度很快？

HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的，即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegion server服务器，然后直接在服务器的一个region上查找要匹配的数据，并且这些数据部分是经过cache缓存的。

前面说过HBase会将数据保存到内存中，在内存中的数据是有序的，如果内存空间满了，会刷写到HFile中，而在HFile中保存的内容也是有序的。当数据写入HFile后，内存中的数据会被丢弃。

HFile文件为磁盘顺序读取做了优化，按页存储。下图展示了在内存中多个块存储并归并到磁盘的过程，合并写入会产生新的结果块，最终多个块被合并为更大块。

多次刷写后会产生很多小文件，后台线程会合并小文件组成大文件，这样磁盘查找会限制在少数几个数据存储文件中。HBase的写入速度快是因为它其实并不是真的立即写入文件中，而是先写入内存，随后异步刷入HFile。所以在客户端看来，写入速度很快。另外，写入时候将随机写入转换成顺序写，数据写入速度也很稳定。

而读取速度快是因为它使用了LSM树型结构，而不是B或B+树。磁盘的顺序读取速度很快，但是相比而言，寻找磁道的速度就要慢很多。HBase的存储结构导致它需要磁盘寻道时间在可预测范围内，并且读取与所要查询的rowkey连续的任意数量的记录都不会引发额外的寻道开销。比如有5个存储文件，那么最多需要5次磁盘寻道就可以。而关系型数据库，即使有索引，也无法确定磁盘寻道次数。而且，HBase读取首先会在缓存（BlockCache）中查找，它采用了LRU（最近最少使用算法），如果缓存中没找到，会从内存中的MemStore中查找，只有这两个地方都找不到时，才会加载HFile中的内容，而上文也提到了读取HFile速度也会很快，因为节省了寻道开销。

举例：

A：如果快速查询（从磁盘读数据），hbase是根据rowkey查询的，只要能快速的定位rowkey,  就能实现快速的查询，主要是以下因素：
     1、hbase是可划分成多个region，你可以简单的理解为关系型数据库的多个分区。
      2、键是排好序了的
      3、按列存储的

首先，能快速找到行所在的region(分区)，假设表有10亿条记录，占空间1TB,   分列成了500个region,  1个region占2个G. 最多读取2G的记录，就能找到对应记录；

其次，是按列存储的，其实是列族，假设分为3个列族，每个列族就是666M，如果要查询的东西在其中1个列族上，1个列族包含1个或者多个HStoreFile，假设一个HStoreFile是128M，该列族包含5个HStoreFile在磁盘上. 剩下的在内存中。

再次，是排好序了的，你要的记录有可能在最前面，也有可能在最后面，假设在中间，我们只需遍历2.5个HStoreFile共300M

最后，每个HStoreFile(HFile的封装)，是以键值对（key-value）方式存储，只要遍历一个个数据块中的key的位置，并判断符合条件可以了。一般key是有限的长度，假设跟value是1:19（忽略HFile上其它块），最终只需要15M就可获取的对应的记录，按照磁盘的访问100M/S，只需0.15秒。加上块缓存机制（LRU原则），会取得更高的效率。

B：实时查询
实时查询，可以认为是从内存中查询，一般响应时间在1秒内。HBase的机制是数据先写入到内存中，当数据量达到一定的量（如128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。

实时查询，即反应根据当前时间的数据，可以认为这些数据始终是在内存的，保证了数据的实时响应。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase

速度很快

为何HBase速度很快的相关文章

hbase 作为 Web 应用程序中的数据库

关于在真实的 Web 应用程序中使用 hadoop 或相关技术的一个大问题我只是想了解 Web 应用程序如何使用 hbase 作为其数据库我的意思是这是大数据应用程序所做的事情还是他们使用普通数据库并仅使用这些技术进行分析拥有一个
Hbase 和 BigTable 有什么区别？

谁能告诉我 Apache HBase 数据库和 Bigtable 之间有什么区别或者它们是相同的吗如果有的话哪一个支持关系如果他们是大搜索者有什么区别它们很相似但又不一样 Bigtable 最初于 2005 年发布但并未发布
设置HBase、hadoop、hive通过hive访问Hbase的正确方法是什么？

我在配置和安装 hbase hadoop hive 时遇到问题到目前为止我在 ubuntu 14 04 3 LTS 的虚拟机上做了什么像这样安装了jdk和版本jdk1 8 0 60 https askubuntu com questio
将 Jar 文件添加到 WEB-INF/lib [重复]

这个问题在这里已经有答案了我是 Eclipse Java 和 Linux 的新手我搜索这个问题但没有找到答案我想编写一个操作 HBase 表的程序所以我有一些与 HBase 相关的 Jar 文件在普通的 Java 应用程序中我
HBase区域服务器和Hadoop数据节点应该在同一台机器上吗？

抱歉我没有资源来设置集群来测试它我只是想知道我可以将 hbase 区域服务器部署在 hadoop 数据节点计算机之外的单独计算机上吗我想答案是肯定的但我不确定 hbase区域服务器和hadoop数据节点部署在不同的机器上是好是坏
HBase：使用Java API创建表时指定版本

我知道我们可以通过以下方式从 hbase shell 执行此操作 create t1 NAME gt f1 VERSIONS gt 5 我在中找不到任何相应的选项HTableDesctiptor在 Java API 中知道如何做到这一点吗
HBase 上的 Thrift 有性能基准吗？

我有一个可以将大量数据写入 hbase 的系统系统是用c 编写的发现hbase有其他语言的thrift接口我的问题是 HBase 上的 Thrift 有性能基准吗与java原生api相比最劣势是什么我推荐最近关于这个主题的两篇博
Spark 在 Hbase 的 InputSplit 期间给出空指针异常

我正在使用 Spark 1 2 1 Hbase 0 98 10 和 Hadoop 2 6 0 从 hbase 检索数据时出现空点异常找到下面的堆栈跟踪 sparkDriver akka actor default dispatcher 2
hadoop和hbase的最新兼容版本

我必须在4台机器上安装hadoop和hbase 我找到了最新版本hadoop 2 6 0 and hbase 0 98 9 hadoop2 bin 1 它们兼容吗 2 我应该如何在4台机器上安装hbase和hadoop 即有多少个maste
如何在 HBase 中续订过期的 Kerberos 票证？

我有一个小型 spring 服务它提供基本功能例如从 hbase 表中放入删除获取一切似乎都正常但有一个问题启动 Tomcat 服务器 10 小时后我的 kerberos 票证过期因此我应该更新它我尝试对 hbase 使
Hbase连接zookeeper错误

环境 Ubuntu 14 04 hadoop 2 2 0 hbase 0 98 7 当我启动hadoop和hbase 单节点模式时都成功我还检查了hadoop的网站8088 hbase的网站60010 jps 4507 Seconda
错误：org.apache.hadoop.hbase.MasterNotRunningException：null+hbase+hadoop

我最近用两台机器在ubuntu上配置了hadoop集群到目前为止效果很好但是当我尝试在上面的 hadoop 集群上配置 hbase 时它显示错误这就是我所做的我有两台机器 192 168 1 110 Hadoop主站 192
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
HBase 作为 Web 应用程序后端

任何人都可以建议将 HBase 作为基于 Web 的应用程序的主要数据源是否是一个好主意我主要关心的是 HBase 对查询的响应时间是否有可能实现亚秒级响应编辑有关应用程序本身的更多详细信息数据量约500GB文本数据预计很快将
如何定义Titan Graph DB Vertex的数据类型？

我正在使用 Titan 和 Blueprint API 创建图形数据表我使用 HBase 作为后端我知道如何定义关键索引的数据类型 Example TitanKey name graph makeType name name dataT
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端我可以运行 gremlin server sh 但如果我尝试保存某些内容我会得到粘贴在下面的堆
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的

随机推荐

6、spring的五种类型通知

spring共提供了五种类型的通知 xff1a 通知类型接口描述Around 环绕通知org aopalliance intercept MethodInterceptor拦截对目标方法调用Before 前置通知org springfram
路由器接口配置与管理——1

路由器的接口相对于交换机来说最大的特点就是接口类型和配置更为复杂 xff0c 一般吧路由器上的接口分为三大类 xff1a 一类用于局域网的LAN接口 xff0c 一类用于广域网接入互联的WAN接口 xff0c 最后一类可以应用于LAN组网
路由配置与管理——静态路由配置与管理

静态路由是一种最简单的路由 xff0c 需手工配置 xff0c 用一条指令指定静态路由的目的IP地址子网掩码下一跳IP地址 xff0c 或者出接口优先级等主要参数值就可以了还可根据实际需要配置静态路由与BFD或者NQA的联动一路
TCP实现局域网通信

TCP实现局域网通信 TCP客户端通信步骤 xff1a 1 xff1a 创建套接字 sockfd 61 socket AF INET SOCK STREAM 0 2 xff1a 填写服务器结构体信息 span class token key
路由策略和策略路由配置与管理-1

路由策略和策略路由配置与管理路由策略与策略路由之间的区别就在于它们的主体 xff08 或者说作用对象 xff09 不同 xff0c 前者的主体是路由 xff0c 是对符合条件的路由 xff08 主要 xff09 通过修改路由属性
IP组播基础及工作原理——1

IP组播在一些多用户定向发送的网络应用中使用非常普遍 xff0c 如远程多媒体会议远程教学视频点播定向电子商务 xff0c 以及ISP的IPTV xff08 网络电视 xff09 等学好IP组播基础知识及配置与管理方法 xff0c
IP组播配置与管理实战——1

IGMP 配置与管理 IGMP xff08 InternetGroup Management Protocol xff0c 因特网组管理协议 xff09 是TCP IP 协议族中负责IPv4组播成员管理的协议 xff0c 需要在组播组成
Linux:利用返回值传出参数，地址传递，值传递,使用回调函数赋值几个例程。

利用返回值传出参数 xff0c 地址传递 xff0c 值传递使用回调函数赋值几个例程代码 xff1a include lt stdlib h gt include lt stdio h gt include lt unistd h gt
一步一步实现多尺度多角度的形状匹配算法(C++版本)

前言用过halcon形状匹配的都知道 xff0c 这个算子贼好用 xff0c 随便截一个ROI做模板就可以在搜索图像中匹配到相似的区域 xff0c 并且能输出搜索图像的位置 xff0c 匹配尺度 xff0c 匹配角度现在我们就要利用op
查看麒麟操作系统版本

root 64 tbase01 nkvers Kylin Linux Version Release Kylin Linux Advanced Server release V10 Tercel Kernel 4 19 90 23 8 v2
Parallax-tolerant Image Stitching - 解决大视差图片拼接的方法

Paper name Parallax tolerant Image Stitching Paper Reading Note URL http web cecs pdx edu fliu papers cvpr2014 stitching
Consistent Video Depth Estimation - 时序一致的视频深度估计算法

Paper name Consistent Video Depth Estimation Paper Reading Note URL xff1a https arxiv org pdf 2004 15021 pdf 代码 URL xff1
Monocular Fisheye Camera Depth Estimation Using Sparse LiDAR Supervision

Paper name Monocular Fisheye Camera Depth Estimation Using Sparse LiDAR Supervision Paper Reading Note URL https arxiv o
WoodScape: A multi-task, multi-camera fisheye dataset for autonomous driving

Paper name WoodScape A multi task multi camera fisheye dataset for autonomous driving Paper Reading Note URL https opena
数据库操作

增删改查 xff1a 对表结构进行修改语法 xff1a 1 修改表名 ALTER TABLE 表名 RENAME 新表名 2 增加字段 ALTER TABLE 表名 ADD 字段名数据类型完整性约束条件 ADD 字段名数据类型完整
大语言模型集成工具 LangChain

大语言模型集成工具 LangChain LangChain 介绍介绍 xff1a 通过可组合性使用大型语言模型构建应用程序背景大型语言模型 LLM 正在成为一种变革性技术 xff0c 使开发人员能够构建他们以前无法构建的应用程序 xf
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Paper name Visual ChatGPT Talking Drawing and Editing with Visual Foundation Models Paper Reading Note Paper URL https a
LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

Paper name LORA LOW RANK ADAPTATION OF LARGE LAN GUAGE MODELS Paper Reading Note Paper URL https arxiv org pdf 2106 0968
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Paper name LLaMA Adapter Efficient Fine tuning of Language Models with Zero init Attention Paper Reading Note Paper URL
为何HBase速度很快

为何HBase速度很快 xff1f HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的 xff0c 即由LSM Tree Log Structured Merge Tree 43 HTable region分区 43 Ca

为何HBase速度很快

为何HBase速度很快 的相关文章

随机推荐

热门标签

为何HBase速度很快的相关文章