OpenTSDB-时序数据库

2023-11-13

一、简介
OpenTSDB(Open time series data base)，时间序列数据库。顾名思义，就是以时间为标签存储数据，它的特点是能够提供最高毫秒级精度的时间序列数据存储，能够长久保存原始数据并且不失精度。但是OpenTSDB这个db有误导性，他其实只是一层读写服务（基于HBase）

什么是时序数据？

股票的变化趋势、温度的变化趋势、系统某个指标的变化趋势……其实都是时序数据，就是每个时间点上纪录一条数据。关于数据的存储，我们最熟悉的就是mysql了，但是想想看，每5分钟存储一个点，一天288个点，一年就10万+，这还是单个维度，往往在实际应用中维度会非常多，比如股票交易所，成千上万支股票，每天所有股票数据就可能超过百万条，如果还得支持历史数据查询，mysql是远远扛不住的，必然要考虑分布式存储，最好的选择就是Hbase了，事实上业内基本上也是这么做的。
了解Hbase的人都知道，它可以通过加机器的水平扩展迅速增加读写能力，非常适合存储海量的数据，但是它并不是关系数据库，无法进行类似mysql那种select、join等操作。取而代之的只有非常简单的Get和Scan两种数据查询方式。这里不讨论Hbase的相关细节，总之，你可以通过Get获取到hbase里的一行数据，通过Scan来查询其中RowKey在某个范围里的一批数据。如此简单的查询方式虽然让hbase变得简单易用，但也限制了它的使用场景。针对时序数据，只有get和scan远远满足不了你的需求。
这个时候OpenTSDB就应运而生。首先它做了数据存储的优化，可以大幅度提升数据查询的效率和减少存储空间的使用。其次它基于hbase做了常用时序数据查询的API，比如数据的聚合、过滤等。另外它也针对数据热度倾斜做了优化。

二、OpenTSDB术语
metric: 指标，比如在系统监控中cpu的利用率、天气数据，温度，湿度等的变化。
timestamp: 时间戳（时间戳是指格林威治时间1970年01月01日00时00分00秒起至当下的总秒数）在线时间戳工具网站.
tag: 标签。比如在cpu在某个机器上的数据，就可以把机器ip作为tag打进去。
在OpenTSDB里tag是个k-v，比如 ip=192.168.0.1 就可以做为一个tag。注意
OpenTSDB最多只能打8个tag。（每个标签由tagKey和tagValue组成，tagKey和tagValue均为字符串）
value: 我们要存的时序数据的值。（64位整数或者单精度浮点数）
举个例子，在监控场景中，我们可以这样定义一个监控指标：

指标名称代表这个监控指标是对用户态CPU的使用监控，引入了两个标签，分别标识该监控位于哪台机器的哪个核。

OpenTSDB支持的查询场景为：指定指标名称和时间范围，给定一个或多个标签名称和标签的值作为条件，查询出所有的数据。

以上面那个例子举例，我们可以查询：

a. sys.cpu.user (host=,cpu=)(1465920000 <= timestamp < 1465923600)：查询凌晨0点到1点之间，所有机器的所有CPU核上的用户态CPU消耗。

b. sys.cpu.user (host=10.101.168.111,cpu=*)(1465920000 <= timestamp < 1465923600)：查询凌晨0点到1点之间，某台机器的所有CPU核上的用户态CPU消耗。

c. sys.cpu.user (host=10.101.168.111,cpu=0)(1465920000 <= timestamp < 1465923600)：查询凌晨0点到1点之间，某台机器的第0个CPU核上的用户态CPU消耗。

2 数据存储优化
如果我们只通过原始的Hbase接口去存时间序列，我们可能会设计出这样的Rowkey。
　　metric|timestamp|tagK1:tagV1|tagK2:tagV2…
　　
　　如上图是一个简单的表结构设计，rowkey采用metric name + timestamp + tags的组合，因为这几个元素才能唯一确定一个指标值。
　　如果我们每秒存储一个数据点，每天就有86400个数据点，在hbase里就意味着86400行的数据，不仅浪费存储空间，而且还查起来慢，所以OpenTSDB做了数据压缩上的优化，多行一列转一行多列，一行多列转一行一列。数据开始写入时其实OpenTSDB还是一行一个数据点，如果用户开启了数据压缩的选项，OpenTSDB会在一个小时数据写完或者查询某个小时数据时对其做多行转一行的数据压缩，压缩后那些独立的点数据就会被删除以节省存储空间。

2.1 优化一：缩短row key
例（接上文的例子）：
　观察这张表内存储的数据，在rowkey的组成部分内，其实有很大一部分的重复数据，重复的指标名称，重复的标签。以上图为例，如果每秒采集一次监控指标，cpu为2核，host规模为100台，则一天时间内sys.cpu.user这个监控指标就会产生17280000行数据，而这些行中，监控指标名称均是重复的。如果能将这部分重复数据的长度尽可能的缩短，则能带来非常大的存储空间的节省。
　OpenTSDB采用的策略是，为每个metric、tag key和tag value都分配一个UID，UID为固定长度三个字节。
　　
　上图为优化后的存储结构，可以看出，rowkey的长度大大的缩短了。rowkey的缩短，带来了很多好处：

a. 节省存储空间

b. 提高查询效率：减少key匹配查找的时间

c. 提高传输效率：不光节省了从文件系统读取的带宽，也节省了数据返回占用的带宽，提高了数据写入和读取的速度。

d. 缓解Java程序内存压力：Java程序，GC是老大难的问题，能节省内存的地方尽量节省。原先用String存储的metric name、tag key或tag value，现在均可以用3个字节的byte array替换，大大节省了内存占用。

2.2 优化二：减少Key-Value数
优化一是OpenTSDB做的最核心的一个优化，很直观的可以看到存储的数据量被大大的节省了。原理也很简单，将长的变短。但是是否还可以进一步优化呢？

在上面的存储模型章节中，我们了解到。HBase在底层存储结构中，每一列都会以Key-Value的形式存储，每一列都会包含一个rowkey。如果要进一步缩短存储量，那就得想办法减少Key-Value的个数。

OpenTSDB分了几个步骤来减少Key-Value的个数：

将多行合并为一行，多行单列变为单行多列。

将多列合并为一列，单行多列变为单行单列。

2.2.1 将多行合并为一行，多行单列变为单行多列。

　OpenTSDB将同属于一个时间周期内的具有相同TSUID（相同的metric name，以及相同的tags）的数据合并为一行存储。OpenTSDB内默认的时间周期是一个小时，也就是说同属于这一个小时的所有数据点，会合并到一行内存储，如图上所示。合并为一行后，该行的rowkey中的timestamp会指定为该小时的起始时间（所属时间周期的base时间），而每一列的列名，则记录真实数据点的时间戳与该时间周期起始时间（base）的差值。
　
　这里列名采用差值而不是真实值也是一个有特殊考虑的设计，如存储模型章节所述，列名也是会存在于每个Key-Value中，占用一定的存储空间。如果是秒精度的时间戳，需要4个字节，如果是毫秒精度的时间戳，则需要8个字节。但是如果列名只存差值且时间周期为一个小时的话，则如果是秒精度，则差值取值范围是0-3600，只需要2个字节；如果是毫秒精度，则差值取值范围是0-360000，只需要4个字节；所以相比存真实时间戳，这个设计是能节省不少空间的。

2.2.2 单行多列合并为单行单列
多行合并为单行后，并不能真实的减少Key-Value个数，因为总的列数并没有减少。所以要达到真实的节省存储的目的，还需要将一行的列变少，才能真正的将Key-Value数变少。

OpenTSDB采取的做法是，会在后台定期的将一行的多列合并为一列，称之为『compaction』，合并完之后效果如下。

同一行中的所有列被合并为一列，如果是秒精度的数据，则一行中的3600列会合并为1列，Key-Value数从3600个降低到只有1个。

2.3 并发写优化
上面两个优化主要是OpenTSDB对存储的优化，存储量下降以及Key-Value个数下降后，除了直观的存储量上的缩减，对读和写的效率都是有一定提升的。

时间序列数据的写入，有一个不可规避的问题是写热点问题，当某一个metric下数据点很多时，则该metric很容易造成写入热点。OpenTSDB采取了和这篇文章中介绍的一样的方法，允许将metric预分桶，可通过『tsd.storage.salt.buckets』配置项来配置。

如上图所示，预分桶后的变化就是在rowkey前会拼上一个桶编号（bucket index）。预分桶后，可将某个热点metric的写压力分散到多个桶中，避免了写热点的产生。

2.4 总结
OpenTSDB作为一个应用广泛的时间序列数据库，在存储上做了大量的优化，优化的选择也是完全契合其底层依赖的HBase数据库的存储模型。表格存储拥有和HBase一样的存储模型，这部分优化经验可以直接借鉴使用到表格存储的应用场景中，值得我们好好学习。

3 数据写入与查询API

原文链接：https://blog.csdn.net/lixinkuan328/article/details/106782643

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OpenTSDB-时序数据库的相关文章

面试官问，如何在十亿级别用户中检查用户名是否存在？

面试官问如何在十亿级别用户中检查用户名是否存在前言不知道大家有没有留意过在使用一些app注册的时候提示你用户名已经被占用了需要更换一个这是如何实现的呢你可能想这不是很简单吗去数据库里查一下有没有不就行了吗那么假如用户数量
Redis分布式锁--java实现

文章目录 Redis分布式锁方案 SETNX EXPIRE 基本原理比较好的实现会产生四个问题几种解决原子性的方案
Mysql中设置只允许指定ip能连接访问(可视化工具的方式)

场景 Mysql中怎样设置指定ip远程访问连接 Mysql中怎样设置指定ip远程访问连接 navicat for mysql 设置只有某个ip可以远程链接 CSDN博客前面设置root账户指定ip能连接访问是通过命令行的方式如果通过可视
温室气体排放更敏感的模型（即更高的平衡气候敏感性（ECS））在数年到数十年时间尺度上也具有更高的温度变化（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
Python 使用 NoSQL 数据库的优选方案

NoSQL 数据库因其高性能可扩展性和灵活性而风靡一时然而对于 Python 程序员而言选择合适的 NoSQL 数据库可能会令人困惑因为有多种选择可供选择那么哪种 NoSQL 数据库最适合 Python 呢 2 解决方案根据
将 1GB 数据加载到 hbase 需要 1 小时

我想将 1GB 1000 万条记录的 CSV 文件加载到 Hbase 中我为它编写了 Map Reduce 程序我的代码运行良好但需要 1 小时才能完成最后一个Reducer 花费了半个多小时的时间有人可以帮我吗我的代码如下
将 Spark 数据帧插入 hbase

我有一个数据框我想将其插入到 hbase 中我遵循这个文档 https hbase apache org book html sparksql dataframes 这就是我的数据框的样子 id name address 23 marr
Hortonworks HDP Sandbox 上的 HBase：无法从 ZooKeeper 获取主地址

我从 hortonworks for virtualbox 下载了 HDP 2 1 在简单命令中使用 Hbase shell 时出现以下错误 create t1 NAME gt f1 VERSIONS gt 5 Hortonworks 错误
使用 Spark 和 Phoenix 将 CSV 文件保存到 hbase 表

有人可以向我指出使用 Spark 将 csv 文件保存到 Hbase 表的工作示例吗2 2我尝试过但失败的选项注意它们都适用于我的 Spark 1 6 凤凰火花 hbase spark it nerdammer bigdata spar
Spark Streaming数据放入HBase的问题

我是这个领域的初学者所以我无法理解它 HBase 版本 0 98 24 hadoop2 火花版本 2 1 0 以下代码尝试将从 Spark Streming Kafka 生产者接收的数据放入 HBase 中 Kafka输入数据格式是这样的
如何在 hbase 中存储原始数据类型并检索

如何使用 hbase api 存储和检索原始数据类型我的任务是在 hbase 上保存随机事件其中包含随机生成的不可预测的数据类型并需要在我想要的时候取回它们有人可以帮我解决这个问题吗因为我对 hbase 和这些东西真的很陌生这是
如何将多个 QualifierFilter 应用于 HBase 中的一行

我们想使用两个 QualifierFilters 过滤 HBase 表上的扫描意味着我们只想获取表中确实具有特定列 col A 的行AND 某个其他列 col B 我们当前的方法如下所示 FilterList filterList new
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
HBase 作为 Web 应用程序后端

任何人都可以建议将 HBase 作为基于 Web 的应用程序的主要数据源是否是一个好主意我主要关心的是 HBase 对查询的响应时间是否有可能实现亚秒级响应编辑有关应用程序本身的更多详细信息数据量约500GB文本数据预计很快将
如何定义Titan Graph DB Vertex的数据类型？

我正在使用 Titan 和 Blueprint API 创建图形数据表我使用 HBase 作为后端我知道如何定义关键索引的数据类型 Example TitanKey name graph makeType name name dataT
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端我可以运行 gremlin server sh 但如果我尝试保存某些内容我会得到粘贴在下面的堆
无法通过 Hbase 客户端从 Titan 连接到 Google Bigtable

我正在尝试使用 Hadoop 2 HBase 1 0 2 客户端连接到 Titan 1 0 0 可在https github com thinkaurelius titan wiki Downloads https github com
连接到在 Docker 中运行的 HBase

我无法连接到 Windows 上 Docker 中运行的 HBase banno hbase 独立 https registry hub docker com u banno hbase standalone 图像但是我可以连接到本地安

随机推荐

八、Linux编程之递归遍历目录

八 Linux编程之递归遍历目录目录八 Linux编程之递归遍历目录一步骤分析二 isFile 函数三 isDir 函数 int sprintf char str const char format 四 main 主函数五运
linux audit 日志查看用户_一项一项教你测等保2.0——Linux安全审计

一前言前边我们已经讲了windows系统下的安全审计现在我们讲讲Linux系统下的安全审计其实两个系统下的测评项都是一样的不一样的就是不同的系统查看系统配置的方法不一样 windows系统使用的都是图形交互界面而且我们平时使用w
荣誉加冕！八方锦程再次荣获招聘与任用价值大奖

智享会ALL IN 2023 人力资源服务展汇聚了全国32个省市地区 21个行业的HR从业者上下游客户 9月19 20日齐聚上海跨国采购会展中心共同见证ALL IN 2023的盛大开幕作为人力资源行业的奋进者八方锦程与智享会同行走过
【C语言机器学习】

C语言机器学习
Java--JDBC编程练习题

1 下面选项中能够将游标从当前位置向下移一行的方法是单选 A next B absolute introw C previous D last 参考答案 A 答案说明 absolute int row 将游标移动到此 ResultSet
解决Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for

解决Clipping input data to the valid range for imshow with RGB data 0 1 for floats or 0 255 for integers 报错描述 img plt imre
sarscape 将dem文件转化成stl_从STL文件生成有限元FEA网格

随着计算机图形硬件以及3D打印技术的发展基于面片网格的图形渲染及其格式变得越来越普及有限元分析 FEA 中工程师们也常常拿到基于面片网格的几何文件如STL文件等并进行后续的分析工作由于面片网格和有限元实体网格有着根本性的区别
opencv中人脸识别算法的基本原理

opencv中人脸识别算法的基本原理一使用opencv中自带的三种人脸识别算法进行实验后特意去了解学习了一下其基本原理在这里记录下 opencv人脸识别关于如何使用opencv实现人脸识别的过程可以参考 http blog csd
一文带你走完Nginx的配置方法（Nginx+Flask）

作为一个南方人我每天都洗澡一年四季从不间断甚至我在北京读书的7年都这么过来的除开几次喝醉的情况洗澡是一件很舒服的事情你可以完全放松听着music 哼着小曲多么惬意阿基米德也是在洗澡的时候发现了浮力以此证明洗澡是件好
kafka安装

1 安装版本链接 https pan baidu com s 1NgJKs6WMKZdfaqS8WTqiWA 提取码 0103 安装包 kafka 2 12 2 6 0 tgz 注意为保证下面命令正确执行请将该安装包放到 opt 目录
解决MyEclipse编写properties文件时，中文注释显示为Unicode码问题

在编写properties文件时注释中的中文显示为Unicode码并且在Properties窗口下也无法显示注释如下图解决方案如下在Source窗口下编写先在注释前的号前加上一个然后在这行注释的最后一个位置的后面加上一个同
踏浪点神：5.21 恒指黄金原油早盘分析及最新资讯

恒指最新资讯周三美国三大股指集体收涨道指收涨近370点纳指涨2 08 标普500指数涨1 67 港股ADR指数按比例计算收报24 443点涨43 90点或0 94 美国7月原油期货收涨4 88 报33 52美元桶创3月10日以
[hive]分区表

一分区表的技术与意义 1 分区表技术 1 建表时通过partitioned by col name col type hive的分别区字段使用的是外字段 2 hive的分区区分大小写 3 hive的分区本质是在表目录下面创建目录但是该
WebAPI规范

WebAPI规范一协议通常使用HTTPs协议二域名 API较简单可将API放在主域名下以固定prefix开头例如 https example com api xxxx API内容丰富复杂多样可将API部署在专属域名下例
systemverilog的timescale作用域

参考文献1 https www chipverify com verilog verilog timescale scope 在数字电路仿真过程中如果没有模块本身没有指定timescale 则编译器本身可能插入一个默认的timescale
什么是死亡之 Ping 攻击？

死亡之 Ping 攻击是一种拒绝服务 DoS 攻击攻击者旨在通过发送大于最大允许大小的数据包来破坏目标计算机从而导致目标计算机冻结或崩溃原始的死亡之 Ping 攻击如今并不常见称为 ICMP 洪水攻击的相关攻击更为普遍死亡之 Pi
AD PCB 封装快速放置等间距焊盘的方法

这个问题经常会用到所以有必要总结一下下面以制作29个焊盘为例其实你可以随便设置的划重点先按E然后按A快捷键设置数量和间距大小先说一种通用的吧用特殊粘贴来处理具体的方法为 1 先放一个焊盘选中后剪切掉 2 依次按下键盘上的
电子科技大学软件工程期末复习笔记（二）：软件过程

目录前言重点一览软件过程模型的定义软件工程的中心与三要素软件生存期模型瀑布模型快速原型模型增量模型螺旋模型如何选择过程模型能力成熟度模型的五个级别过程和产品的关系本章小结前言本复习笔记基于王玉林老师的课堂PPT
mysql数据库缺点_MySQL数据库的优缺点是什么

MySQL数据库的优缺点优点体积小速度快总体拥有成本低开源支持多种操作系统是开源数据库提供的接口支持多种语言连接操作 MySql的核心程序采用完全的多线程编程线程是轻量级的进程它可以灵活地为用户提供服务而不过多的系统资
OpenTSDB-时序数据库

一简介 OpenTSDB Open time series data base 时间序列数据库顾名思义就是以时间为标签存储数据它的特点是能够提供最高毫秒级精度的时间序列数据存储能够长久保存原始数据并且不失精度但是OpenTS

OpenTSDB-时序数据库

OpenTSDB-时序数据库 的相关文章

随机推荐

热门标签

OpenTSDB-时序数据库的相关文章