Haystack 太强了！存 2600 亿图片

2023-10-29

作者 | 奇伢

来源 | 奇伢云存储

小文件存储

小文件存储，老生常谈的问题。先聊聊小文件存储重点关注的是什么？

以前我们提过，对于磁盘来说，小 io 吃 iops，大块 io 吃吞吐。

划重点：小文件的重点是 io 次数。

为什么每次提到海量小文件的时候，总说传统的文件系统不合适呢？

因为它的元数据操作太惹人眼球了。假设有 1K 的数据，元数据如果搞个 1K ，这个开销就太大了，空间大一倍，性能下降一倍。所以，只要是针对小文件的存储优化，基本上都会在元数据上下点功夫。

Haystack 的背景

Haystack 是 Facebook 为了解决他们图片存储而专门设计的一套存储架构，2012 年发表论文《 Finding a needle in Haystack: Facebook’s photo storage 》。

文中提到当时（ 2012 年）他们已经有 2600 亿张图片，超过 20 PB 的数据，用户每周上传 10 亿张，大约 60 TB 的数据。

从这个数据量来看，确实谈得上海量的文件。算出来的图片平均大小 64K 左右吧，不大，就是以前普通图片的大小。

64K 不知道怎么算的？

用 60 TB 除一个 10 亿就知道了。

Haystack 的特点

接下来聊聊 Haystack 的设计到底有什么神奇特点呢？可以归纳下面四点：

Write Once
Read Often
Nerver Modify
Rarely Deleted

大白话就是，只写一次，从不更新，不定期会读，极少删除。这个 Haystack 特点是适配 Facebook 的图片场景的。

注意，是先有 facebook 的业务场景特点，然后才把 Haystack 设计成这样的。因果关系不要搞反了哦。

海量的文件的挑战在哪里？

每一次文件存储会涉及到元数据和数据两部分的操作。当数量是海量的时候，无论是对存储容量和元数据的量都会带来巨大的影响。

存储容量这个自不用提，这是用户的数据，它是你必须要存储的，通常这里考虑的是存储效率，考虑用更少的介质、更高的可靠性，来存储更多的数据，通常这里的选型是副本和纠删码。

元数据就有意思了，因为这个是内部的设计导致的冗余数据（为了索引用户数据而产生的数据），元数据的设计则会影响到用户的体验，特别是海量的场景。

童鞋思考个问题：海量、小文件的前提下，为什么元数据会带来挑战？挑战主要是哪些方面？

1 存储成本有挑战

划重点：任何的评估不能脱离场景。

举个简单的例子，假如每个文件 1K ，每个文件对应元数据也 1K ，这开销大不大？

太大了嘛。一倍的浪费。在海量的背景下，用户存储 1P 的数据，就要存储 1P 的元数据，浪费在元数据的成本无法容忍。

那元数据设计成 1K 的是错误的吗？

不一定。

比如说，如果是每个文件 1G，对应每个元数据 1K 呢，这个开销大不大？

不大，因为 1K/1G 才是 0.00009% ，也就是说，用户存储 1P 的数据，元数据消耗为 0.092 TB ，这成本几乎可以忽略。

所以，前提很重要，设计好坏并不是绝对的，都是相对而言的，任何架构都要适配自己的场景。

2 存储性能有挑战

接着上面的例子，每个文件 1K ，每个文件对应元数据也 1K ，这性能开销大不大？

太大了嘛。性能是一倍的损耗。每个文件 1K ，本该一次磁盘 IO 就能解决，但是另外还要加一次元数据操作的磁盘 IO 。也就是说磁盘极限如果 1 万的 iops ，用户只能获取到 5000 的 iops 性能。内部损耗一半。

那如果是每个文件 1G，对应每个元数据 1K 呢，这个开销大不大？

不大嘛，假设每笔 io 是 4K 的定长大小。1G 的数据写 262144 次。只是多加一次元数据 IO ，无关紧要。

3 Hasystack 的突围方向

划重点：小文件的场景，元数据的成本消耗和性能消耗会显得更突出。再加上海量的前提下，这个是必须要解决的挑战。

那 Haystack 应该怎么做呢？两个方面：

重新设计元数据结构，而不是使用文件系统的结构，要精简元数据的大小；
削减元数据的 io 的次数，甚至从 io 路径上彻底消除元数据它；

你如果理解了上面的栗子，对于这两个优化方向的导出应该也是水到渠成的。

Haystack 的目标

高吞吐，低延迟
高可靠，具备故障容错能力；
架构简单，底成本

Haystack 的架构设计

1 整体架构

Haystack 的架构非常简单，截取论文中的图片：

图中表明了三个核心组件：

Haystack Directory
Haystack Cache
Haystack Store

Store 就是一个单机的存储引擎，上层告诉它写哪，它就写哪。管理的单位是一个个大块文件。Haystack 里面叫做 Physical Volume ，其实就是一个个大文件而已啦。

划重点：Haystack 也是基于文件系统之上的。

Physical Volume 有一个阈值，比如写满 100 GB就不写了。可以把它理解成一个大日志文件，数据的写入方式也是 log 日志的方式，append 写入。

Directory 是最上层的一个抽象，上面提到 Store 管理的是 Physical Volume ，上报到 Directory 组件，Directory 把这些底层的 Physical Volume 按照副本关系组织起来形成 Logical Volume 。Logical Volume 就是提供给用户写入数据用的。

举个简单的例子，如果是三副本的 Haystack 系统，那么一个 Logical Volume 由 3 个 Physical Volume 组成副本镜像。

Cache 这个就不用说了，就是一个单纯的缓存组件。

2 数据怎么组织

奇伢用几个问题的形式来阐述数据的组织。

问题一：Physical Volume 是什么？

其实就是大文件，Haystack Store 是基于文件系统之上的。Physical Volume 就实现形式来讲就是文件，可以是 ext4 的文件，也可以是 xfs 的文件。只不过这个文件有名字（ Physical Volume ID ），也是一个阈值，比如 100 GB 。

问题二：Logical Volume 是什么？

抽象出来的结构。由多个 Physical Volume 组成。它的个数由副本数决定，比如一个 3 副本 Logical Volume 由 3 个 Physical Volume 组成。

问题三：Physical Volume 内部又是有什么构成呢？

一个叫做 Needle 的东西。

Needle 其实就是用户数据加一些头部，加一些尾部构成的一个整体结构。Physical Volume 就是由这一个个 Needle 组成的。

问题四：Needle 的头尾有啥用？

主要几个方面：

用来构建元数据索引用的，里面有 key，size 等关键数据；
用来校验数据是否损坏，里面有 magic，crc 等；
用来标识数据是否删除，里面有 Flags 标记位；

这些头尾数据就是 Haystack 给每个用户对象重新设计的元数据了，相比文件系统的元数据，这个太精简了。

在内存中的内存表，甚至只需要一个 16 个字节就够了，8 字节的 key ，4 字节的 offset，4 字节的 size 。这个比内核文件系统动辄几百字节甚至几 K 字节要好太多了。

问题四：元数据现在多大了？

元数据分为磁盘元数据（持久化了的）和内存元数据。

磁盘元数据可以看上面的 Needle 结构体，具体实现在 32 字节左右。内存元数据可以控制在 16 个字节。

3 读、写、删

数据写入的流程：

Web 接入点先去 Haystack Directory 选一个 Logical Volume ；
把数据发往 Haystack Store ，写到对应的三个 Physical Volume 即可（注意，append 写入哦）；

数据读取的流程：

Web 接入点先去 Haystack Directory 拿到指定对象的元数据；
然后请求发给 Haystack Store ，读取数据（这里就不提 Haystack Cache 或者 CDN 的逻辑了，过于简单）；

数据删除的流程：

Web 接入点先去 Haystack Directory 拿到指定对象的元数据；
然后把删除请求发给 Haystack Store ，就地更新 Needle 的标记位，标记成删除；

划重点：Haystack 的删除是就地更新，而不是 append 写入。这里跟纯粹的 log 文件不大一样。 但由于删除是极少的，所以就算不是 append 写入，也不影响大局。

4 空间回收

Haystack 也和 LSM，Bitcask 等设计类似，删除是删除，回收是回收，这是两个步骤。

空间回收就是 Compact ，太简单了，论文甚至都没稀的提它，寥寥数语说了两句，原文描述如下：

A Store machine compacts a volume file by copying needles into a new file while skipping any duplicate or deleted entries.

实现很简单，和以前提过的 Compact 并无二样。逻辑就是遍历 Volume 文件，把重复的和标记删除了的 Needle 跳过，有效的 Needle 读出来写到新的地方，即可。

不一样的思考

回想一下这个架构，思考一下它做到了它立的 flag 吗？

1 它的目标：高吞吐，低延迟，怎么实现的呢？

对于写请求，全都化为 append 请求，极力的保持磁盘的顺序性能。并且得益于 Needle 的设计，Haystack 把数据和元数据放在一起，一次性落盘，相当于省去了元数据的 IO 写开销。

当然，这种设计也必然有代价，由此带来的代价就是加载时间变长。

对于读请求，通过元数据的精简，让内存 hold 住所有的元数据，去除了元数据的 IO 开销，这样读操作也就只剩用户数据的 IO 。

注意：Haystack 删除不是 append 哦，而是覆盖写，但之前已经说过了，Haystack 的适用场景就是“极少删除” 。

2 高可靠，故障容错怎么实现的呢？

这个很简单，通过副本冗余来做的。Volume 的组织逻辑放在 Directory 组件中，一份数据存储多份，并且分散在不同的位置。当其中一份故障，则只需要拷贝其他副本即可。

3 毕竟 2012 年的论文，Haystack 的实践过时了吗？

论文中提到，Facebook 当时的实践是用 2U 的刀片服务器，48G 内存，搭配 12 * 1TB 的 SATA 盘。

如果按照一个文件 64 KB 算，一个 needle 内存元数据 16 字节（这个很极限了），只需要 3 G 的内存，单机 48 GB 的物理内存应对这整机的元数据确实绰绰有余。

但现在很多服务器已经升级到 64 盘，单盘 16 TB，满载的话需要 256 G 的内存装元数据。这个内存配比就不大合适了，如果元数据再稍微大点，就更不行了。

但话说回来，并不是每个人都用 64 盘 16 T 的高密服务器，所以并不能一概而论，还是要看自己的需求场景。

就算过去 10 年，我觉得它还能秀。

总结

Haystack 最核心的优化是？重新设计元数据的结构，使得内存元数据只有十几个字节，极大的减轻了负担，且设计的 Needle 结构可以完整恢复内存元数据；
得益于元数据的精简，Haystack 就能把单机全量元数据放在内存；
读的时候，元数据在内存，只有用户数据的 IO 消耗，极大的提高了性能；
写的时候，得益于 Needle 的设计，元数据更新操作不单独刷，而是和用户数据在一起刷，相当于省掉了元数据 IO 的开销；
和 Bitcask 类似，为了提高内存加载速度，也有索引（Index 文件）的实现；
Haystack 并不过时，可以结合自己的场景，焕发生机；

往期推荐

为什么还有这么多的网络故障？

k8s集群居然可以图形化安装了？

用了HTTPS，没想到还是被监控了

将 k8s 制作成 3D 射击游戏，好玩到停不下来

点分享

点收藏

点点赞

点在看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Haystack 太强了！存 2600 亿图片的相关文章

Java - 为什么不允许 Enum 作为注释成员？

It says 原始 String Class an Enum 另一个注释上述任何一个的数组只有这些类型才是合法的 Annotation 成员为什么泛型 Enum 不能成为 Annotation 的成员例如 Retention Re
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
Android在排序列表时忽略大小写

我有一个名为路径的列表我目前正在使用以下代码对字符串进行排序 java util Collections sort path 这工作正常它对我的列表进行排序但是它以不同的方式处理第一个字母的情况即它用大写字母对列表进行排序然后用
java中如何连接字符串

这是我的字符串连接代码 StringSecret java public class StringSecret public static void main String args String s new String abc s co
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
JavaFX 中具有自定义内容的 ListView

How i can make custom ListView with JavaFx for my app I need HBox with image and 2 Labels for each line listView 您可以通过查看
按第一列排序二维数组，然后按第二列排序

int arrs 1 100 11 22 1 11 2 12 Arrays sort arrs a b gt a 0 b 0 上面的数组已排序为 1 100 1 11 2 12 11 22 我希望它们按以下方式排序a 0 b 0 首先如果
如何安全地解决这个 Java 上下文类加载器问题？

我的数百名用户中只有一位在启动我的 Java 桌面应用程序时遇到问题他只有大约三分之一的时间开始另外三分之二的时间在启动时抛出 NullPointerException Exception in thread AWT EventQueu
我可以使用子接口重新编译公共 API 并保持二进制兼容性吗？

我有一个公共 API 在多个项目中多次使用 public interface Process
如何模拟从抽象类继承的受保护子类方法？

如何使用 Mockito 或 PowerMock 模拟由子类实现但从抽象超类继承的受保护方法换句话说我想在模拟 doSomethingElse 的同时测试 doSomething 方法抽象超类 public abstract clas
具有 java XSLT 扩展的数组

我正在尝试使用 java 在 XSLT 扩展中使用数组我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
将 SignedHash 插入 PDF 中以进行外部签名过程 -workingSample

遵循电子书第 4 3 3 节 PDF 文档的数字签名 https jira nuxeo com secure attachment 49931 digitalsignatures20130304 pdf 我正在尝试创建一个工作示例其中客
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
在游戏视图下添加 admob

我一直试图将 admob 放在我的游戏视图下这是我的代码 public class HoodStarGame extends AndroidApplication Override public void onCreate Bundle
如何在selenium服务器上提供自定义功能？

我知道可以通过某种方法获得一些硒功能其中之一如下 driver getCapabilities getBrowserName 它返回浏览器名称的值但如果它指的是一个可用的方法如果我没有误解的话这似乎与自定义功能有关就像我的意思是
Javafx过滤表视图

我正在尝试使用文本字段来过滤表视图我想要一个文本字段 txtSearch 来搜索 nhs 号码名字姓氏和分类类别我尝试过在线实施各种解决方案但没有运气我对这一切仍然很陌生所以如果问得不好我深表歉意任何帮助将不胜感激我
Struts 2 + Sitemesh 3 集成 - FreemarkerDecoratorServlet 中的 NPE

我将 Struts 2 版本 2 3 14 3 与 Sitemesh 3 版本 3 0 alpha 2 一起使用并且在某些情况下遇到 NullPointerException 首先这是我的 web xml 中的 struts2 site
我可以创建自定义 java.* 包吗？

我可以创建一个与预定义包同名的自己的包吗在Java中比如java lang 如果是这样结果会怎样这难道不能让我访问该包的受保护的成员如果不是是什么阻止我这样做 No java lang被禁止安全管理器不允许自定义类java
替换后增量

我自己已经有一个问题了但我想扩展它后增量示例 https stackoverflow com questions 51308967 post increment with example char a D int b 5 System o
如何从 Maven 存储库引用本机 DLL？

如果 JAR 附带 Maven 存储库中的本机 DLL 我需要在 pom xml 中放入什么才能将该 DLL 放入打包中更具体地举个例子Jacob http search maven org artifactdetails 7Cnet s

随机推荐

Nvidia Deepstream极致细节：3. Deepstream Python RTSP视频输出显示

Nvidia Deepstream极致细节 3 Deepstream Python RTSP视频输出显示此章节将详细对官方案例 deepstream test 1 rtsp out py作解读 deepstream test 1 rtsp
Buuctf——[RCTF2015]EasySQL

Buuctf RCTF2015 EasySQL 一解题步骤 1 看到注册登录闲着没事先注册个号试试 1 123 2 进去看了除了受到文化熏陶别的好像没有啥点一下试试其有什么功能一不小心就看到了修改密码 3 惊奇的发现密码可以被
【数据结构】二、顺序表的定义和基本操作的实现

目录数据结构 DATA STRUCTURE 二线性表 2 1 线性表的定义和基本操作概述 2 2 线性表的顺序表示 2 2 1 顺序表存储结构描述和特点 1 静态存储方式 2 动态存储方式 3 顺序表的优缺点 2 2 2 顺序表基本操作
数据库-ER建模

目录基本概念 1 实体 entity 2 属性 attribute 3 联系 relation 3 1 基数约束的四种形态 3 1 1 基数约束形态一 3 1 2 基数约束形态二 3 1 3 基数约束形态三 3 1 4 基数约束形态四扩
OneOS文字转语言组件实操

本文分享自中移OneOS微信公众号当万耦遇上chaoTTS 作者柏灵大家好柏灵又又又来啦相信大家已经开始在寒冷的冬季种植鲜嫩的豌豆尖火锅里烫上豌豆尖从此打工人有了豌豆尖自由还没有种植的小伙伴可以通过OneOS 基于端云融合
fit、transform、fit_transform的区别，为什么训练集用 fit_transform ，测试集用 transform

三个函数的使用具体解释在数据预处理中的应用 1 只涉及一组数据 fit data 对数据进行拟合获得了数据的均值最大最小标准差等属性值 transform data 利用 fit data 获取到的属性对数据做预处理如标准化归一
cocos cretor shader effect-the book of shader前言

前言说来惭愧半年前开始接触cocso creator shader的时候看了官方教程看了大神写的例子搞懂了一些语法概念可是当时看一遍有种似懂非懂的感觉那种感觉就是听过很多道理任然过不好一生在cocos论坛里有大神也分享过自
Foxmail 搜索功能找不到全部邮件问题的解决方法。

经常使用Foxmail办公收发邮件发现Foxmail 搜索功能找不到全部邮件原来问题出在搜索上举例说明迁移到Foxmail后王卡卡同志给我发过3封邮件可是我用据称无比强大的Foxmail搜索邮件时输入关键字 root 只能找到
[计算机毕业设计]数字水印算法

前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大
梦幻模拟战pc版更新服务器正在维护,梦幻模拟战PC版免CD（更新2代跳出补丁一些实用说明）...

最近看到游侠有发梦幻模拟战PC版1 2 下载不过要禁用DX 还要拔光驱比较麻烦我把我以前收藏的L1 L2 免CD发出来分享我自己反正测试可以用 1代第1步替换langpc exe 请做好备份第2步复制光盘上 DISK1 ID
shell脚本中$!、$@、$#、$$、$0、$1、$2、$*的含义

一 shell脚本中 0 1 2 的含义 Shell最后运行的后台Process的PID 后台运行的最后一个进程的进程ID号添加到shell当中参数的个数 Shell本身的PID ProcessID 即脚本运行的当前进程ID号 0 脚本本
【第八章线程的同步机制（同步代码块、同步方法）】

第八章线程的同步机制同步代码块同步方法 1 线程的同步机制方式一同步代码块 java中通过同步机制解决线程安全问题 synchronized 同步监视器需要被同步的代码说明操作共享数据的代码即为需要被同步的代码共享数据多个
关于浏览器静止音频自动播放的问题

背景今天在制作前端页面时想要给网页加上会自动播放的音乐但是用audio标签设置音频的自动播放后即使将autoplay属性设置成true 谷歌等浏览器页面加载完成后也不会自动播放音乐尝试了各种办法无果原因目前最为流行的浏览器共
求助TCanvas内存无限涨的问题

求助TCanvas内存无限涨的问题 Delphi Windows SDK API http www delphi2007 net DelphiMultimedia html delphi 20061110220830160 html pro
利用Wireshark分析TCP三次握手

首先打开 http www baidu com这个网址进行抓包首先在过滤器中输入 http过滤找到 GET HTTP 1 1 我们可以看到在出现了三条TCP记录之后才出现了HTTP这也更加相信HTTP是基于TCP协议的第一次TCP握手
uniapp 顶部头部样式
【Python】剑指offer 14：剪绳子

题目给你一根长度为n的绳子请把绳子剪成m段 m和n都是整数 n gt 1并且m gt 1 每段绳子的长度记为k 0 k 1 k m 请问k 0 k 1 k m 可能的最大乘积是多少例如当绳子的长度为8时我们把它剪成长度分别为2 3
idea中类存在编译器报错类无法找到，打包正常解决

步骤关键在于清掉类在idea的cache 1 刷新maven项目 2 清理idea缓存 3 maven clean install 4 重新bulid 5 如果使用了lombok插件开启之后重新build 6 maven依赖冲突导致
Gin微服务框架_golang web框架_完整示例Demo

Gin简介前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默忍不住分享一下给大家点击跳转到网站 Gin是一个golang的微框架封装比较优雅 API友好源码注释比较明确具有快速灵活容错方便等特点其实对于golang而
Haystack 太强了！存 2600 亿图片

作者奇伢来源奇伢云存储小文件存储小文件存储老生常谈的问题先聊聊小文件存储重点关注的是什么以前我们提过对于磁盘来说小 io 吃 iops 大块 io 吃吞吐划重点小文件的重点是 io 次数为什么每次提到海量小文件的时

Haystack 太强了！存 2600 亿图片

Haystack 太强了！存 2600 亿图片 的相关文章

随机推荐

热门标签

Haystack 太强了！存 2600 亿图片的相关文章