HDFS存储支持压缩格式来存储压缩文件。我知道 gzip 压缩不支持夹板。现在假设该文件是一个 gzip 压缩文件,其压缩大小为 1 GB。现在我的问题是:
- 该文件将如何存储在 HDFS 中(块大小为 64MB)
由此link http://comphadoop.weebly.com/我了解到gzip格式使用DEFLATE来存储压缩数据,而DEFLATE将数据存储为一系列压缩块。
但我无法完全理解它并寻求广泛的解释。
更多疑问来自gzip压缩文件:
- 这个 1GB gzip 压缩文件有多少个块。
- 它会在多个数据节点上运行吗?
- 复制因子如何适用于此文件(Hadoop 集群复制因子为 3。)
- What is
DEFLATE
算法?
- 读取gzip压缩文件时应用哪种算法?
我在这里寻找广泛而详细的解释。
如果 zip 文件格式不支持分割,该文件将如何存储在 HDFS(块大小为 64MB)中?
所有 DFS 块将存储在单个 Datanode 中。如果您的块大小为 64 MB,文件为 1 GB,则Datanode
具有 16 个 DFS 块(1 GB / 64 MB = 15.625)将存储 1 GB 文件。
这个 1GB gzip 压缩文件有多少个块。
1 GB / 64 MB = 15.625 ~ 16 个 DFS 块
复制因子如何适用于此文件(Hadoop 集群复制因子为 3。)
与任何其他文件相同。如果文件是可分割的,则不进行任何更改。如果文件不可分割,则将识别具有所需块数的Datanode。在本例中,3 个数据节点具有 16 个可用的 DFS 块。
什么是 DEFLATE 算法?
DELATE 是解压缩 GZIP 格式的压缩文件的算法。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)