Hadoop 3.x（HDFS）----【HDFS 的读写流程】

2023-05-16

Hadoop 3.x（HDFS）----【HDFS 的读写流程】

1. HDFS写数据流程
- 1. 剖析文件写入
- 2. 网络拓扑-结点距离计算
- 3. 机架感知（副本存储节点选择）
- - 1. 机架感知说明
  - 2. Hadoop3.1.3副本节点选择
2. HDFS读数据流程

1. HDFS写数据流程

1. 剖析文件写入

在这里插入图片描述

客户端通过 DistributedFileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已经存在，父目录是否存在。
NameNode 返回是否可以上传。
客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。
NameNode 返回 3 个 DataNode 节点，分别是 dn1、dn2、dn3。
客户端通过 FSD阿塔OutputStream 模块请求 dn1 上传数据，dn1 收到请求会继续调用 dn2，然后 dn2 调用 dn3，将这个通信管道建立完成。
dn1、dn2、dn3 逐级应答客户端。
客户端开始往 dn1 上传第一个 Block（先从磁盘读取数据放到一个本地内存缓存），以 Packet 为单位，dn1 收到一个 Packet 就会传给 dn2，dn2 传给 dn3；dn1 每传一个 packet 会放入一个应答队列等待应答。
当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务器。（重复执行 3-7 步）。

2. 网络拓扑-结点距离计算

在 HDFS 写数据的过程中，NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢？

节点距离：两个节点到达最近的共同祖先的距离总和。

在这里插入图片描述

3. 机架感知（副本存储节点选择）

1. 机架感知说明

https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication

For the common case, when the replication factor is three, HDFS’s placement policy is to put one replica on the local machine if the writer is on a datanode, otherwise on a random datanode, another replica on a node in a different (remote) rack, and the last on a different node in the same remote rack. This policy cuts the inter-rack write traffic which generally improves write performance. The chance of rack failure is far less than that of node failure; this policy does not impact data reliability and availability guarantees. However, it does reduce the aggregate network bandwidth used when reading data since a block is placed in only two unique racks rather than three. With this policy, the replicas of a file do not evenly distribute across the racks. One third of replicas are on one node, two thirds of replicas are on one rack, and the other third are evenly distributed across the remaining racks. This policy improves write performance without compromising data reliability or read performance.

2. Hadoop3.1.3副本节点选择

在这里插入图片描述

第一个副本在 Clinet 所处的节点上。如果客户端在集群外，随机选择一个。

第二个副本在另一个机架的随机一个节点。

第三个副本在第二个副本所在机架的随机节点。

2. HDFS读数据流程

在这里插入图片描述

客户端通过 DistributedFileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。
挑选一台 DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode 开始传输数据给客户单（从磁盘里面读取数据输入流，以 Packet 为单位来做校验）。
客户端以 Packet 为单位接收，先在本地缓存，然后写入目标文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

读写流程

Hadoop 3.x（HDFS）----【HDFS 的读写流程】的相关文章

更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
如何使用 python 从 Azure Data Lake Gen 2 读取文件

我有一个文件位于 Azure Data Lake gen 2 文件系统中我想读取文件的内容并进行一些低级更改即从记录中的一些字段中删除一些字符更明确地说有些字段的最后一个字符也为反斜杠由于该值包含在文本限定符中因此字段值会转义
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要

随机推荐

JavaScript框架汇总

本文转载于https www cnblogs com China Dream p 15770038 html 移动应用类框架 Vue js 官网地址 http cn vuejs org 官方简介 Vue js 是一套用于构建用户界面的渐进式
计算机保研面试题-数据结构

快速排序算法 xff0c 归并排序算法的复杂度 xff08 简单介绍各种排序 xff09 算法的特点 xff08 1 xff09 插入排序 xff1a a 直接插入排序 xff1a 比如将X插入有序序列L当中 xff0c 首先找到X在序列L
计算机保研面试题——操作系统

目录 1 操作系统的特点 xff1f 功能 xff1f 2 中断和系统调用的区别 3 进程线程的概念以及区别 xff1f 进程间的通信方式 xff1f 4 进程有哪几种状态 xff0c 状态之间的转换进程调度策略 xff1f 5 读写者
计算机保研面试题——计算机网络

目录计算机网络体系结构 OSI xff0c TCP IP xff0c 五层协议的体系结构 xff0c 以及各层协议 IP地址的分类 32位地址各种协议 xff1f TCP三次握手和四次挥手的全过程六 TCP和UDP的区别 xff1f
论文学习：Austere Flash Caching with Deduplication and Compression

论文题目 xff1a Austere Flash Caching with Deduplication and Compression 来源 xff1a USENIX ATC 2020 链接 xff1a Austere Flash Cach
ubuntu 查看占用文件空间大小

1 查看分区情况 fdisk l 2 查看系统的磁盘空间占用情况 df h df TH 3 查看某个目录的使用空间大小 du sh 需要先进入该目录或者后面加上路径 du sh 路径 4 查看该目录下每个文件夹占用的空间大小查看某目录
操作系统地址生成

逻辑地址生成从符号逻辑地址 gt 内存中具体的逻辑地址不需要操作系统的帮助 xff0c 而是通过编译器 load等等完成对于程序代码 cfile开始 xff0c 最开始的逻辑地址是对应的函数位置变量名称 xff0c 通过编译成为 s
主流数据库以及适用场景思维导图
超声波测距模块（HC-SR04模块）特点及使用介绍

超声波测距模块 xff08 HC SR04模块 xff09 特点及使用介绍前言一超声波测距模块 xff08 HC SR04模块 xff09 外观二原理图三相关参数讲解1 参数2 测量范围3 计算公式4 优点5 产品特性 xff08
ESP8266AT指令测试无返回值的问题

ESP8266AT指令测试无返回值 xff1a 如图 xff0c 在使用esp8266测试at指令的时候无返回值 xff0c 然而我在检查硬件的时候没有任何错误 xff0c usb转ttl模块也是没有问题的解决方法 xff1a 这时候只要
重要：智能指针的使用（C++ 11 以上）

智能指针的声明与初始化 xff1a 第一种 xff1a std shared ptr 指针初始化方式1 xff08 推荐 xff09 std shared ptr lt int gt sp3 sp3 61 std make shared
自顶向下和自底向上的实现方法

1将一个大问题分解为小的易处理的子问题 xff0c 每个子问题可以使用一个方法来实现 xff0c 这种方法使得问题更加易于编写重用调试 xff0c 修改和维护 2当一个大问题分解为许多子问题 xff0c 各个子问题可以分配给不同的编程人员
c# --- 接口

接口从某种程度上来说也是一个类 xff0c 但是接口中只包含方法的声明而没有方法的实现z 创建接口的关键字 xff1a interface 接口 xff0c 人机交互界面创建接口的语法 xff1a 接口的访问权限 interface 接口
MAML++：HOW TO TRAIN YOUR MAML论文精读

论文地址 https arxiv org abs 1810 09502 Abstract MAML是目前通过元学习进行少样本学习的最佳方法之一 MAML简单 xff0c 优雅和非常强大 xff0c 然而 xff0c 它有各种各样的问题 xf
webpack中的loader

什么是loader loader是webpack中一个非常核心的概念 webpack用来做什么呢 xff1f 在我们之前的实例中 xff0c 我们主要是用webpack来处理我们写的js代码 xff0c 并且webpack会自动处理js之间
strtok()函数

strtok 将字符串拆分成tokens xff0c tokens是被分隔符中的任何字符分隔的连续字符序列 char strtok char str const char sep sep参数是个字符串 xff0c 定义了用作分隔符的字符集合
MySQL夺命连环15问，你能坚持到第几问？

文章目录前言一关系型和非关系型的区别 xff0c 以及使用场景二 Mysql索引优缺点三给字段加索引最好怎么加 xff1f 四什么情况下会导致索引失效 xff1f 五为什么使用模糊匹配会使索引失效六回表查询和索引覆盖是什么七联
educoder数字逻辑实训：比较器设计（Logisim）

第1关 xff1a 1位比较器设计任务描述本关任务 xff1a 在Logisim中完成1位比较器电路的绘制并完成测试第2关 xff1a 2位比较器设计任务描述本关任务 xff1a 在Logisim中完成2位比较器电路的绘制并完成测
1、树莓派的VNC文件传输

目录第一步 xff1a 在树莓派端打开VNC服务器第二步 xff1a 输入指令运行vncserver 第三步 xff1a 在电脑端安装VNC查看器第一步 xff1a 在树莓派端打开VNC服务器第二步 xff1a 输入指令运行vncs
Hadoop 3.x（HDFS）----【HDFS 的读写流程】

Hadoop 3 x xff08 HDFS xff09 HDFS 的读写流程 1 HDFS写数据流程1 剖析文件写入2 网络拓扑结点距离计算3 机架感知 xff08 副本存储节点选择 xff09 1 机架感知说明2 Hadoop3 1 3

Hadoop 3.x（HDFS）----【HDFS 的读写流程】

Hadoop 3.x（HDFS）----【HDFS 的读写流程】

1. HDFS写数据流程

1. 剖析文件写入

2. 网络拓扑-结点距离计算

3. 机架感知（副本存储节点选择）

1. 机架感知说明

2. Hadoop3.1.3副本节点选择

2. HDFS读数据流程

Hadoop 3.x（HDFS）----【HDFS 的读写流程】 的相关文章

随机推荐

热门标签

Hadoop 3.x（HDFS）----【HDFS 的读写流程】的相关文章