Hadoop-分布式文件系统HDFS

2023-11-12

目录

HDFS简介

HDFS特点 

HDFS相关概念 

1.块

2. 名称节点和数据节点

  HDFS体系结构

 1. HDFS体系结构概述

 2.HDFS命名空间管理

 3.通信协议

 4.HDFS体系结构的局限性

  HDFS常用的shell命令


HDFS简介

分布式文件系统(Hadoop Distributed File System, HDFS)Hadoop项目的两大核心之一,是针对谷歌文件系统(Google File System, GFS)的开源实现,研究在计算机集群上如何进行存储HDFS具有处理超大数据、流式处理、可以运行在廉价商用服务器上等优点。HDFS在设计之初就是要运行在廉价的大型服务器集群上,因此在设计上就把硬件故障作为一种常态来考虑,可以保证在部分硬件发生故障的情况下仍然能够保证文件系统的整体可用性和可靠性。

HDFS特点 

HDFS要实现以下目标:

兼容廉价的硬件设备

流数据读写

大数据集

简单的文件模型:一次写入,多次读出

强大的跨平台兼容性

 HDFS特殊的设计,在实现上述优良特性的同时,也使得自身具有一些应用局限性,主要包括以下几个方面:

不适合低延迟数据访问

无法高效存储大量小文件

不支持多用户写入及任意修改文件

HDFS相关概念 

1.块

HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位

块的大小远远大于普通文件系统,可以最小化寻址开销

HDFS采用抽象的块概念可以带来以下几个明显的好处:

        ●  支持大规模文件存储:文件以块为单位进行存储,一个大规模文件可以被分拆成若干个文件块,不同的文件块可以被分发到不同的节点上,因此,一个文件的大小不会受到单个节点的存储容量的限制,可以远远大于网络中任意节点的存储容量

        ●    简化系统设计:首先,大大简化了存储管理,因为文件块大小是固定的,这样就可以很容易计算出一个节点可以存储多少文件块;其次,方便了元数据的管理,元数据不需要和文件块一起存储,可以由其他系统负责管理元数据

        ●    适合数据备份:每个文件块都可以冗余存储到多个节点上,大大提高了系统的容错性和可用性

2. 名称节点和数据节点

 

名称节点(NameNode):

负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImageEditLog

FsImage 用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
操作日志文件 EditLog 中记录了所有针对文件的创建、删除、重命名等操作

名称节点记录了每个文件中各个块所在的数据节点的位置信息

名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问 

名称节点的启动流程:

  1. 在名称节点启动的时候,它会将FsImage文件中的内容加载到内存中,之后再执行EditLog文件中的各项操作,使得内存中的元数据和实际的同步,存在内存中的元数据支持客户端的读操作。
  2. 一旦在内存中成功建立文件系统元数据的映射,则创建一个新的FsImage文件和一个空的EditLog文件
  3. 名称节点起来之后,HDFS中的更新操作会重新写到EditLog文件中,因为FsImage文件一般都很大(GB级别的很常见),如果所有的更新操作都往FsImage文件中添加,这样会导致系统运行的十分缓慢,但是,如果往EditLog文件里面写就不会这样,因为EditLog 要小很多。每次执行写操作之后,且在向客户端发送成功代码之前,edits文件都需要同步更新

但在上述流程中,会有一个问题   名称节点运行期间EditLog不断变大的问题

  • 在名称节点运行期间,HDFS的所有更新操作都是直接写到EditLog中,久而久之, EditLog文件将会变得很大
  • 虽然这对名称节点运行时候是没有什么明显影响的,但是,当名称节点重启的时候,名称节点需要先将FsImage里面的所有内容映像到内存中,然后再一条一条地执行EditLog中的记录,当EditLog文件非常大的时候,会导致名称节点启动操作非常慢,而在这段时间内HDFS系统处于安全模式,一直无法对外提供写操作,影响了用户的使用

 如何解决?答案是:SecondaryNameNode第二名称节点

 第二名称节点HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS 元数据信息的备份,并减少名称节点重启的时间。SecondaryNameNode一般是单独运行在一台机器上

这里不过多介绍 SecondaryNameNode的工作情况,主要总结下

第二名称节点SecondaryNameNode的作用:

  1. 用来保存名称节点中对HDFS 元数据信息的备份
  2. 定期合并FsImageEditLog文件,减少名称节点重启的时间。

 数据节点(DataNode):

  1. 数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表
  2. 每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中

  HDFS体系结构

 1. HDFS体系结构概述

 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点NameNode)和若干个数据节点DataNode)(如图3-4所示)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的

 2.HDFS命名空间管理

  1. HDFS的命名空间包含目录文件
  2. HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通文件系统一样,创建、删除目录和文件,在目录间转移文件,重命名文件等

 3.通信协议

  1. HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输
  2. 所有的HDFS通信协议都是构建在TCP/IP协议基础之上的
  3. 客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
  4. 名称节点和数据节点之间则使用数据节点协议进行交互
  5. 客户端与数据节点的交互是通过RPCRemote Procedure Call)来实现的。在设计上,名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求

 4.HDFS体系结构的局限性

HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了一些明显的局限性,具体如下:

    (1命名空间的限制:名称节点是保存在内存中的,因此,名称节点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制。

    (2性能的瓶颈:整个分布式文件系统的吞吐量,受限于单个名称节点的吞吐量。

    (3隔离问题:由于集群中只有一个名称节点,只有一个命名空间,因此,无法对不同应用程序进行隔离。

    (4集群的可用性:一旦这个唯一的名称节点发生故障,会导致整个集群变得不可用。

  HDFS常用的shell命令

(1)查看帮助
    hdfs dfs -help 
    
(2)查看当前目录信息
    hdfs dfs -ls /
    
(3)上传文件
    hdfs dfs -put /本地路径 /hdfs路径
    
(4)剪切文件
    hdfs dfs -moveFromLocal a.txt /aa.txt
    
(5)下载文件到本地
    hdfs dfs -get /hdfs路径 /本地路径
    
(6)合并下载
    hdfs dfs -getmerge /hdfs路径文件夹 /合并后的文件
    
(7)创建文件夹
    hdfs dfs -mkdir /hello
    
(8)创建多级文件夹
    hdfs dfs -mkdir -p /hello/world
    
(9)移动hdfs文件
    hdfs dfs -mv /hdfs路径 /hdfs路径
    
(10)复制hdfs文件
    hdfs dfs -cp /hdfs路径 /hdfs路径
    
(11)删除hdfs文件
    hdfs dfs -rm /aa.txt
    
(12)删除hdfs文件夹
    hdfs dfs -rm -r /hello
    
(13)查看hdfs中的文件
    hdfs dfs -cat /文件
    hdfs dfs -tail -f /文件
    
(14)查看文件夹中有多少个文件
    hdfs dfs -count /文件夹
    
(15)查看hdfs的总空间
    hdfs dfs -df /
    hdfs dfs -df -h /
    
(16)修改副本数    
    hdfs dfs -setrep 1 /a.txt

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop-分布式文件系统HDFS 的相关文章

  • 当我将文件存储在 HDFS 中时,它们会被复制吗?

    我是 Hadoop 新手 当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中 复制因子为3 我的问题是 是否需要3份并分别存储到3个节点中 这是 HDFS 工作的漫画 https docs
  • 公平调度器和容量调度器有什么区别?

    我是 Hadoop 世界的新手 想了解公平调度程序和容量调度程序之间的区别 另外我们什么时候应该使用每一个 请简单地回答一下 因为我在网上读了很多东西 但从中得到的不多 公平调度是一种为作业分配资源的方法 使得所有作业随着时间的推移平均获得
  • Python 包安装:pip 与 yum,还是两者一起安装?

    我刚刚开始管理 Hadoop 集群 我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
  • 使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

    使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦 一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
  • 覆盖hadoop中的log4j.properties

    如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志 而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
  • 与文件名中的冒号“:”作斗争

    我有以下代码 用于加载大量 csv gz 并将它们转储到其他文件夹中 并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
  • 未能在kafka-storm中将偏移量数据写入zookeeper

    我正在设置一个风暴集群来计算实时趋势和其他统计数据 但是我在将 恢复 功能引入到这个项目中时遇到了一些问题 方法是允许上次读取的偏移量kafka spout 源代码为kafka spout来自https github com apache
  • ETL informatica 大数据版(非云版)可以连接到 Cloudera Impala 吗?

    我们正在尝试在 Informatica 大数据版本 不是云版本 上进行概念验证 我发现我们可能能够使用 HDFS Hive 作为源和目标 但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样 我们是否
  • 如何对 RDD 进行分区

    我有一个文本文件 其中包含大量由空格分隔的随机浮动值 我正在将此文件加载到 scala 中的 RDD 中 这个RDD是如何分区的 另外 是否有任何方法可以生成自定义分区 以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
  • Flink从hdfs读取数据

    我是 Flink 的新生 我想知道如何从 hdfs 读取数据 有人可以给我一些建议或一些简单的例子吗 谢谢你们 如果您的文件采用文本文件格式 则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法 这
  • 在 Apache Spark 上下文中,内存数据存储意味着什么?

    我读到 Apache Spark 将数据存储在内存中 然而 Apache Spark 旨在分析大量数据 又称大数据分析 在这种情况下 内存数据存储的真正含义是什么 它可以存储的数据是否受到可用 RAM 的限制 它的数据存储与使用HDFS的A
  • Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用?

    我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
  • Hadoop - 直接从 Mapper 写入 HBase

    我有一个 hadoop 作业 其输出应写入 HBase 我并不真正需要减速器 我想要插入的行类型是在映射器中确定的 如何使用 TableOutputFormat 来实现此目的 从所有示例中 我看到的假设是 reducer 是创建 Put 的
  • 通过Oozie命令行指定多个过滤条件

    我正在尝试通过命令行搜索一些特定的 oozie 作业 我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是 该命令仅返回正在运行的作业 而不是已杀死的作业 需要帮助
  • MapReduce 中 1 个任务的减速器数量

    在典型的 MapReduce 设置 如 Hadoop 中 1 个任务使用多少个减速器 例如计算单词数 我对 Google MapReduce 的理解意味着只涉及 1 个减速器 那是对的吗 例如 单词计数会将输入分为 N 个块 并且 N 个
  • Hadoop fs 查找块大小?

    在 Hadoop fs 中如何查找特定文件的块大小 我主要对命令行感兴趣 例如 hadoop fs hdfs fs1 data 但看起来这并不存在 有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量 但是 要
  • 在 Shiny 中的用户会话之间共享反应数据集

    我有一个相当大的反应数据集 该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的 数据更新频繁 需要不断重新加载 诚然 重新加载可以增量完成并附加到 R 中的现有对象 但事实并非如此 然而目前 尽管会话中的数据相同 但此操作是针对
  • 如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2?

    我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
  • 通过 Java 连接 Apache Drill

    在 Apache Drill 的 Wiki 中 我只能看到通过 SqlLine 客户端运行的查询 除了 REST API 之外 是否有任何编程方式可以在 Drill 中运行查询 有任何示例或指示吗 或者它与使用 JDBC 驱动程序运行 SQ
  • 如何从spark中的hbase表中获取所有数据

    我在 hbase 中有一个大表 名称为 UserAction 它具有三个列族 歌曲 专辑 歌手 我需要从 歌曲 列族中获取所有数据作为 JavaRDD 对象 我尝试了这段代码 但效率不高 有更好的解决方案来做到这一点吗 static Spa

随机推荐

  • 【iMovie】Error: RequestCVPixelBufferForFrame returned: 3 for absolute frame

    解决方案 删掉黑屏部分
  • 关于C语言中的重点转义字符详解

    一 了解有哪些常见的转义字符 首先 我们知道在C语言中有许多转义字符 接下来我将一些常见的转义字符罗列下来 a n t ddd xdd 二 依次介绍一下每个转义字符的具体作用 在书写连续多个问号后 防止他们被解析成三字母词 看代码 prin
  • Typora + PicGo + Gitee 搭建免费图床

    搭建准备 本次搭建过程需要以下介质 Typora PicGo Gitee GitHub 免费 Typora Typora 是一款 markdown 编辑器 支持几乎所有的 markdown 格式 神器 支持 macOS Windows Li
  • matlab74汉明码纠错,基于MATLAB汉明码设计与实现

    实验报告书 汉明码设计与实现 汉明码编译码器系统 班级 姓名 学号 一 实验原理描述 1 1汉明码编码原理 一般来说 若汉明码长为n 信息位数为k 则监督位数r n k 若希望用r 个监督位构造出r 个监督关系式来指示一位错码的n 种可能位
  • 数据结构笔记——第三章 栈和队列

    3 1 栈 3 1 1 栈的逻辑结构 1 栈 栈是限定仅在表尾进行插入和删除操作的线性表 允许插入和删除的一端称为栈顶 另一端称为栈底 不含任何数据元素的栈称为空栈 栈中元素除了具有线性关系外 还具有后进先出的特性 2 栈的抽象数据类型定义
  • 宝塔重置密码 mysql_linux宝塔面板安装 宝塔重置密码等常用命令

    安装宝塔 Centos安装脚本 yum install y wget wget O install sh http download bt cn install install sh sh install sh Ubuntu Deepin安
  • Unity 使用 Visual Studio 调试 Android 真机

    开始之前 保证自己能够build 出apk 一 Build Settings 设置 二 点击Build And Run 三 利用vs 调试代码 我就是想调试代码 但是 就是这个AndroidPlayer 一直出不来 卡了很久 我是这么解决的
  • ifconfig命令及详细介绍

    在 实体机上 ifconfig 命令用于 显示或配置网络设备 网络接口卡 或修改 以CentOS 7为例 ifconfig a 所有网卡信息 一 显示内容分析 1 ens33 以太网接口 virbr0 virbr nic类似 ens33 f
  • 灰度发布、蓝绿部署、金丝雀都是啥?

    目录 滚动部署 蓝绿发布 为什么还需要蓝绿 金丝雀发布 canary 金丝雀和蓝绿的对比 灰度发布 A B Test 实现 kubernetes istio spring cloud 网关 参考 滚动部署 在滚动部署中 应用的新版本逐步替换
  • Textbooks Are All You Need II: phi-1.5 technical report

    本文是LLM系列文章 针对 Textbooks Are All You Need II phi 1 5 technical report 的翻译 教科书是你所需要的一切 phi 1 5技术报告 摘要 1 引言 2 技术规范 3 基准结果 4
  • 大数据平台搭建

    一 安装前准备 1 查看防火墙状态 2 关闭防火墙 分别在三台虚拟机上操作 root slave2 systemctl status firewalld service firewalld service firewalld dynamic
  • 全国大学生电子设计大赛赛前必备PID控制平衡车代码-pid实例

    全国大学生电子设计大赛平衡车完整代码arduino PID控制实例 This code is used for connecting arduino to serial mpu6050 module and test in arduino
  • 大话Stable-Diffusion-Webui-客制化主题(四)

    文章目录 目标 效果 开始 重要说明 单选框以及复选框图标样式更改 gradio主题构建器上传主题方式 代码上传主题方式 目标 在DIY的主题中更改gradio单选框组件以及复选框组件的勾选后图标样式 效果 开始 笔者在使用gradio的主
  • CORS跨域请求及实现机制

    一 什么是CORS CORS是一个W3C标准 全称是 跨域资源共享 Cross origin resource sharing 它允许浏览器向跨源服务器 发出XMLHttpRequest请求 从而克服了AJAX只能同源使用的限制 只要服务器
  • 设计模式--工厂模式

    总的说来 工厂模式有两种 工厂方法和抽象工厂 工厂方法模式定义了一个创建对象的接口 但由子类决定要实例化的类是哪一个 工厂方法让类把实例化方法推迟到子类 利用工厂方法创建对象 通常需要继承一个类 并覆盖它的工厂方法 举例如下 还是来自 He
  • BES SDK环境搭建与固件烧录

    搭建编译环境 安装虚拟机后需要安装编译工具链 有些SDK需要较高的GCC版本 自动安装 ubuntu16 04和ubuntu18 04都可以自动安装 只是默认版本号高低不同 Ubuntu18 04下为gcc version 6 3 1 20
  • visio导出高质量图片

    作者 久渝 链接 https www zhihu com question 39146184 answer 890602652 来源 知乎 著作权归作者所有 商业转载请联系作者获得授权 非商业转载请注明出处 在visio对象另存为图片的时候
  • [524]as_matrix将表格转换为矩阵

    coding utf 8 构建并测试CART决策树模型 import pandas as pd 导入数据分析库 from random import shuffle 导入随机函数shuffle 用来打乱数据 import matplotli
  • C/S模式和B/S模式区别及其优缺点

    1 C S模式 C S模式又称C S结构 是软件系统体系结构的一种 C S模式与B S模式相比 C S模式应用系统最大的优点是不依赖企业外网环境 即无论企业是否能够上网 都不影响使用 C S模式需要安装后才能使用 即以软件的形式存在 优点
  • Hadoop-分布式文件系统HDFS

    目录 HDFS简介 HDFS特点 HDFS相关概念 1 块 2 名称节点和数据节点 HDFS体系结构 1 HDFS体系结构概述 2 HDFS命名空间管理 3 通信协议 4 HDFS体系结构的局限性 HDFS常用的shell命令 HDFS简介