Hadoop HDFS 中块的概念

2023-12-24

我对 Hadoop 中的块有一些疑问。我读到 Hadoop 使用 HDFS 来创建特定大小的块。

第一个问题这些块是否物理存在于普通文件系统（如 NTFS）的硬盘上，即我们可以看到托管文件系统（NTFS）上的块还是只能使用 hadoop 命令看到它？

第二个问题hadoop 是否在运行任务之前创建块，即每当有文件时块就从一开始就存在，或者 hadoop 仅在运行任务时创建块。

第三个问题块是否会在分割之前确定并创建（即 InputFormat 类的 getSplits 方法），无论分割数量如何，还是根据分割数在分割之后确定和创建？

第四个问题运行任务之前和之后的块是否相同或者取决于配置，是否有两种类型的块，一种用于存储文件，一种用于对文件进行分组并通过网络将它们发送到数据节点以执行任务？

1.这些块是否物理存在于普通文件系统（如 NTFS）的硬盘上，即我们可以看到托管文件系统（NTFS）上的块还是只能使用 hadoop 命令看到它们？

是的。块是物理存在的。您可以使用类似的命令hadoop fsck /path/to/file -files -blocks

有关查看块的命令，请参阅以下 SE 问题：

查看hadoop中文件的块数 https://stackoverflow.com/questions/11168427/viewing-the-number-of-blocks-for-a-file-in-hadoop

2.hadoop是否在运行任务之前创建块，即每当有文件时块就从一开始就存在，或者hadoop仅在运行任务时创建块。

Hadoop = 分布式存储（HDFS) + 分布式处理 (MapReduce 和 Yarn）.

MapReduce 作业处理输入拆分 => 输入拆分是从 Datanode 中的数据块创建的。数据块是在文件的写操作期间创建的。如果您在现有文件上运行作业，则在作业之前预先创建数据块，并在 Map 操作期间创建 InputSplits。您可以将数据块视为物理实体，将InputSplit视为逻辑实体。 Mapreduce 作业不会更改输入数据块。 Reducer 生成输出数据作为新的数据块。

Mapper处理输入拆分并将输出发送到Reducer job.

3.第三个问题无论分割次数如何，块是否会在分割之前（即InputFormat类的getSplits方法）确定并创建，还是根据分割数在分割之后确定和创建？

输入已可用于物理 DFS 块。 MapReduce 作业在 InputSplit 中工作。 Blocks 和 InputSplit 可能相同也可能不同。 Block是物理实体，InputSplit是逻辑实体。请参阅下面的 SE 问题了解更多详细信息：

Hadoop 如何执行输入拆分？ https://stackoverflow.com/questions/2831507/how-does-hadoop-perform-input-splits/34247868#34247868

4.第四个问题运行任务之前和之后的块是否相同或者取决于配置，是否有两种类型的块，一种用于存储文件，一种用于对文件进行分组并通过网络将它们发送到数据节点以执行任务任务？

映射器输入：输入块已存在。映射过程在输入块/分割上启动，这些块/分割在映射器作业开始之前已存储在 HDFS 中。

映射器输出：不存储在 HDFS 中，并且将复制因子 X 大于 1 的中间结果存储在 HDFS 上没有意义。

减速机输出：Reducer 输出存储在 HDFS 中。块的数量将取决于减速器输出数据的大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

Hadoop HDFS 中块的概念的相关文章

在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Hadoop 减速器数量配置选项优先级

以下3个设置reduce数量的选项的优先级是什么换句话说如果三者都设置了会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
为什么 SequenceFile 被截断？

我在学习Hadoop这个问题困扰了我一段时间基本上我正在写一个SequenceFile到磁盘然后读回然而每次我收到EOFException阅读时深入观察发现在写入序列文件时它被过早截断并且总是发生在写入索引962之后并且文件

随机推荐

我怎样才能在 vs 2010 安装项目中为两个不同的发行版本拥有不同的属性等？

我想要的是我的解决方案中只有一个安装项目并且我希望能够在一台计算机上同时安装 release1 和 release2 版本如版本 debug release1 release2 因此 release1 版本需要自己的程序文件夹产品代码
抓取重定向的页面

我尝试抓取一个简单的页面需要欢呼和请求 https www ishares com uk individual en products 251824 https www ishares com uk individual en produ
当 spring.profiles.active 设置多个 Spring 环境配置文件时，优先顺序是什么

我只是想知道是什么优先顺序是指定多个 Spring 活动配置文件时的顺序说我想要default配置文件处于活动状态但dev当有多个相同的元素例如 bean 可供选择但具有不同的配置文件时配置文件将覆盖它比如说我有两个Propert
在 MongoDb 中更新插入字典

据我所知 mongodb 知道Dictionary作为一个对象它不能进行任何与数组相关的操作我更改了序列化并尝试了各种类型的字典序列化但没有机会所以我将我的字段字典全部加载到内存中更新它并将其设置回 mongodb 有什么办
setPage() 函数的页码错误：0

我的 tcpdf 代码是 file to show test details pdf view test details tpl test details smarty gt fetch file to show test details
Maven 和 Jenkins - 'mvn' 不被识别为内部或外部命令，

我正在尝试学习 Jenkins 和 Maven 到目前为止我所做的安装Maven并设置M2 and M2 HOME作为环境变量从 eclipse 创建一个简单的 Maven 项目 gt 创建了一个 bat我要移动到的目录中的文件pom
在 React Native WebView 中启用弹出窗口

我有一个 React Native 应用程序使用 React Native 0 43 3 它使用 WebView 来显示用于网上银行的网页该网站加载一个带有登录页面的弹出窗口对于 ReactNative WebView 此弹出窗口不会
无法从 X509Store 读取 CurrentUser 证书

我正在开发 ASP NET 4 0 Web 应用程序我想从 X509Store 读取当前用户证书读取 LocalMachine 证书工作正常但如果我将 StoreLocation 设置为 CurrentUser 它会给我一个空集合下
如何控制何时在 iOS 中提示用户推送通知权限

我使用 Swift 和 Xcode 6 以及 Parse 框架来处理服务为 iPhone 构建了一个应用程序在遵循有关如何设置推送通知的 Parse 教程时说明建议我将推送通知放在 App Delegate 文件中这是我添加到应用程
从 PowerShell 使用 .NET 库

我有一个用于操作数据库的 PowerShell 管理单元管理单元本身只是在单独的 NET DLL 中实现的主库的包装所有这些都用 C 编写我已使用 installutil exe 向 GAC 注册了管理单元和实现 DLL 虽然该管理单
如何使用 robolectric 对 Android 音频录制应用程序进行单元测试

我只是想知道是否可以使用 Robolectric 框架对 Android 录音机应用程序进行单元测试据我所知 Robolectric 没有使用模拟器或真实设备进行测试但是在录音应用程序中我需要测试音频是否被录制它是否存储在SD卡上的
Spotify Embed iFrame 仅播放歌曲预览

在我的网站上即使我登录了 Spotify Premium 我似乎也只能在 Chrome 和 Safari 中播放播放列表中的曲目预览不过完整曲目可以在 Firefox 中播放为什么会出现这种情况呢这是我的网站 www studif
全屏模式下的 JInternalFrame

我打算在全屏模式下使用 JInternalFrame 作为模态 JDialog 但是当前在调用它时并未显示它我需要将其添加到某个容器中吗我尝试将其添加到 JOptionPane showInternalMessage 但由于我想让对话
即席查询、存储过程、动态 SQL [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
PHP - 简单 XML - 嵌套层次结构

我一直在使用 PHP 的简单 XML 函数来处理 XML 文件下面的代码适用于简单的 XML 层次结构 xml simplexml load file test xml echo xml gt getName br foreach xml
从 pandas 数据框中减去两列并将结果存储在第三列中[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我有一个数据框 df 有 3 列我想执行减法如下 df available df recommended df man
使用 class.forname 但想要自动装配目标类的成员

我有这个需求我的框架的方式是从配置文件中以字符串形式读取类名我想使用该类中的方法显而易见的解决方案是使用反射我已经使用了反射并能够调用我想要的方法但问题是目标类内的变量没有自动装配我知道我不会让 spring 通过使用反射来自动
如何将 system() 调用结果的每一行写入 Vimscript 中的列表？

我想使用 Vimscript 循环遍历目录中的文件阅读usr 41 txt四处搜寻后我能想到的最好的办法就是let dir contents system ls 但是由于system 没有返回列表我无法循环它有没有办法可以将系统调用
ActiveWorkbook.Connections("x").Refresh 完成时执行的代码

从外部源选择数据我有一个数据连接它使用select使用 vba 代码从 SQL 服务器查询到 Excel 工作表如下所示 With ActiveWorkbook Connections x OLEDBConnection Backgro
Hadoop HDFS 中块的概念

我对 Hadoop 中的块有一些疑问我读到 Hadoop 使用 HDFS 来创建特定大小的块第一个问题这些块是否物理存在于普通文件系统如 NTFS 的硬盘上即我们可以看到托管文件系统 NTFS 上的块还是只能使用 hadoop 命令

Hadoop HDFS 中块的概念

Hadoop HDFS 中块的概念 的相关文章

随机推荐

热门标签

Hadoop HDFS 中块的概念的相关文章