Hadoop 无法完成作业，因为“设备上没有剩余空间”

2024-01-01

我正在尝试运行一个非常简单的 hadoop 作业。它是经典 wordCount 的修改版，它不是对单词进行计数，而是对文件中的行进行计数。我想用它来清理一堆我知道有重复的大日志文件（每个大约 70GB）。每一行都是一个“记录”，因此我感兴趣的是只获取每条记录一次。

我知道我的代码可以工作，因为当我使用小型普通文件运行它时，它做了它应该做的事情。当我使用大文件运行它时，Hadoop 的行为非常严格。首先，它在 MAP 阶段开始正确工作，通常可以毫无问题地达到 100%。然而，在处理 REDUCE 时，它永远不会超过 50%。它可能达到 40%，然后在显示一些“设备上没有剩余空间”异常后返回到 0%：

FSError: java.io.IOException: No space left on device

然后它再次尝试执行 REDUCE，当达到 40% 时，它会再次降至 0%，依此类推。当然，它会这样做 2 或 3 次，然后决定以失败告终。

但是，此异常的问题在于它与磁盘上的实际空间无关。磁盘空间永远不会满。不是 HDFS 上的总（全局）空间，也不是每个节点中的各个磁盘。我用以下命令检查 fs 状态：

$ hadoop dfsadmin -report > report

此报告从未显示实际节点达到 100%。事实上，没有任何节点可以接近这一点。

每个节点都有大约 60GB 的可用磁盘，并且我在具有 60 个数据节点的集群中运行它，这给了我超过 3TB 的总空间。我尝试处理的文件只有 70GB。

在互联网上查找，我发现这可能与 Hadoop 在处理大量数据时创建太多文件有关。原始的 wordCount 代码大大减少了数据（因为单词重复很多）。 70GB 的文件可以减少到仅 7MB 的输出。然而，我预计仅减少 1/3，或者输出约为 20-30GB。

Unix 类型的系统每个进程的打开文件数限制为 1024 个：

$ ulimit -n
1024

如果 hadoop 创建的数量超过这个数量，则可能会出现问题。我要求系统管理员将该限制增加到 65K，现在的限制是：

$ ulimit -n
65000

问题仍然存在。我是否需要进一步增加此限制？这里还有其他事情发生吗？

非常感谢你的帮助！

代码在这里：

package ...;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class LineCountMR {

  public static class MapperClass 
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    private String token = new String();        

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {

        token = value.toString().replace(' ', '_');
        word.set(token);
        context.write(word, one);   
    }
  }

  public static class ReducerClass 
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
 }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();;
    if (args.length != 2) {
      System.err.println("Parameters: <in> <out>");
      System.exit(2);
    }
    Job job = new Job(conf, "line count MR");
    job.setJarByClass(LineCountMR.class);
    job.setMapperClass(MapperClass.class);
    job.setCombinerClass(ReducerClass.class);
    job.setReducerClass(ReducerClass.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

我在处理 10TB 数据时在集群上看到了这个问题。此问题与 HDFS 上的空间可用性无关，而是与本地文件系统 (df -h) 上用于存储在 Map-Reduce 操作期间生成的中间数据的可用空间有关，这些数据存储在本地而不是 HDFS 中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

IOException

Hadoop 无法完成作业，因为“设备上没有剩余空间” 的相关文章

java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
“客户端”对于 Hadoop/HDFS 究竟意味着什么？

我理解其背后的一般概念但我希望对客户是什么有更多的澄清和明确的定义例如如果我只是在终端上写一个 hdfs 命令它仍然是客户端吗 ClientHadoop中是指用于与Hadoop文件系统通信的接口 Hadoop 可使用不同类型

随机推荐

CSS 平台特定的 hack

我想知道是否有一种方法可以使用 CSS 来定位平台即不同的操作系统 Windows 7 Windows 8 Linux 等我有一个样式表带有 ul 列表和边框底部设置当鼠标悬停在菜单元素上时会改变颜色问题是在 Windows 7
使用下拉菜单外键保存表单集：IntegrityError XXX_id 可能不为 NULL

我试图拥有一个表单集其中每个表单 PropertySelector 都有一个下拉菜单 PropertySelector property 而该菜单的每个项目都是对另一个模型 Property 的ForeignKey引用不知何故当我尝试
将RGB图像转换为灰度图像，减少java中的内存

我有一个 RGB bufferedImage bImg 我想将 bImg 转换为灰度图像 BufferedImage grayIm new BufferedImage bImg getWidth null bImg getHeight nu
在 Windows 窗体中获取多个 UI 线程

我正在尝试找出一种方法让用户控件在自己的 UI 线程中运行这可能吗我试图防止基于模块的应用程序因单个模块而崩溃有什么想法吗那是不可能的但是通过一些重要的代码您可以让不同的窗口在单独的线程中运行每个窗口都有自己的消息循环 Up
sqlite SELECT 在查询列中是否存在与该列同名的值时返回所有记录

sqlite3 test db SQLite version 3 6 21 Enter help for instructions Enter SQL statements terminated with a sqlite gt CREAT
ReferenceError：角度通用应用程序中未定义 IDBIndex

我正在使用 ngserve 运行该应用程序它运行良好但是在我使用 npm run build ssr 构建应用程序后应用程序构建成功构建并运行 Angular 7 通用应用程序后我在 dist 文件夹中收到这些错误 home tr
为什么在堆排序中使用平面列表？

In heapsort 数据存储在称为 heap 我见过的几乎所有实现都使用平面列表对于数据结构有人可以向我解释这是为什么吗为什么不使用嵌套数组 or an 二叉树的实例显式不是比隐式更好吗是因为遍历结构等实现困难还是其他原因如
如何使用 XPath 仅选择可见元素？

我有一个GWT http code google com webtoolkit 我正在尝试使用它编写一些测试的应用程序Selenium http seleniumhq org 我使用 XPath 来识别测试页面上的元素使用id不会像id值
php：回显“”，打印（），printf（）

有没有更好的方法用PHP将数据输出到html页面如果我想在 php 中用一些 var 制作一个 div 我会写类似的东西 print div var div or echo div var div 这样做的正确方法是什么或者更好的方法
如何在不修改 jquery.validate.unobtrusive.min.js 的情况下重写 JQuery unobtrusive 方法？

我想重写 jquery validate unobtrusive js 中的 onErrors 方法以将错误消息显示为 html 元素的超链接但是我不想更改 jquery validate unobtrusive js 中的方法因为
VB.NET 中的十六进制到 8 位无符号数组

我有一个十六进制值 07A5953EE7592CE8871EE287F9C0A5FBC2BB43695589D95E76A4A9D37019C8 我想将其转换为字节数组 NET 3 5 中是否有一个内置函数可以完成这项工作或者我是否需要编
有没有办法为我的基于平台的Python应用程序提供条件requirements.txt文件？

我编写了一个与 Linux 和 Windows 平台兼容的 python 应用程序然而有一个问题我需要的 Windows 的 python 软件包之一与 Linux 不兼容幸运的是还有另一个软件包可以在 Linux 上提供相同的功能
如果 char 数组是 Java 中的对象，为什么打印它不显示其哈希码？

打印 char 数组不显示哈希码 class IntChararrayTest public static void main String args int intArray 0 1 2 char charArray a b c Syst
有 BOINC 编程经验吗？

我被 BOINC 吸引是因为我的一个小项目我听说过 BOINC 但没有太多了解它的工作原理主要是因为我现在专注于其他优先事项我想知道的是你们中是否有人真正尝试过为 BOINC 编程并让程序在分布式计算机网络上运行我特别对以下问题感
Kotlin：什么情况下会发生隐式转换？

我是 Kotlin 的初学者我最熟悉Python 刚刚读完基础Java教程https docs oracle com javase tutorial java index html https docs oracle com javase
可以为 jQuery 前置添加动画吗？

我在单击按钮时将一些数据添加到我的页面中而不是立即填充到页面上我想知道是否有一种方法可以对数据进行动画处理prepend using slideToggle或 CSS 动画这是我当前的脚本 var data data html var
为什么Android API中有这么多的浮动？

Java 中默认的浮点类型是 double 如果你硬编码一个常量比如2 5在你的程序中 Java会自动将其变为双精度当您对浮点数或整数执行可能受益于更高精度的操作时该类型将提升为双精度但在 Android API 中从音量到矩
以内容长度分隔的消息正文过早结束（预期：

我正在尝试在 apache httpclient 的帮助下获取 HTTP 响应我成功获取标头但当我尝试获取内容时它会引发异常例外是 org apache http ConnectionClosedException Premature
(xcode 5) ibtool 失败，退出代码为 255

有人能解决这个问题吗我看过其他答案但似乎没有一个对我有用我可以正常运行其他项目但我当前的项目因上述错误而失败我想不出明显的原因 Clean 运行正常没有代码错误构建项目会导致此问题我正在运行 xcode 5 我尝试重新安装模
Hadoop 无法完成作业，因为“设备上没有剩余空间”

我正在尝试运行一个非常简单的 hadoop 作业它是经典 wordCount 的修改版它不是对单词进行计数而是对文件中的行进行计数我想用它来清理一堆我知道有重复的大日志文件每个大约 70GB 每一行都是一个记录因此我感兴趣的是

Hadoop 无法完成作业，因为“设备上没有剩余空间”

Hadoop 无法完成作业，因为“设备上没有剩余空间” 的相关文章

随机推荐

热门标签