Hadoop：Reducer 将 Mapper 输出写入输出文件

2024-04-06

我遇到了一个非常非常奇怪的问题。减速器确实可以工作，但是如果我检查输出文件，我只找到了映射器的输出。当我尝试调试时，在将映射器的输出值类型从 Longwritable 更改为 Text 后，我发现字数示例存在相同的问题

    package org.myorg;

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.*;
import org.apache.hadoop.mapreduce.lib.output.*;
import org.apache.hadoop.util.*;

public class WordCount extends Configured implements Tool {

   public static class Map
       extends Mapper<LongWritable, Text, Text, Text> {
     private final static IntWritable one = new IntWritable(1);
     private Text word = new Text();

     public void map(LongWritable key, Text wtf, Context context)
         throws IOException, InterruptedException {
       String line = wtf.toString();
       StringTokenizer tokenizer = new StringTokenizer(line);
       while (tokenizer.hasMoreTokens()) {
         word.set(tokenizer.nextToken());
         context.write(word, new Text("frommapper"));
       }
     }
   }

   public static class Reduce
       extends Reducer<Text, Text, Text, Text> {
     public void reduce(Text key, Text wtfs,
         Context context) throws IOException, InterruptedException {
/*
       int sum = 0;
       for (IntWritable val : wtfs) {
         sum += val.get();
       }
       context.write(key, new IntWritable(sum));*/
    context.write(key,new Text("can't output"));
     }
   }

   public int run(String [] args) throws Exception {
     Job job = new Job(getConf());
     job.setJarByClass(WordCount.class);
     job.setJobName("wordcount");


     job.setOutputKeyClass(Text.class);
     job.setMapOutputValueClass(Text.class);
       job.setOutputValueClass(Text.class);
     job.setMapperClass(Map.class);
     //job.setCombinerClass(Reduce.class);
     job.setReducerClass(Reduce.class);

     job.setInputFormatClass(TextInputFormat.class);
     job.setOutputFormatClass(TextOutputFormat.class);

     FileInputFormat.setInputPaths(job, new Path(args[0]));
     FileOutputFormat.setOutputPath(job, new Path(args[1]));

     boolean success = job.waitForCompletion(true);
     return success ? 0 : 1;
         }

   public static void main(String[] args) throws Exception {
     int ret = ToolRunner.run(new WordCount(), args);
     System.exit(ret);
   }
}

这是结果

JobClient:     Combine output records=0
12/06/13 17:37:46 INFO mapred.JobClient:     Map input records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce shuffle bytes=116
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce output records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Spilled Records=14
12/06/13 17:37:46 INFO mapred.JobClient:     Map output bytes=96
12/06/13 17:37:46 INFO mapred.JobClient:     Combine input records=0
12/06/13 17:37:46 INFO mapred.JobClient:     Map output records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce input records=7

然后我在输出文件中发现了奇怪的结果。无论是否更改reduce输出值的类型，将map的输出值类型和reducer的输入键类型更改为Text后都会出现此问题。我也被迫改变 job.setOutputValue(Text.class)

a   frommapper
a   frommapper
a   frommapper
gg  frommapper
h   frommapper
sss frommapper
sss frommapper

Help!

您的reduce 函数参数应如下所示：

public void reduce(Text key, Iterable <Text> wtfs,
     Context context) throws IOException, InterruptedException {

按照定义参数的方式，reduce 操作不会获取值列表，因此它只输出从 map 函数获取的任何输入，因为

sum+ = val.get()

每次都是从 0 到 1 因为每个<key, value>表格中的配对<word, one>单独到减速机。

另外，映射器函数通常不会写入输出文件（我从未听说过它，但我不知道这是否可能）。在通常情况下，总是由reducer写入输出文件。 Mapper 输出是由 Hadoop 透明处理的中间数据。因此，如果您在输出文件中看到某些内容，那一定是减速器输出，而不是映射器输出。如果您想验证这一点，您可以转到您运行的作业的日志，并分别检查每个映射器和减速器中发生的情况。

希望这能为您清除一些事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop：Reducer 将 Mapper 输出写入输出文件的相关文章

java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
在 Streamreduce 方法中，求和时恒等式必须始终为 0，乘法时恒等式必须始终为 1？

我继续java 8学习我发现了一个有趣的行为让我们看一下代码示例 identity value and accumulator and combiner Integer summaryAge Person getPersons stre
异步减少返回承诺

我有一个对象数组我必须为来自异步函数的每个对象添加一个属性我正在执行 Array reduce 来迭代每个元素并仅返回一个结果具有新属性的一个对象数组我有这个 const res await resultOne reduce asy
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
PyMongo 中的 MapReduce

我的蒙戈收藏 Impressions具有以下格式的文档 uid 10 impressions pos 6 id 123 service furniture pos 0 id 128 service electronics pos
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
使用mongodb聚合框架按数组长度分组

我有一个看起来像这样的集合 id id0 name saved things id id1 name saved things id id2 name saved things etc 我想使用 mongodb 的聚合框架来得出一个直方图结
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113

随机推荐

tkinter 中的框架未彼此堆叠

我在 tkinter 中将页面堆叠在一起时遇到问题我有一个主Frame包含两个子帧两个子帧都包含不同的信息第一个子帧包含Listbox和几个按钮位于主框架的左侧第二个框架应该包含不同的页面现在有两个并让它们填满整个框架
重定向到 HTTP 非 www 到 HTTPS www htaccess

我想使用 HTTPS 协议从任何方向重定向到我们的网站但有些重定向不起作用我要这个 http www site co TO https www site co http site co TO https www site co 这是我的
如何在同一页面（列表/创建）MVC3中使用@model IEnumerable<>和@model<>

假设我有一个 Location 类并且我正在使用 MVC3 创建一个脚手架列表 index cshtml 索引 html 页面使用 model IEnumerable 如果我想向列表中添加新位置请按创建然后使用 model Proj
Android - 如何确定调用应用程序的包名称

我最近遇到了这个问题我找不到在我的活动中调用应用程序的包名称的方法如果调用应用程序使用startActivityForResult 那就没问题了我可以信赖Activity getCallingPackage 获取调用者的包名但是当调
如何使用 Rvest 抓取带有嵌套列的 HTML 表格？

我在废弃带有嵌套列的 HTML 表时遇到了一个大问题该表来自于香港入境事务处 https www immd gov hk eng stat 20220901 html 屏幕截图如下所示我尝试用 rvest 来做但结果很混乱 libra
ATS 应用程序传输安全：Webview 内的 HTTP url

我们有一个在 Webview 中显示 HTML 内容的应用程序目前提供给 Webview 的内容来自非安全域从 iOS10 开始它应该从安全域提供服务因此在迁移之前需要消除一些疑虑安全的 HTML 页面 https 是否也应该具有
能否将两个给定的 XSD 数据类型连接成一种新的 XSD 数据类型？

给定两种简单的数据类型例如受限字符串type1 type2 是否有可能定义type3描述通过连接一个字符串形成的所有字符串type1字符串加一type2 string 例如考虑
超过最大百分比的日期

我有一个如下所示的数据框 df lt data frame site paste0 site sort rep 1 5 20 date as Date paste0 sample 1 28 100 replace T sample 1 12
正确使用断言

您能否帮助我更好地理解断言与引发异常的正确用法是什么每种场景什么时候合适场景1 CODE public Context Algorythm algo if algo null throw new IllegalArgumentE
libxml2 无法从节点获取内容

我在 C 中使用 libxml 这就是我创建 xml 的方式 xmlDocPtr createXmlSegment char headerContent char dataContent xmlDocPtr doc doc xmlNewDo
FOREIGN KEY 约束的“多态性”

表中有这样一个字段 room id INT NOT NULL CONSTRAINT room id ref room REFERENCES room 我有三张两张桌子分为两种房间 standard room and family room
有没有办法检查用户是否是 AppEngine Cloud Endpoints 中的管理员

我正在使用 AppEngine Cloud Endpoints 与 Javascript 客户端和 Google 登录我正在使用endpoints get current user 有没有办法检查用户是否是 AppEngine 管理员如
如何重新加载 JavaScript 文件

I have a question about reloading JavaScript files I develop web pages front ends and do a lot of coding in JS Every tim
在android中创建旋转轮？

我需要实现一个迷你游戏作为轮盘赌用户可以按播放键旋转并给用户一个随机结果您能给我一些如何制作如下图所示布局的建议吗非常感谢我建议您可以使用滚轮菜单
sbt：没有找到 Append.Value[Seq[java.io.File], sbt.Def.Initialize[java.io.File]] 的隐式，

我将 sbt 升级为sbt 0 13 16 to sbt 1 2 8我的以下代码被破坏了 lazy val gruntDirectory baseDirectory public unmanagedResourceDirectories i
使用 Swingworker 线程更新 UI

我想使用 swing 工作线程来更新 swing 中的 GUI 请提供任何帮助我只需要使用线程即 setText 更新 1 个字段的状态我刚刚在另一个论坛上回答了有关 SwingWorker 的类似问题 import java awt
输入电话号码的编辑文本设置密码？（安卓）

如何获得具有电话输入和隐藏字符串功能的 Edittext 我知道 android inputType textPassword 隐藏字符串同时 android inputType phone 调出拨号盘界面如何将两者结合起来 andro
percise32 vagrant box 上的 Rails 应用程序 - 资产出现“文本文件繁忙”错误 (Errno::ETXTBSY)

尝试在 Vagrant box percise32 主机内启动 Rails 应用程序是 Windows 7 这是我的 Vagrantfile Vagrant configure 2 do config config vm box preci
以编程方式打印到 PDF 打印机 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Hadoop：Reducer 将 Mapper 输出写入输出文件

我遇到了一个非常非常奇怪的问题减速器确实可以工作但是如果我检查输出文件我只找到了映射器的输出当我尝试调试时在将映射器的输出值类型从 Longwritable 更改为 Text 后我发现字数示例存在相同的问题 package o

Hadoop：Reducer 将 Mapper 输出写入输出文件

Hadoop：Reducer 将 Mapper 输出写入输出文件 的相关文章

随机推荐

热门标签

Hadoop：Reducer 将 Mapper 输出写入输出文件的相关文章