第一次使用Hadoop，MapReduce Job不运行Reduce Phase

2023-12-11

我编写了一个简单的映射缩减作业，该作业将从 DFS 读取数据并对其运行简单的算法。当尝试调试它时，我决定简单地让映射器输出一组键和值，而减速器输出一组完全不同的键和值。我在单节点 Hadoop 20.2 集群上运行此作业。当作业完成时，输出仅包含映射器输出的值，这让我相信减速器没有运行。如果有人能够解释为什么我的代码会产生这样的输出，我将不胜感激。我尝试将outputKeyClass和outputValueClass设置为不同的东西，以及将setMapOutputKeyClass和setMapOutputValueClass设置为不同的东西。目前，注释的代码部分是我正在运行的算法，但我已经更改了映射和归约方法以简单地输出某些值。同样，作业的输出仅包含映射器输出的值。这是我用来运行该作业的类：

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class CalculateHistogram {

    public static class HistogramMap extends Mapper<LongWritable, Text, LongWritable, Text> {

        private static final int R = 100;
        private int n = 0;

        @Override
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            if (n == 0) {
                StringTokenizer tokens = new StringTokenizer(value.toString(), ",");
                int counter = 0;
                while (tokens.hasMoreTokens()) {
                    String token = tokens.nextToken();
                    if (tokens.hasMoreTokens()) {
                        context.write(new LongWritable(-2), new Text("HI"));
                        //context.write(new LongWritable(counter), new Text(token));
                    }
                    counter++;
                    n++;
                }
            } else {
                n++;
                if (n == R) {
                    n = 0;
                }
                
            }
        }
    }

    public static class HistogramReduce extends Reducer<LongWritable, Text, LongWritable, HistogramBucket> {

        private final static int R = 10;

        public void reduce(LongWritable key, Iterator<Text> values, Context context)
                                            throws IOException, InterruptedException {
            if (key.toString().equals("-1")) {
                //context.write(key, new HistogramBucket(key));
            }
            Text t = values.next();
            for (char c : t.toString().toCharArray()) {
                if (!Character.isDigit(c) && c != '.') {
                    //context.write(key, new HistogramBucket(key));//if this isnt a numerical attribute we ignore it
                }
            }
            context.setStatus("Building Histogram");
            HistogramBucket i = new HistogramBucket(key);
            i.add(new DoubleWritable(Double.parseDouble(t.toString())));
            while (values.hasNext()) {
                for (int j = 0; j < R; j++) {
                    t = values.next();
                }
                if (!i.contains(Double.parseDouble(t.toString()))) {
                    context.setStatus("Writing a value to the Histogram");
                    i.add(new DoubleWritable(Double.parseDouble(t.toString())));
                }
            }
            
            context.write(new LongWritable(55555555), new HistogramBucket(new LongWritable(55555555)));
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length != 2) {
            System.err.println("Usage: wordcount <in> <out>");
            System.exit(2);
        }

        Job job = new Job(conf, "MRDT - Generate Histogram");
        job.setJarByClass(CalculateHistogram.class);
        job.setMapperClass(HistogramMap.class);
        job.setReducerClass(HistogramReduce.class);

        //job.setOutputValueClass(HistogramBucket.class);
        
        //job.setMapOutputKeyClass(LongWritable.class);
        //job.setMapOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

你的reduce方法的签名是错误的。您的方法签名包含Iterator<Text>。你必须通过一个Iterable<Text>.

您的代码不会覆盖reduce的方法Reducer基类。因此，由Reducer使用基类。这个实现是一个恒等函数。

Use the @Override注释来预测像这样的错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

第一次使用Hadoop，MapReduce Job不运行Reduce Phase 的相关文章

如何使用 Java 和 Selenium WebDriver 在 C 目录中创建文件夹并需要将屏幕截图保存在该目录中？

目前正在与硒网络驱动程序和代码Java 我有一种情况我需要在 C 目录中创建一个文件夹并在该文件夹中创建我通过 selenium Web 驱动程序代码拍摄的屏幕截图它需要存储在带有时间戳的文件夹中如果我每天按计划运行脚本所有屏幕截
在画布上绘图

我正在编写一个 Android 应用程序它可以在视图的 onDraw 事件上直接绘制到画布上我正在绘制一些涉及单独绘制每个像素的东西为此我使用类似的东西 for int x 0 x lt xMax x for int y 0 y lt
如何找到给定字符串的最长重复子串

我是java新手我被分配寻找字符串的最长子字符串我在网上研究似乎解决这个问题的好方法是实现后缀树请告诉我如何做到这一点或者您是否有任何其他解决方案请记住这应该是在 Java 知识水平较低的情况下完成的提前致谢附测试仪字符串
Android MediaExtractor seek() 对 MP3 音频文件的准确性

我在使用 Android 时无法在eek 上获得合理的准确度MediaExtractor 对于某些文件例如this one http www archive org download emma solo librivox emma 01
加速代码 - 3D 数组

我正在尝试提高我编写的一些代码的速度我想知道从 3d 整数数组访问数据的效率如何我有一个数组 int cube new int 10 10 10 我用价值观填充其中然后我访问这些值数千次我想知道由于理论上所有 3d 数组都存储在内
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
Liferay ClassNotFoundException：DLFileEntryImpl

在我的 6 1 0 Portal 实例上带有使用 ServiceBuilder 和 DL Api 的 6 1 0 SDK Portlet 这一行 DynamicQuery query DynamicQueryFactoryUtil for
我可以使用 HSQLDB 进行 junit 测试克隆 mySQL 数据库吗

我正在开发一个 spring webflow 项目我想我可以使用 HSQLDB 而不是 mysql 进行 junit 测试吗如何将我的 mysql 数据库克隆到 HSQLDB 如果您使用 spring 3 1 或更高版本您可以使用 s
Mockito when().thenReturn 不必要地调用该方法

我正在研究继承的代码我编写了一个应该捕获 NullPointerException 的测试因为它试图从 null 对象调用方法 Test expected NullPointerException class public void c
Spring @RequestMapping 带有可选参数

我的控制器在请求映射中存在可选参数的问题请查看下面的控制器 GetMapping produces MediaType APPLICATION JSON VALUE public ResponseEntity
如何在PreferenceActivity中添加工具栏

我已经使用首选项创建了应用程序设置但我注意到我的 PreferenceActivity 中没有工具栏如何将工具栏添加到我的 PreferenceActivity 中 My code 我的 pref xml
如何在控制器、服务和存储库模式中使用 DTO

我正在遵循控制器服务和存储库模式我只是想知道 DTO 在哪里出现控制器应该只接收 DTO 吗我的理解是您不希望外界了解底层域模型从领域模型到 DTO 的转换应该发生在控制器层还是服务层在今天使用 Spring MVC 和交互式
Java列表的线程安全

我有一个列表它将在线程安全上下文或非线程安全上下文中使用究竟会是哪一个无法提前确定在这种特殊情况下每当列表进入非线程安全上下文时我都会使用它来包装它 Collections synchronizedList 但如果不进入非线程安
玩！框架：运行“h2-browser”可以运行，但网页不可用

当我运行命令时activator h2 browser它会使用以下 url 打开浏览器 192 168 1 17 8082 但我得到使用 Chrome 此网页无法使用奇怪的是它以前确实有效从那时起我唯一改变的是JAVA OPTS以启用
获取 JVM 上所有引导类的列表？

有一种方法叫做findBootstrapClass对于一个类加载器如果它是引导的则返回一个类有没有办法找到类已经加载了您可以尝试首先通过例如获取引导类加载器呼叫 ClassLoader bootstrapLoader ClassLo
使用 JMF 创建 RTP 流时出现问题

我正处于一个项目的早期阶段需要使用 RTP 广播DataStream创建自MediaLocation 我正在遵循一些示例代码该代码目前在rptManager initalize localAddress 出现错误无法打开本地数据端口
如何修复 JNLP 应用程序中的“缺少代码库、权限和应用程序名称清单属性”？

随着最近的 Java 更新许多人都遇到了缺少 Java Web Start 应用程序的问题Codebase Permissions and Application name体现属性尽管有资源可以帮助您完成此任务但我找不到任何资源综合的
java.lang.IllegalStateException：驱动程序可执行文件的路径必须由 webdriver.chrome.driver 系统属性设置 - Similiar 不回答

尝试学习 Selenium 我打开了类似的问题但似乎没有任何帮助我的代码 package seleniumPractice import org openqa selenium WebDriver import org openqa s
如何实现仅当可用内存较低时才将数据交换到磁盘的写缓存

我想将应用程序生成的数据缓存在内存中但如果内存变得稀缺我想将数据交换到磁盘理想情况下我希望虚拟机通知它需要内存并将我的数据写入磁盘并以这种方式释放一些内存但我没有看到任何方法以通知我的方式将自己挂接到虚拟机中before an O
Spring Boot @ConfigurationProperties 不从环境中检索属性

我正在使用 Spring Boot 1 2 1 并尝试创建一个 ConfigurationProperties带有验证的bean 如下所示 package com sampleapp import java net URL import j

随机推荐

如何将参数传递给事件触发器wpf中存在的方法

实际上我试图在 Xaml 文件的 ViewModel 中存在的方法 UpdateWord object obj 中传递单词文档的名称这样就可以打开word文档了
即使遵循了最佳实践，仍然不断达到 GitHub 二级速率限制？

在我的应用程序中我使用令牌向 GitHub 搜索 API 发出经过身份验证的请求我每 2 秒发出一次请求以保持在每分钟 30 个请求的主要速率限制内因此不是同时进行并且在进行实际的搜索 API 调用之前我还会使用 GitHub
确定 PHP 中缩短的 URL 的最终目的地？

我怎样才能在 PHP 中做到这一点例如 bit ly f00b4r gt http www google com search q cute kittens 在Java中解决方案是这样的您应该发出 HEAD 请求使用 HttpWeb
第二个重写规则在 htaccess 中不起作用并显示 404 未找到页面

嗨我有这样的链接 www example com a letter a 1 html www example com b letter b 1 html a字母和b字母文件夹下还有3个文件我删除了a letter包含以下 htacces
C# - 转换 8 位或 16 位灰度原始像素数据

我需要能够将 8 位或 16 位灰度像素数据转换为 NET 框架可以支持的文件格式我拥有的可用数据是宽度高度方向左下角和像素格式即 4096 级灰度 12 位分辨率每个像素封装为 2 个字节例如每个像素的范围是 0 到 40
HTML 输入忽略 flex-basis CSS 属性 [重复]

这个问题在这里已经有答案了不知何故输入无法正确感知弹性基础这是一个最简单的示例说明输入如何不服从并跨越其父块之外请参阅jsfiddle div div
如何覆盖！重要？ [复制]

这个问题在这里已经有答案了我编写了一些 html 并将一些 css 样式注入到第三方网站中但他们的风格与我的风格相混淆由于一些 important声明我不想这样也不想在我的风格中使用 important 我可以做什么来防止这种情况
无法备份 docker 卷

我正在遵循官方 docker 指南here备份 docker 卷我也知道这个问题但是我仍然遇到错误运行以下命令 docker run rm volumes from dbstore v pwd backup ny db 1 tar cv
无法读取 aws 设备场中的属性文件

我的 Appium JUnit 测试在本地工作得很好但在 aws 上找不到属性文件我的测试放在下面src test java和测试中使用的属性文件src test resources locale 包含依赖项内容的 Zip app 0
如何使用 Windows PowerShell 从 MariaDB 转储文件导入数据 [重复]

这个问题在这里已经有答案了我尝试使用以下命令在 Windows Powershell 中导入 dumpfile sql mysql u root p database database lt Backup sql 但我收到以下错误 At
在 CodeBuild maven 作业中使用适当的 ECS 凭证

我尝试在 mvn 命令中使用 CodeBuild 服务角色但它似乎没有获取适当的 IAM 权限我在用s3 wagon 私人插件它似乎使用了最新版本DefaultAWSCredentialsProviderChain包括EC2Contai
如何在没有 Windows 窗体的情况下接收即插即用设备通知

我正在尝试编写一个类库它可以捕获 Windows 消息以便在设备已连接或删除时通知我通常在 Windows 窗体应用程序中我只会重写 WndProc 方法但在本例中没有 WndProc 方法还有其他方法可以获取消息吗你需要一
为什么 MSVC 编译器将模板实例化二进制文件放入程序集中？

我在 MSVC 编译器中遇到了一些奇怪的事情它将函数模板定义放在汇编中而优化消除了对它们的需要看起来 Clang 和 GCC 完全成功地删除了函数定义但 MSVC 却没有可以修复吗主要 cpp include
如何在Excel中创建下拉列表？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我在 Excel 中有一个值列如下所示如何将其转换为下拉列表例如列中的每一行都会有该下拉列表其中有狗猫鱼蝙蝠蟾蜍都在里面 thanks 您可以通过数据功能区中的
phpMailer电子邮件不发送gmail smtp

我无法使用 gmail SMTP 发送电子邮件这是我收到的信息print r物体我对 phpMailer 属性的用户名和密码使用相同的 gmail 凭据因此我确信我的凭据是正确的但不知道为什么它不发送谢谢感谢任何支持 EMail
在单个页面上使用多个（猫头鹰）轮播

我一直在谷歌上寻找在单个页面上使用多个轮播的方法但没有找到任何适合我的解决方案你们中的任何人都可以帮忙吗这是代码 HTML div div class container div class row div class span12
包管理器控制台仅在特定 VS 项目中启用迁移 CommandNotFoundException

我尝试在新项目中运行命令 Enable Migrations 并收到消息 PM gt Enable Migrations The term Enable Migrations is not recognized as the name of
在地址栏中显示 iFrame url

是否可以在url地址栏中包含iframe内容的url 例如我有一个域sub test com它有一个带有 src 的 iframerealpage com 逻辑上浏览页面不会改变地址栏中的任何内容因为我们在其他域的 iframe 中打开
R oauth 身份验证期间 twitteR PIN 码出现在哪里？

我正在尝试使用 twitteR 包因为我已经阅读了 Jeffrey Stanton 关于数据科学的免费电子书中的 Twitter 章节我使用此代码来注册我的凭据 requestURL lt https api twitter com o
第一次使用Hadoop，MapReduce Job不运行Reduce Phase

我编写了一个简单的映射缩减作业该作业将从 DFS 读取数据并对其运行简单的算法当尝试调试它时我决定简单地让映射器输出一组键和值而减速器输出一组完全不同的键和值我在单节点 Hadoop 20 2 集群上运行此作业当作业完成时输出

第一次使用Hadoop，MapReduce Job不运行Reduce Phase

第一次使用Hadoop，MapReduce Job不运行Reduce Phase 的相关文章

随机推荐

热门标签