Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

2024-01-05

我是 Hadoop 的新手！现在我尝试将 MultipleOutputFormat 与 hadoop 2.2.0 一起使用，但似乎它们只适用于已弃用的“JobConf”，而“JobConf”又使用已弃用的 Mapper 和Reducer（org.apache.hadoop.mapred.Reducer）等。有什么想法如何使用新的“org.apache.hadoop.mapreduce.Job”实现多个输出功能吗？

正如@JudgeMental 指出的，你应该使用MultipleOutputs使用新的 API (mapreduce）因为MultipleOutputFormat只支持旧的API（mapred). MultipleOutputs实际上为您提供的功能比MultipleOutputFormat:

With MultipleOutputs，每个输出可以有自己的OutputFormat，而与MultipleOutputFormat每个输出必须相同OutputFormat.
With MultipleOutputFormat您对命名方案和输出目录结构有更多的控制权MultipleOutputs.
您可以使用MultipleOutputs in the map and reduce在同一份工作中发挥职能，这是你无法做到的MultipleOutputFormat.
您可以为不同的输出设置不同的键和值类型MultipleOutputs.

所以两者并不相互排斥，即使MultipleOutputs功能较多，但命名功能不太灵活。

了解如何使用MultipleOutputs，你应该看看本文档 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html其中包含一个完整的示例。简而言之，您将在驱动程序类中添加以下内容：

// Defines additional single text based output 'text' for the job
MultipleOutputs.addNamedOutput(job, "text", TextOutputFormat.class, LongWritable.class, Text.class);

// Defines additional sequence-file based output 'sequence' for the job
MultipleOutputs.addNamedOutput(job, "seq", SequenceFileOutputFormat.class, LongWritable.class, Text.class);

而在你的Mapper or Reducer你应该初始化你的MultipleOutputs in the setup方法与MultipleOutputs mos = new MultipleOutputs(context);然后你可以在map and reduce功能为mos.write("seq", LongWritable(1), new Text("Bye"), "seq_a")。不要忘记将其关闭cleanup方法与mos.close() !

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job 的相关文章

运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Hadoop 减速器数量配置选项优先级

以下3个设置reduce数量的选项的优先级是什么换句话说如果三者都设置了会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu

随机推荐

如何在实时服务器上调试 ASP.NET 应用程序 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个基于 net Framework 1 1 的旧 asp net Web 应用程序它已经部署到实时服务器很多年了现在我仅在实
从模型调用辅助方法

For my Predictions模型我创建了一个方法predictions helper rb像这样 module PredictionsHelper def time in date time date time between da
div宽度高度根据文本？

我想要根据文本大小选择框的宽度高度我尝试使用下面的代码它可以工作但不是根据文本的节框的最佳宽度和高度我设计了三个css id 第一个是 wbp row 第二个是 wbp col 最后一个是文本id名称是 tridtext I try
如何使用 fetch api 获取 XML

我正在尝试制作一个天气应用程序显示一周中许多天的天气和温度我目前正在使用 openweathermap api 来完成此类任务问题是我想要的信息即天气日期仅采用 xml 格式由于我出于学术原因在 ES6 ES2015 中重建它
Spring Boot 中未合并多个 application.yml

我有一个用于数据库通信的模块 my db lib 并导入到基于 Spring Boot 的 Web 应用程序模块 my web app 我想设置有关数据库的配置my db lib 并在中设置网络应用程序my web app 当我使用 yml
如何使用自动布局更改 uiview 的高度？

因此我创建了这个场景以便了解视图如何根据其内容增加高度然而我仍然无法实现它这就是我现在所拥有的文本视图根据内容而增长但是包含它的 uiview 正在消失我应该使用什么约束以便当 uitextview 变大时其父视图的高度也
如何以编程方式触发使用 addEventListener 定义的 dblclick 事件？

对于 JS 单元测试我需要检查双击行为是否符合预期问题是该事件是通过 element addEventListener 注册的由于某种原因在这种情况下 element ondblclick 不起作用 HTML
尝试设置高度动画但出现高度为 NaN 的错误

一直在尝试创建一个动画来动态调整高度我发现这个信息 http social msdn microsoft com Forums en US wpf thread 6e4afffc 72fc 46b0 8f2d 6cd60feda77f这有
如何在 Swift 中创建单页垂直滚动 PDFView

我正在尝试使用以下代码制作垂直滚动 PDFView pdfView PDFView frame view frame pdfView backgroundColor UIColor white var documentName String
在 viewbag 中传递查询结果

这看起来应该很容易但我尝试了三四种方法但没有成功我只是想将查询结果放入视图袋中并显示它我尝试将模型对象列表放入 ViewBag 中 var mesg from MSG in lemondb Messages where MSG ms
content) 之间做出编程 $node 输出的决定' aria-label='如何在 theme('node', $node) 和 drupal_render($node->content) 之间做出编程 $node 输出的决定'> 如何在 theme('node', $node) 和 drupal_render($node->content) 之间做出编程 $node 输出的决定

Given a node 我试图在以下两种输出 node 的方法之间做出决定 either output theme node node or node build content node output drupal render nod
Firebase：onDisconnect 事件何时触发？

我正在为我的 Android 应用程序使用 Firebase 后端我想为我的聊天构建一个用户存在系统为此我从 Firebase 指南中获取了模式 final Firebase myConnectionsRef new Firebase
iphone - 在 UILabel 中显示编码字符，如 å、ä、ö

我有一个列表其每一行都使用 UILabel 如果我尝试显示特殊字符例如它会将它们显示为 aring auml ouml 如何将它们转换为 UTF8 编码的 NSString 这些字符在 WebView 中正确显示因为它正确解释了 H
Jconsole无法连接

我正在使用 VNC 连接到服务器我能够通过 VNC 进入服务器并打开 Jconsole 但无论我包含 PID 还是尝试使用 GUI 进行连接都无法让它连接到我的进程奇怪的是所有进程都显示在 GUI 中见下文当我尝试连接时我得到这个
如何提取定界延续（重置/移位）以供将来在 Haskell 中使用？

以下是使用分隔延续重置移位的简单示例 import Control Monad import Control Monad Trans import Control Monad Trans Cont test Integer test
WPF：跨程序集共享资源

I 之前发布过一个问题 https stackoverflow com questions 1422538 getting a componentresourcekey to work关于使用跨程序集共享资源Themes generic x
您可以使用 JavaScript 检测设备是否具有电话功能（例如，它可以拨打语音电话/短信）吗？

有什么方法可以检测移动设备是否能够拨打语音电话短信申请时这一点很重要tel and sms 网页中的链接仅仅检测移动设备是不够的因为平板电脑无法拨打电话 iTouch 无法拨打电话等我对使用设备大小 UA 字符串检测等进行移动检测
批处理文件中的 Bamboo 变量替换

我们在 Windows 计算机上运行 Atlassian 的 Bamboo 构建服务器 4 1 2 我创建了一个在任务中执行的批处理文件该脚本仅在 bat 文件中引用而不是内嵌在任务中例如createimage bat 在 creat
覆盖窗口 = onload

我在 WordPress 中有一个页面我想通过用户角色插件对其进行密码保护在直接页面上一切正常但我有一个页面window onload function 完全覆盖密码功能我希望页面在检查用户是否登录后立即加载 Update 我在用着
Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

我是 Hadoop 的新手现在我尝试将 MultipleOutputFormat 与 hadoop 2 2 0 一起使用但似乎它们只适用于已弃用的 JobConf 而 JobConf 又使用已弃用的 Mapper 和Reducer or

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job 的相关文章

随机推荐

热门标签