Hadoop 映射器从 2 个不同的源输入文件读取

2024-01-09

我有一个链接很多映射器和缩减器的工具，在某些时候我需要合并之前映射缩减步骤的结果，例如作为输入，我有两个包含数据的文件：

/input/a.txt
apple,10
orange,20

*/input/b.txt*
apple;5
orange;40

结果应该是 c.txt，其中c.值 = a.值 * b.值

/output/c.txt
apple,50   // 10 * 5
orange,800 // 40 * 20

怎么办呢？我通过引入简单的 Key => MyMapWritable (type=1,2, value) 并在化简器中合并（实际上是相乘）数据来解决这个问题。它有效，但是：

感觉可以更容易完成（气味不好）
是否有可能以某种方式在 Mapper 内部知道哪个文件被用作记录提供者（a.txt 或 b.txt）。现在，我只是使用了不同的分隔符：逗号和分号:(

假设它们已经以相同的方式分区和排序，那么您可以使用复合输入格式 http://hadoop.apache.org/common/docs/r1.0.3/api/org/apache/hadoop/mapred/join/CompositeInputFormat.html执行映射端连接。有一篇文章介绍它的使用here http://www.congiu.com/joins-in-hadoop-using-compositeinputformat/。我认为它还没有被移植到新的 mapreduce api 中。

其次，您可以通过调用获取映射器中的输入文件context.getInputSplit()，这将返回 InputSplit，如果您使用的是TextInputFormat，您可以投射到FileInputSplit然后打电话getPath()获取文件名。我认为您不能将此方法与 CompositeInputFormat 一起使用，因为您不知道 TupleWritable 中的 Writables 来自哪里。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hadoop 映射器从 2 个不同的源输入文件读取的相关文章

适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
使用 Hive 计算文本变量的单词频率

我有一个变量每一行都是一个句子例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
为什么 SequenceFile 被截断？

我在学习Hadoop这个问题困扰了我一段时间基本上我正在写一个SequenceFile到磁盘然后读回然而每次我收到EOFException阅读时深入观察发现在写入序列文件时它被过早截断并且总是发生在写入索引962之后并且文件
“客户端”对于 Hadoop/HDFS 究竟意味着什么？

我理解其背后的一般概念但我希望对客户是什么有更多的澄清和明确的定义例如如果我只是在终端上写一个 hdfs 命令它仍然是客户端吗 ClientHadoop中是指用于与Hadoop文件系统通信的接口 Hadoop 可使用不同类型
Hive 有相当于 DUAL 的东西吗？

我想运行这样的语句 SELECT date add 2008 12 31 1 FROM DUAL Hive 在 Amazon EMR 上运行是否有类似的功能最好的解决方案是不要提及表名 select 1 1 给出结果 2 但是可怜的 H

随机推荐

如何在 Apache 中集成 Clojure Web 应用程序

Note 鉴于这个OP是大约两年前写的我不想再问同样的问题我想知道是否存在分步说明以便我可以将Noir或其他Clojure Web应用程序集成到Apache中无论是Jetty Tomcat 或者是其他东西 Django 也有类似的说
angular2快速启动仅显示正在加载..而不显示index.html的内容

第一次使用 angular2 按照以下说明5 分钟快速入门指南 https angular io docs ts latest quickstart html 对于角度 2 一切正常意味着运行时没有错误npm start npm 启动镜像
在windows中用纯C创建唯一的临时目录

我想从一些 C 在 Windows 中创建一个唯一的临时目录代码不是 C 或 C 我想这样做以便我可以放置一些温度目录中的文件然后在完成后轻松将它们全部删除通过递归删除目录我本质上是在寻找与linux相当的东西mkdtemp
从数据库填充组合框

我的组合框出现错误 My code SqlConnection conn new SqlConnection try conn new SqlConnection Data Source SHARKAWY Initial Catalog B
使用 Flash IDE 测试电影无法从本地主机加载文件

我只是想知道是否有人可以帮助我解决我的简单但令人沮丧的问题我创建了一个 SWF 可以从以下位置加载 XML 文件http localhost flash Projects MEL Quiz Quiz bin xml quiz xml ht
在 WKWebView 中启用应用程序缓存

我知道 iOS WKWebView 不支持离线应用程序缓存这是在 Safari 中启用的所以我在 webkit 项目中搜索了负责的代码并发现了这个 WK首选项 void setOfflineApplicationCacheIsEnabl
使用 Wix 工具集安装应用程序的多个实例

我只需要安装应用程序的多个实例将它们保存在不同的文件夹中桌面上没有快捷方式换句话说当应用程序已安装在文件夹中时如果我再次双击 msi 文件安装程序不应询问我是否要修复或删除我的应用程序而只是允许安装它在一个新文件夹中我怎么解
Cache-Control s-maxage 标头是否会覆盖浏览器缓存的 Expires 标头？

我想设置一个遥远的未来过期标头以减少来自各个浏览器的请求我还想设置 Cache Control s maxage 600 以便代理缓存和 CDN 每 10 分钟与源重新验证一次新内容尽管存在带有 s maxage 指令的 Cache
是否可以使用与 Java 中相同的语法在 Groovy 中使用 JavaFX？

我使用的是jdk1 8 0 25 我正在尝试运行一个 JavaFX 应用程序文件在该文件下当名为 HelloWorldMain java 时可以使用 javac java 编译并运行正常我将其重命名为 HelloWorldMain
JavaScript比较危机

我遇到了以下问题无法理解原因有人可以解释一下吗 var foo 0 console log foo foo true console log foo foo true 第二个比较解释起来很简单 foo等于它本身然而第一个有点棘手 f
在 CTRL+MOUSEWHEEL 事件上

我被要求为我们的页面站点实现 ctrl mousewheel 事件以便更改用户放大或缩小时的图像偏移我找到了这个旧答案使用 javascript 覆盖浏览器 CTRL WHEEL SCROLL https stackoverflow c
将带有哈希密码的用户表从旧的 php 应用程序迁移到新的 laravel 应用程序

我正在开发一个旧的 php 应用程序用户的密码是用md5 功能所以密码的存储方式如下 c0c92dd7cc524a1eb55ffeb8311dd73f 我正在使用 Laravel 4 开发一个新应用程序我需要有关如何迁移的建议user
如何使用PHP7连接到sql服务器？（我错过了什么？）

这是 phpinfo 输出版本 php http cellcasehub com version php 这是代码 serverName X X X X connection array UID gt UserID PWD gt Pass
UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节

我正在尝试打开一系列 HTML 文件以便使用 BeautifulSoup 从这些文件的正文中获取文本我有大约 435 个文件想要运行但我不断收到此错误我尝试将 HTML 文件转换为文本并打开文本文件但出现相同的错误 path Bi
Moq to Rhino - 假部分存储库

我得到了这个非常酷的 Moq 方法它伪造了我的 GetService 看起来像这样 private Mock
在 jooq 的 UPDATE 中使用原始值表达式

这是我试图执行的查询 UPDATE TABLE users SET metadata metadata keyA keyB WHERE
如何在 R 中获取当前种子

我正在 R 中运行一个带有随机因子的函数我意识到我忘记运行set seed 在运行这个函数之前有什么方法可以找回seedR 正在使用的值我想它将是任意数字但并不重要以便我可以重现执行您可以使用以下命令获取当前的随机状态 Rand
如何将地址转换为纬度/经度？

我如何将地址或城市转换为纬度经度我可以从哪些商业机构租用这项服务这将用于具有全时互联网访问的 Windows PC 上的商业桌面应用程序谷歌有一个地理编码 API 似乎对于他们拥有谷歌地图数据的大多数位置都运行良好 http g
为什么内部 TABLE 部分必须经过 THEAD TFOOT TBODY 才能验证？

我经常使用 THEAD TBODY 和 TFOOT 元素将数据表划分为可以使用 CSS 单独寻址的部分我也明白总是有一个隐式的 TBODY 标签让我困惑的是这些必须进入验证的顺序该表将验证
Hadoop 映射器从 2 个不同的源输入文件读取

我有一个链接很多映射器和缩减器的工具在某些时候我需要合并之前映射缩减步骤的结果例如作为输入我有两个包含数据的文件 input a txt apple 10 orange 20 input b txt apple 5 orange 40

Hadoop 映射器从 2 个不同的源输入文件读取

Hadoop 映射器从 2 个不同的源输入文件读取 的相关文章

随机推荐

热门标签

Hadoop 映射器从 2 个不同的源输入文件读取的相关文章