STDIN 或文件作为 Hadoop 环境中的映射器输入？

2024-03-01

因为我们需要将一堆文件读入映射器，在非 Hadoop 中环境，我用的os.walk(dir) and file=open(path, mode)读入每个文件。

然而，在 Hadoop 环境中，当我读到 HadoopStreaming 转换将文件输入到mapper的stdin并将reducer的stdout转换为文件输出，我有几个关于如何输入文件的问题：

我们是否必须在 mapper.py 中设置来自 STDIN 的输入并让 HadoopStreaming 将 hdfs 输入目录中的文件转换为 STDIN？
如果我想分别读取每个文件并解析每一行，如何我可以从mapper.py中的文件设置输入吗？

我之前针对非 Hadoop 环境集的 Python 代码：对于 os.walk('非 hdfs 的路径') 中的 root、dirs、文件 ……

但是，在Hadoop环境中，我需要将“非hdfs路径”更改为我从本地复制到的 HDFS 路径，但我尝试了很多，但没有成功，例如os.walk('/user/hadoop/in')——这是我检查过的通过运行 bin/hadoop dfs -ls，以及os.walk('home/hadoop/files')- 这是我在非Hadoop环境中的本地路径，甚至os.walk('hdfs:// host:fs_port/user/hadoop/in')....

谁能告诉我是否可以使用 file 从文件中输入在mapper.py中操作还是我必须从STDIN输入？

Thanks.

Hadoop 流式传输has从 STDIN 获取输入。我认为您遇到的困惑是您正在尝试编写代码来完成 Hadoop Streaming 为您做的一些事情。当我第一次开始 Hadooping 时我就是这么做的。

Hadoop 流可以读取多个文件，甚至多个压缩文件，然后一次一行地解析这些文件到映射器的 STDIN 中。这是一个有用的抽象，因为您随后将映射器编写为与文件名/位置无关。然后，您可以使用映射器和化简器进行任何稍后方便的输入。另外，您不希望您的映射器尝试抓取文件，因为您无法知道以后将有多少个映射器。如果文件被编码到映射器中，那么如果单个映射器失败，您将永远不会从该映射器中硬编码的文件中获得输出。因此，让 Hadoop 来进行文件管理，并让您的代码尽可能通用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

STDIN 或文件作为 Hadoop 环境中的映射器输入？的相关文章

Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc

随机推荐

在android fb graph api中获取空响应

我一直在尝试使用fb graph api但是reponse我得到的是null当我尝试在我的 Android 应用程序中获取页面的帖子时我正在尝试从我使用过的 ID 页面获取页面提要我希望得到包含提要的图形响应但我有一个null res
matplotlib 中 Poly3DCollection 图的透明度

我正在尝试使用 Python 的神奇 Matplotlib 包绘制一些对象这些对象由实现的点组成plt scatter 和补丁实现Poly3DCollection 我希望补丁具有轻微的透明度以便可以看到补丁后面的点和边缘这是我已经生成
Spring 3 MVC Controller集成测试-将Principal注入到方法中

作为 Spring 3 MVC 的一部分可以将当前登录的用户原理对象注入到控制器方法中 E g Controller public class MyController RequestMapping value update meth
Linux、waitpid、WNOHANG、子进程、僵尸

我作为守护进程运行我的程序父进程只等待子进程当子进程意外死亡时再次fork并等待 for 1 if fork 0 break int sig 0 for 1 usleep 10000 pid t wpid waitpid g gt p
如何在自定义 XML 序列化方法中使用默认 XML 序列化

我在 NET 中有一个实现 IXmlSerialized 的类我想序列化它的属性但它们可能是复杂的类型这些复杂类型与 XML 序列化兼容但它们本身不实现 IXmlSerialized 从我的 ReadXml 和 WriteXml 方
Java 小程序未在 Java8/HTTPS 上加载

我有 Java 小程序使用 HTTPS 时不会运行在本地主机上测试时一切正常此外使用仅使用 HTTP 的测试服务器一切正常在服务器仅使用 HTTPS 的生产模式下会出现此问题引起我注意的一件事是 http www exampl
具有两个系列的 R ggplot：带有图例的点和误差条

如果我有一个像这样的数据框 obs lt rnorm 20 d lt data frame year 2000 2019 obs obs pred obs rnorm 20 1 d pup lt d pred 5 d plow lt d p
在 F# 中使用关键字作为标识符

在 C 中我可以执行以下操作 int private 15 在 VB NET 中我可以执行以下操作 Dim Private As Integer 15 我想知道 F 中是否有办法使用保留关键字作为标识符就像 VB NET 和 C 中那
我应该了解有关 z-index 的任何奇怪规则吗？

抱歉我无法发布完整的代码我正在研究专有的东西基本上我遇到一个问题即 z 索引为 6 的 DIV 被 z 索引为 5 的覆盖 DIV 阻塞是否有任何情况会导致这种情况发生我正在绞尽脑汁试图找出为什么会发生这种情况这根本没有任何
两个字符之间的可变长度子字符串

数据如下 Initiative Credible Sources Initiative Just in Time Initiative Database Normalization 我希望它看起来像这样 Credible Sources J
如何标记 pandas DataFrame 中的最后一个重复元素

如你所知有一种方法 duplicated查找列中的重复项但我需要的是知道我的数据按日期排序的最后一个重复元素这是预期的结果Last dup对于列Policy id Id Policy id Start Date Last dup 0
IE9，使用 CertEnroll.dll 时自动化服务器无法创建对象错误

在我的网页中有一个JS像这样的块 var classFactory new ActiveXObject X509Enrollment CX509EnrollmentWebClassFactory Other initialize Cert
Tkinter 按钮动画

我一直在使用 tkinter 编写一段简单的 python 3 4 代码它是 D D 的骰子滚轮它有用于所有基本骰子的按钮还有一个允许您输入骰子面数的按钮我的布局方式让我想起了键盘所以我想我应该添加一些东西让你可以通过按下按钮来
Delphi - 获取Windows的默认非unicode字符集

我有一个 Delphi 7 应用程序我需要能够获取非 unicode 程序的默认 Windows 字符集我知道 DEFAULT CHARSET 设置了它但我需要确切地知道它是什么字符集以便我可以将它与其他字符集进行比较这可能吗如
WinForm和uwp如何进行两个方向的通信

WinForm和uwp如何双向通信我用的是MQTT 缺点是当发送的数据量比较大时会有很严重的延迟也尝试了socket模式但是WinForm无法连接uwp 请哪位朋友帮帮我谢谢来自文件注释 https learn microsof
IE 兼容模式：“X-UA-Compatible”标签“Edge”

我有这个在它将强制 IE 使用最新的渲染模式但兼容模式是否被认为是最后一种我的意思是例如在 IE8 上使用此代码它会强制它使用 IE8 或 IE8 兼容模式该标签将尝试强制浏览器使用浏览器支持的最新渲染模式它不会触发兼容模式
SSH 窗口大小对 paramiko 有何影响

我正在构建一个应用程序它可以通过 SSH 连接到 Cisco 设备来收集show命令我正在 python 中使用 paramiko 模块来完成此任务将命令输出与plink 知道 paramiko 的输出被截断了尝试取消缓冲并增加缓冲
将菜单下拉菜单移至左侧

我的顶部菜单带有下拉导航子菜单下拉菜单位于主菜单的右侧 css ul dropdown ul width 220px visibility hidden position absolute top 100 left 0 如何将最后一个菜
R data.table 在多个条件下进行子集化。

使用以下数据集如何编写 data table 调用来对该表进行子集化并返回该客户的所有客户 ID 和关联订单如果该客户曾经购买过 SKU 1 预期结果应返回一个表其中排除该条件下的 cid 3 和 5 以及匹配 sku 1 的客户的
STDIN 或文件作为 Hadoop 环境中的映射器输入？

因为我们需要将一堆文件读入映射器在非 Hadoop 中环境我用的os walk dir and file open path mode 读入每个文件然而在 Hadoop 环境中当我读到 HadoopStreaming 转换将

STDIN 或文件作为 Hadoop 环境中的映射器输入？

STDIN 或文件作为 Hadoop 环境中的映射器输入？ 的相关文章

随机推荐

热门标签

STDIN 或文件作为 Hadoop 环境中的映射器输入？的相关文章