STDIN 或文件作为 Hadoop 环境中的映射器输入?

2024-03-01

因为我们需要将一堆文件读入映射器,在非 Hadoop 中 环境,我用的os.walk(dir) and file=open(path, mode)读入 每个文件。

然而,在 Hadoop 环境中,当我读到 HadoopStreaming 转换 将文件输入到mapper的stdin并将reducer的stdout转换为文件 输出,我有几个关于如何输入文件的问题:

  1. 我们是否必须在 mapper.py 中设置来自 STDIN 的输入并让 HadoopStreaming 将 hdfs 输入目录中的文件转换为 STDIN?

  2. 如果我想分别读取每个文件并解析每一行,如何 我可以从mapper.py中的文件设置输入吗?

我之前针对非 Hadoop 环境集的 Python 代码: 对于 os.walk('非 hdfs 的路径') 中的 root、dirs、文件 ……

但是,在Hadoop环境中,我需要将“非hdfs路径”更改为 我从本地复制到的 HDFS 路径,但我尝试了很多,但没有 成功,例如os.walk('/user/hadoop/in')——这是我检查过的 通过运行 bin/hadoop dfs -ls,以及os.walk('home/hadoop/files')- 这 是我在非Hadoop环境中的本地路径,甚至os.walk('hdfs:// host:fs_port/user/hadoop/in')....

谁能告诉我是否可以使用 file 从文件中输入 在mapper.py中操作还是我必须从STDIN输入?

Thanks.


Hadoop 流式传输has从 STDIN 获取输入。我认为您遇到的困惑是您正在尝试编写代码来完成 Hadoop Streaming 为您做的一些事情。当我第一次开始 Hadooping 时我就是这么做的。

Hadoop 流可以读取多个文件,甚至多个压缩文件,然后一次一行地解析这些文件到映射器的 STDIN 中。这是一个有用的抽象,因为您随后将映射器编写为与文件名/位置无关。然后,您可以使用映射器和化简器进行任何稍后方便的输入。另外,您不希望您的映射器尝试抓取文件,因为您无法知道以后将有多少个映射器。如果文件被编码到映射器中,那么如果单个映射器失败,您将永远不会从该映射器中硬编码的文件中获得输出。因此,让 Hadoop 来进行文件管理,并让您的代码尽可能通用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

STDIN 或文件作为 Hadoop 环境中的映射器输入? 的相关文章

  • Django 代理模型的继承和多态性

    我正在开发一个我没有启动的 Django 项目 我面临着一个问题遗产 我有一个大模型 在示例中简化 称为MyModel这应该代表不同种类的物品 的所有实例对象MyModel应该具有相同的字段 但方法的行为根据项目类型的不同而有很大差异 到目
  • Django 管理员在模型编辑时间歇性返回 404

    我们使用 Django Admin 来维护导出到我们的一些站点的一些数据 有时 当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时 我们会得到 Django 404 页面 模板 它是偶尔发生的 我们可以通过重新加载三次来重现它
  • 使用带有关键字参数的 map() 函数

    这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
  • Django:按钮链接

    我是一名 Django 新手用户 尝试创建一个按钮 单击该按钮会链接到我网站中的另一个页面 我尝试了一些不同的例子 但似乎没有一个对我有用 举个例子 为什么这不起作用
  • SQLALchemy .query:类“Car”的未解析属性引用“query”

    我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案 我使用 Pyt
  • Spark KMeans 无法处理大数据吗?

    KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
  • Python pickle:腌制对象不等于源对象

    我认为这是预期的行为 但想检查一下 也许找出原因 因为我所做的研究结果是空白 我有一个函数可以提取数据 创建自定义类的新实例 然后将其附加到列表中 该类仅包含变量 然后 我使用协议 2 作为二进制文件将该列表腌制到文件中 稍后我重新运行脚本
  • OpenCV 无法从 MacBook Pro iSight 捕获

    几天后 我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回 并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗 示例代码
  • Flask如何获取请求的HTTP_ORIGIN

    我想用我自己设置的 Access Control Allow Origin 标头做出响应 而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱 我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
  • Python 的“zip”内置函数的 Ruby 等价物是什么?

    Ruby 是否有与 Python 内置函数等效的东西zip功能 如果不是 做同样事情的简洁方法是什么 一些背景信息 当我试图找到一种干净的方法来进行涉及两个数组的检查时 出现了这个问题 如果我有zip 我可以写这样的东西 zip a b a
  • Pygame:有没有简单的方法可以找到按下的任何字母数字的字母/数字?

    我目前正在开发的游戏需要让人们以自己的名义在高分板上计时 我对如何处理按键有点熟悉 但我只处理过寻找特定的按键 有没有一种简单的方法可以按下任意键的字母 而不必执行以下操作 for event in pygame event get if
  • python获取上传/下载速度

    我想在我的计算机上监控上传和下载速度 一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
  • Fabric env.roledefs 未按预期运行

    On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
  • 向 Altair 图表添加背景实心填充

    I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
  • 如何在seaborn displot中使用hist_kws

    我想在同一图中用不同的颜色绘制直方图和 kde 线 我想为直方图设置绿色 为 kde 线设置蓝色 我设法弄清楚使用 line kws 来更改 kde 线条颜色 但 hist kws 不适用于显示 我尝试过使用 histplot 但我无法为
  • 对年龄列进行分组/分类

    我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
  • 如何在 Python 中追加到 JSON 文件?

    我有一个 JSON 文件 其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中 我尝试了这段代码 with open DATA FILENAME a as f json obj js
  • 有没有办法检测正在运行的代码是否正在上下文管理器内执行?

    正如标题所述 有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
  • 有人用过 Dabo 做过中型项目吗? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我们正处于一个新的 ERP 风格的客户端 服务器应用程序的开始阶段 该应用程序是作为 Python 富客户端开发的 我们目前正在评估 Dabo
  • Scrapy:如何使用元在方法之间传递项目

    我是 scrapy 和 python 的新手 我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法 如 sc

随机推荐

  • 在android fb graph api中获取空响应

    我一直在尝试使用fb graph api但是reponse我得到的是null当我尝试在我的 Android 应用程序中获取页面的帖子时 我正在尝试从我使用过的 ID 页面获取页面提要 我希望得到包含提要的图形响应 但我有一个null res
  • matplotlib 中 Poly3DCollection 图的透明度

    我正在尝试使用 Python 的神奇 Matplotlib 包绘制一些对象 这些对象由实现的点组成plt scatter 和补丁实现Poly3DCollection 我希望补丁具有轻微的透明度 以便可以看到补丁后面的点和边缘 这是我已经生成
  • Spring 3 MVC Controller集成测试-将Principal注入到方法中

    作为 Spring 3 MVC 的一部分 可以将当前登录的用户 原理 对象注入到控制器方法中 E g Controller public class MyController RequestMapping value update meth
  • Linux、waitpid、WNOHANG、子进程、僵尸

    我作为守护进程运行我的程序 父进程只等待子进程 当子进程意外死亡时 再次fork并等待 for 1 if fork 0 break int sig 0 for 1 usleep 10000 pid t wpid waitpid g gt p
  • 如何在自定义 XML 序列化方法中使用默认 XML 序列化

    我在 NET 中有一个实现 IXmlSerialized 的类 我想序列化它的属性 但它们可能是复杂的类型 这些复杂类型与 XML 序列化兼容 但它们本身不实现 IXmlSerialized 从我的 ReadXml 和 WriteXml 方
  • Java 小程序未在 Java8/HTTPS 上加载

    我有 Java 小程序 使用 HTTPS 时不会运行 在本地主机上测试时一切正常 此外 使用仅使用 HTTP 的测试服务器一切正常 在服务器仅使用 HTTPS 的生产模式下 会出现此问题 引起我注意的一件事是 http www exampl
  • 具有两个系列的 R ggplot:带有图例的点和误差条

    如果我有一个像这样的数据框 obs lt rnorm 20 d lt data frame year 2000 2019 obs obs pred obs rnorm 20 1 d pup lt d pred 5 d plow lt d p
  • 在 F# 中使用关键字作为标识符

    在 C 中 我可以执行以下操作 int private 15 在 VB NET 中 我可以执行以下操作 Dim Private As Integer 15 我想知道 F 中是否有办法使用保留关键字作为标识符 就像 VB NET 和 C 中那
  • 我应该了解有关 z-index 的任何奇怪规则吗?

    抱歉 我无法发布完整的代码 我正在研究专有的东西 基本上 我遇到一个问题 即 z 索引为 6 的 DIV 被 z 索引为 5 的覆盖 DIV 阻塞 是否有任何情况会导致这种情况发生 我正在绞尽脑汁试图找出为什么会发生这种情况 这根本没有任何
  • 两个字符之间的可变长度子字符串

    数据如下 Initiative Credible Sources Initiative Just in Time Initiative Database Normalization 我希望它看起来像这样 Credible Sources J
  • 如何标记 pandas DataFrame 中的最后一个重复元素

    如你所知 有一种方法 duplicated查找列中的重复项 但我需要的是知道我的数据按日期排序的最后一个重复元素 这是预期的结果Last dup对于列Policy id Id Policy id Start Date Last dup 0
  • IE9,使用 CertEnroll.dll 时自动化服务器无法创建对象错误

    在我的网页中 有一个JS像这样的块 var classFactory new ActiveXObject X509Enrollment CX509EnrollmentWebClassFactory Other initialize Cert
  • Tkinter 按钮动画

    我一直在使用 tkinter 编写一段简单的 python 3 4 代码 它是 D D 的骰子滚轮 它有用于所有基本骰子的按钮 还有一个允许您输入骰子面数的按钮 我的布局方式让我想起了键盘 所以我想我应该添加一些东西 让你可以通过按下按钮来
  • Delphi - 获取Windows的默认非unicode字符集

    我有一个 Delphi 7 应用程序 我需要能够获取非 unicode 程序的默认 Windows 字符集 我知道 DEFAULT CHARSET 设置了它 但我需要确切地知道它是什么字符集 以便我可以将它与其他字符集进行比较 这可能吗 如
  • WinForm和uwp如何进行两个方向的通信

    WinForm和uwp如何双向通信 我用的是MQTT 缺点是当发送的数据量比较大时 会有很严重的延迟 也尝试了socket模式 但是WinForm无法连接uwp 请哪位朋友帮帮我 谢谢 来自文件注释 https learn microsof
  • IE 兼容模式:“X-UA-Compatible”标签“Edge”

    我有这个在 它将强制 IE 使用最新的渲染模式 但兼容模式是否被认为是最后一种 我的意思是 例如 在 IE8 上使用此代码 它会强制它使用 IE8 或 IE8 兼容模式 该标签将尝试强制浏览器使用浏览器支持的最新渲染模式 它不会触发兼容模式
  • SSH 窗口大小对 paramiko 有何影响

    我正在构建一个应用程序 它可以通过 SSH 连接到 Cisco 设备来收集show命令 我正在 python 中使用 paramiko 模块来完成此任务 将命令输出与plink 知道 paramiko 的输出被截断了 尝试取消缓冲并增加缓冲
  • 将菜单下拉菜单移至左侧

    我的顶部菜单带有下拉导航 子菜单 下拉菜单位于主菜单的右侧 css ul dropdown ul width 220px visibility hidden position absolute top 100 left 0 如何将最后一个菜
  • R data.table 在多个条件下进行子集化。

    使用以下数据集 如何编写 data table 调用来对该表进行子集化 并返回该客户的所有客户 ID 和关联订单 如果该客户曾经购买过 SKU 1 预期结果应返回一个表 其中排除该条件下的 cid 3 和 5 以及匹配 sku 1 的客户的
  • STDIN 或文件作为 Hadoop 环境中的映射器输入?

    因为我们需要将一堆文件读入映射器 在非 Hadoop 中 环境 我用的os walk dir and file open path mode 读入 每个文件 然而 在 Hadoop 环境中 当我读到 HadoopStreaming 转换 将