如何具体确定MRJob中每个map步骤的输入？

2024-04-01

我正在从事一项地图缩减工作，包含多个步骤。使用 mrjob，每个步骤都会接收上一步的输出。问题是我不想这样。

我想要的是提取一些信息并在第二步中针对所有输入等使用它。可以使用 mrjob 来做到这一点吗？

Note: 因为我不想使用emr，这个问题 https://stackoverflow.com/questions/9302580/multiple-inputs-with-mrjob对我来说没有太大帮助。

UPDATE：如果不可能在一项工作中完成此操作，我需要在两项单独的工作中完成。在这种情况下，有什么方法可以包装这两个作业并管理中间输出等？

您可以使用Runners http://mrjob.readthedocs.org/en/latest/guides/runners.html

您必须单独定义作业并使用另一个 python 脚本来调用它。

from NumLines import NumLines
from WordsPerLine import WordsPerLine
import sys

intermediate = None

def firstJob(input_file):
    global intermediate
    mr_job = NumLines(args=[input_file])
    with mr_job.make_runner() as runner:
        runner.run()
        intermediate = runner.get_output_dir()

def secondJob(input_file):
    mr_job = WordsPerLine(args=[intermediate,input_file])
    with mr_job.make_runner() as runner:
        runner.run()

if __name__ == '__main__':
    firstJob(sys.argv[1]) 
    secondJob(sys.argv[1])

并且可以通过以下方式调用：

python main_script.py input.txt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

MapReduce

mrjob

如何具体确定MRJob中每个map步骤的输入？的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

在 Windows 上将原始数据写入物理磁盘（闪存驱动器）失败并显示“错误文件描述符” - Python

我正在尝试将 USB 闪存驱动器作为 Windows 上的物理驱动器如果重要的话为 10 执行直接数据读取和写入我正在使用 Python 来做到这一点我遵循了以下讨论在 Windows 中使用 python 获得对原始设备的写入权限
根据屏幕尺寸切换 CSS 类

CSS 新手在这里我正在研究一个响应式框架并想象我将如何完成不同的任务根据屏幕的大小它们将类添加到 body 标记中例如 PhoneVisible DesktopVisible 等他们还有一些类可以将链接链接到按钮中 btn 小按
在Python中，如何打印完整的ISO 8601时间戳，包括当前时区

我需要以 ISO 8601 格式打印完整的本地日期时间包括本地时区信息例如 2007 04 05T12 30 00 0000 02 00 我可以用datetime isoformat 打印它如果我有正确的 tzinfo 对象但我如
如何使用域获取 FastAPI 中的当前路径？

我有一个用 FastAPI 编写的简单路线如下所示 from fastapi import FastAPI app FastAPI app get foo bar rand int foo bar async def main rand
如何将 Lottie 文件设置为菜单项？

我正在创建底部导航图标需要是动画 Lottie 文件似乎不可能为标签编写绑定适配器有没有什么解决方案可以让我们在底部导航中拥有很多动画
从帧缓冲区 GLSL 读取到 OpenCV

我只是想向 cvMat 提供由片段着色器生成的纹理屏幕上没有出现任何内容我不知道问题出在哪里这是在驱动程序中还是在 glreadPixels 中我刚刚加载了一个 TGA图像到片段着色器然后对四边形进行纹理化我想将该纹理提供给
如何在lumen中使用preferredLocale？

随着 Laravel 5 7 的发布 Illuminate Notifications Notification 类开始提供区域设置方法来设置所需的语言当通知被格式化时应用程序将更改为该区域设置然后在格式化完成后恢复为之前的区域设置
LAPACK 反演例程奇怪地混合了所有变量

我正在使用 Fortran 进行编程并尝试使用 Lapack 包中的 DGETRI 矩阵逆变器 http www netlib org lapack explore html df da4 dgetri 8f html http www
在 AWS Elastic Beanstalk 上构建 pandas 期间“gcc”失败

尝试在 AWS Elastic Beanstalk EC2 实例上安装 Pandas 0 16 0 位于我的 requests txt 文件中时出现以下错误 building pandas msgpack extension gcc pt
将不同应用程序/对象的模型分组到一个管理块中

是否可以将不同应用程序的模型分组到 1 个管理块中例如我的结构是 project review models py class Review models Model followers models py class Followers
如何在表单中使用模型中声明的 choiceField。姜戈

我的里面有这个model py class marca models Model marcas chevrolet Chevrolet mazda Mazda nissan Nissan toyota Toyota mitsubishi M
如何防止诸如tailwind css和bootstrap之类的css库影响所见即所得编辑器html内容（如Tinymce、Ckeditor）？

拥有 TinyMCE 编辑器它为我提供了正确的 html 标签输出例如 h1 h2 b ul ol li 像这样然而当我想在我自己的前端由 TailWindCSS 或 Bootstrap 组成中准确渲染 TinyMCE 的输出时
如何使用 iOS 版 Google Maps SDK 检测点是否位于多边形内部？

使用适用于 iOS 的 Googlemaps SDK 是否可以检测到某个点位于Polygon I found containsLocation Google Maps JavaScript API 中提供了一个函数但是我在 iOS SDK
junit 和 java：测试非公共方法[重复]

这个问题在这里已经有答案了 JUnit 将只测试我的类中的那些公共方法如何对非私有的即私有的受保护的进行 junit 测试我可以不使用 junit 来测试它们但我想知道 junit 标准方法是什么关于单元测试的一种思想流派认为
Electron - 如何将 html 文件加载到当前窗口？

我四处寻找文档谷歌等了解如何在电子应用程序的主窗口中加载 html 文件但我找不到方法事情真的这么复杂还是这么简单我想出的是ajax 因此有效 main load views details html 我发现的另一种方法是通过远
npm install 生成大量错误列表

在回答这个问题之前我必须说我对 Angular 和 Node 还很陌生按照以下指示这个图兹 http code tutsplus com tutorials creating a web app from scratch using
Apache Camel：带有 CxfEndpoint 的 RouteBuilder

Hello 我正在尝试使用 Java DSL 和 RouteBuilder 实现 Camel 路线我想从计时器端点发送到 cxf 端点 Code public class MyRoute extends RouteBuilder Over
GWT ScrollPanel 未显示完整内容

我使用 AbsolutPanel 作为主面板我将另一个 AbsolutPanel 作为标题添加到主面板现在我将 ScrollPanel 添加到主面板 ScrollPanel 在另一个面板上包含 30 个按钮滚动时最后一个按钮未完全显示
PDO::fetch() LIMIT 1 [重复]

这个问题在这里已经有答案了我需要写吗LIMIT 1使用 PDOfetch 方法这假设我只需要一个结果我想知道是否使用LIMIT 1将有助于节省资源和加载时间 The LIMIT子句只是您可以用来检索所需信息的又一项 SQL 功能询
如何具体确定MRJob中每个map步骤的输入？

我正在从事一项地图缩减工作包含多个步骤使用 mrjob 每个步骤都会接收上一步的输出问题是我不想这样我想要的是提取一些信息并在第二步中针对所有输入等使用它可以使用 mrjob 来做到这一点吗 Note 因为我不想使用emr 这个问

如何具体确定MRJob中每个map步骤的输入？

如何具体确定MRJob中每个map步骤的输入？ 的相关文章

随机推荐

热门标签

如何具体确定MRJob中每个map步骤的输入？的相关文章