如何在 MapReduce 作业中导入自定义模块？

2024-05-23

我有一个 MapReduce 作业定义在main.py，它导入了lib模块来自lib.py。我使用 Hadoop Streaming 将此作业提交到 Hadoop 集群，如下所示：

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -files lib.py,main.py 
    -mapper "./main.py map" -reducer "./main.py reduce" 
    -input input -output output

根据我的理解，这应该把两者main.py and lib.py进入分布式缓存文件夹在每台计算机上，从而制作模块lib有空main。但这并没有发生：从日志中我看到该文件真的被复制了到同一目录，但是main无法导入lib, 投掷ImportError.

为什么会发生这种情况以及如何解决它？

UPD.将当前目录添加到路径不起作用：

import sys    
sys.path.append(os.path.realpath(__file__))
import lib
# ImportError

不过，手动加载模块可以解决问题：

import imp
lib = imp.load_source('lib', 'lib.py')

但这不是我想要的。那么为什么Python解释器会看到其他的.py文件在同一目录中，但无法导入？请注意，我已经尝试添加一个空的__init__.py文件复制到同一目录下无效。

我将问题发布到Hadoop用户列表，终于找到了答案。事实证明，Hadoop 并没有真正将文件复制到命令运行的位置，而是创建symlinks对于他们来说。反过来，Python 无法使用符号链接，因此无法识别lib.py作为Python模块。

Simple 解决方法这是把两者都放在main.py and lib.py进入同一目录，这样目录的符号链接被放置到 MR 作业工作目录中，而两个文件物理上位于同一目录中。所以我做了以下事情：

Put main.py and lib.py into app目录。
In main.py I used lib.py直接导入字符串即可

导入库
已上传app目录与-files选项。

所以，最终命令如下所示：

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -files app 
       -mapper "app/main.py map" -reducer "app/main.py reduce" 
       -input input -output output

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 MapReduce 作业中导入自定义模块？的相关文章

具有多处理功能的 Python 代码无法在 Windows 上运行

以下简单的绝对初学者代码在 Ubuntu 14 04 Python 2 7 6 和 Cygwin Python 2 7 8 上运行 100 但在 Windows 64 位 Python 2 7 8 上挂起我使用另一个片段观察到了同样的情况
python导入模块时如何避免一直写模块名？

我用math最近模块很多我不想写math sqrt x and math sin x 每时每刻我想缩短它并写sqrt x and sin x How 对于较长的模块名称通常会缩短它们例如 import numpy as np 然后您
Python Nose 导入错误

我似乎无法理解鼻子测试框架 https nose readthedocs org en latest 识别文件结构中测试脚本下方的模块我已经设置了演示该问题的最简单的示例下面我会解释一下这是包文件结构 init py foo py t
DataFrame 在函数内部修改

我面临一个我以前从未观察到的函数内数据帧修改的问题有没有一种方法可以处理这个问题以便初始数据帧不被修改 def test df df tt np nan return df dff pd DataFrame data 现在当我打印时d
Python 在 chroot 中运行时出现错误

我尝试在 chroot 中运行一些 Python 程序但出现以下错误 Could not find platform independent libraries
为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
子进程改变目录

我想在子目录超级目录中执行脚本我需要首先进入该子目录超级目录我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
Python 中的安全解除引用

Groovy 有一个很好的安全取消引用运算符这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
Python，将迭代函数变成递归函数

我创建了一个输出 4 3 2 1 0 1 2 3 4 的迭代函数 def bounce2 n s n for i in range n print n n n 1 if n lt 0 for i in range s 1 print n n
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
conda 无法从 yml 创建环境

我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境我在 Ubuntu 服务器上的命令行中运行代码虚拟环境名为 py36 当我运行下面的代码时我收到下面的消息环境也没有被创建这个问题是因为我有几个必须使用 pip
使用 Scipy imsave 将 Numpy 数组保存到图像时保留未更改的数据

使用 Scipy 保存二维 Numpy 数组单个值时toimage or imsave像素值与 Numpy 数组中的像素值不完全匹配相反在某些区域主要是边缘图像算法似乎使用某种插值是否有一个选项可以停止插值并保留准确的数据例
Django - 电子邮件发送两次

每当我使用如下所示的电子邮件设置从views py调用下面的方法时电子邮件的两份副本都会发送给收件人并且我收到如下所示的错误 def sendEmailBasic request msg EmailMessage Request Cal
在 matplotlib 中使用 yscale('log') 时缺少误差线

在某些情况下当使用对数刻度时 matplotlib 会错误地显示带有误差条的图假设这些数据例如在 pylab 内 s 19 0 20 0 21 0 22 0 24 0 v 36 5 66 814250000000001 130 177
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
SQLAlchemy：避免声明式样式类定义中的重复

我正在使用 SQLAlchemy 并且我的对象模型中的许多类具有相同的两个属性 id 和整数和主键以及名称字符串我试图避免在每个类中声明它们如下所示 class C1 declarative base id Column Inte
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03

随机推荐

如何在“object”标签内选择 SVG？

HTML 页面的内容如下所示方法如下script js looks var tooltip d3 select body append div style position absolute sty
在子类 unique_together 元选项中使用基类字段时出错

使用以下代码 class Organization models Model name models CharField max length 100 alias models SlugField class Division Organi
从软件查找服务返回无效结果

我尝试通过 XCode 组织者提交 iOS 应用程序但在身份验证后失败组织者说从软件查找服务返回的结果无效我怎么解决这个问题检查 iTunes Connect 中您的应用程序状态是否为等待上传您可以更改状态以按准备上传二进制
Knockout.js - 数据绑定文本默认值

在 knockout js 中我有一个非常标准的字段如下所示
带有自定义 init 的 SwiftUI 视图

假设我正在制作一个如下所示的自定义输入元素 struct CustomInput View Binding var text String var name String var body some View TextField name
SimpleMemership CreateUserAndAccount 自定义

我正在尝试添加一个新属性UserProfile我的模型中的类 public class UserProfile Key DatabaseGeneratedAttribute DatabaseGeneratedOption Identity
如何设置 ABPeoplePickerNavigationController 的提示？

这是我用来调用人员选择器的代码但提示标签文本不会更改 ABPeoplePickerNavigationController picker ABPeoplePickerNavigationController alloc init pick
基于坐标合并数据框

我有两个数据框两个数据框都包含经度和纬度列我想根据经度和纬度列合并这两个数据框首先我应用了普通merge函数它产生空的结果数据框我调查发现两个数据框没有相同的经度和纬度列然后我尝试了另一个函数merge asof并将方向设置为
IN 运算符对 SQL 查询性能的影响有多大？

我的 SQL 查询需要 9 个小时才能执行见下文 Select Field1 Field2 From A Where Field3 IN 45 unique values here 当我将此查询拆分为 3 个完全相同的查询仅每个 IN
xml:space="preserve" 对 XML 属性之间的空间有影响吗？

我知道 a b b a 不同于 a b b a 然而又怎样呢 a b b a
如何验证用户输入的数字实际上是c中有效的无符号整数

我正在用 c 编写一个程序它在命令行上接受用户的参数但该参数必须是有效的无符号整数例如如果用户输入值 1 那么我将不得不打印错误代码或者如果用户输入高于 4294967295 的任何内容那么我也会打印错误代码我不确定如何检查
如何在 UITextView 中禁用放大功能

我想摆脱 UITextView 中的放大和文本选择但我需要电话号码链接和地址检测器我在用 void addGestureRecognizer UIGestureRecognizer gestureRecognizer if gestu
jQuery 函数 .bind 在 IE 中不起作用

这是我的网站 http johns webdesign com port html 如果您单击小缩略图则会显示更大的图像在 Chrome 中它工作得很好但是当我在 IE9 中尝试它时它什么也没做这是我的代码 jQuery JavaS
如何从具有重复条目的过滤列表中删除特定索引？

我有一个TableView由一个支持SortedList包裹一个FilteredList包裹一个ObservableList 过滤列表中的项目可以重复也就是说有可能是这样的情况list get 5 list get 10 用户可以选择行
matplotlib 中 3d 条形图的颜色图应用于每个条形

有谁知道如何在 matplotlib 中轻松实现 3d 条形图的颜色图考虑this https matplotlib org examples mplot3d hist3d demo html例如如何根据颜色图更改每个条形例如短条形
何时检查未定义以及何时检查 null

赏金编辑我正在寻找一个很好的解释当你应该设置使用null or undefined以及您需要在哪里进行检查基本上这两者的常见做法是什么真的可以在通用的可维护代码中单独对待它们吗我什么时候可以安全地检查 null 安全地检查 un
Windows 上的 NLTK MEGAM Max Ent 算法

我一直在 Python 上使用 NLTK 但无法使用 MEGAM Max Ent 算法因为缺少任何版本的 MEGAM 库等于或高于 0 3 的 Windows 64 位可执行文件需要包含 NLTK 的 nobias 选项工作在 v 0
Qt Creator 2.8.1 Qt 5.1.1 Qt Designer Linux 显示新窗体

我是 Qt 的初学者所以希望这是一个容易回答的问题我有相当多的 C 经验这部分不是问题我的应用程序的目的是进行代码生成最初是为类制作头文件和实现文件我非常喜欢 Code Blocks 上的类向导但我认为我可以做更多的事情我有
正式来说，typename 是做什么用的？ [复制]

这个问题在这里已经有答案了有时我会看到一些非常难以理解的错误消息gcc当使用模板时具体来说我遇到了一些问题看似正确的声明导致了非常奇怪的编译错误通过添加前缀神奇地消失了typename关键字到声明的开头例如就在上周我将两个迭
如何在 MapReduce 作业中导入自定义模块？

我有一个 MapReduce 作业定义在main py 它导入了lib模块来自lib py 我使用 Hadoop Streaming 将此作业提交到 Hadoop 集群如下所示 hadoop jar usr lib hadoop mapr

如何在 MapReduce 作业中导入自定义模块？

如何在 MapReduce 作业中导入自定义模块？ 的相关文章

随机推荐

热门标签

如何在 MapReduce 作业中导入自定义模块？的相关文章