从外部文件加载配置的最佳 PySpark 实践是什么

2024-04-04

我想初始化配置一次，然后在我的 PySpark 项目的许多模块中使用它。

我看到有两种方法可以做到这一点。

将其加载到入口点并作为参数传递给每个函数

main.py:

with open(sys.argv[1]) as f:
    config = json.load(f)
df = load_df(config)
df = parse(df, config)
df = validate(df, config, strict=True)
dump(df, config)

但向每个函数传递一个外部参数似乎不太美观。

在config.py中加载配置并在每个模块中导入该对象

配置文件

import sys
import json
with open(sys.argv[1]) as f:
    config = json.load(f)

main.py

from config import config
df = load_df()
df = parse(df)
df = validate(df, strict=True)
dump(df)

并在每个模块中添加行

from config import config

这看起来更漂亮，因为严格来说，配置并不是函数的参数。这是它们执行的一般上下文。

不幸的是，PySpark pickle config.py 并尝试在服务器上执行它，但没有将 sys.argv 传递给它们！所以，我在运行时看到错误

  File "/PycharmProjects/spark_test/config.py", line 6, in <module>
    CONFIG_PATH = sys.argv[1]
IndexError: list index out of range

在 PySpark 中使用从文件加载的常规配置的最佳实践是什么？

您的程序在 master 上开始执行，并通过调用执行器上的一些函数将其主要工作传递给执行器。执行器是通常在不同物理机器上运行的不同进程。

因此，master 想要在执行器上引用的任何内容都需要是标准库函数（执行器可以访问）或可以发送的可挑选对象。

您通常不想在执行器上加载和解析任何外部资源，因为您总是必须将它们复制过来并确保正确加载它们...将可挑选的对象作为函数的参数传递（例如，对于UDF) 的效果要好得多，因为代码中只有一处需要加载它。

我建议创建一个config.py文件并将其作为参数添加到您的spark-submit命令：

spark-submit --py-files /path/to/config.py main_program.py

然后你可以像这样创建 Spark 上下文：

spark_context = SparkContext(pyFiles=['/path/to/config.py'])

并简单地使用import config无论您需要什么地方。

您甚至可以将整个 python 包包含在打包为单个 zip 文件（而不是单个）的树中config.py文件，但一定要包括__init__.py在每个需要作为 python 模块引用的文件夹中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

config

从外部文件加载配置的最佳 PySpark 实践是什么的相关文章

如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

当页面比屏幕大时如何将div定位在屏幕中间

您好我正在使用类似于以下内容的方法来将 div 放置在屏幕中间
如何让在 IE 10、Firefox、Safari 等中显示全时间选择器

我一整天都在为此苦苦挣扎我一直在使用
React Native 图像预取

我很难理解Image prefetch 在里面doc s http facebook github io react native docs image html prefetch对此没有太多解释通过将远程映像下载到磁盘来预取远程映像以供
我应该如何将 IoC DI 与此存储库模式结合使用？

我正在使用在这个问题的答案中找到的存储库模式为每个对象创建通用存储库与特定存储库的优势是什么 https stackoverflow com questions 1230571 advantage of creating a generi
Powermock - 如何模拟特定方法并保持对象的其余部分不变

我有一个 Person 类其中设置了 FirstName LastName 执行测试用例 1 的测试类我们可以只模拟一个特定的方法 getLastName 并保留其他所有内容其他内部字段函数原样吗 public class Pe
Ruby：如何将一种方法接收到的所有参数和块传递给另一种方法？

我正在编写一个帮助程序将 HTML 属性添加到 Rails 中的 link to 标记中因此我的想法是我的辅助方法应该接受传递给它的任何参数或块使用这些相同的参数调用 link to 将其属性添加到返回的内容中并将结果返回给调用
为什么我不需要在 COM 线程内创建的线程中调用 CoInitialize？

为了学习多线程我在 COM 线程中创建了一个线程 TRemoteDataModule 这是我的组件工厂 TComponentFactory Create ComServer TServerConn2 Class ServerConn2 c
magento 获取 Base Url 、 Skin Url 、 Media Url 、 Js Url 、 Store Url 和 Current Url 以确保安全

我是新手magento 我正在开发一个模块为此我有一些css andjs我想要显示链接的文件我目前有类似的链接但在浏览了一些链接后我发现链接应
在docker容器中运行jenkins代理，jenkins管道和/var/run/docker.socket出现问题

我创建了用于詹金斯代理奴隶的图像这里是 https hub docker com r kondaurov jenkins agent dockerfile https hub docker com r kondaurov jenkins
SharePoint 计时器作业添加列表项，但不触发关联的工作流

我有一个名为会话的列表该列表有一个用于项目创建修改的工作流程当我使用 Web 部件以及手动添加项目时工作流程会触发我开发了一个每天运行的计时器作业它将项目添加到会话列表中当计时器作业将项目添加到列表时工作流程不会触发
属性“history”在“Router”中被标记为必需，但其值为“undefined”。在路由器中

我是 ReactJs 的新手这是我的代码 var React require react var ReactDOM require react dom var Route Router IndexRoute hashHistory req
在没有 SD 卡的情况下安装 Android 应用程序

我将 apk 文件上传到网络服务器并尝试从手机上的浏览器访问该链接当我尝试从该链接下载时我收到一条错误消息上面写着需要 SD 卡才能下载我没有安装 SD 卡但内部存储器未满因此我希望应用程序安装到内部存储器显而易见的解决方
off_t 且文件 > 2GB 时没有 -D_FILE_OFFSET_BITS=64

1 我想知道如果我尝试读取大于的文件会出现什么问题2GB大小无需使用选项编译我的程序 D FILE OFFSET BITS 64 using off t并使用第二个函数这一页 https stackoverflow com questi
google play 如何捕获我们手机上的异常？

我想知道 Google Play 如何能够捕获其应用程序中发生的错误列表并将其显示给开发人员背景我们正在尝试复制像谷歌商店这样的应用程序我们应该通过我们的应用程序维护一个企业应用程序列表我们希望通过我们的应用程序实现一个异常捕获框架
Excel VBA 不会保留前导零

我似乎无法找到一种方法来保存 VBA 代码中的前导零这些零是必需的因为它们对应于唯一的 ID 我尝试在 excel 中将数字格式更改为文本和 0000 并在我的实际代码中采用相同的方法 ActiveSheet Cells i j Num
Docker-machine Google (GCE) 驱动程序无法工作，无法创建实例

好吧这很容易重现但令人难以置信的令人沮丧将非常感谢任何帮助或建议我正在使用 Docker for Mac 在 OS X El Capitan 10 11 6 上运行要点是 Docker 似乎无法通过 Docker GCE 驱动程序
哪些 clang-tidy 检查提供自动修复？

我想找出哪些 clang tidy 检查可以使用 fix 选项运行即自动生成固定代码我知道所有的 Modernize 检查都可以做到这一点其他一些检查也可以比如 google readability casting 但我没有找到完整
Html5 视频和 Flash 方法

研究 HTML5 视频标签并研究哪些浏览器支持哪些视频文件类型我最初的想法是事情变得比仅仅使用 Flash 更困难我想知道是否有人已经找到一些骨架代码与视频的开发方法相结合来执行以下操作如果闪光灯可用请使用它如果没有请尝试
SimpleITK 体积数据旋转（例如 MRI）

我有一个 32x32x3 高度宽度深度的图像我试图在 satk 中围绕 z 轴旋转 45 度然而我要旋转的 z 深度轴似乎是成一定角度的如何旋转图像以便在查看图像的一个切片时我会看到该切片从中心旋转 45 度下面是我的代
从外部文件加载配置的最佳 PySpark 实践是什么

我想初始化配置一次然后在我的 PySpark 项目的许多模块中使用它我看到有两种方法可以做到这一点将其加载到入口点并作为参数传递给每个函数 main py with open sys argv 1 as f config json l

从外部文件加载配置的最佳 PySpark 实践是什么

从外部文件加载配置的最佳 PySpark 实践是什么 的相关文章

随机推荐

热门标签

从外部文件加载配置的最佳 PySpark 实践是什么的相关文章