流式 pyspark 应用程序中的连接池

2024-01-03

在流式 pyspark 应用程序中使用连接池的正确方法是什么？

我通读了https://forums.databricks.com/questions/3057/how-to-reuse-database-session-object-created-in-fo.html https://forums.databricks.com/questions/3057/how-to-reuse-database-session-object-created-in-fo.html并理解正确的方法是对 scala/java 使用单例。这在 python 中可能吗？一个小的代码示例将不胜感激。我相信为每个分区创建连接对于流应用程序来说效率非常低。

由于 PySpark 架构的原因，长话短说，连接池在 Python 中的用处不如在 JVM 中有用。与 Scala 对应的 Python 执行器不同，Python 执行器使用单独的进程。这意味着执行器之间没有共享状态，并且由于默认情况下每个分区都是按顺序处理的，因此每个解释器只能有一个活动连接。

当然，维持批次之间的连接仍然很有用。要实现这一目标，您需要做两件事：

spark.python.worker.reuse必须设置为 true。
一种在不同调用之间引用对象的方法。

第一个非常明显，第二个并不是 Spark 特有的。例如，您可以使用模块单例（您将在我的回答中找到 Spark 示例）在 PySpark 中处理数据之前，如何在所有 Spark 工作线程上运行函数？ https://stackoverflow.com/q/37343437/1560062) or a 博格模式 https://code.activestate.com/recipes/66531-singleton-we-dont-need-no-stinkin-singleton-the-bo/.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

流式 pyspark 应用程序中的连接池的相关文章

如何在刻度标签和轴之间添加空间

我已成功增加刻度标签的字体但现在它们距离轴太近了我想在刻度标签和轴之间添加一点呼吸空间如果您不想全局更改间距通过编辑 rcParams 并且想要更简洁的方法请尝试以下操作 ax tick params axis both whic
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

如何捕获datePicker关闭事件

我正在使用日期选择器它工作正常我的网页很少需要使用开始日期和结束日期进行一些计算我希望能够在日期选择器关闭时进行计算我在用有人有什么建议吗您正在寻找onClose method 参考API文档here http api jque
公共 IP 地址是否可以用作 Google OAuth 重定向 URI？

我正在尝试设置一个需要用户的 Google Latitude 信息的网络服务因此我使用 Google OAuth 来获取用户授权内容但是当尝试在 Google API 控制台中为 Web 应用程序客户端 ID 设置重定向 URI 时
在 int main() 中使用类函数

我在从主程序调用函数时遇到问题这些功能必须在我的班级中如何从 int main 访问它们 include
使用 Delphi 7 进行开发时，准备好使用 Delphi 2009 及更高版本了吗？

我正在 Delphi 7 中开发一个 Word 插件但很快我会将其升级到 Delphi 2010 如您所知因为 2009 版本 Delphi 引入了新的字符串类型Unicode字符串等于关键字string 另一方面根据这个线程 htt
使用 AJAX 调用 WordPress 简码

我想使用切换按钮运行短代码如果开关为 ON 我会调用一个短代码如果它为 OFF 我会调用另一个作为测试我尝试通过 AJAX 单击单个链接来调用短代码它给出了以下内容文件 page recherche php a href CLI
gitlab CI期间激活conda环境

My gitlab ci yml文件看起来像这样 anomalydetector image continuumio miniconda 4 7 10 stage build tags docker script conda env cre
是否可以在 Xcode 7 自动化 UI 测试中存根 HTTP 请求？

我一直在尝试在 Xcode 7 自动化 UI 测试中拦截和存根模拟 HTTP 请求使用诸如OHHTTP存根 https github com AliSoftware OHHTTPStubs 没有运气下面是我如何尝试在 UI 测试文件的
如何在 Tomcat 8.5 中部署 Spring boot 时使用外部配置文件

我的 Spring Boot 应用程序 2 1 1 RELEASE 作为 WAR 部署在 Debian 9 系统下的 Tomcat 8 5 服务器中除其他外它使用以下文件来配置应用程序 myApplication properties
快速滚动带有图像的表格单元格。是这样的吗？

我尝试使用 Tweetie 的创建者 Loren Brichter 的创建一个快速滚动列表技术 http web archive org web 20100922230053 http blog atebits com 2008 12 fa
AWS EBS 卷“使用中 - 优化”

我有一个 EBS 卷显示使用中优化状态这是什么意思 AWS正在执行哪些优化它位于附加到 Windows Server 2012 R2 EC2 实例的 300GB 加密 gp2 卷上 The in use optimizing状态与
将 NLP 转换为 SQL 有哪些方法？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近我们开始研究对话式聊天机器人的想法并一直在考虑将自然语言查询转换为 SQL 的不同方法这些是
C#，输出多个值的方法

我正在使用c 我有一个输出多个值的方法我知道out但这是一个引用类型是否有与值类型等效的东西但也可以从方法输出多个值对于引用类型值也会在方法之外发生更改因此我想防止这种情况发生 out 我知道out但这是一个引用类型不清楚你的
Python格式大小应用（将B转换为KB、MB、GB、TB）

我正在尝试编写一个应用程序来将字节转换为 kb 到 mb 到 gb 到 tb 这是我到目前为止所拥有的 def size format b if b lt 1000 return i b B elif 1000 lt b lt 100000
在 Postgresql 中，如何使用“At Time Zone”取消反转时区偏移

我正在尝试了解 Postgresql 时区但我似乎无法弄清楚这一点 EST 是美国的东部标准时间通常是UTC 5 http en wikipedia org wiki Eastern Time Zone 示例 1 基础测试 selec
QML WebEngineView 轻弹内容

我正在尝试使用 QML 和 WebEngineView 组件使用 Ubuntu 14 04 制作一个简单的桌面网络浏览器该应用程序将在带有触摸板的设备上运行因此最好使 WebEngineView 中显示的内容可滑动我尝试这样做但它不
为什么“

流式 pyspark 应用程序中的连接池

流式 pyspark 应用程序中的连接池 的相关文章

随机推荐

流式 pyspark 应用程序中的连接池的相关文章