将 for 循环替换为 pyspark 中的并行进程

2024-05-24

我在脚本中使用 for 循环来为 size_DF（数据帧）的每个元素调用函数，但这需要很多时间。我尝试通过地图删除 for 循环，但没有得到任何输出。
size_DF 是我从表中获取的大约 300 个元素的列表。

用于：

import call_functions

newObject = call_functions.call_functions_class()
size_RDD = sc.parallelize(size_DF) 

if len(size_DF) == 0:
    print "No record present in the truncated list"
else:

    for row in size_DF:
        length = row[0]
        print "length: ", length
        insertDF = newObject.full_item(sc, dataBase, length, end_date)

使用地图

if len(size_DF) == 0:
    print "No record present in the list"
else:
    size_RDD.mapPartition(lambda l: newObject.full_item(sc, dataBase, len(l[0]), end_date))

newObject.full_item(sc, dataBase, len(l[0]), end_date)在 full_item() 中——我正在执行一些选择操作并连接 2 个表并将数据插入到表中。

请帮助我，让我知道我做错了什么。

pyspark.rdd.RDD.mapPartition方法是惰性求值的。通常，为了强制执行计算，您可以使用一个方法，在返回的惰性 RDD 实例上返回一个值。

有更高级别的功能负责强制评估RDD价值观。e.g. pyspark.rdd.RDD.foreach https://github.com/apache/spark/blob/v2.3.0/python/pyspark/rdd.py#L786

由于您并不真正关心操作的结果，因此您可以使用pyspark.rdd.RDD.foreach代替pyspark.rdd.RDD.mapPartition.

def first_of(it):
    for first in it:
        return first
    return []

def insert_first(it):
    first = first_of(it)
    item_count = len(first)
    newObject.full_item(sc, dataBase, item_count, end_date)


if len(size_DF) == 0:
    print('No record present in the truncated list')
else:
    size_DF.forEach(insert_first)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 for 循环替换为 pyspark 中的并行进程的相关文章

更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

提供数组作为 devops 管道的参数

我刚刚开始使用天蓝色管道我们希望不再使用arm模板和参数文件手动部署Azure资源而是使用devops管道来完成此任务虽然使用单个模板参数的 json 文件来完成此操作很简单但我看不到处理多个文件的明智方法我已经看到有关使用数组
unity3d 游戏上的 Facebook AppRequest 句柄

我正在尝试使用新的 facebook unity sdk 在 Unity3D 中制作游戏我可以向列表中的朋友发送 AppRequest 但我的疑问是当我的朋友下载了同一个游戏后我如何使用AppRequest与朋友进行交流例如如果我
更改列名称 Rails

我有这张表 class CreateShoes lt ActiveRecord Migration def change create table shoes do t t string name t boolean leather t i
Google App Script postMessage 与收件人窗口的来源不匹配

我有一个 Google App 脚本部署为Web应用程序 https developers google com apps script guides web 它工作正常直到今天晚上我发现它无法在 Firefox 或 Chrome 中加载
用于派生对象列表的 MVC2 Modelbinder

我想要一个与 Asp net MVC 2 中的默认 Modelbinder 一起使用的不同派生对象类型的列表我有以下视图模型 public class ItemFormModel Required ErrorMessage Requi
根据用户的时间设置问候语（早上好，下午好......）

任何人都可以推断如何根据用户的时间设置实现基本的晚上好或早上好也许 PHP 会获取服务器时间但我希望用基于时间的适当问候语来问候网站访问者并考虑到他们一天中的时间 E G 早上好晚上好下午好基于它 getHours 日期对
MySQL Amazon RDS：超出锁定等待超时

在 Mysql Amazon RDS 上当我尝试运行以下 SQL 查询时 UPDATE table1 INNER JOIN table2 USING CommonColumn SET table1 col1 table2 x table1
ChromeCast 无法播放 .m3u8 格式的 HLS

应用程序中集成了 chromecast 一切正常除了不播放 m3u8 格式的实时流媒体 url 而是播放 m3u8 格式的电影 url 我这样做是为了将 url 设置为 chromecast return new MediaInfo Bu
带 firebase 的 Nodemcu(ESP8266)

这是我上传到 ESP8266 以连接到 firebase 的代码 include
已使用不兼容的格式定义属性（此处定义的原始属性）

添加后无法构建项目 compile com android support design 24 2 0 一直报如下错误看起来问题在于支持矢量绘图某处某些属性被添加两次例如构建的values xml文件包含
CKEDITOR.styleSet.add - 'a' 元素的新样式

由于某种原因如果我改变 p to a 它不再出现在样式列表中有什么理由吗 CKEDITOR stylesSet add default name Wys wiersza 1 element p styles line height 18p
YouTube 频道和播放列表 ID 前缀

我注意到正常的频道 ID 有 UC 在开始时自动生成的有 HC 普通播放列表有 PL 但特殊的例如上传或喜爱的视频有 UU and FL 但这不适用于自动生成的频道它们有 LP 这就是我到目前为止所发现的是否有所有这些前缀及其含义的
PHP通知和警告的区别

当编写代码错误时可能会出现警告和通知我知道错误背后的想法我想警告是为了通知您可能导致错误的事情但通知不是完全相同吗我认为通知并不是某件事做得正确的消息这让我有点困惑任何人都可以区分这两者之间的区别以及应该如何处理这些消息通知
java.lang.UnsupportedOperationException：无法解析索引 13 处的属性：TypedValue{t=0x2/d=0x7f010046 a=-1}

我在 android attrs xml 文件中添加了一个用于不同色调的属性在 styles xml 文件中我为这些属性指定了颜色因此每种样式的它们都不同 Attrs xml
在 Facebook 上分享文本和 URL

我想分享一条消息例如查看图片http someUrl com http someUrl com从应用程序共享ABCapp 用户必须能够选择任何已安装的应用程序进行共享我正在使用以下代码 Intent intent new Intent
将所有 Web API 请求路由到一种控制器方法

是否可以自定义 ASP NET Web API 路由机制将所有对 API 的请求路由到一个控制器方法如果请求到达 www mysite com api products or www mysite com api otherResour
如何在 BigQuery 中将列数据拆分为每 6 个字符并形成行

我需要将列数据拆分为每 6 个字符 Input col1 col2 d1 X11 F11 1000KG123456 d2 X22 F22 3500Kabcdefgh Expecting col1 col2 d1 X11 d1 F11 d1
允许出口流量流向单个 IP 地址

我正在编写 Kubernetes 集群的网络策略如何在出口策略中指定要授权的单个 IP 地址而不是授权整个 IP 地址范围一个基于的例子官方文档 https kubernetes io docs concepts services n
MVC6 项目中 jQuery-UI 脚本存储在哪里？

我从 MVC6 开始尝试使用一些 jQuery UI 元素安装包后我找不到 jQuery UI 的脚本文件虽然互联网上的很多教程都告诉我们这些文件应该存储在 Scripts 文件夹中例如 Scripts jquery ui 1 1
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call

将 for 循环替换为 pyspark 中的并行进程

将 for 循环替换为 pyspark 中的并行进程 的相关文章

随机推荐

热门标签

将 for 循环替换为 pyspark 中的并行进程的相关文章