Pyspark 性能：dataframe.collect() 非常慢

2024-01-22

当我尝试在数据帧上进行收集时，似乎花费了太长时间。

我想从数据框中收集数据，将其转换为字典并将其插入到 documentdb 中。但是执行day_rows.collect()时性能似乎很慢

day_rows = self._sc.sql("select * from table")

rows_collect = []

if day_rows.count():
    rows_collect = day_rows.collect()

results = map(lambda row: row.asDict(), rows_collect)

为什么性能慢？

在 .collect() 之前缓存您的数据帧。这将使性能大幅提高。

df.persist() 或 df.cache()

一旦使用完毕，您就可以随时取消坚持。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

Pyspark 性能：dataframe.collect() 非常慢的相关文章

更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user

随机推荐

rCharts-如何向 NVD3 图表添加轴标签和标题

我正在探索 reCharts 我在向 Y 轴和标题添加标签时陷入困境我是 rCharts 新手这是我的示例代码 require rCharts n2 lt nPlot Hours Month group Task data cars t
jquery 的 $.ajax 中从 url 参数中删除附加 url 的方法

我正在使用 cakephp 并想使用jQuery ajax发布到我的服务器问题是 jQuery 的 ajax附加协议和主机名但还包括当前控制器因此我无法更改我粘贴的控制器有没有办法改变 url 参数 ajax 这是我的示例邮政编码
这个程序如何运作？

include
Silverlight 3 和 Silverlight 4 条件 xaml

我现在正在开发一个必须分离项目文件的项目一个符合 Silverlight 3 另一个符合 Silverlight 4 该项目创建了一个在其他几个项目中使用的用户控件不幸的是其中一个处于 SL3 状态现在无法升级这就是为什么需要 S
将目录迁移到不同的 svn 存储库

我在 svn 存储库中有代码将其称为存储库 A 现在假设我需要将内容移动到存储库 B 但存储库 B 已经对其他项目处于活动状态一段时间了是否可以将特定目录从存储库 A 移动到存储库 B 同时保留文件历史记录通常要将整个存储库迁移到新
MapView 显示在灰色瓷砖地图中未显示在 android google api 2.3.3 中

您好我正在开发一个地图视图我尝试遵循以下方式我通过单击按钮创建了一个意图添加权限和库我创建了一个覆盖项目我的模拟器的目标是GoogleApi 2 3 3 我的MapView密钥已获取并分配到mapview xml中我看到底部
Eclipse：快速搜索文件名

在 Eclipse 中工作时我经常意识到我记得类名但忘记了该类在哪个包中使用搜索不是很方便点击和按键次数过多我想知道有没有一个插件可以简化这个过程例如如果包资源管理器顶部有一个文本编辑框可以根据输入的文本过滤显示包和 ja
确定 1 到 0 转换之间的时间

我的表格显示泵的开关状态如下 Value timestamp 1 2013 09 01 00 05 41 987 0 2013 09 01 00 05 48 987 1 2013 09 01 00 05 59 987 0 2013 09
使用reduce进行分组和求和

我想返回一个按团队分组的数组其中包含 gp 胜利失败的总和我试图通过减少来实现这一点但是总数并没有相加这是我的代码 const myArr team Red gp 3 win 2 loss 1 team Black gp 3 wi
Cordova/Phonegap 社交共享

我正在寻找一种简单的解决方案用于在 cordova phonegap 应用程序内部共享我希望添加 Facebook Twitter 和电子邮件共享就像这个应用程序一样 http itunes apple com us app mars
在 Yii 中设置默认时区

我正在使用以下时区配置配置文件 timeZone gt UTC 它工作正常所有日期都根据以下内容存储在数据库中UTC 现在每个用户在他她的个人资料中都有自己的时区例如UTC 5 UTC 5 UTC 0 etc 现在我如何根据用户时区在
我如何知道使用 Azure 存储的代码是否会受到 2015 年 12 月即将删除的 API 版本的影响？ [复制]

这个问题在这里已经有答案了我有一个来自微软的电子邮件 http aka ms Qga48e据说较低版本的存储服务将于 2015 年 12 月被删除我们的应用程序使用 Azure SDK 1 8 和 2 0 我们如何确定我们是否受到此更改
如何创建一个android自动启动应用程序？

如何创建一个安卓自动启动应用程序我的应用程序显示特殊日期通知并且它必须自动启动 tnx 您可以使用报警管理器 http developer android com reference android app AlarmManager h
如何使屏幕上的按钮水平和垂直居中且等距？

我已经绞尽脑汁这里是android新手所以不难做到有一段时间试图找出如何实现这一点使用RelativeLayout或AbsoluteLayout以外的东西来创建它我有 Windows 编程背景其中设备会为您调整绝对定位并且
哈希集与树集

我一直很喜欢树真好O n log n 以及它们的整洁然而我认识的每一位软件工程师都尖锐地问我为什么要使用TreeSet 从 CS 背景来看我认为你使用什么并不重要而且我不喜欢乱搞哈希函数和存储桶在这种情况下 Java 在什么情况
REDCap 自动填充早期记录中的字段

我想用早期记录中该字段中插入的内容填充下拉菜单不带管道的形式具体来说我有一个名为杂志如果之前有人记录过日记代谢组学我希望它出现在下拉菜单或类似的菜单中如果日记是新的我会添加一个文本字段可以在其中添加新日记感谢您的帮
kotlin 嵌套线程 - “此范围内有多个具有此类名称的标签”

我有一些与此类似的 kotlin 代码 Thread Thread return Thread start start 现在我收到以下警告我知道 kotlin 对于此时要返回哪个线程感到困惑无论是外线程还是内线程但我不知道如何告诉它
如何查找哪些对象产生的垃圾最多

我的应用程序包含 80 个不同类的大约 80 个实例这些类的某些子集生成的垃圾量是不可接受的并且停止世界的暂停时间太长因为我的应用程序是实时的我想找到的是哪些类负责创建最大的number堆上对象的数量不是聚合大小而是对象的原始数
Automapper：映射到受保护的财产

我需要映射到protected使用类的属性Automapper 我有一个public此类上公开的方法用于设置属性的值该方法需要一个parameter 如何将值映射到此类目的地舱位 public class Policy private
Pyspark 性能：dataframe.collect() 非常慢

当我尝试在数据帧上进行收集时似乎花费了太长时间我想从数据框中收集数据将其转换为字典并将其插入到 documentdb 中但是执行day rows collect 时性能似乎很慢 day rows self sc sql select

Pyspark 性能：dataframe.collect() 非常慢

Pyspark 性能：dataframe.collect() 非常慢 的相关文章

随机推荐

热门标签

Pyspark 性能：dataframe.collect() 非常慢的相关文章