对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

2024-05-10

我在读高性能火花作者提出以下主张：

虽然 Catalyst 优化器非常强大，但它目前遇到挑战的情况之一是非常大的查询计划。这些查询计划往往是迭代算法的结果，例如图算法或机器学习算法。一个简单的解决方法是将数据转换为 RDD，并在每次迭代结束时转换回 DataFrame/Dataset，如例 3-58 所示。

示例 3-58 被标记为“通过 RDD 进行往返以削减查询计划”，并复制如下：

val rdd = df.rdd
rdd.cache()
sqlCtx.createDataFrame(rdd. df.schema)

有谁知道需要此解决方法的根本原因是什么？

作为参考，已针对此问题提交了错误报告，可通过以下链接获取：https://issues.apache.org/jira/browse/SPARK-13346 https://issues.apache.org/jira/browse/SPARK-13346

似乎没有解决办法，但维护者已经关闭了这个问题，并且似乎不认为他们需要解决它。

根据我的理解，迭代算法的谱系不断增长，即

步骤1：读取DF1、DF2

步骤2：根据DF2值更新DF1

步骤3：读取DF3

步骤4：根据DF3值更新DF1

..etc..

在这种情况下，DF1 谱系不断增长，除非使用 DF1.rdd 截断它，否则它将在 20 次左右的迭代后使驱动程序崩溃。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

RDD

catalystoptimizer

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势的相关文章

通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定

随机推荐

键入时将编辑文本中的每个单词大写

我想在打字时将编辑文本中的每个单词大写 My XML
如何捕获 Symfony2/Silex 中的错误和异常？

我想在我的 Silex 应用程序中捕获错误和异常将它们包装在始终返回给客户端的自定义 JSON 响应中我发现了三种基本方法 app gt error Symfony Component Debug ErrorHandler regist
AlarmManager setInexactRepeating、setWindow、setRepeating 方法在工作日内循环调用时不会触发警报

要求我需要在一周中选定的几天以及警报开始的日期发出警报例如我想从 2017 年 5 月 26 日开始在每周的周五和周六下午 6 45 发出警报问题广播接收器onReceive AlarmManager 时方法不执行setInex
什么是标记结构初始化语法？

struct file operations scull fops owner THIS MODULE llseek scull llseek read scull read write scull write ioctl scull io
Django 教程：完成第一页后出现无法解释的 404 错误

我完成了https docs djangoproject com en 1 9 intro tutorial01 https docs djangoproject com en 1 9 intro tutorial01 预期的行为有效我的
从 str 转换为 float 时保持尾随 0

将带有尾随零的数字从字符串转换为浮点数时遇到以下问题 a 1 100 string a str a float a float string a float a 1 1 有没有办法将 str 转换为 float 同时保留末尾的尾随 0 首先
java.rmi.NoSuchObjectException：表中没有这样的对象

我正在编写一个非常简单的 RMI 服务器并且我看到间歇性的java rmi NoSuchObjectExceptions在单元测试中我对同一个对象进行了一串远程方法调用虽然前几个调用成功但后面的调用有时会失败我没有做任何事情来取消
Powershell 错误：方法调用...不包含名为“replace”的方法

我想使用 PowerShell 搜索并替换 xml 文件中的字符串我试过这个 gc d test xml replace 1234 xxxx sc d test xml 这对于我的 test xml 文件效果很好我的 test xml
Python tkinter ttk 主题是否基于操作系统可用

我正在使用 Python 3 5 2tkinter ttk用于在 Linux Ubuntu 16 04 上开发简单 GUI 实用程序的模块我的ttk version 0 3 1 有四种可用的小部件主题 clam alt classic d
如何在 WPF 数据网格中一起选择所有复选框

我的 wpf 数据网格是
Magento：我可以在哪个文件夹中看到我安装的扩展？

我在 magento 1 5 中安装了一个扩展只是想知道它在我的服务器上的位置因为我想向它写入一个包含文件谢谢通常在 MagentoFolder app code community SomeCompanyName SomePack
对模板之一的 observableArray 进行排序

我有以下视图模型 function instance id FirstName extend this id ko observable id FirstName ko observable FirstName 我在 observableA
django.db.utils.IntegrityError：NOT NULL 约束失败

我正在尝试为我的网站构建自定义注册因此我使用配置文件模型进行注册追溯 Traceback most recent call last File C Python36 lib site packages django core handl
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
无法将 iTextSharp 与 ASP.NET 5 Core 一起使用

我正在尝试将 iTextSharp 与 ASP NET 5 Core 一起使用但是当我尝试使用 iTextSharp 5 5 5 构建 ASP NET 应用程序时出现这些错误 Code using Microsoft AspNet M
方法调用 mActionBar=getActionBar() 给出错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用支持库android support v7 app actionbar因为我想要操作栏API 级别 8以上但是下面的句子给了我
频域和空间域的汉明滤波器

我想通过在 MATLAB 中应用汉明滤波器来消除一维信号中的吉布斯伪影我所拥有的是k1这是频域中的信号我可以通过应用 DFT 来获取时域信号k1 s1 ifft ifftshift k1 该信号具有吉布斯伪影现在我想通过 A 乘以汉
static 和 volatile 关键字的顺序重要吗？

volatile static int i and static volatile int i 两者有什么区别编译器如何看待这一点顺序无关紧要 static是存储时间 6 2 4 对象的存储时长 3 一个标识符为的对象用外部或内部声明
如何让 mysql 输出 DateTime 到儒略日数？

基本上我正在使用用于 Ruby 的 MySQL gem http www tmtm org en mysql ruby 并且我对日期比较没有合理的支持这Mysql Time类只为我提供了访问器方法如年月秒等如果我可以将其转换为 R
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势 的相关文章

随机推荐

热门标签

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势的相关文章