了解 Spark shuffle 溢出

2023-11-21

如果我理解正确的话，当一个reduce任务开始收集它的输入shuffle块（来自不同map任务的输出）时，它首先将它们保存在内存中（Q1）。当执行器的 shuffles 保留内存量（在内存管理更改之前（Q2））耗尽时，内存中的数据将“溢出”到磁盘。如果spark.shuffle.spill.compress为true，那么内存中的数据将以压缩的方式写入磁盘。

我的问题：

Q0：我的理解正确吗？

Q1：reduce任务中收集的数据总是未压缩的吗？

问题 2：如何估计可用于收集 shuffle 块的执行器内存量？

问题 3：我见过这样的说法“当数据集无法容纳在内存中时，就会发生洗牌溢出”，但据我了解，只要洗牌保留的执行程序内存足够大，可以包含其所有（未压缩的）洗牌输入块ACTIVE 任务，则不应发生溢出，对吗？

如果是这样，为了避免溢出，需要确保最终在所有并行归约端任务中的（未压缩的）数据小于执行器的随机保留内存部分？

1.6前后内存管理存在差异。在这两种情况下，都有执行内存和存储内存的概念。不同的是，1.6之前它是静态的。这意味着有一个配置参数指定有多少内存用于执行和存储。当其中任何一个都不够时，就会发生泄漏。

Apache Spark 必须解决的问题之一是并发执行：

并行执行的不同阶段
不同的任务，例如聚合或排序。

我想说你的理解是正确的。
内存中的内容未压缩，否则无法处理。执行内存以块的形式溢出到磁盘，并且正如您提到的可以压缩。
好吧，从1.3.1开始你可以配置它，然后你就知道大小了。至于在任何时刻剩下的内容，您可以通过查看执行程序进程来看到，例如jstat -gcutil <pid> <period>。它可能会告诉您有多少可用内存。了解配置了多少内存用于存储和执行，尽可能少default.parallelism尽可能给你一个线索。
确实如此，但很难推理；数据中可能存在偏差，例如某些键比其他键具有更多值，存在许多并行执行等。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

了解 Spark shuffle 溢出的相关文章

使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision

随机推荐

Python 中的字符串混淆

我有一个必须传递给方法的密码字符串一切正常但我觉得以明文形式存储密码不太舒服有没有办法混淆字符串或真正加密它我知道混淆可以进行逆向工程但我认为我至少应该尝试稍微掩盖密码至少它对于索引程序或快速浏览我的代码的杂散眼来说是不可见的
如何在android项目api 3（android 1.5）中使用Base64（自api 8（2.2）起包含在android中）？

我需要在我的应用程序上使用 Base64 import android util Base64 但是 Base64 包含在 android 2 2 中 api lvl 8 然后当我进行导入时我收到此错误 Base64 无法解析并且不让
每个VST SDK似乎都是针对C++的，那么C#呢？

我想开始制作 VSTi 更具体地说 midi 那些不产生任何声音而只是将 midi 数据输出到其他 vst 插头琶音器和弦工具等的现在我刚刚买了 C 书籍认为这将是一门不错的语言不仅仅是 vst 编程但每个人都一直说 C 是正
如何以编程方式卸载flutter中的应用程序？

我正在 flutter 中构建一个启动器应用程序但我无法添加卸载功能请帮我添加权限在manifest file
清理 SQL 数据

谷歌出现了各种关于清理网络访问查询的讨论但我没有找到任何解决我所关心的问题的内容在 C 程序中清理用户输入数据这必须通过可逆转变来完成而不是通过移除来完成作为问题的一个简单例子我不想破坏爱尔兰名字最好的方法是什么是否有任何库
将图像绘制到面板控件上会在调整大小时产生伪像

目前我正在尝试做我认为简单的任务将图像绘制到整个区域Panel control在 Windows 窗体中请暂时忽略我可以使用BackgroundImage财产要绘制的图像如下所示 IE 一个黄色框周围有 1 像素蓝色框为了绘图我
在 GCC 中编译而不生成输出文件

gcc c somefile c无需链接即可编译并生成相应的somefile o 是否可以编译文件gcc不生成任何输出文件我知道还有其他方法可以实现此目的但我很好奇是否有一个标志专门用于正在经历寻找错误警告的源代码您可能会喜欢 fs
在 Joomla 框架内强制 PHP 下载文件

我有一些 PHP 代码可以在数据库上运行查询将结果保存到 csv 文件然后允许用户下载该文件问题是 csv 文件包含实际 csv 内容周围的页面 HTML 我已经在这里阅读了所有相关问题包括this one 不幸的是我的代码存在
从自定义源（非标准 XML）加载 WCF 配置（针对服务器 + 客户端）

我一直在尝试找到一种方法从备用源而不是标准的 web config app config 加载我的 WCF 服务配置巨大的 XML 配置数据 BLOB 我们在受限环境中运行无法访问服务器的文件系统因此我们无法自己对 WCF 配置进行
升级到 Gradle 5 后 Querydsl 注释处理器问题

我有一个 gradle 脚本它从 Mongo 带注释的实体生成 querydsl 类到目前为止它可以正常工作但是升级到 Gradle 5 后我遇到了一个问题 What went wrong Execution failed for t
“id 无法解析或不是字段”错误？

我不断收到此错误我应该做吗id一个字段我的代码是 public void onCreate Bundle icicle super onCreate icicle setContentView R layout main ImageVi
MySQL 和嵌套集：慢 JOIN（不使用索引）

我有两张桌子地区 CREATE TABLE localities id int 11 NOT NULL AUTO INCREMENT name varchar 100 NOT NULL type varchar 30 NOT NULL p
Winform 启动画面 - VB.NET - 计时器

我的应用程序和该表单上有一个启动屏幕我有一个计时器 Private Sub Splash Load ByVal sender As Object ByVal e As System EventArgs Handles Me Load Sp
symfony2：在控制器操作内部设置表单外部的表单字段的值

我需要设置 symfony2 表单元素的值我使用一个doctrine2实体一个Symfony Component Form AbstractType以及我的控制器操作中的 createForm 方法 saleDataForm this
iphone：如果浮点数为负数，则转换为无符号整数的浮点数将设置为 0？

试试看 volatile float bob 344 0f unsigned int fred unsigned int bob printf d n fred 输出将为 0 显然我希望它能够回绕就像我从一个有符号的 int 转换为一个
如何将 Sql Server 2008 DateTimeOffset 转换为 DateTime

我希望转换一个有DATETIMEOFFSET场下降到DATETIME字段但通过注意偏移量来重新计算时间实际上这将值转换为UTC eg CreatedOn 2008 12 19 17 30 09 0000000 11 00 将被转换为
透明背景

如何让背景50 透明假设 AbsoluteLayout 的背景很暗但您仍然可以看到它您可以将透明主题应用于所需的活动在 res values style xml 中创建新样式
Rails 5.1 中还需要 `require jquery_ujs` 吗？

我正在我的中安装 jQuery5 1 xRails 应用程序通过jquery rails gem 在 gem 设置中他们建议将这些行添加到application js默认情况下 require jquery require jquery
使用 nginx 在同一域上提供 React 前端和 php 后端

我有一个 React 前端和一个 Symfony 后端我试图在同一个域上提供服务 React 前端需要提供资产如果存在否则需要提供回退服务index html 我想在以下情况下提供 php Symfony 应用程序 api位于请求 u
了解 Spark shuffle 溢出

如果我理解正确的话当一个reduce任务开始收集它的输入shuffle块来自不同map任务的输出时它首先将它们保存在内存中 Q1 当执行器的 shuffles 保留内存量在内存管理更改之前 Q2 耗尽时内存中的数据将溢出到磁

了解 Spark shuffle 溢出

了解 Spark shuffle 溢出 的相关文章

随机推荐

热门标签

了解 Spark shuffle 溢出的相关文章