如何优化 Apache Spark 应用程序中的 shuffle 溢出

2024-02-25

我正在运行一个有 2 个工作人员的 Spark 流应用程序。应用程序具有连接和并集操作。

所有批次均已成功完成，但注意到 shuffle 溢出指标与输入数据大小或输出数据大小不一致（溢出内存超过 20 倍）。

Please find the spark stage details in the below image: enter image description here

经过对此进行研究后发现

当没有足够的内存用于随机数据时，就会发生随机溢出。

Shuffle spill (memory)- 溢出时内存中数据的反序列化形式的大小

shuffle spill (disk)- 溢出后磁盘上数据的序列化形式的大小

由于反序列化数据比序列化数据占用更多空间。所以，Shuffle 溢出（内存）比较多。

注意到这个输入数据量很大时，溢出内存大小非常大.

我的疑问是：

这种溢出是否会严重影响性能？

如何优化内存和磁盘的溢出？

是否有任何 Spark 属性可以减少/控制这种巨大的泄漏？

学习 Spark 性能调优需要大量的调查和学习。有一些很好的资源，包括这个视频 https://youtu.be/7ooZ4S7Ay6Y。 Spark 1.4 在界面中提供了一些更好的诊断和可视化功能，可以为您提供帮助。

总之，当阶段结束时 RDD 分区的大小超过 shuffle 缓冲区的可用内存量时，就会发生溢出。

You can:

手动repartition()您的前一阶段，以便您从输入中获得更小的分区。
通过增加执行程序进程中的内存来增加洗牌缓冲区（spark.executor.memory)
通过增加分配给它的执行程序内存的比例来增加洗牌缓冲区（spark.shuffle.memoryFraction) 从默认值 0.2 开始。你需要回馈spark.storage.memoryFraction.
通过减少工作线程的比例来增加每个线程的洗牌缓冲区（SPARK_WORKER_CORES) 到执行器内存

如果有专家聆听，我很想了解更多有关 memoryFraction 设置如何交互及其合理范围的信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

apachespark14

如何优化 Apache Spark 应用程序中的 shuffle 溢出的相关文章

在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag

随机推荐

为什么 Angular.js 使用 ng-change 如此频繁地调用我的函数以及如何让它每次更改只调用一次？

在学习了许多教程之后我正在构建我的第一个合适的 angular js 应用程序我遇到了一个问题ngChange指示每次用户更改下拉列表的值时我都尝试使用它来调用函数我发现它在页面加载时多次调用该函数并且每次选择该选项时也会多次调
如何像 Evernote Clipper 那样检测主文章标签

When I tried with Evernote clipper extension https chrome google com webstore detail evernote web clipper pioclpoplcdbae
BitmapFactory.decodeResource 和 BitmapFactory.decodeStream 之间的差异

我有一个 if else 场景其中 if path 使用以下代码 BitmapFactory Options options new BitmapFactory Options options inScaled false options
编译时错误：“main”的多重定义

我收到以下错误 main 的多重定义我创建了一个新项目里面有两个c 文件 File 1 include
SQL 查询帮助 - 每个不同列值 10 条记录

我有一个包含汽车列表的汽车表表结构看起来像 cars id title make year 我想要一个返回每个品牌 10 辆汽车的查询相当于以下伪代码 car makes select distinct make from cars f
在播放时预加载 html5 音频

对于 HTML5 音频假设您有一个要播放的两首歌曲的列表目前我已将其设置为当当前歌曲停止播放时它会加载新歌曲并播放它我希望它能够在当前歌曲结束时加载下一首歌曲也许在当前歌曲结束前 20 秒我尝试在播放歌曲时更改音频对象的 src
确定客户端绑定的 TCP 端口号

我创建了一个 TCP 套接字而不关心要绑定到 socket sin port 0 的端口号但是稍后如果我想打印客户端的端口号我该怎么做客户端 C 应用程序在 Linux 上创建许多连接到服务器的客户端为了调试问题我捕获了 et
如何在 Groovy 中将 String 转换为 GString 并替换占位符？

我想从数据库读取字符串并通过将其转换为 GString 来替换占位符我可以用 Eval 来做这个吗还有其他想法吗 String stringFromDatabase Hello name String name world assert
使用负数缩放值范围

如果一组值包含负数如何缩放它们以适应新的范围例如我有一组数字 10 9 1 4 10 它们必须缩放到范围 0 1 这样 10 映射到 0 10 映射到 1 任意数字 x 的常规方法是 x from min to max to min
如何使用 Init() 方法在 LibGDX 中重新启动屏幕？

我在 LibGDX 中创建了一个具有多个屏幕的简单游戏我想在触摸重启按钮后重新启动某个屏幕但我不知道该怎么做我对此做了一些研究所有答案都导致不在 show 中加载我的资产而是在我不太熟悉的 init 方法中加载我想知道如何使用这
如何在Java Springboot中使用jdbcTemplate将整数数组插入postgresql表？

我在将整数数组插入 Postgresql 表时遇到问题该怎么办 String sql INSERT INTO draw result id ball numbers balls with mega ball draw dates mega
在一个查询中从三个表获取数据

我试图同时从三个表中检索数据这些表格看起来像类别 id category messageid messages id title message comments id messageid message 我想要得到的是 1 条消息因
VBA 和 IE8 - 输入值并搜索

我在工作中有一个基于 Intranet 的网站我想输入 SKU 并使用 VBA 和 IE8 将出现的数据抓取到 Excel 工作表中目前正在等待访问许可证批准和批准才能访问我们的 IBM as400 服务器 IE8不支持getEleme
如何在heroku中显示来自node.js的所有console.log？

我已将 Node js 应用程序部署到 Node js 但无法从我的应用程序中看到完整的 console log 语句我在用 heroku logs 显示了一些日志记录但看起来不是完整的日志是否有一个 node js 包可以从已部署的
未添加 WordPress 过滤器

我有一个使用的插件apply filters像这样 additional fields apply filters attachment meta add fields additional fields 在我的主题中functions p
从 Clojure 中的数据结构实现细节中抽象出来

我正在 Clojure 中开发一个具有多个子结构的复杂数据结构我知道我会想要随着时间的推移扩展这个结构并且有时可能想要更改内部结构而不破坏数据结构的不同用户例如我可能想将向量更改为哈希图添加某种索引出于性能原因的结构或合并 Jav
Bootstrap Carousel - 如何在幻灯片之间缓慢淡入淡出

我正在使用最新的 Bootstrap Carousel 需要在幻灯片之间缓慢淡出大约 5 秒我看过很多例子并尝试实现这个one https stackoverflow com questions 27861435 bootstrap
比较和对比 REST 和 SOAP Web 服务？ [复制]

这个问题在这里已经有答案了我目前发现类似的情况都是使用互联网协议 HTTP 在消费者和提供商之间交换数据区别在于 SOAP是一种基于XML的消息协议而REST是一种架构风格 SOAP 使用 WSDL 进行消费者和提供者之间的通信而
Flutter 使用 Hero 在 Custom Painter 之间转换

想要我想要您好我想在我的应用程序中实现一个基于头脑风暴应用程序的功能我做什么这是我的申请我有一个轮子它是第一页当我单击其中一个球时它会打开并显示第二页我的问题我不知道如何像示例应用程序那样为过渡设置动画我必须使用
如何优化 Apache Spark 应用程序中的 shuffle 溢出

我正在运行一个有 2 个工作人员的 Spark 流应用程序应用程序具有连接和并集操作所有批次均已成功完成但注意到 shuffle 溢出指标与输入数据大小或输出数据大小不一致溢出内存超过 20 倍 Please find the sp

如何优化 Apache Spark 应用程序中的 shuffle 溢出

如何优化 Apache Spark 应用程序中的 shuffle 溢出 的相关文章

随机推荐

热门标签

如何优化 Apache Spark 应用程序中的 shuffle 溢出的相关文章