为什么spark.memory.fraction的默认值这么低？

2024-05-27

来自Spark配置文档 https://spark.apache.org/docs/latest/configuration.html#memory-management，我们了解以下有关spark.memory.fraction配置参数：

用于执行和存储的（堆空间 - 300MB）的一部分。该值越低，溢出和缓存数据驱逐发生的频率就越高。此配置的目的是为内部元数据、用户数据结构以及稀疏、异常大的记录的情况下的不精确大小估计留出内存。建议将此值保留为默认值。

在撰写此问题时，此配置参数的默认值为 0.6。这意味着，对于具有 32GB 堆空间和默认配置的执行器，我们有：

300MB保留空间（硬编码值this https://github.com/apache/spark/blob/0e2d604fd33c8236cfa8ae243eeaec42d3176a06/core/src/main/scala/org/apache/spark/memory/UnifiedMemoryManager.scala#L198 line)
(32GB - 300MB) * 0.6 = 19481MB用于执行+存储的共享内存
(32GB - 300MB) * 0.4 = 12987MB用户内存

这个“用户记忆”是（根据docs https://github.com/apache/spark/blob/master/docs/tuning.md#memory-management-overview）用于以下用途：

其余空间 (40%) 保留用于用户数据结构、Spark 中的内部元数据，以及在稀疏和异常大的记录情况下防止 OOM 错误。

在具有 32GB 堆空间的执行器上，我们为此分配 12.7GB 内存，这感觉相当大！

做这些用户数据结构/内部元数据/防止 OOM 错误真的需要那么大的空间吗？是否有一些引人注目的用户内存使用示例可以说明如此大的用户内存区域的需求？

我做了一些研究，我认为它的 0.6 不是为了确保用户内存有足够的内存，而是为了确保执行+存储可以适合 jvm 的旧代区域

在这里我发现了一些有趣的事情：火花调谐 https://spark.apache.org/docs/2.0.0/tuning.html

终身代大小由 JVM 的 NewRatio 控制参数，默认为2，表示终身生成新生代（堆的其余部分）大小的 2 倍。所以，通过默认情况下，tenured Generation 占据 2/3 或大约 0.66 堆。 spark.memory.fraction 的值为 0.6 会保留存储空间并老年代内的执行内存有空闲空间。如果例如，spark.memory.fraction 增加到 0.8，那么 NewRatio 可能必须增加到6个或更多。

因此，默认情况下，在 OpenJvm 中，该比率设置为 2，因此老一代有 0,66%，他们选择使用 0,6 来获得较小的余量

我发现在版本 1.6 中这被更改为 0,75 并且它导致了一些问题，这里是吉拉门票 https://issues.apache.org/jira/browse/SPARK-15796

在描述中，您将找到示例代码，该代码将记录添加到缓存只是为了使用为执行+存储保留的整个内存。将存储+执行设置为比旧一代更高的量时，gc 的开销确实很高，并且在旧版本上执行的代码（此设置等于 0.6）快了 6 倍（40-50 秒 vs 6 分钟）

经过讨论，社区决定在 Spark 2.0 中将其回滚到 0.6，这里是PR https://github.com/apache/spark/pull/13618/files有变化

我认为如果你想提高一点性能，你可以尝试将其更改为 0.66，但如果你想有更多的内存用于执行+存储，你还需要调整你的 jvm 并更改旧/新比率，否则你可能会面临性能问题

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

为什么spark.memory.fraction的默认值这么低？的相关文章

在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
Spark LDA 困境 - 预测和 OOM 问题

我正在评估 Spark 1 6 0 来构建大型数百万个文档数百万个特征数千个主题 LDA 模型并进行预测这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始按照 Java 示例我使用分布式模型 EM 优化器构建了 10
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta

随机推荐

匹配字典集。最优雅的解决方案。 Python

给定两个字典列表新的和旧的字典在两个列表中表示相同的对象我需要找到差异并生成新的字典列表其中仅包含新字典中的对象和旧字典中的更新属性例子 list new id 1 name bob desc cool guy id 2 name
复选框选择与 TableView 绑定

How to bind with TableView selection model with checkbox isSelected in table view In manually using mouse multiple selec
优化 Django Queryset for 循环

如何优化以下查询集 link goal for link in self child links all 我想摆脱 for 循环并只访问数据库一次我有以下代码 class Goal models Model name models Cha
PhoneGap BarcodeScanner - ClassNotFound

UPDATE 2 我发布了一个解决我原来问题的答案看欲了解更多信息 https stackoverflow com a 9541490 398519 UPDATE供任何想知道的人参考最后我发现了这个 http github com co
在ios键盘上方显示建议工具栏

我是iOS开发的新手我正在尝试在 ios 5 1 中创建一个具有 textView 的拼写建议类型应用程序这样如果用户点击键盘的某个键则建议工具栏会出现在键盘顶部其中包含所有建议并且如果用户点击这些建议之一它将显示在 textVi
如何使子元素被访问/活动时父元素的颜色发生变化

我有一个下拉导航我想要做的是当我单击任何子菜单链接时我希望父按钮的颜色在链接处于活动状态时保持更改这是代码的小提琴链接 https jsfiddle net v28ydshL https jsfiddle net v28ydshL
Microsoft.Web.Administration 内存泄漏

拥有一个 Windows 服务除其他外还可以监视 IIS 应用程序池如果任何池已配置应用程序但未运行则该池池将启动这已经运行良好一段时间了最近发现该服务存在内存泄漏查看内存转储罪魁祸首是用于检查应用程序池的 Micros
运行最新版本时没有“最新”消息？

我正在尝试使用Sparkle https sparkle project org与 Qt Go 的绑定 https github com therecipe qt app 闪光 m import
Xcode 11 向后兼容性：“UIWindowScene 仅在 iOS 13 或更高版本中可用”

在 Xcode 11 中我从 Single View App 模板创建了一个新的应用程序项目我希望这个应用程序能够在 iOS 12 和 iOS 13 中运行但是当我将部署目标切换到 iOS 12 时我收到了很多类似这样的错误消息 U
Django + 后台任务如何初始化

我有一个基本的 django 项目用作 Condor 计算集群的前端接口来生成模拟用户可以从 django 应用程序开始模拟在 Condor 中与仿真相关的元数据和仿真状态保存在数据库中我需要添加一个新功能某些模拟完成时发出通
区分 Mifare Ultralight 和 Mifare Ultralight C

有没有可靠的方法来确定 RFID 卡是 Mifare Ultralight 还是 Mifare Ultralight C 到目前为止我发现的唯一方法是利用这两张卡的大小差异发出超出较小卡边界的读取命令但它看起来确实像黑客攻击我认为如
shutdown.exe 参数带有破折号或斜杠？

我使用的电话shutdown exe重新启动安装了不同版本 Windows 的计算机对于 Windows XP 命令是 shutdown exe r f t 01 对于其他版本的 Windows 我使用 shutdown exe L R
内存泄漏在哪里？

我使用 InetAddress 来解析 IP 地址但现在如果 IP 不可用则需要存储主机名所以我介绍了一个班级Host case class Host name String ip InetAddress import Host ad
unique_ptr需要存储删除器怎么可能没有开销呢？

先看看C Primer讲了什么unique ptr and shared ptr 16 1 6 美元效率和灵活性我们可以确定的是shared ptr不将删除者视为直接成员因为删除器的类型直到运行时才知道因为删除器的类型是a类型的一部
KDB 排除具有空值的行

我有一个表其中有一些带有空值的单元格分散在数据集中有什么简单的方法可以排除任何列中包含空值的所有行吗我只是想避免这种情况 select from T where not null col1 not null col2 not nul
关闭模态后清除模态字段

我有这个模式
回形针：从带扩展名的 url 上传

我想通过 S3 存储上的回形针从 URL 上传图片我与 Ruby 1 9 3 Rails 3 2 6 paperclip 3 1 3 aws sdk 1 3 9 我有我的图片模型 class Asset has attached file
ModuleNotFoundError：没有名为“pandas.io.formats.csvs”的模块

我正在尝试创建一个简单的 csv dataframe to csv psv file name encoding utf 8 header True sep doublequote True quoting csv QUOTE ALL in
beforeRouteUpdate 和观看 '$route' - Vue.js 之间的区别？

正如我们所知为了对我们使用的同一组件中的参数变化做出反应beforeRouteUpdate挂钩或观看 route 观看 route const User template watch route to from react to rout
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于

为什么spark.memory.fraction的默认值这么低？

为什么spark.memory.fraction的默认值这么低？ 的相关文章

随机推荐

热门标签

为什么spark.memory.fraction的默认值这么低？的相关文章