Spark 客户端模式 - YARN 为驱动程序分配容器？

2023-12-25

我在客户端模式下在 YARN 上运行 Spark，因此我希望 YARN 仅为执行器分配容器。然而，从我所看到的来看，似乎还为驱动程序分配了一个容器，并且我没有得到与预期一样多的执行程序。

我正在主节点上运行 Spark Submit。参数如下：

sudo spark-submit --class ... \
    --conf spark.master=yarn \
    --conf spark.submit.deployMode=client \
    --conf spark.yarn.am.cores=2 \
    --conf spark.yarn.am.memory=8G  \
    --conf spark.executor.instances=5 \
    --conf spark.executor.cores=3 \
    --conf spark.executor.memory=10G \
    --conf spark.dynamicAllocation.enabled=false \

运行此应用程序时，Spark UI 的 Executors 页面显示 1 个驱动程序和 4 个执行程序（总共 5 个条目）。我预计有 5 个执行者，而不是 4 个。同时，YARN UI 的 Nodes 选项卡显示在实际未使用的节点上（至少根据 Spark UI 的 Executors 页面...）分配了一个容器，使用 9GB 内存。其余节点上运行有容器，每个容器有 11GB 内存。

因为在我的 Spark Submit 中，驱动程序的内存比执行程序少 2GB，所以我认为 YARN 分配的 9GB 容器是为驱动程序分配的。

为什么要分配这个额外的容器？我怎样才能防止这种情况？

火花用户界面：

YARN UI:

Igor Dvorzhak 回答后更新

我错误地假设 AM 将在主节点上运行，并且它将包含驱动程序应用程序（因此设置 spark.yarn.am.* 设置将与驱动程序进程相关）。

所以我做了以下更改：

set the spark.yarn.am.*设置为默认值（512m内存，1核）
通过设置驱动程序内存spark.driver.memory to 8g
根本没有尝试设置驱动程序核心，因为它仅对集群模式有效

由于默认设置下的 AM 占用 512m + 384m 的开销，因此其容器适合工作节点上空闲的 1GB 可用内存。 Spark 获取它请求的 5 个执行程序，并且驱动程序内存适合 8g 设置。现在一切都按预期进行。

火花用户界面：

YARN UI:

额外的集装箱被分配给YARN应用大师 https://spark.apache.org/docs/latest/running-on-yarn.html#launching-spark-on-yarn:

在客户端模式下，驱动程序运行在客户端进程中，并且应用大师仅用于向 YARN 请求资源。

即使在客户端模式下驱动程序在客户端进程中运行，YARN application master 仍然在 YARN 上运行并且需要容器分配。

无法阻止 YARN 应用程序主机的容器分配。

作为参考，之前问过类似的问题：Spark 和 Yarn 的资源分配 https://stackoverflow.com/questions/51080595/resource-allocation-with-spark-and-yarn.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hadoopyarn

Spark 客户端模式 - YARN 为驱动程序分配容器？的相关文章

Spark LDA 困境 - 预测和 OOM 问题

我正在评估 Spark 1 6 0 来构建大型数百万个文档数百万个特征数千个主题 LDA 模型并进行预测这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始按照 Java 示例我使用分布式模型 EM 优化器构建了 10
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus

随机推荐

LVM2：无法创建块设备

我正在尝试利用LVM2Linux Centos6 0 中的功能当尝试在特定块设备上定义 PV 的第一步时我收到以下错误消息 root localhost pvcreate dev sdb 无法以独占方式打开 dev sdb 挂载的文件系
由于 Keycloak 默认登录重定向而导致混合内容错误

所需信息我在 Spring 项目后面使用 Keycloak Docker 版本该项目的客户端是React 客户端和后端之间的通信由REST服务提供客户端是安全的并使用 https 方案这是我的 Spring 配置 keycloak
将空值添加到 ASP.net MVC 中的 DropDownList

我正在构建一个数据输入界面并已使用 DropDownList 成功绑定了具有数据参考表的列以便用户从预配置的值中进行选择我现在的问题是我不希望默认选择第一个值我需要强制用户从列表中选择一个值以避免出现错误因为他们没有选择该字段
CodeIgniter 负载控制器视图

有没有办法从视图加载控制器这就是我所追求的我想多次使用一个视图但该视图是由单独的控制器加载的该控制器提供视图和来自数据库的信息因此由于来自模型的信息我不能只设置 this load gt view 等等有没有办法做这件事或
JNI 在应用程序中检测到错误：调用 JNI GetMethodID 时出现未决异常 java.lang.ClassNotFoundException：未找到类

我收到以下错误 JNI 在应用程序中检测到错误调用 JNI GetMethodID 时出现未决异常 java lang ClassNotFoundException 在路径上找不到类 package name class DexPathL
HTTPS 的代理 Servlet

我有一个安全站点需要在某些页面上显示来自外部非 https URL 的图像我想创建一个 servlet 仅用作将图像数据传递到页面的代理一种方法是使用 Apache 的 HttpClient 下载图像数据然后使用 IOUtils c
a href=javascript:function() 在 Firefox 中不起作用

我尝试使用a href javascript function 在一个按钮中并带有执行它的函数它在 Chrome 中工作但在 Firefox 中不起作用 Firefox 不会发出警报并打开空白选项卡有人可以帮助我吗下面是按钮代码
Eclipse + Egit：将项目克隆到工作区

我对它是如何工作的有点困惑我在 Github 上有一个现有的 git 存储库并且想将其克隆到我的工作区中我的目标是将本地存储库直接存储在我的工作区文件夹中但我无法将其与 EGit 一起使用当我想使用 EGit 克隆 github
如何用 Jest 模拟/替换对象的 getter 函数？

在Sinon我可以做以下事情 var myObj prop foo sinon stub myObj prop get function getterFn return bar myObj prop bar 但我怎样才能对 Jest 做同样
究竟什么是“执着无明”？

持久性无知通常被定义为持久和检索标准 NET 对象或 POCO 如果您确实坚持给它们命名的能力还有一个标准 NET 对象的定义似乎已被广泛接受 http msdn microsoft com en us magazine dd8825
在javascript中获取div位置（顶部）？

我使用 css 设置了一个 div 的高度top 26px 我在其他地方还有其他 div 我想与该 div 保持一致我注意到jquery写作 css top 获取我的 css 而不是 div 的 y 坐标如何使用 javascript
Hibernate 不等于示例标准

Hibernate 有示例标准例如 Example equal Example create mydbObject 有没有办法反其道而行之例如 Example notEqual Example createNotEqual mydbOb
如何在 SBT 中刷新更新的 Git 依赖项？

我已经配置了 SBT 0 11 0 以将 GitHub 项目作为依赖项拉入按照我的回答这个问题在这里 https stackoverflow com questions 7550376 how can sbt pull dependenc
在AWS CDK中执行代码之前如何等待堆栈完成？

我正在尝试 AWS CDK 但当我尝试执行依赖于堆栈完成的代码块时我陷入了困境这是我当前的代码 class Application extends cdk Construct constructor scope cdk Construc
如何编写一个函数来比较多组布尔（真/假）答案并对其进行排名？

我已经开始了一个项目事实证明它比我最初想象的要复杂得多我正在尝试规划一个基于布尔真假问题和答案的系统系统上的用户可以回答大量布尔真假问题中的任何问题并根据他们的答案看到一个显示最相似用户按相似度顺序排列的列表我在谷
静态容器已经有一个与之关联的内核

部署到 Azure 时出现与 Ninject 相关的错误 The static container already has a kernel associated with it 但在本地运行良好而且之前它一直在本地和 Azure 上运行
Python 中的 Webdriver 屏幕截图

使用python在windows上使用Selenium Webdriver进行屏幕截图时屏幕截图直接保存到程序的路径中有没有办法将 png文件保存到特定目录 Use driver save screenshot path to file
允许用户选择图像的相机或图库

我想做的事情看起来很简单但经过几天的搜索我不太明白我有一个应用程序允许用户选择多个最多 5 个图像我正在使用一个ImageView 当用户点击ImageView 我想让他们选择从图库中选择图像或使用相机捕捉图像我开始使
拉伸div以填充body

div style height 20px background color red div div style background color black div div style height 20px background col
Spark 客户端模式 - YARN 为驱动程序分配容器？

我在客户端模式下在 YARN 上运行 Spark 因此我希望 YARN 仅为执行器分配容器然而从我所看到的来看似乎还为驱动程序分配了一个容器并且我没有得到与预期一样多的执行程序我正在主节点上运行 Spark Submit 参数如下

Spark 客户端模式 - YARN 为驱动程序分配容器？

Igor Dvorzhak 回答后更新

Spark 客户端模式 - YARN 为驱动程序分配容器？ 的相关文章

随机推荐

热门标签

Spark 客户端模式 - YARN 为驱动程序分配容器？的相关文章