Apache Hadoop Yarn - 核心利用率不足

2024-04-06

无论我如何修改设置yarn-site.xml即使用以下所有选项

yarn.scheduler.minimum-allocation-vcores
yarn.nodemanager.resource.memory-mb
yarn.nodemanager.resource.cpu-vcores
yarn.scheduler.maximum-allocation-mb
yarn.scheduler.maximum-allocation-vcores

我仍然无法让我的应用程序（即 Spark）利用集群上的所有核心。 Spark 执行器似乎正确地占用了所有可用内存，但每个执行器只占用一个核心，不再占用更多内存。

以下是配置的选项spark-defaults.conf

spark.executor.cores                    3
spark.executor.memory                   5100m
spark.yarn.executor.memoryOverhead      800
spark.driver.memory                     2g
spark.yarn.driver.memoryOverhead        400
spark.executor.instances                28
spark.reducer.maxMbInFlight             120
spark.shuffle.file.buffer.kb            200

请注意spark.executor.cores设置为3，但是不起作用。我该如何解决？

问题不在于yarn-site.xml or spark-defaults.conf但实际上使用资源计算器将核心分配给执行器，或者在 MapReduce 作业的情况下，分配给 Mappers/Reducer。

默认资源计算器，即org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator仅使用内存信息来分配容器，默认情况下不启用CPU调度。要同时使用内存和 CPU，资源计算器需要更改为org.apache.hadoop.yarn.util.resource.DominantResourceCalculator in the capacity-scheduler.xml file.

这是需要改变的地方。

<property>
    <name>yarn.scheduler.capacity.resource-calculator</name>
    <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value>
</property>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Hadoop Yarn - 核心利用率不足的相关文章

在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a

随机推荐

TCP 服务器的 GCP 计算引擎防火墙规则

我创建了一个具有静态外部 IP 地址的 GCP 计算引擎实例机器类型 n1 standard 2 2 个 vCPU 7 5 GB 内存操作系统是Linux Debian 我的目的是在机器上创建一个普通的 Node js TCP 服务器
如何在 Jenkinsfile 中设置 github pull request 构建？

所以我已经使用 Jenkins 有一段时间了我已经使用 Github Pull Request Builder 插件设置了许多项目以便在有人打开拉取请求时运行测试然后在拉取请求实际合并到 master 时触发一些其他作业构建推送
Atomikos 事务日志 com.atomikos.icatch.enable_logging=false

我想了解如果我设置分布式事务功能是否适用于我的应用程序com atomikos icatch enable logging false 我是否正确理解事务恢复与发生崩溃的情况相关并且我们希望完全重新启动同一事务恢复是否在同一个分布式事务
直接执行自定义SQL时django-mssql中查询超时过期

我正在查询一个视图该视图将返回大量数据并且需要 1 分钟以上才能完成我正在使用 django db connection cursor 执行查询因为这不是我的默认数据库 30 秒后我收到异常查询超时已过期我认为 30 秒是 d
ARC 中的系统对象委托是否需要设置为 nil？

应用程序有时会因错误而崩溃objc object release 苹果开发者技术支持提到了这一点请记住您应该始终执行类似 tableView delegate 的操作零在你的 dealloc 方法中即使你使用的是 ARC 出于兼容
使用 Http/2 从 javascript 进行 api 调用

我知道大多数浏览器支持 http 2 来加载页面但这是否意味着我在使用 XmlHttpRequest 进行 api 调用时可以利用它更具体地说我的问题是如果我使用 XmlHttpRequest 进行 2 次调用来获取数据是否可以确
Flutter 中 GridView.count 与 GridView.builder 的区别

有什么区别gridview builder and gridview count在颤振中和其他任何人一样 builder GridView builder https api flutter dev flutter widgets Gri
React Select：传入自定义渲染使用的额外数据

我正在使用反应选择目前我正在从elasticsearch中获取数据并将其设置为 var new titles body hits hits forEach function obj looping through elasticsearc
Silverlight 4.0 的最佳 Jpeg 编码器

我想将 Writablebitmap 转换为 Jpeg 流看起来没有平台支持而且我在网上看到了一堆开源编码器库我想听听您的意见就性能和性能而言推荐哪个可靠性我取得了很好的经验FJCore http code google com
汇集估算数据集的 glmers

问题我有一个数据集其中缺少一些预测变量值我想要池glmer已应用于这些插补集的模型一起我正在使用mice包来创建插补我也使用过amelia and mi也没有成功我想主要提取固定效应使用pool mouse 包中的函数返回错误
如何在本机反应中显示隐藏的导航栏

我在本机反应中使用 NavigatorIOS 时遇到麻烦
如何使用带有响应式 UI 的 Xamarin Android 将数据绑定到自定义 ListView

我正在使用带有响应式 UI 的 Xamarin Android 而不是使用 Xamarin Forms 我有一个自定义 ListView 我已将其布局定义为 xaml 我不知道如何将此控件绑定到 ViewModel 中的 observabl
哪些平台不在 type_info op== 中使用字符串比较？

这是一个典型的实现type info operator if PLATFORM SUPPORTS UNIQUE TYPEINFO bool operator const type info rhs const return mangled
在应用程序购买中验证

我正在构建一个 iPhone 应用程序该应用程序应该通过应用程序内购买处理订阅当我在应用程序中从 Apple 收到收据时我想将收据保存在我自己的服务器上并且在我的服务器上我还想通过 Apple 服务器验证收据与我的服务器建立连接非
将整数变量传递给任务而不丢失整数类型

我有一个我不拥有的任务实际上是一个角色但在这里使用任务是为了使示例更容易它对变量进行一些操作它假设变量是整数我需要以某种方式向它传递一个变量并将其作为 int 传递但我没有任何运气这是我不拥有的任务的超级简化版本 frob y
信息堆大小

我可以从以下网站获得哪些信息performance memoryChrome 中的对象这些数字意味着什么它们是kb还是字符我可以从这些数字中了解到什么示例值performance memory MemoryInfo jsHeapSi
为什么这个正则表达式在 Java 中不能按预期工作？

简单的正则表达式问题答案很可能是 Java 特定的 This is a comment in a file matches 这会返回 false 据我所知意味着它总是意味着什么没有什么特殊意义所以我就翻译一下作为字符串开头的哪
如何在 Linux 上用 C++ 播放或录制音频（以 .WAV 格式）？

你好我一直在寻找一种方法play and recordLinux 最好是 Ubuntu 系统上的音频我目前正在开发一个前端语音识别工具包 https www launchpad net cmusphinx train这将自动执行调整语音
ASP.NET MVC 4 / Web API - 为接受插入 Razor 渲染器：text/html

我正在使用 ASP NET MVC 4 Web API 创建 RESTful Web 服务对于 API 访问我返回 JSON 但一旦一切正常工作内容协商应该默认适用于 XML 和 JSON 由于我正在致力于实现真正的 RESTful
Apache Hadoop Yarn - 核心利用率不足

无论我如何修改设置yarn site xml即使用以下所有选项 yarn scheduler minimum allocation vcores yarn nodemanager resource memory mb yarn nodema

Apache Hadoop Yarn - 核心利用率不足

Apache Hadoop Yarn - 核心利用率不足 的相关文章

随机推荐

热门标签

Apache Hadoop Yarn - 核心利用率不足的相关文章