如何更改 apache Spark Worker 每个节点的内存

2024-04-23

我正在配置 Apache Spark 集群。

当我运行具有 1 个主服务器和 3 个从服务器的集群时，我在主监视器页面上看到以下内容：

Memory
2.0 GB (512.0 MB Used)
2.0 GB (512.0 MB Used)
6.0 GB (512.0 MB Used)

我想增加工作人员的已用内存，但我找不到合适的配置。我变了Spark-env.sh如下：

export SPARK_WORKER_MEMORY=6g
export SPARK_MEM=6g
export SPARK_DAEMON_MEMORY=6g
export SPARK_JAVA_OPTS="-Dspark.executor.memory=6g"
export JAVA_OPTS="-Xms6G -Xmx6G"

但使用的内存还是一样。我应该怎么做才能更改已用内存？

当使用 1.0.0+ 并使用 Spark-shell 或 Spark-Submit 时，请使用--executor-memory选项。例如。

spark-shell --executor-memory 8G ...

0.9.0 及以下：

当您启动作业或启动 shell 时，会更改内存。我们必须修改 Spark-shell 脚本，以便它能够携带命令行参数作为底层 Java 应用程序的参数。尤其：

OPTIONS="$@"
...
$FWDIR/bin/spark-class $OPTIONS org.apache.spark.repl.Main "$@"

然后我们可以运行 Spark shell，如下所示：

spark-shell -Dspark.executor.memory=6g

当为独立的 jar 配置它时，我在创建 Spark 上下文之前以编程方式设置系统属性，并将值作为命令行参数传递（然后我可以使其比冗长的系统属性更短）。

System.setProperty("spark.executor.memory", valueFromCommandLine)

至于更改默认集群范围，抱歉，不完全确定如何正确执行此操作。

最后一点 - 我有点担心你有 2 个 2GB 节点和一个 6GB 节点。您可以使用的内存将仅限于最小的节点 - 所以这里是 2GB。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

memory

clustercomputing

config

apachespark

如何更改 apache Spark Worker 每个节点的内存的相关文章

new 运算符（以及 malloc）无法分配约 450 MB 的内存 [重复]

这个问题在这里已经有答案了我正在开发一个程序该程序在内存中存储大约 2 2 亿个短值的数组该数据块的分配方式如下 short arrayName new short SIZE OF ARRAY 然后将文件的内容读入内存在团队中的另一
小/大 numpy 数组的释放处理方式是否不同？

我正在尝试调试我的大型 Python 应用程序的内存问题大部分记忆都在numpy由Python类管理的数组所以Heapy http guppy pe sourceforge net 等等都是无用的因为它们不占内存numpy数组因此
如何估计 std::map 的内存使用情况？

例如我有一个已知 sizeof A 和 sizeof B 的 std map 而 map 内部有 N 个条目您如何估计其内存使用情况我想说这就像 sizeof A sizeof B N factor 但到底是什么因素呢也许不同的公式
JVM 最大堆大小可以是动态的吗？

JVM Xmx 参数允许将 JVM 的最大堆大小设置为某个值但是有没有办法让这个价值动态化呢换句话说我想告诉 JVM 看如果你需要它就继续从系统中获取 RAM 直到系统退出提问原因分为两部分首先所讨论的应用程序可以根据用户
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
查找可以为 C# 中的数组分配多少内存

我正在做一些需要初始化大数组的计算数组的最大大小决定了我能解决的问题的最大大小有没有一种方法可以以编程方式确定有多少内存可供使用例如可能的最大字节数组 Thanks 嗯依赖单个大数组会带来一系列相关问题内存碎片连续块最大对象大
以编程方式获取 Android 设备的所有 RAM 内存，而不仅仅是分配给用户进程的内存

我有一台设备我确信它的 RAM 内存为 512 MB 希望能够以编程方式检索该值 512 MB 到目前为止我在互联网上遇到的主要是这两种方式 https stackoverflow com a 16143065 1521264 http
Python列表内存存储[重复]

这个问题在这里已经有答案了据我了解 Python 列表本质上是 C 数组它们分配特定的顺序内存块但是这些内存块实际上存储列表中的数据还是它们只是指向内存中存储实际数据的另一个位置它可能取决于列表中存储的对象的大小吗因为您可以轻松
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
调整巨大数组的大小

我正在我的应用程序中处理巨大的数组需要调整它们的大小假设您有一个 2Gb 的阵列并且想要将其大小调整为 3Gb 有没有办法在暂时不需要 5Gb 的情况下调整它的大小例如给定一个 1Gb 堆使用 Xmx1G flag public
删除指向对象的 C++ 指针

我认为删除命令会释放我分配的内存有人可以解释为什么删除后我似乎仍然有内存在使用吗 class Test public int time int main Test e e new Test e gt time 1 cout lt lt e
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
结构体的内存大小不同？

为什么第一种情况不是12 测试环境最新版本的 gcc 和 clang 64 位 Linux struct desc int parts int nr sizeof desc Output 16 struct desc int parts
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta

随机推荐

VueJS：@click.native.stop =“”可能吗？

我在页面上有几个嵌套组件其父组件具有 click native执行因此当我单击子组件位于父组件内部占用的区域时会执行两个单击操作父组件和所有嵌套子组件
Knit 无法编译 PDF：“工具中出现错误::file_path_as_absolute(output_file)”

我已经在 markdown 中创建了一个报告并使用该函数render 将代码编译成 PDF 一个月前它工作得很好但是当我现在运行代码时它给了我一个错误 Latexmk 这是 Latexmk 约翰柯林斯 2016 年 4 月 22 日
C# 泛型：简化类型签名 [重复]

这个问题在这里已经有答案了如果我有一个如下所示的通用 Item 类 abstract class Item
获取Json对象的长度

我有从 php 文件返回的 json 对象 json 值如下 0 id 35 name first name date 2014 03 03 age 25 1 id 36 name name date 0000 00 00 age 25 2
证明 Applicative 和 Monad 的序列定义的等价性

我怎样才能正确地证明这一点 sequenceA Traversable t Applicative f gt t f a gt f t a sequenceA pure sequenceA x xs pure lt gt x lt gt s
使用 vb.net 在文本框中以逗号分隔的字符串复选框选择值！

我有 3 个复选框和 1 个文本框复选框1 复选框2 复选框3 当我先检查 checkbox1 然后检查 checkbox3 然后在文本框中它将准确地显示为 1 3 仅使用 vb net Try Private Sub CheckBox
VueJS/浏览器缓存生产版本

我有一个 VueJS 应用程序每当我跑步时npm run build它创建了一组新的dist 文件但是当我将它们加载到服务器上删除旧版本后并在浏览器中打开页面时它会加载旧版本我假设从缓存当我刷新页面时它加载新代码没有问题
比较不同文件中的列并打印那些不匹配的列

我有两个文件 file1 和 file2 我想将 file1 的几列 1 2 3 和 4 与 file2 的几列 1 2 3 和 4 进行比较并打印 file2 中与 file1 中任何行都不匹配的那些行 E g file1 aaa bb
记录到 CSV 文件的正确方法是什么？

我想以格式化的形式记录发送到繁忙的 http 服务器的每个请求的一些信息使用logging模块会创建一些我不想要的东西 I 131104 15 31 29 Sys 34 我想到了CSV格式但不知道如何定制 Python 有csv模块但
获取指向字节对象上的python内存视图的指针

我有一条蟒蛇memoryview指向一个bytes我想在 cython 中执行一些处理的对象我的问题是因为bytes对象不可写 cython 不允许从中构造类型化 cython 内存视图我也无法使用指针因为我无法获取指向内存视图开始
如何使用四元数在 SceneKit 中使用平移手势旋转相机

我正在使用 iOS 构建 360 度视频查看器SceneKit https developer apple com library ios documentation SceneKit Reference SceneKit Framewor
使用javascript函数递归制作星形三角形

我对编程还很陌生我正在了解 JavaScript 并且刚刚学习了递归的概念现在我遇到了一个问题要创建一个函数例如const f function n 如果我们用以下方式调用该函数f 5 我们应该看到垂直星星的数量必须由输入确定我
dag.py 引发：“airflow.exceptions.AirflowException：任务缺少 start_date 参数”，但它在代码中给出

我今天尝试创建我的第一个气流 DAG from datetime import timedelta from airflow import DAG from airflow operators bash operator import Ba
R 中迄今为止的整数数据框[重复]

这个问题在这里已经有答案了我有一个包含 10 个日期的数据框我将其作为整数读入 R 这是数据框 19820509 19550503 20080505 19590505 19940517 19690504 20050420 2006050
Card.io 不扫描非凸起数字信用卡

我在使用 card io sdk 扫描非凸起数字信用卡时遇到问题我在card io的官方网站上没有看到关于这个问题的任何解释这个 SDK 只适用于高位信用卡吗来自card io 的杰夫简而言之是的该 SDK 仅适用于高位信用卡
从 IntelliJ Ultimate 外部运行时，Tomcat 的“服务器日志”在哪里？

当运行我的Vaadin https en wikipedia org wiki Vaadin app on Tomcat https en wikipedia org wiki Apache Tomcat8 5 外部来自IntelliJ h
python：将 Firefox 与 selenium 一起使用时禁用下载弹出窗口

我有一个使用 selenium 和 firefox 来自动执行下载操作的脚本问题是每当我运行脚本时即使我在 Firefox 首选项中设置了下载路径我总是会从 Firefox 中弹出不断询问我想要执行什么类型的操作我检查了文件和文件
用多态性替换条件式

我试图通过一个例子来理解这种干净的代码实践考虑具有折扣开关盒的类产品我正在尝试用多态性替换 switch 语句代码之前 class Product String priceCode int discount Product Strin
数据集是否应该在企业级 Web 应用程序中使用？

因此我之前的一个项目中有一位架构师反对数据集他讨厌它们并说它们在网络应用程序中没有地位特别是在拥有大量流量的网络应用程序中我注意到在我接管的许多代码实例中数据集的使用相当频繁他们真的那么糟糕性能杀手吗我是否应该考虑删除大量使
如何更改 apache Spark Worker 每个节点的内存

我正在配置 Apache Spark 集群当我运行具有 1 个主服务器和 3 个从服务器的集群时我在主监视器页面上看到以下内容 Memory 2 0 GB 512 0 MB Used 2 0 GB 512 0 MB Used 6 0 G

如何更改 apache Spark Worker 每个节点的内存

如何更改 apache Spark Worker 每个节点的内存 的相关文章

随机推荐

热门标签

如何更改 apache Spark Worker 每个节点的内存的相关文章