Spark 可扩展性：我做错了什么？

2023-11-21

我正在使用 Spark 处理数据，它可以处理一天的数据（40G），但失败了OOM一周的数据：

import pyspark
import datetime
import operator
sc = pyspark.SparkContext()
sqc = pyspark.sql.SQLContext(sc)
sc.union([sqc.parquetFile(hour.strftime('.....'))
          .map(lambda row:(row.id, row.foo))
          for hour in myrange(beg,end,datetime.timedelta(0,3600))]) \
  .reduceByKey(operator.add).saveAsTextFile("myoutput")

不同ID的数量小于10k。每个ID都是一个很小的int。由于太多执行程序因 OOM 失败而导致作业失败。当工作成功时（少量投入），"myoutput"大约是100k。

我究竟做错了什么？
我尝试更换saveAsTextFile with collect（因为我实际上想在保存之前在 python 中进行一些切片和切块），行为没有差异，同样的失败。这是可以预料的吗？
我曾经有reduce(lambda x,y: x.union(y), [sqc.parquetFile(...)...])代替sc.union- 哪个更好？有什么区别吗？

该集群有25节点与825GB内存和224其中的核心。

调用是spark-submit --master yarn --num-executors 50 --executor-memory 5G.

单个 RDD 有约 140 列，涵盖一小时的数据，因此一周是 168(=7*24) 个 RDD 的并集。

Spark 在扩展时经常会出现内存不足错误。在这些情况下，程序员应该进行微调。或者重新检查您的代码，以确保您没有做任何过多的事情，例如收集所有bigdata在驱动程序中，这很可能超过内存开销限制，无论你设置多大。

要了解正在发生的事情，您应该意识到何时yarn决定杀死超出内存限制的容器。当容器超出限制时就会发生这种情况内存开销 limit.

在调度程序中，您可以检查事件时间线以查看容器发生了什么。如果 Yarn 杀死了一个容器，它将显示为红色，当您将鼠标悬停/单击它时，您将看到如下消息：

容器因超出内存限制而被 YARN 终止。已使用 16 GB 物理内存中的 16.9 GB。考虑提高spark.yarn.executor.memoryOverhead。

因此，在这种情况下，您要关注的是这些配置属性（值是示例my簇）：

# More executor memory overhead
spark.yarn.executor.memoryOverhead          4096

# More driver memory overhead
spark.yarn.driver.memoryOverhead            8192

# Max on my nodes
#spark.executor.cores                        8
#spark.executor.memory                       12G

# For the executors
spark.executor.cores                        6
spark.executor.memory                       8G

# For the driver
spark.driver.cores                          6
spark.driver.memory                         8G

首先要做的就是增加memoryOverhead.

在驱动程序中还是在执行程序中？

当您从 UI 概览集群时，您可以单击尝试 ID 并检查诊断信息其中应该提到被杀死的容器的 ID。如果和你的一样增材制造集装箱，那么它是驱动程序，否则是执行程序。

这并没有解决问题，现在怎么办？

您必须微调所提供的核心数量和堆内存。你看pyspark将在堆外内存中完成大部分工作，因此您不想为堆提供太多空间，因为这会被浪费。你不想给予太少，因为垃圾收集器会出现问题。回想一下，这些是 JVM。

如上所述here，一个工作线程可以托管多个执行程序，因此使用的核心数量会影响每个执行程序拥有的内存量，因此减少 #cores 可能会有所帮助。

我把它写在Spark中的内存开销问题和火花——容器以非零退出代码 143 退出更详细的是，大部分我不会忘记！我还没有尝试过的另一种选择是Spark.默认并行度 or/and spark.storage.memoryFraction，根据我的经验，这没有帮助。

您可以按照 sds 提到的方式传递配置标志，或者像这样：

spark-submit --properties-file my_properties

其中“my_properties”类似于我上面列出的属性。

对于非数值，您可以这样做：

spark-submit --conf spark.executor.memory='4G'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 可扩展性：我做错了什么？的相关文章

Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
Pyspark：相当于 np.where [重复]

这个问题在这里已经有答案了这个操作在 Pyspark 中相当于什么 import pandas as pd import numpy as np df pd DataFrame Type list ABBC Set list ZZXY d
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

Chrome 扩展程序弹出窗口中单击时的 JavaScript 警报立即消失

我正在开发一个 Chrome 扩展程序并希望在用户单击某些元素时使用 Prompt 获取用户的输入不幸的是由于某种原因当作为 onclick 或在 jQuery something click function 中调用时我无法让p
使用 JavaScript 使用 HmacSHA256 正确签署字符串

在用于身份验证的 Houndify API 文档中您有以下内容块验证请求的示例假设我们有以下信息 UserID ae06fcd3 6447 4356 afaa 813aa4f2ba41 RequestID 70aa7c25 c74f
使用 DLR 运行使用 CompileAssemblyFromSource 生成的代码？

对此进行后续跟进很好的答案我想知道 DLR 是否使用dynamic关键字可以允许以不太冗长的方式为生成的程序集编写代码例如上述答案的代码可以 using Microsoft CSharp CSharpCodeProvider foo
Pytorch - 在 softmax 层之后选择最佳概率

我有一个使用 Pytorch 0 4 0 的逻辑回归模型其中我的输入是高维的我的输出必须是标量 0 1 or 2 我使用线性层与 softmax 层相结合来返回n x 3张量其中每列表示输入属于三个类别之一的概率 0 1 or 2 但
运行基于 OpenMPI 的库时出错

我已经从 Ubuntu 中可用的标准 apt get install 安装了 openmpi 库我运行一个调用 MPI 库的 python 代码我收到以下错误任何想法错误的根源是什么是 OpenMPI 配置错误吗如何解决这个问题
如何查看WTForms验证错误？

我正在编写一些基本测试但测试失败了 def test new user registration self self client get user register form RegistrationForm email u email
fopen：无法打开流：Mac 上的 PHP 中的权限被拒绝 [重复]

这个问题在这里已经有答案了我写了这段代码 if file exists testfile rtf echo file exists else echo file doesn t exist fh fopen testfile rtf w
如何在 Swift 中写入 Google Sheets

我正在尝试通过以下方式写入 Google Sheets 文档这个谷歌API 但我没有取得太大成功我什至不确定我是否遵循了正确的 api 因为它显示 Appscript 并且看起来像 Swift 我已经能够使用以下方法从工作表中读取数据 p
当工作线程工作时，UI 变得不稳定

我有一个手写识别应用程序用户用手指绘画该应用程序识别字符识别引擎在具有尽可能低优先级的工作线程中运行 Thread MIN PRIORITY 它是纯粹的CPU 内存算法没有任何I O 不过当线程正在积极工作时用户界面会变得相当不
人类可读的 type_info.name() [重复]

这个问题在这里已经有答案了我编译了以下代码g 并得到输出该输出写在注释中 template
Laravel 4 - 没有可用的猜测者问题

我收到此错误 LogicException 无法猜测 mime 类型因为没有可用的猜测器您启用了 php fileinfo 扩展吗我已经启用了 php fileinfo 扩展并重新启动了 Wamp Web 服务器但我仍然无法解决这个
AsyncTask Android 示例

我正在读关于AsyncTask 我尝试了下面的简单程序但这似乎不起作用我怎样才能让它发挥作用 public class AsyncTaskActivity extends Activity Button btn Called when
Firebase Listener 在空闲时间后无法识别或恢复连接

我的项目是识别客户端是在线还是离线我使用 Android Firebase 文档中提供的代码该代码使用 info connected 中的 EventListener since I can connect from multiple
从字符串源列表动态生成最短的正则表达式

我有一堆 SKU 库存单位它们代表一系列字符串我想创建一个正则表达式来匹配它们举例来说如果我有 SKU var skus new BATPAG003 BATTWLP03 BATTWLP04 BATTWSP04 SPIFATB01 我
在 Swift 3 中访问代码错误

Xcode 8 beta 4 中的新功能 NSError桥接到 SwiftError协议类型这会在处理失败时影响 StoreKitSKPaymentTransactions 您应该检查以确保没有因为事务被取消而发生错误以了解是否向用户显
Spring REST - 将 GET 参数绑定到嵌套对象

我知道你可以将 get 请求参数绑定到 pojo 例如 RequestMapping value reservation method RequestMethod GET produces MediaType APPLICATION JSO
在字符串列表中的特定元素之前和之后插入元素

当出现特定字符串时是否可以插入到列表中例子 List north south east west south united 因此每次出现字符串 south 时列表都会插入一个项目 canada 在列表中元素 south 之前 Resu
[NodeJs][Sequelize] ReferenceError：初始化前无法访问“ModelName”

目前我使用一个API实现节点 Js 13和 ORM续集 v5而这一切都在ES6 通过 package json 中的 type module 在这个项目中当我尝试使用关联时出现问题我有三个关联的模型 author js authorbo
我如何推迟 jQuery Each 循环

我在 jQuery 每个循环中执行繁重画布操作导致较慢的设备 IE 和 iPad 有时变得完全无响应所以我想我可以使用下划线 defer 将每个循环中的函数排队例如 function handleAsset defer funct
Spark 可扩展性：我做错了什么？

我正在使用 Spark 处理数据它可以处理一天的数据 40G 但失败了OOM一周的数据 import pyspark import datetime import operator sc pyspark SparkContext sqc

Spark 可扩展性：我做错了什么？

Spark 可扩展性：我做错了什么？ 的相关文章

随机推荐

热门标签

Spark 可扩展性：我做错了什么？的相关文章