Spark SQL 执行缓慢且资源空闲

2024-01-11

我有一个 Spark SQL，过去执行时间不到 10 分钟，现在在集群迁移后运行 3 小时，需要深入了解它实际执行的操作。我是 Spark 新手，如果我问一些不相关的问题，请不要介意。

增加spark.executor.memory但没有运气。

环境：Azure 存储上的 Azure HDInsight Spark 2.4

SQL：读取并连接一些数据，最后将结果写入 Hive 元存储。

The spark.sql脚本以以下代码结尾：.write.mode("overwrite").saveAsTable("default.mikemiketable")

Application Behavior: Within the first 15 mins, it loads and complete most tasks (199/200); left only 1 executor process alive and continually to shuffle read / write data. Because now it only leave 1 executor, we need to wait 3 hours until this application finish.

Left only 1 executor alive

Not sure what's the executor doing:

From time to time, we can tell the shuffle read increased:

Therefore I increased the spark.executor.memory to 20g, but nothing changed. From Ambari and YARN I can tell the cluster has many resources left.

Release of almost all executor

非常感谢任何指导。

我想首先对您的案例进行一些观察：

从任务列表中您可以看到 Shuffle Spill (Disk) 和 Shuffle Spill (Memory) 都有非常高的值。数据交换期间每个分区的最大块大小不应超过 2GB https://www.slideshare.net/cloudera/top-5-mistakes-to-avoid-when-writing-apache-spark-applications因此，您应该注意保持混洗数据的大小尽可能小。根据经验，您需要记住每个分区的大小应为 ~200-500MB。例如，如果总数据为 100GB，则至少需要 250-500 个分区才能将分区大小保持在上述限制内。
前两者并存也意味着执行器内存不足，Spark被迫将数据溢出到磁盘。
任务的持续时间太长。 A正常任务 https://www.protechtraining.com/blog/post/tuning-apache-spark-jobs-the-easy-way-web-ui-stage-detail-view-911应持续 50-200 毫秒。
太多被杀死的执行者是另一个迹象，表明你面临 OOM 问题。
Locality https://stackoverflow.com/questions/26994025/whats-the-meaning-of-locality-levelon-spark-cluster是 RACK_LOCAL，它被认为是集群内可以实现的最低值之一。简而言之，这意味着任务正在与存储数据的节点不同的节点中执行。

作为解决方案，我会尝试以下几件事：

通过使用增加分区数量repartition()或通过 Spark 设置spark.sql.shuffle.partitions达到满足上述要求的数量，即 1000 或更多。
改变存储数据的方式并引入分区数据，即日/月/年使用partitionBy

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

azurehdinsight

Spark SQL 执行缓慢且资源空闲的相关文章

Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
将 DStream 转换为 JavaDStream

我知道我们有一个选择RDD JavaRDD
如何在 Scala 中将 DataFrame 模式写入文件

我有一个 DataFrame 它从一个巨大的 json 文件加载并从中获取架构该架构基本上大约有 1000 列我希望将 printSchema 的相同输出保存在文件中而不是控制台中有任何想法吗如果您在本地环境中工作您可以执行以下操

随机推荐

C 中的结构体和指针分段错误

任何人都可以帮助解决我不断遇到的分割错误吗这段代码很简单但错误很难弄清楚 struct Link int key unsigned data 2 struct Link next struct Link previous struct
用python从左到右解码二维码

我有一个带有几个二维码的 png 基本上看起来像这样解码我使用的二维码zbarlight from PIL import Image import zbarlight file path tests qr codes png with o
静态方法的行为与其他可以重写的方法类似

在子类的对象上超类的静态方法是可用的但是当我们在子类中定义相同的方法时现在子类的对象开始指向子类方法这听起来像是覆盖但事实并非如此因为静态方法可以 t 覆盖这是如何发生的以及 java 的这个功能叫什么 class A ext
Bootstrap - 按钮工具栏宽度 100% - 使用 btn-group 的

当我使用引导程序工具栏从左到右填充 100 时我遇到一些问题btn 组 s 我尝试过使用 btn 组对齐没有 btn group justified 的示例 http satori ramgaard net test 1 html di
iPad 上的 iOS 11 全屏 Web 应用程序和状态栏存在问题

我有一个全屏主屏幕 Web 应用程序专为 1024x768 分辨率而设计因此它非常适合横向模式下的 iPad 或者至少直到 iOS 11 之前都是如此此更新现在在状态栏下呈现内容将整个页面向下推了 20 像素我涉及到的元标签如下
如何在selenium中查找页面上的多个元素？

我在同一页面上有多个具有相同 id 和名称或类的输入 HTML 标签现在我应该如何找到第二个或第三个等输入我可以使用数组所以我们是否有一些函数可以返回该页面的所有文本框输入标签首先使用 FindElements 创建一个列表
C# ReaderWriteLock 中可升级读锁与写锁的区别

ReaderWriterLock类中的可升级读锁和写锁有什么区别根据MSDN的描述只有一个线程可以进入可升级读锁如果我遵循正确我可能会忘记升级它因为它与写锁相同我缺少什么吗我假设你的意思是ReaderWriterLockSli
UITableViewCell 内的 UIButton 窃取 UITableView 的触摸

我有一个类似的问题this one https stackoverflow com questions 8379206 touch on uibutton in a uitableviewcell cannot scroll the tab
在 Cadence 工作流程中的循环内调用相同的活动

我在 cadence 工作流程中有一个问题我们可以在 for 循环内使用不同的输入调用相同的活动吗该代码是确定性的吗如果执行工作流的工作线程在执行过程中停止并稍后重新启动那么 cadence 在重新构建工作流时是否能够重播事件例如
使用 CASE 函数时，大于零的 WHERE 子句仍显示零

我正在尝试使用 WHERE 子句来过滤掉我不需要的其他数据 SELECT post id MAX CASE WHEN meta key vlaue 1 THEN meta value ELSE NULL END as Customer MA
AJAX 和 FormsAuthentication，如何防止 FormsAuthentication 覆盖 HTTP 401？

在配置了 FormsAuthentication 的一个应用程序中当用户在没有身份验证 cookie 的情况下或使用过时的身份验证 cookie 访问受保护的页面时 ASP NET 会发出 HTTP 401 Unauthorized 然后
Javascript 从函数返回 false

有没有办法做到以下几点 validateLogin return false 但其实是这样的 validateLogin 这是函数 function validateLogin if hi true return true else ret
通过服务帐户访问作为 Web 应用程序发布的 GSheet 的正确设置

我有一个作为网络应用程序发布的 GSheet 我试图允许从服务帐户访问它它被设置为允许任何人访问当我点击时我可以访问它直接部署应用程序 URL 我已将项目转换为 GCP 标准项目我创建了一个附加到的服务帐户项目服务帐户具有编辑者
svn 的预提交钩子修改要在 c# 中提交的文件

我想在将文件提交到存储库之前以某种方式进行修改实际上是在代码格式化程序中格式化文件我发现从预提交示例 http tortoisesvn tigris org svn tortoisesvn trunk contrib hook scri
主函数的返回类型[重复]

这个问题在这里已经有答案了可能的重复 C C 中 main 应该返回什么 https stackoverflow com questions 204476 what should main return in c c void main
带有括号和变量名称的 OpenAPI 参数

我正在开发一个 API 它允许使用如下 URL 进行搜索 GET https example com api data search field1 value1 GET https example com api data search f
删除多个空白

所以如果我有一个像这样的字符串 hello what is my name 如何取出所有空格并仅用一个空格替换每个空格这应该可以做到 replaced preg replace s s text Output hello what is
使用7zip sdk压缩文件，但无法使用winrar或7zip解压

我从以下位置下载了 SDK 7ziphere http www 7 zip org sdk html 然后我使用以下代码将文件压缩为 7zip private static void CompressFileLZMA string inFi
使用 BOOST Tokenizer 显示分隔符并且不对引号中的字符串进行标记

我正在使用 BOOST Tokenizer 将字符串分解为 toekn 基本上这些令牌将用于创建基于 c c 的 VSL 编译器我想问的是定义的分隔符是否有可能使用创建 char separator
Spark SQL 执行缓慢且资源空闲

我有一个 Spark SQL 过去执行时间不到 10 分钟现在在集群迁移后运行 3 小时需要深入了解它实际执行的操作我是 Spark 新手如果我问一些不相关的问题请不要介意增加spark executor memory但没有运气

Spark SQL 执行缓慢且资源空闲

Spark SQL 执行缓慢且资源空闲 的相关文章

随机推荐

热门标签

Spark SQL 执行缓慢且资源空闲的相关文章