Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处

2023-12-20

我正在运行一个Spark两节点独立集群上的作业 (v 1.0.1)。

Spark执行经常卡在任务mapPartitions处Exchange.scala:44.

这发生在我工作的最后阶段，打电话给saveAsTextFile（正如我对 Spark 的延迟执行所期望的那样）。

诊断问题很困难，因为我从未在具有本地 IO 路径的本地模式下遇到过该问题，并且偶尔集群上的作业会按预期完成并提供正确的输出（与本地模式的输出相同）。

这似乎可能与阅读有关s3（约 170MB 文件）之前，我在控制台中看到以下日志记录：

DEBUG NativeS3FileSystem - getFileStatus returning 'file' for key '[PATH_REMOVED].avro'
INFO  FileInputFormat - Total input paths to process : 1
DEBUG FileInputFormat - Total # of splits: 3
...
INFO  DAGScheduler - Submitting 3 missing tasks from Stage 32 (MapPartitionsRDD[96] at mapPartitions at Exchange.scala:44)
DEBUG DAGScheduler - New pending tasks: Set(ShuffleMapTask(32, 0), ShuffleMapTask(32, 1), ShuffleMapTask(32, 2))

在任务明显挂起/卡住之前我看到的最后一个日志记录是：

INFO NativeS3FileSystem: INFO NativeS3FileSystem: Opening key '[PATH_REMOVED].avro' for reading at position '67108864'

还有其他人遇到过与从 Spark 中的 s3 读取相关的非确定性问题吗？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazons3

apachespark

Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处的相关文章

处理响应后使用 Amazon S3 响应流

我正在使用 Amazon SDK 并且有一个方法可以为存储在 Amazon S3 服务中的对象返回 Stream 它包含这样的内容 var request new GetObjectRequest WithBucketName bucket
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
如何使用 HTTPS 云前端后面的 AWS Amazon 云前端将非 WWW 转发到 WWW

我已经将 Cloud Front 设置为将所有调用重定向到 HTTPS 协议现在我想将非www 转发到www 就当前设置而言我怎样才能实现这一目标我尝试了下面的方法但没有成功因为该方法没有考虑 HTTPS 重定向 https w
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
如何处理 AWS 中的开发和生产环境？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案构建要在生产中启动的应用程序并不确定如何处理 AWS 上的开发生产环境如果我使用多个存储桶多个 DynamoDB 表多个 Lam
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
错误“未初始化常量 AWS (NameError)”

它说 AWS 未初始化我正在使用 aws sdk core gem 我尝试使用 aws sdk gem 代替问题仍然存在这是initializers aws rb 文件 AWS config access key id gt ENV
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
同一区域内但属于不同账户的AWS数据传输费用如何？

如果 S3 gt EC2 或 EC2 gt EC2 位于同一 AWS 区域则数据传输费用似乎是免费的 S3价格注意事项您需要为进出 Amazon S3 的所有带宽付费 except对于以下情况当Amazon Elastic Compu
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema

随机推荐

读取 Excel Open XML 会忽略空白单元格

我正在使用此处接受的解决方案 https stackoverflow com questions 3321082 from excel to datatable in c with open xml将 Excel 工作表转换为数据表如果我
将主机名解析为 IP 地址

我开发了一个客户端服务器模拟应用程序我在两台不同的 Windows XP 计算机上部署了客户端和服务器不知何故客户端无法向服务器发送请求我尝试了以下选项使用 IP 地址从客户端成功 Ping 通服务器计算机使用 IP 地址成功
访问者模式 - 添加新的 ConcreteElement 类很难吗？

我读了一本关于访客模式的书它给出了与中相同的类图oodesign 的网站 http www oodesign com visitor pattern html 它说添加新的 ConcreteElement 类很困难但我不明白为什么据我
CORS 请求 - 为什么未发送 cookie？

我有一个跨域 AJAX GET 它已成功预检但 cookie 未附加到 GET 请求当用户单击登录按钮时会发出 POST 来使用户登录这可以在跨域中正常工作 JavaScript 是 ajax signin url type POS
Lucene.net 模糊短语搜索

我自己已经尝试了相当长的一段时间并在网络上到处寻找但一直无法找到任何通过 Lucene NET 2 9 2 进行模糊短语搜索的示例 C 是否能够建议如何详细执行此操作和或提供一些示例代码我将非常感谢任何帮助因为我完全陷入困境我假
检查 Swift 中两个字符串表达式之间的相似度

我扫描了文字 Mils chiiese wh ite ch col te 和表达式列表例如 cheese bread white chocolate etc 我需要将损坏的表达式与我的列表中的表达式进行比较例如白巧克力和 wh it
如何解析“Build:‘Promise’仅指一种类型，但在此处用作值。”

在打字稿中我收到构建错误提示 Build Promise 仅指类型但在此处用作值我的项目目标是 ES5 从这个帖子中我可以通过将其更改为 ES6 来解决该问题有没有办法在不改变目标的情况下解决问题 typescript 错误 T
从 Swagger 文档生成 Yaml 或 Json 文件

我使用 swagger springmvc 注释开发了一些由 swagger 记录的 Rest Web 服务现在我想使用 swagger editor 生成客户端 Rest Web 服务代码但 swagger editor 需要 Ya
Java ME 双空格中的字符串替换

如何在 Java ME 中将 a b 替换为 a b The replace 方法不接受字符串只接受字符由于双空格包含两个字符我想我有一个小问题你觉得这个怎么样我自己尝试过一个 private String replace Str
Windows 上 Python 的长路径

我在 Windows 下运行 Python 编程时遇到问题我需要使用长度超过 256 个或任何限制字符的文件路径现在我基本上阅读了两种解决方案使用 kernel32 dll 中的 GetShortPathName 并以这种方式访问
C# ValueTuple 属性命名

我正在尝试 C 中的 ValueTuple 类我对属性命名有疑问让我们看看如果实例化一个 ValueTuple 并声明该对象如下所示 var tuple1 Name Name1 Age 25 我们可以命名属性但是像这样 Valu
将 .plist 文件与 iCloud 同步

我正在尝试弄清楚如何同步 Mac 沙盒应用程序中应用程序支持文件夹中的 plist 文件我知道我可以使用 iCloud 键值存储但每个应用程序有 64KB 的限制这可能会或可能不会达到具体取决于用户向应用程序添加了多少内容我已
Lucene排名-如何使用新的4.0评分模型

我正拼命地尝试在 Lucene 中实现一项新功能所以我向您求助基本上在此 JIRA ISSE 中一些额外的评分模型已添加到 Lucene 中 https issues apache org jira browse LUCENE 29
MongoDB 聚合不同文档中数组中的项目数？

这是我的 MongoDB 集合架构 company String model String tags String 我需要聚合它以便得到以下输出 id company Lenovo model T400 tags tag SomeTag
注入的依赖项应该是公开访问的还是私有的？

是否应该将依赖项存储到具有私有 setter 和公共 getter 的私有字段或属性这适用于构造函数 DI 需要明确的是在属性示例中我不希望将它们添加到随附的接口中除非有意义即它们仅在实现类型中可见 interface IFoo
通配符扩展的 Java 通用类型仅允许添加 null

我正在使用下面的代码并尝试添加 CHild 对象是列表 List
编辑新创建用户的注册表值

我有一个 NET 应用程序它创建一个新的本地用户如下所示 var principalContext new PrincipalContext ContextType Machine var userPrincipal new UserP
如何使用 svnX 将 *.a 文件添加到存储库中？

似乎 svnX 默默地忽略所有 a 文件但是我想将一些库添加到存储库中如何使用 svnX 来做到这一点我发现我必须编辑我的 subversion config 文件取消注释 global ignores 行并删除 a 文件类型之后
如何在 Python 中前向声明/原型化函数？ [复制]

这个问题在这里已经有答案了如何在类似于 C 的通用 Python 程序中构建方法原型 Prototype Do Python prototyping writeHello Gives an error as it was not defi
Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处

我正在运行一个Spark两节点独立集群上的作业 v 1 0 1 Spark执行经常卡在任务mapPartitions处Exchange scala 44 这发生在我工作的最后阶段打电话给saveAsTextFile 正如我对 Spark

Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处

Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处 的相关文章

随机推荐

热门标签

Spark 执行有时会卡在 Exchange.scala:44 的 mapPartitions 处的相关文章