Spark：将 RDD 结果写入文件系统很慢

2024-01-03

我正在使用 Scala 开发 Spark 应用程序。我的应用程序仅包含一项需要改组的操作（即cogroup）。它在合理的时间完美运行。我面临的问题是当我想将结果写回文件系统时；由于某种原因，它比运行实际程序花费的时间更长。起初，我尝试在不重新分区或合并的情况下写入结果，我意识到生成的文件数量很大，所以我认为这就是问题所在。我在编写之前尝试重新分区（和合并），但应用程序花了很长时间来执行这些任务。我知道重新分区（和合并）的成本很高，但我正在做的事情正确吗？如果不是，请您给我一些关于正确方法的提示。

Notes:

我的文件系统是 Amazon S3。
我的输入数据大小约为 130GB。
我的集群包含一个驱动节点和五个从节点，每个节点都有 16 个核心和 64 GB RAM。
我为我的工作分配 15 个执行程序，每个执行程序有 5 个核心和 19GB RAM。

P.S.我尝试使用 Dataframes，同样的问题。

这是我的代码示例，以防万一：

val sc = spark.sparkContext

// loading the samples
val samplesRDD = sc
  .textFile(s3InputPath)
  .filter(_.split(",").length > 7)
  .map(parseLine)
  .filter(_._1.nonEmpty) // skips any un-parsable lines


// pick random samples 
val samples1Ids = samplesRDD
  .map(_._2._1) // map to id
  .distinct
  .takeSample(withReplacement = false, 100, 0)

// broadcast it to the cluster's nodes
val samples1IdsBC = sc broadcast samples1Ids

val samples1RDD = samplesRDD
  .filter(samples1IdsBC.value contains _._2._1)

val samples2RDD = samplesRDD
  .filter(sample => !samples1IdsBC.value.contains(sample._2._1))

// compute
samples1RDD
  .cogroup(samples2RDD)
  .flatMapValues { case (left, right) =>
    left.map(sample1 => (sample1._1, right.filter(sample2 => isInRange(sample1._2, sample2._2)).map(_._1)))
  }
  .map {
    case (timestamp, (sample1Id, sample2Ids)) =>
      s"$timestamp,$sample1Id,${sample2Ids.mkString(";")}"
  }

  .repartition(10)
  .saveAsTextFile(s3OutputPath)

UPDATE

这是使用 Dataframes 的相同代码：

// loading the samples
val samplesDF = spark
  .read
  .csv(inputPath)
  .drop("_c1", "_c5", "_c6", "_c7", "_c8")
  .toDF("id", "timestamp", "x", "y")
  .withColumn("x", ($"x" / 100.0f).cast(sql.types.FloatType))
  .withColumn("y", ($"y" / 100.0f).cast(sql.types.FloatType))

// pick random ids as samples 1
val samples1Ids = samplesDF
  .select($"id") // map to the id
  .distinct
  .rdd
  .takeSample(withReplacement = false, 1000)
  .map(r => r.getAs[String]("id"))

// broadcast it to the executor
val samples1IdsBC = sc broadcast samples1Ids

// get samples 1 and 2
val samples1DF = samplesDF
  .where($"id" isin (samples1IdsBC.value: _*))

val samples2DF = samplesDF
  .where(!($"id" isin (samples1IdsBC.value: _*)))

samples2DF
  .withColumn("combined", struct("id", "lng", "lat"))
  .groupBy("timestamp")
  .agg(collect_list("combined").as("combined_list"))
  .join(samples1DF, Seq("timestamp"), "rightouter")
  .map {
    case Row(timestamp: String, samples: mutable.WrappedArray[GenericRowWithSchema], sample1Id: String, sample1X: Float, sample1Y: Float) =>
      val sample2Info = samples.filter {
        case Row(_, sample2X: Float, sample2Y: Float) =>
          Misc.isInRange((sample2X, sample2Y), (sample1X, sample1Y), 20)
        case _ => false
      }.map {
        case Row(sample2Id: String, sample2X: Float, sample2Y: Float) =>
          s"$sample2Id:$sample2X:$sample2Y"
        case _ => ""
      }.mkString(";")

      (timestamp, sample1Id, sample1X, sample1Y, sample2Info)
    case Row(timestamp: String, _, sample1Id: String, sample1X: Float, sample1Y: Float) => // no overlapping samples
      (timestamp, sample1Id, sample1X, sample1Y, "")
    case _ =>
      ("error", "", 0.0f, 0.0f, "")
  }
  .where($"_1" notEqual "error")
  //      .show(1000, truncate = false)
  .write
  .csv(outputPath)

这里的问题是，通常 Spark 提交任务、通过重命名文件的作业以及 S3 上的重命名都非常非常慢。写入的数据越多，作业结束所需的时间就越长。这就是你所看到的。

修复：切换到S3A 提交者 https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html，不进行任何重命名。

一些调整选项可大幅增加 IO 线程数、提交和连接池大小fs.s3a.threads.max from 10 to something bigger fs.s3a.committer.threads -number files committed by a POST in parallel; default is 8 fs.s3a.connection.maximum + try (fs.s3a.committer.threads + fs.s3a.threads.max + 10)

这些都相当小，因为许多作业使用多个存储桶，如果每个存储桶的数量很大，那么创建 s3a 客户端会非常昂贵......但如果您有数千个文件，可能是值得的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark：将 RDD 结果写入文件系统很慢的相关文章

为什么在 Scala 中函数类型需要以单独的参数组传递到函数中

我是 scala 新手我用两种方式编写了相同的代码但我对两种方式有点困惑在第二种方式中 f 的参数类型是自动派生的但在 type1 中 scala 编译器无法执行相同的操作我只是想了解这背后的想法是什么 Type1 给出编译错误
nodejs knox 放入 s3 结果是 403

我尝试在 nodejs 项目中使用 knox 上传到 Amazon s3 存储桶但无法解决 403 错误我已确保密钥秘密和存储桶已正确设置我真的需要那些有更多经验的人的帮助我的节点代码如下 var upload test func
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
CNAME 速度慢吗？

我将 CNAME 与 S3 CloudFront 一起使用来提供一些静态文件例如 js css 图像等我这样做是为了使存储桶的 URL 更漂亮因为我认为最好将所有内容都定位到我的网站以防万一将来我想移动这些文件更改应该是透明的今
PHP Amazon SDK，S3 存储桶访问被拒绝

我第一次尝试使用 PHP AWS SDK aws aws sdk php 3 19 来使用 S3 我创建了一个存储桶 myfirstbucket jeremyc 我制定了一项政策 Version 2012 10 17 Statement E
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
通过django s3中间件保存文件时获取Http403（但可以在shell中使用boto保存）

我一直在尝试通过 django 应用程序将用户上传的文件保存到我的 s3 存储桶中我正在使用django s3 storage https github com etianen django s3 storage中间件但我不断收到 S3
Akka Streams / HTTP：从响应中获取原始请求

我有一个 Akka Streams 源它会遍历流程并发布 HTTP 请求 source map toRequest via Http outgoingConnection host map toMessage 假设toRequest方法将
在 Scala 中调用 WebSocket 中的方法

我是 scala Play 框架和 Akka 的新手我的函数定义为 def socket WebSocket accept String String request gt ActorFlow actorRef out gt MyWebS
如何访问 Scala XML 中的父元素

The scala xml包表示带有标记树节点的 XML 但是这棵树在 Scala 2 7 中是单向的吗因为似乎没有办法访问Elem给定的父级Elem 这似乎同样适用于父母Document 例如在 XOM 中你有getParent an
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
按字符分割字符串

scala 有一个标准的分割字符串的方法StringOps split 但它的行为有点让我惊讶演示一下使用快捷便利功能 def sp str String str split toList 以下表达式全部计算结果为 true sp Li
关于 scala.math.Integral 的问题

有什么方法mkNumericOps andmkOrderingOps of scala math Integral http www scala lang org api current scala math Integral html我们
Shapeless 和 gremlin scala：如何返回调用 `as` 的结果？

所以我调用这个函数as from gremlin scala case class GremlinScala End Labels lt HList traversal GraphTraversal End def as name Str
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
Amazon S3 - 每个子域有 1 个存储桶和一个文件夹？

我需要创建一项服务允许用户在自定义子域中发布静态页面我从来没有这样做过所以如果这个问题听起来有点太基本了请原谅我为此我希望将所有这些静态文件托管在 Amazon S3 或 Google 云存储等中以将其与我的服务器分开使其可
aws - 将字符串作为文件上传到 S3 存储桶

我尝试使用适用于 NodeJS 的 AWS 开发工具包将字符串作为文件保存到 AWS S3 存储桶 PUT 请求成功但文件未在 S3 存储桶中创建以下是我的代码片段 const s3 new S3 apiVersion 2006 03
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
根据 Slick 中的 Id 选择单行

我想根据 Id 查询用户的一行我有以下虚拟代码 case class User id Option Int name String object Users extends Table User user def id column In

随机推荐

在页面加载时在显示 HTML 元素之前隐藏它们的正确方法是什么？

我找到了这个问题的许多部分答案但似乎没有一个明确的答案对于如此重要的技术我觉得有点奇怪我应该如何隐藏元素使用 javascript 以便它们在页面加载时不会在 JS 有机会隐藏它们之前短暂出现我不想用CSS将它们设置为隐藏就
ASP.NET Core 2 + Angular -> 如何设置 VSTS？

我有我的ASP NET Core Angular Web 应用程序上传到 GitHub 通过 VSTS 现在我想设置 CI 管道之后我想deploy my app to Azure 在模板部分有一个ASP NET Core 模板同时也
如何在 Mathematica 中将 .eps 文件转换为 .pdf？

如何将 eps 转换为 pdf 内部数学也许使用 GhostScript 安装后幽灵脚本 http www ghostscript com download gsdnld html并设置适当的环境变量对于 Windows 您should
从 JAX-WS 生成 XSD 时如何避免 XSD 序列？

当我注释了 java 类时 javax xml bind annotation XmlRootElement XmlAccessorType XmlAccessType FIELD public class UserdataType Str
将文本附加到现有 json 文件 node.js

我正在尝试将新文本添加到现有的 json 文件中我尝试了 writeFileSync 和appendFileSync 但是即使我使用 JSON stringify 添加的文本也不会格式化为 json const fs require fs
React & Jest 测试：连接到 Redux 的嵌套组件给出 Invariant Violation 错误

因此我导入了一个组件来使用 Jest 进行一些测试 class MyComponent extends Component render return div div
如何从gwt调用jquery触发器？

public static native void doConnect wnd jQuery document trigger connect jid sss password sss 我尝试了上述方法但在 firebug 或 gwt 托
Shell 脚本错误：“head：无效的尾随选项 -- 1”

我的 shell bash 脚本中有这段代码用于将文件分割成更小的部分 for i start i lt lineCount i i interval do temp expr i interval if temp le lineCoun
NavigationStack 可搜索 .focused

当用户单击搜索框以满足条件显示另一个视图时我需要进行配置一旦他单击取消以显示原始视图已经可以通过 onChange of searchText value in if value isEmpty 进行测试 Navigation
Rails uglifier 应该 uglify (mangle) 函数名称吗？

我的 js 文件被压缩并且变量被破坏但函数名称在 Heroku 上没有被破坏运行最新的 Rails 3 2 8 和最新的 uglify 1 3 0 gem 根据https github com lautis uglifier usage
卡夫卡消费者寻求开始

我没有使用分区来发布到 Kafka 主题 ProducerRecord 字符串主题 K键 V值在消费者方面我想从头开始 eekToBeginning 集合分区是否可以在不使用分区的情况下寻求开始 Kafka 是否分配默认分区 http
如何使 qtip 工具提示随光标移动

我正在使用 js 库 qtip 工具提示当我将鼠标悬停在表格中的悬停行上时我想让 qtip 工具提示随光标移动我知道如何让我自己的工具提示随光标移动但我在使用 qtip 时遇到了困难请解释您回答的代码谢谢 My html tab
类型转换为布尔值

有人可以解释一下为什么会这样吗 var dump bool 1 2 returns bool true but var dump 1 2 returns bool false 当然第二次返回是正确的但是为什么第一次 php 返回一个意外的
黑客已将内容添加到我的 PHP 文件中 [已关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的网站已被黑客拿下浏览该网站会发现每个 PHP 文件的顶部都有大量附加内容现在每个文件都以以下内容开头 GLOBAL wehaveitagain
在 .js.erb 文件中使用 $(this) - Ruby on Rails AJAX

我正在使用 Rails3 和 jQuery 并尝试执行简单的 ajax 调用我有一个显示应用程序当前状态在线离线的链接单击后它将更新状态 link to app status controller gt apps action
如何在conda中管理两个pip版本？

我正在 Windows 中使用 conda 我不小心安装了两个版本的 pip 使用python m pip install upgrade pip 现在当我跑步时conda list来自基础环境 While pip version给出点 1
实体框架 - 使用 order by 和 group by 的 Linq 查询

I have Measurement具有相关属性的对象CreationTime 日期时间和Reference 字符串和一些其他值我想编写一个高效的 linq 查询DbContext that 分组我的Measurement给定的对象R
在 eclipse 2.0 的 aws 工具包中承担/切换角色

我正在使用适用于 eclipse 2 0 的 aws 工具包使用选项窗口 gt 首选项 gt aws 工具包我已经配置了 IAM 登录用户 api 访问密钥 id 和秘密访问密钥根据我们的 aws 配置此 IAM 用户必须承担角色
如何在 PHP 中查找图像是否存在或渲染正常？

我遇到这种情况我有一些图片 http www example com test1 jpg http www example com test2 jpg http www example com test3 jpg 其中一些可能是死链接图
Spark：将 RDD 结果写入文件系统很慢

我正在使用 Scala 开发 Spark 应用程序我的应用程序仅包含一项需要改组的操作即cogroup 它在合理的时间完美运行我面临的问题是当我想将结果写回文件系统时由于某种原因它比运行实际程序花费的时间更长起初我尝试在不重新

Spark：将 RDD 结果写入文件系统很慢

Spark：将 RDD 结果写入文件系统很慢 的相关文章

随机推荐

热门标签

Spark：将 RDD 结果写入文件系统很慢的相关文章