Spark 闭包参数绑定

2023-11-30

我正在 Scala 中使用 Apache Spark。

我在尝试使用第二个 RDD 中的数据操作一个 RDD 时遇到问题。我试图将第二个 RDD 作为参数传递给针对第一个 RDD 进行“映射”的函数，但似乎在该函数上创建的闭包绑定了该值的未初始化版本。

以下是一段更简单的代码，显示了我所看到的问题类型。（我第一次遇到麻烦的真实例子更大且更难理解）。

我不太明白 Spark 闭包的参数绑定规则。

我真正寻找的是一种基本方法或模式，用于如何使用另一个 RDD 的内容（之前在其他地方构建）来操作一个 RDD。

在下面的代码中，调用 Test1.process(sc) 将失败，并在 findSquare 中进行空指针访问（因为闭包中绑定的第二个参数未初始化）

object Test1 {

  def process(sc: SparkContext) {
    val squaresMap = (1 to 10).map(n => (n, n * n))
    val squaresRDD = sc.parallelize(squaresMap)

    val primes = sc.parallelize(List(2, 3, 5, 7))

    for (p <- primes) {
      println("%d: %d".format(p, findSquare(p, squaresRDD)))
    }
  }

  def findSquare(n: Int, squaresRDD: RDD[(Int, Int)]): Int = {
    squaresRDD.filter(kv => kv._1 == n).first._1
  }
}

您遇到的问题与闭包或 RDD 无关，与普遍的看法相反，是可序列化的.

它只是违反了 Spark 的基本规则，该规则规定您不能从另一个操作或转换触发一个操作或转换*，并且这个问题的不同变体已被多次询问。

要理解为什么会出现这种情况，您必须考虑架构：

SparkContext由驱动程序管理
转换中发生的所有事情都在工作人员身上执行。每个工作人员只能访问自己的部分数据，并且不与其他工作人员进行通信**。

如果你想使用多个 RDD 的内容，你必须使用组合 RDD 的转换之一，例如join, cartesian, zip or union.

在这里，您很可能（我不确定为什么您传递元组并仅使用该元组的第一个元素）想要使用广播变量：

val squaresMapBD = sc.broadcast(squaresMap)

def findSquare(n: Int): Seq[(Int, Int)] = {
  squaresMapBD.value
    .filter{case (k, v) => k == n}
    .map{case (k, v) => (n, k)}
    .take(1)
}

primes.flatMap(findSquare)

或笛卡尔：

primes
  .cartesian(squaresRDD)
  .filter{case (n, (k, _)) => n == k}.map{case (n, (k, _)) => (n, k)}

转换primes到虚拟对(Int, null) and join会更有效率：

primes.map((_, null)).join(squaresRDD).map(...)

但根据您的评论，我假设您对存在自然连接条件的场景感兴趣。

根据上下文，您还可以考虑使用数据库或文件来存储常用数据。

顺便说一句，RDD 是不可迭代的，所以你不能简单地使用for环形。为了能够做这样的事情，你必须collect或转换toLocalIterator第一的。您还可以使用foreach method.

* 准确地说你无法访问SparkContext.

** Torrent 广播和树聚合涉及执行者之间的通信，因此在技术上是可行的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Spark 闭包参数绑定的相关文章

对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble
玩：将表单字段绑定到双精度型？

也许我只是忽略了一些明显的事情但我无法弄清楚如何将表单字段绑定到 Play 控制器中的双精度型例如假设这是我的模型 case class SavingsGoal timeframeInMonths Option Int amount
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Akka 2 中的调度程序有哪些差异和使用模式？

我很难理解它们的差异和推荐用法Akka 2 中的调度程序 http doc akka io docs akka current scala dispatchers html 我想我明白了平衡调度程序 http doc akka io api
您可以为 None 指定类型参数或告诉编译器它是一个 Option[String] 吗？

我想知道我是否可以在我的代码中写这样的东西 None String 我很惊讶没有人提到它的存在Option empty scala gt Option empty String res0 Option String None 请注意在许多
如何访问 Scala XML 中的父元素

The scala xml包表示带有标记树节点的 XML 但是这棵树在 Scala 2 7 中是单向的吗因为似乎没有办法访问Elem给定的父级Elem 这似乎同样适用于父母Document 例如在 XOM 中你有getParent an
为什么我们需要 scala 中的特征？

所以我试图制作一个 Finagle 服务器与哨兵交谈不重要并偶然发现了一个案例我需要从两个继承classes 不是特质同时我们称它们为class SentryHandler extends Handler and class
关于 scala.math.Integral 的问题

有什么方法mkNumericOps andmkOrderingOps of scala math Integral http www scala lang org api current scala math Integral html我们
必须包含 log4J，但它会导致 Apache Spark shell 中出现错误。如何避免错误？

由于我必须将 jar 包含到 Spark 代码中因此我想请求帮助找出解决此问题而不删除 log4j 导入的方法简单代码如下 cp symjar log4j 1 2 17 jar import org apache spark rdd v
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
sbt 项目构建中的多个目标目录

我有一个这样结构的 sbt 项目 build sbt project build properties plugins sbt src main java smcho App java test java smcho AppTest jav
Scala sbt 项目给出 NullPointerException？

当我运行命令时sbt clean compile run在我的 sbt 项目中它给出了空指针异常这是控制台输出 info Loading project definition from home dnilesh workspace wi
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
META-INF/服务应该在 sbt 中的哪里

META INF 目录应该放在哪里以便 sbt 获取自定义配置我在尝试使用 ServiceLoader 时遇到了这个问题并且我试图在 META INF services 中创建自定义服务如果您将 META INF 文件夹放在 src
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT
java.lang.OutOfMemoryError：Scala 上超出了 GC 开销限制

我是 Scala 开发人员我在Routes它包含的文件1008行如果我添加另一行则会抛出下面的错误 Uncaught error from thread sbt web scheduler 1 shutting down JVM sin

随机推荐

合并两个列表python

我有两个清单 a 1 2 3 4 5 6 b 7 8 我想将它合并到 c 1 2 3 7 4 5 6 8 I used zip a b 但结果似乎不正确有人可以帮忙吗 zip 只会将元组和整数配对您还需要连接元组和新项目 c aa bb
使用 post/sendmessage 进行鼠标点击不起作用[重复]

这个问题在这里已经有答案了可能的重复如何在C 中模拟鼠标点击我努力了 Window FindWindow null untitled Paint PostMessage WindowToFind WM MOUSEMOVE 0 loca
组合框的默认值

您好我尝试为组合框设置默认值 XAML
检查范围内的 int

java中是否有一种优雅的方法来检查int是否等于某个值或者是否比某个值大小1 例如如果我检查x在身边5 我想返回 true4 5 and 6 因为 4 和 6 与 5 只相差一有内置函数可以做到这一点吗或者我这样写会更好吗 in
如何使用 Jquery 为文件上传中选择的多个图像提供预览？

大家好我有一个 fileuplaod 用户可以在其中选择多个图像我想在上传之前显示这些所选图像的预览目前我将其管理为单个图像预览我如何为所选的多个图像提供预览 function readURL input var img input
使用 JavaFX 2.2 助记符（和加速器）

我正在尝试让 JavaFX 助记符发挥作用我在场景中有一些按钮我想要实现的是通过按 Ctrl S 来触发此按钮事件这是一个代码骨架 FXML public Button btnFirst btnFirst getScene addMn
MVC6 TagHelpers 一次性

在较旧的 MVC HTML 帮助程序中可以使用IDisposable包装内容例如BeginForm助手会自动换行 stuff 有结束语form tag stuff MVC6 TagHelpers 支持这种内容包装吗例如我想要这个
如何将 Bundle 从 Fragment 传递到 Fragment

我在我的应用程序中使用片段这是我的第一个片段它只是简单地膨胀了 xml 文件 public class FragmentA extends SherlockFragment Context myContext appContext Ov
如何在谷歌应用程序引擎模板上获取cookie值

我正在开发一个应用程序来了解 python 和 Google App Engine 我想从 cookie 中获取值并在模板上打印以隐藏或显示某些内容是否可以哪种会话系统最适合与谷歌应用程序引擎一起使用在 gae 和模板上使用会话的最佳
Angular4中的浏览器关闭事件

我如何检测角度 4 0 2 中的浏览器关闭事件我努力了 HostListener window unload event unloadHandler event HostListener window beforeunload event
std::thread 构造函数如何检测右值引用？

显然可以将右值引用传递给std thread构造函数我的问题是这个构造函数的定义参考参数它说这个构造函数 template lt class Function class Args gt explicit thread Function
如何在python中将对象数组转换为普通数组

我有一个看起来像这样的对象数组 array array 2 4567 dtype object array 3 4567 dtype object array 4 4567 dtype object array 5 4567 dtype o
Java 应用程序挂在 in.hasNext(); 上

我正在开发通过套接字进行通信的战舰摇摆应用程序 private ServerSocket server private Socket connection private PrintWriter out private Scanner in
如何在资源管理器的重命名事件中挂钩 C++

我不能比我的标题更清楚了 P 我想每当用户在 Windows 资源管理器中重命名文件时并且仅在资源管理器中运行我的程序这是一个简单的模型一个简单的教程链接将会非常有帮助我什么也没找到先感谢您附我是 C 新手看来 Windo
Room 无法验证数据完整性

我在使用房间数据库运行程序时收到此错误 Room cannot verify the data integrity Looks like you ve changed schema but forgot to update the vers
使用 iOS 获取 Facebook 新闻源？

我从适用于 iOS 的 Facebook SDK 开始在我的应用程序中我尝试获取用户新闻源并将其加载到 uitableview 中事实证明这很棘手我也找不到任何有关它的文档使用 Facebook SDK 您可以使用以下方式调用 F
使用 App 目录和 next-intl 翻译 Next.js 13 中的 URL

我目前正在开发多语言 Next js 13 应用程序并使用 next intl 包进行国际化我一直在尝试为我的路线设置翻译后的网址但遇到了一些问题这是我想要实现的目标的一个例子如果源语言是丹麦语则路径可以是 mypage om
使用自定义域部署到 Heroku [关闭]

Closed 这个问题是无关目前不接受答案我已经从 My app heroku com 运行该应用程序并且它可以工作并且我已经在我的域之间设置了 DNS 但是每当我从我指定的域打开我的应用程序时 heroku 会说请参阅文档如果您
为基于 create-react-app 的项目运行 npm build 后在运行时读取环境变量

我是 React 新手我将部署一个 React 项目 React项目由create react app创建然后生产代码由 npm build 构建并由Express托管在项目中有一些对 API 服务器的 fetch 调用其中的
Spark 闭包参数绑定

我正在 Scala 中使用 Apache Spark 我在尝试使用第二个 RDD 中的数据操作一个 RDD 时遇到问题我试图将第二个 RDD 作为参数传递给针对第一个 RDD 进行映射的函数但似乎在该函数上创建的闭包绑定了该值的未初

Spark 闭包参数绑定

Spark 闭包参数绑定 的相关文章

随机推荐

热门标签

Spark 闭包参数绑定的相关文章