将函数传递给 Spark：引用整个对象有什么风险？

2024-02-14

根据将函数传递给 Spark https://spark.apache.org/docs/latest/programming-guide.html#resilient-distributed-datasets-rdds，它声称：

accessing fields of the outer object will reference the whole object; To avoid this issue ...

我正在考虑流动代码有什么风险：

class MyClass {
  val field = "Hello"
  def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(x => field + x) }
}

引用所有这些会有什么害处吗？

这将导致 Spark 序列化整个对象并将其发送到每个执行器。如果对象的某些字段包含大量数据，则速度可能会很慢。也可能会导致task not serializable如果你的对象不可序列化则异常

这是遇到这个问题的人的一个例子：任务不可序列化：仅在类而非对象上调用闭包外部的函数时出现 java.io.NotSerializedException https://stackoverflow.com/questions/22592811/task-not-serializable-java-io-notserializableexception-when-calling-function-ou

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

将函数传递给 Spark：引用整个对象有什么风险？的相关文章

Scala 性能问题

In the 丹尼尔科泽夸 Daniel Korzekwa 撰写的文章 http blog danmachine com 2011 01 moving from java to scala one year html 他说以下代码的性能
Scala：如何编写将类型化为接收者的实现类型的对象返回的方法

我知道 Scala 中不推荐使用案例类继承但为了简单起见我在以下示例中使用了它 scala gt case class Foo val f String def foo g String Foo this copy f g define
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
自定义 NIO 文件系统无法通过 SBT 的测试任务加载

为了进行测试我使用内存中的 NIOFileSystem执行 memoryfs https github com openCage memoryfs 我以前已经利用过它并且它似乎运行良好例如梅文然而现在在SBT项目中不可能初始化
我想使用 EtherPad（或克隆版本）。我的站点正在运行 Ruby on Rails。 API 还是本地安装？

我想在我的网站上使用 etherpad 界面两个问题 1 是否有任何带有 etherpad api 的网站可以让我远程调用 2 如果没有安装scala并让两者同时运行有多麻烦 Thanks 查看http piratepad net ht
对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
宏：knownDirectSubclasses 被嵌套类型破坏？

我有一个宏它枚举密封特征的直接子类型 import scala reflect macros Context import language experimental macros object Checker def apply A U
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
Java 表达式树 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有相当于 net的 LINQ 下的表达式树JVM 我想实现一些类似 LINQ 的代码结构Scala
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble

随机推荐

从 ASP.NET 应用程序写入 IIS 日志

我想让我的 ASP NET 应用程序将行写入日志中的某个位置 IIS 是否提供任何内置方式来记录 ASP NET 日志消息我在想可能有一种方法可以捕获对 System Diagnostics Debug WriteLine 的调用但我找
SQLite 外部查询返回内部查询中找不到的结果

我只是想知道是否有人遇到过 SQLite 3 7 4 中的情况其中查询将返回一组结果而当它成为子查询时结果完全不同我在更复杂的查询中发现了问题但这里有一个更简单的示例演示了相同的行为数据库设置 CREATE TABLE tes
如何使用 Paramiko 从 SFTP 服务器仅下载最新文件？

我想编写连接到我的大学 SFTP 服务器并下载最新文件和练习的脚本到目前为止我已经对 Paramiko 示例中的代码进行了一些更改但我不知道如何下载最新的文件这是我的代码 import functools import parami
Laravel 多态多对多关系数据透视表与另一个模型的关系

I have the following table structure as shown in the diagram 简而言之它由几个多对多的多态关系组成如下所示 many resources可以有很多sources和数据透视表so
C11 GCCthreads.h 未找到？

下面的代码 include
JDialog：删除标题栏，保留边框

是否可以从 JDialog 中删除标题栏但保留边框基本 SSCCE 如下所示 package test import javax swing JDialog import javax swing JFrame import javax
通过 createPattern() 使用精灵表

我似乎找不到任何有关如何执行此操作的可靠信息所以我想知道是否有人可以为我指出正确的方向我有一个大的精灵表我们称之为textures png 每个纹理都是 64x64 像素我需要能够根据这些纹理创建图案 createPattern 是
找不到类型或命名空间名称“OpenIddictDbContext<,>”

我有个问题今天早上我打开我的项目并收到错误找不到类型或命名空间名称 OpenIddictDbContext 您是否缺少 using 指令或程序集引用 netcoreapp1 1 当我恢复并构建项目时发生此错误这很奇怪因为我确实有 O
使用 Python 的 headless-selenium-for-win

我从这个github项目中找到了一个无头IE无头硒求赢 https github com kybu headless selenium for win releases 其中有以下文件 desktop utils exe headless
使用 GEKKO python 时的负自由度

我正在尝试解决上述优化问题我的代码如下它有效但我得到了负自由度问题而且客观价值也是负数这是我没想到的我期待着积极的一面我不明白为什么会发生这种情况也不知道如何解决这个问题有人可以给我一个建议吗 Code Import pa
Ruby Array - 使用下一个和之前的元素进行反向迭代

如何使用当前元素的下一个和之前的元素反向迭代数组是否可以使用each cons with reverse each 对的这是可能的 1 2 3 4 5 6 reverse each each cons 3 before current
如何使用一组通用键正确散列字典以实现重复数据删除目的？

我有一些日志数据例如 logs id 1234 error None fruit orange id 12345 error None fruit apple 每个字典都有相同的键 id error and fruit 在本例中我想要删
如何使用 Visual Studio Code 创建并链接另一个网页？

目前我正在遵循在线教程该教程使用 1 个 index html 文件和 1 个 app js 文件仅生成 1 个页面但是我想要多个页面只需单击一个按钮即可来回链接如何拥有多个页面我是否必须在同一个index html 文件中
使用 MAMP 和 php 脚本发送电子邮件

您好我正在我的 Mac 上运行 MAMP 以在本地托管一个网站我想使用 php 脚本发送电子邮件我在网上查看的内容告诉我有关电子邮件的 php 脚本但我无法发送电子邮件我猜这与 MAMP 设置有关或者可能我必须对 php ini
通过 getauxval 检测 Power8 核心加密？

我使用的是 GCC112 它是运行 Linux 的小端 Power8 机器 Power8有核心加密 https www ibm com developerworks library se power8 in core cryptograph
sqlite 中的 django.db.utils.NotSupportedError 为什么在 sqlite 中不受支持

class M Post models Model CODE class M File models Model CODE class M Post File models Model post models ForeignKey M Po
iOS 13 上未调用“systemLayoutSizeFittingSize”

我有一个问题systemLayoutSizeFittingSize在 iOS 13 测试版上我正在开发一个 NativeScript 插件它使用systemLayoutSizeFittingSize of the UICollectio
移动设备上对 SVG 的支持有多完善？

其中有多少SVG规格 http www w3 org TR SVG 各种手机浏览器上有介绍吗这些浏览器之间是否存在许多已知的不一致之处是否有针对移动浏览器的 Javascript SVG 库大多数浏览器将提供至少与 SVG Tiny
如何在 Safari 浏览器上获取 WebRTC 日志

我一直在尝试获取在 safari 浏览器上运行的 Web 应用程序的 webrtc 日志类似于我们通过转到页面在 Firefox 中获取的日志about webrtc并在 chrome 上使用chrome webrtc internals
将函数传递给 Spark：引用整个对象有什么风险？

根据将函数传递给 Spark https spark apache org docs latest programming guide html resilient distributed datasets rdds 它声称 accessi

将函数传递给 Spark：引用整个对象有什么风险？

将函数传递给 Spark：引用整个对象有什么风险？ 的相关文章

随机推荐

热门标签

将函数传递给 Spark：引用整个对象有什么风险？的相关文章