Spark 任务无法使用简单累加器进行序列化？

2024-02-04

我正在运行这个简单的代码：

val accum = sc.accumulator(0, "Progress");
listFilesPar.foreach {
  filepath =>
    accum += 1
}

listFilesPar 是一个RDD[String]

这会引发以下错误：

org.apache.spark.SparkException: Task not serializable

现在我不明白发生了什么我不放括号而是放方括号，因为我需要编写一个很长的函数。我只是在做单元测试

造成这种情况的典型原因是闭包意外捕获了某些内容。您未在粘贴中包含的内容，因为您永远不会想到它会被序列化。

您可以尝试减少代码，直到找到为止。或者只是打开序列化调试日志记录-Dsun.io.serialization.extendedDebugInfo=true。您可能会在输出中看到 Spark 尝试序列化一些愚蠢的东西。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

accumulator

Spark 任务无法使用简单累加器进行序列化？的相关文章

Scala 性能问题

In the 丹尼尔科泽夸 Daniel Korzekwa 撰写的文章 http blog danmachine com 2011 01 moving from java to scala one year html 他说以下代码的性能
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
如何使用 apply/unapply 方法重现案例类行为？

我尝试用普通类和伴生对象替换案例类但突然出现类型错误编译良好的代码综合示例 trait Elem A B def C other Elem C A Elem C B other match case Chain head tail g
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
Source.getLines 中的默认参数错误 (Scala 2.8.0 RC1)

假设我运行 Scala 2 8 0 RC1 以下 scala 代码应该打印出文件 c hello txt 的内容 for line lt Source fromPath c hello txt getLines println line 但
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
如何在 Scala 中打印任何内容的列表？

目前我有一个打印整数的方法 def printList args List Int Unit args foreach println 我如何修改它使其足够灵活可以打印任何内容的列表您不需要专用的方法所需的功能已经在集合类中 pri
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
错误：协变类型 A 出现在逆变位置

我试图写一个不可变的Matrix A 班级我希望该类是协变的A但是当我把在前面A编译器开始抱怨类中的某些操作以下是我的相关子集Matrix类实际类比以下子集大 5 倍左右 class Matrix A private val co
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
缓存 Slick DBIO 操作

我正在尝试加快 SELECT FROM WHERE name 的速度Play 中的查询类型 Scala 应用程序我正在使用 Play 2 4 Scala 2 11 play slick 1 1 1 包该软件包使用Slick 3 1版本
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

GNU 汇编器：访问损坏的共享库错误

我正在读一本书专业汇编语言我想用动态链接我正在使用 AT T 语法和 GNU 汇编器我的电脑有 Ubuntu 12 04 64 位系统我正在尝试使用 cpuid 汇编器操作码显示供应商 ID 字符串并且printf C函数代替l
通过拖放 DOM 元素在 d3.js 中创建形状

我正在尝试在 d3 js 中使用 DOM 元素假设是 div 的拖放来创建一个简单的形状假设是圆形所以这就是我所做的
我可以对 Android MediaPlayer 使用基本 HTTP 身份验证吗？

当我使用 mp setDataSource url 时我找不到使用需要基本身份验证的 url 的方法 MediaPlayer mp new MediaPlayer mp setDataSource url mp prepareAsync
Guice 和 JSF 2

我正在尝试使用 Guice 注入 JSF 托管 bean 的属性这一切都在 Google App Engine 上运行这可能重要也可能不重要我已按照此处的说明进行操作有一个问题出在第一步我无法子类化 Servlet 模块并在那里设
-255 到 255 范围内的有符号字符溢出是否未定义？

根据 C99 模式下的 GCC 以下代码是否未定义行为 signed char c CHAR MAX assume CHAR MAX lt INT MAX c c 1 printf d c signed char溢出确实会导致未定义的行为
AngularJS：删除 Angular ng-repeat 中的空选择选项

我在这里使用 ng repeat 来渲染具有不同值和文本的选项并设置默认选项但是 Angular 再次添加了一个空的未定义选项
为什么我可以多次调用 boost::unique_future::get ，而不像 std::future ？

我知道我们不能打电话std future get很多次我们应该使用std shared future如果我们需要多次调用它但我们可以打电话boost unique future get很多次虽然有boost shared future
Python Web应用架构解决方案

我们正在设置一个 Python REST Web 应用程序目前我们正在使用 WSGI 但将来我们可能会对其进行一些更改例如使用 Twisted 来改进可扩展性或其他一些功能我真的很需要一些关于什么是 Python Web 应用程序
一台服务器上的许多项目的 ConnectionString 管理，我是否应该为我们的代码创建自己的 ConnectionString 提供程序

我在一台 Windows Server 上有大约 10 个不同的 NET 项目其中大部分是 NET 4 0 但也有一些 NET 2 0 其中一些项目是 ASP NET 一些是后台实用程序服务这些项目与我们基础设施中的一百多个不同数据库
Tensorflow 内部 Python 错误：找不到模块

在我升级降级和升级各个版本的 TensorFlow 之后它崩溃了我不得不重新安装所有内容但不知何故我仍然无法让 TensorFlow 运行设置 Anaconda3 2019 10 Windows 64 位 Python 3 7
更改 UI 矩形变换位置

我有这些行 GameObject bp Instantiate MyPrefab bp transform SetParent GameObject FindGameObjectWithTag ContentFactory transfor
Eigen::MatrixXd typedef 的替换

全部更换最简单的方法是什么Eigen MatrixXds and Eigen VectorXd具有向量和矩阵long double元素我的代码中的每个基本浮点变量都是类型long double 另外每次使用矩阵或向量时我都会使用以下类
创建超级用户时 Django 2.1 NOT NULL 约束失败

我已经使用 Django 几个月了没有任何问题但是当我创建一个新项目并添加超级用户时出现以下错误 django db utils IntegrityError NOT NULL constraint failed auth user
.Net 中的多播支持

为了实现使用多播向网络中的其他进程发送小型周期性消息的网络应用程序对于在 Net 框架中使用 API 我有哪些选择除了我当前明显的选择 System net sockets API 之外 WCF 是否提供了更简单的方法或者说WCF纯粹
如何将 POST 数据发送到 phantomjs 脚本

我正在使用 PHP CURL 并希望通过设置下面的 postfields 数组将 POST 数据发送到我的 phantomjs 脚本 ch curl init curl setopt ch CURLOPT COOKIEJAR cookieF
如何在 GitLab 中默认并排视图

如何使 Side by side 成为我的 GitLab 安装项目或配置文件的默认差异 2016 年 2 月更新问题现在位于颁发CE 3071 https gitlab com gitlab org gitlab ce issues 3
如何使用 htaccess 将特定域的 www 和非 www 重定向到 https

我需要将 www 和非 www 重定向到 https 我在 stackoverflow 上到处找过但找不到我想要的东西规则是 example com 和 www example com 以及https example com https
如何在 Erlang 中对字符串进行 XML 编码？

我有一个 erlang 字符串其中可能包含 1 gt Unenc string stuff lt ok 是否有一个 Erlang 函数可以解析字符串并对所有需要的 HTML XML 实体进行编码例如 2 gt Enc xmlencode
如何使用 facebook c# SDK 发送 appsecret_proof？

我想在我的 Facebook 应用程序上使用需要应用程序密钥服务器 API 调用需要应用程序密钥但如果我这样做我会收到以下错误 GraphMethodException 100 未指定 appsecret proof 参数描述执
Spark 任务无法使用简单累加器进行序列化？

我正在运行这个简单的代码 val accum sc accumulator 0 Progress listFilesPar foreach filepath gt accum 1 listFilesPar 是一个RDD String 这会引

Spark 任务无法使用简单累加器进行序列化？

Spark 任务无法使用简单累加器进行序列化？ 的相关文章

随机推荐

热门标签

Spark 任务无法使用简单累加器进行序列化？的相关文章