如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

2024-05-17

尝试根据这样的条件创建具有多个附加列的 Spark 数据框

df
    .withColumn("name1", someCondition1)
    .withColumn("name2", someCondition2)
    .withColumn("name3", someCondition3)
    .withColumn("name4", someCondition4)
    .withColumn("name5", someCondition5)
    .withColumn("name6", someCondition6)
    .withColumn("name7", someCondition7)

如果超过 6 个，我会遇到以下异常.withColumn添加了条款

org.codehaus.janino.JaninoRuntimeException: Code of method "()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator" grows beyond 64 KB

这个问题也已在其他地方报告过，例如

Spark ML Pipeline 导致 java.lang.Exception：编译失败...代码...增长超过 64 KB https://stackoverflow.com/questions/39012073/spark-ml-pipeline-causes-java-lang-exception-failed-to-compile-code-gro
https://github.com/rstudio/sparklyr/issues/264 https://github.com/rstudio/sparklyr/issues/264

Spark 中有可以配置大小的属性吗？

edit

如果创建更多列，例如大约 20 我不再收到上述异常，而是在等待 5 分钟后收到以下错误：

java.lang.OutOfMemoryError: GC overhead limit exceeded

我想要执行的是拼写/纠错。一些简单的情况可以通过 UDF 中的映射和替换轻松处理。尽管如此，其他几起具有多重连锁条件的案件仍然存在。

我也会跟进那里：https://issues.apache.org/jira/browse/SPARK-18532 https://issues.apache.org/jira/browse/SPARK-18532

可以在这里找到最小的可重复示例https://gist.github.com/geoHeil/86e5401fc57351c70fd49047c88cea05 https://gist.github.com/geoHeil/86e5401fc57351c70fd49047c88cea05

此错误是由 WholeStageCodegen 和 JVM 问题引起的。

快速回答：不，您无法更改限制。请看this https://stackoverflow.com/questions/17422480/maximum-size-of-a-method-in-java-7-and-8问题，64KB是JVM中的最大方法大小。

我们必须等待 Spark 中的解决方法，目前系统参数中无法更改任何内容

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？的相关文章

在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

C++ Boost 多精度 cpp_int

我尝试获取一个大数字的日志我该怎么做呢我无法使用 gmp hpp 因为它说Cannot open include file gmp h No such file or directory 下面的代码 include
Spring Batch 死锁 - 无法增加身份；嵌套异常是 com.microsoft.sqlserver.jdbc.SQLServerException

我们正在将 Spring Batch 应用程序从 Oracle DB 迁移到 Azure SQL Server 我在尝试执行时收到以下错误两个不同的工作同时更新不同的表但使用相同的公共 BATCH 表引起原因 org springfra
奇怪的跨线程 UI 错误

我正在编写一个 WinForms 应用程序它有两种模式控制台或 GUI 同一解决方案中的三个项目一个用于控制台应用程序一个用于 UI 表单第三个用于保存两个界面也将连接的逻辑控制台应用程序运行绝对流畅保存用户选择的模型它有一
使用 IE11 的工作程序使用 multipart/form-data 发送二进制数据

我正在尝试发送multipart form data来自 IE 的工作人员我已经使用 Chrome Firefox Safari 完成了此操作formData对象不支持IE 我需要一个手动的我发送的二进制数据是 crypto js 加
多个按钮的一个 OnClick 处理程序

我发现自己一直在做这样的事情 Button button1 Button findViewById R id button1 Button button2 Button findViewById R id button2 Button bu
Jquery，在表中设置td的值？

我创建动态表 tr and td 标签 td 标签之一获取 id detailInfo 我在某个按钮上有一个 onclick 函数我想在按下按钮后在 td detailInfo 中设置一些值那么如何设置 id 为 detailInfo
Windows 8 Windows 应用商店应用程序中的中继命令

由于 CommandManager 在 win8 Metro 应用程序中不可用是否有 RelayCommand 的版本有一个版本here https xp dev com svn mytoolkit Shared MVVM RelayC
Magento：如何覆盖本地模块中的模型

我试图在本地文件夹中覆盖本地文件夹中的模块但我不知道是否可能这就是我所做的我创建了 local Mycompany Modulename Model Model php 我想覆盖 local Othercompany Modulena
session_regenerate_id 没有创建新的会话 id

我有一个脚本旨在完成当前会话并开始新的会话我使用了一段代码它在我的开发计算机上运行良好但是当我将其发布到生产服务器时会话 ID 始终保持不变以下是我重新启动会话的代码 session start SESSION array P
找到一条穿过任意节点序列的最短路径？

In 这个先前的问题 https stackoverflow com questions 7314333 find shortest path from vertex u to v passing through a vertex wOP询
在包含按钮的ListView中，如何获取单击按钮的索引？

我有一个ListView仅包含按钮我想做的很简单我想要获得已单击按钮的索引列表的计数从0到100不等因此当用户单击按钮6时我需要这个数字进行处理我定义了我的ListView像这样
播种多对多数据

您好我正在尝试为我的项目创建一些种子但我在将多对多关系数据播种到数据库时遇到问题 My database看起来像这样 in 教师技能教师ID and Skill ID当然是他们的表的外键 My seeder看起来像这样 protect
ASP.Net MVC AJAX 链接不起作用

为了实现 AJAX 登录我在我的页面上有这个链接附近有一个 id 为 lll 的 div 当我单击该链接时我得到了无聊的确认只是出于调试目的而添加没有它的行为是相同的但然后什么也没有发生没有请求到达服务器因为我在 LogOn
如何将 List
转换为 List
我怎样才能投一个List to List

无法以编程方式反序列化 SOAP 消息

当我尝试反序列化肥皂消息时出现以下异常我这样做是因为我有想要在测试中重用的响应文件我无法使用真正的服务等因为它不适合我们拥有的测试框架的架构 Test MyUnitTestMethod failed System InvalidOp

带有 ui-router 的 Angular 无限摘要循环

我最初试图解决的问题是如果用户未登录则将用户重定向到登录页面反之亦然我用下面的代码做到了这一点 run function rootScope http AppService state rootScope on applicatio

T-SQL 是否可以通过单个快速操作进行更新/插入

假设我有一个表我想插入一行新行的键可能已经与表中现有行的键匹配在这种情况下我想更新现有行或者它可能不存在于表中在这种情况下应插入新行执行此类操作最有效的方法是什么我想先做一个SELECT 也许与EXISTS 查看是否存在特定

IE6刷新时内存泄漏？

我每隔几秒钟重新加载一个页面以从服务器获取更新该页面可以打开并且这种情况可能永远发生我猜测特别是因为该浏览器位于未关闭的远程服务器上我这样做 setTimeout function location href location hr

SQL Server 2012：有条件地增加计数器用户 ROW_NUMBER()

我正在尝试申请ROW NUMBER 根据特定条件增加计数器我的数据如下所示目标计数器是Prep column id DSR PrepIndicator Prep 1662835 1 1 1 1662835 14 2 2 1662835

如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo

热门标签

虚拟机终端

让我走上编程之路

语言提高

服务模式

中的订阅模式

自定义消息类型与使用

服务无法正常启动

试用版破解

文件打开和保存对话框

BITMAPINFO

RGBQUAD

之间的转换详解及实例

控件中如何显示

cvmat

IplImage

消息列表

OLED12864

中图片绘制到控件上

HBITMAP

BitBlt

任务栏上方显示

中主窗体显示

中的图片转换实例

改变控件颜色

Powered by Hwhale

如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

edit

如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？ 的相关文章

随机推荐

热门标签

如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？的相关文章