pandas udf showString 简单示例错误

2024-01-01

我开始在使用此“身份”pandas udf 在 EMR 集群上运行的 Pyspark Jupyter 笔记本上使用 pandas udf，并且收到以下错误：

@pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)
# Input/output are both a pandas.DataFrame
def pudf(pdf):

    return pdf

df.filter(df.corp_cust=='LO').groupby('corp_cust').apply(pudf).show()

调用 o388.showString 时出错。：org.apache.spark.SparkException：由于阶段失败而中止作业：阶段113.0中的任务0失败4次，最近一次失败：阶段113.0中丢失任务0.3（TID 1666，ip-10-23-226-64.us .scottsco.com，执行器 1): java.lang.IllegalArgumentException 在 java.nio.ByteBuffer.allocate(ByteBuffer.java:334) 在 org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) 在 org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) 在 org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132)

我可以跑df.filter(df.corp_cust=='LO').show()成功了，所以这让我觉得从 pandas 到 pyspark 数据帧的转换过程中，事情正在“刹车”。

该数据框有几个 StringType 和 DecimalType 列。我还尝试将 udf 中的字符串列编码为“utf-8”并得到相同的错误。

关于如何解决这个问题有什么建议吗？

这显然是 pyarrow 版本 0.15 的一个问题[1]，导致 pandas udf 出现错误。您可以尝试通过安装 Pyarrow 0.14.1 或更低版本来更改版本。

  sc.install_pypi_package("pyarrow==0.14.1")

[1]https://issues.apache.org/jira/browse/SPARK-29367 https://issues.apache.org/jira/browse/SPARK-29367

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

jupyter

userdefinedfunctions

amazonemr

pandas udf showString 简单示例错误的相关文章

如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
MathJax 自动方程编号在 Jupyter 中无法正常工作

我想对 LaTeX 方程进行编号我在网上搜索了我将使用的 javascript MathJax Hub Config TeX equationNumbers autoNumber all 我也用一个方程进行了测试 eqref In equ
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
MySQL 中的 UDF 性能

我注意到当查询在 SELECT 或 WHERE 子句中调用 UDF 时 MySQL 查询执行时间的性能会呈指数级下降有问题的 UDF 查询本地表以返回标量值因此它们不仅执行算术表达式而且充当相关子查询我通过简单地删除 UDF 并使
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
默认情况下在 Jupyter 笔记本中配置第一个单元

有没有办法为 Jupyter 笔记本中的特定 python 内核配置默认的第一个单元我同意默认的 python 导入违背了良好的编码实践那么我可以配置笔记本使新的 python 笔记本的第一个单元始终是 import numpy a
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
我可以采取哪些措施来提高 SQL Server 中纯用户定义函数的性能？

我制作了一个简单但计算相对复杂的 UDF 用于查询很少更改的表在典型用法中该函数会在一个非常小的参数域上从 WHERE 子句中多次调用如何才能更快地使用 UDF 我的想法是应该有某种方式告诉 SQL Server 我的函数使用相同的参
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
如何从本地计算机或网络资源在 Jupyter Notebook 中嵌入图像或图片？

我想将图像包含在 jupyter 笔记本中如果我执行以下操作它会起作用 from IPython display import Image Image img picture png 但我想将图像包含在 markdown 单元格中并且
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
如何在 SQL Server 存储过程中对用户定义的表类型执行 ForEach？

XX PROCEDURE dbo XXX X dbo IntType readonly AS BEGIN SET NOCOUNT ON how can I foreach X here and do process individually
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

即使 chrome 关闭也能运行的 Chrome 扩展

我有一个 chrome 扩展当 chrome 打开时运行良好问题出在 chrome 应用程序关闭时我需要使扩展程序始终运行无论 chrome 浏览器打开还是关闭有什么方法可以让扩展程序即使在 chrome 关闭时也能运行吗这正是
为什么“bodyPart.isMimeType("text/plain")”给出错误“无法加载主体结构”？

我正在使用 Java 创建一个应用程序以通过 Java 从我的 GoDaddy 网络邮件读取邮件我为此使用了 javax mail 当我调试程序时它在以下行给出错误 bodyPart isMimeType text plain 出乎意
C++11 编写模板以选择更大整数类型的方法？

在 C 11 的编译时在一个带有 2 个模板参数的模板函数中这两个模板参数都必须是无符号整数类型我希望局部变量的类型为两个模板参数中具有更多位的一个的类型在 C 03 中我可能会写这样的东西 template
为什么 Spring 4 在一个上下文中只允许有一个 TaskScheduler？

我们有一个 Spring Web 应用程序正在从 Spring 3 2 移植到 Spring 4 当 Web 应用程序启动时我们的应用程序有多个子上下文组装到单个运行时上下文中我们在两个子上下文中使用单独的 TaskScheduler
liquibase 的枚举数据类型

我目前正在处理 liquibase xml 文件来创建表 table a 我的领域之一是
在名称之间放置逗号

我试图找出数据框中是否出现某些模式假设我有以下模式词典注意 james 与 jamesj patterns lt c john jack james jamesj jason 我的实际数据框 date frame 如下所示 id na
如何更改工具栏文字大小？

我想改变文本的大小Toolbar 因为在我的申请中 Toolbar横向和纵向模式下的文本大小不同是否可以更改文本中的文本大小Toolbar Use app titleTextAppearance https developer andro
如何通过 shell_exec 在 php-apache docker 容器中重新加载 apache？

我创建了多个虚拟主机需要重新加载 apache 以使虚拟主机可用但是shell exec service apache2 reload 似乎在容器内不起作用根据我的理解是 php apache link https hub docke
在另一个js文件中加载外部js文件[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有这个文件包含在我的 html 中我想从另一个 javascript 调用它请建议我该怎么做我想将它包含在我的js文件中而不是ht
ScrollView 与 flex 1 使其不可滚动

我正在尝试在ScrollView 并且只要 ScrollView 有flex 1 the 内部滚动不起作用这是博览会小提琴您可以运行此代码并使用它 https snack expo io SySerKNp https snack exp
C++ map<字符，静态方法指针>？ [复制]

这个问题在这里已经有答案了我编写了一个非常基本的表达式解析器我希望它是可扩展的以便它可以解析用户定义的表达式类型例如如果在解析时我遇到了字符 lt 我想创建一个类的实例用于解析以此字符开头的表达式我有两个问题如何将字符与静态
有没有办法自动生成有效的算术表达式？

我目前正在尝试创建一个 Python 脚本它将自动生成有效的空格分隔算术表达式但是我得到的示例输出如下所示 32 42 95 24 53 21 虽然空括号对我来说完全没问题但我无法在计算中使用这个自动生成的表达式因为 24 和 5
ORA-01704: 字符串文字太长 '在 Oracle XMLTYPE 列类型中插入 XML 文档时出错'

当我尝试将 SQL 表中的数据插入 Oracle 表时出现此错误 ORA 01704 字符串文字太长在我的 Oracle 表中有一列具有 XMLTYPE 列类型当我创建表时我指定了 XML 列如下所示 CREATE TABLE
phpmyadmin、neginx error.log - 检查组 www-data 是否具有读取权限和 open_basedir

我在 phpmyadmin 网站上有此消息 phpMyAdmin 配置存储未完全配置一些扩展功能已被停用要了解原因请点击此处在单击此处页面上我有以下内容页面打印屏幕 https www dropbox com s vhh4v
在 Swift 中从 AVCaptureSession 捕获静态图像

我有一个AVCaptureSession在 UIView 中显示实时视频我想将视频流的一帧保存为 UIImage 我一直在剖析我在互联网上不断看到的代码但我在第一行遇到了问题 if let stillOutput self stillI
在打字稿文件上启用 Eslint

在 webstorm eslint 设置中有一个额外 eslint 选项字段在此我补充道 ext ts 来自埃斯林特文档 http eslint org docs user guide command line interface
乘客问题：“没有要加载的文件”--/config/environment

我一直在研究这个问题并到处发现类似问题的参考资料但尚未找到解决方案我已经安装了 guest 2 2 11 和 nginx 0 7 64 当我启动并点击 Rails URL 时我收到一个错误页面通知我加载错误没有要加载的文件 pa
按下“Ctrl + C”按钮处理 C# 控制台应用程序

如何处理同时按下的两个按钮 Ctrl C 不是在 WindowsForms 应用程序中而是在控制台 C 应用程序中我怀疑你想设置Console TreatCtrlCAsInput http msdn microsoft com en u
UIBarButton 没有改变

IBOutlet weak var playStopButton UIBarButtonItem var playStopArray UIBarButtonSystemItem Pause UIBarButtonSystemItem Pla
pandas udf showString 简单示例错误

我开始在使用此身份 pandas udf 在 EMR 集群上运行的 Pyspark Jupyter 笔记本上使用 pandas udf 并且收到以下错误 pandas udf df schema PandasUDFType GROUPED

pandas udf showString 简单示例错误

pandas udf showString 简单示例错误 的相关文章

随机推荐

热门标签

pandas udf showString 简单示例错误的相关文章