如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

2024-05-25

我基本上是在尝试进行前向填充插补。下面是代码。

df = spark.createDataFrame([(1,1, None), (1,2, 5), (1,3, None), (1,4, None), (1,5, 10), (1,6, None)], ('session',"timestamp", "id"))

PRV_RANK = 0.0
def fun(rank):
    ########How to check if None or Nan?  ###############
    if rank is None or rank is NaN:
        return PRV_RANK
    else:
        PRV_RANK = rank
        return rank        

fuN= F.udf(fun, IntegerType())

df.withColumn("ffill_new", fuN(df["id"])).show()

我在日志中收到奇怪的错误。

编辑：问题与如何使用 python 识别 Spark 数据框中的 null 和 nan 有关。

编辑：我假设以下检查 NaN 和 Null 的代码行导致了问题。所以我给这个问题起了相应的标题。

回溯（最近一次调用最后一次）：

文件“”，第 1 行，位于 df_na.withColumn("ffill_new",forwardFill(df_na["id"])).show()

文件“C:\Spark\python\pyspark\sql\dataframe.py”，第 318 行，显示打印（self._jdf.showString（n，20））

文件“C:\Spark\python\lib\py4j-0.10.4-src.zip\py4j\java_gateway.py”，第 1133 行，在call答案，self.gateway_client，self.target_id，self.name）

文件“C:\Spark\python\pyspark\sql\utils.py”，第 63 行，装饰形式返回 f(*a, **kw)

文件“C:\Spark\python\lib\py4j-0.10.4-src.zip\py4j\protocol.py”，第 319 行，在 get_return_value 中格式（target_id，“。”，名称），值）

Py4JJavaError：调用 o806.showString 时发生错误。 : org.apache.spark.SparkException：作业由于阶段失败而中止：阶段 47.0 中的任务 0 失败 1 次，最近一次失败：丢失任务 0.0 阶段 47.0（TID 83，本地主机，执行器驱动程序）：org.apache.spark.api.python.PythonException：Traceback（最新最后调用）：文件 “C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 174 行，在 main 中文件“C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 169 行，位于处理文件“C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，文件中的第 106 行 “C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 92 行，位于文件“C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 70 行，在文件“”第 5 行中，在forwardfil UnboundLocalError中：引用了局部变量“PRV_RANK” 分配之前

在 org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193) 在 org.apache.spark.api.python.PythonRunner$$anon$1。(PythonRDD.scala:234) 在 org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152) 在 org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1.apply(BatchEvalPythonExec.scala:144) 在 org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1.apply(BatchEvalPythonExec.scala:87) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:797) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:797) 在 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) 在 org.apache.spark.scheduler.Task.run(Task.scala:99) 在 org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:748)

驱动程序堆栈跟踪：位于 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1435) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1423) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1422) 在 scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59) 在 scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48) 在 org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1422) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802) 在 scala.Option.foreach(Option.scala:257) 处 org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:802) 在 org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1650) 在 org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1605) 在 org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1594) 在 org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48) 在 org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:628) 在 org.apache.spark.SparkContext.runJob(SparkContext.scala:1925) 处 org.apache.spark.SparkContext.runJob（SparkContext.scala：1938）在 org.apache.spark.SparkContext.runJob（SparkContext.scala：1951）在 org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:333) 在 org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38) 在 org.apache.spark.sql.Dataset$$anonfun$org$apache$spark$sql$Dataset$$execute$1$1.apply(Dataset.scala:2386) 在 org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:57) 在 org.apache.spark.sql.Dataset.withNewExecutionId(Dataset.scala:2788) 在 org.apache.spark.sql.Dataset.org$apache$spark$sql$数据集$$执行$1(Dataset.scala:2385) 在 org.apache.spark.sql.Dataset.org$apache$spark$sql$数据集$$收集(Dataset.scala:2392) 在 org.apache.spark.sql.Dataset$$anonfun$head$1.apply(Dataset.scala:2128) 在 org.apache.spark.sql.Dataset$$anonfun$head$1.apply(Dataset.scala:2127) 在org.apache.spark.sql.Dataset.withTypedCallback（Dataset.scala：2818）在 org.apache.spark.sql.Dataset.head(Dataset.scala:2127) 处 org.apache.spark.sql.Dataset.take(Dataset.scala:2342) 在 org.apache.spark.sql.Dataset.showString(Dataset.scala:248) 在 sun.reflect.GenerateMethodAccessor35.invoke（来源未知）位于 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 处 py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) 在 py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) 在 py4j.Gateway.invoke(Gateway.java:280) 在 py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 在 py4j.commands.CallCommand.execute(CallCommand.java:79) 处 py4j.GatewayConnection.run(GatewayConnection.java:214) 在 java.lang.Thread.run(Thread.java:748) 原因： org.apache.spark.api.python.PythonException：回溯（最新最后调用）：文件 “C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 174 行，在 main 中文件“C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 169 行，位于处理文件“C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，文件中的第 106 行 “C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 92 行，位于文件“C:\Spark\python\lib\pyspark.zip\pyspark\worker.py”，第 70 行，在文件“”第 5 行中，在forwardfil UnboundLocalError中：引用了局部变量“PRV_RANK” 分配之前

在 org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193) 在 org.apache.spark.api.python.PythonRunner$$anon$1。(PythonRDD.scala:234) 在 org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152) 在 org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1.apply(BatchEvalPythonExec.scala:144) 在 org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1.apply(BatchEvalPythonExec.scala:87) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:797) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:797) 在 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) 在 org.apache.spark.scheduler.Task.run(Task.scala:99) 在 org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 还有 1 个

df.withColumn("ffill_new", f.UserDefinedFunction(lambda x: x or 0, IntegerType())(df["id"])).show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？的相关文章

在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

以编程方式更改 android 按钮可绘制图标颜色

我想以编程方式更改按钮的图标颜色在我的 xml 上我有 android drawableTint color colorPrimary android drawableTop drawable ic car black 24dp 要设置
当来源为 http 且目标 url 为 https 时，如何在本地网络中发出 POST 请求？

我需要从 POS 销售点 http 向支付终端 https 发出 POST 请求它们连接在我的本地网络中当我向邮递员发出请求时一切正常但每当我从 POS 发出请求时我都会收到错误 POSThttps 我的IP地址 8443 nex
如何从 Mercurial 中的“主”存储库获取 Google 代码托管项目的更改？

我从 code google com 上托管的项目创建了一个服务器克隆我从我的机器中的该存储库创建一个克隆并推送一些更改一切顺利现在主存储库有一些更改我想拉取它们如何使用这些更改更新我的服务器克隆 hg pull u go
为什么独立的 C hello 程序在用作动态链接器时会崩溃

以下程序 include
为什么我看到开放的 JDK 1.8 而不是 Java 8？

当我像这样检查我的 Java 版本时 java version I see openjdk version 1 8 0 runtime environment build 但我以为我有Java 8安装为什么版本号显示为1 8 From J
带有 mvn devserver 的 Google App Engine Java 失败：缺少“guestbook/target/guestbook-1.0-SNAPSHOT”

我试图通过简单的使用 Java 的 Google App Engine 教程 https developers google com appengine docs java gettingstarted ui and code 但是当我尝试
从 Ajax 调用时不渲染布局

我有一个名为 index 的 Rails 操作它可以呈现页面的内容以及布局当我使用浏览器执行 index 操作时它的工作方式与预期一致我还希望能够通过使用 Ajax 调用此操作来呈现此操作我使用以下命令来执行此操作 jQuery
未初始化的常量 Sprockets::Engines (NameError)

我正在使用 Ubuntu 18 04 Ruby 2 6 3 和 Rails 6 我正在开发一个新的 Rails 项目当我启动服务器时出现以下错误 gt rails s gt Booting Puma gt Rails 6 0 2 1 a
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
.Net StreamWriter.BaseStream，这个定义是什么意思？ “获取与后备存储接口的底层流。”

我正在读关于StreamWriter今天偶然发现了这个楼盘 BaseStream 我正在寻找定义并发现了这个获取与后备存储接口的底层流从这里MSDN StreamWriter BaseStream http msdn microsof
检查所有子组件是否已安装

有什么办法可以检测孩子是否已经挂载了吗当我初始化同位素时必须安装所有子组件才能初始化超时时间为 5 毫秒它按预期工作但我确信有更好的方法 componentDidMount function var container this
MySQL JDBC 连接上的故障转移？

我正在尝试确定如何使用 MySQL JDBC 驱动程序实现高可用性解决方案似乎有一个我可以设置的故障转移属性但我想知道当使用 MySQL 和 JDBC 实现简单的故障转移机制时人们倾向于使用什么我们计划将 2 个前端 Tomcat
Sharepoint 日历中的日期提醒

我有一个部门维护大约每三个月需要进行一次维护本身无法自动化它涉及物理交换主要网络硬件和备用网络硬件以验证备用网络硬件是否仍然正常工作我可以将其作为 Outlook 中的重复事件并给它一个两周的提醒窗口但我不希望它与个人帐户绑定
GWT GIN 现场级注入

我们正在评估 GWT 项目中使用 GIN 的情况并通过构造函数参数进行典型注入取得了良好的结果我们遇到的困难是现场级注入这些字段最终总是为空有没有人有一个很好的例子来说明如何使用 GIN 正确实现字段级注入 Update 这是一些
如何从数据库模式自动生成示例 Django 应用程序？

我正在评估概念验证应用程序的框架该应用程序的生命周期约为 30 天之后它将被遗忘或完全重写我已确定要从现有数据库模式自动生成示例应用程序然后调整视觉设计的某些方面我看过一个演示红宝石 on Rails 它会为数据库中的每个表自动生
iOS7状态栏和导航栏问题

我正在将我的应用程序迁移到 iOS 7 为了处理状态栏问题我添加了以下代码 if UIDevice currentDevice systemVersion floatValue gt 7 0f CGRect frame self navi
如何识别 C++ while 循环中的最后一次迭代？

我该如何做才能让最后一个玩家的名字没有所以就是 Player online Jim John Tony and not Player online Jim John Tony 我的代码是 bool Commands whoIsOnline
将 LocalDate 转换为 DD/MM/YYYY LocalDate [重复]

这个问题在这里已经有答案了我有一个字符串DD MM YYYY日期格式我想检查新日期是否比今天老 I use LocalDate now 但是当我运行此代码时出现异常 LocalDate today LocalDate now Date
Wildfly / Undertow ：一台主机的多个别名

In 独立配置 standalone full xml 我已经声明了以下主机即works
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？ 的相关文章

随机推荐

热门标签

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？的相关文章