pyspark fillna 不适用于 ArrayType 列

2023-12-03

我有一个 Spark 集群版本 3.1.2。我有以下输入数据

+-------+------+------------+
|   name|gender|         arr|
+-------+------+------------+
|  James|     M|     [60000]|
|Michael|     M| [70000, 31]|
| Robert|  null|[44, 400000]|
|  Maria|     F|[500000, 12]|
|    Jen|      |        null|
+-------+------+------------+

我必须从所有列中删除空值。 “gender”列是 StringType，而“arr”列是 ArrayType。两列中的某些值均为空。当我应用 fillna 函数时，值将从性别列中删除，但不会从 arr 列中删除。看看输出

>>> df.fillna("").show()
+-------+------+------------+
|   name|gender|         arr|
+-------+------+------------+
|  James|     M|     [60000]|
|Michael|     M| [70000, 31]|
| Robert|      |[44, 400000]|
|  Maria|     F|[500000, 12]|
|    Jen|      |        null|
+-------+------+------------+

如果我使用 na.drop 或 na.fill 函数，也会发生同样的情况。哪里有问题？如何从 arr 列中删除 null

fillna只支持int, float, string, bool数据类型，具有其他数据类型的列将被忽略。

例如，如果值是字符串，并且子集包含非字符串列，则该非字符串列将被忽略。(doc)

您可以更换null数组列中的值使用when and otherwise结构体。

import pyspark.sql.functions as F
default_value = F.array().cast("array<int>")
fill_rule = F.when(F.col('arr').isNull(),default_value).otherwise(F.col('arr'))
df.withColumn('arr', fill_rule).show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

pyspark fillna 不适用于 ArrayType 列的相关文章

将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori

随机推荐

if 语句中 setState() 的问题

if 语句中的 setState morePage true pageNum 1 if morePage this setState pageNum this state pageNum 1 console log this state p
我的电子邮件总是进入垃圾邮件文件夹[关闭]

Closed 这个问题是无关目前不接受答案在我的服务器中我通过 PHP 发送邮件但我的邮件总是进入垃圾邮件文件夹我做了spf记录但这并不重要我还在这个域中使用谷歌应用服务请帮忙邮件原文 Delivered To email
XPath 和 PHP：无法正常工作

这是我的代码 XML lt lt
Code First 迁移 - Update-database -script 命令生成的 SQL 脚本不起作用

我必须通过 Entity Framework 5 使用以下模型创建一个数据库 public class Post public int PostId get set MaxLength 200 public string Title get
在 Google Dataproc 集群实例中的 Spark-Submit 上运行应用程序 jar 文件

我正在运行一个 jar 文件其中包含我需要打包在其中的所有依赖项这种依赖关系之一是com google common util concurrent RateLimiter并已经检查过它的类文件是否在此 jar 文件中不幸的是当我在
填充二进制对象内的漏洞

我在填充黑色硬币内的白洞时遇到问题因此我只能得到 0 255 个填充黑色硬币的二值图像我已经使用中值过滤器来完成它但在这种情况下硬币之间的连接桥会增长并且经过几次侵蚀后不可能识别它们所以我需要一个简单的floodFill类似op
dc.js 饼图图例 - 如果结果为 0 则隐藏

如果结果为 0 是否可以删除隐藏饼图的图例我有一个饼图图例中有相当多的项目当进行一些过滤时删除不可用的图例会很棒任何帮助将不胜感激重新绘制图表时图例确实会呈现但这里的问题是图例是从数据中绘制的并且交叉过滤器不会自动消除
构建可以创建内容作为 Plone 安装的一部分吗？

我正在尝试为站点实现 Plone 的可重复部署并使用构建基本上遵循 Martin Aspeli 的书专业Plone 4开发我可以使用我的源产品设置系统
Azure Data Studio 中的形状渲染

我无法在 Azure Data Studio Notebooks 中运行 shap initjs 放弃在 Azure 社区论坛或其他地方查找问题 shap initjs test sample test x iloc 2000 shap v
Tcl 在使用“$”符号时添加花括号

set B pc 0 mx 0 pi mx 0 puts B set A foreach x B lappend A x puts A 该程序的输出是 pc 0 mx 0 pi mx 0 pc 0 mx 0 pi mx 0 奇怪的是 tcl
由 EditText 组成的自定义 ListAdapter 失去焦点，调用两次

我正在制作一个电子商务应用程序其购物车列表有一个自定义ListView其中包括EditText The EditText代表物品的数量我在用OnFocusChangeListener检测客户何时完成更改商品数量然后更新服务器上的购物车
从根节点 XML 读取值

我有这个 XML A型
修复 UnboundLocalError

def main cash float input How much money coins 0 def changeCounter n while True if cash n gt 0 cash n coins 1 else break
iOS 中 ImageView 的阴影效果

我试图为我的 Imageview 提供阴影效果就像这张图片中一样但我面临的问题是阴影实际上从 Imageview 的底部可见这是我添加阴影的代码颜色什么的还是和这个不匹配 CAGradientLayer shadow CAGradi
PHP：发送WORD文档文件下载

这个问题很琐碎有很多答案全部相同或几乎相同但对于我的情况它没有按预期解决目标使用 PHP 将 WORD 文件作为附件发送简单意思是这是代码 send the file to the browser header Cache
在 XSLT 导入/包含中使用动态 href？

The
jquery mobile w/ php 登录表单

我是使用 jquery mobile 和 php 的新手提交后我的登录表单上的提交按钮出现了一些问题它转到 home php 页面但 url 也没有转到 home php 它仍然是 login php 我怎样才能解决这个问题
Android中如何将session_id保存为cookie值并将其发送到服务器？

我正在开发一个使用网络服务调用的应用程序我正在调用我的登录网络服务如下所示 String url http mydomaim com login php UserFunctions userFunction new UserFuncti
如何在php中回显echo？

我有一些基本的 PHP 代码 raceramps56 short My Test Product leftMenu div class leftMenuProductButton div 不会回显 PHP 代码仅回显元素我尝试过类似的事
pyspark fillna 不适用于 ArrayType 列

我有一个 Spark 集群版本 3 1 2 我有以下输入数据 name gender arr James M 60000 Michael M 70000 31 Robert null 44 400000 Maria F 500000 12

pyspark fillna 不适用于 ArrayType 列

pyspark fillna 不适用于 ArrayType 列 的相关文章

随机推荐

热门标签

pyspark fillna 不适用于 ArrayType 列的相关文章