pyspark：自动填充隐式缺失值

2024-01-19

我有一个数据框

user day amount
a 2 10
a 1 14
a 4 5
b 1 4

你看，最大值day是4，最小值是1，我要填0 for amount列中所有用户的所有缺失天数，因此上面的数据框将变为。

user day amount
    a 2 10
    a 1 14
    a 4 5
    a 3 0
    b 1 4
    b 2 0
    b 3 0
    b 4 0

我怎样才能在 PySpark 中做到这一点？非常感谢。

这是一种方法。您可以先获取最小值和最大值，然后分组user列和枢轴，然后填充缺失的列并将所有空值填充为 0，然后将它们堆叠回去：

min_max = df.agg(F.min("day"),F.max("day")).collect()[0]
df1 = df.groupBy("user").pivot("day").agg(F.first("amount").alias("amount")).na.fill(0)

missing_cols = [F.lit(0).alias(str(i)) for i in range(min_max[0],min_max[1]+1) 
                                                if str(i) not in df1.columns ]
df1 = df1.select("*",*missing_cols)

#+----+---+---+---+---+
#|user|  1|  2|  4|  3|
#+----+---+---+---+---+
#|   b|  4|  0|  0|  0|
#|   a| 14| 10|  5|  0|
#+----+---+---+---+---+

#the next step is inspired from https://stackoverflow.com/a/37865645/9840637
arr = F.explode(F.array([F.struct(F.lit(c).alias("day"), F.col(c).alias("amount"))
                                           for c in df1.columns[1:]])).alias("kvs")
(df1.select(["user"] + [arr])
    .select(["user"]+ ["kvs.day", "kvs.amount"]).orderBy("user")).show()

+----+---+------+
|user|day|amount|
+----+---+------+
|   a|  1|    14|
|   a|  2|    10|
|   a|  4|     5|
|   a|  3|     0|
|   b|  1|     4|
|   b|  2|     0|
|   b|  4|     0|
|   b|  3|     0|
+----+---+------+

请注意，由于列日已旋转，数据类型可能已更改，因此您可能必须cast他们回到原来的数据类型

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

pyspark：自动填充隐式缺失值的相关文章

如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
按年份进行透视并获取 2020 年以来的金额总和

我有这样的数据我想按年份旋转并仅显示 2020 年以来的总数我该如何实现这一目标您可以使用以下方法实现此目的PIVOT https spark apache org docs 3 2 1 api python reference ap
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
如何从 pyspark 中的数据框中选择一系列行

我有一个包含 10609 行的数据框我想一次将 100 行转换为 JSON 并将它们发送回 Web 服务我尝试过使用 SQL 的 LIMIT 子句例如 temptable spark sql select item code 1 fr
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob

随机推荐

如何在 Vue 生态系统之外使用 Vue 3 响应式对象

我试图在微前端应用程序中传递这样创建的全局状态但问题是我必须以某种方式观察更改以便在 React 应用程序中设置 State 全局状态 js import reactive from vue const globalState re
Chrome 扩展图标清单

如何更改此页面中的 Chrome 扩展程序图标这是我的清单代码 manifest version 2 name Demo description This is demo version 1 0 browser action defaul
ASP.Net Session_Start 总是触发

我对以下内容有点困惑我在 Global asx 的 Session Start 中设置了一个带有一些逻辑的 asp net 网站我预计这甚至只会在会话期间触发一次然而每个请求都会触发该事件当我声明一个虚拟会话对象时这解决了问题
使用 Mockito 2 模拟期末课程

我正在从我当前正在进行的项目中删除 Powermock 因此我尝试仅使用 Mockito mockito core 2 2 28 重写一些现有的单一测试当我运行测试时出现以下错误 org mockito exceptions base
如何声明其类没有默认构造函数的对象数组？

如果一个类只有一个构造函数和一个参数如何声明数组我知道在这种情况下推荐使用向量例如如果我有一堂课 class Foo public Foo int i 如何声明一个包含 10000 个 Foo 对象的数组或向量对于数组您必须在定
如何将 .env 文件中的环境变量读取到 terraform 脚本中？

我正在使用 terraform 在 aws 上构建 lambda 函数 terraform 脚本中用于上传环境变量的语法是 resource aws lambda function name of function environment
CSS Transition 相当于 jQuery fadeIn()、fadeOut()、fadeTo()

我有这个 button1 click function header bg fadeTo 15 0 function document getElementById header bg style fill FF0000 fadeTo sl
完全通过 FIFO 连接到 MySQL 客户端

在 Bash 脚本中我想在多个顺序访问中保持 MySQL 会话打开访问 MySQL 的常见方法是为每个 SQL 命令或命令集打开一个单独的会话例如 mysql u user e show tables 此方法的限制是那些需要双重事务的
Django settings.AUTH_USER_MODEL 在单独的模块中定义

表达我的事情的正确方式是什么AUTH USER MODEL 我有以下一组文件夹结构后端 API 楷模用户 py user py位于内models folder 在设置 py中 AUTH USER MODEL myapp User IN
有没有办法在 JavaFX LineChart 中断开串联的 2 个点？

我在 LineChart 上有四个系列每个系列都包含一定数量的按时间划分的图表默认情况下 LineChart 连接这些图表它看起来很难看并且在上下文中没有任何意义所以我想将它们分开但保留颜色和图例换句话说我想要的是删除两个特定
Spring框架中的依赖注入和控制反转是什么？

依赖注入和控制反转经常被认为是使用 Spring 框架开发 Web 框架的主要优点如果可能的话有人可以用一个非常简单的术语解释它是什么吗 Spring 有助于创建松散耦合的应用程序因为依赖注入在 Spring 中对象定义它们
C++ 自省技术，类似于 python

C 中是否有像 Python 中那样的自省技术例如我想获取有关特定对象的更多信息而不需要通过头文件或引用 cpp 引用我是问了一个正确的问题还是走错了方向 Update 根据以下答案这个答案与我的问题相关如何向 C 应用程序添
Blaze：{{#if}} 语句中的逻辑（Not、Or、And...）

有没有办法在 if 语句中进行逻辑运算我希望有这样的事情 if A B some html if 我在 blaze 中找不到有关逻辑的文档所以我猜它不受支持我只是想确定一下抱歉问了一个相当愚蠢的问题正如 Billy Bob 所建议
Express.js：如何获取 ip 地址并渲染视图？

我真的认为这应该很容易但是当我渲染一个jade模板时我也想抓取ip地址我的代码看起来像这样 app js app get index home index js exports home function req res res re
C# 中的外部 IP 地址

在 C 中获取外部 IP 地址的最简单方法是什么框架内没有内置的方法来执行此操作因为很难确定外部公共 IP 地址是什么当然这是假设您的 IP 在某个网关后面经过 NAT 一种方法是抓取类似的网站http www whatismyi
解释错误：ISO C++ 禁止声明没有类型的“Personlist”

我有一个类将处理我之前创建的另一个类的对象数组效果很好当我尝试创建列表类的对象时出现问题这是列表类的标题 ifndef personlistH define personlistH include Person h include
如何从当前月份中选择当前日期

我想检索当月 1 30 之间的数据我正在使用 MSACCESS Dbase 来执行此操作下面是我正在尝试的查询 SELECT count usercategory as category count usercategory FROM
VS Code 扩展安全如何处理？

我已经使用 VS Code 一年左右了我不知道 VS Code Extension 安全性是如何处理的我对这样的事情感到震惊 Markdown 预览增强 https marketplace visualstudio com items
CRA + React Leaflet：编译失败

我刚刚开始一个全新的项目create react app并设置react leaflet正如他们的文档所建议的here https react leaflet js org docs start installation 我正在尝试使用这个
pyspark：自动填充隐式缺失值

我有一个数据框 user day amount a 2 10 a 1 14 a 4 5 b 1 4 你看最大值day是4 最小值是1 我要填0 for amount列中所有用户的所有缺失天数因此上面的数据框将变为 user day am

pyspark：自动填充隐式缺失值

pyspark：自动填充隐式缺失值 的相关文章

随机推荐

热门标签

pyspark：自动填充隐式缺失值的相关文章