Pyspark：使用 DataFrame 的最后一次观察进行前向填充

2023-12-14

使用 Spark 1.5.1，

我一直在尝试转发填充空值与最后已知的观察一栏我的数据框。

可以从空值开始，对于这种情况，我将用第一个已知的观察值向后填充该空值。但是，如果这使代码过于复杂，则可以跳过这一点。

In this post，Scala 中的解决方案针对非常相似的问题提供了zero323.

但是，我不了解 Scala，而且我没有成功地在 Pyspark API 代码中“翻译”它。用 Pyspark 可以做到吗？

感谢您的帮助。

下面是一个简单的示例输入：

| cookie_ID     | Time       | User_ID   
| ------------- | --------   |------------- 
| 1             | 2015-12-01 | null 
| 1             | 2015-12-02 | U1
| 1             | 2015-12-03 | U1
| 1             | 2015-12-04 | null   
| 1             | 2015-12-05 | null     
| 1             | 2015-12-06 | U2
| 1             | 2015-12-07 | null
| 1             | 2015-12-08 | U1
| 1             | 2015-12-09 | null      
| 2             | 2015-12-03 | null     
| 2             | 2015-12-04 | U3
| 2             | 2015-12-05 | null   
| 2             | 2015-12-06 | U4

以及预期的输出：

| cookie_ID     | Time       | User_ID   
| ------------- | --------   |------------- 
| 1             | 2015-12-01 | U1
| 1             | 2015-12-02 | U1
| 1             | 2015-12-03 | U1
| 1             | 2015-12-04 | U1
| 1             | 2015-12-05 | U1
| 1             | 2015-12-06 | U2
| 1             | 2015-12-07 | U2
| 1             | 2015-12-08 | U1
| 1             | 2015-12-09 | U1
| 2             | 2015-12-03 | U3
| 2             | 2015-12-04 | U3
| 2             | 2015-12-05 | U3
| 2             | 2015-12-06 | U4

另一种解决方法是尝试这样的方法：

from pyspark.sql import functions as F
from pyspark.sql.window import Window

window = (
    Window
    .partitionBy('cookie_id')
    .orderBy('Time')
    .rowsBetween(Window.unboundedPreceding, Window.currentRow)
)

final = (
    joined
    .withColumn('UserIDFilled', F.last('User_ID', ignorenulls=True).over(window))
)

因此，它所做的就是根据分区键和顺序列构建窗口。它还告诉窗口回顾窗口内的所有行直到当前行。最后，在每一行，您返回最后一个不为空的值（记住，根据您的窗口，它包括您当前的行）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

Pyspark：使用 DataFrame 的最后一次观察进行前向填充的相关文章

将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过

随机推荐

使用 PHP 从 pdf 中提取内容

您能告诉我如何使用 PHP 从 PDF 文档中提取内容吗格式化是我在这里面临的主要问题因此如果有一些方法可以提取相同格式的内容并将其显示在在线文本编辑器上请告诉我 Thanks 看一下XPDF 我想你可以做 text shell e
防止WebSQL数据库中的SQL注入？（如何处理数据中的引号？）

我目前正在将 mysql 数据库的 xml 导出导入到 websql 数据库中以用于在线移动体验一切工作正常直到我插入的任何字符串中出现双引号通常在 PHP 中我会在插入时使用类似 mysql real escape string
通过网络发送数据并以倍频程绘图

我正在研究一个机器人我的目标是绘制机器人的状态目前我的工作流程是这样的启动程序重定向文件中的输出 robot bash rosrun explo explo node gt states txt 将文件发送到我的本地计算机 rob
在 R 中将大向量分割成区间[重复]

这个问题在这里已经有答案了我对 R 不太擅长我运行了这个循环得到了一个包含 11 303 044 行的巨大结果向量我有另一个由维度为 1681 行的循环产生的向量我希望运行一个chisq test来比较它们的分布但由于它们的长度
jQuery UI 可拖动/可排序/可放置在达到可放置限制时禁用放置

JS Bin 演示 Task 我正在使用 jQuery UI 创建事件调度程序事件有一定的长度以分钟为单位并且可以将它们拖到不同的日期每个日期都有自己的最大长度以分钟为单位在示例中每天的最大长度为 480 分钟并且不应允许插
Electron 带有节点通知程序显示 Windows 10 通知

我正在尝试制作一个简单的应用程序单击按钮时应显示通知问题是通知没有显示但 console logs 正在显示通知应该在开发模式下工作吗意思是只是运行electron 而且我不必构建和安装该应用程序 Windows操作系统版本 W
如何增加 FOR 循环语句中的 FOR 循环值？

我想知道如何增加 FOR 循环语句中的值这是我的代码 function Check var MemoryData Array of byte MemorySignature Array of byte Position integer b
拟合多峰分布

假设我们有两个正态分布的线性组合我认为人们会将结果称为多模态分布 import numpy as np import matplotlib pyplot as plt from scipy stats import norm ls np
查询中的 Linq Convert.ToInt32

我有一些代码 from AspNetUsers in db AspNetUsers join UserDetails in db UserDetails on new Id Convert ToInt32 AspNetUsers UserD
Python 多处理：进程无法启动

我是新来的multiprocessing在Python 2 7 中我尝试运行以下代码 from time import sleep from multiprocessing import Process import multiproce
返回 Haskell 中字符串的第一行

我有一个相当简单的问题但我很困惑基本上我只需要编写一个函数它接受一个字符串将其分成几行接受第一行并以格式正确的 HTML 标题标记返回第一行老实说我只是不知道从哪里开始任何事情都会有所帮助我确实有代码但这只是我用来对输
JDK 7的支持终止如何影响Android开发

Oracle 已宣布他们停止了 JRE 7 的官方更新并且JDK 7 据我所知 Google没有说任何关于JDK 8的信息我猜Android开发的推荐版本是JDK 7 Android 开发是否正式支持 JDK 8 谷歌Android开发p
Visual Studio 2010 中的异步、等待

我在VS2010和VS2012中运行了下面的代码但VS2012只返回响应然后我搜索发现需要在VS2010中启用async和await 然后通过使用 AsyncCtpLibrary dll 引用我启用了它但vs2010仍然没有返回响
Python输入错误

我在 Mac OSX 10 9 5m 上运行 python 2 7 10 但它不起作用这是代码 YourName py name input What is your name n print Hi name 这是错误 Python 2
Uglify 破坏了 npm run build，日志报告没有说明任何特别的内容，npm run dev 可以工作

这是 npm run build 产生的错误消息 ERROR in build js from UglifyJs Unexpected token punc src App vue 40 0 build js 139 6 npm ERR c
跨线程事件信号（Obj-C）的同步/等待设计？

在 Cocoa 应用程序中我有这样的设置主线程 M 可以向某个后台生产者线程 B 提交请求以完成某些工作例如项目 X 的计算结果此后不久另一个后台线程 C 可能需要计算项 X 的结果并且需要同步这些结果线程 C 本身可以
Json 无法与 HttpPost 一起使用，可能围绕 setEntity

我正在使用此代码将其发送到我的 php 文件该文件看起来像这样 file put contents dump txt POST n print r POST true n n n GET n print r GET true 我像这样发送
当表单有一些数据数组时，JQuery如何仅提交更改的字段

我有一个具有一对多关系的数据库结构在html表单中有类似的输入名称为 item 或 file 使数据成为数组
如何在 iOS6 上调整 MKAnnotationView 的大小？

调整 MKAnnotationView 图像大小地图何时放大和缩小该方法在iOS5上成功但在iOS 6上失败我直接更改 MKAnnotationView 的变换但没有成功 MKAnnotationView仅在瞬间调整大小当在MK
Pyspark：使用 DataFrame 的最后一次观察进行前向填充

使用 Spark 1 5 1 我一直在尝试转发填充空值与最后已知的观察一栏我的数据框可以从空值开始对于这种情况我将用第一个已知的观察值向后填充该空值但是如果这使代码过于复杂则可以跳过这一点 In this post Scala

Pyspark：使用 DataFrame 的最后一次观察进行前向填充

Pyspark：使用 DataFrame 的最后一次观察进行前向填充 的相关文章

随机推荐

热门标签

Pyspark：使用 DataFrame 的最后一次观察进行前向填充的相关文章