pyspark 滞后函数（基于列）

2023-12-14

我想实现以下目标

lag(column1,datediff(column2,column3)).over(window)

偏移量是动态的。我也尝试过使用UDF，但没有成功。

有什么想法如何实现上述目标吗？

论点count of the lag函数采用整数而不是列对象：

psf.lag(col, count=1, default=None)

因此它不可能是一个“动态”值。相反，您可以在列中构建滞后，然后将表与其自身连接起来。

首先让我们创建我们的数据框：

df = spark.createDataFrame(
    sc.parallelize(
        [[1, "2011-01-01"], [1, "2012-01-01"], [2, "2013-01-01"], [1, "2014-01-01"]]
    ), 
    ["int", "date"]
)

我们想要枚举行：

from pyspark.sql import Window
import pyspark.sql.functions as psf
df = df.withColumn(
    "id", 
    psf.monotonically_increasing_id()
)
w = Window.orderBy("id")
df = df.withColumn("rn", psf.row_number().over(w))
    +---+----------+-----------+---+
    |int|      date|         id| rn|
    +---+----------+-----------+---+
    |  1|2011-01-01|17179869184|  1|
    |  1|2012-01-01|42949672960|  2|
    |  2|2013-01-01|68719476736|  3|
    |  1|2014-01-01|94489280512|  4|
    +---+----------+-----------+---+

现在建立滞后：

df1 = df.select(
    "int", 
    df.date.alias("date1"), 
    (df.rn - df.int).alias("rn")
)
df2 = df.select(
    df.date.alias("date2"), 
    'rn'
)

最后我们可以加入它们并计算日期差：

df1.join(df2, "rn", "inner").withColumn(
    "date_diff", 
    psf.datediff("date1", "date2")
).drop("rn")

    +---+----------+----------+---------+
    |int|     date1|     date2|date_diff|
    +---+----------+----------+---------+
    |  1|2012-01-01|2011-01-01|      365|
    |  2|2013-01-01|2011-01-01|      731|
    |  1|2014-01-01|2013-01-01|      365|
    +---+----------+----------+---------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

pyspark 滞后函数（基于列）的相关文章

pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

原生 javascript 中的 jQuery index()

根据 jQuery api get 的补充操作它接受索引并返回 DOM 节点 index 可以获取 DOM 节点并返回索引假设我们页面上有一个简单的无序列表 ul li foo li li bar li li baz li ul ind
如何用假测试模块替换 Guice 模块进行单元测试？

这是我们的使用方式Guice在新的应用程序中 public class ObjectFactory private static final ObjectFactory instance new ObjectFactory private
在 Qt 中创建旋转进度条

Create Spin Progress bar in Qt I want to show progress bar like the one which appears while loading Please Find Image 我的
DNS 消息是否将名称填充为偶数字节？

初步说明是的我知道 DNS 库和易于使用的 DNS 服务器的存在我这样做纯粹是为了学术目的并了解 DNS 查询的工作原理问题我在看RFC 1035了解 DNS 消息的工作原理我想我或多或少理解了该备忘录中的所有内容然而有一
pygame 与海龟崩溃

我收到此错误代码 2017 04 13 03 04 14 958 Python 606 839244 SDLApplication setup unrecognized selector sent to instance 0x1007a0d
SQL Server 2005 中的临时表不会自动删除

我正在对一个令人讨厌的存储过程进行故障排除并注意到在运行它之后并且我已经关闭了会话许多临时表仍然留在 tempdb 中他们的名字如下 000E262B 002334C4 004E1D4D 00583EEE 00783A7F 0083
使用 MTKTextureLoader 加载远程图像

我正在尝试将远程图像加载到MTLTexture用这个代码 let textureLoader MTKTextureLoader device device textureLoader newTexture withContentsOf ur
从Github API获取特定的README.md数据

最近我开始尝试使用 GitHub API 从公共存储库获取特定数据长话短说我想从存储库中获取 README md 文件的特定部分例如来自 Facebook 的 React 存储库的 master 分支我想抓取下面的文本文档Git
最小列总和差是多少？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案想象一下给定一个正整数矩阵最大 25 15 数字值不超过 3000000 当您进行列求和并选择最小和最大的一项时它们之间的差异必须尽可能小您可以根据需要交换每行中的数字
以 HTML 形式显示的 LaTeX 表格

我有以下 LateX 表在以下情况下按预期呈现format pdf title Test Table format pdf begin center begin tabular l l l hline Var Class Descript
用户名网址，例如 twitter 和 facebook

twitter 和 facebook 等如何制作唯一的 url 例如 twitter com billgates 如果我想做同样的事情为我的用户提供带有用户名的唯一网址它是一个应用程序还是您为每个用户创建一个带有索引页面的目录顺便说一
InvalidParameterValueException：无法访问流

我正在尝试使用 Terraform 创建 dynamodb 表和 lambda 触发器这就是我定义表角色策略和 lambda 触发器的方式 resource aws dynamodb table filenames name local
如何更新数组中嵌套的数组中的项目

我通过最新的 C 驱动程序此时为 v2 7 0 使用 MongoDB 4 0 我有一份文件其中有Options and Options have Inventory 换句话说库存数组嵌套在选项数组中如何了解库存水平并仅更新库存以下
如何读取和修改已绘制的 Google 图表上的轴？

我有一个页面上面有几个谷歌图表主要是组合图和折线图例如 chart new google visualization LineChart chartDiv 绘制页面后我希望能够读取轴上的最大值然后重新绘制图表以便它们在轴上都具有
当存在多个路由时，使用查询字符串进行路由属性路由

我有这个 HttpGet Route Cats public IHttpActionResult GetByCatId int catId HttpGet Route Cats public IHttpActionResult GetByN
在 Ant 复制任务过滤器中获取文件名

是否可以获取 Ant 复制任务中正在复制的当前文件名我正在尝试运行 beanshell 脚本并希望访问当前文件名
错误：无法在属性初始值设定项中使用实例成员 - Swift 3

当我编译以下代码时出现错误无法在属性初始值设定项中使用实例成员 AddEployeeName 属性初始值设定项在 self 可用之前运行你能帮忙解决这个错误吗该计划允许员工输入姓名并拍摄照片 class AddEmployeeVie
具有复杂形状的 ggplot 和 grid.picture 之间的区别

我希望获得单个字母的 x y 坐标并用 ggplot 绘制它们我在用grImport PostScriptTrace从 Postscript 文件获取 XML 文件从那里我从 Picture 类的 S4 对象中提取 x y 坐标绘制
断言 UITest 中的按钮上存在图像

我在 ZStack 中有一个带有前景图像的按钮 Button action self highlighted self highlighted ZStack Text Text if self highlighted Image highl
pyspark 滞后函数（基于列）

我想实现以下目标 lag column1 datediff column2 column3 over window 偏移量是动态的我也尝试过使用UDF 但没有成功有什么想法如何实现上述目标吗论点count of the lag函数采用

pyspark 滞后函数（基于列）

pyspark 滞后函数（基于列） 的相关文章

随机推荐

热门标签

pyspark 滞后函数（基于列）的相关文章