如何计算 PySpark 中行之间的差异？

2024-01-03

这是我在 PySpark 中的数据框：

utc_timestamp               data    feed
2015-10-13 11:00:00+00:00   1       A
2015-10-13 12:00:00+00:00   5       A
2015-10-13 13:00:00+00:00   6       A
2015-10-13 14:00:00+00:00   10      B
2015-10-13 15:00:00+00:00   11      B

的价值观data是累积的。

我想得到这个结果（连续行之间的差异，按feed):

utc_timestamp               data    feed
2015-10-13 11:00:00+00:00   1       A
2015-10-13 12:00:00+00:00   4       A
2015-10-13 13:00:00+00:00   1       A  
2015-10-13 14:00:00+00:00   10      B
2015-10-13 15:00:00+00:00   1       B

In pandas我会这样做：

df["data"] -= (df.groupby("feed")["data"].shift(fill_value=0))

我怎样才能在 PySpark 中做同样的事情？

您可以使用以下方法执行此操作lag https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.lag带窗口的函数：

from pyspark.sql.window import Window
import pyspark.sql.functions as f

window = Window.partitionBy("feed").orderBy("utc_timestamp")

df = df.withColumn("data", f.col("data") - f.lag(f.col("data"), 1, 0).over(window))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

如何计算 PySpark 中行之间的差异？的相关文章

当参数为 0 与任何其他整数时，如何为返回不同类型的函数创建重载注释？

是否可以为当参数为时返回不同类型的函数创建重载注释0与任何其他整数 def foo val int gt MyObjectA MyObjectB if val 0 return MyObjectA return MyObjectB 有没有办
如何将 Jupyter Notebook 的代码片段与 VSCode 结合使用？

我已经使用 VSCode 一段时间了目前我正在尝试设置代码片段来工作它们似乎适用于简单的 Python py 文件但不适用于 Jupyter Notebook ipynb 文件有什么办法可以让他们一起工作吗片段就在这里 Creat
OpenPyXL - 如何查询单元格边框？

python 和 openpyxl 都是新的编写一个 py 脚本来遍历大量 Excel 工作簿工作表并且需要找到由边框格式标识的某些单元格我在网上看到几个关于如何设置单元格边框的示例但我需要阅读它们具体来说当表内的数据不一致但
Django管理命令是在单独的进程中执行的吗？

Django 有很多管理命令此外我们还可以编写自己的命令进行 shell 调用后会发生什么python manage py XXX 代码是否会在从 shell 启动的进程中执行或者 shell 进程只是与执行命令的主 Django
Python 中的自然日/相对日

我想要一种在 Python 中显示日期项目的自然时间的方法类似于 Twitter 将显示刚才几分钟前两小时前三天前等消息 Django 1 0 在 django contrib 中有一个人性化方法我没有使用 Django
代码运行时出现内存问题（Python、Networkx）

我编写了一个代码来生成具有 379613734 条边的图但由于内存问题代码无法完成当经过 6200 万行时大约会占用服务器内存的 97 所以我杀了它您有解决这个问题的想法吗我的代码是这样的 import os sys impor
time.sleep - TypeError：需要一个浮点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 time sleep 2 TypeError a float is required 我该如何解决我不确定我应该在这里做什么您
在 Flask 中将配置文件作为字典读取

在 instance app cfg 我已经配置 test test 在我的烧瓶文件 app py 中 with app open instance resource app cfg as f config f read print con
python下安装xgboost 32位msys失败

尝试安装 xgboost 失败 Windows 和企业版版本为 Anaconda 2 1 0 64 位我该如何继续我一直在使用 R 似乎从 RStudio 在 R 中安装新包相当容易但在间谍程序中则不然因为我需要进入命令窗口来执行此
如何在 Python 中从 C++/C# 紧密实现 ?: ？

在 C 中我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
如何在Python中使用内联正则表达式修饰符[重复]

这个问题在这里已经有答案了我有一个正则表达式 n DOCUMENTATION n n n 2 s 女巫我正在尝试处理这样的一些文件 usr bin python coding utf 8
Python 请求包含有值的参数和没有值的参数

我正在为 API 编写一个 Python 包装器该 API 支持具有值的查询参数例如param1如下和查询参数do not有价值观例如param2如下即 https example com service param1 value
django 密码重置功能中出现 NoReverseMatch 错误

我正在尝试在 django 中实现密码重置功能下面是我的代码 urls py urlpatterns patterns url r signup accounts views signup name signup email url r
在 Django 中使用 path() 找不到 404

我刚刚查看 django 并尝试通过视图列出书籍id作为 URL 的参数books urls py 但出现 404 页面未找到错误当我在浏览器中输入此网址时我没有发现网址有什么问题 http 192 168 0 106 8000 boo
如何导入 boto3 ssm ParameterNotFound 异常？

我想import the exception当一个boto3 ssm找不到参数get parameter 我正在尝试添加一些额外的内容ssm的功能moto图书馆但我现在很困惑 gt gt gt import boto3 gt gt gt
为什么使用 LAMP 托管时避免使用 CGI for Python？

我已经使用 PHP 多年了最近我在论坛上看到很多帖子说PHP 已经过时了现代编程语言更简单更安全等等所以我决定开始学习Python 由于我习惯使用 PHP 因此我刚刚开始通过上传 htaccess 文件来构建页面 addtype
通过 Selenium 和 python 切换到 iframe

我如何在硒中切换到这个 iframe 只知道您可以使用 XPath 来定位 iframe driver find element by xpath iframe name Dialogue Window Then switch to th
删除aws beanstalk上的uuid python包

这是针对所提出问题的后续帖子问题here https stackoverflow com questions 44421761 flask beanstalk deployment errors 以防万一对其他人有用自从第一篇文章以来
当没有 main 函数时，为什么 sys.settrace 不触发？

import sys def printer frame event arg print frame event arg return printer sys settrace printer x 1 sys settrace None 上
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran

随机推荐

如何对 ExecutorService 为任务生成新线程进行单元测试？

使用 ExecutorService 时一个单元如何测试是否为可运行任务生成了新线程基本上我的应用程序有一个静态线程池 public static final ExecutorService executorService Execu
如何通过管道传输或重定向curl -v 的输出？

由于某种原因输出总是被打印到终端无论我是否通过 2 gt 或 gt 或重定向它有办法解决这个问题吗为什么会发生这种情况 add the s 静默选项删除进度表然后将 stderr 重定向到 stdout 以在与响应正文相同的
始终并行运行恒定数量的子进程

我想使用子进程让编写的脚本的 20 个实例并行运行假设我有一个包含大约 100 000 个条目的大 URL 列表并且我的程序应该控制我的脚本的 20 个实例始终在该列表上工作我想将其编码如下 urllist url1 url2 url
C++11 中的 C 风格回调

在 C 11 项目中我使用需要 C 风格回调的 C 风格第三方库在我的例子中为curl 为了实现这一点我使用了指向成员的指针运算符 size t c callback wrapper char ptr size t size si
onClick 不起作用

我想使用 JS 将表格行转换为链接我的它看起来像这样 tr 但是当我尝试单击时它并没有按照我想要的方式进入页面事实上点击似乎没有任何动作有什么帮助吗 Edit 至于引用我忘了提及我是用 PHP 来回应这一点的这是我更新的代码
外键引用同一个表

有一次面试测试下面是表格和结构 Table Person id name dob dod mother id father id Primary Key id Foreign Key mother id references Person
在 Electron 应用程序中导航 Angular 路线时出现空白屏幕

我目前正在使用 Electron 编写一个桌面混合应用程序并与 AngularJS 集成进行路由等请参阅以下角度配置 app config function routeProvider locationProvider routePro
在 C# 中解析 SQL 字符串

我需要解析一个Command CommandText 我不想运行查询我只想看看如果执行命令查询是否会成功说我有 SELECT FROM SomeTable WHERE 1 1 该字符串将会成功 but SELECT FROM Some
如何知道用户何时离开页面并刷新页面

我想在用户离开页面之前进行 AJAX 调用基本上是在离开页面之前和刷新页面之前如何才能做到这一点我试图用 jQuery 搜索一些东西但没有得到任何结果我尝试使用以下代码 window onbeforeunload function
mysql 查询是否可以返回 true/false 而不是值？

我有一张桌子 custID orderID orderComponent 1 123 pizza 1 123 wings 1 234 breadsticks 1 239 salad 2 456 pizza 2 890 salad 我有一个值
在构建情况下验证所属关联

我有一个任务模型它有很多任务并且任务属于任务为了安全起见我对任务模型进行了验证 validates presence of mission id validates numericality of mission id 但问题是当
IPFS：如何将文件添加到现有文件夹？

给定一个相当大的文件夹它已经被推送到网络并在本地删除如何将文件添加到该文件夹而不重新下载整个文件夹你只能通过使用来做到这一点ipns再次下载后ipfs get 如果它仍然固定到本地存储那么应该会很快 1 首先将您的文件夹递归添加
为什么 `vector v{{5,6}};` 有效？我以为只允许使用一对 {}？

给定一个类A有两个构造函数取initializer list
在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法

我有两个无符号向量大小均为 4 vector
EPPlus 依赖循环

从 PowerShell 安装 EPPlus 时我得到以下信息所有命令都是第一次运行 PackageSource Get PackageSource Name PSGallery if PackageSource IsTrusted S
如何在 django 视图中将一个页面重定向到另一个页面时延迟 5 秒

我使用了这段代码但我想要的延迟没有实现我希望它在那里停留至少 5 秒 from django http import HttpResponseRedirect def myview request return HttpResponse
mysqli_real_escape_string 安全吗？

我是 PHP 新手我意识到使用 php 表单带有用户和传递文本输入的数据库连接是完全不安全的这是可行的但不安全所以我读过有关 mysqli real escape string 的内容并决定尝试一下
laravel 5.4 MIME 自定义错误消息不起作用？

Dearest 我想为上传的图像制作自定义错误消息这是我的控制器代码 protected function validator data validateContent messages imgUserAvatar mimes gt Fi
Riverpod：摄取 REST API 的简单方法

我目前正在构建一个应用程序该应用程序摄取 WordPress REST API 来显示博客文章在初始应用程序加载时我希望它使用一种方法提取初始数据然后通过用户交互提取更多帖子我目前正在进行这项工作但是我的实现似乎很复杂并且可
如何计算 PySpark 中行之间的差异？

这是我在 PySpark 中的数据框 utc timestamp data feed 2015 10 13 11 00 00 00 00 1 A 2015 10 13 12 00 00 00 00 5 A 2015 10 13 13 00

如何计算 PySpark 中行之间的差异？

如何计算 PySpark 中行之间的差异？ 的相关文章

随机推荐

热门标签

如何计算 PySpark 中行之间的差异？的相关文章