如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

2024-05-25

我有一个如下所示的 Spark DataFrame：

+---------+--------------------------+
|group_id |event_time                |
+---------+--------------------------+
|XXXX     |2017-10-25 14:47:02.717013|
|XXXX     |2017-10-25 14:47:25.444979|
|XXXX     |2017-10-25 14:49:32.21353 |
|YYYY     |2017-10-25 14:50:38.321134|
|YYYY     |2017-10-25 14:51:12.028447|
|ZZZZ     |2017-10-25 14:51:24.810688|
|YYYY     |2017-10-25 14:37:34.241097|
|ZZZZ     |2017-10-25 14:37:24.427836|
|XXXX     |2017-10-25 14:37:24.620864|
|YYYY     |2017-10-25 14:37:24.964614|
+---------+--------------------------+

我想计算一天内每小时的滚动事件数group_id.

所以，对于日期时间25-10 14:00和对于一个group_id，我想计算该事件的计数group_id from 25-10 00:00 till 25-10 14:00.

做如下的事情：

df.groupBy('group_id', window('event_time', '1 hour').alias('model_window')) \
    .agg(dfcount(lit(1)).alias('values'))

计算每小时的事件数，但不累计每天的事件数。

有任何想法吗？

EDIT: 预期的输出类似于：

    +---------+---------------------------------------------+-------+
    |group_id |model_window                                 |values |         
    +---------+---------------------------------------------+-------+
    |XXXX     |[2017-10-25 00:00:00.0,2017-10-25 01:00:00.0]| 10    |
    |XXXX     |[2017-10-25 00:00:00.0,2017-10-25 02:00:00.0]| 17    |
    |XXXX     |[2017-10-25 00:00:00.0,2017-10-25 03:00:00.0]| 22    |
    |YYYY     |[2017-10-25 00:00:00.0,2017-10-25 01:00:00.0]| 0     |
    |YYYY     |[2017-10-25 00:00:00.0,2017-10-25 02:00:00.0]| 1     |
    |YYYY     |[2017-10-25 00:00:00.0,2017-10-25 03:00:00.0]| 9     |
    +---------+---------------------------------------------+-------+

想要计算...每个 group_id 一天内每小时。

提取数据和时间：

from pyspark.sql.functions import col, count, hour, sum

extended = (df
  .withColumn("event_time", col("event_time").cast("timestamp"))
  .withColumn("date", col("event_time").cast("date"))
  .withColumn("hour", hour(col("event_time"))))

计算聚合

aggs = extended.groupBy("group_id", "date", "hour").count()

我想计算事件的滚动计数

并使用窗口函数：

from pyspark.sql.window import Window

aggs.withColumn(
    "agg_count", 
    sum("count").over(Window.partitionBy("group_id", "date").orderBy("hour")))

要为缺失的间隔获取 0，您必须为每个日期和小时生成参考数据并将其加入。

With df定义为：

df = sc.parallelize([
    ("XXXX", "2017-10-25 01:47:02.717013"),
    ("XXXX", "2017-10-25 14:47:25.444979"),
    ("XXXX", "2017-10-25 14:49:32.21353"),
    ("YYYY", "2017-10-25 14:50:38.321134"),
    ("YYYY", "2017-10-25 14:51:12.028447"),
    ("ZZZZ", "2017-10-25 14:51:24.810688"),
    ("YYYY", "2017-10-25 14:37:34.241097"),
    ("ZZZZ", "2017-10-25 14:37:24.427836"),
    ("XXXX", "2017-10-25 22:37:24.620864"),
    ("YYYY", "2017-10-25 16:37:24.964614")
]).toDF(["group_id", "event_time"])

结果是

+--------+----------+----+-----+---------+                                      
|group_id|      date|hour|count|agg_count|
+--------+----------+----+-----+---------+
|    XXXX|2017-10-25|   1|    1|        1|
|    XXXX|2017-10-25|  14|    2|        3|
|    XXXX|2017-10-25|  22|    1|        4|
|    ZZZZ|2017-10-25|  14|    2|        2|
|    YYYY|2017-10-25|  14|    3|        3|
|    YYYY|2017-10-25|  16|    1|        4|
+--------+----------+----+-----+---------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口的相关文章

Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

matplotlib 从颜色栏中删除刻度（轴）

我想删除颜色条右侧带有数字的刻度轴我将 matplotlib 与 python 一起使用如下所示 f plt figure ax f add subplot 1 1 1 i ax imshow mat cmap gray cbar
Perl 脚本中“不在某个 shell 下运行”是什么意思？

在许多 Perl 脚本中特别是在著名的 CPAN 发行版中我发现以下代码 eval exec usr bin perl w S 0 1 if 0 not running under some shell 我想知道它是做什么用的 Than
传递变量值

这是简单的脚本 function parentFunc var x 15 process x parentFunc function process x alert x 现在当页面加载时 parentFunc 正在执行调用process
泽西岛宁静服务通信（IncompleteClassChangeError）

我在 JDK 1 6 http 服务器上创建了一个基于 jersey 1 12 的 Restful 服务外观当我在 Eclipse 中启动应用程序时一切正常我可以毫无问题地与外观进行通信但是当我使用启动脚本通过控制台启动应用程序时
非 Web 项目的 XML 序列化程序集

我正在尝试解决 VS 2010 VB NET 和 C 中自动生成序列化程序集的众所周知的问题项目设置中的生成序列化程序集选项对于非 Web 项目没有任何作用请参阅http blog devstone com aaron archiv
如何使用ggplot2中的线将箱线图的中值与多个组连接起来？

我正在尝试使用 ggplot2 连接箱线图的中值但线条不在正确的位置这是我使用的代码 library datasets library ggplot2 data airquality airquality Month lt factor
C# 的字符串货币格式可以选择最多 6 位十进制数字吗？

经过快速测试 C 的货币格式似乎不支持可选的小数位 CultureInfo ci new CultureInfo en US String Format ci 0 C2 number Always 2 decimals String For
带有图像的 Svg 在 Safari 中不显示

在我的网站中我嵌入了一些 svgs 它们在 Chrome Firefox IE 9 和 Safari 中似乎都工作得很好然而一旦 svg 中包含图像 safari 就不会渲染该图像基于之前的类似主题我尝试了以下内容 SVG 元素在
如何运行 Rails 服务器守护进程？

我是 Rails 世界的新手需要在守护进程模式下运行我的 Rails 测试服务器我注意到有一个 d 标志但它对我不起作用 rails s d 不应该是这样吗它应该是 rails server daemon to kill the s
我可以在不使用 Apache 和 shibd 的情况下将 Shibboleth SSO 集成到我的 Java Web 应用程序中吗？

我正在开发一个使用嵌入式 Jetty 的纯 Java Web 应用程序并且我想集成 Shibboleth 登录为此我正在关注switch ch 的 Shibboleth 服务提供商部署指南 https www switch ch aa
OData 过时代码

我正在尝试按照本教程创建 OData 服务我正在查看有关导航属性的主题 https learn microsoft com en us aspnet web api overview odata support in aspnet web
在嵌套类中使用 super()

想象一下 class A object class B object def init self super B self init 这会产生一个错误 NameError global name B is not defined 我试过了A
如何将监听休眠事件的模块与实体本身解耦？

我有一个由 spring jpa hibernate 驱动的分层 Web 应用程序现在我正在尝试集成 elasticsearch 搜索引擎我想要做的是捕获所有 postInsert postUpdate 事件并将这些实体发送到 elas
Google Map API v3 无法在 IE9 中加载

我尽可能多地研究了这个主题但没有找到解决方案在除 Internet Explorer 版本 8 或 9 之外的所有浏览器中下面的脚本适用于加载 Google 地图在IE8 and IE9但是 Google 地图 API v3 似乎无
更改 Laravel auth 表名称和列名称

我想更改 laravel auth 表的表名和一些列名将表名称从用户更改为帐户将表列名称从名称更改为用户名将表列名称从 email 更改为 email addr 将表列名称从 updated at 更改为 last upd
如何使用 echo 写入非 ASCII 字符？

如何写非ASCII http en wikipedia org wiki ASCII使用 echo 的字符是否有转义序列例如 012或类似的东西我想使用以下方法将 ASCII 字符附加到文件中 echo gt gt file 如果您关
使用 Angularjs，$http 在 Microsoft Edge 中发布返回响应错误

好吧当我开发一个管理页面进行测试时 Microsoft Edge 中出现了一个奇怪的问题这是从loginCtrl js服务器获取响应的部分源代码 http method POST url Define apiUrl admin logi
使用 Node-sass 缩小 CSS

我在 NodeJS 项目中使用 SCSS 并让我的脚本使用以下命令将所有单独的 SCSS 文件转换为单个 CSS 文件 node sass w public css scss style scss public css style css
使用最新的 Javascript 代码片段时如何调用 addTelemetryInitializer？

我正在尝试自定义综合浏览事件的名称属性以前曾问过这个问题例如如何为 Azure App Insights 中的页面视图事件提供自定义名称 https stackoverflow com questions 53778932 how to
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017

如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口 的相关文章

随机推荐

热门标签

如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口的相关文章