如何计算 pyspark dataframe 中的每日基础（时间序列）

2024-05-04

所以我有一个数据框，我想计算一些数量，比如说每天......假设我们有 10 列 col1，col2，col3，col4 ... coln，其中每列都依赖于值col1、 col2、 col3 、 col4 .. 等等，日期根据id..

    +--------+----+----              +----+
        date |col1|id  |col2|.    .  |coln
    +--------+----+----              +----+
    2020-08-01| 0|  M1 |   .    .   .    3|
    2020-08-02| 4|  M1 |                10|
    2020-08-03| 3|  M1 |   .     .   .  9 |
    2020-08-04| 2|  M1 |    .   .    .  8 |
    2020-08-05| 1|  M1 |   .   .     .  7 |
    2020-08-06| 0|  M1 |   .    .   .   0 |
    2020-08-01| 0|  M2 |   .   .     .  0 |
    2020-08-02| 0|  M2 |    .   .   . . 1 |
    2020-08-03| 0|  M2 |    .   .  . .  2 |
   +---------+----+----+-----------------+

假设我们执行这个数据帧，这个 df 中可能有更多的列...... 为了清楚起见，我们假设今天的日期是 2020 年 8 月 1 日。我们做了一些计算，我们在 coln 得到了一些输出coln =3在 2020-08-01，我想在 2020-08-02 coln == col1 即 col1 ==3 并在 2020-08-02 进行计算等等......所以 df 的例子看起来像下面这个

    +--------+----+----              +----+
        date |col1|id  |col2|.    .  |coln
    +--------+----+----              +----+
    2020-08-01| 0|  M1 |   .    .   .    3|
    2020-08-02| 3|  M1 |                10|
    2020-08-03|10|  M1 |   .     .   .  9 |
    2020-08-04| 9|  M1 |    .   .    .  8 |
    2020-08-05| 8|  M1 |   .   .     .  7 |
    2020-08-06| 7|  M1 |   .    .   .   0 |
    2020-08-01| 0|  M2 |   .   .     .  1 |
    2020-08-02| 1|  M2 |    .   .   . . 2 |
    2020-08-03| 2|  M2 |    .   .  . .  0 |
   +---------+----+----+-----------------+

如果你们能给我一个如何在 pyspark 中完成此操作的例子，那就太好了。

example:比方说col3 = col1+ col2最初，假设 col1 全部为 0。

df1_schema = StructType([StructField("Date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             StructField("id", StringType(), True),\
                       StructField("col2", IntegerType(), True),\
                       StructField("col3", IntegerType(), True),\
                        StructField("coln", IntegerType(), True)])
df_data = [('2020-08-01',0,'M1',3,3,2),('2020-08-02',0,'M1',2,3,1),\
           ('2020-08-03',0,'M1',3,3,3),('2020-08-04',0,'M1',3,3,1),\
            ('2020-08-01',0,'M2',1,3,1),('2020-08-02',0,'M2',-1,3,2)]
rdd = sc.parallelize(df_data)
df1 = sqlContext.createDataFrame(df_data, df1_schema)
df1 = df1.withColumn("Date",to_date("Date", 'yyyy-MM-dd'))
df1.show()

+----------+----+---+----+----+----+
|      Date|col1| id|col2|col3|coln|
+----------+----+---+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|
|2020-08-02|   0| M1|   2|   3|   1|
|2020-08-03|   0| M1|   3|   3|   3|
|2020-08-04|   0| M1|   3|   3|   1|
|2020-08-01|   0| M2|   1|   3|   1|
|2020-08-02|   0| M2|  -1|   3|   2|
+----------+----+---+----+----+----+

所以让我们重点关注2020-08-01这是开始，我们想要的是 col1+col2，即 3 = col3。在依赖于 col3.. col4... col5.. 的第 n 次计算之后，假设我们得到了某个数字 coln= 3。计算完成后，我们想要2020-08-02， coln=3 应该位于 col1 所以它是在2020-08-01计算完成后动态变化的

所以我想要的 df 看起来像这样

+----------+----+---+----+----+----+
|      Date|col1| id|col2|col3|coln|
+----------+----+---+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|
|2020-08-02|   2| M1|   2|   5|   1|
|2020-08-03|   1| M1|   3|   4|   3|
|2020-08-04|   3| M1|   3|   6|   1|
|2020-08-01|   1| M2|   1|   4|   1|
|2020-08-02|   1| M2|  -1|   0|   2|
+----------+----+---+----+----+----+

EDIT 2:

df1_schema = StructType([StructField("Date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             StructField("id", StringType(), True),\
                       StructField("col2", IntegerType(), True),\
                       StructField("col3", IntegerType(), True),\
                       StructField("col4", IntegerType(), True),\
                        StructField("coln", IntegerType(), True)])
df_data = [('2020-08-01',0,'M1',3,3,2,2),('2020-08-02',0,'M1',2,3,0,1),\
           ('2020-08-03',0,'M1',3,3,2,3),('2020-08-04',0,'M1',3,3,2,1),\
            ('2020-08-01',0,'M2',1,3,3,1),('2020-08-02',0,'M2',-1,3,1,2)]
rdd = sc.parallelize(df_data)
df1 = sqlContext.createDataFrame(df_data, df1_schema)
df1 = df1.withColumn("Date",to_date("Date", 'yyyy-MM-dd'))
df1.show()
+----------+----+---+----+----+----+----+
|      Date|col1| id|col2|col3|col4|coln|
+----------+----+---+----+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|   2|
|2020-08-02|   0| M1|   2|   3|   0|   1|
|2020-08-03|   0| M1|   3|   3|   2|   3|
|2020-08-04|   0| M1|   3|   3|   2|   1|
|2020-08-01|   0| M2|   1|   3|   3|   1|
|2020-08-02|   0| M2|  -1|   3|   1|   2|
+----------+----+---+----+----+----+----+

所以假设 coln = col4 - col2 那么

+----------+----+---+----+----+----+----+
|      Date|col1| id|col2|col3|col4|coln|
+----------+----+---+----+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|  -1|
|2020-08-02|  -1| M1|   2|   1|   0|  -2|
|2020-08-03|  -2| M1|   3|   1|   2|  -1|
|2020-08-04|  -1| M1|   3|   2|   2|  -1|
|2020-08-01|   0| M2|   1|   1|   3|   2|
|2020-08-02|   2| M2|  -1|   1|   1|   2|
+----------+----+---+----+----+----+----+

这是您可以使用 Spark SQL 内置函数处理的一类问题总计的 https://spark.apache.org/docs/latest/api/sql/index.html#aggregate（要求火花2.4+），下面概述了基本思想：

from pyspark.sql.functions import sort_array, collect_list, struct, to_date

cols = ['Date', 'col1', 'col2', 'col3', 'coln']

df_new = df1.groupby('id') \
    .agg(sort_array(collect_list(struct(*cols))).alias('dta')) \
    .selectExpr("id", """  
      inline( 
        aggregate( 
          /* expr: iterate through the array `dta` from the 2nd to the last items*/
          slice(dta,2,size(dta)-1), 
          /* start: AKA. the zero value which is an array of structs 
           * with a single element dta[0]
           */
          array(dta[0]), 
          /* merge: do the calculations */
          (acc, x) ->   
            concat(acc, array(named_struct( 
              'Date', x.Date, 
              'col1', element_at(acc, -1).coln, 
              'col2', x.col2, 
              'col3', element_at(acc, -1).col3 + x.col2, 
              'coln', x.col3 - x.col2 
            )))  
         )    
       )    
   """)

Output:

df_new.show()
+---+----------+----+----+----+----+ 
| id|      Date|col1|col2|col3|coln|
+---+----------+----+----+----+----+
| M1|2020-08-01|   0|   3|   3|   2|
| M1|2020-08-02|   2|   2|   5|   1|
| M1|2020-08-03|   1|   3|   8|   0|
| M1|2020-08-04|   0|   3|  11|   0|
| M2|2020-08-01|   0|   1|   3|   1|
| M2|2020-08-02|   1|  -1|   2|   4|
+---+----------+----+----+----+----+

Where:

我们对相同的行进行分组id并对它们进行排序Date，将结果结构数组命名为dta
在聚合函数中，我们初始化acc带有结构体数组array(dta[0])然后遍历数组dta从第二项到最后一项使用slice https://spark.apache.org/docs/latest/api/sql/index.html#slice功能
in the merge聚合函数的一部分，您可以使用x.col1, x.coln等引用同一日期的值并使用element_at(acc, -1).col1, element_at(acc, -1).coln等来引用前一个日期的值。
在合并函数中，我们使用concat(acc, array(...))将新元素追加到结构数组中acc
use inline https://spark.apache.org/docs/latest/api/sql/index.html#inline函数来分解上面的结构数组acc
这里假设日期是连续的，如果存在缺失日期，可以添加一些IF条件。例如计算col3 below:
```
IF(datediff(x.Date, element_at(acc, -1).Date) = 1, element_at(acc, -1).coln, 0) + x.col2
```

顺便提一句。我没有使用这个例子coln = col4 - col2, using con3 = col3_prev + col2相反，我认为这是一个更好的例子。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachesparksql

PySpark

如何计算 pyspark dataframe 中的每日基础（时间序列）的相关文章

在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何从 Spark 数据框中删除重复项，同时保留最新数据？

我正在使用 Spark 从 Amazon S3 加载 json 文件我想根据保留最新数据帧的两列删除重复项我有时间戳列最好的方法是什么请注意重复项可能分布在多个分区中我可以在不打乱的情况下删除保留最后一条记录的重复项吗我正在处
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
如何将数组列表转换为 Spark 数据帧

假设我有一个列表 x 1 10 2 14 3 17 我想转换x具有两列的 Spark 数据框id 1 2 3 和value 10 14 17 我怎么能这么做呢 Thanks x 1 10 2 14 3 17 df sc paralleliz
无法在 virtualenv 中加载 pyspark

我已经在 python virtualenv 中安装了 pyspark 我还安装了新发布的jupyterlabhttp jupyterlab readthedocs io en stable getting started installa

随机推荐

如何在 Mac 上的 Safari 中删除所选元素的光泽？

在 Mac 和 iOS 设备上的 Safari 中
如何使用 ClickOnce 安装 COM

我已经安装了使用 TeeChart ActiveX COM 使用 ClickOnce 绘制图表的组件如果我使用 regsvr32 teechart8 ocx 手动注册 TeeChart 我的应用程序工作正常但我想要并且需要使用安装应用
节点 --experimental-modules，请求的模块不提供名为的导出

我已经安装了 Node 8 9 1 v10 5 0 中也出现同样的问题我正在尝试在文件中使用来自 npm 包的命名导入 mjs import throttle from lodash I run node experimental mod
数组中的唯一条目

我有以下内容将前 10 个 URL 存储到会话中 function curPageURL pageURL http if SERVER HTTPS on pageURL s pageURL if SERVER SERVER PORT 80
字节码相对于本机代码有哪些优点？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降
如何为 HTML 中的文件输入设置值？

我该如何设置这个值
如何在ubuntu中安装c++的mongodb驱动？

我想使用 c for mongoDB 开发一个相当简单的应用程序我遵循他们的教程 http www mongodb org pages viewpage action pageId 133415 http www mongodb org
如何使用fread和fwrite函数读写二进制文件？

您好在我的项目中我必须读取一个 bin 文件其中包含以下形式的传感器数据short 16 bit values 我正在这样做使用fread函数进入缓冲区但我觉得读入没有正确发生我是说我写的和读到的不一致你们能建议这里出了什么问题
使用 jQuery/JavaScript 提醒特殊字符

如何在 Javascript jQuery 警报中显示带有特殊字符例如的字符串例如我想显示一个消息框价格为 10 欧元但是当我使用下面的代码时 alert The Price is euro 10 消息框中显示的输出是 The
如何在 EF Core 5 中配置自定义 SQL 的导航属性

我有一个自定义 SQL 语句来获取客户的最大订单我没有名为MaxOrders 这只是一个自定义查询我正在使用以下方式获取客户记录和相关对象Include dbcontext Customers Include x gt x MaxOrd
AttributeError：“str”对象没有属性“decode”

我将使用 pip 软件包安装程序在我的电脑上安装 ZeroMQ 库我用https learning 0mq with pyzmq readthedocs org en latest pyzmq basics html installati
添加信号接收器后，Django 从头开始迁移失败：“没有这样的表”

我在代码中添加了一些信号接收器一切都工作正常直到我将其推送到版本控制并且 CI CD 管道失败在尝试迁移时它会抱怨 django db utils OperationalError no such table badges badg
（一元）* 运算符在此 Ruby 代码中起什么作用？

给出 Ruby 代码 line first name mickey last name mouse country usa record Hash line split 我理解第二行中的所有内容除了操作员它在做什么以及相关文档在哪里
自动将测试从 JUnit 3 迁移到 JUnit 4 的最佳方法？

我有一堆 JUnit 3 类它们扩展了 TestCase 并希望自动将它们迁移为带有注释的 JUnit4 测试例如 Before After Test etc 有什么工具可以在大批量运行中执行此操作吗在我看来这并没有那么难那么让我
从一个项目调用控制器到另一个项目

我正在使用 Asp net MVC4 和 razor 我想知道如何在同一解决方案中从一个项目调用控制器到另一个项目我是 MVC4 的新手您可以简单地将控制器添加到另一个项目类库或 MVC 项目等我们有几个共享控制器的项目 webAP
Swift 2：IBOutlet 集合 [UIButton]！内存泄漏

最近在我的应用程序中我发现我的 UIButton 出口集合正在泄漏内存我所拥有的只是 IBOutlet var TabBarButtons UIButton And from Instrument 谁能告诉我出了什么问题吗随着时间的推
使用 SimpleDateFormat 分别获取日、月和年

我有一个SimleDateFormat像这样 SimpleDateFormat format new SimpleDateFormat MMM dd yyyy hh mm String date format format Date par
插件架构中的反射与属性

我正在开发一个在启动时从子目录加载插件的应用程序目前我正在通过使用反射来迭代每个程序集的类型并查找实现 IPluginModule 接口的公共类来实现此目的由于反射涉及性能影响并且我预计一段时间后会有多个插件我想知道定义在程序集级别
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co

如何计算 pyspark dataframe 中的每日基础（时间序列）

如何计算 pyspark dataframe 中的每日基础（时间序列） 的相关文章

随机推荐

热门标签

如何计算 pyspark dataframe 中的每日基础（时间序列）的相关文章