如果 Spark 中每个组满足特定条件，则向列添加值

2024-03-06

我想我有一些相当简单的东西。

我试图实现的是每组，如果满足特定条件，则给出增加的数字（排名？）。对于每组，它从 1 开始，如果满足条件，则下一行是上一行的值 +1。这样在组内越走越远，每次满足条件就加1。

下表可能会更清楚地显示这一点。（我尝试创建的是“what_i_want”列）

group   to_add_number   what_i_want
aaaaaa  0                 1
aaaaaa  0                 1
aaaaaa  1                 2
aaaaaa  0                 2
aaaaaa  0                 2
aaaaaa  1                 3
aaaaaa  0                 3
aaaaaa  0                 3
bbbbbb  0                 1
bbbbbb  1                 2
bbbbbb  1                 3
bbbbbb  0                 3
cccccc  0                 1
cccccc  0                 1
cccccc  0                 1
cccccc  1                 2

我认为窗口函数（滞后）可能会做到这一点，但我无法做到这一点。

我尝试的是：

from pyspark.sql.functions import lit,when,lag,row_number
from pyspark.sql.window import Window

windowSpec=Window.partitionBy('group')
df=df.withColumn('tmp_rnk',lit(1))
df=df.withColumn('what_i_want',when(col('to_add_number')==0,lag('tmp_rnk').over(windowSpec)).otherwise(col('what_i_want')+1)

or

df=df.withColumn('tmp_rnk',lit(1))
df=df.withColumn('row_number_rank',row_number().over(windowSpec))
df=df.withColumn('what_i_want',when((col('to_add_number')==0)&(col('row_number_rank')==1)
,lit(1)
.when(col('to_add_number')==0)&(col('row_number_rank')>1),lag('what_i_want').over(windowSpec).otherwise(col('what_i_want')+1)

我尝试了几种变体，根据“条件窗口函数”、“滞后、领先……”在堆栈溢出上进行搜索，但没有任何效果，或者我没有找到重复的问题。

获取列what_i_want，你可以运行incremental sum on to_add_number带有 orderby 列 (order_id).

from pyspark.sql import functions as F
from pyspark.sql.window import Window

df.withColumn("order_id", F.monotonically_increasing_id())\
  .withColumn("what_i_want", F.sum("to_add_number").over(Window().partitionBy("group").orderBy("order_id"))+1)\
  .orderBy("order_id").drop("order_id").show()


#+------+-------------+-----------+
#| group|to_add_number|what_i_want|
#+------+-------------+-----------+
#|aaaaaa|            0|          1|
#|aaaaaa|            0|          1|
#|aaaaaa|            1|          2|
#|aaaaaa|            0|          2|
#|aaaaaa|            0|          2|
#|aaaaaa|            1|          3|
#|aaaaaa|            0|          3|
#|aaaaaa|            0|          3|
#|bbbbbb|            0|          1|
#|bbbbbb|            1|          2|
#|bbbbbb|            1|          3|
#|bbbbbb|            0|          3|
#|cccccc|            0|          1|
#|cccccc|            0|          1|
#|cccccc|            0|          1|
#|cccccc|            1|          2|
#+------+-------------+-----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

groupby

windowfunctions

如果 Spark 中每个组满足特定条件，则向列添加值的相关文章

Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
如何使用hbase协处理器实现groupby？

最近学习了hbase协处理器我使用endpoint来累加hbase表的一列例如名为 pendings 的hbase表它的家族是 asset 我累加了 asset amount 的所有值该表还有其他列例如 asset custom
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
使用 groupby 过滤器后应用 jinja 过滤器

我有一个字典列表我想按某个属性进行分组然后按另一个属性求和对于变量 foo 这将类似于 foo groupby a sum attribute b 这显然行不通因为之后groupby 我有一个元组列表有什么方法可以解压元组然后重新
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d

随机推荐

更改 AppSetting 不会对应用程序产生影响

在我正在 ASP Net 上开发的应用程序之一中在此应用程序中我们使用了大量的 AppSettings 在最初的开发中我们使用了ConfigurationManager AppSettings 但随着开发的进展我们创建了一个实用程序类
正向地理编码后如何返回坐标？

我试图查看用户是否在某个地址的一定距离内我已成功获取用户位置并使用正向地理编码转换地址我留下了两组坐标我试图做出一个 if 语句表示如果它们在一定距离内则打印一些内容目前当我打印地标函数内的坐标时我得到了所需的坐标当
是否有一个类来保存文件系统路径？

在 NET 基类库中有一个 System IO Path 类用于对表示文件系统路径的字符串执行常见操作然而我需要的是封装路径的类相反我得到了类型安全和可能更短的路径操作表示法我正在考虑 NET 等价的C Boost 的 http
Android 蓝牙跨平台互操作性

我有一个在 Windows 机器上为 Net 编程的蓝牙服务我希望我的 Android 2 1 手机能够连接到它服务器正在侦听 Android 用于连接的相同 UUID 但连接失败当我尝试连接到未侦听该 UUID 的设备时出现异常并
无法两次更改复选框视图的背景颜色 - Android

我尝试改变CheckBox用户将其状态更改为后的背景Checked 下面的代码不能很好地工作如果我单击未选中的复选框它将状态和颜色更改为蓝色当我再次单击它并取消选中时颜色保持蓝色而不是更改为红色我做了介绍电话无效没有成功我确认
如果 gulp 安装在与 gulpfile.js 不同的文件夹中（node_modules），如何运行 gulp

我在一个目录中有 gulpfile js 在另一个目录中有 node modules 当我运行 gulp 时出现错误在目录中找不到本地gulp 尝试运行 npm install gulp 问题是我无法在 gulpfile js 目
Java 中“私有静态最终”和“公共静态最终”类变量的最接近的 Ruby 表示形式？

给定下面的 Java 代码您可以最接近地表示这两个static finalRuby 类中的变量并且在 Ruby 中是否可以区分private static and public staticJava 中的变量 public class
Python GDAL 未安装在 Mac OSX El Capitan 上

我在 Mac OSX El Captain 中安装 pygdal 时遇到几个问题程序如下安装 GDAL 库http www kyngchaos com software frameworks gdal complete http www
使用给定的步数获取给定最小值和最大值的可枚举范围

我熟悉可枚举范围 http msdn microsoft com en us library system linq enumerable range 28v vs 100 29 aspx生成值枚举的方法但我想要一些稍微不同的东西我想提
^ 有什么作用？ [复制]

这个问题在这里已经有答案了我是 C 编程新手正在查看我不久前发现的一些示例由于我是一名不错的 Java 程序员因此我取得了良好的进步至少从我的角度来看 D 现在我遇到了一些我无法弄清楚它的作用的事情 Threading Threa
寻找锁定的脚本解释器[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个执行特定任务的 NET 库假设我的应用程序已发送一个程序以某种脚本语言并且我希望我
asp.net core 2.0 中的 WCF - 无法为具有权限的 SSL/TLS 安全通道建立信任关系

以前我有一个面向框架 4 5 1 的应用程序并使用 Web Reference 添加 WCF 服务这完美地工作并且能够成功地通过服务器进行身份验证旧代码 ServicePointManager Expect100Continue fa
Retrofit2 proguard 删除参数

我在我的项目中使用了 Retrofit 2 并使用了 proguard 我的proguard dontwarn retrofit2 keep class retrofit2 keepattributes Signature keepattr
相对图像路径在 FireFox 中不显示图像

我正在尝试使用 Iframe 打开 html 页面 Html 页面有一些文本和图像图像源使用相对路径指定例如图像 Img1 jpg 它在 IE 和 Chrome 中运行良好在 Firefox 中图像路径变得像 http local
iPhone/iPad 方向处理

这更像是一个一般性问题供人们为我提供指导基本上我正在学习 iPad iPhone 开发并最终遇到了多方向支持问题我查阅了大量的 doco 我的书 Beginning iPhone 3 Development 中有一个很好的章节但我
如何在.NET中完全摆脱视图状态

我怎样才能摆脱
如何使用 php 检索 utf-8 数据并在 excelsheet 数据库转储中显示正确的编码？

您好我将大部分英语和德语字符保存到 mysql 数据库中该数据库当前设置为 utf 8 字符集我假设我应该对这种类型的数据使用 latin1 字符集这是正确的吗如果是这样我如何更改字符集以纠正现在保存在 utf 8 中的德语字符
DEP0001：将 Windows UWP 应用程序部署到手机时出现意外错误：-1988945906

确切的错误严重性代码说明项目文件行抑制状态错误 DEP0001 意外错误 1988945906 TestApp 这是什么意思看来应用程序没有问题在PC上运行正常操作系统版本 1511 适用于手机的 Windows 10 10
类型错误：传递给 Illuminate\Database\Grammar::parameterize() 的参数 1 必须是数组类型，给定整数

我正在使用 Laravel 工厂来为我的数据库播种但我不明白为什么会抛出这个错误显示在底部这是我的第一篇文章所以请让我知道如何提供更清晰的问题描述 PollAnswerFactory php factory gt define Po
如果 Spark 中每个组满足特定条件，则向列添加值

我想我有一些相当简单的东西我试图实现的是每组如果满足特定条件则给出增加的数字排名对于每组它从 1 开始如果满足条件则下一行是上一行的值 1 这样在组内越走越远每次满足条件就加1 下表可能会更清楚地显示这一点我尝试创建的是

如果 Spark 中每个组满足特定条件，则向列添加值

如果 Spark 中每个组满足特定条件，则向列添加值 的相关文章

随机推荐

热门标签

如果 Spark 中每个组满足特定条件，则向列添加值的相关文章