将 ROW_NUMBER 列添加到流数据帧

2024-03-04

我对 Spark 和 SQL 还很陌生。我正在尝试向我的 df 添加一列（然后将其保存到 Delta 表），该列为每个记录/行提供唯一的 id，并在每次更新特定记录时递增它。

我试图执行以下操作：

SELECT etc,
CONCAT(somerows1) as id1,
ROW_NUMBER() OVER(PARTITION BY somerows1 ORDER BY (SELECT NULL)) AS versionid
FROM etc

somerows1 是几列的串联，以形成唯一的记录。我对以特定形式排序的记录没有特别的兴趣，这就是我选择 ORDER BY (SELECT NULL) 的原因。

我收到以下错误：

Error in SQL statement: AnalysisException: Non-time-based windows are not supported on streaming DataFrames/Datasets; line 1 pos 0;

有谁知道如何解决这个问题？

Thanks

我已经通过使用解决了这个问题为每个批次 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#using-foreach-and-foreachbatch沉于.writeStream。这允许您创建一个函数，其中流数据帧被视为静态/批处理数据帧（该函数应用于每个微批次）。

在 Scala 中，代码看起来像这样：

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions.{row_number, lit}

val saveWithWindowFunction = (sourceDf: DataFrame, batchId: Long) => {

  val windowSpec = Window
    .partitionBy("somerows1") 
    .orderBy(lit(null))
  
  sourceDf
    .withColumn("versionid", row_number().over(windowSpec))

//... save the dataframe using: sourceDf.write.save()
}

随着.writeStream调用你的函数：

  .writeStream
  .format("delta")
  .foreachBatch(saveWithWindowFunction)
  .start()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

apachesparksql

sqlorderby

SparkStreaming

rownumber

将 ROW_NUMBER 列添加到流数据帧的相关文章

MySQL 按主键排序

某些 SQL 服务器允许使用通用语句例如ORDER BY PRIMARY KEY 我不相信这适用于 MySQL 是否有任何此类解决方法可以允许跨多个表自动选择或者是否需要查找查询来确定主键我一直在研究的解决方法包括调用SHOW COL
Id 或 [TableName]Id 作为主键/实体标识符

是否首选使用 Id 作为主键的列名或 TableName Id 作为命名约定表账户主键 ID 相对表账户主键 AccountId 在我见过的实现中它似乎分为 50 50 左右每种方法的优点和缺点是什么跟进在我的数据库中使用一
SqlCommand 参数与 String.Format [重复]

这个问题在这里已经有答案了我一直在互联网上搜索但似乎找不到任何可以解释我的问题的内容可能是我没有使用正确的搜索字符串所以我在这里发帖希望有人可以帮助我有了这个我的程序是使用Visual Studio 2010用C 编写的我注意到
ClassCastException：java.util.Date 无法转换为 java.sql.Date

你好我的代码抛出了ClassCastException StackTrace 显示 java lang ClassCastException java util Date cannot be cast to java sql Date a
使用 WHILE 创建虚拟数据

我尝试使用 a 在表中插入一些虚拟数据WHILE 但它运行得非常非常慢我在想也许我写的代码不正确你能看一下并确认一下吗 Insert dummy data DECLARE i int Content int SET i 5001 WHI
如何将 MySQL 数据库更改为 UTC？

我使用的是 Windows 7 对数据库方面的东西有点陌生我尝试在 Google 上搜索如何将系统时区更改为 UTC 但文档有些高级我不太确定如何更改此字段在 my ini 文件的 mysqld 部分下添加以下行 default t
如何查找 PostgreSQL 数据库的上次更新时间？

我正在使用一个批量更新的 postgreSQL 数据库我需要知道数据库或数据库中的表上次更新或修改的时间两者都可以我看到 postgreSQL 论坛上有人建议使用日志记录并查询日志这对我不起作用因为我无法控制客户端代码库你可
TOAD 将 &String 视为绑定变量

我正在使用 Oracle Data Integrator 开发一些 ETL 有时会使用 TOAD 测试部分代码今天我遇到了 TOAD 的问题我有一行像 AND column value like DEV PROD 当我尝试运行包含上面过
sql查询将两列与一列连接起来

我在 MS Access 2010 中有 2 个表如下所示 USERS u id u name LOAN l id l from ref users u id l to ref users u id l amount Users u id
如何在 sqlalchemy 中创建基于文字的查询？

我创建了一个函数来创建表达式 def test operator1 operation operator2 return literal column operator1 op operation operator2 现在当我用 test
如何在SSRS中的表上创建热图？

如何在 SSRS 中创建这样的内容颜色将根据行中的值承销商从红色变为绿色所有这些都在一个组中您可以通过右键单击各个单元格并根据表达式设置填充颜色来完成此操作 In the Image below I ve mistakingly
使用Powershell访问远程Oracle数据库

我需要能够连接到我的网络上基于 Windows 7 的 Oracle 服务器 32 位 Oracle XE 我需要连接的机器运行 Windows 7 64 位两台机器上都安装了 Powershell 我已在 64 位计算机上安装了 Ora
根据表sql中的行替换字符串中的字符

我需要用一些映射的字符替换字符串中的字符列表我有一个表 dbo CharacterMappings 有 2 列 CharacterToFilter 和 ReplacementCharacter 假设这个表中有3条记录 Filter Rep
如何在Oracle中使用Timestamp_to_scn和Scn_to_timestamp？

我的查询结果是这样的 select cast to date a start time mm dd yyyy hh mi ss pm as timestamp date of call ora rowscn from calling tab
如何在 SQL Server 中使用 nvarchar 变量为 unicode 用户添加前缀“N”？

如何在 SQL Server 中使用 nvarchar 变量为 unicode 用户添加前缀 N 例如给定这个变量 declare Query1 nvarchar max 我可以这样分配它 set Query1 N 但是如果我想使用怎么办
在sqlite SQL语句中与order by子句结合使用limit

下面的两条 SQL 语句总是会产生相同的结果集吗 1 SELECT FROM MyTable where Status 0 order by StartTime asc limit 10 2 SELECT FROM SELECT FROM
在一个数据访问层中处理多个连接字符串

我有一个有趣的困境我目前有一个数据访问层它必须与多个域一起使用并且每个域都有多个数据库存储库具体取决于所调用的存储过程目前我只需使用 SWITCH 语句来确定应用程序正在运行的计算机并从 Web config 返回适当的连接字
使用 where 进行 select 语句时，HSQLDB 用户缺乏权限或未找到对象错误

我的数据库使用 SQuirrel SQL 客户端版本 3 5 3 和 HSQLDB 我已经能够为其指定相应的驱动程序内存中并创建一个别名我创建了一个表 CREATE TABLE ENTRY NAME VARCHAR 100 NOT N
在 SQL 数据库中存储“列表”的最正确方法是什么？

因此我读了很多关于如何将多个值存储到一个列中是一个坏主意并且违反了数据标准化的第一条规则令人惊讶的是这不是不要谈论数据标准化所以我需要一些帮助目前我正在为我工作的地方设计一个 ASP NET 网页我想根据此人所属的 Act
对多个数据库执行 SQL 查询

我知道我的帖子与该论坛中的其他帖子的标题非常相似但我真的找不到我需要的答案这是我的问题我的 Windows Server 上运行着 SQL Server 在我的 SQL Server 中我有大约 30 个数据库它们都具有相同的表和

随机推荐

无法从 CPython 读取巨大（20GB）文件

我有一些我无法理解的 CPython 问题这一切都归结为这样一个事实使用相同的代码读取小文本文件可以工作但甚至无法从 20GB txt 文件中读取一行一些有用的信息较小的文件 1MB 是 20GB 大文件的子集从开始处起 1MB
“ColorAnimation”动画对象无法用于为属性“Background”设置动画，因为它的类型“System.Windows.Media.Brush”不兼容

我正在尝试以编程方式使用颜色动画来为单元格设置动画但是当我执行时我得到了这个storyboard Begin System Windows Media Animation ColorAnimation animation object c
在 NumPy 数组中查找重复序列的索引

这是一个后续上一个问题 https stackoverflow com q 59662725 2955541 如果我有一个 NumPy 数组 0 1 2 2 3 4 2 2 5 5 6 5 5 2 2 对于每个重复序列从每个索引开始是否
PHP imagejpeg 保存文件不起作用

我有 php 代码来修剪白色外边框并调整大小当我使用 imagejpeg newImage 将其输出到浏览器时它工作正常但是当我尝试使用 imagejpeg newImage test jpg 保存时它不会保存在任何地方请帮助 i
在 Sqlcmd 中转义特殊符号

我有一个 bat 文件当我安装应用程序时它会执行一堆 sql 脚本在安装对话框中用户设置数据库名称登录名和密码然后在此 bat 文件中使用它们这里是 SET server local SET db dbname SET use
谷歌云实例在关闭浏览器后终止

我有一个 bash 脚本我想在谷歌云服务器上连续运行它我通过浏览器中的 SSH 连接到我的虚拟机但关闭浏览器后脚本停止了我尝试使用 Cloud Shell 但如果重新启动笔记本电脑脚本会从头启动它不能连续工作是否可以在谷歌云
删除多维数组中的父键

我想从数组中删除键 Properties 如下所示我有 Array Values gt 1 List gt Array Product gt Array Details gt Array Properties gt Array Id gt
Java中如何设置鼠标的位置？

我正在使用 Java 进行一些 Swing GUI 工作我认为我的问题相当简单如何设置鼠标的位置正如其他人所说这可以通过使用来实现Robot mouseMove x y http java sun com javase 6 docs
VS2008 PDB 文件大小限制还原：LNK1201 也是

VS2k8 中 PDB 文件的大小限制是多少我在一个开发工作站上 32 位 PAE 内核上的 RAM 和页面文件各为 3GB 但在 PDB 增长超过 1GB 后不久链接器就抛出了 LNK1201 错误 MSPDBSRV 是否只是耗尽了地
正则表达式提取文件名

我有一个纯文本网络响应需要提取文件名对于好的正则表达式有什么建议吗 Total parts 1 Name file Content Type text plain Size 1167 content type text plain co
有没有办法设置 HTML5 范围控件的样式？

有没有办法设置 HTML5 范围控件的样式是否可以更改滑块滑动的线条的颜色事实证明 webkit中有 input type range webkit appearance none important input type range
无法匹配 C 中的正则表达式

我对以下正则表达式有问题 prefix w w s 0 9 1 4 s s 0 9 1 4 s s 0 9 1 4 s w 匹配字符串如下 prefix string string 100 100 0 string 我无法在我的 C 代码中
多个表上的 FreeText COUNT 查询超级慢

我有两张桌子 Product ID Name SKU Brand ID Name 产品表大约有120K条记录品牌表有30K条记录我需要查找名称和品牌与特定关键字匹配的所有产品的数量我使用自由文本包含如下所示 SELECT coun
验证、方法执行和JIT编译过程中类加载的原因和跟踪

我试图非常详细地了解哪些事件会导致类加载并且在测试过程中我在这个非常基本的示例中遇到了一种我不理解的行为 public class ClinitTest public static Integer num public static L
Emacs：是否可以列出 dired 中标记文件的某个查询字符串的所有匹配行？

前几天我发现 M x 发生了 Emacs中如何实现代码折叠效果 https stackoverflow com questions 1085170 how to achieve code folding effects in emacs 我
转换为 Vector' aria-label='无法将类型转换为 Vector'> 无法将类型转换为 Vector

给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt
无法在l5-swagger中生成API文档

我开始学习招摇了我正在尝试做书上所做的同样的事情使用 Angular 6 和 Laravel 5 进行全栈 Web 开发实践输入命令后使用 php fpm bash php artisan l5 swagger generate 我在
jQuery .when().done() 不工作

首先我想说我是 jQuery 的新手我怀疑我只是做了一些愚蠢的事情所以希望这对某人来说会很简单我正在尝试向我的网站添加滑动移动子菜单我想要一种手风琴效果如果我单击一个父链接它的子子菜单将打开所有其他子菜单将关闭问题在于时间
Console.ReadLine() 在 VS Code 中不起作用，用 C# 编写代码

我正在学习 C 并且正在使用 VS Code 当我尝试使用 Console ReadLine 从用户那里获取输入时它不起作用我从一个视频中提到了它它做了完全相同的事情但经过几次谷歌搜索后我仍然不知道我哪里出了问题 Console
将 ROW_NUMBER 列添加到流数据帧

我对 Spark 和 SQL 还很陌生我正在尝试向我的 df 添加一列然后将其保存到 Delta 表该列为每个记录行提供唯一的 id 并在每次更新特定记录时递增它我试图执行以下操作 SELECT etc CONCAT somero

将 ROW_NUMBER 列添加到流数据帧

将 ROW_NUMBER 列添加到流数据帧 的相关文章

随机推荐

热门标签

将 ROW_NUMBER 列添加到流数据帧的相关文章