参数为动态的 Spark 滞后函数

2024-05-03

我需要在spark中实现lag函数；我可以像下面这样做（使用 hive/temp Spark 表中的一些数据）

假设 DF 有这些行：

lagno:value
0, 100
0, 200
2, null
3, null

其中第一列是您要使用的实际滞后数，第二列是实际值。

当我运行此查询时，它有效：

DataFrame df;
DataFrame dfnew=df.select(
            org.apache.spark.sql.functions.lag( df.col("value"), 1 ).over(org.apache.spark.sql.expressions.Window.orderBy(new1.col("value"))));

这意味着如果对 lag no 的值进行硬编码，它就可以正常工作。

但是，如果我将滞后值作为参数传递，它就不起作用：

DataFrame dfnew=df.select(
            org.apache.spark.sql.functions.lag( df.col("value"),df.col("lagno").over(org.apache.spark.sql.expressions.Window.orderBy(new1.col("value"))));

我需要将 col 类型的参数强制转换为整数吗？

这不可能。窗口函数使用无法动态修改的固定大小的框架。你可以计算lag for 1..3然后选择当前行所需的一项。

CASE 
  WHEN lagno = 1 THEN LAG(value,  1) OVER w 
  WHEN lagno = 2 THEN LAG(value,  2) OVER w 
  ...
  ELSE value
END

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

参数为动态的 Spark 滞后函数的相关文章

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J

随机推荐

矩阵求逆 (3,3) python - 硬编码与 numpy.linalg.inv

对于大量矩阵我需要计算定义为的距离度量尽管我确实知道强烈建议不要使用矩阵求逆但我没有找到解决方法因此我尝试通过对矩阵求逆进行硬编码来提高性能因为所有矩阵的大小均为 3 3 我预计这至少会是一个微小的改进但事实并非如此为什么
mypy 错误：赋值中的类型不兼容（表达式的类型为“Dict[, ]”，目标的类型为“List[str]”）

我尝试过了实例化一个空字典在现有字典的第二层上然后为其分配一个键值对但 MyPy 会抛出错误这是一个最小的示例当激活 MyPy 检查时它将重现它 result Test something result key result key
如果使用推送服务关闭应用程序，应用程序会崩溃：parse.com

我将清单中的接收器替换为我的
UITabBar 显示更多图标而不是“更多”选项

我目前正在尝试使用UITabBar对于包含 7 个的 iOS 应用程序tabBar Items 当我使用故事板时我能够实现所有 7 个目标tabBarItems 当我以编程方式添加tabBarItems 它强制更多按钮访问其他 tab
我的引导页面页脚下方的空白

虽然我之前在身体下方确定了 50 像素的填充但我仍然遇到页面页脚下方有一堆空白的问题我是否只需要延长内容即可填充垂直空间我第一次使用 bootstrap 来创建我的新网站但我陷入了这个恼人的困境这是一个有问题的页面的链接 http
继承自 NumPy 数组的类如何更改其自身的值？

我有一个继承自 NumPy n 维数组的简单类我想要该类的两个方法可以更改该类实例的数组值其中一种方法应将类实例的数组设置为类实例的列表数据属性的值另一种方法应将一些列表值附加到类实例的数组中我不确定如何实现这一点但我的尝试如下
如何让 AppBar 组件填充所有 div 的宽度和高度的 10%？

class MyStupidComponent extends React Component render return div div div div
Rust 中函数调用中的临时对象何时被删除？

Rust 中函数调用内临时对象的作用域规则是什么我真正感兴趣的是以下操作是否安全 fn foo gt CString fn bar arg const libc c char bar foo as ptr 我创建了最小的示例它按照我想要
使用 php 将 HTML 输出转换为纯文本

我正在尝试将示例 HTML 输出转换为纯文本但我不知道如何操作我使用 file get contents 但我尝试转换的页面返回的结果最相似 raw http localhost guestbook profiles php file
Git Visual Studio 与 Bitbucket confluence 连接到现有项目错误/获取失败

如何使用 Visual Studio 17 从现有 Bitbucket GIT 存储库中提取数据 Error git 因致命错误而失败找不到 xyz 存储库 I added 这个迷雾 https marketplace visualstu
C# - 平移光标

我正在 PictureBox 控件中实现大图像的平移并且设置适当的方向平移光标没有问题但是我似乎找不到用于平底锅原点的图像内部带有箭头的圆圈我在哪里可以找到它我觉得image您正在寻找的内容未包含在框架中每个应用程序都使用自己
无法使用 Spring.NET 将依赖项注入到 Azure WorkerRole 对象

我在使用 spring net 4 0 和 nhibernate 3 0 开发基于 ASP net 的 Web 应用程序方面拥有一定的经验最近我遇到了一种情况我需要使用 spring net 来注入我的服务依赖项这些依赖项属于Work
无法从 setup-jest.js 找到模块

我有一个 Angular 库正在努力将其从 Angular 11 更新到 13 Jest 在 11 和 12 中运行良好但现在我在 v13 中遇到了很多麻烦我已经按照此处概述的步骤 https thymikee github io j
createNativeQuery 设置参数

我有以下内容其中包含 NativeQuery 我需要在其中设置参数但有些事情是错误的因为未设置参数因此查询是 SELECT movieId title genres FROM movies where title like 所以返回
Perl 命令或模块，如 Linux“文件”命令

我有一个下载文件的脚本但这些文件在下载之前没有任何有关它们的信息在为 Linux 编写代码时我刚刚调用了qx file filename 查看它是否是 JPEG 图像如果不是则将其删除然而我现在正尝试重写为独立于平台的纯 Per
如何更改 Xcode 上的导航器字体大小

有什么办法可以改变xcode中导航器面板的字体大小吗我已设法使用首选项 gt 字体和颜色更改编辑窗口中的字体大小但这不会更改导航器的字体大小适用于 Xcode 12 及以上版本 Its default value is match
每行中最后一次出现 True 的索引

我有一个二维数组 a False False False False False True True True True True True True True True True True True True True True True
使用 Jackson 作为 Jersey 客户端序列化器

使用 Jersey Client API 时是否可以使用 Jackson 作为 JSON 数据的序列化器编组器而不是 JAXB 如果可以的话该如何配置呢好吧我发现了原来很简单 ClientConfig cc new Default
oracle 计算两个字符串中连续匹配的单词

我想要一个返回两个字符串中单词的顺序匹配数的查询例子 Table Id column1 column2 result 1 foo bar live foo bar 2 2 foo live tele foo tele 1 3 bar fo
参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数

参数为动态的 Spark 滞后函数

参数为动态的 Spark 滞后函数 的相关文章

随机推荐

热门标签

参数为动态的 Spark 滞后函数的相关文章