如何在 Spark 窗口函数中使用 orderby() 降序排列？

2024-03-01

我需要一个窗口函数，该函数按某些键（=列名称）进行分区，按另一个列名称进行排序并返回排名前 x 的行。

这对于升序来说效果很好：

def getTopX(df: DataFrame, top_x: String, top_key: String, top_value:String): DataFrame ={
    val top_keys: List[String] = top_key.split(", ").map(_.trim).toList
    val w = Window.partitionBy(top_keys(1),top_keys.drop(1):_*)
       .orderBy(top_value)
    val rankCondition = "rn < "+top_x.toString
    val dfTop = df.withColumn("rn",row_number().over(w))
      .where(rankCondition).drop("rn")
  return dfTop
}

但是当我尝试将其更改为orderBy(desc(top_value)) or orderBy(top_value.desc)在第 4 行中，我收到语法错误。这里正确的语法是什么？

有两个版本orderBy，一个适用于字符串，一个适用于Column对象（API https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.expressions.WindowSpec）。您的代码使用第一个版本，该版本不允许更改排序顺序。您需要切换到列版本，然后调用desc方法，例如myCol.desc.

现在，我们进入 API 设计领域。通过的优势Column参数的优点是你有更多的灵活性，例如，你可以使用表达式等。如果你想维护一个接受字符串而不是字符串的 APIColumn，您需要将字符串转换为列。有多种方法可以做到这一点，最简单的是使用org.apache.spark.sql.functions.col(myColName).

把它们放在一起，我们得到

.orderBy(org.apache.spark.sql.functions.col(top_value).desc)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Spark 窗口函数中使用 orderby() 降序排列？的相关文章

Scala：如何编写将类型化为接收者的实现类型的对象返回的方法

我知道 Scala 中不推荐使用案例类继承但为了简单起见我在以下示例中使用了它 scala gt case class Foo val f String def foo g String Foo this copy f g define
重塑案例类构造函数？

试图找到一种方法来重塑案例构造函数以填充某些默认值以下情况可能吗 def reshape T R1 lt HList R2 lt HList h R1 R2 gt T example case class MyClass a Doub
新式（“内联”）宏需要 scala.meta

我刚刚更新到 scala meta 2 0 0 M1 和最新的 scala 2 12 3 现在宏不再编译我所做的唯一更改是将元版本从 1 8 0 更改为 2 0 0 M1 错误新式内联宏需要 scala meta 有谁知道是否有快速
如何使用 apply/unapply 方法重现案例类行为？

我尝试用普通类和伴生对象替换案例类但突然出现类型错误编译良好的代码综合示例 trait Elem A B def C other Elem C A Elem C B other match case Chain head tail g
Java / Scala Future 由回调驱动

简洁版本我怎样才能创建一个Promise
将 Scala 库转换为 DLL (.NET)

我正在尝试从 scala 类创建一个 Dll 我将 IntelliJ 与 SBT 一起使用我已经找到了一种使用 ikvm converter 将 jar 文件转换为 Dll 的方法现在的问题是当我在 SBT 下使用 package 从
了解 Scala 中的中缀方法调用和缺点运算符(::)

我对 Scala 编程语言相当陌生当我遵循以下网站的讲义时我正在尝试一些萦绕在我脑海中的东西 here http horstmann com sjsu cs152 04 closures1 html 我想我无法真正理解 cons 运算符
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
Source.getLines 中的默认参数错误 (Scala 2.8.0 RC1)

假设我运行 Scala 2 8 0 RC1 以下 scala 代码应该打印出文件 c hello txt 的内容 for line lt Source fromPath c hello txt getLines println line 但
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
Scala：类似 Option (Some, None) 但具有三种状态：Some、None、Unknown

我需要返回值当有人询问值时告诉他们以下三件事之一这是值没有价值我们没有关于该值的信息未知情况 2 与情况 3 略有不同示例 val radio car radioType 我们知道该值返回无线电类型例如 pioneer
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
缓存 Slick DBIO 操作

我正在尝试加快 SELECT FROM WHERE name 的速度Play 中的查询类型 Scala 应用程序我正在使用 Play 2 4 Scala 2 11 play slick 1 1 1 包该软件包使用Slick 3 1版本
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写

随机推荐

utf8数据在mysql中看起来很好，但在rails中被破坏了

我正在为我的一位同事设置一个 Rails 环境他使用的是 Mac 如果相关的话我已经从我们的实时 mysql 数据库中提取了数据并使用该数据创建了一个本地开发数据库如果我打开 mysql 控制台并查看其名称字段中具有扩展字符集字符
IntelliJ 中的 CLI-Spring Shell

我正在 IntelliJ 中编写 CLI Spring shell 代码我运行它并给出一些参数但是当我输入 insert 并按 Enter 时控制台不接受它看起来好像什么也没发生 My code Component public c
如何强制iFrame打开所有链接保留在iFrame中？

我正在托管一个 iFrame 似乎当链接指向外部域时它会将其加载到主窗口而不是 iFrame 中有没有办法强制在同一个 iFrame 中打开链接注意我可以向 iFrame 中加载的页面添加任何我想要的内容使用 Chrome 扩展
.NET MVC 3 自定义控制器属性

这可能是天上掉馅饼但我想知道是否可以使用自定义控制器属性来完成以下操作对于大多数控制器我将向控制器内的每个操作传递一个名为 r 的 URL 参数 r 与我的数据库中的竞赛表中的竞赛 ID 相关联我希望发生的是每当调用控制器操作时
增加命中 S3 存储桶端点时允许的最大标头大小

I am curl 重定向到 S3 存储桶的端点我必须将一些大标头传递给我的请求但由于超出了最大标头大小该请求失败了
使用纯 JavaScript 单击隐藏 Bootstrap 模态框

我正在研究 Bootstrap Pop Up Modals 我有 2 个名为Button1 Button2 我有 2 个名为Modal1 Modal2 Note Button2是在里面Modal1 Button1在网页上如果我点击Butt
如何使用 Firebase 将初始数据加载与增量子项分开？

我有一个应用程序每 5 秒左右就会有新的子进程添加到 Firebase 中我有成千上万的孩子在应用程序加载时我希望以不同于每 5 秒一次的后续子项的方式处理最初的数千个子项您可能建议我使用值处理所有内容然后使用children
自动装箱与静态数字

有使用价值吗Integer i NumberUtils INTEGER ONE代替Integer i 1 我不知道自动拳击背后会发生什么 Thanks 基本上它会被编译成 Integer i Integer valueOf NumberUt
将包含 JSON 对象的数据框扩展为更大的数据框

我有一个带有两列的 pandas 数据框一个是 ID 另一个是长 JSON 对象对于数据帧中的每个对象来说都是相同的对象我的目标是为 JSON 对象中的每个键创建列这是输入的示例 ID request json 175431467
如何在 5 分钟内使 Django 会话过期？

我用它来登录用户 def login backend request if request method POST username request POST username password request POST password
如何从表中的列中删除默认值？

如何更改列以删除默认值该列是通过以下内容创建的 ALTER table sometable Add somecolumn nchar 1 NOT NULL DEFAULT N 然后修改为 alter table sometable alt
计算每个派生类的类实例

有没有办法让所有派生类计算它们的实例如何用 C C Java 之一编写代码想象一下我可以访问根类例如对象并且每个其他类都是直接或间接从该类派生的我想要的是 AnyDerivedClass InstancesCount 问题
对象原型不“实时更新”

我有以下代码 var Test function Test prototype doSomething function return done 现在我创建一个 Test 对象 var t new Test alert t doSomet
在虚拟环境中安装我自己的 python 模块

我拥有的我想要将其转换为模块的本地 Python3 文件test module test module包含空文件夹 init py a setup py文件见下文和具有多个源的子目录文件我想要的是不断努力和改进test modu
锁定Web API控制器方法

我正在使用 C 和 Net Framework 4 7 开发 ASP NET Web Api 应用程序我在控制器中有一种方法我只想一次仅由一个线程执行换句话说如果有人调用此方法则另一个调用必须等待该方法完成我找到了这个所以答案
RAILS_ROOT 需要吗？

我正在尝试访问 lib 目录中的文件中的 RAILS ROOT 常量但我无法未初始化常量错误我需要做些什么才能做到这一点吗是的您应该需要environment rb require File dirname FILE config
如何从私有 azure devops feed 恢复 nuget 包？

背景我在 azure devops 上的私有 nuget feed 中有 nuget 包我尝试从本地 TFS 中使用它们这有效但只持续了几个小时在 azure devops 中我导航到 Artifacts gt Connect
使用 NSubstitute 模拟表达式

我有一个包含以下方法签名的接口 TResult GetValue
在 yii 中对 CListView 进行排序

请考虑这一点 class User extends CActiveRecord public function relations return array articleCount gt array self STAT Article u
如何在 Spark 窗口函数中使用 orderby() 降序排列？

我需要一个窗口函数该函数按某些键列名称进行分区按另一个列名称进行排序并返回排名前 x 的行这对于升序来说效果很好 def getTopX df DataFrame top x String top key String top v

如何在 Spark 窗口函数中使用 orderby() 降序排列？

如何在 Spark 窗口函数中使用 orderby() 降序排列？ 的相关文章

随机推荐

热门标签

如何在 Spark 窗口函数中使用 orderby() 降序排列？的相关文章