如何在 Spark 窗口函数中使用 orderby() 降序排列?

2024-03-01

我需要一个窗口函数,该函数按某些键(=列名称)进行分区,按另一个列名称进行排序并返回排名前 x 的行。

这对于升序来说效果很好:

def getTopX(df: DataFrame, top_x: String, top_key: String, top_value:String): DataFrame ={
    val top_keys: List[String] = top_key.split(", ").map(_.trim).toList
    val w = Window.partitionBy(top_keys(1),top_keys.drop(1):_*)
       .orderBy(top_value)
    val rankCondition = "rn < "+top_x.toString
    val dfTop = df.withColumn("rn",row_number().over(w))
      .where(rankCondition).drop("rn")
  return dfTop
}

但是当我尝试将其更改为orderBy(desc(top_value)) or orderBy(top_value.desc)在第 4 行中,我收到语法错误。这里正确的语法是什么?


有两个版本orderBy,一个适用于字符串,一个适用于Column对象(API https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.expressions.WindowSpec)。您的代码使用第一个版本,该版本不允许更改排序顺序。您需要切换到列版本,然后调用desc方法,例如myCol.desc.

现在,我们进入 API 设计领域。通过的优势Column参数的优点是你有更多的灵活性,例如,你可以使用表达式等。如果你想维护一个接受字符串而不是字符串的 APIColumn,您需要将字符串转换为列。有多种方法可以做到这一点,最简单的是使用org.apache.spark.sql.functions.col(myColName).

把它们放在一起,我们得到

.orderBy(org.apache.spark.sql.functions.col(top_value).desc)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Spark 窗口函数中使用 orderby() 降序排列? 的相关文章

随机推荐

  • utf8数据在mysql中看起来很好,但在rails中被破坏了

    我正在为我的一位同事设置一个 Rails 环境 他使用的是 Mac 如果相关的话 我已经从我们的实时 mysql 数据库中提取了数据 并使用该数据创建了一个本地开发数据库 如果我打开 mysql 控制台 并查看其名称字段中具有扩展字符集字符
  • IntelliJ 中的 CLI-Spring Shell

    我正在 IntelliJ 中编写 CLI Spring shell 代码 我运行它并给出一些参数 但是当我输入 insert 并按 Enter 时 控制台不接受它 看起来好像什么也没发生 My code Component public c
  • 如何强制iFrame打开所有链接保留在iFrame中?

    我正在托管一个 iFrame 似乎当链接指向外部域时 它会将其加载到主窗口而不是 iFrame 中 有没有办法强制在同一个 iFrame 中打开链接 注意 我可以向 iFrame 中加载的页面添加任何我想要的内容 使用 Chrome 扩展
  • .NET MVC 3 自定义控制器属性

    这可能是天上掉馅饼 但我想知道是否可以使用自定义控制器属性来完成以下操作 对于大多数控制器 我将向控制器内的每个操作传递一个名为 r 的 URL 参数 r 与我的数据库中的竞赛表中的竞赛 ID 相关联 我希望发生的是 每当调用控制器操作时
  • 增加命中 S3 存储桶端点时允许的最大标头大小

    I am curl 重定向到 S3 存储桶的端点 我必须将一些大标头传递给我的请求 但由于超出了最大标头大小 该请求失败了
  • 使用纯 JavaScript 单击隐藏 Bootstrap 模态框

    我正在研究 Bootstrap Pop Up Modals 我有 2 个名为Button1 Button2 我有 2 个名为Modal1 Modal2 Note Button2是在里面Modal1 Button1在网页上 如果我点击Butt
  • 如何使用 Firebase 将初始数据加载与增量子项分开?

    我有一个应用程序 每 5 秒左右就会有新的子进程添加到 Firebase 中 我有成千上万的孩子 在应用程序加载时 我希望以不同于每 5 秒一次的后续子项的方式处理最初的数千个子项 您可能建议我使用值 处理所有内容 然后使用children
  • 自动装箱与静态数字

    有使用价值吗Integer i NumberUtils INTEGER ONE代替Integer i 1 我不知道自动拳击背后会发生什么 Thanks 基本上它会被编译成 Integer i Integer valueOf NumberUt
  • 将包含 JSON 对象的数据框扩展为更大的数据框

    我有一个带有两列的 pandas 数据框 一个是 ID 另一个是长 JSON 对象 对于数据帧中的每个对象来说都是相同的对象 我的目标是为 JSON 对象中的每个键创建列 这是输入的示例 ID request json 175431467
  • 如何在 5 分钟内使 Django 会话过期?

    我用它来登录用户 def login backend request if request method POST username request POST username password request POST password
  • 如何从表中的列中删除默认值?

    如何更改列以删除默认值 该列是通过以下内容创建的 ALTER table sometable Add somecolumn nchar 1 NOT NULL DEFAULT N 然后修改为 alter table sometable alt
  • 计算每个派生类的类实例

    有没有办法让所有派生类计算它们的实例 如何 用 C C Java 之一编写代码 想象一下 我可以访问根类 例如对象 并且每个其他类都是 直接或间接 从该类派生的 我想要的是 AnyDerivedClass InstancesCount 问题
  • 对象原型不“实时更新”

    我有以下代码 var Test function Test prototype doSomething function return done 现在 我创建一个 Test 对象 var t new Test alert t doSomet
  • 在虚拟环境中安装我自己的 python 模块

    我拥有的 我想要将其转换为模块的本地 Python3 文件test module test module包含空文件夹 init py a setup py文件 见下文 和具有多个源的子目录 文件 我想要的是 不断努力和改进test modu
  • 锁定Web API控制器方法

    我正在使用 C 和 Net Framework 4 7 开发 ASP NET Web Api 应用程序 我在控制器中有一种方法 我只想一次仅由一个线程执行 换句话说 如果有人调用此方法 则另一个调用必须等待该方法完成 我找到了这个所以答案
  • RAILS_ROOT 需要吗?

    我正在尝试访问 lib 目录中的文件中的 RAILS ROOT 常量 但我无法 未初始化常量错误 我需要做些什么才能做到这一点吗 是的 您应该需要environment rb require File dirname FILE config
  • 如何从私有 azure devops feed 恢复 nuget 包?

    背景 我在 azure devops 上的私有 nuget feed 中有 nuget 包 我尝试从本地 TFS 中使用它们 这有效 但只持续了几个小时 在 azure devops 中 我导航到 Artifacts gt Connect
  • 使用 NSubstitute 模拟表达式

    我有一个包含以下方法签名的接口 TResult GetValue
  • 在 yii 中对 CListView 进行排序

    请考虑这一点 class User extends CActiveRecord public function relations return array articleCount gt array self STAT Article u
  • 如何在 Spark 窗口函数中使用 orderby() 降序排列?

    我需要一个窗口函数 该函数按某些键 列名称 进行分区 按另一个列名称进行排序并返回排名前 x 的行 这对于升序来说效果很好 def getTopX df DataFrame top x String top key String top v