计算行的排名

2024-05-07

我想根据一个字段对用户 ID 进行排名。对于相同的字段值，排名应该相同。该数据位于 Hive 表中。

e.g.

user value
a       5
b       10
c       5
d       6

Rank
a - 1
c - 1
d - 3
b - 4

我怎样才能做到这一点？

可以使用rank使用 DataFrame API 的窗口函数：

import org.apache.spark.sql.functions.rank
import org.apache.spark.sql.expressions.Window

val w = Window.orderBy($"value")

val df = sc.parallelize(Seq(
  ("a", 5), ("b", 10), ("c", 5), ("d", 6)
)).toDF("user", "value")

df.select($"user", rank.over(w).alias("rank")).show

// +----+----+
// |user|rank|
// +----+----+
// |   a|   1|
// |   c|   1|
// |   d|   3|
// |   b|   4|
// +----+----+

或原始 SQL：

df.registerTempTable("df")
sqlContext.sql("SELECT user, RANK() OVER (ORDER BY value) AS rank FROM df").show

// +----+----+
// |user|rank|
// +----+----+
// |   a|   1|
// |   c|   1|
// |   d|   3|
// |   b|   4|
// +----+----+

但效率极低。

您还可以尝试使用 RDD API，但它并不那么简单。首先让我们将 DataFrame 转换为 RDD：

import org.apache.spark.sql.Row
import org.apache.spark.rdd.RDD
import org.apache.spark.RangePartitioner

val rdd: RDD[(Int, String)] = df.select($"value", $"user")
  .map{ case Row(value: Int, user: String) => (value, user) }

val partitioner = new RangePartitioner(rdd.partitions.size,  rdd)
val sorted =  rdd.repartitionAndSortWithinPartitions(partitioner)

接下来我们必须计算每个分区的排名：

def rank(iter: Iterator[(Int,String)]) =  {
  val zero = List((-1L, Integer.MIN_VALUE, "", 1L))

  def f(acc: List[(Long,Int,String,Long)], x: (Int, String)) = 
    (acc.head, x) match {
      case (
        (prevRank: Long, prevValue: Int, _, offset: Long),
        (currValue: Int, label: String)) => {
      val newRank = if (prevValue == currValue) prevRank else prevRank + offset
      val newOffset = if (prevValue == currValue) offset + 1L else 1L
      (newRank, currValue, label, newOffset) :: acc
    }
  }

  iter.foldLeft(zero)(f).reverse.drop(1).map{case (rank, _, label, _) =>
    (rank, label)}.toIterator
}


val partRanks = sorted.mapPartitions(rank)

每个分区的偏移量

def getOffsets(sorted: RDD[(Int, String)]) = sorted
  .mapPartitionsWithIndex((i: Int, iter: Iterator[(Int, String)]) => 
    Iterator((i, iter.size)))
  .collect
  .foldLeft(List((-1, 0)))((acc: List[(Int, Int)], x: (Int, Int)) => 
    (x._1, x._2 + acc.head._2) :: acc)
  .toMap

val offsets = sc.broadcast(getOffsets(sorted))

以及最终排名：

def adjust(i: Int, iter: Iterator[(Long, String)]) = 
  iter.map{case (rank, label) => (rank + offsets.value(i - 1).toLong, label)}

val ranks = partRanks
  .mapPartitionsWithIndex(adjust)
  .map{case (i, label) => (1 + i , label)}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

hive

apachesparksql

计算行的排名的相关文章

使用 tidyverse 在 tibble 中“取消嵌套” data.frame 列

我正在处理从 www 调用返回的一些数据jsonlite and as tibble以某种方式转换成data frame column This result数据有一个Id整数列和ActionCodedata frame 列有两个内部列这
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
Apache Impala 中是否有相当于 Hive 的“爆炸”功能的函数？

Hive的函数explode是记录在这里 https cwiki apache org confluence display Hive LanguageManual UDF LanguageManualUDF Built inTable G
如何发现 Scala 远程 Actor 已死亡？

在 Scala 中当另一个远程 actor 终止时可以通过设置 trapExit 标志并以第二个 actor 作为参数调用 link 方法来通知一个 actor 在这种情况下当远程参与者通过调用 exit 结束其工作时第一个参与者
Pandas DataFrame：如果列为空，则复制列的内容

我有以下带有命名列和索引的 DataFrame a a b b 1 5 NaN 9 NaN 2 NaN 3 3 NaN 3 4 NaN 1 NaN 4 NaN 9 NaN 7 数据源导致某些列标题的复制方式略有不同例如如上所述某些列标
Scala 如何忽略 Java 的检查异常？

例如如果调用 JavaThread sleep这会抛出一个已检查的InterruptedException来自 Scala 源文件然后不需要将调用包含在 Scala 中try catch Scala 如何删除将调用包围在 a 中的规则tr
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
如何在 Scala 中打印任何内容的列表？

目前我有一个打印整数的方法 def printList args List Int Unit args foreach println 我如何修改它使其足够灵活可以打印任何内容的列表您不需要专用的方法所需的功能已经在集合类中 pri
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
错误：协变类型 A 出现在逆变位置

我试图写一个不可变的Matrix A 班级我希望该类是协变的A但是当我把在前面A编译器开始抱怨类中的某些操作以下是我的相关子集Matrix类实际类比以下子集大 5 倍左右 class Matrix A private val co
如何用 pandas 中两个日期之间计算的值填充列？

我有这个数据框 Date Position TrainerID Win 2017 09 03 4 1788 0 0 wins 1 race 2017 09 16 5 1788 0 0 wins 2 races 2017 10 14 1 17
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
对于多列，将当前行和上一行的差异附加到新列

对于 df 中的每一列我想从前一行 row n 1 row n 中减去当前行但我遇到了困难我的代码如下 usr bin python3 from pandas datareader import data import pandas
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
使用 scala 集合 - CanBuildFrom 麻烦

我正在尝试编写一个接受任何类型集合的方法CC 并将其映射到一个新的集合相同的集合类型但不同的元素类型我正在挣扎基本上我正在尝试实施map but 不在集合本身上问题我正在尝试实现一个带有签名的方法它看起来有点像 def map

随机推荐

ArticxEngine.exe 中 0x777122D2 (ntdll.dll) 处未处理的异常：0xC0000005：访问冲突写入位置 0x00000004

我完全不确定为什么在 VS2012 中运行程序时会出现此错误 Visual Studio 似乎将问题引向sf RenderWindow Articx window in Articx cpp ArticxEngine exe 中 0x777
使用 %w[] 创建包含空字符串的数组

创建包含空字符串的数组 a b c 不是一个空格字符串使用 W我可以用 W a b c 我也可以连接数组但是是否可以使用空字符串创建数组 w 几个选项 W a b c z W a b c lt lt 我知道这没有使用 w 语法但为了更
如何从 obj-c / ios 中的堆栈跟踪获取源代码行

I use NSSetUncaughtExceptionHandler将堆栈跟踪打印到 iPhone 中的本地文件该文件将在下次应用程序启动时发送到我们的服务器然后我可以检查异常数据并修复错误在某些崩溃中我有模块名称和引发异常的函数
如何在图片上方画一条线？

如何在 Crystal Reports 中的图片上方显示一条线我目前使用的是水晶报表 8 5 我在报告中使用 jpeg 图像并将图像标题部分设置为底层以下部分我在图像标题部分上方添加了另一个标题画了一条线然后给出了在下面的部分
是否可以用 C 语言编写 malloc 的一致实现？

这是后续字符数组可以与任何数据类型一起使用吗 https stackoverflow com questions 38510557 我了解动态内存和 malloc 的常见实现可以在以下位置找到参考资料维基百科 https en wikip
我应该在 Android 1.x 和 2.x 应用程序中部署什么样的图标？

事情是这样的在 Android 1 5 和 1 6 中我们有图标设计指南 http developer android com guide practices ui guidelines icon design html 本指南中有应用程
哪个版本的 ruby bug 较少？

我最近编写了一些复杂的 ruby 脚本最终会在随机时间和随机位置因段错误而失败例如 nokogiri mechanize inov 超时我在 Windows 7 下的 1 9 1 p 129 1 8 6 p 369 和 ubuntu
Angular2：如何在实现 routerCanDeactivate 时防止/取消历史操作？

routerCanDeactivate 成功阻止导航离开组件 routerCanDeactivate nextInstruction ComponentInstruction prevInstruction ComponentInstruc
反应。如何将 props 从 onClick 传递到 function

我是反应新手我正在尝试创建一个应用程序在其中我可以单击按钮并且函数将运行倒计时器但是如果我从 onClick 传递道具来开始像这样的函数 onClick begin props subject 该函数将在我点击之前运行如果我在不带
收到警告：空值被聚合或其他 SET 操作消除

我有这个架构 create table t id int d date insert into t id d values 1 getdate 2 NULL 做的时候 declare mindate date select mindate
始终保持数据库连接打开可以吗？

我在业余时间从事单用户桌面数据库应用程序之类的工作并且我总是不确定我所做的设计选择现在就目前情况而言每当用户想要与数据库这是一个本地 SQLite 数据库因此通常只有一个用户一次看到它交互时应用程序就会创建一个新连接执行它
如何在 Bash 中将字符串转换为小写

有办法进去吗bash questions tagged bash将字符串转换为小写字符串例如如果我有 a Hi all 我想将其转换为 hi all 有多种方法 POSIX标准 https en m wikipedia org wiki
AxAcroPDF - Vista64 类未注册错误

我们有一个用 C 编写的 WinForms 应用程序它使用 AxAcroPDFLib AxAcroPDF 组件来加载和打印 PDF 文件在 Windows XP 下一直运行没有任何问题我已将开发环境移至 Vista 64 位现在除非
flutter 检测 url 并显示预览

我正在尝试制作一个类似于 wats app 的链接预览功能它有两个部分从文本字段检测 URL 显示该 URL 的预览第 2 部分有很多插件可以显示预览但我一直坚持第 1 部分即如何检测和解析用户在文本字段中输入的 URL 还有一个
VB.NET 中的自动递增文本框

单击按钮后如何增加文本框内容将其放在按钮单击事件中 Dim int As Integer Integer TryParse TextBox1 Text int TextBox1 Text int 1
Enzyme 和 React 路由器：如何使用 useHistory 浅层渲染组件

我一直在尝试用以下方式渲染组件shallow 由enzyme 该组件正在使用useHistory from react router dom const baseMatch match lt id string gt path url pa
如何实现复杂的sql命令

我在 MySQL 中有一个 sql 表其中包含以下记录 user dob john 1 10 96 jane 3 4 97 jill 1 8 96 jack 2 9 00 jane 12 14 07 john 1 11 98 这是我要执行
为什么 HttpClient 使套接字保持打开状态？

在创建使用和处置多个 HttpClient 时我注意到有套接字处于 TIME WAIT 状态例如运行以下命令后 using System Net Http namespace HttpClientTest public class
使用在 Linux 上运行的 .NET Core 时连接到 MongoDB 失败

我正在使用 ASP NET Core 2 0 构建一个网站一个月前刚刚从 1 1 升级 MongoDB 也由 Mongo Atlas 在 AWS 上托管这个 MongoDB 实例有 3 个副本集需要 SSL 进行连接并且已经设置可以
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra

计算行的排名

计算行的排名 的相关文章

随机推荐

热门标签

计算行的排名的相关文章