我们如何对数据框进行排名？

2023-12-19

我有示例数据框如下：

i/p

accountNumber   assetValue  
A100            1000         
A100            500          
B100            600          
B100            200

o/p

AccountNumber   assetValue  Rank
A100            1000         1
A100            500          2
B100            600          1
B100            200          2

现在我的问题是我们如何在按帐号排序的数据框中添加此排名列。我不期望有大量的行，所以我可以考虑是否需要在数据框之外进行操作。

我使用 Spark 版本 1.5 和 SQLContext 因此无法使用 Windows 函数

您可以使用row_number功能和Window您可以使用表达式来指定partition and order列：

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number

val df = Seq(("A100", 1000), ("A100", 500), ("B100", 600), ("B100", 200)).toDF("accountNumber", "assetValue")

df.withColumn("rank", row_number().over(Window.partitionBy($"accountNumber").orderBy($"assetValue".desc))).show

+-------------+----------+----+
|accountNumber|assetValue|rank|
+-------------+----------+----+
|         A100|      1000|   1|
|         A100|       500|   2|
|         B100|       600|   1|
|         B100|       200|   2|
+-------------+----------+----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

我们如何对数据框进行排名？的相关文章

哪些 ORM 与 Scala 配合得很好？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
Java / Scala Future 由回调驱动

简洁版本我怎样才能创建一个Promise
Scala：具有复杂结构的树插入尾递归

我正在 scala 中创建自定义对象树并且我的插入方法引发堆栈溢出因为它不是尾递归但是我不太清楚如何使其尾递归我见过使用累加器变量的相关示例但它们要么是只能相乘和覆盖的整数之类的东西要么是我在适应树时遇到困难的列表这是我
宏：knownDirectSubclasses 被嵌套类型破坏？

我有一个宏它枚举密封特征的直接子类型 import scala reflect macros Context import language experimental macros object Checker def apply A U
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
Scala 相当于 Java 的 Number

我正在尝试为数值域类型构建类型层次结构例如AYear is an Int 这是一个Number a Percentage is a Double 这是一个Number等等我需要层次结构以便我可以调用toInt or toDouble关于
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
通用特征的隐式转换

我正在实现一个数据结构并希望用户能够使用任何类型作为密钥只要他提供一个合适的密钥类型来包装它我有这个关键类型的特质这个想法是进行从基类型到键类型的隐式转换反之亦然实际上只使用基类型该特征看起来像这样 trait Key T
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
如何在 Scala 中打印任何内容的列表？

目前我有一个打印整数的方法 def printList args List Int Unit args foreach println 我如何修改它使其足够灵活可以打印任何内容的列表您不需要专用的方法所需的功能已经在集合类中 pri
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Scala 和变量中的模式匹配

我是 Scala 新手有点想知道模式匹配是如何工作的想象一下我有以下内容 case class Cls i Int case b Cls i gt Ok case e Cls gt Ok case f Cls gt Ok case s
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table

随机推荐

哪些请求标头可用于浏览器/客户端指纹？

为了增加安全性我们的服务器会跟踪浏览器指纹目前我们使用以下标头 HTTP CLIENT IP HTTP X FORWARDED FOR HTTP X FORWARDED HTTP X CLUSTER CLIENT IP HTTP FOR
Android Studio 中出现“jcenter.bintray.com:443 未能响应”错误

我正在尝试在 Android Studio 中构建一个项目而 Android 的默认构建工具 Gradle 在尝试构建我的项目时总是给我一个错误以下是使用 gradlew build 命令的结果 FAILURE Build failed
如何更好地初始化不可创建的 COM 对象的引用计数器？

我有一个 COM 接口其中有一个返回对象的方法 interface ICreatorInterface HRESULT CreateObject IObjectToCreate 关键是调用ICreatorInterface CreateO
检测您是否要使用新的视图控制器或以前的视图控制器

我有一个导航视图控制器想象一下这种情况我的视图控制器 vc1 vc2 vc3 vc4 我的根导航控制器 nc 视图控制器的堆栈是这样的数控 gt vc1 gt vc2 gt vc3 现在我在vc3 我想知道如何检测您是否要去上一个视图
当名义类需要访问修改时无法使用交集类型

接口 interface PublicCloneable Object clone interface HasPosition doesn t matter 尝试使用交叉类型 SuppressWarnings unchecked
比较 Java 中的双精度数会得到奇怪的结果

我真的无法理解为什么会发生以下情况 Double d 0 0 System out println d 0 is true System out println d equals 0 is false 然而这按预期工作 Double d
Font Awesome 图标在某些浏览器中不起作用

我正在使用 Bootstrap Font Awesome 大多数桌面和移动浏览器都可以正常工作但 Font Awesome 图标不适用于某些浏览器如 Opera Mobile Opera Mini 和某些版本的 Android 浏览器
Spirit X3，语义操作使编译失败并显示：属性没有预期的大小

此代码无法编译 gcc 5 3 1 boost 1 60 include
使用 python 在文件中查找与关键字相关的值

很抱歉初学者的 python 问题但我无法在任何地方找到如何做到这一点所以请耐心等待我试图从包含关键字后跟值的文件中提取值例子 length 95 width 332 length 1253 length 345 width 22
如何在 C++ CLR 中将 array 转换为 char*？

在我的项目中我将一个 byte 从 C 传递到 C CLR 函数 C CLR 代码 void TestByteArray array
从元胞数组中获取字符串作为 matlab 工作区中变量的名称

我的实验中有大量 csv 文件 200 多个之前我一直在单独读取它们对于数据处理的后续步骤来说这是一项乏味的工作 co 15 csvread CO 15K csv 5 0 co 25 csvread CO 25K csv 5 0 co
如何将 Node.js 模块与 Next.js 一起使用？

我需要将express与next js一起使用吗我尝试将此代码添加到 next js 应用程序中来自 npm 模块示例代码 pdf2json let fs require fs var PDFParser require pdf2jso
必须打开哪些端口才能与 Firebase 数据库通信（而不是 FCM 消息传递）？

我用 C 编写了一个 Windows 服务它连接到 Firebase 数据库并存储数据对于连接和数据库通信我使用名为 FirebaseAuthentification net 和 FirebaseDatabase net 的 NuGe
ant fileset dir 排除某些目录

关于这个主题有很多问题但没有一个答案能解决我的问题再次启动该线程以获得新的输入我尝试了两种不同的方法来排除 B dir 及其在 A dir subdir 下的所有内容但没有一个有效仅供参考 a dir 位于 dir src 下 1
将垂直滚动破解为水平滚动[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我知道这违反了书中的每条可用性规则
寻找一种从辅助函数调用 Perl XS C API 函数/宏的方法

我一直在尝试 Perl XS C API 但遇到了障碍我在下面简化了我的示例假设现有结构 MyObject 然后访问属性 a 或 b 并为其中之一创建哈希我可以使用以下代码 typedef struct const char prop
如何向 UITableViewCell 分隔线添加阴影？

我有一个像这样的 UITableView 我想为每个单元格的分隔线添加阴影结果应如下所示我试过这个 In cellForRowAtIndexPath 方法我添加了这段代码 cell layer shadowOpacity 1 0 ce
如何在 Ruby 脚本中运行 Rake 任务？

我有一个Rakefile我通常会从命令行调用 Rake 任务 rake blog post Title 我想编写一个 Ruby 脚本来多次调用该 Rake 任务但我看到的唯一解决方案是使用反引号或system 这样做的正确方法是什么
如何使用numpy在python中计算RMSPE

我正在使用以下方法进行多元预测罗斯曼数据集 https www kaggle com c rossmann store sales description我现在需要使用 RMSPE 指标来评估我的模型我看到了相关的公式here https
我们如何对数据框进行排名？

我有示例数据框如下 i p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200 o p AccountNumber assetValue Rank A100 1000

我们如何对数据框进行排名？

我们如何对数据框进行排名？ 的相关文章

随机推荐

热门标签

我们如何对数据框进行排名？的相关文章