我有示例数据框如下:
i/p
accountNumber assetValue
A100 1000
A100 500
B100 600
B100 200
o/p
AccountNumber assetValue Rank
A100 1000 1
A100 500 2
B100 600 1
B100 200 2
现在我的问题是我们如何在按帐号排序的数据框中添加此排名列。我不期望有大量的行,所以我可以考虑是否需要在数据框之外进行操作。
我使用 Spark 版本 1.5 和 SQLContext 因此无法使用 Windows 函数
您可以使用row_number
功能和Window
您可以使用表达式来指定partition
and order
列:
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number
val df = Seq(("A100", 1000), ("A100", 500), ("B100", 600), ("B100", 200)).toDF("accountNumber", "assetValue")
df.withColumn("rank", row_number().over(Window.partitionBy($"accountNumber").orderBy($"assetValue".desc))).show
+-------------+----------+----+
|accountNumber|assetValue|rank|
+-------------+----------+----+
| A100| 1000| 1|
| A100| 500| 2|
| B100| 600| 1|
| B100| 200| 2|
+-------------+----------+----+
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)