如何使用增量值向 Pyspark 中的 DataFrame 添加列?

2024-05-02

我有一个名为“df”的 DataFrame,如下所示:

+-------+-------+-------+
|  Atr1 |  Atr2 |  Atr3 |
+-------+-------+-------+
|   A   |   A   |   A   |
+-------+-------+-------+
|   B   |   A   |   A   |
+-------+-------+-------+
|   C   |   A   |   A   |
+-------+-------+-------+

我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame:

+-------+-------+-------+-------+
|  Atr1 |  Atr2 |  Atr3 |  Atr4 |
+-------+-------+-------+-------+
|   A   |   A   |   A   |   1   |
+-------+-------+-------+-------+
|   B   |   A   |   A   |   2   |
+-------+-------+-------+-------+
|   C   |   A   |   A   |   3   |
+-------+-------+-------+-------+

我怎样才能得到它?


如果您只需要增量值(例如 ID)并且如果没有数字必须连续的限制,你可以使用monotonically_increasing_id()。使用此函数时的唯一保证是每行的值都会增加,但是,每次执行时值本身可能会有所不同。

from pyspark.sql.functions import monotonically_increasing_id

df.withColumn("Atr4", monotonically_increasing_id())
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用增量值向 Pyspark 中的 DataFrame 添加列? 的相关文章

随机推荐