如何使用增量值向 Pyspark 中的 DataFrame 添加列？

2024-05-02

我有一个名为“df”的 DataFrame，如下所示：

+-------+-------+-------+
|  Atr1 |  Atr2 |  Atr3 |
+-------+-------+-------+
|   A   |   A   |   A   |
+-------+-------+-------+
|   B   |   A   |   A   |
+-------+-------+-------+
|   C   |   A   |   A   |
+-------+-------+-------+

我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame：

+-------+-------+-------+-------+
|  Atr1 |  Atr2 |  Atr3 |  Atr4 |
+-------+-------+-------+-------+
|   A   |   A   |   A   |   1   |
+-------+-------+-------+-------+
|   B   |   A   |   A   |   2   |
+-------+-------+-------+-------+
|   C   |   A   |   A   |   3   |
+-------+-------+-------+-------+

我怎样才能得到它？

如果您只需要增量值（例如 ID）并且如果没有数字必须连续的限制，你可以使用monotonically_increasing_id()。使用此函数时的唯一保证是每行的值都会增加，但是，每次执行时值本身可能会有所不同。

from pyspark.sql.functions import monotonically_increasing_id

df.withColumn("Atr4", monotonically_increasing_id())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DataFrame

attributes

PySpark

INCREMENT

如何使用增量值向 Pyspark 中的 DataFrame 添加列？的相关文章

没有任何元数据的 zip 文件

我想找到一种简单的方法来压缩一堆文件而无需任何文件元数据例如时间戳这zip命令似乎总是保留元数据我没有找到禁用元数据的方法我希望解决方案是一个命令或最多一个 python 脚本谢谢正如一些帖子已经指出的那样 zip 标头中的大
在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

我一直在尝试用硒抓取这个房地产网站的一些信息但是当我访问该网站时我需要接受 cookie 才能继续这仅在机器人访问网站时发生而不是在我手动执行时发生当我尝试通过 xpath 或 id 查找相应的元素时正如我在手动检查页面时找到
一次将Python dict的内容分配给多个变量？

我想做这样的事情 def f return a 1 b 2 c 3 a b f or a b f IE 这样 a 被分配为 1 b 被分配为 2 并且 c 是未定义的这与此类似 def f return 1 2 a b f 依赖于变量名称
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

如何使用Query备份MySQL数据库？

我们如何使用 Query 备份 MySQL 数据库就像我们可以使用以下 Query 备份 MS SQL 一样 Query backup database DATABASENAME to disk PATH 使用 mysqldump php
OpenCV 在使用 anaconda 的 Linux 上无法与 python 正常工作。收到 cv2.imshow() 未实现的错误

这就是我得到的确切错误我的操作系统是 Ubuntu 16 10 OpenCV 错误未指定错误该功能未实现使用 Windows GTK 2 x 或 Carbon 支持重新构建库如果您使用的是 Ubuntu 或 Debian 请安装
发送到带有联系表格 asp.net 的电子邮件

我如何使用 ASP NET 中的联系表单向指定的电子邮件地址发送电子邮件该网站通过托管公司托管谢谢 MailMessage mail new MailMessage SmtpClient SmtpServer new SmtpClien
将 SelectByText （部分）与 C# Selenium WebDriver 绑定一起使用似乎不起作用

我正在使用 C 中的 Selenium WebDriver 扩展通过部分文本值实际前面有一个空格从选择列表中选择一个值我无法使用部分文本匹配来使其工作我做错了什么还是这是一个错误可重现的例子 using Microsoft Vis
连接系统 R 中的两个或多个数据帧

我的问题是如何在 R 系统中连接两个或多个数据帧例如我有两个数据框 first x y z 1 3 2 4 2 4 5 7 3 5 6 8 second x y z 1 1 1 1 2 4 5 7 我需要这个 x y z 1 3 2 4
如何解析 Spray-routing 中的 get 请求参数？

这就是代码部分的样子 get respondWithMediaType MediaTypes application json entity as HttpRequest obj gt complete println obj ok 我可以
Android MediaCodec 在异步模式下比同步模式下慢？

再次我有一个关于 Android 的 MediaCodec 类的问题我已成功解码原始 h264 内容并将结果显示在两个纹理视图中 h264 流来自运行 openGL 场景的服务器该场景有一个摄像头因此可以响应用户输入为了进一步减少
parseInt() 和 Number() 有什么区别？

How do parseInt https developer mozilla org en US docs Web JavaScript Reference Global Objects parseInt and Number https
SQL Server 与 MySQL：CONTAINS(*,'FORMSOF(THESAURUS,word)')

我很震惊当我在 SQL Server 中看到查询非常简单时我花了 3 4 天弄清楚如何在 mysql 中实现词干提取和同义词搜索 Select from tab where CONTAINS FORMSOF THESAURUS wor
错误：此 PlotModel 已被其他 PlotView 控件使用

我有两个选项卡绑定到一个viewmodel其中包含一个PlotModel of oxyplot并查看通过选择的模型DataTemplate 当单击第一个选项卡时viewmodel已正确绑定但当切换到标题中定义的上面第二个选项卡时会抛出异
将 pandas DataFrame 与 Series 进行比较

我看过this https stackoverflow com questions 26285661 working with comparing dataframes and series and generating new dataf
如何使用 React 传递自定义服务器主机名？

我希望能够在运行 React 应用程序时传递自定义服务器主机名以便在需要获取数据时在 URL 中使用服务器当前正在我的本地计算机上运行因此当我使用获取我一直在使用 http localhost 效果非常好但我希望能够传递要在 UR
这个作用域/闭包什么时候在 javaScript 中被垃圾回收？

我正在做一门课程该课程正在讨论范围闭包并简要提到垃圾收集课程中提出一个问题范围保持多久答案是直到不再有任何提及它是的所以我们基本上说的是是的闭包有点像对隐藏范围对象的引用所以只要有一些函数仍然有一个闭包范围该范围
ASP.NET MVC 中的魔术字符串

我有桌面软件开发背景并且正在开始学习 ASP NET MVC 在我的默认 HomeController 中我有 Index 操作其代码如下所示 if Request IsAuthenticated return RedirectToA
如何在sessionStorage中保存Mobx状态

试图从根本上实现这一点https github com elgerlambert redux localstorage https github com elgerlambert redux localstorage这是针对 Redux 的
std::type_info::hash_code() 的唯一性和“应该”的含义

是否意味着保证相同std type info hash code 值意味着相同的类型 Cplusplus com http www cplusplus com reference typeinfo type info hash code 似
浮动操作按钮未显示在 recyclerview 上（位于 DrawerLayout 内）

我正在尝试通过 recyclerview 获取 FAB 在我的情况下它将覆盖整个屏幕即使 recyclerview 为空 FAB 也不会显示以下是我的 xml 代码
OT 和 CRDT 之间的区别

有人可以简单地向我解释一下操作转换和 CRDT 之间的主要区别吗据我了解两者都是允许数据在分布式系统的不同节点上无冲突地收敛的算法在哪种用例中您会使用哪种算法据我了解 OT主要用于文本而CRDT更通用可以处理更高级的结构对吧
以有效的方式找到最近点

我在 2d 平面上有一个点例如 x0 y0 和一组 n 点 x1 y1 xn yn 我想在 a 中找到距离 x0 y0 最近的点比尝试所有要点要好得多有什么解决办法吗我还应该说我的观点是这样排序的 bool less point a
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3

如何使用增量值向 Pyspark 中的 DataFrame 添加列？

如何使用增量值向 Pyspark 中的 DataFrame 添加列？ 的相关文章

随机推荐

热门标签

如何使用增量值向 Pyspark 中的 DataFrame 添加列？的相关文章