Spark Streaming with python：如何添加 UUID 列？

2023-11-23

我想将带有生成 id 的列添加到我的数据框中。我努力了：

uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())

但是，当我这样做时，没有任何内容写入我的输出目录。当我删除这些行时，一切正常，因此肯定存在一些错误，但我在控制台中没有看到任何内容。

我尝试过使用 monotonically_increasing_id() 而不是生成 UUID，但在我的测试中，这会产生许多重复项。我需要一个唯一标识符（不一定是 UUID）。

我怎样才能做到这一点？

请尝试这个：

import uuid
from pyspark.sql.functions import udf

uuidUdf= udf(lambda : str(uuid.uuid4()),StringType())
Df1 = Df.withColumn("id",uuidUdf())

Note:添加新列后应分配给新的 DF。 (Df1 = Df.withColumn(....)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

UUID

Spark Streaming with python：如何添加 UUID 列？的相关文章

OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某

随机推荐

spring-kafka - 如何从头开始阅读一个主题，同时从末尾阅读另一个主题？

我正在编写一个 spring kafka 应用程序其中我需要阅读 2 个主题 test1 和 test2 public class Receiver private static final Logger LOGGER LoggerFac
垂直和水平居中div，没有定义高度[重复]

这个问题在这里已经有答案了我想在页面中央显示一个 div 而不必为元素定义设置高度以便高度动态适合页面内容这可能吗我愿意使用 JS jQuery 解决方案只要它们有优雅的后备但我更喜欢纯 CSS 解决方案这是我当前的代码它将
jQuery 和 Google 地图 json 响应

我在从 google 地图 api 获取地理位置信息时遇到问题代码非常简单 ajax type GET cache false url http maps googleapis com maps api geocode json data
使用 join 时 Spark 迭代时间呈指数增长

我对 Spark 很陌生我正在尝试实现一些迭代算法以马尔可夫模型表示的质心进行聚类期望最大化所以我需要进行迭代和连接我遇到的一个问题是每次迭代时间都会呈指数增长经过一些实验我发现在进行迭代时需要保留将在下一次迭代中重用的 RD
Astyanax：简单写入抛出此异常：没有足够的字节来读取组件的值

我是 astyanax 的新手尝试了一些示例程序并收到此错误这是一个简单的写法看起来我做了一些基本错误的事情不使用复合键 Caused by InvalidRequestException why Not enough bytes
自定义警报的 UILocalNotification 重复间隔（周日、周一、周二、周三、周四、周五、周六）

我在用着UILocalNotification用于报警目的我有一个基于工作日周日周一周二周三周四周五周六重复的自定义选项很多应用程序都执行了这个过程我尽力了我的水平但我无法让它发挥作用请大家帮帮我您不能使用以下命
Google 我的商家 API 始终返回 429 代码

error code 429 message 超出配额指标的配额请求并限制服务的每分钟请求消费者的 mybusinessaccountmanagement googleapis com project number xxx erro
删除字符串中的常见字母

所以我有一个有趣的问题我正在尝试写一些混乱的单词我需要知道哪些字母我用过哪些字母我没有到目前为止我有以下代码 def remove common x y sort sort lambda x join c for c in sort
如何在自定义混合任务中从 Ecto 获取数据

我想在自定义混合任务中通过 Ecto 显示来自数据库的数据如何在我的任务中获取 Ecto 存储库或启动它我尝试过类似的方法但没有成功 defmodule Mix Tasks Users List do use Mix Task us
如何获取android中最近1个月的数据使用情况？

我需要获取上个月的数据使用统计信息有什么方法可以在android中明智地计算数据使用日期吗 I used 交通统计用于获取数据使用情况的类但它提供了自设备启动以来给定 UID 的设备的所有数据使用情况对于那些仍在寻找的人请将其放入
如何检查 Javascript 函数是否是构造函数

我注意到并非所有 Javascript 函数都是构造函数 var obj Function prototype console log typeof obj function true obj OK new obj TypeError ob
Pandas 数据框的元组列表列表？

我有一个元组列表列表其中每个元组的长度相等并且我需要将元组转换为 Pandas 数据帧使得数据帧的列等于元组的长度并且每个元组item 是跨列的行条目我咨询过有关此主题的其他问题例如将元组列表列表转换为 pandas 数据框
空基类是不是不好的设计？

我的 DTO 类需要一个基类它将在我的通用接口中使用但 DTO 类没有任何共同点它们只是包含一些属性的愚蠢类 public void GetGridData IDataForGrid
从图像中减去平均值

我正在用 Theano 实现 CNN 在论文中我必须在训练 CNN 之前进行图像预处理 We extracted RGB patches of 61x61 dimensions associated with each poselet a
TypeScript：如何同时使用粗箭头和这个？

我正在使用非常有用的局部脂肪箭头保存this回调中的上下文但是有时我需要访问该值this如果我没有使用粗箭头的话就会有一个例子是事件回调其中this具有事件发生的元素的值我知道在这个特定的示例中您可以使用event current
使用新的 1.0 SDK 使用 Firebase 的云函数生成自定义身份验证令牌

As of email protected and email protected firebase admin应用程序初始化时不再接受应用程序配置我有一个 firestore 函数可以使用 firebase admin 生成自定义令牌
如果我将 minAPI 设置为 21，我是否需要 AppCompat？

我决定将 Android 的最低 API 版本设为 21 但这是否意味着不再使用 AppCompat 没有意义了只使用简单的材料设计没有AppCompat 等等不您应该始终使用 AppCompat 这可确保您的应用程序在所有 API
在 Pandas DataFrame 中界定值高于特定阈值的连续区域

我有一个 Pandas Dataframe 其索引和值在 0 到 1 之间如下所示 6 0 047033 7 0 047650 8 0 054067 9 0 064767 10 0 073183 11 0 077950 我想检索元组超过
取消 jquery 中的提交？

我正在做表单验证并且我想在提交时验证输入字段如果错误我使用 jquery scrollTo 去错误 form inscripcion submit function se traen todos los inputs del for
Spark Streaming with python：如何添加 UUID 列？

我想将带有生成 id 的列添加到我的数据框中我努力了 uuidUdf udf lambda x str uuid uuid4 StringType df df withColumn id uuidUdf 但是当我这样做时没有任何内容写

Spark Streaming with python：如何添加 UUID 列？

Spark Streaming with python：如何添加 UUID 列？ 的相关文章

随机推荐

热门标签

Spark Streaming with python：如何添加 UUID 列？的相关文章