将数组传递给 Spark Lit 函数

2023-12-26

假设我有一个 numpy 数组a包含数字 1-10：
[1 2 3 4 5 6 7 8 9 10]

我还有一个 Spark 数据框，我想向其中添加我的 numpy 数组a。我认为一列文字就可以完成这项工作。这不起作用：

df = df.withColumn("NewColumn", F.lit(a))

不支持的文字类型类 java.util.ArrayList

但这有效：

df = df.withColumn("NewColumn", F.lit(a[0]))

怎么做？

之前的 DF 示例：

col1
a b c d e f g h i j

预期结果：

col1	NewColumn
a b c d e f g h i j	1 2 3 4 5 6 7 8 9 10

Spark 中的列表理解`array`

a = [1,2,3,4,5,6,7,8,9,10]
df = spark.createDataFrame([['a b c d e f g h i j '],], ['col1'])
df = df.withColumn("NewColumn", F.array([F.lit(x) for x in a]))

df.show(truncate=False)
df.printSchema()
#  +--------------------+-------------------------------+
#  |col1                |NewColumn                      |
#  +--------------------+-------------------------------+
#  |a b c d e f g h i j |[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]|
#  +--------------------+-------------------------------+
#  root
#   |-- col1: string (nullable = true)
#   |-- NewColumn: array (nullable = false)
#   |    |-- element: integer (containsNull = false)

@pault 评论道（Python 2.7）:

您可以使用隐藏循环map:
df.withColumn("NewColumn", F.array(map(F.lit, a)))

添加@abegehrPython 3版本：

df.withColumn("NewColumn", F.array(*map(F.lit, a)))

Spark's `udf`

# Defining UDF
def arrayUdf():
    return a
callArrayUdf = F.udf(arrayUdf, T.ArrayType(T.IntegerType()))

# Calling UDF
df = df.withColumn("NewColumn", callArrayUdf())

输出是一样的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

literals

将数组传递给 Spark Lit 函数的相关文章

Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

逗号分隔具有相同行数的值

数据库结构 items id name users id username 用户项目 id user id item id 我目前有一个count on user items显示拥有最多项目的用户 john 13 bill 9 lily 9
使用 OpenCV 检查图像的相似性

OpenCV 是否支持比较两个图像返回一些值可能是百分比来指示这些图像的相似程度例如如果相同的图像被传递两次则返回 100 如果图像完全不同则返回 0 我已经在 StackOverflow 上阅读了很多类似的主题我也做了一些
如何在 Laravel 中进行简单的重定向？

我在 Laravel 中有一个函数最后我想重定向到另一个函数我如何在 Laravel 中做到这一点我尝试过类似的东西 return redirect gt route listofclubs 这不起作用 listofclubs 的路线
如何在 Bootstrap 中垂直居中容器？

我正在寻找一种垂直居中的方法container里面的divjumbotron并将其设置在页面中间 The jumbotron必须适应屏幕的整个高度和宽度这 containerdiv 的宽度为1025px并且应该位于页面的中间垂直居中我
在 TensorFlow 中，如何使用 python 从张量中获取非零值及其索引？

我想做这样的事情假设我们有一个张量 A A 1 0 0 4 我想从中获取非零值及其索引 Nonzero values 1 4 Nonzero indices 0 0 1 1 Numpy 中也有类似的操作 np flatnonzero A
Google 跟踪代码管理器：事件跟踪不起作用

我尝试使用标签管理器跟踪我网站上所有邮件链接的点击次数但它根本不起作用使用 firebug 查看网络传输我可以看到没有任何内容提交给 Google 当然我的 Analytics 界面中也没有出现任何内容我已使用 jQuery 将推
C 动作和变量

为什么当我使用 char paraula 15 int longparaula 0 copia paraula paraula longparaula 它说longparaula 0 paraula 没问题并且包含我输入的字符的值但 l
将大的 2^63 十进制转换为二进制

我需要将大十进制转换为二进制我该怎么做有问题的十进制是这个 3324679375210329505 怎么样 String binary Long toString 3324679375210329505L 2
获取有关自动变量的帮助不起作用

我正在研究 PowerShell 建议致电网站和书籍Get Help about Automatic Variables例如获取返回的自动变量列表我尝试打电话Get Help使用以下参数但我总是得到返回的 cmdlet 列表 abou
PyQt 事件发出两次

我正在尝试实现拖放项目QListWidget to QGraphicsView 我继承了自己的班级MooView from QGraphicsView并封装dragMove dragEnter and drop事件但在测试时我注意到
使用“ec2-user”登录，而不是使用 aws 中的用户数据 root 登录

我有一个基于 RHEL 6 4 64 位 AMI 的 Amazon EC2 实例写完一些shell脚本后我用它创建了自己的 AMI 映像我正在编写用户数据部分它将删除 home ec2 user sudo rm rf home ec
OpenSSL 在 PKCS12 导出期间挂起，并显示“将‘屏幕’加载到随机状态”

我正在使用 OpenSSL 不是 makecert 生成自签名 SSL 证书以在 IIS 中使用 openssl req x509 newkey rsa 2048 keyout key pem out cert pem days 365
创建和使用 Laravel 4 命令

编辑找出我出错的地方并将答案放在最后我正在尝试创建一个 Laravel 命令我可以看到它与 Laravel 3 中的任务相比发生了很大的变化但是我似乎无法让它运行这些是我已采取的步骤 php artisan 命令 make 导
禁用远程调试时应用程序在启动时崩溃

我正在尝试在我的手机 iPhone 上安装我的反应本机应用程序它安装正常但在启动时崩溃并显示此错误消息 undefined is not an object evaluating navigator userAgent indexOf
java.security.cert.CertificateException：证书不符合算法约束

我有一个地图应用程序可以添加地理信息系统 9 3 给定 URL 的底图我想要添加的 URL 之一来自客户的 URL 并且是安全的我的地图应用程序之前使用 Java 6 并且能够毫无问题地添加安全 URL 我现在升级到 Java 7 并得
对于集群中具有两个节点的专用计算机，ES_HEAP_SIZE 的正确值

我有一台 ES 2 2 0 的专用机器它运行在 Windows Server 2012 R2 上拥有 128GB 内存关于ES 我计划在这台机器上的集群中有两个节点根据elasticsearch yml中ES的推荐确保ES HEA
如何在django视图中获取模板路径

所以我试图在我的视图中获取模板路径有没有一种动态的方法来做到这一点因为目前我正在对路径进行硬编码 html C Users user Desktop project src templates project html 模板路径 TEM
让 html 成为标签 href 等待 onclick 中的异步函数返回？

我有一个带有 onclick 的链接该链接应该在 href 之前执行 a class btn btn primary href mode full Promeni rezim prikaza a 被调用的js函数的相关部分如下所示 fun
在 Windows 操作系统上批量运行多个 m 文件，“无需”关闭先前运行的 m 文件

我的目的是顺序运行一系列m文件和python程序感谢 Mofi Shai 和 moarningsun 我发现这个批处理文件在我的 Windows 操作系统上是成功的 start 01 wait C Program Files MATLAB
将数组传递给 Spark Lit 函数

假设我有一个 numpy 数组a包含数字 1 10 1 2 3 4 5 6 7 8 9 10 我还有一个 Spark 数据框我想向其中添加我的 numpy 数组a 我认为一列文字就可以完成这项工作这不起作用 df df withColu

将数组传递给 Spark Lit 函数

Spark 中的列表理解array

Spark's udf

将数组传递给 Spark Lit 函数 的相关文章

随机推荐

热门标签

Spark 中的列表理解`array`

Spark's `udf`

将数组传递给 Spark Lit 函数的相关文章