如何在 PySpark 的 UDF 中返回“元组类型”？

2024-02-17

All the 中的数据类型pyspark.sql.types are https://spark.apache.org/docs/latest/api/python/_modules/pyspark/sql/types.html:

__all__ = [
    "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType",
    "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType",
    "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"]

我必须编写一个 UDF（在 pyspark 中），它返回一个元组数组。我该给它的第二个参数（即 udf 方法的返回类型）做什么？这将是类似的事情ArrayType(TupleType())...

不存在这样的事情TupleType在斯帕克.产品类型表示为structs具有特定类型的字段。例如，如果您想返回一个数组（整数、字符串），您可以使用如下模式：

from pyspark.sql.types import *

schema = ArrayType(StructType([
    StructField("char", StringType(), False),
    StructField("count", IntegerType(), False)
]))

用法示例：

from pyspark.sql.functions import udf
from collections import Counter

char_count_udf = udf(
    lambda s: Counter(s).most_common(),
    schema
)

df = sc.parallelize([(1, "foo"), (2, "bar")]).toDF(["id", "value"])

df.select("*", char_count_udf(df["value"])).show(2, False)

## +---+-----+-------------------------+
## |id |value|PythonUDF#<lambda>(value)|
## +---+-----+-------------------------+
## |1  |foo  |[[o,2], [f,1]]           |
## |2  |bar  |[[r,1], [a,1], [b,1]]    |
## +---+-----+-------------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

apachesparksql

如何在 PySpark 的 UDF 中返回“元组类型”？的相关文章

NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

如何使用 JPA 或 JDBC 使用 REF CURSOR 调用特定的 PL/SQL 函数

我的问题是我想在 Spring Boot 中的 PostConstruct 方法中调用 PL SQL 函数此函数返回有关数据库中表的信息如上所示 CREATE OR REPLACE FUNCTION dbINFO return sys
使用 scons 编译带有 -std=c++11 标志的 c++ 文件

我正在尝试使用 scons 编译带有 std c 11 选项的 c 文件文件测试 cc include
如何在 webpack 中以正确的顺序导入样式

我使用 bootstrap css 和一个用 less 编写的附加模板我将两者导入到我的反应组件的根组件中不幸的是即使 less 文件是第二个导入的文件引导程序中的样式也会推翻 less 样式有没有办法确保 webpack 中样式
如何找出哪个进程正在使用我的文件？

当我在 Build 上遇到这样的错误时如何找出哪个进程正在使用我的文件错误 18 无法将文件 Some dll 复制到 bin Debug Some dll 这进程无法访问文件 bin Debug Some dll 因为它是被另一个
Sublime Text 2 中可以显示确切的位置吗？

我一直在学习 Markdown 并使用 Python Markdown 包当我尝试转换从网络粘贴的文本时它通常会返回以下内容 UnicodeEncodeError ascii codec can t encode character u
ASP.NET MVC 通过字符串 id 路由？

在 ASP NET 2 中如何创建一个允许通过字符串 id 例如 ProductCode 查找对象例如 Product 的路由通过整数 ID 例如 ProductId 查找同一对象的路线是自动的所以我实际上不知道它是如何工作的根据
如何在没有安全问题的情况下运行用户提供的Javascript（例如jsFiddle、jsBin等）？

我需要运行一个完全由用户编写的 Javascript 函数我给他提供了一个骨架但细节需要他指定例如 function main model console the user can enter anything here ideall
如何高效查询包含两个WHERE子句的表（Android Room）

假设我有一个对象 class Person String firstName String lastName other fields 和一个数据库其中包含 Entity class DatabaseTable String firstN
Pandas 按日期将接近的事件分组，然后测试其他值是否相等

问题将时间上彼此接近且还具有相同变量的事件分组在一起例如给定疾病发病日期和地址查找在指定时间范围内在同一地点发生的疾病爆发大 300K 行 pandas 数据框示例数据 df pd DataFrame 2020 01 01 10
将 HTML 转义字符串转换为纯 Unicode/ASCII [重复]

这个问题在这里已经有答案了可能的重复 Java 如何像 HttpUtility HtmlDecode 一样解码 Java 中的 HTML 字符实体 https stackoverflow com questions 994331 java
为什么 ListView 中偶尔会加载错误的图像？

我有一个列表视图它以异步方式加载每个单元格中的图像当我尝试缓慢向下滚动时加载当前视图中的所有图像后它可以完美地工作但是当我尝试在加载它们之前向下滚动并向上滚动时我遇到了这个问题细胞开始显示与它们不对应的图像我的 getVi
使用 Node.js 上传多个图像

我正在使用 Node js 并尝试处理多个图像我使用以下代码上传单个图像然后将路径以字符串格式保存到数据库中 var multiparty require multiparty var form new multiparty Form
在 React 本机应用程序上得到“分配的来源之一在原型链上有一个可枚举的键”

我正在为Android应用程序使用react native 并使用axios作为http库当我尝试发送Blob通过 http post 对象我会得到以下错误 HTTP Failure in Axios TypeError One of t
动态更改 UILabel 宽度不适用于自动布局

我有一些代码 CGRect currentFrame textLabel frame CGSize max CGSizeMake textLabel frame size width 3000 CGSize expected textLab
如何在“/tmp”而不是工作目录中创建临时文件“.#filename”

当在 Emacs 中修改文件时会在工作目录中创建一个临时文件如下所示 filename 保存缓冲区时文件将被删除我在 Git 远程存储库中发现了一些此类临时文件我认为最好从源头上消灭萌芽而不是将 Git 配置为在每个项目中忽略它们
为什么非静态字段不能充当GC根？

据我所知静态字段以及线程局部变量和方法参数 JNI 引用充当 GC 根我无法提供可以证实这一点的链接但我已经阅读了很多相关文章为什么非静态字段不能充当GC根首先我们需要确保我们对于跟踪垃圾收集算法在标记阶段的作用达成共识
cmd / DOS 批处理脚本中变量周围的方括号表示法

我见过 cmd 批处理脚本使用平方符号来包围变量例如 echo off if 1 echo no parameter entered else echo param1 is 1 这样做的目的是什么它用于正确的语法想象一下您想检查变量
模拟器上未收到 Firebase 消息

我按照中的说明进行操作https stackoverflow com a 38626398 565212 https stackoverflow com a 38626398 565212将 SNS 到 FCM 连接到 Android 应用
如何使用SLIM框架创建MySQL事务

我正在使用Slim框架来创建一个RESTful API 如何创建一个事务来执行多个SQL语句和或能够回滚其中一些语句 SLIM没有附带 MySQL 所以基本上你会用正常的方式使用 PDO 或 MySQLi 来完成它所以基本上假设 P
如何在 PySpark 的 UDF 中返回“元组类型”？

All the 中的数据类型pyspark sql types are https spark apache org docs latest api python modules pyspark sql types html all Dat

如何在 PySpark 的 UDF 中返回“元组类型”？

如何在 PySpark 的 UDF 中返回“元组类型”？ 的相关文章

随机推荐

热门标签

如何在 PySpark 的 UDF 中返回“元组类型”？的相关文章