withColumn 不允许我使用 max() 函数生成新列

2023-12-29

我有一个这样的数据集：

a = sc.parallelize([[1,2,3],[0,2,1],[9,8,7]]).toDF(["one", "two", "three"])

我想要一个数据集添加一个新列，该新列等于其他三列中的最大值。输出如下所示：

+----+----+-----+-------+
|one |two |three|max_col|
+----+----+-----+-------+
|   1|   2|    3|      3|
|   0|   2|    1|      2|
|   9|   8|    7|      9|
+----+----+-----+-------+

我以为我会用withColumn，像这样：

b = a.withColumn("max_col", max(a["one"], a["two"], a["three"]))

但这会产生错误

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/opt/spark152/python/pyspark/sql/column.py", line 418, in __nonzero__
    raise ValueError("Cannot convert column into bool: please use '&' for 'and', '|' for 'or', "
ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions.

奇怪的。做max返回一个bool？不根据的文档max https://docs.python.org/2/library/functions.html#max。好的。诡异的。

我觉得这很奇怪：

b = a.withColumn("max_col", a["one"] + a["two"] + a["three"]))

它有效的事实让我更加强烈地认为max的行为方式我不明白。

我也尝试过b = a.withColumn("max_col", max([a["one"], a["two"], a["three"]]))，它将三列作为列表而不是 3 个单独的元素传递。这会产生与上面相同的错误。

实际上你需要的是greatest not max:

from pyspark.sql.functions import greatest

a.withColumn("max_col", greatest(a["one"], a["two"], a["three"]))

为了完整起见，您可以使用least找到最小值：

from pyspark.sql.functions import least

a.withColumn("min_col", least(a["one"], a["two"], a["three"]))

关于您看到的错误非常简单。max取决于丰富的比较。当您比较两列时，您会得到Column:

type(col("a") < col("b")
## pyspark.sql.column.Column

PySpark 明确禁止将列转换为布尔值（您可以检查Column.__nonzero__来源）因为它根本毫无意义。它只是一个逻辑表达式，无法在驱动程序上下文中进行计算。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

withColumn 不允许我使用 max() 函数生成新列的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24

随机推荐

如何在单个查询中获取最大值和最小值？

我正在使用 MySQL 并且正在寻找一种从两列例如 posx and posy 仅使用一个查询 Simple SELECT MIN posx MIN posy MAX posx MAX posy FROM table
构建 Clang 时未知的软件包 libcxx 和 libcxxabi？

我正在尝试使用 libc 从源代码构建 Clang 我试图将 libc 放入树内同时使用其他组件在树外构建它我使用的食谱如下如果我简单地放置libcxx and libcxxabiin tree 然后配置does not拿起它们它们
Homebrew：无法链接Python

我在 Homebrew 中链接 python 时遇到问题这是输出 brew link python 链接 usr local Cellar python 2 7 13 错误权限被拒绝 usr local Frameworks When
使用三个 js 更改合并网格上的材质颜色

是否可以与合并多个网格时使用的缓冲区进行交互以更改所选单个网格上的颜色使用网格集合很容易做到这一点但是具有多种不同材质的合并网格又如何呢 hgates 你最后的评论对我非常有帮助我几天来一直在寻找同样的东西好的我在每个面上设置了一
根据高度调整 Div 大小但保留纵横比（几乎明白了）奇怪的重新加载错误

根据父 div 的宽度调整视频大小时有很多保持宽高比的解决方案其中大多数依赖于 padding top 和 padding bottom 是根据宽度而不是高度计算的事实我正在尝试做类似的事情但我想根据父 div 的高度调整视频大小
SVN 预提交挂钩以限制文件扩展名被提交

在 Collabnet SVN 的预提交脚本中使用以下代码来限制特定文件扩展名的提交但它会提交所有文件你能告诉我哪里错了吗 bin sh REPOS 1 TXN 2 SVNLOOK home csvn csvn bin svnlook
在 WooCommerce 中确认付款后添加自定义元数据

我在网上寻找一种解决方案来添加我正在使用的支付网关的响应我想添加我得到的验证码和更多数据付款完成后我需要添加此内容 Payment complete order gt payment complete payment id 我确实尝试过
使用 GLM lambda 搜索进行交叉验证时需要注意什么？

关于h2o glm lambda 搜索似乎没有迭代所有 lambda https stackoverflow com q 45890985 841830 我读到这个问题是在抱怨 lambda 太高了他们尝试设置early stopping
JavaScript 倒计时时钟
laravel 尾部斜杠重定向到本地主机

当我尝试这个时 http localhost Testlaravel public users login 有用但当我尝试时 http localhost Testlaravel public users login 它把我重定向到 ht
AWS Lambda - 无法导入模块

我正在尝试从 S3 上传 zip 文件以在 lambda 函数上运行这样做时我收到以下错误 START RequestId 578fc1bb 9c82 11e7 b2c9 91da0a832381 Version LATEST Unab
conda 可以配置为使用私有 pypi 存储库吗？

我有同时创建 conda 和 pip 包的用户我对此无法控制我使用 artifactory 来托管私有 conda 和 pip 存储库例如这是私有 pip 存储库的工作原理 https www jfrog com confluenc
为什么 TensorFlow WHL 文件不包含所有必需的依赖项？

系统 windows 10 64位 python 3 6 5 64位使用蟒蛇 CUDA 10 0 安装了cudnn 再会出于安全原因我们公司拒绝访问互联网我从官网下载了TFtensorFlowwhl包 https storage g
回滚到上一次提交 - 适用于 MAC 的 Github（恢复已在进行中）

我想我在这里搞砸了我对上次提交的代码做了一些更改添加了新功能并意识到其他一些代码现在表现得很奇怪我决定回滚到旧的提交也推送到远程以测试该功能到那时是否正常工作在按下回滚之前我提交了当前所做的更改因为我不想丢失它们提交不
为什么我应该使用 Spring Android？

这里有人使用 Spring Android 吗如果是这样您认为为什么值得这样做 Thanks 如果您需要从 Android 应用程序访问 RESTful Web 服务 Spring Android 非常有用这在实时数据应用中很常见例
无法让 Android ServiceTestCase 运行

我无法获得任何扩展 ServiceTestCase 来运行的测试用例没有错误只是没有执行扩展 Android 测试用例运行的其他测试用例项目设置如下我有一个包含服务的 Android 库其清单文件如下
如何对 Django-CMS 扩展进行单元测试？

我正在尝试为我正在开发的 Django CMS 实现获取一些测试覆盖率但我不确定如何对插件扩展进行单元测试以前有人这样做过吗如果是怎么做的一些例子会很棒测试如下所示cms tests plugins py与其说是单元测试不如
为什么我在运行反应本机链接时收到无法读取属性“UIAppFonts of null”错误？

我正在尝试在反应本机应用程序中实现自定义字体我正在使用 React Native Web 可以看到自定义字体在 Web 上工作但在本机上不起作用我正在开发一个 Android 应用程序但问题似乎出在我什至没有使用的 IOS 文件夹中
Frida - 访问具有所需类型的类属性

我有一个已被混淆的 Android 程序在这个程序中类具有同名的属性反编译后的代码是这样的 public class d implements c public int a public Cache Entry a public Ca
withColumn 不允许我使用 max() 函数生成新列

我有一个这样的数据集 a sc parallelize 1 2 3 0 2 1 9 8 7 toDF one two three 我想要一个数据集添加一个新列该新列等于其他三列中的最大值输出如下所示 one two three max

withColumn 不允许我使用 max() 函数生成新列

withColumn 不允许我使用 max() 函数生成新列 的相关文章

随机推荐

热门标签

withColumn 不允许我使用 max() 函数生成新列的相关文章