PySpark 根据列名称/字符串条件删除列

2024-01-03

我想在 pyspark 数据框中删除包含以下任何单词的列banned_columns从剩余的列中列出并形成一个新的数据框

banned_columns = ["basket","cricket","ball"]
drop_these = [columns_to_drop for columns_to_drop in df.columns if columns_to_drop in banned_columns]

df_new = df.drop(*drop_these)

的想法banned_columns是删除以basket and cricket，以及包含该词的列ball以他们的名字命名的任何地方。

以上是我到目前为止所做的，但它不起作用（因为在新数据框中仍然包含这些列名称）

数据框示例

 sports1basketjump | sports

在上面的列名称示例中，它将删除该列sports1basketjump因为它包含“篮子”一词。

此外，正在使用filter or/and reduce与创建列表和 for 循环相比，函数增加了优化？

您的列表理解不符合您的预期。它将返回一个空列表，除非exactly匹配一个字符串。有关如何将子字符串列表与字符串列表进行匹配的答案，请查看将子字符串列表与Python中的字符串列表进行匹配 https://stackoverflow.com/questions/17234965/matching-list-of-substrings-to-a-list-of-strings-in-python

The df.drop(*cols)将按您的预期工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

PySpark 根据列名称/字符串条件删除列的相关文章

懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

如何强制元素保持在同一行

嗨我有以下 css div container height 20px overflow hidden margin 15px 0px padding 5px 10px 5px 10px white space nowrap div co
如何获取类路径上的包和/或类的列表？

在 Java 中我可以使用 ClassLoader 来获取已加载的类的列表以及这些类的包但是如何获取可以加载的类的列表即位于类路径上的类的列表与包裹相同这是针对编译器的在解析 foo bar Baz 时我想知道 foo 是否是
升级到 FirebaseUI 3.0 后无法使用 FirebaseRecyclerOptions 检索数据

我在用着FirebaseRecyclerOptions因为我升级到了新的 FirebaseUI 3 0 版本但现在我无法从数据库中检索任何内容相同的代码在旧版本中运行得很好FirebaseRecylcerAdapter方法好像根本进不
如何在Java 8中动态进行过滤？

我知道在 Java 8 中我可以像这样进行过滤 List
将导入的函数连接到 Qt5 进度条，无需依赖

我正在编写一组小型 python 应用程序旨在通过 CLI 运行一些功能应该捆绑在 PyQT5 GUI 中以便更容易使用现在我的包中有一个函数它往往运行很长时间所以我想显示一个进度条但是该函数本身需要能够在没有 QT5 的情
SafeConfigParser：部分和环境变量

使用Python 3 4 3 我想在我的配置文件中使用环境变量我读到我应该使用SafeConfigParser with os environ作为参数来实现它 test mytest HOME s config my folder 由于我
在 Python 中查找系统文件夹位置

我正在尝试使用 Python 3 1 找出系统文件夹的位置例如我的文档 C Documents and Settings User My Documents Program Files C Program Files 等 I found
按顺序从 Java 属性文件中提取值？

我有一个属性文件其中值的顺序很重要我希望能够迭代属性文件并根据原始文件的顺序输出值但是由于 Properties 文件由不维护插入顺序的 Map 支持如果我错了请纠正我迭代器以错误的顺序返回值这是我正在使用的代码 Enume
如何转义 javadoc 内联标记中的花括号，例如 {@code} 标记

Gets the meatball icon for a nincompoop p Example code p
强制 JavaScript 中缺少参数

当您在 JavaScript 中调用函数并且错过传递某些参数时什么也不会发生这使得代码更难调试所以我想改变这种行为我见过如何最好地确定参数是否未发送到 JavaScript 函数 https stackoverflow com qu
创建服务时没有空构造函数

我正在努力解决这个错误 08 08 11 42 53 179 E AndroidRuntime 20288 引起 java lang InstantiationException 无法实例化类com example localnotific
使用 python 中的 swagger codegen 客户端向 api 调用添加标头的具体细节尚不清楚

指出正确的文档教程示例或提供一个展示如何将特定的身份验证令牌添加到 Python 中 Swagger 生成的 API 客户端中的特定标头这是我尝试过的我的 API 调用使用正确的 curl 命令可以正常工作 curl v H X
警告：findDOMNode 在 StrictMode 中已被弃用。 findDOMNode 传递了一个位于 StrictMode 内的 Transition 实例

我正在尝试使用函数作为组件内的 prop 并且该组件是另一个组件的子组件但该功能不起作用我可以知道为什么吗这是我在控制台中收到的警告警告 findDOMNode 在 StrictMode 中已被弃用 findDOMNode 传递了一
Mocha + TypeScript：无法在模块外部使用 import 语句

我当时正在看这个视频 https www youtube com watch v I4BZQr 5mBY为了学习如何向我的 Express 路线添加一些简单的测试但我在执行测试时遇到各种错误错误是从 chai 导入作为 chai 语
fields_for 表单生成器对象为 nil

有什么方法可以访问嵌套的 form bulder object controller project Project new project tasks build form for project do f f object nil re
PostgreSQL：如何将表/视图名称作为参数传递给 PostgreSQL 中的函数？

例如我有一个名为 view1 的视图其中包含 name 和 slno 列现在我希望使用名为 f1 的函数显示它如下所示功能 create or replace function f1 viewname varchar return
如何清除Emacs缓冲区历史记录？

当我按下C x b ido switch buffer 我得到了很多我不想看到的缓冲区我想清除缓冲区历史记录我尝试评估这个表达式使用M x eval buffer setq ido buffer history 它生效了我可以说出来
使用 Python 将 BibTex 文件转换为数据库条目

给定一个 bibTex 文件我需要将相应的字段作者标题期刊等添加到 MySQL 数据库中的表中使用自定义架构经过一些初步研究后我发现存在Bibutils http sourceforge net p bibutils hom
为什么默认的 Vagrant 共享文件夹是空的？

The vagrant目录为空它应该包含我的 Vagrantfile 所在的工作区我可以cd vagrant 但它是空的流浪文件 VAGRANTFILE API VERSION 2 VAGRANT BOX NAME nomades l
PySpark 根据列名称/字符串条件删除列

我想在 pyspark 数据框中删除包含以下任何单词的列banned columns从剩余的列中列出并形成一个新的数据框 banned columns basket cricket ball drop these columns to dr

PySpark 根据列名称/字符串条件删除列

PySpark 根据列名称/字符串条件删除列 的相关文章

随机推荐

热门标签

PySpark 根据列名称/字符串条件删除列的相关文章