删除 pyspark 中所有列名称中的空格

2024-03-07

我是 pySpark 的新手。我收到了一个大约有 1000 列的 csv 文件。我正在使用数据块。大多数这些列之间都有空格，例如“总收入”、“总年龄”等。我需要更新所有带有下划线“_”空格的列名称。

我已经尝试过这个

foreach(DataColumn c in cloned.Columns)
    c.ColumnName = String.Join("_", c.ColumnName.Split());

但它在 Databricks 上的 Pyspark 中不起作用。

我会用select与list理解：

from pyspark.sql import functions as F

renamed_df = df.select([F.col(col).alias(col.replace(' ', '_')) for col in df.columns])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

删除 pyspark 中所有列名称中的空格的相关文章

如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
按年份进行透视并获取 2020 年以来的金额总和

我有这样的数据我想按年份旋转并仅显示 2020 年以来的总数我该如何实现这一目标您可以使用以下方法实现此目的PIVOT https spark apache org docs 3 2 1 api python reference ap
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
将 Spark 数据帧写入 csv 文件时出现“调用 o58.csv 时发生错误”错误

使用后df write csv尝试将我的 Spark 数据帧导出到 csv 文件中我收到以下错误消息 AppData Local Programs Python Python39 lib site packages py4j protoc
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema

随机推荐

libgdx Shaperenderer line ..如何绘制特定宽度的线

我正在尝试使用 libgdx 形状渲染器绘制一条特定宽度的线我跟着这个link https stackoverflow com questions 18650619 increasing the width of line drawn u
R - 图中线交点的坐标

的结构data是以下 df1 lt structure list V2 1 10 V1 c 1 4 1 5 1 9 4 5 6 7 7 8 8 1 8 2 8 3 8 9 class data frame row names c NA 10
计算位数 - 哪种方法最有效？

查找给定数字中的位数有不止一种解决方案例如方法一 int findn int num char snum 100 sprintf snum d num return strlen snum 方法2 int findn int num i
MIPS 寄存器 $0 可以用来存储和检索值吗？

当我了解 MIPS 处理器时我的脑海中牢记着读取 0 寄存器总是返回 0 而写入 0 总是被丢弃来自 MIPS 程序员手册 2 13 4 1 CPU 通用寄存器 r0 被硬连线到一个值零并且可以用作任何指令的目标寄存器结果是被丢弃
Windows 服务中 RuntimeHelpers.PrepareMethod 的缺点[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在调查服务器具有多个服务启动后不久发生的延迟问题我添加了一个简单的方法来加载引用的 DLL 并执行RuntimeHelpers Pre
如何通过SW在AMP页面中包含自定义JS？

我们已经浏览了所有可能的 AMP 博客但找不到任何在 AMP 中包含自定义 JS 的方法这个博客 https www ampproject org docs guides pwa amp amp as pwa extend your a
类似 Chrome 的菜单显示

我正在尝试查找一些有关如何创建看起来像 Android chrome 菜单顶部的菜单的信息我尝试过为 Android 4 0 实现图标但没有成功尝试过谷歌搜索但我发现的唯一答案是当 API gt 11 时无法实现图标那么 Chro
JavaScript 中相当于 PHP 中的 var_dump 或 print_r 的是什么？ [复制]

这个问题在这里已经有答案了我想查看 JavaScript 中对象的结构用于调试 PHP中有类似var dump的东西吗大多数现代浏览器的开发工具中都有一个控制台对于此类调试很有用 console log myvar 然后您将在控制
Python BaseHTTPServer.HTTPServer - 启动和停止事件的回调

参考 http docs python org 2 library basehttpserver html http docs python org 2 library basehttpserver html 我有以下使用的代码片段Pyth
JPA GenerationType.AUTO 不考虑具有自动增量的列

我有一个表其中有一个简单的 int id 列在 SQL Server 中具有身份自动增量实体的 Id 注释为 Id and GeneratedValue Id GeneratedValue strategy GenerationTyp
如何在 django 中安全地存储第三方服务的密码？

我正在 Django 上运行 Web 服务用户注册到我的系统并向我提供第三方网络服务的登录详细信息用户名和密码我的目的是以最好最安全的方式存储这些详细信息不幸的是我的服务需要这些数据来用于查询第 3 方服务的某些离线脚本因此我
event.stopPropagation() 不起作用 - 捕获仍然传递函数

首先我是一个菜鸟抱歉如果这个问题足够基本其次我尝试搜索正如我所看到的我按照其他帖子中的说明应用了解决方案话虽这么说我有三组 DIV 每组由 2 个 Div 组成一个在另一个里面在 OUTER div 上有一个函数表示
如何确定是否为 TFS 构建定义执行了 MSBUILD 参数

我正在使用 Team Foundation Service 2012 带有内部托管的构建控制器以便我可以将应用程序部署到我们的 Web 服务器我设置了构建定义并使用我的调试配置并提供了以下 MSBUILD 参数 p DeployOn
使用 jQuery 显示/隐藏表格列

我有一个有五列的表格 column1 column2 column3 column4 column5 当选中第一个复选框时我有一些复选框每个复选框对应一列然后我需要显示第一列如果未选中我需要隐藏第一列像那样我需要对所有列进行操作
我可以将 git 上的分叉项目更新为原始/主副本吗？

几周前我在 GitHub 上分叉了一个公共项目今天我想尝试一些东西但我想确保我使用的副本是最新的我可以先更新我的前叉吗如果在我开始更改后对叉子进行更改会发生什么情况我可以再次更新我的分叉同时将我的更改保留在那里即合并如
如何让 grunt 服务任务与 watch 一起工作？

我最近安装并启动并运行了它但我似乎无法让它与我的手表任务同时运行在我的 grunt 文件中如果在监视之前注册服务任务服务器会旋转但监视任务不会反之亦然这是服务包我正在使用并附加了 Grunt 文件 https www npm
如何在 Dart / Flutter 中使用另一个文件的功能？

我有一个 Flutter 应用程序正在使用 flutter web view 包我在几个不同的文件上使用它并且希望创建自己的文件并在我的应用程序中的任何位置简单地引用 launchwebview 函数因为需要几行代码才能使其工作
负载下 .Net Core 容器的 SQL Server DbCommand 超时

我正在 Open Shift Enterprise V3 上运行一个指向 SQL Server 数据库的 Net Core 容器我有一个 Net Core REST API 带有 put 方法可以在数据库中添加或更新记录我添加更新的
MATLAB - 从分类器生成混淆矩阵

我有一些测试数据和标签 testZ 0 25 0 29 0 62 0 27 0 82 1 18 0 93 0 54 0 78 0 31 1 11 1 08 1 02 testY 1 1 1 1 1 2 2 2 2 2 2 2 2 然后我对它
删除 pyspark 中所有列名称中的空格

我是 pySpark 的新手我收到了一个大约有 1000 列的 csv 文件我正在使用数据块大多数这些列之间都有空格例如总收入总年龄等我需要更新所有带有下划线空格的列名称我已经尝试过这个 foreach DataColu

删除 pyspark 中所有列名称中的空格

删除 pyspark 中所有列名称中的空格 的相关文章

随机推荐

热门标签

删除 pyspark 中所有列名称中的空格的相关文章