我是 pySpark 的新手。我收到了一个大约有 1000 列的 csv 文件。我正在使用数据块。大多数这些列之间都有空格,例如“总收入”、“总年龄”等。我需要更新所有带有下划线“_”空格的列名称。
我已经尝试过这个
foreach(DataColumn c in cloned.Columns)
c.ColumnName = String.Join("_", c.ColumnName.Split());
但它在 Databricks 上的 Pyspark 中不起作用。
我会用select
与list
理解:
from pyspark.sql import functions as F
renamed_df = df.select([F.col(col).alias(col.replace(' ', '_')) for col in df.columns])
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)