PySpark：如何将带逗号的列指定为小数

2024-05-12

我正在使用 PySpark 并加载csv文件。我有一列包含欧洲格式的数字，这意味着逗号替换点，反之亦然。

例如：我有2.416,67代替2,416.67.

My data in .csv file looks like this -    
ID;    Revenue
21;    2.645,45
23;   31.147,05
.
.
55;    1.009,11

在 pandas 中，可以通过指定轻松读取这样的文件decimal=',' and thousands='.'里面的选项pd.read_csv()阅读欧洲格式。

熊猫代码：

import pandas as pd
df=pd.read_csv("filepath/revenues.csv",sep=';',decimal=',',thousands='.')

我不知道如何在 PySpark 中完成此操作。

PySpark代码：

from pyspark.sql.types import StructType, StructField, FloatType, StringType
schema = StructType([
            StructField("ID", StringType(), True),
            StructField("Revenue", FloatType(), True)
                    ])
df=spark.read.csv("filepath/revenues.csv",sep=';',encoding='UTF-8', schema=schema, header=True)

任何人都可以建议我们如何使用上述方法在 PySpark 中加载这样的文件.csv()功能？

由于数据的格式，您将无法将其读取为浮点数。您需要将其作为字符串读取，清理它，然后转换为浮动：

from pyspark.sql.functions import regexp_replace
from pyspark.sql.types import FloatType

df = spark.read.option("headers", "true").option("inferSchema", "true").csv("my_csv.csv", sep=";")
df = df.withColumn('revenue', regexp_replace('revenue', '\\.', ''))
df = df.withColumn('revenue', regexp_replace('revenue', ',', '.'))
df = df.withColumn('revenue', df['revenue'].cast("float"))

您也可以将它们全部链接在一起：

df = spark.read.option("headers", "true").option("inferSchema", "true").csv("my_csv.csv", sep=";")
df = (
         df
         .withColumn('revenue', regexp_replace('revenue', '\\.', ''))
         .withColumn('revenue', regexp_replace('revenue', ',', '.'))
         .withColumn('revenue', df['revenue'].cast("float"))
     )

请注意，我还没有对此进行测试，因此其中可能有一两个错字。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

PySpark

numberformatting

PySpark：如何将带逗号的列指定为小数的相关文章

处理CSV数据时如何忽略第一行数据？

我要求 Python 打印 CSV 数据列中的最小数字但顶行是列号并且我不希望 Python 考虑顶行如何确保 Python 忽略第一行这是到目前为止的代码 import csv with open all16 csv rb as
如何在TextView中显示格式化的金额？

我有一个货币符号String和金额double 到目前为止我显示的金额如下 amount setText currency amount 在某些地方我有 2TextViews 显示金额中间有填充 currency setText cur
fputcsv 和记事本

我使用 fputcsv 生成 csv 文件它工作得很好但是当我在记事本 Windows 中查看 csv 文件时没有新行所有行都在 1 行中并且在应该换行的地方有一个正方形损坏的字符例如 Mac 上的其他编辑器可以正确显示带有中
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
从逗号分隔的字符串中删除项目[重复]

这个问题在这里已经有答案了假设我有一个字符串 cat mouse dog horse 是否有正则表达式或函数可以按如下方式工作 1 cat return string gt mouse dog horse 2 mouse return s
如何在不加载到内存的情况下对大型 csv 文件进行排序

我有 20GB csv 文件如下所示 CallId MessageNo Information Number 1000 1 a 2 99 2 bs 3 1000 3 g 4 66 2 a 3 20 16 3 b 1000 7 c 4 99
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
创建一个 .rwl 对象

我有一些树数据想要处理dplr包裹我的问题是我只有 Excel 文件形式的数据因此我将数据导出为 csv 然后将其输入 R 中 a lt read csv file 我需要将这些数据转换为 rwl能够运行一些dplr功能我的猜测是我需
CSV 提供的数据源第一列中存在奇数字符

我有一个 CSV 文件已添加到 Visual Studio 单元测试项目中它有七列如下所示 assessmentitemid reviewer1 reviewer2 reviewer3 reviewer4 reviewer5 revi
如何在不超时的情况下解析大型 CSV 文件？

我正在尝试解析 50 MB 的 csv 文件文件本身很好但我正在尝试解决所涉及的大量超时问题每个设置上传明智我可以轻松上传并重新打开文件但浏览器超时后我收到 500 内部错误我的猜测是我可以将文件保存到服务器上打开它并保留我
使用 fgetcsv 循环遍历 csv

我有一个包含 3 列的 csv 文件电子邮件地址名 and 姓我已经到了可以使用以下代码打印数组的阶段这会打印数组因此每个字段都在一行中我希望它打印的只是该行第一列中的值这是如何完成的关于 fgetcsv 的文档对我相对初
使用 silverlight 4 和 c# 创建 CSV 下载

我正在努力寻找示例或代码以便能够在 silverlight 中创建 CSV 或文本文件作为可下载链接我已经在 ASP net 中完成了此操作但无法找到使用 Silverlight 的方法我在旋转轮子吗或者我应该创建一个 ASP 页
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
无法在 virtualenv 中加载 pyspark

我已经在 python virtualenv 中安装了 pyspark 我还安装了新发布的jupyterlabhttp jupyterlab readthedocs io en stable getting started installa
AWS Athena csv 元数据分隔符在首次查询使用后发生更改

我想向 athena 查询 s3 csv 文件源 csv 文件描述分隔符 system information val1 val2 val3 val4 val5 在此基础上我在 athena 中创建表 Create external t
如何将复杂的 csv 文件导入到 Matlab 中的数值向量

我想知道我们应该如何读取由字符串双精度数和字符等组成的复杂 csv 文件例如您能否提供一个可以在此 csv 文件中提取数值的成功命令 Click here http www ecb europa eu stats money yc d
如何在 iPhone 应用程序中使用正则表达式以 , （逗号）分隔字符串

我必须读取包含三列的 csv 文件在解析 csv 文件时我得到了这种格式的字符串克里斯托弗巴斯为心爱的国家哭泣期末论文电子邮件受保护 cdn cgi l email protection 我想将三列的值存储在一个数组中所以我使
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
如何将列表列表写入 CSV 文件 Python？

我有一个列表例如 a b c d e f 我想将其写入 CSV 文件如下所示 a b c d e f 我怎么做我尝试过使用 csv writerows 但输出文件的每个字符位于不同的单元格中并且全部位于同一行中从某种意义上说第一
如何使用 R 中带引号的字符值内的序列读取 CSV？

这是一个包含两个字符列的 CSV 文件 key value a 所有字符值都用双引号引起来并且有一个顺序在值之一内转义引号加分隔符我无法通过 read csv readr 中的 read csv 或 data table 中的 fr

随机推荐

JAX-WS：有状态 WS 在独立进程中失败

我在 Tomcat 上部署了一个有状态的 Web 服务它由工厂服务和主要 API 服务组成并且工作得很好工厂服务将 W3CEndpointReference 返回到主 API 实例客户端使用会话现在我尝试将相同的服务作为独立应用
如果 DirectoryInfo.GetFiles().Length 超过 Int32.MaxValue 怎么办？

由另一个question https stackoverflow com questions 3766540 error on maximum number of files 3767265 3767265关于文件夹中的最大文件数我注意到
Python argparse 作为函数

以这种方式获取命令行参数有什么本质上的错误吗我的意思是把参数解析放入它自己的函数中它会被认为是非 Pythonic 或更严重吗 usr bin python import argparse def getArgs argv None p
表达式 >.Compile() 的逆向？

因为我们可以 Expression
按 Enter 键提交消息？

我正在开发一个基于本教程使用 Meteor 构建的聊天应用程序 http code tutsplus com tutorials real time messaging for meteor with meteor streams net
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
如何在 C# 中使用窗口窗体创建动态下拉列表

我正在尝试为朋友的手机商店构建一个简单的库存程序我想使用C 并访问数据库来存储数据 DB 将有 2 个主要列表 devices 品牌型号颜色价格库存最小库存 parts 品牌型号描述库存最小库存 GUI 将使用多个下拉列
yaml / yaml 多行转义序列中的 Markdown？

是否可以在 yaml 中存储未转义的 Markdown 文档我测试过 key markdown text block that could have any combination of line breaks gt etc etc 这是
iOS模拟器找不到SDK，可能需要重新安装SDK

在这里我遇到了另一个问题今天正在开发一个 iOS 应用程序当我运行 iPhone 5 0 模拟器的应用程序时仅在该模拟器上遇到了一些奇怪的问题当我尝试一次又一次地运行该模拟器时我的 MacBook 屏幕上出现了两个弹出警报窗口
根据屏幕尺寸更改图像 src

我正在尝试使用媒体查询根据屏幕尺寸更改图像 src 我尝试过背景 url x 但它不起作用我在某处读到我应该使用 content url x 代替但是当我这样做时我得到一个空白页面谁能告诉我我的代码有什么问题吗 HTML div c
如何查询多对多表（一个表的值成为列标题）

给定此表结构我想展平多对多关系并将一个表的名称字段中的值设置为列标题并将同一表中的数量设置为列值目前可行的想法是将值放入字典哈希表中并用代码表示这些数据但我想知道是否有 SQL 方法可以做到这一点我还使用 Linq to S
代码编译期间遇到警告消息“使用或覆盖已弃用的 API”

我编译了我的程序并收到以下错误我该如何解决呢 Note ClientThreadClients java uses or overrides a deprecated API Note Recompile with Xlint depre
动画图像视图

目前我正在开发一款游戏这是我的游戏的详细信息用户应选择正确的图像对象我希望图像从左到右加速当他们到达终点时他们应该再次出现在活动中这是我正在处理的屏幕截图我有 5 个图像视图它们应该会加速您有此类动画的示例代码吗非常感谢
将光栅图像转换为矢量图形的建议

如果一个人想要将大量光栅图像批量转换为矢量图形是否有任何工具可以很好地做到这一点例如考虑任何具有标准形状椭圆形矩形和文本的图表 Inkscape 用途 http www inkscape org doc tracing tuto
如何修复在 Windows 终端中启动“powershell.exe”时出现的错误 0x800700c1？

最近我在 Windows 终端中遇到以下错误 error 0x800700c1 when launching C Users Dry C Desktop AppData Local Microsoft WindowsApps Microso
Delphi中的抽象类

我正在使用一个具有许多抽象类的组件套件现在我想应用多态性但在创建对象时收到错误抽象类即使我不需要我是否应该重写所有虚拟方法有什么解决方法或解决方案吗为了创建类的实例您需要重写所有声明为虚拟抽象的方法即使您不使用它们如果您确
ListView ColumnHeader.Name 为空字符串

我创建了一个 WinFormsListView作为具有四列的详细视图我在设计器中为每一列指定了名称但是在访问每一列时ColumnHeader通过ListView Columns属性我找到每个ColumnHeader Name是一个空字
TextBoxFor @Value（大写）而不是@value

这只是出于好奇为什么这段代码有效 Html TextBoxFor x gt x Age new Value 0 这不是 Html TextBoxFor x gt x Age new value 0 请注意其中的大写 V Value I k
如何从左向右滑动文本和图像并具有滑动效果[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven

PySpark：如何将带逗号的列指定为小数

PySpark：如何将带逗号的列指定为小数 的相关文章

随机推荐

热门标签

PySpark：如何将带逗号的列指定为小数的相关文章