Spark 读取路径/文件名中包含空格的 csv 文件时出错

2024-02-11

我想使用 Spark 读取 csv 文件。文件的路径有空格。 Spark 正在将空格替换为%20.

这是代码：

val tmpDF = spark.read.format("com.databricks.spark.csv").option("multiLine", value = true).option("quote", "\"").option("escape", "\"").option("header", "true").option("inferSchema", "true").option("delimiter", delimiter).load(filename)

tmpDF.show(10)

所以当tmpDF.show(10)方法执行时抛出以下错误：

java.io.FileNotFoundException: No such file or directory: s3://{bucket_name}/all/Proposal%20and%20pre-approval/filen_name_20190826-215950.csv

底层文件可能已更新。您可以通过运行显式使 Spark 中的缓存无效REFRESH TABLE tableNameSQL 中的命令或通过重新创建涉及的数据集/数据帧。”

我签入 s3 并且该文件确实存在，但路径有一个常规空格而不是%20.

知道如何处理这个问题吗？我无法更改路径，因为它们是由我无法修改的组件生成的。

这是典型的url编码问题。来自 S3 的 URL 使用 %20 进行编码。然而，spark 错误地解码了它。

与此相关的有两个问题

https://jira.apache.org/jira/browse/SPARK-23148 https://jira.apache.org/jira/browse/SPARK-23148
https://jira.apache.org/jira/browse/SPARK-24320 https://jira.apache.org/jira/browse/SPARK-24320

该问题已在spark2.3版本中得到解决。如果您使用的是旧版本

解码 url 后需要转义文件名。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 读取路径/文件名中包含空格的 csv 文件时出错的相关文章

必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
如何在 AWS S3 中保存和使用 Spark History Server 日志

我想在AWS S3中记录和查看Spark历史服务器的事件日志以下是spark defaults conf中记录的属性 spark hadoop fs s3a impl org apache hadoop fs s3a S3AFileSys
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

使用 jquery.each() 循环创建对象键

我正在 javascript 中创建一个命名空间来循环遍历表单并创建一个对象调用该函数的目标是循环遍历所有特定表单类型并构造一个对象该对象的键是 html 输入的名称值是其当前值但是它始终返回未定义任何帮助将不胜感激 get f
尽管符号存在，但 CMake 中的符号查找失败

我正在尝试使用 CMake 检查符号 getaddrinfo a 是否存在 list APPEND CMAKE REQUIRED DEFINITIONS D GNU SOURCE check symbol exists getaddrinf
如何用C++扩展TCL？

我可以编写可编译并用于扩展 TCL 的 C 代码我不是指调用可执行文件吗我可以描述一些类函数并通过调用已编译的 so 或 a 文件 C 代码在我的 TCl 代码中使用它们吗如果是请示意性地向我解释一下它是如何完成的 http c
CodeFirst 相对于 Database First 的优势是什么？

我正在观看 EF 4 1 的一些视频和教程我不明白 CodeFirst 的任何好处除了一些 DB 非常小的 3 4 个表并且我懒得先创建 DB 的情况大多数情况下迄今为止最好的方法是在某种数据库编辑器中创建数据库这肯定比在实体模型
Python：如何用常规属性替换属性？

基类有这样的 def management form self code here return form management form property management form 在我的派生类中我试图这样写 self manag
CSS无冲突样式

创建 CSS 样式表的无冲突版本的好方法是什么假设您有一堆代码其中的类与 Bootstrap 的类重叠这是否有效添加一个class bootstrap 到应应用引导样式的祖先元素然后更改bootstrap css为每个添加前缀ru
JXA：从 CoreServices 访问 CFString 常量

JXA https developer apple com library mac releasenotes InterapplicationCommunication RN JavaScriptForAutomation Articles
XML 数据类型方法“value”的参数 1 必须是字符串文字

我已经读过SO XML 数据类型方法值必须是字符串文字 https stackoverflow com q 11029674 62576但我的问题有点不同我在一个变量中有一些 xml 我想将其分开并给出一个路径最初我尝试过这个 de
带有组的pivot_longer并删除列名前缀[重复]

这个问题在这里已经有答案了我正在尝试使用pivot longer 将数据帧从宽格式转换为长格式原始数据框是 df start lt structure list amprise 0 015 ampfull 0 005 ampfall 0
桶的索引计数

所以这是我的小问题 Let s say I have a list of buckets a0 an which respectively contain L lt c0 cn lt H items I can decide of the
使用 tastypie 的 REST url

我在 django 应用程序中使用 tastypie 并尝试让它映射像 api booking 2011 01 01 这样的 URL 该 URL 映射到 URL 中具有指定时间戳的 Booking 模型该文档没有说明如何实现这一点您想要
如何在离开用户界面状态时停止 $interval？

Angular UI 路由器在状态控制器中使用 interval 如下所示 scope Timer null scope startTimer function scope Timer interval scope Foo 30000 s
使用 cmd.exe /c 相对于根本不使用 cmd 的优点

如果我在 C 中运行一个进程使用 cmd c 比直接运行进程有什么好处吗 Ex ProcessStartInfo info new ProcessStartInfo cmd exe info Arguments c application
区分键盘的真实按键和虚拟按键

我正在用 C 编写一个程序它必须模拟键盘的按键命令问题是我需要模拟真实的键盘按钮点击而不是假的例如据我了解当用户按下键盘上的任何按钮时信号通过 USB 发送然后通过键盘驱动程序继续当使用 API SendInput
将 async/await 与 DataReader 一起使用？（没有中间缓冲区！）

我的目标很简单我想做异步 I O 调用使用 async wait 但是不使用 DataFlow 依赖项就像这个答案一样 https stackoverflow com a 13148683 859154 没有中间缓冲区不喜欢这个答
在 WPF Frame 控件中关闭导航页面声音

我在 WPF 窗口中有一个 Frame 元素并且应用程序中的所有内容都是使用 Frame Navigate 加载的但是当导航到新页面时默认会播放该声音它与 Internet Explorer 中播放的声音相同有什么方法可以从应用
Visual Studio 2015 中的默认日期时间选择器仅显示日期选择器，不允许选择时间

我正在使用 Visual Studio 2015 并且在我的 MVC5 应用程序中使用其默认日期时间选择器我在显示日期时间选择器时遇到问题它仅显示日期选择器而不显示时间选择器但我也需要时间选择器这是我在模型中的 datetimepi
ValueError：使用 pandas hub_table 不允许使用负尺寸

我正在尝试制作项目项目协作推荐代码我的完整数据集可以找到here https drive google com open id 0B7KsvcvcTJ4DeU1IRE93ZHVnRGM 我希望用户成为行项目成为列评级成为值我的代码
.NET 中的串行端口通信

我正在使用 C 从串行端口接收数据但存在一些问题我对此很陌生所以我需要一些帮助首先我想知道哪些函数是事件驱动的 ReadExisting Read Readbyte Readchar ReadLine Readto 如何从该端口的输
Spark 读取路径/文件名中包含空格的 csv 文件时出错

我想使用 Spark 读取 csv 文件文件的路径有空格 Spark 正在将空格替换为 20 这是代码 val tmpDF spark read format com databricks spark csv option multiLi

Spark 读取路径/文件名中包含空格的 csv 文件时出错

Spark 读取路径/文件名中包含空格的 csv 文件时出错 的相关文章

随机推荐

热门标签

Spark 读取路径/文件名中包含空格的 csv 文件时出错的相关文章