从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

2024-05-10

我正在尝试读取提交的文件spark-submit在客户端模式下连接到yarn集群。将文件放入 HDFS 不是一个选项。这是我所做的：

def main(args: Array[String]) {
   if (args != null && args.length > 0) {
        val inputfile: String = args(0)

        //get filename: train.csv
        val input_filename = inputfile.split("/").toList.last 

        val d = SparkSession.read
                .option("header", "true")
                .option("inferSchema", "true")
                .csv(SparkFiles.get(input_filename))
        d.show() 
   }   
}

并以这种方式提交给yarn：

spark2-submit \
--class "com.example.HelloWorld" \
--master yarn --deploy-mode client \
--files repo/data/train.csv \
--driver-cores 2 helloworld-assembly-0.1.jar repo/data/train.csv

但我有一个例外：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://xxxxx.xxxxx.xxxx.com:8020/tmp/spark-db3ee991-7f3d-427c-8479-aa212f906dc5/userFiles-040293ee-0d1f-44dd-ad22-ef6fe729bd49/train.csv;

我也尝试过：

val input_filename_1 = """file://""" + SparkFiles.get(input_filename)
println(input_filename_1)

SparkSession.read
  .option("header", "true")
  .option("inferSchema", "true")
  .csv(input_filename_1)

仍然遇到类似的错误：

 file:///tmp/spark-fbd46e9d-c450-4f86-8b23-531e239d7b98/userFiles-8d129eb3-7edc-479d-aeda-2da98432fc50/train.csv
 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: file:/tmp/spark-fbd46e9d-c450-4f86-8b23-531e239d7b98/userFiles-8d129eb3-7edc-479d-aeda-2da98432fc50/train.csv;

我尝试了同样的场景--files test.csv与spark.sparkContext.addFile("test.csv")

spark.sparkContext.addFile("test.csv")
val df = spark.read.option("header", "true").option("inferSchema", "true").csv("file://"+SparkFiles.get("test.csv"))

您获得的文件scala> SparkFiles.get("test.csv")

Ex : /tmp/spark-9c4ea9a6-95d7-44ff-8cfb-1d9ce9f30638/userFiles-f8909daa-9710-4416-b0f0-9d9043db5d8c/test.csv在您提交作业的本地文件系统上创建。

所以工人没有这个文件可以读。问题可能出在使用spark.read.csv

Edit:

我尝试将本地创建的文件复制到其他节点。有效.

希望这会有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hadoopyarn

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复] 的相关文章

Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为

随机推荐

从 WPF 绑定列表框中删除项目

我有一个带有 ListBox 称为 listMyItems 的 WPF 应用程序它已成功绑定到我创建的 MyItems 类我有一个名为 currentMyItems 的 MyItems 列表然后将其作为 ItemSource 分配给
相当于 gradle 中测试依赖的 api？

我有多模块 gradle 项目在我的模块之一中我有 api 依赖项 api de flapdoodle embed de flapdoodle embed mongo 我想将其更改为在所有模块的测试中可见的依赖项有一个testImpl
如何将数据从布局传递到 Sapper 中的页面？

在 Svelte 中你可以通过插槽中内容的道具 https svelte dev tutorial slot props
使用自己的 Web 应用程序 API - 使用 OAuth2 进行身份验证过程

Overview 我目前正在为图像共享应用程序创建 API 该应用程序将在网络上运行将来在移动设备上运行我了解 API 构建的逻辑部分但我仍然在努力满足我自己对身份验证部分的要求因此我的 API 必须可供全世界访问具有访客访问权
如何在 ASP.NET 中检查用户是否在线？

该网站最后活动 1 分钟前来自此 IP 地址背后的逻辑是什么如果您在隐藏字段中获取用户的 IP 地址我该如何在 vb net 中执行此操作我如何查看有多少用户在线使用该应用程序 ASP NET 会员服务支持此功能要获取特定用户的
JavaDoc @see MyClass 构造函数返回警告“未找到引用”

我正在尝试为我的客户端库创建 javadoc 在 MyOtherClass 中我放置了下面的 see 并收到警告 MyOtherClass 和 MyClass 都位于同一项目中的不同包中 see MyClass Constructor T
使用 SQLite 创建列表树

我正在尝试使用 PHP 和 SQLite 表设置创建一个分层列表如下所示 itemid parentid name 1 null Item1 2 null Item2 3 1 Item3 4 1 Item4 5 2 Item5
小程序打印；小程序放弃安全权限； Windows 7 和 Java 7

使用 Java Liveconnect 能够通过浏览器中的小程序访问打印机对于我添加的访问权限permission java lang RuntimePermission queuePrintJob in C Program Files
在 Pandas 中创建许多新列的最 Pythonic 方法

我有一个大数据框df 约 100 列和约 700 万行我需要创建约 50 个新变量列它们是当前变量的简单转换一种方法是与许多人一起 apply声明我只是使用transform 作为简单转换的占位符例如max或平方 df new
Java：用于显示差异的 GUI 组件？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在编写一个程序需要在其中生成差异并显示结果是否有任何 GUI 组件可以让我轻松完成此任务或者我
更改 eclipse 中 .txt 文件编辑器的外观

我正在为 Eclipse 使用深色主题当我打开扩展名为 txt 的文件时文本和背景的颜色都是黑色如何更改此 txt 文件编辑器的外观我想将文本颜色设置为白色我对首选项菜单感到困惑我已经找到了在首选项菜单中选择 General
如何“缩放”numpy 数组？

我想将形状 h w 的数组缩放 n 倍从而得到形状 h n w n 的数组其中假设我有一个 2x2 数组 array 1 1 0 1 我想将数组缩放为 4x4 array 1 1 1 1 1 1 1 1 0 0 1 1 0 0 1 1
Java 中的撤消和重做实现

我想问一个关于Java中List的问题很容易实现列表中元素的删除添加和搜索但是Java中如何实现列表的撤销和重做呢谁可以帮我这个事您可能希望实施一个Command Design Pattern为了这一个不错的简化示例List可以
Haskell 中的前提条件检查有哪些选项

这是一个简单的问题我认为答案很复杂一个非常常见的编程问题是函数返回某些内容或者前置条件检查失败在Java中我会使用一些抛出异常的断言函数IllegalArgumentException在方法的开头如下所示 method body
SQL：列出多个连接语句中的重复记录？

你好以下查询在连接多个表后返回所有员工 select e from dbo EMP e join dbo HREMP a on a ID e ID join dbo LOGO c on c EMPID e id join dbo LOGO
如何让 PDF 内容（由 Spring MVC 控制器方法提供）显示在新窗口中

我是 Spring MVC 的新手但它的功能给我留下了深刻的印象我正在使用 3 1 0 RELEASE 并且我必须显示 PDF 来响应 form form 提交这是我在控制器中编写的小代码 RequestMapping value
我可以在 Node 的标头中发送带有 cookie 的 GET 请求吗？

在浏览器中如果我发送 GET 请求该请求同时会发送 cookie 现在我想模拟Node的GET请求那么代码怎么写呢使用奇妙的request https github com mikeal request 默认情况下启用库 cooki
AVMutableComposition - 导出错误的视频转换

导出 VideoAsset 后问题视频方向是不是原始变换导出视频层似乎总是景观尝试去变换视频层方向旋转至原始方向视频层大小使其全屏尺寸按原始方向一些注意事项 videoAsset 的 CGRect 从一开始就是相反的 a
尝试从 Rails 控制器调用辅助方法时出现 NoMethodError

我得到了一个NoMethodError当尝试从我的控制器类之一访问我的帮助器模块之一中定义的方法时我的 Rails 应用程序使用helper类方法与 all符号如下图所示 class ApplicationController lt Ac
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复] 的相关文章

随机推荐

热门标签