java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

2024-05-24

我是 Spark 和 Kubernetes 世界的新手。我使用 docker-image-tool.sh 实用程序使用与 Hadoop 3.2 捆绑在一起的官方 Spark 3.0.1 构建了 Spark docker 映像。

我还为 Jupyter Notebook 创建了另一个 docker 映像，并尝试在客户端模式下在 Kubernetes 上运行 Spark。我首先将 Jupyter 笔记本作为 pod 运行，使用 kubectl 进行端口转发，并从我的系统 localhost:8888 访问笔记本 UI。一切似乎都运转良好。我能够从笔记本成功运行命令。

现在我尝试使用笔记本从我的笔记本访问 Azure Data Lake Gen2Hadoop ABFS 连接器 https://hadoop.apache.org/docs/current/hadoop-azure/abfs.html#Default:_Shared_Key。我将 Spark 上下文设置如下。

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
# Create Spark config for our Kubernetes based cluster manager


sparkConf = SparkConf()
sparkConf.setMaster("k8s://https://kubernetes.default.svc.cluster.local:443")
sparkConf.setAppName("spark")
sparkConf.set("spark.kubernetes.container.image", "<<my_repo>>/spark-py:latest")
sparkConf.set("spark.kubernetes.namespace", "spark")
sparkConf.set("spark.executor.instances", "3")
sparkConf.set("spark.executor.cores", "2")
sparkConf.set("spark.driver.memory", "512m")
sparkConf.set("spark.executor.memory", "512m")
sparkConf.set("spark.kubernetes.pyspark.pythonVersion", "3")
sparkConf.set("spark.kubernetes.authenticate.driver.serviceAccountName", "spark")
sparkConf.set("spark.kubernetes.authenticate.serviceAccountName", "spark")
sparkConf.set("spark.driver.port", "29413")
sparkConf.set("spark.driver.host", "my-notebook-deployment.spark.svc.cluster.local")

sparkConf.set("fs.azure.account.auth.type", "SharedKey")
sparkConf.set("fs.azure.account.key.<<storage_account_name>>.dfs.core.windows.net","<<account_key>>")

spark = SparkSession.builder.config(conf=sparkConf).getOrCreate()

然后我运行以下命令来读取 ADLS 位置中存在的 csv 文件

df = spark.read.csv("abfss://<<container>>@<<storage_account>>.dfs.core.windows.net/")

运行它时我收到错误Py4JJavaError：调用 o443.csv 时发生错误。：java.lang.RuntimeException：java.lang.ClassNotFoundException：找不到类org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

经过一些研究，我发现我必须明确包含 hadoop-azure jar 才能使用适当的类。我从下载了 jarhere https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-azure/3.2.2/hadoop-azure-3.2.2.jar，将其放入 /spark-3.0.1-bin-hadoop3.2/jars 文件夹中并再次构建镜像。

不幸的是我仍然收到这个错误。我手动验证了该 jar 文件确实存在于 docker 映像中并且包含该类org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我查看了入口点.sh 存在于spark-3.0.1-bin-hadoop3.2\kubernetes\dockerfiles\spark文件夹，这是我们的 Spark docker 映像的入口点。它添加了中存在的所有包spark-3.0.1-bin-hadoop3.2\jar\类路径中的文件夹。

# If HADOOP_HOME is set and SPARK_DIST_CLASSPATH is not set, set it here so Hadoop jars are available to the executor.
# It does not set SPARK_DIST_CLASSPATH if already set, to avoid overriding customizations of this value from elsewhere e.g. Docker/K8s.
if [ -n "${HADOOP_HOME}"  ] && [ -z "${SPARK_DIST_CLASSPATH}"  ]; then
  export SPARK_DIST_CLASSPATH="$($HADOOP_HOME/bin/hadoop classpath)"
fi

if ! [ -z ${HADOOP_CONF_DIR+x} ]; then
  SPARK_CLASSPATH="$HADOOP_CONF_DIR:$SPARK_CLASSPATH";
fi

根据我的理解，spark 应该能够通过任何附加的 setJar 配置在其类路径中找到该类。

有人可以指导我如何解决这个问题吗？我可能在这里遗漏了一些非常基本的东西。

应用此处提供的解决方案...

我们如何在pyspark中指定maven依赖 https://stackoverflow.com/questions/42978976/how-do-we-specify-maven-dependencies-in-pyspark

我们可以启动 Spark 会话并包含来自 Maven 的所需 Jar。

from pyspark.sql import SparkSession


spark = SparkSession.builder.master("local[*]")\
        .config('spark.jars.packages', 'org.apache.hadoop:hadoop-azure:3.3.1')\
        .getOrCreate()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem 的相关文章

如何使用 Java 中的 Web 服务（例如 Axis2）发送复杂对象的数组或集合？

我对 SOAP Web 服务还比较陌生虽然我完成了一些较小的 Web 服务项目但我偶然从来不需要返回或用作参数复杂对象的数组或集合当我尝试这样做时根据我的 SOAP 绑定风格我会得到不同的奇怪行为当我使用RPC 文字我可
在文本文件中写入多行（java）

下面的代码是运行命令cmd并使用命令行的输出生成一个文本文件下面的代码在 Eclipse 的输出窗口中显示了正确的信息但在文本文件中只打印了最后一行谁能帮我这个 import java io public class TextFile
如何创建一个显示 Spinners 的 x 和 y 值的表格？

我想创建一个位于图表右侧的表格其中显示 2 列 x 和 y 值已输入到xSpin and ySpin旋转器我已经画了一张我想要桌子放置的位置的图我尝试过在网格窗格布局中使用文本框来创建表格并将值直接输入到文本框网格中但是我无法将它们
是什么决定了从 lambda 创建哪个函数式接口？

请考虑这个例子 import java util function Consumer public class Example public static void main String args Example example new
SAML 服务提供商 Spring Security

当使用预先配置的服务提供者元数据时在 Spring Security 中是否应该有 2 个用于扩展元数据委托的 bean 定义一份用于 IDP 元数据一份用于 SP 元数据
OpenCV 中的 Gabor 内核参数

我必须在我的应用程序中使用 Gabor 过滤器但我不知道这个 OpenCV 方法参数值我想对虹膜进行编码启动 Gabor 过滤器并获取特征我想对 12 组 Gabor 参数值执行此操作然后我想计算 Hamming Dystans
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
Android在排序列表时忽略大小写

我有一个名为路径的列表我目前正在使用以下代码对字符串进行排序 java util Collections sort path 这工作正常它对我的列表进行排序但是它以不同的方式处理第一个字母的情况即它用大写字母对列表进行排序然后用
如何使用 Java 处理 Selenium WebDriver 中的新窗口？

这是我的代码 driver findElement By id ImageButton5 click Thread sleep 3000 String winHandleBefore driver getWindowHandle drive
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
wait() 在游戏中如何工作？

在 playframework 的文档中here http www playframework org documentation 1 2 1 asynchronous已写 public static void loopWithoutBlo
hibernate锁等待超时超时；

我正在使用 Hibernate 尝试模拟对数据库中同一行的 2 个并发更新编辑我将 em1 getTransaction commit 移至 em1 flush 之后我没有收到任何 StaleObjectException 两个事务已成
Calendar.getInstance(TimeZone.getTimeZone("UTC")) 不返回 UTC 时间

我对得到的结果真的很困惑Calendar getInstance TimeZone getTimeZone UTC 方法调用它返回 IST 时间这是我使用的代码 Calendar cal Two Calendar getInstance
如何使用 Maven 打包并运行具有依赖项的简单命令行应用程序？

我对 java 和 Maven 都是全新的所以这可能非常简单如果我遵循maven2hello world此处的说明 http maven apache org guides getting started maven in Five m
很好地处理数据库约束错误

再一次它应该很简单我的任务是在我们的应用程序的域对象中放置一个具有唯一约束的特定字段这本身并不是一个很大的挑战我刚刚做了以下事情 public class Location more fields Column unique tru
以编程方式在java的resources/source文件夹中创建文件？

我有两个资源文件夹 src 这是我的 java 文件资源这是我的资源文件图像 properties 组织在文件夹包中有没有办法以编程方式在该资源文件夹中添加另一个 properties 文件我尝试过这样的事情 public s
在游戏视图下添加 admob

我一直试图将 admob 放在我的游戏视图下这是我的代码 public class HoodStarGame extends AndroidApplication Override public void onCreate Bundle
如何在selenium服务器上提供自定义功能？

我知道可以通过某种方法获得一些硒功能其中之一如下 driver getCapabilities getBrowserName 它返回浏览器名称的值但如果它指的是一个可用的方法如果我没有误解的话这似乎与自定义功能有关就像我的意思是
如何知道抛出了哪个异常

我正在对我们的代码库进行审查有很多这样的陈述 try doSomething catch Exception e 但我想要一种方法来知道 doSomething 抛出了哪个异常在 doSomething 的实现中没有 throw 语句
具有特定参数的 Spring AOP 切入点

我需要创建一个我觉得很难描述的方面所以让我指出一下想法 com x y 包或任何子包中的任何方法一个方法参数是接口 javax portlet PortletRequest 的实现该方法中可能有更多参数它们可以是任何顺序我需要

随机推荐

跨平台套接字

我知道 Windows 不使用 UNIX 套接字而 Mac OS 使用到目前为止我的软件是跨平台的没有任何代码更改但现在我想让它进行一些网络通信我了解 POSIX 套接字但我对 Windows 的套接字一无所知目标是实现一个
对翻译进行语义标记

我正在标记一份历史手稿该手稿已从德文翻译成英文在网页上我将并排提供两种语言是否有一种可接受的方法来标记这种情况我正在考虑使用部分标签分割翻译块并为每个翻译块提供一个 lang 属性然而从语义上讲这无法传达一个部分与另一部分大
连接数据库错误类型：2002：权限被拒绝

我正在尝试使用以下脚本连接数据库 cxn test php
TranslateAnimation 在 Android 上如何工作？

我经历了 TranslateAnimation float fromXDelta float toXDelta float fromYDelta float toYDelta 但我仍然很困惑如何Translate animation wor
Golang 结构体初始化

有一个像这样的简单结构 type Event struct Id int Name string 这两种初始化方法有什么区别呢 e1 Event Id 1 Name event 1 e2 Event Id 2 Name event 2 为什
同时使用 localStorage 和 REST 远程服务器的数据层架构

任何人对于如何实现同时使用 localStorage 和 REST 远程存储的数据持久层都有任何想法或参考某个客户端的数据存储在 localStorage 中使用 ember data indexedDB 适配器本地存储的数据与远程服
如何应用 .diff 文件

我有一个 diff 类型文件看起来像爆炸了 diff git a res User lua b res User lua index db8c2cc 4d2af0f 100644 a res User lua b res User lua
mysqli_num_rows 无法正常工作

I have an admin panel in my website in which the admin creates new pages he provides the page name and then the spaces o
在上下文切换期间，操作系统是否使用 PCB 或内核堆栈来恢复寄存器？

我目前正在阅读 Remzi 和 Andrea 所著的操作系统三个简单的部分在有关上下文切换的部分中它指出在中断期间正在运行的进程的寄存器被保存到其内核堆栈中然后将运行进程的寄存器保存到内核堆栈中下一个进程是从 PCB 加载的
使用Python查明时区当前是否处于夏令时[重复]

这个问题在这里已经有答案了我们有一个在 GMT 时间运行的服务器我需要编写一个 Python 脚本来确定当前此时此刻加利福尼亚州洛杉矶是否为夏令时 DST 我怎样才能做到这一点我查看了 pytz 和 time 但我无法弄清楚我意
以受限用户身份运行 monit 并使其监视需要 root 权限的进程

我有一个用 Ruby 编写的特定脚本需要 root 权限大多数其他进程不需要它因此很容易在 Monit 中设置不是这个服务器需要监听386 这个端口只有root可用我不会详细说明原因因为 1 我不是一个低级的人 2 到目前为止
通过 exec() 的 Crontab 不适用于 PHP 7.4 / Deb 10

调试有点困难因为我正在使用新版本的 PHP 和新服务器上的新操作系统我有一个 PHP 的 cron 管理系统它也允许我添加删除或启用禁用 cronjobs 在另一台当前使用 PHP 7 2 的 Deb 8 服务器上它可以使用以下
如何验证 MS Azure AD 生成的 JWT id_token？

我有一个 angularjs SPA Web 应用程序它使用ADAL JS https github com AzureAD azure activedirectory library for js 和 adal 角度它被设置为在 MS
使用 str_replace 使其仅作用于第一个匹配项？

我想要一个版本str replace 仅替换第一次出现的 search in the subject 有没有一个简单的解决方案或者我需要一个 hacky 解决方案虽然没有它的版本但解决方案一点也不黑 pos strpos haysta
如何将BufferedImage转换为图像以在JSP上显示

我想转换BufferedImage将显示在 JSP 页面上的图像我怎样才能实现这个目标首先 JSP是一种视图技术提供了编写HTML CSS JS的模板以及与后端Java代码交互以控制页面流和访问后端数据的能力你的问题更多的是在 HT
看起来 MSVS 11.0 Beta 破坏了 MSVS 10.0 安装

安装 MSVS 11Beta 后我的 MSVS 10 遇到了编译问题现在当我在 MSVS 10 中编译 C 项目在 MSVS 10 中创建的项目目标框架 3 5 时出现错误MSB4216 MSB4028输出窗口中包含以下文本 1
字符串与 char[]

我有一些来自 IBM 的幻灯片名为从 Java 代码到 Java 堆了解应用程序的内存使用情况 http www ibm com developerworks library j codetoheap N101DC 也就是说当我们使
Node.js 转换 HEIC 文件

我需要一种使用 Node js 将照片从 HEIC 格式转换为 jpg 或 png 的方法我已经搜索过似乎找不到任何有效的东西 npm i heic 转换 const convert require heic convert async
T-SQL 平均值四舍五入到最接近的整数

我不确定以前是否有人问过这个问题但是如何在 T SQL 中将平均值四舍五入到最接近的整数这应该可以做到根据您要寻找的平均值您可能需要在末尾使用 GROUP BY SELECT CONVERT int ROUND AVG Column
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup

java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem 的相关文章

随机推荐

热门标签