排除CDH中spark-core的依赖

2023-12-15

我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据。

我的集群发行版是：Hadoop 3.0.0-cdh6.2.0，我使用的是 Spark 2.4.0

我的代码如下：

val df = spark
 .readStream
 .format("kafka")
 .option("kafka.bootstrap.servers", bootstrapServers)
 .option("subscribe", topic)
 .option("failOnDataLoss", false)
 .load()
 .selectExpr("CAST(key AS STRING)" , "CAST(value AS STRING)")
 .as(Encoders.STRING)

df.writeStream
  .foreachBatch { (batchDF: Dataset[Row], batchId: Long) =>
     batchDF.write
           .options(Map(HBaseTableCatalog.tableCatalog->catalog, HBaseTableCatalog.newTable -> "6"))
          .format("org.apache.spark.sql.execution.datasources.hbase").save()
     }
     .option("checkpointLocation", checkpointDirectory)
     .start()
     .awaitTermination()

HBaseTableCatalog 使用 json4s-jackson_2.11 库。这个库包含在 Spark Core 中，但是版本不好，这会产生冲突......

为了解决这个问题，我排除了 Spark 核心中的 json4s-jackson_2.11 库，并在 pom 中添加了降级版本：

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.4.0-cdh6.2.0</version>
  <exclusions>
    <exclusion>
      <groupId>org.json4s</groupId>
      <artifactId>json4s-jackson_2.11</artifactId>
    </exclusion>
  </exclusions>
</dependency>
<dependency>
  <groupId>org.json4s</groupId>
  <artifactId>json4s-jackson_2.11</artifactId>
  <version>3.2.11</version>
</dependency>

当我在我的语言环境机器中执行代码时，它工作得很好，但问题是，当我在cloudera集群中提交它时，我遇到了第一个库冲突错误：

Caused by: java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;
        at org.apache.spark.sql.execution.datasources.hbase.HBaseTableCatalog$.apply(HBaseTableCatalog.scala:257)
        at org.apache.spark.sql.execution.datasources.hbase.HBaseRelation.<init>(HBaseRelation.scala:80)
        at org.apache.spark.sql.execution.datasources.hbase.DefaultSource.createRelation(HBaseRelation.scala:59)
        at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:45)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:70)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:68)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
        at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
        at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
        at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:80)
        at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:80)
        at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:668)
        at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:668)
        at org.apache.spark.sql.execution.SQLExecution$$anonfun$withNewExecutionId$1.apply(SQLExecution.scala:78)
        at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
        at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
        at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:668)
        at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:276)
        at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:270)
        at com.App$$anonfun$main$1.apply(App.scala:129)
        at com.App$$anonfun$main$1.apply(App.scala:126)

我知道集群有自己的hadoop和spark库并且它使用它们，所以，在spark提交中，我将confsspark.driver.userClassPathFirst和spark.executor.userClassPathFirst设置为true，但我有另一个错误并且我不明白：

Exception in thread "main" java.lang.ExceptionInInitializerError
        at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil$.<init>(YarnSparkHadoopUtil.scala:48)
        at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil$.<clinit>(YarnSparkHadoopUtil.scala)
        at org.apache.spark.deploy.yarn.Client$$anonfun$1.apply$mcJ$sp(Client.scala:83)
        at org.apache.spark.deploy.yarn.Client$$anonfun$1.apply(Client.scala:83)
        at org.apache.spark.deploy.yarn.Client$$anonfun$1.apply(Client.scala:83)
        at scala.Option.getOrElse(Option.scala:121)
        at org.apache.spark.deploy.yarn.Client.<init>(Client.scala:82)
        at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1603)
        at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:851)
        at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:167)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:195)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:926)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:935)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassCastException: org.apache.hadoop.yarn.api.records.impl.pb.PriorityPBImpl cannot be cast to org.apache.hadoop.yarn.api.records.Priority
        at org.apache.hadoop.yarn.api.records.Priority.newInstance(Priority.java:39)
        at org.apache.hadoop.yarn.api.records.Priority.<clinit>(Priority.java:34)
        ... 15 more

最后，我想要的是使用我的 pom 中的 json4s-jackson_2.11 而不是 Spark 核心中的 json4s-jackson_2.11 来创建 Spark

要解决此问题，请勿使用spark.driver.userClassPathFirst and spark.executor.userClassPathFirst但相反，使用spark.driver.extraClassPath and spark.executor.extraClassPath.

来自官方的定义文档：“附加到驱动程序类路径之前的额外类路径条目。”

“prepend”，放在 Spark 的核心类路径前面。

例子：

--conf Spark.driver.extraClassPath=C:\Users\Khalid\Documents\Projects\libs\jackson-annotations-2.6.0.jar;C:\Users\Khalid\Documents\Projects\libs\jackson-core-2.6 .0.jar;C:\Users\Khalid\Documents\Projects\libs\jackson-databind-2.6.0.jar

这解决了我的问题（我想使用的 Jackson 版本与正在使用的 Spark 版本之间存在冲突）。

希望能帮助到你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Hadoop

ApacheKafka

Hbase

clouderacdh

排除CDH中spark-core的依赖的相关文章

sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
将 Kafka 输入流动态连接到多个输出流

Kafka Streams 中是否内置了允许将单个输入流动态连接到多个输出流的功能 KStream branch允许基于真假谓词进行分支但这并不是我想要的我希望每个传入的日志都确定它将在运行时流式传输到的主题例如日志 date 20
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
如何决定使用哪种NoSQL技术？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 MongoDB 基于文档 HBase 基于列和 Neo4j 对象图的优缺点是什么我特别有兴趣了解
Kafka 0.10 Java 客户端超时异常：包含 1 条记录的批次已过期

我有一个单节点多 3 个代理 Zookeeper Kafka 设置我正在使用 Kafka 0 10 Java 客户端我编写了以下简单的远程在与 Kafka 不同的服务器上生产者在代码中我用 MYIP 替换了我的公共 IP 地址
JDBC Kafka Connector 可以从多个数据库中提取数据吗？

我想设置一个 JDBC Kafka 连接器集群并将它们配置为从同一主机上运行的多个数据库中提取数据我一直在查看 Kafka Connect 文档似乎在配置 JDBC 连接器后它只能从单个数据库中提取数据谁能证实这一点吗根据您启动
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
Windows下Kafka托管在Docker中删除主题时出现异常

我在 Windows 的 Docker 中托管 Kafka 威斯迈斯特卡夫卡 https hub docker com r wurstmeister kafka 使用 docker 镜像 Kafka 数据存储在本地 Windows 文件夹
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
Apache Kafka 中消费者消费消息的延迟

我正在使用 Kafka 0 8 0 并尝试实现下面提到的场景 JCA API 充当生产者并将数据发送到 gt 消费者 gt HBase 一旦我使用 JCA 客户端获取数据我就会将每条消息发送给消费者例如一旦生产者发送消息 no 1 我
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
使用来自多个 kafka 主题的消息的最佳实践是什么？

我需要消费来自不同卡夫卡主题的消息我是否应该为每个主题创建不同的消费者实例然后根据分区数量启动一个新的处理线程或者我应该从单个消费者实例订阅所有主题并且应该启动不同的处理线程感谢和问候梅加唯一的规则是您必须考虑 Kafka
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user

随机推荐

如何在禁用 SSL 卸载的情况下使 ARR 正常工作？ 502.3 错误网关

所以我已经遇到这个错误好几天了我用谷歌搜索了又搜索但似乎没有什么可以解决我的情况我希望有人可以提供帮助问题当我在 ARR 路由规则中禁用 SSL 卸载时我收到以下信息 502 Web 服务器在充当 Web 服务器时收到无效响应
学习使用 Xcode 和 Objective-C 基础知识进行 iPhone 开发的最佳地点是哪里？ [关闭]

Closed 这个问题是基于意见的目前不接受答案当我说最好的地方时我指的是实体课程研讨会讲习班等它可能遍布世界各地 Thanks 我会避开神学院来学习 Objective C 我听说过关于大书呆子牧场培训班
C++ 多重继承转换如何工作？

这个问题帮助我理解了一些但我的问题与他们的略有不同据我了解 C 中的基本类型转换涉及将内存中的结构重新解释为不同的结构例如 class Building int sqFootage class Office public Buildi
RMarkdown 生成 HTML 文档注释/评论窗格

我正在从 Word 文档报告转向使用 RMarkdown 生成的 HTML 文件然而我的客户在放弃 Word 后会错过的一大功能是能够轻松地直接向文档添加注释是否存在一些 HTML Java 等代码片段可以在 HTML 文档的一侧添
ASP GridView 在按钮单击时获取行值

我正在做什么单击图像按钮时重置用户密码到目前为止已完成添加了 GridViewCommandEventHandler 它正确触发使用代码来自MSDN 我的 e CommandArgument 得到一个空字符串并且在运行时抛出错误
运行节点应用程序时 bcrypt 无效的 elf 标头

我正在为学校开发一个 Nodejs 项目我无法使用 npm 安装 bcrypt 所以我安装了 bcrypt nodejs 并且该项目昨天运行良好但是今天当我做节点应用程序时我遇到了这个错误 node modules bcrypt
PHP $_REQUEST 作为数组

我有一个搜索表单我想将搜索词作为数组 REQUEST 这样我就可以列出每个搜索词将每个搜索词包装在一个跨度中以进行样式设置我怎么做编辑这是请求的代码
Swift 3.0 无法解析 DispatchQueue 的标识符

我几个小时以来一直试图找到这个问题的答案但仍然无济于事我正在尝试使用以下代码 func fetchPosts ref child Amore child Posts observeSingleEventOfType Value with
我正在尝试将 SFTP 文件（SAS 数据集或令牌）从一台服务器传输到 SAS 中的另一台服务器

这是我第一次尝试使用 SAS 对文件进行 SFTP 我尝试使用文件名语句但出现了一些错误 let user userid filename source sftp input sas7bdat user user pass passwor
如何使用多部分实体将图像上传到服务器？

我正在创建一个应用程序并在我的应用程序中添加了一个选项来从图库浏览图像然后上传到服务器我之前问过这个问题但没有得到好的答案为了上传图像我正在遵循本教程http mayanklangalia blogspot in 2014 04
在 DLL 上使用 WPF 动态创建图像（而不是 GDI+）

我需要动态生成图像在阅读教程后here我意识到我可以使用 WPF 中的所有控件和布局来生成渲染然后将其另存为 JPG 这个想法是使用它来代替 GDI 这是相当原始的问题是如何创建一个常规 dll 文件该文件将以编程方式生成 WPF
使用进程构建器执行两个命令

我正在尝试编写一个程序从命令提示符编译另一个 java 文件不过我有一个问题此时它已成功执行编译 Mocha java 的第一部分但是我希望它也执行该文件并显示它的输出内容它什么也没显示有什么建议么 pb new Proce
以编程方式将加载项宏添加到快速访问工具栏

我有一个用于格式化 Excel 报告的宏该宏需要在许多不同的工作簿上运行因为每天都会生成报告并将其保存到新文件中这已经在我的个人作业簿中了我现在需要分享这个宏我的计划是将该加载项放在我的本地加载项文件夹中在那里进行任何更新并运行
为Nextjs动态路由添加前缀

我定义了很多路由其中一条路由专用于用户配置文件每个用户都有一个可通过 HTTP example com username 访问的公共配置文件我尝试过创建文件pages username js但它似乎不起作用有没有办法在不通过用户名
当主键具有不同名称时，如何使用 TPT 继承模型？

针对旧数据库使用 Entity Framework 4 1 我无法生成一组非复数的 TPT 继承模型工作集并且对公共主键使用不同的名称我正在使用数据库表组织帐户和公司如下所示 Organization Organization
在 VBScript 中读取音乐文件长度

我只是想知道是否有一种方法可以通过 VBScript 将 mp3 文件的长度以秒为单位获取到变量中改编自我的答案关于 JScript 的类似问题您可以使用GetDetailsOfWindows Shell 的方法Folder对象获取音频
将 WordPress jQuery 添加到自定义页面模板

我有一个插件它有一个下面的自定义页面模板该模板需要 jQuery 我有一个变量 link to js 喜欢 google 库但我希望它将它链接到 WordPress 内部 jQuery 库
如何在 html 片段的 X 段之后插入文本字符串？ [复制]

这个问题在这里已经有答案了可能的重复如何用PHP解析和处理HTML content p This is the first paragraph p p This is the second paragraph p p This is t
WCF 服务的 SOAP 消息的服务器端跟踪

我正在努力追随本教程为我的 WCF 服务配置服务器端 SOAP 跟踪以及MSDN 文档当我运行测试时我在 Microsoft 服务跟踪查看器中看到活动 00000000 但消息选项卡为空 C temp Web tracelog svc
排除CDH中spark-core的依赖

我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据我的集群发行版是 Hadoop 3 0 0 cdh6 2 0 我使用的是 Spark 2 4 0 我的代码如下 val df sp

排除CDH中spark-core的依赖

排除CDH中spark-core的依赖 的相关文章

随机推荐

热门标签

排除CDH中spark-core的依赖的相关文章