Spark 和 Cassandra Java 应用程序：线程“主”java.lang.NoClassDefFoundError 中出现异常：org/apache/spark/sql/Dataset

2023-12-21

我得到了一个令人惊奇的 siplme java 应用程序，我几乎从这个例子中复制了它：

我想做的就是读取表数据并显示在 Eclipse 控制台中。

我的 pom.xml：

        <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>chat_connaction_test</groupId>
  <artifactId>ChatSparkConnectionTest</artifactId>
  <version>0.0.1-SNAPSHOT</version>
 <dependencies> 
    <dependency>
    <groupId>com.datastax.cassandra</groupId>
    <artifactId>cassandra-driver-core</artifactId>
    <version>3.1.0</version>
    </dependency>

    <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>2.0.0</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/com.datastax.spark/spark-cassandra-connector_2.10 -->
    <dependency>
    <groupId>com.datastax.spark</groupId>
    <artifactId>spark-cassandra-connector_2.10</artifactId>
    <version>2.0.0-M3</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.10 -->
    <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.10</artifactId>
    <version>2.0.0</version>
    </dependency>
    <!--
    <dependency> 
    <groupId>org.apache.spark</groupId> 
    <artifactId>spark-hive_2.10</artifactId> 
    <version>1.5.2</version> 
    </dependency>
    -->
  </dependencies>
</project>

和我的java代码：

    package com.chatSparkConnactionTest;

import static com.datastax.spark.connector.japi.CassandraJavaUtil.javaFunctions;
import java.io.Serializable;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import com.datastax.spark.connector.japi.CassandraRow;

public class JavaDemo implements Serializable {
    private static final long serialVersionUID = 1L;
    public static void main(String[] args) {

        SparkConf conf = new SparkConf().
            setAppName("chat").
            setMaster("local").
            set("spark.executor.memory","1g").
            set("spark.cassandra.connection.host", "127.0.0.1");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> cassandraRowsRDD = javaFunctions(sc).cassandraTable(
            "chat", "dictionary")

            .map(new Function<CassandraRow, String>() {
                @Override
                public String call(CassandraRow cassandraRow) throws Exception {
                    String tempResult = cassandraRow.toString();
                    System.out.println(tempResult);
                    return tempResult;
                    }
                }
            );
        System.out.println("Data as CassandraRows: \n" + 
        cassandraRowsRDD.collect().size()); // THIS IS A LINE WITH ERROR
    } 
}

这是我的错误：

16/10/05 20:49:18 信息 CassandraConnector：已连接到 Cassandra cluster：线程“main”中的测试集群异常 java.lang.NoClassDefFoundError：org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(本机方法) at java.lang.Class.privateGetDeclaredMethods（来源未知）位于 java.lang.Class.getDeclaredMethod（来源未知）位于 java.io.ObjectStreamClass.getPrivateMethod（来源未知）位于 java.io.ObjectStreamClass.access$1700（来源不明） java.io.ObjectStreamClass$2.run（来源不明）位于 java.io.ObjectStreamClass$2.run（来源不明）位于 java.security.AccessController.doPrivileged（本机方法）位于 java.io.ObjectStreamClass.（来源未知）位于 java.io.ObjectStreamClass.lookup（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.defaultWriteFields（来源未知）位于 java.io.ObjectOutputStream.writeSerialData（来源未知）位于 java.io.ObjectOutputStream.writeOrdinaryObject（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.defaultWriteFields（来源未知）位于 java.io.ObjectOutputStream.writeSerialData（来源未知）位于 java.io.ObjectOutputStream.writeOrdinaryObject（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.writeObject（来源未知）位于 scala.collection.immutable.$colon$colon.writeObject(List.scala:379) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(本机方法) 处 sun.reflect.NativeMethodAccessorImpl.invoke（来源未知）位于 sun.reflect.DelegatingMethodAccessorImpl.invoke（来源未知）位于 java.lang.reflect.Method.invoke（来源未知）位于 java.io.ObjectStreamClass.invokeWriteObject（来源未知）位于 java.io.ObjectOutputStream.writeSerialData（来源未知）位于 java.io.ObjectOutputStream.writeOrdinaryObject（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.defaultWriteFields（来源未知）位于 java.io.ObjectOutputStream.writeSerialData（来源未知）位于 java.io.ObjectOutputStream.writeOrdinaryObject（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.defaultWriteFields（来源未知）位于 java.io.ObjectOutputStream.writeSerialData（来源未知）位于 java.io.ObjectOutputStream.writeOrdinaryObject（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.defaultWriteFields（来源未知）位于 java.io.ObjectOutputStream.writeSerialData（来源未知）位于 java.io.ObjectOutputStream.writeOrdinaryObject（来源未知）位于 java.io.ObjectOutputStream.writeObject0（来源未知）位于 java.io.ObjectOutputStream.writeObject（来源未知）位于 org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:43) 在 org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100) 在 org.apache.spark.util.ClosureCleaner$.ensureSerialized(ClosureCleaner.scala:295) 在 org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:288) 在 org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:108) 在 org.apache.spark.SparkContext.clean(SparkContext.scala:2037) 处 org.apache.spark.SparkContext.runJob(SparkContext.scala:1896) 在 org.apache.spark.SparkContext.runJob（SparkContext.scala：1911）在 org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:893) 在 org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151) 在 org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112) 在 org.apache.spark.rdd.RDD.withScope(RDD.scala:358) 处 org.apache.spark.rdd.RDD.collect(RDD.scala:892) 在 org.apache.spark.api.java.JavaRDDLike$class.collect(JavaRDDLike.scala:360) 在 org.apache.spark.api.java.AbstractJavaRDDLike.collect(JavaRDDLike.scala:45) 在 com.chatSparkConnactionTest.JavaDemo.main(JavaDemo.java:37) 引起作者：java.lang.ClassNotFoundException：org.apache.spark.sql.Dataset at java.net.URLClassLoader.findClass（来源未知）位于 java.lang.ClassLoader.loadClass（来源未知）位于 sun.misc.Launcher$AppClassLoader.loadClass（来源未知）位于 java.lang.ClassLoader.loadClass(来源不明) ... 58 更多

我更新了 pom.xml 但没有解决错误。有人可以帮我解决这个问题吗？

谢谢你！

更新1：这是我的构建路径截图：链接到我的截图 https://i.stack.imgur.com/uQhp9.png

您收到“java.lang.NoClassDefFoundError：org/apache/spark/sql/Dataset”错误，因为 pom.xml 文件中缺少“spark-sql”依赖项。

如果您想使用 Spark 2.0.0 读取 Cassandra 表，那么您需要以下最小依赖项。

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.0.0</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.0.0</version>
</dependency>
<dependency>
    <groupId>com.datastax.spark</groupId>
    <artifactId>spark-cassandra-connector_2.11</artifactId>
    <version>2.0.0-M3</version>
</dependency>

Spark 2.0.0提供了SparkSession和Dataset API。下面是读取 Cassandra 表并打印记录的示例程序。

 public class SparkCassandraDatasetApplication {
 public static void main(String[] args) {
 SparkSession spark = SparkSession
          .builder()
          .appName("SparkCassandraDatasetApplication")
          .config("spark.sql.warehouse.dir", "/file:C:/temp")
          .config("spark.cassandra.connection.host", "127.0.0.1")
          .config("spark.cassandra.connection.port", "9042")
          .master("local[2]")
          .getOrCreate();

 //Read data
 Dataset<Row> dataset = spark.read().format("org.apache.spark.sql.cassandra")
        .options(new HashMap<String, String>() {
            {
                put("keyspace", "mykeyspace");
                put("table", "mytable");
            }
        }).load();

   //Print data
   dataset.show();       
   spark.stop();
   }        
}

如果您仍然想使用 RDD，请使用下面的示例程序。

public class SparkCassandraRDDApplication {
public static void main(String[] args) {
    SparkConf conf = new SparkConf()
            .setAppName("SparkCassandraRDDApplication")
            .setMaster("local[2]")
            .set("spark.cassandra.connection.host", "127.0.0.1")
            .set("spark.cassandra.connection.port", "9042");

    JavaSparkContext sc = new JavaSparkContext(conf);

    //Read
    JavaRDD<UserData> resultsRDD = javaFunctions(sc).cassandraTable("mykeyspace", "mytable",CassandraJavaUtil.mapRowTo(UserData.class));

    //Print
    resultsRDD.foreach(data -> {
        System.out.println(data.id);
        System.out.println(data.username);
    });

    sc.stop();
  }
}

上面程序中使用的Javabean（UserData）如下所示。

public class UserData implements Serializable{  
  String id;
  String username;     
  public String getId() {
      return id;
  }
  public void setId(String id) {
      this.id = id;
  }
  public String getUsername() {
     return username;
  }
  public void setUsername(String username) {
     this.username = username;
   }    
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

cassandra

datastax

Spark 和 Cassandra Java 应用程序：线程“主”java.lang.NoClassDefFoundError 中出现异常：org/apache/spark/sql/Dataset 的相关文章

在 Java 中跨平台地播种随机生成器，无需时间

我几乎同时在两个线程上初始化两个随机数生成器并且我希望这两个生成器的行为完全不同我会打电话Random nextInt 7 经常一个接一个地在两台发电机上运行使用System currentTimeMillis 这不是一个好主意因为
为什么 DragHandler exportAsDrag 禁用我的 MouseMotionListener？

我想实现一个简单的 JComponent 拖放并带有 O Reilly Swing Hacks 的预览我的问题是如果 TransferHandler 启动 Drag MouseMotionListener 停止执行 mouseDrag
UnsupportedOperationException：特权进程中不允许使用 WebView

我在用android sharedUserId android uid system 在我的清单中获得一些不可避免的权利从 HDMI 输入读取安卓盒子 http eweat manufacturer globalsources com s
java“类文件包含错误的类”错误

我正在尝试制作一个控制台应用程序来测试我的网络服务我成功部署了一个网络服务http localhost 8080 WS myWS http localhost 8080 WS myWS我用 wsimport 制作了代理类 wsimport
Stream#limit 返回的元素是否可以少于预期？

如果流s下面至少有n元素流在什么情况下sLimit可能少于n元素如果有的话 Stream sLimit s limit n 提问原因在这个答案 https stackoverflow com a 28082107 829571 我读到
JavaPreparedStatementUTF-8字符问题

我有一份准备好的声明 PreparedStatement st 在我的代码中我尝试使用 st setString 方法 st setString 1 userName userName 的值为 ak a setString 方法将 ak
如何加快 jar 签名者的速度？

我使用 ant 来签署我的 jars 以进行网络启动部署 Ant signjar 在 Web 启动签名时非常慢如何加快签名过程我找到了一种可能的解决方案早些时候在构建脚本 ant signjar 中按顺序调用所有 jar 我们使用
Ubuntu 的打包 - Web 应用程序

Web 应用程序没有与 C 或类似文件不同的 make 文件但是它需要放置在特定的目录中例如 var www 我是 Linux 打包新手所以我的问题是如何将我的应用程序打包到 deb 中以便在安装时将其放入 etc myprog
在 IntelliJ 中创建可执行 JAR（Java 18、JavaFX 18 Maven 项目），“警告：不支持的 JavaFX 配置...”

我有一个 Java 18 JavaFX 18 Maven 项目除了 javaFX 库之外它还有很多库需要包含在工件中我想创建一个工件一个 jar 其中包含所有依赖项我开始按照这个视频来创建 jar https www youtub
在 HttpClient4 中使用 PoolingHttpClientConnectionManager 的正确方法出现问题 java.lang.IllegalStateException: 连接池关闭

我正在 Java 中利用 HTTPclient4 发送 HTTP 请求并处理 HTTP 响应我想使用连接池来提高性能但我无法找到合适的方法来做到这一点我正在 Java 中利用 HTTPclient4 发送 HTTP 请求并处理 HTT
我们可以用java定制一个垃圾收集器吗？

我们知道java的垃圾收集器是一个低优先级线程在java中我们可以创建任何具有高优先级的线程那么是否有可能拥有我们自己定制的具有可变优先级的垃圾收集器线程我们可以根据内存管理的级别进行设置有人尝试过吗如果是的话您能分享一些关于如
Java 8 Stream - 为什么过滤器方法不执行？ [复制]

这个问题在这里已经有答案了我正在学习使用java流进行过滤但是过滤后的流没有打印任何内容我认为过滤器方法没有被执行我的过滤代码如下 Stream of d2 a2 b1 b3 c filter s gt s startsWith b
如何映射 Map

I tried ManyToMany cascade CascadeType ALL Map
从 SQL 语句中检索元数据（表名）

我使用的是 Visual Studio 2008 我创建了一个 Winforms 应用程序并且尝试从 SQL 语句中提取表名 con new SqlConnection connString String queryString Sele
Web服务连接超时和请求超时之间的区别

WebClientTestService service new WebClientTestService int connectionTimeOutInMs 5000 Map
JTable中动态加载大量数据

这是我的问题我目前有一个 JTable 其中包含 5 000 到超过 200 000 行你知道我要说什么了数据已经加载到内存中了这不是问题但是如何我可以创建一个高效的 JTable 以便它只加载以下行是可见的并且任何事件仅作
Java 中的可迭代求和？

有没有一个库可以做到这一点 public class Iterables private Iterables public static
从 AJP 连接器请求中检索 Shibboleth 属性

当我在 Apache 上运行 Shibboleth 身份验证时遇到了一个奇怪的问题当 Tomcat7 在后端运行时 Apache 通过 mod proxy ajp 发送所有内容 Shibboleth 的参数也是如此 In the 文档 h
如何使用 AEM 解析 org.apache.http.ssl？

最终我尝试在 Java 代码中使用 AWS S3 库来通过 AEM 启用服务器端 S3 上传但在安装依赖项和或由 AEM 识别时遇到了问题每次我添加新的依赖项时都会弹出五个问题在我尝试构建的这个包中这是我看到的错误 The i
生成签名和加密的 JWT

我正在尝试使用生成签名和加密的 JWT 令牌雨云智威汤逊 http connect2id com products nimbus jose jwt private void generateToken throws JOSEExceptio

随机推荐

Python Plotly - 多个下拉图，每个下拉图都有子图

Problem 我正在尝试结合两个 Python Plotly 功能其中之一是下拉菜单用户可以在其中切换绘图链接到示例 https plot ly python dropdowns 另一个特点是次要情节我的尝试我有使用下拉菜单的工
为 log4net 设置动态连接字符串

我正在使用 log4net 并且我想在 log4net 配置中引用一个连接字符串因为 Config connectionStrings config 中的连接字符串将是来自用户的动态输入这是我正在尝试做的事情
如何在不打开 Whatsapp 应用程序的情况下向 Whatsapp 发送消息到指定号码

我想将消息发送到 Whatsapp 指定号码而无需单击按钮打开 Whatsapp 应用程序提前致谢 None
mysql加载数据本地infile

我正在尝试使用下面的代码使用 LOAD DATA LOCAL INFILE 将数据加载到 mysql 表中 Mysql LOAD DATA INFILE var www vhosts domain com httpdocs test1 cs
有人可以帮我编译 PHP runkit DLL 扩展吗？

我放弃我问过这个问题 https stackoverflow com questions 4667333 where can i get runkit dll extensions for php 5 3前一段时间但我又陷入了这个问题
JavaCard 中的类字节到底是什么？

我已经开始使用 JavaCards 并试图掌握 CLA 字节的含义如果要读RFC 5 4 1 类字节 http www cardwerk com smartcards smartcard standard ISO7816 4 5 basi
Android studio - 部署发布 apk 而不是调试

Android Studio 中的运行配置仅允许您部署默认调试 APK 但我已经通过从 Android Studio 中运行 gradle assembleDebug 作为外部工具构建了一个发布 APK 并且希望改为部署它但似乎您无法
GWT RequestFactory：如何从 stableId() 获取持久 id？

I use Long我的实体中的 ids 不仅将它们存储在数据存储中而且还引用其他实体现在我使用 RequestFactory 在客户端上 create 对象并保留它们但我需要一种方法来找出服务器生成的 id 这是我发现的一种需要两
在iOS系统上以编程方式从进程pid获取其他应用程序的目录路径？

如何从进程pid中获取其他应用程序的目录路径 iOS 上似乎没有 proc pidpath 调用以下适用于 iOS 并使用sysctl像 Activity Monitor Touch 这样的应用程序正在 App Store 中使用因此
Nohup 与 Anaconda ipython 失败

我正在尝试使用 Anaconda IPython 的 nohup 命令运行代码如果我在 ipython 环境中运行我的代码则它可以正常运行几个小时 irsacf00 debian WISE AP gt ipython Python 3
在elasticsearch中过滤_id范围

我正在尝试按范围过滤 elasticsearch 中的 id 字段索引未启用是否可以如果可以的话可以怎样做呢我在elasticsearch文档中读到我们可以使用 ids 通过 id和类型进行查询但我不知道如何使用范围过滤器来完成
as3 播放影片剪辑一次

如果您帮助我解决这个问题我将非常感激我正在尝试在 ipad 应用程序中播放一次 MovieClip 我试图以这种方式停止但电影不会停止 var loader Loader new Loader var swfFile URLReque
PHP - 将 2d 数组转换为按特定值分组的 3d 数组的最快方法

我想转换这个二维记录数组 records gt Array 0 gt Array 0 gt Pears 1 gt Green 2 gt Box 3 gt 20 1 gt Array 0 gt Pears 1 gt Yellow 2 gt P
数据表列未对齐和重复排序箭头问题

每次我显示表格时我都会在表格中添加一个额外的排序箭头 th Here is an image of the issue I also am having an issue with my columns not aligning corr
Spring Security 和多部分请求

我有一个受 Spring Security 和 OAuth2 保护的 Controller 我试图让我的用户上传文件 Controller RequestMapping value api image public class ImageC
OpenCV：选择颜色过滤的 HSV 阈值

为了从图像中过滤出某种颜色有必要设置需要检测的颜色的边界我有一种感觉这主要是一个试错过程有没有什么方法可以快速找到特定颜色的正确阈值在这种特定情况下我试图检测下图中图表的灰色区域当然这没有检测到虚线对于这个例子我需要非常
如何在 NSPasteBoard cocoa os x 中复制图像？

I have tried this one but not working NSPasteboard pboard NSPasteboard generalPasteboard pboard declareTypes NSMutableAr
网络设备发现

对于我的 Android 应用程序用户需要连接到托管在同一 LAN 上某处的服务器同一 LAN 上可以托管多个服务器为了方便用户我打算扫描 Android 设备当前连接的 LAN 然后列出所有运行服务器的网络设备而不是让用户将 I
发布请求被切断

我的 javascript 发布请求有问题我有以下代码用于发送帖子请求 var xhttp new XMLHttpRequest xhttp onreadystatechange function if this readyState 4
Spark 和 Cassandra Java 应用程序：线程“主”java.lang.NoClassDefFoundError 中出现异常：org/apache/spark/sql/Dataset

我得到了一个令人惊奇的 siplme java 应用程序我几乎从这个例子中复制了它我想做的就是读取表数据并显示在 Eclipse 控制台中我的 pom xml

Spark 和 Cassandra Java 应用程序：线程“主”java.lang.NoClassDefFoundError 中出现异常：org/apache/spark/sql/Dataset

Spark 和 Cassandra Java 应用程序：线程“主”java.lang.NoClassDefFoundError 中出现异常：org/apache/spark/sql/Dataset 的相关文章

随机推荐

热门标签