Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

2024-05-20

创建表-

CREATE TABLE test.word_groups (group text, word text, count int,PRIMARY KEY (group,word));

插入数据 -

INSERT INTO test.word_groups (group , word , count ) VALUES ( 'A-group', 'raj', 0) ;
INSERT INTO test.word_groups (group , word , count ) VALUES ( 'b-group', 'jaj', 0) ;
INSERT INTO test.word_groups (group , word , count ) VALUES ( 'A-group', 'raff', 3) ;

 SELECT * FROM word_groups ;

 group   | word | count
---------+------+-------
 b-group |  jaj |     0
 A-group | raff |     3
 A-group |  raj |     0

Script -

val cassandraUrl = "org.apache.spark.sql.cassandra"
val wordGroup: Map[String, String] = Map("table" ->"word_groups", 
  "keyspace" -> "test", "cluster" -> "test-cluster")
val groupData = {spark.read.format(cassandraUrl).options(wordGroup).load()
  .where(col("group") === "b-group")}
groupData.rdd.deleteFromCassandra("sunbird_courses", "word_groups")

例外 -

java.lang.IllegalArgumentException: requirement failed: Invalid row size: 3 instead of 2.
    at scala.Predef$.require(Predef.scala:224)
    at com.datastax.spark.connector.writer.SqlRowWriter.readColumnValues(SqlRowWriter.scala:23)
    at com.datastax.spark.connector.writer.SqlRowWriter.readColumnValues(SqlRowWriter.scala:12)
    at com.datastax.spark.connector.writer.BoundStatementBuilder.bind(BoundStatementBuilder.scala:102)
    at com.datastax.spark.connector.writer.GroupingBatchBuilder.next(GroupingBatchBuilder.scala:105)
    at com.datastax.spark.connector.writer.GroupingBatchBuilder.next(GroupingBatchBuilder.scala:30)
    at scala.collection.Iterator$class.foreach(Iterator.scala:891)
    at com.datastax.spark.connector.writer.GroupingBatchBuilder.foreach(GroupingBatchBuilder.scala:30)
    at com.datastax.spark.connector.writer.TableWriter$$anonfun$writeInternal$1.apply(TableWriter.scala:229)
    at com.datastax.spark.connector.writer.TableWriter$$anonfun$writeInternal$1.apply(TableWriter.scala:198)
    at com.datastax.spark.connector.cql.CassandraConnector$$anonfun$withSessionDo$1.apply(CassandraConnector.scala:112)
    at com.datastax.spark.connector.cql.CassandraConnector$$anonfun$withSessionDo$1.apply(CassandraConnector.scala:111)
    at com.datastax.spark.connector.cql.CassandraConnector.closeResourceAfterUse(CassandraConnector.scala:129)
    at com.datastax.spark.connector.cql.CassandraConnector.withSessionDo(CassandraConnector.scala:111)
    at com.datastax.spark.connector.writer.TableWriter.writeInternal(TableWriter.scala:198)
    at com.datastax.spark.connector.writer.TableWriter.delete(TableWriter.scala:194)
    at com.datastax.spark.connector.RDDFunctions$$anonfun$deleteFromCassandra$1.apply(RDDFunctions.scala:119)
    at com.datastax.spark.connector.RDDFunctions$$anonfun$deleteFromCassandra$1.apply(RDDFunctions.scala:119)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
    at org.apache.spark.scheduler.Task.run(Task.scala:123)
    at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
21/08/11 09:01:24 WARN TaskSetManager: Lost task 0.0 in stage 11.0 (TID 2953, localhost, executor driver): java.lang.IllegalArgumentException: requirement failed: Invalid row size: 3 instead of 2.

Spark 版本 - 2.4.4 和 Spark Cassandra 连接器版本 - 2.5.0

Spark Cassandra 连接器文档链接 -https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_ saving.md#deleting-rows-and-columns https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md#deleting-rows-and-columns

我正在尝试删除这些列的所有记录，包括主键。

有什么解决方法吗？

仅供参考 - 我需要从 word_groups 表中删除组“A-group”的所有记录，包括主键/分区键

这是 2.5.x 中有趣的变化，我没有意识到 - 你现在需要有一个正确的行大小，即使keyColumns已指定，以前没有它就可以工作 - 对我来说看起来像是一个错误。

删除整行时只需保留主键 - 将删除更改为：

groupData.select("group", "word").rdd.deleteFromCassandra("test", "word_groups")

但就您而言，最好根据分区键列进行删除 - 在这种情况下，您将只有一个逻辑删除（您仍然需要仅选择必要的列）：

import com.datastax.spark.connector._
{groupData.select("group").rdd
  .deleteFromCassandra("test", "word_groups", keyColumns = SomeColumns("group"))}

您甚至不需要从 Cassandra 读取输入数据 - 如果您知道分区键的值，那么您只需创建 RDD 并删除数据（类似于doc https://github.com/datastax/spark-cassandra-connector/blob/b2.5/doc/5_saving.md#example-deleting-a-range-from-a-partition):

case class Key (group:String)
{ sc.parallelize(Seq(Key("b-group")))
   .deleteFromCassandra("test", "word_groups", keyColumns = SomeColumns("group"))}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常的相关文章

如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
检查是否存在多列

是否有更复杂的方法来检查数据框df包含 2 个名为Column 1 and Column 2 if numpy all map lambda c c in df columns Column 1 Columns 2 do something
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
R：表格格式

我有一个包含以下列的 Excel 文件 Column1 Column2 Column3 ab bb 0 5 ab bc 0 1 ab cd 0 7 ab dd 0 8 ac bb 0 2 ac bg 0 8 ac ee 0 8 ac dd
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

对客户端 JavaScript 计算器使用 eval 安全吗？

我正在制作一个计算器作为用户浏览器的静态 HTML 页面该页面并非旨在将任何信息提交回服务器除了这个计算器之外网页上不会出现任何其他内容在这种情况下使用 eval 安全吗或者换句话说在这种情况下使用 eval 是否会导致额外的
Qt GUI 应用程序中的控制台输出？

我有一个在 Windows 上运行的 Qt GUI 应用程序它允许传递命令行选项在某些情况下我想向控制台输出一条消息然后退出例如 int main int argc char argv QApplication a argc arg
如何从源视图 (aspx) 中的 C# 中为按钮事件添加事件处理程序

为 HTML 源视图中的按钮创建代码隐藏 webforms 事件处理程序的最简单方法是什么在 VB NET 中切换到代码隐藏页面并使用顶部的对象和事件组合框来选择和创建非常容易在 C 中这些都缺失了我真的不喜欢设计视图确保属性
获取当前线程 id 和进程 id 作为整数？

有没有办法以整数形式获取 Rust 中的当前进程 ID 和线程 ID 我得到的最接近的是 std thread current id 它返回一个不透明的ThreadId目的当尝试访问其u64场我得到 error E0611 field
SQL-Server：备份集保存现有数据库以外的数据库的备份

我正在尝试恢复数据库的 SQL Server 备份文件但它抛出如下错误备份集保存除现有数据库之外的数据库的备份我的数据库是SQL Server 2008 备份文件是2005年的可能是什么问题我也遇到过这个问题解决方案不要创建空
无法解析类型为 xxx 的任何 bean；限定符：[@javax.enterprise.inject.Any()]

我有一个 LoginProvider 接口 public interface LoginProvider boolean login String username String password 以及两种不同的实现 public clas
iOS UIButton 带有圆角和背景 bug

我发现圆形 UIButton 存在一个奇怪的问题这是我创建此按钮的代码块 let roundedButton UIButton type System roundedButton frame CGRectMake 100 100 100
在 PHP 中比较两个对象的最快方法是什么？

假设我有一个对象在本例中为 User 对象并且我希望能够使用单独的类来跟踪更改用户对象不必以任何方式改变它的行为才能发生这种情况因此我的单独的类创建它的干净副本将其存储在本地某个位置然后可以将 User 对象与原始版本进行
将 ninject 与 Ninject.Web.Api 用于 Web Api 2 一起使用在 ASP.NET MVC 5 中不起作用

我正在开发一个 Asp NET MVC 项目我的项目也有 web api 我正在使用 ASP NET MVC5 和 Web Api 2 以及 Visual Studio 3 我正在使用 ninject 进行依赖项注入我知道 ninjec
React PropTypes 与 Flow

PropTypes 和 Flow 涵盖相似的内容但使用不同的方法 PropTypes 可以在运行时向您发出警告这有助于快速找到来自服务器等的格式错误的响应但是 Flow 似乎是未来并且具有泛型等概念是一个非常灵活的解决方案 Nuc
在 Visual Studio Code 中调试 Go 测试

在我的 Windows 计算机上我安装了 Visual Studio Code 要手动运行测试我进入控制台到项目文件夹并输入 go test main test go 它工作完美但我遇到一种情况我需要调试我的测试以了解发生了什么为
如何捕获一个 int

我正在使用 IL 抛出一个 Int32 并捕获它这只是出于好奇我并没有试图实现任何目标所以请不要告诉我抛出异常而不是 int method private hidebysig static void Main string args
div 边框上的内边距

我想在 css 边框上添加填充将其拉入 div 内远离边缘使用 css 可以吗 css3 很好 webkit 这是设计我通过将一个 div 放在一个 div 中然后给内部 div 一个边框来做到这一点我想让标记尽可能精简所以如
为什么main()后面有函数定义？

我假设最常用的系统功能之一 ls由最权威的程序员之一 Richard Stallman 编写的最著名的操作系统之一 linux 的代码可能是真正编写良好的代码的一个例子因此由于它是开源的我决定看一下代码参见例如here http m
Netty通道读取混乱

我三个月前开始使用 Netty 最初它看起来非常简单且易于使用因为我遵循了 4 x 系列主页中给出的示例当我更深入地探索它时我无法理解某些事件或回调名称例如我无法理解以下内容之间的区别 ChannelRead ChannelHa
Swift 3.0 Pin 颜色注释在 MapView 中没有改变

我有兴趣根据案例场景更改注释的图钉颜色在一个函数中我发送了一个数组用于确定引脚注释的颜色到目前为止我已经设置了一个名为 ColorPointAnnotation 的子类它将确定 pinColor 然后在 switch 语句中
如何在 Loopback 4 中使用有状态请求？

在 v3 中我们可以在底层 Express 上定义中间件例如快速会话 https github com expressjs session 添加一个session请求对象上的属性在 v4 中看起来没有对应的东西并且底层的 Expr
“同态映射类型”是什么意思？

我在一些 TypeScript PR 中看到过同态映射类型这个术语这是一个例子 https github com microsoft TypeScript pull 21919 https github com microsoft T
Apple M1 芯片上的 React Native run-android 抛出错误，“无法打开脚本的 dsl 通用类缓存”

我正在使用 React Native 构建移动应用程序我现在尝试在 Android 模拟器上运行我的应用程序首先这是继续这个问题 https stackoverflow com questions 69260732 react nat
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group

Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常 的相关文章

随机推荐

热门标签

Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常的相关文章