Cassandra/Spark 显示大表的条目计数不正确

2024-01-25

我正在尝试使用 Spark 处理大型 cassandra 表（约 4.02 亿条目和 84 列），但得到的结果不一致。最初的要求是将一些列从该表复制到另一个表。复制数据后，我注意到新表中的一些条目丢失了。为了验证我是否对大型源表进行了计数，但每次我都得到不同的值。我在一个较小的表（约 700 万条记录）上尝试了查询，结果很好。

最初，我尝试使用 pyspark 进行计数。这是我的 pyspark 脚本：

spark = SparkSession.builder.appName("Datacopy App").getOrCreate() 
df = spark.read.format("org.apache.spark.sql.cassandra").options(table=sourcetable, keyspace=sourcekeyspace).load().cache() 
df.createOrReplaceTempView("data") 
query = ("select count(1) from data " ) 
vgDF = spark.sql(query) 
vgDF.show(10)

Spark提交命令如下：

~/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --master spark://10.128.0.18:7077 --packages datastax:spark-cassandra-connector:2.0.1-s_2.11 --conf spark.cassandra.connection.host="10.128.1.1,10.128.1.2,10.128.1.3" --conf "spark.storage.memoryFraction=1" --conf spark.local.dir=/media/db/ --executor-memory 10G --num-executors=6 --executor-cores=2 --total-executor-cores 18 pyspark_script.py

上述 Spark 提交过程大约需要 90 分钟才能完成。我运行了三遍，这是我得到的计数：

Spark迭代1：402273852
Spark迭代2：402273884
Spark迭代3：402274209

Spark在整个过程中没有显示任何错误或异常。我在 cqlsh 中运行相同的查询三次，并再次得到不同的结果：

Cqlsh迭代1：402273598
Cqlsh迭代2：402273499
Cqlsh迭代3：402273515

我无法找出为什么我从同一查询中得到不同的结果。 Cassandra 系统日志 (/var/log/cassandra/system.log) 仅显示一次以下错误消息：

ERROR [SSTableBatchOpen:3] 2018-02-27 09:48:23,592 CassandraDaemon.java:226 - Exception in thread Thread[SSTableBatchOpen:3,5,main]
java.lang.AssertionError: Stats component is missing for sstable /media/db/datakeyspace/sensordata1-acfa7880acba11e782fd9bf3ae460699/mc-58617-big
        at org.apache.cassandra.io.sstable.format.SSTableReader.open(SSTableReader.java:460) ~[apache-cassandra-3.9.jar:3.9]
        at org.apache.cassandra.io.sstable.format.SSTableReader.open(SSTableReader.java:375) ~[apache-cassandra-3.9.jar:3.9]
        at org.apache.cassandra.io.sstable.format.SSTableReader$4.run(SSTableReader.java:536) ~[apache-cassandra-3.9.jar:3.9]
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) ~[na:1.8.0_131]
        at java.util.concurrent.FutureTask.run(FutureTask.java:266) ~[na:1.8.0_131]
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) ~[na:1.8.0_131]
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_131]
        at java.lang.Thread.run(Thread.java:748) [na:1.8.0_131]

版本：

卡桑德拉 3.9。
火花2.1.0。
Datastax 的 Spark-cassandra-connector 2.0.1
斯卡拉版本 2.11

Cluster:

Spark 设置有 3 个工作节点和 1 个主节点。
3 个工作节点还安装了 cassandra 集群。
每个工作节点有 8 个 CPU 核心和 40 GB RAM。

任何帮助将不胜感激。

Spark Cassandra 连接器默认读取一致性为“LOCAL_ONE”，默认写入一致性为“LOCAL_QUORUM”，因此可以在使用默认值进行完全修复之前读取部分数据。对于写入数据失败的节点，您可以读取“ONE”，但这不是错误，因为其他 2 个副本成功。因此，您应该将两个级别设置为 QUORUM，或者将其中之一设置为 ALL

config("spark.cassandra.input.consistency.level", "LOCAL_QUORUM").
config("spark.cassandra.output.consistency.level", "LOCAL_QUORUM").

默认的 CQL shell 级别也是 ONE，因此您还应该增加它：

cqlsh> CONSISTENCY QUORUM

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Cassandra/Spark 显示大表的条目计数不正确的相关文章

如何过滤 Cassandra 中的数据？

我在应用程序中使用 mySQL 一段时间了收集的数据越多速度就越慢所以我一直在研究 NOSQL 选项我在 mySQL 中拥有的东西之一是从一堆连接创建的视图该应用程序在网格中显示所有重要信息用户可以在此数据集上选择范围进行搜索
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Cassandra .setFetchSize() on 语句不被遵守

我想在UI上实现分页所以我这样设置fetchSize boundStatement setFetchSize 20 但 setFetchSize 不被尊重截至目前我的表有 400 行并且所有 400 行均已检索当我使用检索下一组行
Cassandra：在 session.execute() 期间“无法完成对任何主机的操作”

卡桑德拉版本 1 2 2Thrift API 版本 19 35 0CQL支持的版本 2 0 0 3 0 1 默认 3 0 1 适用于 python 3 4 的 cassandra 驱动程序使用 sudo 运行 cassandra bin c
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
Apache Cassandra 中的复合索引

我正在尝试设置一个 cassandra 列族其中一些列上有二级索引在读回数据时我需要进行过滤在我最初的测试中当我一起使用多个索引时速度会变慢这是我当前的配置方式通过 cassandra cli update column fa
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
在 Java 中连接和使用 Cassandra

我已经阅读了一些关于 Cassandra 是什么以及它可以做什么的教程但我的问题是如何在 Java 中与 Cassandra 交互教程会很好如果可能的话有人可以告诉我是否应该使用 Thrift 还是 Hector 哪一个更好以及为什
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m

随机推荐

CasperJS 中的文件 IO

是否可以在 CasperJS 脚本中读写文件 var fs require fs var data fs readFileSync testdata data utf 8 console log data Calling casperjs
将海量数据插入Mysql数据库的最快方法[重复]

这个问题在这里已经有答案了我实际上有一个包含 100 000 条记录的列表我想将其插入 MySQL 数据库中我尝试将它们插入foreach和简单的INSERT INTO然而即使插入 100 行也需要花费很多时间比如 1 秒行有
我怎样才能执行这个聚合？

我装了两张表一张是客户另一张是订单 select from customers id Name age adress salary 2 102 jpj 24 zzzz 10000 3 103 ftd 20 kkkk 20000 4 10
在PHP中对多维数组进行排序的最快方法

Array 0 gt Array t gt 81881 b gt 99494 1 gt Array 我有一个像上面这样的多维数组这个数组中的条目最大可达 20k 我想对这个数组进行排序到 t 索引而不调用任何外部函数任何提高效率的建议
由于“INFO Spawnerr：为“app_name”制作调度程序时出现未知错误：EACCES”，无法使用 nohup 启动服务

我正在尝试与主管一起启动服务但收到错误消息信息spawnerr 为 app name 制作调度程序时出现未知错误 EACCES 这是我的supervisord conf 文件 supervisord logfile tmp superv
在类定义之外定义显式专用类的成员函数

我看到与模板相关的错误编译器是 Visual Studio 2012 但我不明白这是代码归结为要点 Templated class generic template
使用 Windows Azure 队列锁定队列中的消息

我正在使用 Windows Azure 消息队列我想知道是否有一种方法可以在收到消息时锁定队列中的消息当您从队列中检索消息时它被标记为无形的直到您删除它或达到超时期限当它被标记为不可见时其他人都看不到该消息我想这已经接近锁定
java中使用数字作为包名

我已经检查了以下帖子 https docs oracle com javase specs jls se7 html jls 6 html jls 6 2 https docs oracle com javase specs jls se7
在 j2me 中读取收件箱中的短信

我如何阅读收件箱中的短信我想阅读短信没有短信等我可以在 j2me 中做吗如果可以的话怎么做我想在诺基亚和索尼上运行该应用程序我相信您无法直接从收件箱读取短信但是您可以运行 j2me 应用程序并等待传入的短信换句话说如果
Firebase Auth：手动检测当前用户最近是否经过身份验证

默认情况下如果用户 X 年前登录 Firebase 将要求他她通过以下方式重新进行身份验证reauthenticateWithCredential以完成该动作如果用户在继续下一步操作之前已经符合重新身份验证的资格是否可以查询 Fir
尝试避免使用 sapply 进行 for 循环（对于 gsub）

尽量避免使用for使用以下代码循环sapply 如果可能的话带循环的解决方案对我来说非常适合我只是想学习更多 R 并探索尽可能多的方法目标有一个向量i和两个向量sf 搜索和rp 代替对于每个i需要循环sf并替换为rp哪里匹配 i
带有 Ignited-Datatables 库的服务器端 DataTables

如何使用 Ignited Datatables 库来服务器端 DataTables 我的应用程序使用 CodeIgniter 我使用的库是Ignited datatables 库 https github com IgnitedDatata
SOLR计数多值字段查询

是否可以创建一个 solr 查询其中仅返回在多值字段中具有多个条目的文档例如 docs id 1 myfield hello word hello stackoverflow id 2 myfield hello word 我天真的示例
将数值向量中的 NA 替换为从邻居计算出的值

我正在尝试写一个替换函数将给定数值向量中的每个缺失值替换为算术平均值 of 它的前面和后面的元素例如如果c 5 NA 6 2 3 5 6 4 NA 2 NA 5 给出那么结果应该是c 5 5 5 6 2 3 5 6 4 3 2 3
如何在 printf 函数中使用宏

所以我在我的头文件中定义了这个宏和其他一些宏 define COL1WIDTH 16 我想用它来打印这样的东西 word 25 Dir1 FileB 129 Sat Jan 1 00 00 02 2011 12 1 x4 2 x2 3 x2
ASP.NET 中的 jQuery ajax 带有 customErrors mode="On"

知道如何检索服务器端在执行时抛出的原始异常使用 jQuery 调用 ajax 并使用自定义错误模式开在 web config 中如果 mode Off 我可以使用此函数获取错误 error function xhr status e
C++ 中的重定向

include
TDD 如何应用于基于 Django 类的通用视图？

由于 Django 中基于类的通用视图涉及框架的一些工作我发现很难以 TDD 风格使用它们现在我使用 TestClient 从 http 模拟堆栈访问视图但我更愿意在使用 TestClient 进行功能测试之前正确地对特定方法
何时在 Linq 中使用 Cast() 和 OfType()

我知道有两种将类型转换为IEnumerable从一个Arraylist在 Linq 中并想知道在什么情况下使用它们 e g IEnumerable
Cassandra/Spark 显示大表的条目计数不正确

我正在尝试使用 Spark 处理大型 cassandra 表约 4 02 亿条目和 84 列但得到的结果不一致最初的要求是将一些列从该表复制到另一个表复制数据后我注意到新表中的一些条目丢失了为了验证我是否对大型源表进行了计数但

Cassandra/Spark 显示大表的条目计数不正确

Cassandra/Spark 显示大表的条目计数不正确 的相关文章

随机推荐

热门标签

Cassandra/Spark 显示大表的条目计数不正确的相关文章