仅从某些 Cassandra 分区检索数据时，Spark (Scala) 中的 DataFrames 是否有 joinWithCassandraTable 的替代方案？

2024-01-08

当使用 RDD 从大型 C* 表中提取少量分区时，我们可以使用：

val rdd = …  // rdd including partition data
val data = rdd.repartitionByCassandraReplica(keyspace, tableName)
    .joinWithCassandraTable(keyspace, tableName)

我们是否有使用 DataFrames 的同样有效的方法？

更新（2017 年 4 月 26 日）：

为了更具体，我准备了一个例子。

我在 Cassandra 有 2 个表：

CREATE TABLE ids (
   id text,
   registered timestamp,
   PRIMARY KEY (id)
)

CREATE TABLE cpu_utils (
   id text,
   date text,
   time timestamp,
   cpu_util int,
   PRIMARY KEY (( id, date ), time)
)

第一个包含有效 ID 列表，第二个包含 CPU 利用率数据。我想有效地获得每个的平均CPU利用率id在表中ids有一天，说“2017-04-25”。

据我所知，使用 RDD 最有效的方法如下：

val sc: SparkContext = ...
val date = "2017-04-25"
val partitions = sc.cassandraTable(keyspace, "ids")
  .select("id").map(r => (r.getString("id"), date))

val data = partitions.repartitionByCassandraReplica(keyspace, "cpu_utils")
  .joinWithCassandraTable(keyspace, "cpu_utils")
  .select("id", "cpu_util").values
  .map(r => (r.getString("id"), (r.getDouble("cpu_util"), 1)))

// aggrData in form: (id, (avg(cpu_util), count))
// example row: ("718be4d5-11ad-4849-8aab-aa563c9c290e",(6,723))
val aggrData = data.reduceByKey((a, b) => (
  1d * (a._1 * a._2 + b._1 * b._2) / (a._2 + b._2), 
  a._2 + b._2))

aggrData.foreach(println)

这种方法大约需要 5 秒才能完成（在我的本地计算机上使用 Spark 设置，在某些远程服务器上使用 Cassandra 设置）。使用它，我对表 cpu_utils 中不到 1% 的分区执行操作。

对于数据框，这是我当前使用的方法：

val sqlContext = new SQLContext(sc)
import sqlContext.implicits._
val date = "2017-04-25"

val partitions = sqlContext.read.format("org.apache.spark.sql.cassandra")
  .options(Map("table" -> "ids", "keyspace" -> keyspace)).load()
  .select($"id").withColumn("date", lit(date))

val data: DataFrame = sqlContext.read.format("org.apache.spark.sql.cassandra")
  .options(Map("table" -> "cpu_utils", "keyspace" -> keyspace)).load()
  .select($"id", $"cpu_util", $"date")

val dataFinal = partitions.join(data, partitions.col("id").equalTo(data.col("id")) and partitions.col("date").equalTo(data.col("date")))
  .select(data.col("id"), data.col("cpu_util"))
  .groupBy("id")
  .agg(avg("cpu_util"), count("cpu_util"))

dataFinal.show()

然而，这种方法似乎将整个表 cpu_utils 加载到内存中，因为这里的执行时间相当长（几乎 1 分钟）。

我问是否存在一种更好的使用 Dataframes 的方法，即使不能比上面提到的 RDD 方法表现得更好，至少也能达到这样的效果？

P.s.：我使用的是 Spark 1.6.1。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

cassandra

sparkcassandraconnector

仅从某些 Cassandra 分区检索数据时，Spark (Scala) 中的 DataFrames 是否有 joinWithCassandraTable 的替代方案？的相关文章

Java / Scala Future 由回调驱动

简洁版本我怎样才能创建一个Promise
将 Scala 库转换为 DLL (.NET)

我正在尝试从 scala 类创建一个 Dll 我将 IntelliJ 与 SBT 一起使用我已经找到了一种使用 ikvm converter 将 jar 文件转换为 Dll 的方法现在的问题是当我在 SBT 下使用 package 从
宏：knownDirectSubclasses 被嵌套类型破坏？

我有一个宏它枚举密封特征的直接子类型 import scala reflect macros Context import language experimental macros object Checker def apply A U
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
什么时候不应该使用 Cassandra？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案相关话题已经有很多讨论了卡桑德拉 http cassandra apache org lately Twitter Digg Facebook
通用特征的隐式转换

我正在实现一个数据结构并希望用户能够使用任何类型作为密钥只要他提供一个合适的密钥类型来包装它我有这个关键类型的特质这个想法是进行从基类型到键类型的隐式转换反之亦然实际上只使用基类型该特征看起来像这样 trait Key T
Scala 如何忽略 Java 的检查异常？

例如如果调用 JavaThread sleep这会抛出一个已检查的InterruptedException来自 Scala 源文件然后不需要将调用包含在 Scala 中try catch Scala 如何删除将调用包围在 a 中的规则tr
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Java 表达式树 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有相当于 net的 LINQ 下的表达式树JVM 我想实现一些类似 LINQ 的代码结构Scala
如何使用 DataStax java 驱动程序增加 cassandra 中的每秒事务数 (TPS)

设置 2 节点 Cassandra 2 0 7 31 集群副本 1 DataStax java 驱动程序 2 0 Problem 我正在使用 Datastax java 驱动程序进行负载平衡我并通过 Jmeter 生成 50000 线程
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus

随机推荐

为什么单击对附加元素不起作用？

我想使用 jQuery 将一些 html 元素从一个容器无休止地移动到另一个容器append函数但是当我单击已附加的元素时单击事件将不再触发基于与我类似的一些线程我发现附加元素已从其事件侦听器中剥离我怎样才能避免这种情况有人可以
将本地核心数据移动到 iCloud

如何在已使用本地存储 Core Data 的应用程序中启用 iCloud Core Data 我尝试过使用NSPersistentStoreUbiquitousContentNameKey在我的持久存储选项中不幸的是此选项启用 iClo
为什么找不到主类？

我有一个非常简单的代码 package mygame public class RunGame public static void main String args System out println args 0 我可以编译该代码但
如何向 Swift Playground 添加 UIButton？

所以我打开了 Playground 我只想添加一个简单的 UIButton 或简单的 UIView 用于测试目的但我无法让它显示这是我到目前为止所拥有的 import UIKit var uiButton UIButton button
使弹性项目采用内容宽度，而不是父容器的宽度

我有一个容器 div with display flex 它有一个孩子 a 我怎样才能让孩子出现内联具体来说如何使子级的宽度由其内容决定而不扩展到父级的宽度我尝试过的我将孩子设置为display inline flex 但它仍然
.NET SDK 安装不正确

我在安装 NET SDK 时遇到问题首先当我进入 Visual Studio 2019 时它说我缺少 dotnet Runtime sdk 所以我按照它的要求安装了它并重新启动了我的计算机然后我再次进入 Visual Studio 2
拦截 iOS 上的崩溃

描述我想捕获 iOS 应用程序中发生的所有异常并将它们记录到文件中并最终将它们发送到应用程序使用的后端服务器我一直在阅读有关此主题的内容并发现了设备发送的信号的用法并对其进行了处理但我不确定它是否会违反应用程序商店审查指南或者可
带悬停的 CSS 动态导航 - 如何使其在 iOS Safari 中工作？

在我的网站中我使用纯 CSS 动态菜单这在桌面浏览器中没问题但在 iOS iphone ipad 等上不行因为触摸界面不支持 hover选择器我的问题是在 iOS 上支持此功能的最佳方式是什么理想情况下可以通过修补一些 C
将键值对添加到 JavaScript 中的对象数组中？

如果我有一个这样的数组 var myarray myarray push Name Adam Age 33 myarray push Name Emily Age 32 这给了我一个数组我可以在其中提取值例如myarray 0 Name
为什么在使用花括号初始化列表时首选 std::initializer_list 构造函数？

考虑代码 include
在 Android 中解析大型 XML 文件

我正在尝试解析一个相当大的 XML 文件 1MB 但我遇到了一些困难我首先尝试将 xml 文件添加到 res xml 并使用 XmlResourceParser 解析它但出现异常数据超出 UNCOMPRESS DATA MAX 经过一
如何在 firebug 和 chrome 调试器中查看附加到 :hover 和其他伪类的样式

我知道一定有办法做到这一点而且我一直在解决这个问题但是有什么方法可以查看和或编辑应用于元素的伪类样式吗例如我想编辑 myclass hover or someid active在调试器中附我真的更关心如何在 chrome
在 Web 服务中接收 JSON 数组作为参数

我正在使用在 Visual Basic NET 3 5 中编程的 Web 服务来接收从其他应用程序发送的 JSON 数组我正在发送一个如下所示的 JSON 字符串 idRecoleccion 1 PIN 553648138 idRecol
Jquery 悬停时淡出

我需要一些 jquery 的帮助才能实现淡出效果这是我的代码 http jsfiddle net PPpnT 25 http jsfiddle net PPpnT 25 当您将鼠标悬停在图像上时图像需要淡出并显示下面的红色当您将鼠标移
在 Jenkins 中找不到私有 git 子模块

问题我正在尝试在 Jenkins 中构建我的应用程序它位于 Github 上的私有存储库上还有一个私有子模块我可以通过设置凭证来克隆 Jenkins 中的私有存储库但 Jenkins 无法克隆子模块这是失败构建的输出 Start
如何在 MySQL 中将字符串列读取为列表？

我有一张桌子它有两列class id and student 学生列是学生列表学生列的数据类型是varchar 我想编写一个 SQL 查询返回行其中学生列是较大列表的子集例如 A B C D E F G class id stud
Moodle 中个人资料图片的路径？

我正在 Moodle Web 应用程序中编程一些东西并正在考虑检索用户个人资料图像的路径我以为我可以在数据库中的某个位置找到路径但我只找到 mdl user picture 和 mdl user imagealt 所以实际上我知道谁上
便携式图书馆中的计时器

我在便携式库 Windows 应用商店中找不到计时器针对 net 4 5 和 Windows Store aka Metro 有人知道如何创建某种计时事件吗我需要某种秒表所以应该每秒刷新一次左右 Update 我们已在 Visual
Flutter 应用在 Android 12 上启动时崩溃

我在 Google Play 上发布了一个应用程序并且经常使用在上次更新中我将compileSdkVersion和targetSdkVersion都发布到了31 我发现 Android 版本低于 12 的用户在使用应用程序时没有任何问
仅从某些 Cassandra 分区检索数据时，Spark (Scala) 中的 DataFrames 是否有 joinWithCassandraTable 的替代方案？

当使用 RDD 从大型 C 表中提取少量分区时我们可以使用 val rdd rdd including partition data val data rdd repartitionByCassandraReplica keyspace

仅从某些 Cassandra 分区检索数据时，Spark (Scala) 中的 DataFrames 是否有 joinWithCassandraTable 的替代方案？

仅从某些 Cassandra 分区检索数据时，Spark (Scala) 中的 DataFrames 是否有 joinWithCassandraTable 的替代方案？ 的相关文章

随机推荐

热门标签

仅从某些 Cassandra 分区检索数据时，Spark (Scala) 中的 DataFrames 是否有 joinWithCassandraTable 的替代方案？的相关文章