通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

2024-04-27

我一直在与sparklyr要将大型 cassandra 表带入 Spark，请使用 R 注册它们并执行dplyr对他们进行操作。

我已经成功导入 cassandra 表，代码如下：

# import cassandra table into spark

cass_df <- sparklyr:::spark_data_read_generic(
  sc, "org.apache.spark.sql.cassandra", "format", 
  list(keyspace = "cass_keyspace", table = "cass_table")
  ) %>% 
  invoke("load")


# register table in R

cass_tbl <- sparklyr:::spark_partition_register_df(
         sc, cass_df, name = "cass_table", repartition = 0, memory = TRUE)
       )

其中一些 cassandra 表非常大（> 85 亿行），需要一段时间才能导入/注册，有些会导致内存溢出，即使有 6 个节点运行总共 60 个内核和 192GB RAM。但是，我通常只需要每个 cassandra 数据库中的一些列。

我的问题是：

是否可以在导入/注册时过滤 cassandra 数据库，以便仅导入某些列，或者根据主键进行过滤（即通过传递SQL / CQL输入查询，例如SELECT name FROM cass_table WHERE id = 5)?
这样的查询在上面的代码中会出现在哪里，语法采用什么形式？

我尝试将这样的查询添加为选项列表中的附加选项，即：

list(. . . , select = "id")

以及之前将其作为单独的管道调用%>% invoke("load"), i.e.:

invoke("option", "select", "id") %>%

# OR

invoke("option", "query", s"select id from cass_table") %>%

但这些都不起作用。有什么建议么？

您可以跳过急切缓存并选择感兴趣的列：

session <- spark_session(sc)

# Some columns to select
cols <- list("x", "y", "z")

cass_df <- session %>% 
  invoke("read") %>% 
  invoke("format", "org.apache.spark.sql.cassandra") %>% 
  invoke("options", as.environment(list(keyspace="test"))) %>% 
  invoke("load") %>% 
  # We use select(col: String, cols* String) so the first column
  # has to be used separately. If you want only one column the third argument
  # has to be an empty list 
  invoke("select", cols[[1]], cols[2:length(cols)]) %>%
  # Standard lazy cache if you need one
  invoke("cache")

如果您使用谓词可以显着减少获取的数据集量pushdown选项"true"（默认）并使用filter before缓存。

如果您想传递更复杂的查询，您可以注册临时视图并sql method:

session %>%
  invoke("read") %>% 
  ...
  invoke("load") %>% 
  invoke("createOrReplaceTempView", "some_name")

cass_df <- session %>% 
  invoke("sql", "SELECT id FROM some_name WHERE foo = 'bar'") %>%
  invoke("cache")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

cassandra

cql

sparklyr

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？的相关文章

如何在 ggplot 中保持配色方案，同时删除每个图中未使用的级别？

我想比较一个图中的数据的一些子组和另一图中的一些其他子组如果我绘制一个图其中绘制了所有子组那么这个数字将是巨大的并且每个单独的比较都会变得困难我认为如果给定的子组在所有图中都具有相同的颜色这对读者来说会更有意义这是我尝试过的两
是否可以通过扫描从控制台读取而不回显字符？

这是一个示例函数 passwordEntry lt function cat Enter your password pwd lt scan n 1 what character quiet TRUE invisible pwd 并测试该功
numpy.histogram 的 hist 维度，密度 = True

假设我有这个数组 A array 0 0019879 0 00172861 0 00527226 0 00639585 0 00242005 0 00717373 0 00371651 0 00164218 0 00034572 0 008
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
如何使用 DataStax java 驱动程序增加 cassandra 中的每秒事务数 (TPS)

设置 2 节点 Cassandra 2 0 7 31 集群副本 1 DataStax java 驱动程序 2 0 Problem 我正在使用 Datastax java 驱动程序进行负载平衡我并通过 Jmeter 生成 50000 线程
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N

随机推荐

如何减少基于位置的 Android 应用程序的功耗？

如何减少应用程序的功耗我可以使用什么代码来实现这个有几种不同的方法可以减少尝试获取位置信息时所用的电量 Use the 最后已知位置 http developer android com reference android locati
HtmlAgilityPack 设置节点 InnerText

我想用其他文本替换 HTML 标签的内部文本我正在使用 HtmlAgilityPack我使用这段代码来提取所有文本 HtmlDocument doc new HtmlDocument doc Load some path foreach
Spring MVC：在表单处理操作中有多个@ModelAttribute

上下文我在两个实体之间有一个简单的关联 Category and Email NtoM 我正在尝试创建用于浏览和管理它们的网络界面要浏览类别并将电子邮件添加到该类别中我使用包含以下内容的控制器 RequestMapping带有类别 I
使用线程或异步任务的位图工厂动画

这个问题是我在这个论坛上提出的多个问题的后续问题这些问题涉及为什么我一直在尝试的动画不起作用简单回答一下之前的问题我的动画作为 2 个班级的单独项目工作但无法工作当包含在我的包含多个类的项目中时使用 finish 类关闭了导致我
如何在 Visual Studio Code 中的事件上使用 JSDoc 自定义 EventEmitter？

我一直致力于 Node js 项目只是注意到 Visual Studio Code 提供了有关基本 EventEmitter 对象的信息所以我想也应该可以为自定义提供 JSDoc 我已经尝试遵循 JSDochttp usejsdoc o
sql查询使用pivot动态添加会计月份

ALTER PROCEDURE dbo sp GetDMActivityTrackerReport CoachId VARCHAR 7 Month INT FiscalYear INT AS BEGIN INSERT FiscalMonth
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
错误：连接超时：连接

我将Android Studio 1 5 1的gradle版本从1 5更改为2 10 然后单击立即同步错误图像 https i stack imgur com E3MVE png但出现以下错误错误连接超时连接如果您使用 HTTP
c# UWP - 将字节数组转换为 InMemoryRandomAccessStream/IRandomAccessStream

我在将字节数组转换为InMemoryRandomAccessStream or IRandomAccessStream在 Windows 8 中这是我的代码但它不起作用 internal static async Task
将一个 Excel 工作表中的两列与另一工作表中的两列进行比较，如果匹配，则从另一列复制数据

我一直在考虑使用 Excel VLOOKUP 函数来完成此任务但我对此非常不熟悉我需要执行以下操作在第一张纸上 A 列和 B 列包含 3000 行名字和姓氏我需要将其与第二张纸进行比较第二张纸也有名字和姓氏第三列包含电子邮件地址
Android studio 2.3 canary 在“SDK Manager”中缺少“Launch Standalone SDK Manager”选项

我无意中接受了 android studio 的升级建议到 2 3 金丝雀尽管我一直将其设置为检查开发者频道而不是金丝雀不知何故它被切换了现在我的 SDK 管理器窗口中不再有启动独立 SDK 管理器选项我喜欢独立管理器有
仅验证选定的休息端点：spring boot

我有一个 Spring Boot Web 应用程序暴露了一些休息端点我想知道如何仅为选定的其余端点启用基本身份验证假设我只想 employee id 请求进行身份验证并忽略所有其他其余端点我正在使用以下代码我的问题是antMatc
C++ 中的 Java HashSet 等效项

我很好奇 C 中是否有类似于 Java HashSet 的东西 IE 一个快速查看的数据结构因为我只会运行 contains e 在上面同样如果你能启发我如何做 contains 无论您提出什么数据结构我都会非常感激 O 请不要发帖
服务器发送的事件在脚本完成之前不会更新

我有一个更新数据库的小脚本目前处理时间大约需要一分钟左右但是随着数据库的增加时间也会增加我想在脚本运行时向用户提供更新以便他们知道脚本的状态并且它仍在运行我实现了服务器端事件虽然它有效但在脚本完全完成之前不会将任何更新发布
如何使 TextBlock 可选择，以便用户可以复制其文本[重复]

这个问题在这里已经有答案了可能的重复有什么方法可以使 WPF 文本块可选择吗 https stackoverflow com questions 136435 any way to make a wpf textblock select
用Java从剪贴板中提取所有图像和文本

例如如果我打开浏览器并复制页面的所有文本和图像 CTRL A 然后粘贴到 Microsoft Word 中则文本和图像都会被粘贴我正在尝试编写 Java 代码从剪贴板内容中提取文本和所有图像以便在程序中使用文本图像例如稍后在
android.view.InflateException：二进制 XML 文件第 6 行：膨胀类片段时出错

应用程序启动时出现此错误我收到主题中显示的许多此类错误这些错误似乎是偶然的我无法重现它们从堆栈中我可以了解到我的不同布局资源可能会发生此类错误 XML 的行也各不相同谁能解释为什么会出现这个错误我能做些什么来解决这个问题 09
如何使用 snapshotChanges() 方法获取键值并过滤数据？

我正在开发一个 Angular Firebase 项目我需要过滤数据库并获取键值目前我正在使用值更改我的服务代码中的方法 getUnreadBooks 和 getFavouriteBooks 方法内部如下所示来获取数据并对其进行过
如何在 AS3 中设置 swf 的宽度和高度？

如何在 AS3 中设置 swf 的宽度和高度到目前为止这是我的代码 package import flash display Sprite public class Game extends Sprite 现在加载时它处于任意默认大小
通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

我一直在与sparklyr要将大型 cassandra 表带入 Spark 请使用 R 注册它们并执行dplyr对他们进行操作我已经成功导入 cassandra 表代码如下 import cassandra table into spa

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？ 的相关文章

随机推荐

热门标签

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？的相关文章