如何在两个应用程序之间共享 Spark RDD 的数据

2023-12-06

在两个 Spark 作业之间共享 Spark RDD 数据的最佳方式是什么？

我有一个案例，作业 1：Spark 滑动窗口流应用程序将定期消耗数据并创建 RDD。我们不想将其持久化到存储中。

作业 2：查询作业将访问作业 1 中创建的相同 RDD 并生成报告。

我很少看到他们建议 SPARK Job Server 的查询，但由于它是开源的，不确定它是否是一个可能的解决方案，但任何指针都会有很大的帮助。

谢谢！

简而言之，你不能在作业之间共享 RDD。共享数据的唯一方法是将数据写入 HDFS，然后将其拉入其他作业。如果速度是一个问题，并且您想要维持恒定的数据流，您可以使用 HBase，这将允许从第二个作业进行非常快速的访问和处理。

为了获得更好的想法，您应该看这里：

序列化 RDD

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

sharing

如何在两个应用程序之间共享 Spark RDD 的数据的相关文章

带有 HTML 的 UIActivityViewController

当我将包含 HTML 内容的字符串作为数组元素传递给UIActivityViewController initWithActivityItems方法中它不会在选定的共享控制器中将其呈现为 HTML 而是呈现 HTML 源即标记而不是
在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
如何在 AWS S3 中保存和使用 Spark History Server 日志

我想在AWS S3中记录和查看Spark历史服务器的事件日志以下是spark defaults conf中记录的属性 spark hadoop fs s3a impl org apache hadoop fs s3a S3AFileSys
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
简单的 C# 屏幕共享应用程序

我希望用 C 创建一个非常基本的屏幕共享应用程序无需远程控制我只希望用户能够将他们的屏幕广播到网络服务器我应该如何实施这个任何指向正确方向的指针将不胜感激它不需要很高的 FPS 甚至更新 5 秒左右就足够了您认为每隔 5 秒上传
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
通过 WhatsApp 发送消息

由于我发现了一些较旧的帖子表明 Whatsapp 不支持此功能我想知道是否发生了变化以及是否有办法打开与我通过意图发送的号码进行 Whatsapp 聊天 UPDATE请参阅https faq whatsapp com en andro
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m

随机推荐

如何杀死 goroutine？ [复制]

这个问题在这里已经有答案了我想知道如何杀死停止 goroutine 所有示例都基于通道和选择这似乎只有在 goroutine 包含一些可以在通道上监听的重复任务时才有效有没有办法在下面的 goroutine 返回之前停止它 pack
使用认知登录而不是证书来验证和订阅 aws IoT MQTT 主题？

我是 AWS 的新手我正在尝试弄清楚我的用例是否可行我想创建一个移动应用程序用户可以登录电子邮件 facebook google 等然后订阅 aws IoT 上的一些 MQTT 主题以接收园艺系统的实时传感器数据 AWS 上有很
使用循环提取一系列整数

我有一些数据想要提取整数出现的频率这是一些示例数据 df lt read table header T text A B C D 1 1 5 3 1 2 1 2 3 2 3 2 3 5 3 4 1 4 5 3 5 3 1 4 2 6 5
PostgreSQL 逻辑复制在 CREATE SUBSCRIPTION 上挂起

我在 PostgreSQL 逻辑复制版本 15 上遇到问题我也在 v10 和 v12 上进行了测试但遇到了同样的问题它需要复制来进行测试因此源数据库和目标数据库位于同一服务器上在我设置的配置文件中 postgresql conf
在两个用户控件和主窗体之间传递对象

因此我有一个用作导航栏的主窗体和两个显示一些控件的用户控件 In UserControlsA我有一些字段需要填写使用这些数据我创建了一个包含一些信息的对象我需要将该对象传递给UserControlsB所以我可以在那里显示一些数据我
正则表达式是测试 url 的好方法吗

我正在尝试测试使用 php5 输入的 url 的有效性我想过使用正则表达式但假设它始终正常工作它只能解决 url 在语法上有效的问题它没有告诉我有关网址正确或有效的任何信息如果可能的话我正在尝试寻找另一种解决方案来同时完成这两件
带参数改造post请求

我正在使用邮递员扩展来发送请求我想对 android 提出同样的请求我使用改造库来实现我的目标但我无法获得成功的结果我的代码错误在哪里 Postman 我的界面 public interface Interfacem FormUrl
项目控件将其自身从容器控件中删除

有一个容器控件 TScrollBox 它是多个项目控件的父控件每个项目控件本身都是复合的包含父级和拥有一个删除按钮按下该按钮将启动项目控件的删除删除涉及释放组件因此实际操作应该与该项目无关问题是最好的方法是什么我实际上知
OCaml 与非常量的模式匹配

是否可以对变量而不是常量值进行模式匹配 let x 2 in let y 5 in match 2 with x gt foo y gt bar gt baz let y 5 in Warning 26 unused variable y
如何在导出xml中添加DOCTYPE？

我使用 PHP 导出了一个 xml 文件 xmldoc new DOMDocument xmldoc gt formatOutput true xmldoc gt encoding Shift JIS create root nodes r
与Subject在组件之间共享数据

我正在尝试在 Angular 6 中的两个组件之间与主题共享数据不知怎的它不起作用我不知道为什么我需要通过单击将数据从compare component 传递到profile component 当我点击时数据没有传递但不知怎的
EOFError：读取一行时出现EOF

我正在尝试定义一个函数来制作矩形的周长这是代码 width input height input def rectanglePerimeter width height return width height 2 print rectan
如何用java在现有PDF中添加空白页？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我有普通的 PDF 文件我想使用在 PDF 末尾插入空白页itext LIBRARY
如何使用 HTML/JavaScript 捕获客户端“桌面”部分的屏幕截图？

我知道如何捕获网页但我想问如何捕获桌面或桌面中的其他应用程序如果有办法突出显示屏幕的某些部分就像 html2canvas 对网页所做的那样我们可以使用 HTML JS 中的浏览器应用程序为桌面应用程序做一些事情吗对的这是可能的
不使用 GROUP_CONCAT 的原因？

我刚刚发现了这个非常有用的 MySQL 函数GROUP CONCAT 它对我来说似乎非常有用并且过于简单化以至于我实际上害怕使用它主要是因为我开始网络编程已经有一段时间了而且我从未在任何地方见过它一个很棒的用法示例如下 Table
Android OnTouch 和 OnClick 的区别

有什么区别吗OnTouchListener and OnClickListener 我不是从编程的角度来问而是从用户体验的角度来问使用哪一个更好我们需要两者都实施吗使用哪一个更好这实际上取决于您的要求 onTouch为您提供运动事
语言/操作系统之间的进程间通信

我正在寻找一种进程间通信工具可以在相同或不同系统上运行的语言和或环境之间使用例如它应该允许在 Java C 和或 C 组件之间发送信号并且还应该支持某种排队机制唯一明显与环境和语言无关的设施是文件但我认为这会太慢并且严格的
如何在 webview 组件中检索 Javascript 函数值

如何从 webview 组件中加载的网页中检索 Javascript 函数值你不能直接您可以通过以下方式调用 Javascript 函数loadUrl javascript where 是你的函数调用但是您无法通过这种方式得到结果
为什么 snprintf 在打印单个数字时始终比 ostringstream 快 2 倍？

我正在测试各种格式化方法doubleC 中的 s 这是我想出的一些代码 include
如何在两个应用程序之间共享 Spark RDD 的数据

在两个 Spark 作业之间共享 Spark RDD 数据的最佳方式是什么我有一个案例作业 1 Spark 滑动窗口流应用程序将定期消耗数据并创建 RDD 我们不想将其持久化到存储中作业 2 查询作业将访问作业 1 中创建的相同 RD

如何在两个应用程序之间共享 Spark RDD 的数据

如何在两个应用程序之间共享 Spark RDD 的数据 的相关文章

随机推荐

热门标签

如何在两个应用程序之间共享 Spark RDD 的数据的相关文章