如何将 RDD 保存到 HDFS 中并稍后将其读回？

2024-03-12

我有一个 RDD，其元素类型为（Long、String）。由于某种原因，我想将整个 RDD 保存到 HDFS 中，然后在 Spark 程序中读回该 RDD。可以这样做吗？如果是这样，怎么办？

有可能的。

在RDD中你有saveAsObjectFile and saveAsTextFile功能。元组存储为(value1, value2)，以便您稍后可以解析它。

阅读可以通过textFile来自 SparkContext 的函数，然后.map消除()

所以：版本1：

rdd.saveAsTextFile ("hdfs:///test1/");
// later, in other program
val newRdds = sparkContext.textFile("hdfs:///test1/part-*").map (x => {
    // here remove () and parse long / strings
})

版本2：

rdd.saveAsObjectFile ("hdfs:///test1/");
// later, in other program - watch, you have tuples out of the box :)
val newRdds = sparkContext.sc.sequenceFile("hdfs:///test1/part-*", classOf[Long], classOf[String])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

HDFS

RDD

Bigdata

如何将 RDD 保存到 HDFS 中并稍后将其读回？的相关文章

Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
使用 scala 在 Flink 中进行实时流预测

弗林克版本 1 2 0斯卡拉版本 2 11 8 我想使用 DataStream 来使用 scala 中的 flink 模型进行预测我在使用 scala 的 flink 中有一个 DataStream String 其中包含来自 kafka
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
向 Scala Swing Panel 添加标签时出现类型不匹配错误

我有这个课程扩展FlowPanel我正在尝试向其中添加标签 import java awt Label Color import scala swing import scala util Random class MyPanel exte
您可以为 None 指定类型参数或告诉编译器它是一个 Option[String] 吗？

我想知道我是否可以在我的代码中写这样的东西 None String 我很惊讶没有人提到它的存在Option empty scala gt Option empty String res0 Option String None 请注意在许多
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
到底什么是单例类型？

什么是单例类型有什么应用和影响我们非常欢迎示例更欢迎外行术语如果将类型视为一组值则值的单例类型x是仅包含该值的类型 x 用法示例模式匹配 case Foo type检查匹配的对象是否与Foo using eq where cas
Shapeless 和 gremlin scala：如何返回调用 `as` 的结果？

所以我调用这个函数as from gremlin scala case class GremlinScala End Labels lt HList traversal GraphTraversal End def as name Str
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
Flink：Jobmanager UI 中设置的并行度与任务槽有何关系？

假设我有 8 个任务管理器和 16 个任务槽如果我使用 Jobmanager UI 提交作业并将并行度设置为 8 我是否只使用 8 个任务槽如果我有 8 个具有 8 个槽位的任务管理器并以并行度 8 提交相同的作业该怎么办是完全一
将字符串转换为枚举值的 Scala 安全方法

假设我有枚举 object WeekDay extends Enumeration type WeekDay Value val Mon Tue Wed Thu Fri Sat Sun Value 我希望能够将 String 转换为 Wee
META-INF/服务应该在 sbt 中的哪里

META INF 目录应该放在哪里以便 sbt 获取自定义配置我在尝试使用 ServiceLoader 时遇到了这个问题并且我试图在 META INF services 中创建自定义服务如果您将 META INF 文件夹放在 src
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
在案例类中重载 unapply 方法：scala

考虑下面的代码 case class User id Int name String object User def unapply str String Some User 0 str Scala 抱怨错误无法解析重载未应用案例类

随机推荐

OnPaint() 内部的 Graphics.Clear() 有时会导致一般 GDI+ 错误

我正在开发一个应用程序其中客户每隔几个月就会遇到一个问题他们可以通过重新启动应用程序来解决该问题堆栈跟踪始终指向重写的第一行类继承自Control OnPaint 调用的方法e Graphics Clear 我在微软的文档中读到 C
以编程方式求解方程组？ [复制]

这个问题在这里已经有答案了可能的重复 C 中的线性方程组 https stackoverflow com questions 2474432 system of linear equations in c 我有以下两个方程组对于 a b
在具有 4.14 内核的 IMX6 上使用 vivante GPU

我正在使用 yocto rocko Linux 4 14 24 开发 IMX6QP 并尝试使用 GPU 我的 yocto 配置文件 MACHINE imx6qp tx6 emmc DL DIR BSPDIR downloads SSTATE
在 C++14 中推导“auto”之前使用“auto func(int)”

我使用 GCC 编译了以下程序C 14 include
用于打开 powerpoint 并播放幻灯片的 Powershell 脚本

嘿谁能告诉我如何打开powerpoint并播放幻灯片我有以下代码但它不起作用 ppAdvanceOnTime 2 ppShowTypeKiosk 3 ppSlideShowDone 5 Add type AssemblyName off
找到最大编号的最快且最有效的方法。可以通过对数组的 2 个不同元素执行按位与来获得

给定一个非负整数数组找到最大数的最快最有效的方法是什么可以通过对数组的 2 个不同元素执行按位与即运算符来获得到目前为止这是我的代码 max 0 for i 0 i
Django：更有效地从多对多关系中删除项目

我的图书类使用多对多字段来拯救读者如果我想从某些书中删除读者我可以使用循环遍历所有书籍对象以删除读者但这太慢了可以批量操作吗 class Book models Model readers models ManyToManyFiel
MySQL按某种类型分组并选择最新行？

想象一个包含类型日期消息列的表有些行看起来像这样类型日期消息 1 1310572318 Hello 1 1310572317 Hi 2 1310572315 Wassup 3 1310572312 Yo 3 1310572311
使用 C# sdk/api 将歌曲添加到 itunes

我正在寻找一个 SDK 或 API c 可以让我将歌曲添加到我的 iTunes 库中如果有人知道的话那将是一个很大的帮助 iTunes COM 库 http developer apple com SDK 但它需要 COM 互操作不过
有什么办法可以防止控制台应用程序关闭吗？

有什么办法可以阻止控制台应用程序关闭吗用户无法关闭程序看看Win32控制台API http msdn microsoft com en us library ms682073 VS 85 aspx 您可以尝试创建一个窗口非控制台应用程
通过 DOM 函数附加新元素，还是使用 HTML 标签附加字符串，哪个更好？

我见过一些向 DOM 添加元素的不同方法例如最流行的似乎是 document getElementById foo innerHTML p Here is a brand new paragraph p or newElement do
Azure 文本转语音由于请求太多而受到限制 websocket 错误代码：1007，只有 3 个并发请求

我正在使用 Azure 文本转语音服务我有很多小的 ssml 文件我为其生成音频然后使用 FFMPEG 将它们组合起来我编写了一个脚本来生成所有小音频文件如果脚本发出 3 个并发请求那么在总共大约 20 个请求之后其他一些请求
Eslint（无未使用的表达式）

我使用三元表达式来更改玩家效果很好 ESLint 给了我这个错误 https eslint org docs rules no unused expressions https eslint org docs rules no unuse
如何从列表中删除相似的字符串？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案从列表中删除相似字符串的有效方法是什么考虑一个List
Laravel 8 中使用用户名和密码进行身份验证时出现问题

我最近开始使用 Laravel 8 我尝试同时使用用户名和电子邮件登录但我不知道该怎么做在 Laravel 7 中我可以使用 protected function credentials Request request field fi
计算给定范围内具有唯一数字的所有数字

这是一道面试题计算 1 N 范围内具有唯一数字十进制的所有数字显而易见的解决方案是测试范围内的每个数字是否唯一我们还可以生成具有唯一数字的所有数字作为排列并测试它们是否在范围内现在我想知道这个问题是否有DP 动态规划解决方
如何使用 Robolectric 测试片段？

我知道有一个Robolectric shadowOf Fragment 方法和一个ShadowFragment类认为它们没有在文档中列出但我无法使其工作 myFragment new MyFragment myFragment onCr
在 ggplot2 中 - 使用 xlim() 控制 x 轴时如何确保 geom_errorbar 显示所有点的条形限制

我在用ggplot2生成一个相对于整数值预测变量的相当简单的比例图我使用 geom errorbar 显示每个点估计的不确定性 e g require ggplot2 mydata lt data frame my x 70 99 my
JavaScript：解析字符串布尔值？ [复制]

这个问题在这里已经有答案了 JavaScript 有parseInt and parseFloat 但是没有parseBool or parseBoolean据我所知全局范围内的方法我需要一个方法它接受具有 true 或 false
如何将 RDD 保存到 HDFS 中并稍后将其读回？

我有一个 RDD 其元素类型为 Long String 由于某种原因我想将整个 RDD 保存到 HDFS 中然后在 Spark 程序中读回该 RDD 可以这样做吗如果是这样怎么办有可能的在RDD中你有saveAsObjectFi

如何将 RDD 保存到 HDFS 中并稍后将其读回？

如何将 RDD 保存到 HDFS 中并稍后将其读回？ 的相关文章

随机推荐

热门标签

如何将 RDD 保存到 HDFS 中并稍后将其读回？的相关文章