更改 Spark Streaming 中的输出文件名

2024-05-20

我正在运行一个 Spark 作业，就逻辑而言，它的性能非常好。但是，当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时，输出文件的名称格式为 part-00000、part-00001 等。有没有办法更改输出文件名？

谢谢。

在 Spark 中，您可以使用saveAsNewAPIHadoop文件并设置mapreduce.output.basenamehadoop 配置中的参数用于更改前缀（仅“部分”前缀）

val hadoopConf = new Configuration()
hadoopConf.set("mapreduce.output.basename", "yourPrefix")

yourRDD.map(str => (null, str))
        .saveAsNewAPIHadoopFile(s"$outputPath/$dirName", classOf[NullWritable], classOf[String],
          classOf[TextOutputFormat[NullWritable, String]], hadoopConf)

您的文件将被命名为：yourPrefix-r-00001

在hadoop和Spark中，输出中可以有多个文件，因为可以有多个reducer（hadoop）或多个分区（spark）。然后，您需要保证每个文件的名称都是唯一的，这就是为什么无法覆盖文件名最后部分的序列号的原因。

但如果你想更好地控制你的文件名，你可以扩展文本输出格式 or 文件输出格式并覆盖获取唯一文件 method.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

更改 Spark Streaming 中的输出文件名的相关文章

PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本

随机推荐

仅当表单已提交时才触发 jQuery 表单验证？

不引人注目的验证基于这样的想法 don t进行表单验证直到用户提交表单一旦发生这种情况如果表单上的某些内容无效那么一旦用户更改了每个字段就会立即验证它我想做的是不显眼地触发表单元素的验证也就是说 only如果用户已尝试提交
v7 RecyclerView NullPointerException AccessibilityDelegateCompat.getBridge()

运行我的 recyclerview 列表片段时出现此错误 java lang NullPointerException Attempt to invoke virtual method java lang Object android su
Typescript 接口类型值到联合类型

是否可以从打字稿中的接口获取包含所有类型值的联合类型例如当接口指定为 interface A a string b gt void c number d string e something 结果应该是 type B string gt
Perl 和 Selenium::远程::驱动程序

再次编辑我在弗吉尼亚州北部某处的 AWS 上有一台服务器这是我的监控服务器我从另一个状态 ssh 进入这个 Ubuntu 服务器来进行系统管理我想在这台服务器上进行 Web 自动化测试它将测试互联网上的 Web 应用程序点击 U
WebSocket 和 Origin 标头字段

以下引用自 RFC6455 WebSocket 协议不打算处理来自任何网页的输入但仅对于某些站点应验证 Origin 场是原点他们期望如果服务器不接受指示的来源那么它应该用回复来响应 WebSocket 握手包含 HTTP 40
如何使用 SimpleDateFormat 解析多种格式的日期

我正在尝试解析文档中的一些日期用户似乎以类似但不完全相同的格式输入了这些日期以下是格式 9 09 9 2009 09 2009 9 1 2009 9 1 2009 尝试解析所有这些内容的最佳方法是什么这些似乎是最常见的但我想让我困扰
如何在HTML中的PHP中注释掉HTML和PHP？

这是我想注释掉的一行代码 h1 class post title a href title a h1 一种流行的注释方法是分别注释 html 和 php 有一个更好的方法吗
强制用户在 Android 中的 EditText 中输入内容

我的活动中有几个编辑文本我希望我的用户在提交表单之前正确输入我该怎么做我还有旋转器和 RadioGroup 按钮你可以加验证在提交按钮上单击 private boolean validateFields int yourDesire
使用 Xamarin Forms 显示图像

Solved 答案是更新所有 nuget 软件包并针对较新版本的 Android 现在图像按预期加载我对此并不满意因为我完全使用了 Xamarin 提供的代码并且针对较新的版本已弃用了代码所依赖的一些项目初始版本是 Xamarin
对话框上的 EditText 不返回任何文本

我太累了找不到错误我没有发现任何错误但我没有从 editText 收到任何文本请看下面的代码活动密码 xml
将 null 转换为对象？

我今天遇到了这段代码 AsyncInvoke OnTimeMessageTimer object null ElapsedEventArgs null 有没有什么问题有时当方法重载时您需要这样做以告诉编译器您正在调用哪一个 null
批处理脚本 - IF EXIST 复制到 %localappdata% 错误

我似乎被批处理脚本困住了需要一些帮助基本上我需要检查文件是否存在于文件夹中 localappdata 如果确实如此则覆盖该文件如果没有放置在不同的位置那么目前它的内容如下 IF EXIST localappdata foldern
void ** 通用指针？

void 是一个通用指针但是呢void Is void 也是一个通用指针我们可以打字吗void to int char 等等我将感谢堆栈溢出家族提供有关此的任何信息 No void 是一个指向void 没有别的仅有的void 其作用
webhook 和 websocket 之间的区别？

我一直想进行实时聊天几年前我用 PHP Ajax Mysql 完成了这个任务并破坏了我的服务器然后我尝试使用 Flash 文本文件我放弃了 10年没有尝试过但最近我听说了 webhooks 和 websockets 它们似乎都是做
BLE 堆栈的开源实现

除了 BlueZ 和 Bluedroid 之外还有其他 BLE 堆栈的开源实现吗有几个开源 BLE 堆栈 NimBLE http mynewt apache org network ble ble intro Apache mynewt
xcode 4 中的 uitabbarcontroller 已更改

我最近升级到 xcode 4 我的应用程序使用 tabbarcontroller 在旧的 xcode 3 x 中您可以根据此屏幕截图将选项卡更改为不同类型根据我在研究这个问题时收集到的信息 xcode 4 不再提供此功能我错过了什么吗
运算符 string() { some code } 的作用是什么？

我在一个类中有以下代码 operator string return format CN d fd 并想知道这个操作员是做什么的我熟悉常用的字符串运算符 bool operator const string c1 const string
使用库来维护免费/付费的应用程序版本

维护免费付费应用程序版本的共识似乎是使用库并从每个活动中设置一个标志以从代码库中获取不同的功能这有多安全据我了解一个人可以root他们的手机获取APK 并且可以对其进行反编译即使代码被混淆也不难看出该应用程序是带有标志的包
Swift getnameinfo IPv6 结果不可靠

我有以下扩展sockaddr extension sockaddr Indicates if this is an IPv4 address var isIPv4 Bool return sa family UInt8 AF INET In
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢

更改 Spark Streaming 中的输出文件名

更改 Spark Streaming 中的输出文件名 的相关文章

随机推荐

热门标签

更改 Spark Streaming 中的输出文件名的相关文章