Spark 向 S3 写入/读取 - 分区大小和压缩

2024-04-13

我正在做一个实验来了解哪种文件大小对于 s3 和 [EMR + Spark] 表现最好

输入数据：

Incompressible data: Random Bytes in files 
Total Data Size: 20GB  
Each folder has varying input file size: From 2MB To 4GB file size.

集群规格：

1 master + 4 nodes : C3.8xls
--driver-memory 5G \
--executor-memory 3G \
--executor-cores 2 \
--num-executors 60 \

Code :

scala> def time[R](block: => R): R = {
          val t0 = System.nanoTime()
          val result = block    // call-by-name
         val t1 = System.nanoTime()
          println("Elapsed time: " + (t1 - t0) + "ns")
          result
      }
time: [R](block: => R)R

scala> val inputFiles = time{sc.textFile("s3://bucket/folder/2mb-10240files-20gb/*/*")};
scala> val outputFiles = time {inputFiles.saveAsTextFile("s3://bucket/folder-out/2mb-10240files-20gb/")};

观察结果

2MB - 32MB：大部分时间花在打开文件句柄上[效率不高]

64MB 到 1GB：Spark 本身针对所有这些文件大小启动了 320 个任务，不再是 20GB 的存储桶中的文件数量数据例如512 MB 文件有 40 个文件可构成 20 GB 数据，并且可以原本只有 40 个任务需要完成，但实际上却有 320 个
每个任务处理 64MB 数据。

4GB 文件大小：输出 0 字节 [无法处理内存/数据甚至不可分割？？？]

问题

任何强制将输入大小处理为 64MB 的默认设置？

由于我使用的数据是随机字节并且已经被压缩，它如何进一步分割这些数据？如果它可以分割此数据为什么它不能分割 4GB 目标文件的文件大小尺寸？

为什么通过spark上传后压缩文件大小会增加？ 2MB 压缩输入文件在输出存储桶中变为 3.6 MB。

由于未指定，我假设在我的答案中使用 gzip 和 Spark 2.2。

任何强制将输入大小处理为 64MB 的默认设置？

就在这里。 Spark 是一个 Hadoop 项目，因此将 S3 视为基于块的文件系统，即使它是基于对象的文件系统。所以这里真正的问题是：您使用的是哪种 S3 文件系统的实现（s3a，s3n）等。可以找到类似的问题here https://stackoverflow.com/questions/37168716/how-many-partitions-does-spark-create-when-a-file-is-loaded-from-s3-bucket.

由于我使用的数据是随机字节并且已经被压缩，它如何进一步分割这些数据？如果它可以分割此数据，为什么它不能分割 4GB 目标文件大小的文件大小？

Spark 文档 http://spark.apache.org/docs/latest/programming-guide.html表明它能够读取压缩文件：

Spark 的所有基于文件的输入方法（包括 textFile）都支持在目录、压缩文件和通配符上运行。例如，您可以使用textFile(“/my/directory”)、textFile(“/my/directory/.txt”)和textFile(“/my/directory/.gz”)。

这意味着您的文件很容易被读取并转换为每行的纯文本字符串。

但是，您正在使用压缩文件。假设是gzip等不可分割的格式，则需要整个文件来解压。您正在使用 3gb 执行程序运行，它可以很好地满足 4mb-1gb 文件的需求，但无法一次处理大于 3gb 的文件（考虑到开销后可能会更小）。

一些进一步的信息可以在这里找到question https://stackoverflow.com/questions/40492967/dealing-with-a-large-gzipped-file-in-spark。可分割压缩类型的详细信息可以在此处找到answer https://stackoverflow.com/a/34209281/2996373.

为什么通过 Spark 上传后压缩文件大小会增加？2MB 压缩输入文件在输出存储桶中变成 3.6 MB。

作为上一点的推论，这意味着 Spark 在以明文形式读取时已解压缩 RDD。重新上传时，不再压缩。要压缩，您可以传递压缩编解码器作为参数：

sc.saveAsTextFile("s3://path", classOf[org.apache.hadoop.io.compress.GzipCodec])

还有其他可用的压缩格式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 向 S3 写入/读取 - 分区大小和压缩的相关文章

Cloudformation 堆栈在执行所有用户数据之前显示为完整

在我的 cloudformation 堆栈中我有一个启动配置它在用户数据中运行 ansible 脚本这里的问题是我的堆栈状态显示CREATE COMPLETE即使 ansible 脚本尚未完成执行在我 ssh 进入 ec2 实例后
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
kubernetes + coreos 集群 - 替换证书

我有一个 coreos kubernetes 集群我是按照这篇文章开始的 AWS 上的 kubernetes coreos 集群 https coreos com kubernetes docs latest kubernetes on
AWS Cognito / 从子节点获取用户信息

我有一个使用 AWS Cognito AWSMobileClient 的工作 iOS 应用程序用户可以使用 AWSAuthUI 登录和登录注销接下来我想做的是拥有另一个用户的子例如 7y873ff7 u9h4k 我想从其他用户那里
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
使用 AWS Lambda 从 AWS S3 读取并提取巨大的 zip 文件

我正在开发数据管理应用程序客户可以上传zip file approx 250 MB 与多个text files approx 1500 MB on AWS S3 但由于记忆有限aws lamda 最大 1536MB 大小我能够提取 50
AWS ACM 证书管理删除正在使用的证书

我想删除 AWS Certificate Manager 中正在使用的 AWS 证书为此我使用建议的 AWS CLI 和以下命令 aws iam delete server certificate server certificate
如何使用 aws-cli 访问 Google Cloud Storage 存储桶

我可以访问 aws 和 Google Cloud Platform 是否可以执行以下操作使用 aws cli 列出 Google Cloud Storage 存储桶使用 aws cli 将 CSV 文件放入 Google Cloud S
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何找到 api gateway stage 的 arn？

我正在尝试使用 awscli 将标签添加到我的 api 网关阶段https docs aws amazon com cli latest reference apigateway tag resource html https docs a
如何将 AWS Kinesis Video Stream GetMedia API 输出解码为 mp3/wav？

我现在使用 GetMedia API 通过 AWS Connect 服务将数据提取到 Kinesis Video Stream KVS 我能够提取Payload但如何将此输出转换为 mp3 wav 我想将此输出提取到 AWS Transcr
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
谷歌应用程序引擎 urlfetch gzip 到字符串

使用 Google App Engine 我尝试从包含一个 csv 文件的 URL 中获取 gzip 文件最终我想在我的网页上输出csv文件的内容我现在有以下代码 usr bin env python import webapp2 fr
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
AWS CDK 授予堆栈外部资源的权限

我对 AWS CDK 相当陌生并且没有太多使用 AWS 的经验在我正在编写的 CDK 堆栈中我必须向使用其他 CDK 模板构建且已位于 aws 中的资源授予权限假设我的堆栈 A 包含一个 lambda 该 lambda 将从另一个服
在 S3 中迭代对象时出现“ConnectionPoolTimeoutException”

我已经使用 aws java API 一段时间了没有遇到太多问题目前我使用的是库 1 5 2 版本当我使用以下代码迭代文件夹内的对象时 AmazonS3 s3 new AmazonS3Client new PropertiesCred
Amazon SageMaker 不支持的内容类型应用程序/x-image

我在 Sagemaker 中部署了基于 TensorFlow keras 的 CNN 模型现在为了调用推论我遵循了这个tutorial https aws amazon com blogs machine learning classi

随机推荐

如何使用 mysql 从 php 中的表中返回多行

我决定为我的家人建立一个梦幻足球网站但我无法从数据库返回多行我想要的进行一次 sql 调用并获取整个玩家列表以便我可以填充一个对象或对象列表如果整个桌子都可以归还那就太好了我的目标是简单地向用户显示待选秀的可用球员列表目前通
正则表达式 - 贪婪 - 匹配 HTML 标签、内容和属性

我正在尝试匹配 HTML 源中的特定 span 标签 lang 属性和标签的内部 HTML 用作返回新字符串的函数的参数我想用被调用函数的结果替换旧的标签属性和内容主题大概是这样的 p Some codesnippet p span
Javascript - 从数组中弹出一个值，但不在数组末尾

例如我有一个名为 pvalue 的数组每个数字都是单数没有重复的 1 2 3 15 20 12 14 18 7 8 sizeof 10 例如我需要弹出值 15 在此之后的 pvalue 应该是 1 2 3 20 12 14 18 7
python中可以使用socket连接不同网络上的多台计算机吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我一直在互联网上寻找答案但到目前为止还没有找到我对网络非常陌生所以请接受我对此几乎一无所知我能够使用套接字在 LAN 网络上的
disableOpenGesture 隐藏不起作用导航抽屉本机反应

我们在应用程序中使用导航抽屉来显示侧面菜单在一些屏幕中一旦用户尝试执行左右手势我们就不想显示此导航抽屉因此为此我们试图隐藏特定的屏幕手势导航抽屉但它不起作用当用户滑动左右时抽屉仍然打开 const AppNav
我的 iPad 应用程序会导致设备重新启动吗？

我有一个 iPad 应用程序它有一个下载大量地图文件几千兆数据和数十万个文件的过程在我最近的测试版本中设备有时会在下载过程中重新启动下载可能需要几个小时当应用程序重新启动时它不会留下崩溃报告我们在运行 4 3 3 的 iP
将现场音频从线路输入路由到 AirPods？

有没有办法将来自有线线路输入的音频直接路由到 AirPods 目前我正在创建一个 playAndRecord音频会话已配对 AirPods 后来与AVAudioEngine我将输入设备直接连接到输出设备 engine connect
从 R 调用时，Libreoffice 给出“应用程序错误”

在 docker 容器内我尝试使用 LibreOffice 将 XLSX 文件转换为 PDF 相关命令在命令行上运行但从 R 调用时失败并显示应用程序错误我使用这个Dockerfile它添加了一些根据我的经验任意 XLSX 文件
多个 NSFetchedResultsController - didChangeObject

我有一个UITableView其中使用 2NSFetchedResultsControllers Each NSFetchedResultsController只有一节但是该表有 4 个部分我用其中一项的结果填充表的第四部分NSFet
使用带有空格的 CMake 的 include_directories 命令

我正在使用 CMake 来构建我的项目并且有以下行 include directories LLVM INCLUDE DIRS 评估后LLVM INCLUDE DIRS 评估为 include directories C Program
JAX 仅在 jit 下的数组切片上应用函数

我正在使用 JAX 我想执行类似的操作 jax jit def fun x index x index other fun x index return x 这不能在以下情况下执行jit 有没有办法做到这一点jax ops or jax l
如何使用javascript（JQuery）模拟用户按下Ctrl“加号”加号或减号？

如果我单击锚链接来模拟就像我按下了一样这可能吗 Ctrl 键盘上的按键或 Mac 上的等效键如果是的话您能告诉我该怎么做吗就像是 a href Ctrl a 如果您只想模拟 CTRL 鼠标滚轮缩放功能的行为可以使用 CSS3
mypy，类型提示：Union[float, int] -> 是否有 Number 类型？

mypy 确实很方便并且捕获了很多错误但是当我编写科学应用程序时我经常最终会这样做 def my func number Union float int Do something number是 float 或 int 具体取决于用
我可以在 UIWebView Delegate 中处理警报吗？

我可以看到我的 UIWebView 内的警报消息 but 我能处理这种情况吗 Update 我正在将网页加载到我的 UIWebView 中 void login NSString requestText NSString alloc ini
Servlet 过滤器 - 来自 Servlet 的转发请求是否会进入 Servlet 过滤器？

If any J2EE应用程序直接点击servlet 然后servlet将相同的请求转发给某些应用程序 jsp page request getRequestDispatcher Login jsp forward request resp
如何从多个类继承

假设我有一个狮鹫对象它需要成为猫科动物和鸟类类别的一部分我该怎么做我一次只能让它继承 1 个类这可能会有所帮助多重继承不存在天生的多重继承当然有些人认为这是一个好处为了解决这个问题你可以创建一个复合类即一个类的实例变量是
将窗口对象传递到 Javascript 命名空间

我试图更好地理解 javascript 中的命名空间并找到了一个 javascript 立即调用函数表达式的示例该表达式将窗口对象作为参数这是其中的代码 var CG CG CG main function window var FO
ReSharper 10 测试运行程序无法找到从外部文件引用的 AppSettings

我最近升级到 Visual Studio 2013 的 ReSharper 10 0 1 我的单元测试项目包含一个 app config 文件其中包含以下内容
Bootstrap 4：响应式图片+裁剪？

我目前正在尝试从头开始学习 Bootstrap 4 到目前为止我已经能够很好地处理其有限的文档我把初始项目放在这里 http codepen io kriszap pen GWWvLW http codepen io kriszap p
Spark 向 S3 写入/读取 - 分区大小和压缩

我正在做一个实验来了解哪种文件大小对于 s3 和 EMR Spark 表现最好输入数据 Incompressible data Random Bytes in files Total Data Size 20GB Each folder

Spark 向 S3 写入/读取 - 分区大小和压缩

Spark 向 S3 写入/读取 - 分区大小和压缩 的相关文章

随机推荐

热门标签

Spark 向 S3 写入/读取 - 分区大小和压缩的相关文章