为什么 Spark 在字数统计时速度很快？ [复制]

2024-04-15

测试用例：Spark 在 20 秒以上对 6G 数据进行字数统计。

我明白映射减少, FP and stream编程模型，但无法弄清楚字数统计的速度如此惊人。

我认为这种情况下是I/O密集型计算，不可能在20秒以上扫描6G文件。我猜想在字数统计之前会执行索引，就像 Lucene 那样。魔法应该在RDD（弹性分布式数据集）我不太理解的设计。

如果有人能解释我很感激RDD对于字数统计的情况。谢谢！

首先是启动时间。 Hadoop MapReduce 作业启动需要启动多个单独的 JVM，速度并不快。 Spark 作业启动（在现有 Spark 集群上）会导致现有 JVM 分叉新任务线程，这比启动 JVM 快数倍

接下来，没有索引，也没有魔法。 6GB 文件存储在 47 个块中，每个块 128MB。想象一下，您有一个足够大的 Hadoop 集群，所有这 47 个 HDFS 块都驻留在不同的 JBOD HDD 上。它们中的每一个都将为您提供 70 MB/秒的扫描速率，这意味着您可以在大约 2 秒内读取此数据。通过集群中的 10GbE 网络，您只需 7 秒即可将所有这些数据从一台计算机传输到另一台计算机。

最后，Hadoop 多次将中间数据放入磁盘。它把map至少一次输出到磁盘（如果地图输出很大并且发生磁盘合并，则输出更多次）。下次将数据写入磁盘reduce之前的一侧reduce本身被执行。 Spark 在运行期间仅将数据写入 HDD 一次shuffle阶段，参考 Spark 实现建议增加文件系统写入缓存，以免此“随机”数据命中磁盘

与 Hadoop 相比，所有这些都为 Spark 带来了巨大的性能提升。 Spark RDD 中没有与此问题相关的魔法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Spark 在字数统计时速度很快？ [复制] 的相关文章

SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
使用 awk 处理多个文件

我必须使用 awk 处理大量 txt 文件每个文件 1600 万行我必须阅读例如十个文件 File 1 en sample 1 200 en n sample 2 10 en sample 3 10 File 2 en sample 1
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
使用 SqlBulkCopy 和 Azure 并行批量插入

我在云上有一个带有 sql azure 数据库的 azure 应用程序我有一个辅助角色需要对文件最多约 3000 万行进行解析处理因此我无法直接使用 BCP 或 SSIS 我目前正在使用 SqlBulkCopy 但这似乎太慢了
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
从第二个 DF 中查找一个 DF 中属于同等大小的矩形（由两个点给出）的点的快速（矢量化）方法

我的数据框 A 如下所示 type latw lngs late lngn 0 1000 45 457966 9 174864 45 458030 9 174907 1 1000 45 457966 9 174864 45 458030 9
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
编写openCL代码时，在没有GPU的单核机器上表现如何？

大家好我目前正在将光线追踪器从 FORTRAN 77 移植到 C 语言以进行研究项目移植了要点之后问题是我们如何进行并行化在实验室中我可以使用几台不同的 Opteron 机器具有 2 到 8 个内核但没有 GPU 目前我们正
如何在 bash 脚本中使用并行编程/多线程？

这是我的脚本 bin bash script to loop through directories to merge fastq files sourcedir path to source destdir path to dest fo
我们可以使用什么方法来重塑非常大的数据集？

当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
如何并行执行4个shell脚本，我不能使用GNU并行？

我有4个shell脚本dog sh bird sh cow sh和fox sh 每个文件使用 xargs 并行执行 4 个 wget 来派生一个单独的进程现在我希望这些脚本本身能够并行执行由于某些我不知道的可移植性原因我无法使用 GN
并发集合和独特元素

我有一个并发BlockingCollection具有重复的元素如何修改它以添加或获取不同的元素默认后备存储BlockingCollection is a ConcurrentQueue 正如其他人指出的那样使用它来添加不同的项目相当困
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何使用 ejabberd 进行视频通话？

如何使用ejabberd进行视频通话如msn和skype ejabberd 本身不处理音频视频音频和视频通过 Jingle XEP 0166 进行处理这是客户端到客户端的如果您想发出音频或视频呼叫您应该确保两个客户端都通过正常的

随机推荐

打造 ecto 独一无二的领域

如何制作一个字段unique在体外我以为它和Ruby中的活动记录一样但似乎不是你想使用唯一约束 3 http hexdocs pm ecto Ecto Changeset html unique constraint 3 这与 Act
如果 MySQL 中的行不存在，则添加到该行

当向表中添加一行时但首先检查它是否存在哪种处理方法最有效是否是查询是否存在的情况如果不存在则插入或者重复使用或者简单地替换如果该行不存在这会起作用吗 Thanks 我认为这是 MySQL 中最快的方法 REPLACE int
不可变类型：公共最终字段与 getter

我需要一个小的容器类来存储一些应该不可变的字符串由于 String 本身是不可变类型所以我想到了类似的东西 public final class Immu public final String foo public final Str
从 airodump-ng 读取实时输出

当我执行命令 airodump ng mon0 gt gt output txt 时 output txt 为空我需要能够运行 airodump ng mon0 并在大约 5 秒后停止该命令然后才能访问其输出有什么想法我应该从哪里开始
如何以良好的格式结果格式化 python 列表

我有很多列表如下所示通过打印data并将其与字符串连接起来check str如下最后一条语句所示需要帮助以在字符串连接后更好地格式化列表值如预期所示 print data printing lists in this variabl
图像上的文本没有绝对位置

我正在尝试在页面中间的图像上放置一些文本我看到一个这样的例子 img src image png p p p p
在 docker 容器上保存配置

我创建了 2 个 docker 容器并尝试在 ubuntu debian 上安装一些应用程序和一些软件包如 mc ping traceroute 但每当我退出容器时我都会丢失其中的所有内容是否有任何 docker 命令可以保存我的配
从具有特定模式的 txt 文件创建 Pandas DataFrame

我需要基于以下结构的文本文件创建一个 Pandas DataFrame Alabama edit Auburn Auburn University 1 Florence University of North Alabama Jackson
.NET Framework 全局程序集缓存在哪里？

我安装了 VS2010 和 NET 4 0 然后编译了一个程序集并使用可用的 exe 运行 gacutil ProgramFiles Microsoft SDKs Windows v7 0A Bin NETFX 4 0 Tools 可执行文
如何在 R 中重新格式化表格？

我加载了一个这样的表 V1 V2 V3 pat1 1 2 pat1 3 1 pat1 4 2 pat2 3 3 pat3 1 4 pat3 2 3 我需要将其格式化为如下所示其中 V1 表示行 V2 表示列 V3 中的值 1 2 3 4
Android 中未接来电的广播接收器

有谁知道未接来电的意图是什么实际上我想在我的应用程序中发送有关未接来电和来电的短信您需要使用 ContentObserver public class MissedCallsContentObserver extends Conten
fork 后调试子进程（配置了 follow-fork-mode 子进程）

我正在开发一个应用程序父级分叉子级来处理某些任务我遇到一个问题我已将 gdb 配置为 follow fork mode 子级但在 fork 后到达断点后它发送 SIGTRAP 但子级以某种方式终止并向父级发送 SIGCHLD 我
数据表行切换选项

我的问题我正在开发一个与 DataTableJS 相关的项目我需要一个行分组功能它与分组行分开只是我想在下面的切换中显示相关的表行内容城市名我到底在寻找什么我的演示代码 document ready function var t
Swagger 无法生成 HTTP“PATCH”的文档

我已遵循以下内容博客条目 http kingsfleet blogspot co uk 2014 02 transparent patch support in jax rs 20 html http Transparent 20PATCH
在 htaccess 文件中使用公用文件夹时的多种语言

我有这个 htacces文件我很喜欢它但是如何向它添加多语言所以它明白localhost en 不是文件或文件夹现在它使用公共文件夹作为根所以localhost public 如果我想这样做那太好了我仍然使用公共文件夹作为根目
JetBrains（IntelliJ、PhpStorm、WebStorm ...）带有 SSH 密钥的私有 git 存储库

我的新 Web 服务器需要使用 RSA 2048 密钥进行身份验证因此我生成了一个密钥我将ir rsa and id rsa pub我的主文件夹中的文件 ssh Windows 10 但是当我使用 cvs 注释用于拉或推时我收到错
通过查找按组快速 data.table 分配多列

我一直在寻找规范的方法来完成我正在尝试的事情但我似乎不太幸运地获得快速而优雅的工作简而言之我有一个包含多个值列的大表并且希望将每个值乘以查找表中的相应因子我不知道如何动态传递我想要乘以查找值的列或者如何在基本表达式之外引用查找值
C语言中如何清空数组？

char x 1000 x hello 我会用什么来清除内容x 我无法重新初始化它请使用strcpy x 0 or free 您不能将任何内容分配给您的变量数组x是因此任何以x 是错的第二 hello 不是字符串它是一个多字符文字
Google Analytics 3.0 身份验证流程

EDIT 最初这个问题问我如何仅使用我的 API 密钥通过 Google Analytics API 进行身份验证作为弗拉特科指出 https stackoverflow com a 13834210 697449 这是不可能的现在我只
为什么 Spark 在字数统计时速度很快？ [复制]

这个问题在这里已经有答案了测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计我明白映射减少 FP and stream编程模型但无法弄清楚字数统计的速度如此惊人我认为这种情况下是I O密集型计算不可能在20秒以上扫描

为什么 Spark 在字数统计时速度很快？ [复制]

为什么 Spark 在字数统计时速度很快？ [复制] 的相关文章

随机推荐

热门标签