load() 在 Spark 中做什么？

2023-12-19

火花很懒吧？那么什么是load() do?

start = timeit.default_timer()

 df = sqlContext.read.option(
     "es.resource", indexes
 ).format("org.elasticsearch.spark.sql")
 end = timeit.default_timer()

 print('without load: ', end - start) # almost instant
 start = timeit.default_timer()

 df = df.load()
 end = timeit.default_timer()
 print('load: ', end - start) # takes 1sec

 start = timeit.default_timer()

 df.show()
 end = timeit.default_timer()
 print('show: ', end - start) # takes 4 sec

If show()我猜这是唯一的行动load不会花费太多时间，如 1 秒。所以我得出结论load()是一个动作（与 Spark 中的转换相对）

load 是否真的将整个数据加载到内存中？我不这么认为，但是它有什么作用呢？

我搜索并查看了文档https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html但这没有帮助..

tl;dr load()是一个 DataFrameReader api(org.apache.spark.sql.DataFrameReader#load）从下面的代码可以看出，它返回一个DataFrame，可以在其上应用 Spark 转换。

/**
   * Loads input in as a `DataFrame`, for data sources that support multiple paths.
   * Only works if the source is a HadoopFsRelationProvider.
   *
   * @since 1.6.0
   */
  @scala.annotation.varargs
  def load(paths: String*): DataFrame

需要创建一个 DataFrame 来执行转换。
要从路径（HDFS、S3 等）创建数据帧，用户可以使用spark.read.format("<format>").load().（还有特定于数据源的 API，可以自动加载文件，例如spark.read.parquet(<path>))

为什么需要整整1秒？

在基于文件的源中，这一次可以归因于文件列表。在 HDFS 中，这些列表并不昂贵，而在像 S3 这样的云存储中，这个列表非常昂贵，并且需要与文件数量成比例的时间。
在您的情况下，使用的数据源是elastic-search，时间可归因于连接建立、收集元数据以执行分布式扫描等，这取决于 Elastic Serach 连接器实现。我们可以启用调试日志并检查更多信息。如果elasticsearch有办法记录它收到的请求，我们可以检查elasticsearch日志中是否有在该时间之后发出的请求load()被解雇。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

elasticsearchhadoop

load() 在 Spark 中做什么？的相关文章

Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
一起调用distinct和map会在spark库中抛出NPE

我不确定这是否是一个错误所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag

随机推荐

如何在 linkedin 开发者应用程序中设置“r_fullprofile”访问权限？

我在我的应用程序中应用了一个 API 来访问需要 r fullprofile 访问权限的 linkedin 推荐在 linkdin api 升级之前它工作正常但现在 linkedIn 应用程序不提供设置完整配置文件访问权限这就是我的
ARM 上 TLS 的代码序列

The 线程本地存储的 ELF 处理 http www akkadia org drepper tls pdf文档给出了各种架构的各种模型本地执行初始执行一般动态的汇编序列但 ARM 不行有什么地方可以看到 ARM 的此类代码序
使用 ColumnText 会导致“文档没有页面”异常

我想将文本包装在图像下方或左侧或右侧的矩形中如下所示请参阅链接 http upanh in SLk http upanh in SLk 我在代码中使用 ColumnText 来换行文本 protected void doGet Ht
Java 8 是否提供了重复值或函数的好方法？

在许多其他语言中例如 Haskell 很容易多次重复一个值或函数例如获取值 1 的 8 个副本的列表 take 8 repeat 1 但我在Java 8中还没有找到这个功能 Java 8的JDK中有这样的功能吗或者相当于类似范围的东
内存流为空

我需要从不同的来源函数生成一个巨大的 xml 文件我决定使用XmlTextWriter因为它使用的内存比XmlDocument 首先发起一个XmlWriter与底层MemoryStream MemoryStream ms new M
如何在 .NET 4.5 中“同时”运行这两个方法？

我有一个方法可以执行 2独立的逻辑片段我希望我能同时运行它们同时并且仅在这两个子方法完成后才继续我试图弄清楚async await语法但我就是不明白这是代码 public PewPew SomeMethod Foo foo var
为什么我对模型实例的更改有时无法保存在 Rails 3 中？

我有一个名为 Post 的模型并在模型中创建了两个方法来更改字段当调用保存时第一个方法的更改将被保留第二种方法的更改不会保存我之前在其他模型中注意到过这种行为我认为我缺少一些关于模型如何工作的基本知识对此的任何帮助将不胜感激
Node-mysql插入有两个值的查询？

这是我当前的 JavaScript var connection mysql createConnection host localhost user root password root database codify port 8889
Constexpr 放置新？

C 标准明确禁止调用new在常量表达式中 N4296 第 5 20 节 expr const 条件表达式 e 是核心常量表达式除非对 e 的求值遵循抽象机 1 9 的规则将求值以下表达式之一新表达式 5 3 4 该禁令据我所知延伸
我什么时候需要三斜线参考？

当 Anders Hejlsberg 在下面的视频中 35 00 左右谈论外部模块时 Anders Hejlsberg TypeScript 简介 http channel9 msdn com posts Anders Hejlsberg
在Java中使用相同的内部类名和对象名

在下面的代码片段中大概看起来应该会发出一些编译错误但事实并非如此 class Outer public static class Inner static String obj Inner static Optional Inner n
GROUP_BY 内的活动记录 LIMIT

SCENARIO我有一个充满帖子的表和一个用户表我希望能够获取所有帖子并按用户对它们进行分组但我想要将限制设置为每个用户 10 个 class Post lt ActiveRecord Base belongs to user end
Flickity 2 - groupCells 和 pageDots 不能同时工作

我是新来的flickity http flickity metafizzy co 我想对单元格进行分组并同时显示点但在我的项目中它们似乎是相互排斥的我可以对单元格进行分组或显示点即使从这里codepen http codepen i
PHP 将变量发送到 file_get_contents()

我希望能够通过以下方式将一些变量发送到文件file get contents 这是firstfile php 这是第二个文件 php The value of myvar is 我想要变量 mystr等于 The value of myva
ios 8 中的 UIWindow 框架与 Landscape 中的 ios 7 不同

我创建了简单的模块将子视图添加到 UIWindow 中在模拟器 ios 7 Xcode 5 1 1 中我打印了 self windows 并得到
我有三种字体类型 - Gotham-bold、Gotham-medium、Gotham-thin，所以我需要使用三次 @font-face 吗？

实际上我的字体文件夹中有三个文件这些都是Gotham Bold ttf Gotham Medium ttf Gotham Thin ttf 那么我需要使用 font face这三种类型重复三次请任何人帮助我我目前使用的代码如下 fon
JavaScript 中的请求地址[重复]

这个问题在这里已经有答案了可能的重复使用 JavaScript 获取当前 URL https stackoverflow com questions 1034621 如何在 JavaScript 中获取当前页面的地址例如如果我有一个
如何从命令行在 os x 中打开和关闭网络代理

在 OS X 中您可以从系统偏好设置 gt 网络 gt 代理打开和关闭 Web 代理方法是选中 Web 代理 HTTP 并指定 Web 代理服务器等然后单击确定然后单击应用这步骤太多了有没有办法从命令行和 shell 脚
如何在代理后面使用 HTTPBuilder 并进行身份验证

我尝试了2个小时但没能成功这就是我所做的 grails add proxy myproxy host
load() 在 Spark 中做什么？

火花很懒吧那么什么是load do start timeit default timer df sqlContext read option es resource indexes format org elasticsearch spa

load() 在 Spark 中做什么？

为什么需要整整1秒？

load() 在 Spark 中做什么？ 的相关文章

随机推荐

热门标签

load() 在 Spark 中做什么？的相关文章