Spark 是否可以设置默认存储级别？

2023-11-29

在 Spark 中，可以显式设置 RDD 和 Dataframe 的存储级别，但是否可以更改默认存储级别？如果可以，如何实现？如果不是，那为什么不可能呢？

到处都有类似的问题，但答案只是指解决方案是显式设置存储级别，而无需进一步解释。

我建议看一下CacheManager.scala#cacheQuery(..)。方法定义和文档如下所示-

/**
   * Caches the data produced by the logical representation of the given [[Dataset]].
   * Unlike `RDD.cache()`, the default storage level is set to be `MEMORY_AND_DISK` because
   * recomputing the in-memory columnar representation of the underlying table is expensive.
   */
  def cacheQuery(
      query: Dataset[_],
      tableName: Option[String] = None,
      storageLevel: StorageLevel = MEMORY_AND_DISK): Unit = writeLock {
    ...
    }
  }

在这里，如果您观察到 Spark 内部不使用任何配置来获取默认存储级别，而是其默认值是硬编码在源本身中的。

由于没有可用于覆盖默认行为的配置。在保留数据帧/ RDD 的同时，唯一的选择就是通过存储级别。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 是否可以设置默认存储级别？的相关文章

Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in

随机推荐

Python Glassdoor API

我正在尝试使用 Python 从他们的 API 中获取 glassdoor 数据 import urllib2 id1 x key y action employers company company basepath http api g
在 Flask 中，我在哪里定义 url_for() 使用的域？

当我打电话时url for index 它会生成但有时我希望它生成 domain tld 反而我在文档中找不到指定这一点的位置我只需要做吗 domain tld s url for index url for需要一个 external
编译器正在创建额外的类文件，其中包含 $

我正在使用 Eclipse 并使用 SWT 编写了一个 Java 应用程序当 Eclipse 编译我的程序时它将我的主文件重命名为 4 个不同的文件如下所示主文件 class 主文件 1 class 主文件 2 class 主文件
VBA - 将上传的 .csv 文件名放入特定工作表的单元格中

我想知道是否有一种方法可以获取所选的 csv 文件并将名称放入摘要表上的单元格中以下是上传 csv 文件的代码 Dim ws As Worksheet strFile As String Set ws ActiveWorkbook S
JavaScript 数组拼接与切片

有什么区别splice and slice const array 1 2 3 4 5 array splice index 1 array slice index 1 splice 改变原始数组而slice 不但它们都返回数组对象请
rm() 似乎没有清空我的 R 工作区

我正在尝试清理我的 R 工作区我在任何线程中发现的任何东西似乎都不起作用我已经在谷歌上搜索并尝试了几个小时的解决方案当我打开 R 并输入ls 控制台显示上一个会话中的所有代码 function name pos 1L envir as
如何循环遍历字符串并打印某些项目？

lst AB CD EF GH 输出 A B CD E F GH 这是我尝试过的但它不起作用 while index lt len my string curr char my string index if curr char whil
如何使用 Groovy 元编程重写 java 类型实例的方法？

我试图在 Groovy 代码中重写 java 类型实例的方法的功能但遇到了类转换异常我看了张贴的指南here但我无法让它工作由于我的实际问题有点混乱下面是一些可运行的示例代码但由于相同的错误而失败在示例中我想重写 java l
范围内非重复随机查找算法

我正在寻找一种有效的算法可以生成一定范围内的随机值而不重复在伪代码中在 Rand 类中 Rand long from long to this from from this to to long getNumber returns
如何使用 Firebase 存储移动文件？

有没有办法用 firebase storage 移动文件例子 user1 public image jpg 到 user1 private image jpg 由于 Firebase Storage 由 Google Cloud Stor
Meteor 仅将授权模板发送给客户端

我知道流星会编译模板给客户端使用meteor auth系统是否有一种方法仅在用户有权查看模板时才发送模板因此在客户端检查html代码时它们不可见例如我们不想总是将管理部分发送到浏览器例如如果我有
从 IE 中的下拉菜单中选择一个选项并触发一个函数

所以我是 VBA IE 自动化的新手我会尝试非常具体地回答我的问题最近我一直在尝试登录一个网站然后从下拉列表中选择一个月我可以从下拉列表中选择一个选项但是当我单击搜索按钮时显示的结果不是我使用 VBA 选择的值而是网页上
C++ 中指针是否被视为无符号值？

有符号溢出未定义无符号溢出定义为模算术所以我的问题是以下是已定义还是未定义 include
LinkedIn 抄写员 OAuth 库无法允许访问 LinkedIn 帐户

我正在编写一个概念验证应用程序以使用以下方式连接到 LinkedInscribeOAuth 库我可以获得请求令牌但无法将其交换为访问令牌我反复收到oauth problem permission unknown尽管我点击了 Link
在为 Android 工件生成的 POM 中排除 Kotlin stdlib 的 testImplementation 依赖项

鉴于旧的 Android 库已弃用我正在将其从 jcenter 迁移到 mavenCentral 所有实际的库模块都是用 Java 编写的但其中一些模块的测试是用 Kotlin 编写的在升级到 AS 4 1 3 Gradle 6 8
实时人脸检测不起作用

这段代码没有显示相机中人脸的检测即使没有错误我希望在相机中实时检测到脸部周围有红色乡绅但我认为我没有正确放置代码或者我应该在 Viewdidload 或其他东西中放置一些东西 import UIKit import CoreIma
cUrl - 获取 html 响应正文

我确信这相当简单我正在使用下面的函数来检索网站原始 html 为了解析它在测试期间我决定在 stackoverflow com 上运行我的代码 Chrome 不是获取 html 响应而是打印出实际的站点而不是将 html 分配给它
Java RegEx 不区分大小写吗？

在Java中当执行replaceAll来查找正则表达式模式时例如 replaceAll i b w b s 1 b 1 删除重复的连续的不区分大小写的单词例如测试测试我不确定我把 i 我读到它应该在开头但是如果我把它拿出来那么我
在 R 中如何舍入为 1、1.5、2 等而不是 1、2 或 1.1、1.2、1.3？

我想将数字四舍五入到最接近的一半或整数所以我想将 4 2 舍入到 4 4 3 到 4 5 以及 4 8 到 5 我使用舍入选项尝试了一些操作 gt round 4 34 1 1 4 3 gt round 4 34 1 4 gt round
Spark 是否可以设置默认存储级别？

在 Spark 中可以显式设置 RDD 和 Dataframe 的存储级别但是否可以更改默认存储级别如果可以如何实现如果不是那为什么不可能呢到处都有类似的问题但答案只是指解决方案是显式设置存储级别而无需进一步解释我建议看

Spark 是否可以设置默认存储级别？

Spark 是否可以设置默认存储级别？ 的相关文章

随机推荐

热门标签

Spark 是否可以设置默认存储级别？的相关文章