Spark 如何逐出缓存分区？

2023-12-01

我在独立模式下运行 Spark 2.0，并且我是集群中唯一提交作业的人。

假设我有一个包含 100 个分区的 RDD，并且一次总共只能容纳 10 个分区。

我们还假设分配的执行内存足够并且不会干扰存储内存。

假设我迭代该 RDD 中的数据。

rdd.persist()  // MEMORY_ONLY

for (_ <- 0 until 10) {
  rdd.map(...).reduce(...)
}

rdd.unpersist()

对于每次迭代，前 10 个持久化的分区将始终保留在内存中，直到rdd.unpersist()?

目前我所知道的 Spark 使用的是LRU（最近最少使用）驱逐策略RDD 分区默认。他们正在努力添加新策略。https://issues.apache.org/jira/browse/SPARK-14289

此策略删除最近较少使用的元素。当将元素放入缓存或从缓存中检索元素时，将更新上次使用的时间戳。

我想你的内存中总会有 10 个分区，但哪些分区存储在内存中，哪些分区将被驱逐取决于它们的使用情况。根据阿帕奇常见问题解答:

同样，不适合内存的缓存数据集要么会溢出磁盘或在需要时重新计算，由 RDD的存储级别。

因此，其他分区是否溢出到磁盘或动态重新计算取决于您的配置。重新计算是默认选项，这并不总是最有效的选择。您可以将数据集的存储级别设置为 MEMORY_AND_DISK 以避免这种情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 如何逐出缓存分区？的相关文章

将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la

随机推荐

使用 python 将 CSV 转换为 AVRO

我有以下 csv field1 field2 field3 field4 field5 field6 field7 field8 field9 field10 field11 field12 eu 4523 35353 01 09 1999
PreparedStatement：我可以提供列名作为参数吗？

假设我有一个包含 3 列的表 C1 C2 C3 我根据C1列进行搜索我可以做类似的东西吗这不起作用因为这是不是使用prepareStatement的方式 String c the name of the column String s
有没有办法在Python中用turtle调整gif形状的大小？

我正在使用海龟制作一个小游戏并意识到我可以使用图像文件turtle registershape filename 我知道你可以调整默认形状的大小turtle shapesize or turtle resizemode auto 和改变p
如何将字符串转换为QString？

最基本的方法是什么如果使用 STL 兼容性进行编译 QString has a 静态方法转换一个std string to a QString std string str abc QString qstr QString fromStd
在 Java 中打印 BufferedImage

有谁知道如何用Java打印BufferedImage 打印就像在屏幕上绘图一样因此最终您会得到一个 Graphics 对象然后您只需将 Image 绘制到其中即可
如何在包含 iframe 或仅包含框架的 HTML 文档中查找选择

如果文本可能位于 HTML 文档的某个框架或 iframe 内是否有办法在 HTML 文档中查找所选文本如果文档没有框架那就很简单 var text if document getSelection Firefox and frie
从 URL 读取图像并上传

我无法找到从 URL 读取图像并使用 JavaScript Ajax 上传图像的正确方法假设有一个网址 https pbs twimg com profile images 1580483969 parisjs transparent p
将元组列表映射到字典中

我有一个从数据库中的表中提取的元组列表看起来像 key 外键 value 键和外键之间存在多对一的关系我想将其转换为由外键索引的字典其中包含该外键的所有值的总和即外键 sumof value 我写了一些相当冗长的内容 myDict
通过 JNI 从 C++ 获取 java 数组

所以我想从c 获取resultNative 但 resultNative 是用 Java 编写的有人可以告诉我如何通过 JNI 做到这一点吗我对c 不太熟悉在google上搜索了很长时间但没有找到任何答案太感谢了 Java 中的
程序集绑定在 mstest 中不起作用

我有一个非常简单的 MSTest 单元测试项目它间接依赖于两个版本的 MVC app config 中的 assemblybinding 配置为重定向到 MVC v4 当我运行 mstest 测试运行程序 VS2012 RC 内置时我
Safari Mobile 中的 JavaScript 卸载事件？

我正在使用 jQtouch 和 jQuery 开发一个适用于 iPad 的网络应用程序该网络应用程序在商店中使用并通过 AVD 浏览器进行查看当设备震动或断电时 AVD 浏览器会向我发送电子邮件警报不过我也想知道 webapp 何
导入 QtQuick.Controls 2.1 QML 模块未找到

我在 Windows 上使用基于 Qt 4 7 4 32 位的 Qt Creator 2 4 1 我必须使用表视图在 QML 中创建一个表当我尝试导入 QtQuick Controls 2 1 时出现错误 QML MODULE NOT
clang：错误：没有这样的文件或目录：'/Users/waterskiingmithrill/Development/iPhone/Event/Event_Prefix.pch'

我搞砸了我的 iPhone 项目我跑了svn update 几个月前就摆弄过存储库此后的许多变化使得从旧点恢复几乎是不可能的当我尝试构建该项目时我得到 ProcessPCH Users waterskiingmithrill Lib
AVAssetWriter 无法用视频录制音频 |崩溃

我正在尝试从以下位置捕获视频音频帧CMSampleBuffer但完全无法获得正确的视频录制预期输出视频文件位于 mp4具有音频来自麦克风和视频帧的格式电流输出空目录没有音频的视频文件运行时崩溃 Media type of
如何使用 AutoMapper 将 byte[] 转换为字符串？

当尝试将具有 byte 类型属性的对象转换为具有字符串类型匹配属性的对象时我在 AutoMapper 中收到以下错误 System InvalidOperationException 缺少从 System Byte 到 System Ch
何时使用枚举，何时用具有静态成员的类替换它们？

我最近想到以下示例枚举 enum Color Red Green Yellow Blue 可以用看似更类型安全的类替换 class Color private Color public static readonly Color Red
SKShapeNode 有时在释放 EXC_BAD_ACCESS 时产生崩溃

在我的主场景中我用这种方法创建了 4 堵墙 void createFirstWalls CGFloat maxY CGRectGetMaxY self frame Wall wall1 Wall wallWithRect self fra
在直觉类型论中，任何用 CoC 编写的证明都可以在系统 λP2 中重写吗？或者，CoC = λP2 吗？

此题永久悬赏1000分一旦被证实反驳将追溯设置并奖励可能重复 https math stackexchange com questions 4232108 ce bbp2 the calculus of constructions
MVC 5 -> MVC 5.1 迁移。智能感知问题

我刚刚将我的项目从 MVC 5 更新到 MVC 5 1 主 web config 文件已自动更新但是web config主 View 和 Areas 文件夹下的 s 未更改我怀疑这就是为什么我现在失去了对我的动作控制器和区域的智能感知
Spark 如何逐出缓存分区？

我在独立模式下运行 Spark 2 0 并且我是集群中唯一提交作业的人假设我有一个包含 100 个分区的 RDD 并且一次总共只能容纳 10 个分区我们还假设分配的执行内存足够并且不会干扰存储内存假设我迭代该 RDD 中的数据 rdd

Spark 如何逐出缓存分区？

Spark 如何逐出缓存分区？ 的相关文章

随机推荐

热门标签

Spark 如何逐出缓存分区？的相关文章