有没有办法改变 Spark 中 RDD 的复制因子？

2024-02-01

据我了解，集群中的RDD中存在多份数据，这样当某个节点发生故障时，程序可以恢复。然而，在失败的可能性可以忽略不计的情况下，在 RDD 中拥有多个数据副本在内存方面将是昂贵的。那么，我的问题是，Spark中是否有一个参数可以用来减少RDD的复制因子？

首先，请注意 Spark 不会自动缓存您的所有内容RDDs，仅仅因为应用程序可能会创建许多RDDs，并且并非所有这些都可以重复使用。你必须打电话.persist() or .cache()在他们。

您可以设置要持久保存的存储级别RDD with myRDD.persist(StorageLevel.MEMORY_AND_DISK). .cache()是一个简写.persist(StorageLevel.MEMORY_ONLY).

默认存储级别为persist确实是StorageLevel.MEMORY_ONLY for an RDD在 Java 或 Scala 中 – 但如果您要创建一个通常会有所不同DStream（参考你的DStream构造函数 API 文档）。如果你使用Python，那就是StorageLevel.MEMORY_ONLY_SER.

The doc https://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence详细介绍了许多存储级别及其含义，但它们从根本上来说是一种配置简写，用于将 Spark 指向扩展了存储级别的对象。StorageLevel class https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/storage/StorageLevel.scala。因此，您可以定义自己的复制因子，最高可达 40。

请注意，在各种预定义的存储级别中，有些保留单个副本RDD。事实上，对于所有名称后缀不带有的名称都是如此_2（除了NONE):

仅磁盘
仅内存
MEMORY_ONLY_SER
内存和磁盘
MEMORY_AND_DISK_SER
OFF_HEAP

这是他们使用的每个介质一个副本，当然，如果您想要整体上一个副本，则必须选择单介质存储级别。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有没有办法改变 Spark 中 RDD 的复制因子？的相关文章

org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
Spring AspectJ 在双代理接口时失败：无法生成类的 CGLIB 子类

我正在使用Spring的
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
在 Jar 文件中运行 ANT build.xml 文件

我需要使用存储在 jar 文件中的 build xml 文件运行 ANT 构建该 jar 文件在类路径中可用是否可以在不分解 jar 文件并将 build xml 保存到本地目录的情况下做到这一点如果是的话我该怎么办呢 Update
Java 公历日历更改时区

我正在尝试设置 HOUR OF DAY 字段并更改 GregorianCalendar 日期对象的时区 GregorianCalendar date new GregorianCalendar TimeZone getTimeZone GM
检测并缩短字符串中的所有网址

假设我有一条字符串消息您应该将 file zip 上传到http google com extremelylonglink zip http google com extremelylonglink zip not https stack
java.lang.IllegalStateException：提交响应后无法调用 sendRedirect()

这两天我一直在尝试找出问题所在我在这里读到我应该在代码中添加一个返回我做到了但我仍然得到 java lang IllegalStateException Cannot call sendRedirect after the respo
Hibernate 的 PersistentSet 不使用 hashCode/equals 的自定义实现

所以我有一本实体书 public class Book private String id private String name private String description private Image coverImage pr
内部类的构造函数引用在运行时失败并出现VerifyError

我正在使用 lambda 为内部类构造函数创建供应商ctx gt new SpectatorSwitcher ctx IntelliJ建议我将其更改为SpectatorSwitcher new反而 SpectatorSwitcher 是我正
Java ResultSet 如何检查是否有结果

结果集 http java sun com j2se 1 4 2 docs api java sql ResultSet html没有 hasNext 方法我想检查 resultSet 是否有任何值这是正确的方法吗 if resultS
tomcat 中受密码保护的应用程序

我正在使用 JSP Servlet 开发一个Web应用程序并且我使用了Tomcat 7 0 33 as a web container 所以我的要求是tomcat中的每个应用程序都会password像受保护的manager applica
如何在谷歌地图android上显示多个标记

我想在谷歌地图android上显示带有多个标记的位置问题是当我运行我的应用程序时它只显示一个位置标记这是我的代码 public class koordinatTask extends AsyncTask
在我的 Spring Boot 示例中无法打开版本 3 中的 Swagger UI

我在 Spring Boot 示例中打开 swagger ui 时遇到问题当我访问 localhost 8080 swagger ui 或 localhost 8080 root api name swagger ui 时出现这种错误 S
logcat 中 mSecurityInputMethodService 为 null

我写了一点android应显示智能手机当前位置最后已知位置的应用程序尽管我复制了示例代码并尝试了其他几种解决方案但似乎每次都有相同的错误我的应用程序由一个按钮组成按下按钮应该log经度和纬度但仅对数 mSecurityInp
java for windows 中的文件图标叠加

我正在尝试像 Tortoise SVN 或 Dropbox 一样在文件和文件夹上实现图标叠加我在网上查了很多资料但没有找到Java的解决方案 Can anyone help me with this 很抱歉确认您的担忧但这无法在 Ja
Eclipse 选项卡宽度不变

我浏览了一些与此相关的帖子但它们似乎并不能帮助我解决我的问题我有一个项目其中 java 文件以 2 个空格的宽度缩进我想将所有内容更改为 4 空格宽度我尝试了正确的缩进选项但当我将几行修改为 4 空格缩进时它只是将所有内容
找不到符号 NOTIFICATION_SERVICE？

package com test app import android app Notification import android app NotificationManager import android app PendingIn
根据 Slick 中的 Id 选择单行

我想根据 Id 查询用户的一行我有以下虚拟代码 case class User id Option Int name String object Users extends Table User user def id column In
如何将双精度/浮点四舍五入为二进制精度？

我正在编写对浮点数执行计算的代码的测试不出所料结果很少是准确的我想在计算结果和预期结果之间设置一个容差我已经证实在实践中使用双精度在对最后两位有效小数进行四舍五入后结果始终是正确的但是usually四舍五入最后一位小数后
Java中super关键字的范围和使用

为什么无法使用 super 关键字访问父类变量使用以下代码输出为 feline cougar c c class Feline public String type f public Feline System out print fe

随机推荐

如何将 tibble 导出为 .csv

我使用 rfm 包进行了 rfm 分析结果在 tibble 中我似乎不知道如何将其导出到 csv 我尝试了下面的参数但它导出了一个空白文件 gt dim bmdata4RFM 1 1182580 3 gt str bmdata4RFM
C 中的 #line 关键字

我试图理解一些代码但遇到了一个我以前从未见过的关键字我尝试用谷歌搜索它但也没有找到任何有关它的信息 char valtext line 1 Values l define INITIAL 0 line 2 Values l int r
如何使用注释在 Spring MVC 中创建默认方法？

我找不到解决办法这让我发疯我映射了 Controller 它使用 RequestMapping 响应多种方法当没有指定更具体的情况时我想将其中一种方法标记为默认方法例如 Controller RequestMapping user
使用 Click 库的 Python 3.6 中没有模块错误

我正在尝试使用该包在 python 中构建 CLIclick 我使用的Python版本是3 6 这是我的应用程序的主要部分 import os import click cmd folder os path join os path dir
php if() 中的多个 OR 似乎没有正确响应。测试数组值和所有。我究竟做错了什么？

我正在运行一个非常简单的 if 语句在我添加两个额外的之前它工作得很好或运算符这是我的代码 if planDetails Company name company1 planDetails PlanDetail name pd n
Spring JPA自动创建表失败

我对 Spring JPA Hibernate MySQL 有疑问我有一个实体 Nom java 和存储库公共接口 NomRepository 扩展 JpaRepository 它们的创建和注入都很好问题是当我尝试通过存储库的保存方
如何以经过身份验证的方式运行应用程序

我创建了一个小型应用程序它尝试根据用户的用户名和密码对用户进行身份验证当在 Active Directory 所在的同一域上运行时此应用程序可以正常工作我现在必须扩展该应用程序使其也可以在安全和权限方面封闭的域上运行换句话说
为什么 PostgreSQL 枚举类型数组允许空值？

我正在使用 PostgreSQL 数据库并使用枚举类型的数组作为其中一列 CREATE TYPE my type enum AS ENUM value1 value2 value3 ALTER TABLE my table ADD COL
JsonMappingException：无法构造 CommonsMultipartFile 的实例

我正在使用 Spring MVC 3 0 在我的应用程序中我发送一些带有多个附件的信息并且每个文件都有标题 Id 等因此我制作了一个 DTO 如下所示 public class MyDTO Long id Integer age M
如何在Bootstrap中选择960px宽而不是1200px的容器

如何选择容器960pxBootstrap 中宽而不是 1200px Bootstrap 在宽度超过 1200 像素的屏幕上将容器宽度设置为 1170 像素对于 992px 到 1200px 的屏幕容器宽度设置为 970px 您可以阅读有
Laravel - 按顺序运行作业

我正在学习 Laravel 正在开发一个运行 Horizo n 来了解工作的项目我被困在一个地方我需要一次又一次地运行相同的工作几次这是我目前正在做的事情
添加 JavaScript 库时如何修复“DevTools 无法加载 SourceMap：无法加载内容”错误？

My code img src pose images aa 085 jpg
Android 数据绑定：如何避免“找不到 KaptTask”警告

我有一个包含多个库模块的大型 Android 项目它们都使用 Kotlin 并且许多都启用了数据绑定该项目和所有模块都构建并运行得很好没有错误但是我在每个模块的 Gradle 同步日志中收到一条警告我认为这是误报 gt Conf
Comparator 接口的 equals 方法，为什么不重写 Object.equals(Object) 总是安全的

我目前正在学习Comparator接口并注意到在文档中比较器等于 https docs oracle com javase 9 docs api java util Comparator html equals java lang Obje
如何使用 sed 或 awk 替换文本？

我有以下 json 文件 last modified type type datetime value 2008 04 01T03 28 50 625462 type key type author name National Resear
如何使用 Zend Framework 和 PHPUnit 成功创建项目？

首先我要说的是我已将其发布到多个论坛甚至尝试在 ZF IRC 频道上获取帮助我已经用谷歌搜索了一周但仍然没有结果我过去在这个网站上读过很多问答所以我想我应该注册一个帐户并尝试询问你是的我搜索过以前提出的问题但没有一个答案对
在 Azure 中，是否可以将一组现有的托管站点移动到另一个订阅？

在 Azure 上我目前正在使用 3 个月免费试用订阅最近我获得了 Windows Azure MSDN Visual Studio Ultimate 订阅的访问权限是否可以使用门户将一组现有的托管站点移动到另一个订阅显然我可以使
将 OLS 回归摘要打印到文本文件

我正在使用 OLS 回归pandas stats api ols用一个groupby使用以下代码 from pandas stats api import ols df pd read csv r F file csv result df
如何扩展/覆盖插件的控制器操作？

我在 grails 应用程序中使用的插件 Nimble 0 3 包括一些控制器和相关操作我想稍微改变一些动作行为我想知道如何才能实现这一目标我可以创建一个子控制器继承自我的插件控制器并覆盖一些操作实现或者我可以创建另一个控制器
有没有办法改变 Spark 中 RDD 的复制因子？

据我了解集群中的RDD中存在多份数据这样当某个节点发生故障时程序可以恢复然而在失败的可能性可以忽略不计的情况下在 RDD 中拥有多个数据副本在内存方面将是昂贵的那么我的问题是 Spark中是否有一个参数可以用来减少RDD的复

有没有办法改变 Spark 中 RDD 的复制因子？

有没有办法改变 Spark 中 RDD 的复制因子？ 的相关文章

随机推荐

热门标签

有没有办法改变 Spark 中 RDD 的复制因子？的相关文章