了解 Spark 中的 DAG

2024-05-18

问题是我有以下 DAG：

我认为当需要洗牌时，火花将工作划分为不同的阶段。考虑阶段 0 和阶段 1。有些操作不需要洗牌。那么为什么 Spark 将它们分成不同的阶段呢？

我认为跨分区的实际数据移动应该发生在第 2 阶段。因为这里我们需要cogroup。但为了共同分组，我们需要来自stage 0 and stage 1.

因此Spark保留了这些阶段的中间结果，然后将其应用到Stage 2?

您应该将单个“阶段”视为一系列转变可以在每个 RDD 上执行分区无需访问其他分区中的数据；

换句话说，如果我可以创建一个操作 T，它接受单个分区并生成一个新的（单个）分区，并将相同的 T 应用于 RDD 的每个分区 - T 可以由单个“阶段”执行。

Now, stage 0 and stage 1操作两个独立的 RDD并执行不同的转变，所以他们不能共享同一个舞台。请注意，这些阶段都不对另一个阶段的输出进行操作 - 因此它们不是创建单个阶段的“候选者”。

NOTE这并不意味着他们不能逃跑在平行下：Spark可以安排两个阶段同时运行；在这种情况下，stage 2（它执行cogroup）会等待两者stage 0 and stage 1完成后，生成新的分区，将它们洗牌到正确的执行器，然后对这些新分区进行操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

了解 Spark 中的 DAG 的相关文章

将链接对象转换为流或集合

我想迭代堆栈跟踪堆栈跟踪由可抛出对象组成其 getCause 返回下一个可抛出对象最后一次调用 getCause 返回 null 示例 a gt b gt null 我尝试使用 Stream iterable 这会导致 NullPoi
使用 Checkstyle Plugin 时从插件调用代码时出现问题：“org.eclipse.jface”

我正在尝试在 Rational Software Architect 7 0 0 4 上使用 eclipse cs 插件我最近卸载了旧的 beta2 版本并安装了 beta3 插件本身按照之前的配置工作但是每当我尝试通过 Windows
如何对 IntStream 进行逆序排序

我正在使用 txt 文件读取数字BufferedReader 我想颠倒该流中元素的顺序以便在收集它们时它们将从最高到最低排列我不想在构建数组后进行排序因为我不知道其中可能有多少元素我只需要最高的 N 个元素 in new Buff
Java 泛型/类型调度问题

考虑以下程序 import java util List import java util ArrayList public class TypeTest public static class TypeTestA extends Type
如何解决 onEditCommit 事件上的类型不匹配错误？

我在 Fxml 中使用 onEditCommit 事件在用户编辑数据后检索数据 FXML 代码
Java 变量的作用域

我不明白为什么这段代码的输出是10 package uno public class A int x 10 A int x 12 new B public static void main String args int x 11 new
Spring Stomp over Websocket：流式传输大文件

我的SockJs客户端在网页中发送帧大小为16K的消息消息大小限制决定了我可以传输的文件的最大大小以下是我在文档中找到的内容 Configure the maximum size for an incoming sub protoco
Java替换特定字符

这是我在这个网站上的第一个问题所以我会尽量不要成为一个十足的菜鸟我目前正在用java 创建刽子手游戏所以我问你的问题是我们是否被赋予了幽灵这个词并将 Ghost 替换为 hiddenWord ghost length for i
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
覆盖 MATLAB 默认静态 javaclasspath 的最佳方法

MATLAB 配置为在搜索用户可修改的动态路径之前搜索其静态 java 类路径不幸的是静态路径包含相当多非常旧的公共库因此如果您尝试使用新版本您可能最终会加载错误的实现并出现错误例如静态路径包含 google collectio
如何使用 Mockito 和 Junit 模拟 ZonedDateTime

我需要模拟一个ZonedDateTime ofInstant 方法我知道SO中有很多建议但对于我的具体问题到目前为止我还没有找到任何简单的解决办法这是我的代码 public ZonedDateTime myMethodToTest
不兼容的类型：在 java netbeans 中对象无法转换为 String

我试图在我的项目中使用对象数组但出现错误 incompatible types Object cannot be converted to String 在这一行 ST1 new String emt1 emt2 emt3 emt4 现在
OpenJDK 版本控制

上下文我想确保我们系统上安装的 Java 不受 CVE 2022 21449 的影响 java version 给出 openjdk version 11 0 7 2020 04 14 LTS OpenJDK Runtime Enviro
从 Stax XMLStreamReader 读取以解组部分

我正在使用 Stax 游标 API 从大型 xml 文件中提取数据当前我转到特殊标签的开头并使用 JAXB 解组该标签这对于格式良好的 xml 文件效果很好但不久前我有一个文档其中数十万个标签中有一个未关闭 JAXB 使用 XML
阻止 OSX 变音符号为所有用户禁用 Java 中的 KeyBindings？

注我知道这个问题 https stackoverflow com questions 40335285 java keybinds stop working after holding down a key用户必须输入终端命令才能解决此问
Path2D 上的鼠标指针检测

我构建了一个Path2D http docs oracle com javase 7 docs api java awt geom Path2D html表示由直线组成的未闭合形状我希望能够检测何时单击鼠标并且鼠标指针靠近路径在几个像素
从一个文本文件中获取数据并将其移动到新的文本文件

我有一个文件里面有数据在我的主要方法中我读入文件并关闭文件我调用另一种方法在原始文件的同一文件夹内创建一个新文件所以现在我有两个文件原始文件和通过我调用的方法生成的文件我需要另一种方法从原始文件中获取数据并将其写入创建的新
为什么 BufferedWriter 不写入文件？

我有这个代码 String strings Hi You He They Tetrabenzene Caaorine Calorine File file new File G words txt FileWriter fWriter Bu
MongoDB Java 驱动程序：MongoCore 驱动程序与 MongoDB 驱动程序与 MongoDB 异步驱动程序

MongoDB Java 驱动程序有三种不同的驱动程序选项核心驱动 MongoDB 驱动程序 MongoDB 异步驱动程序 The 驱动程序描述页面 https docs mongodb org ecosystem drivers jav
使用 eclipse IDE 配置 angularjs

我想开始使用 AngularJs 和 Java Spring 进行开发我使用 Eclipse 作为 IDE 我想配置我的 Eclipse 以使这些框架无缝工作我知道我可能要求太多但相信我我已经做了很多研究你们是我最后的选择任何帮

随机推荐

使用 System.Text.Json 即时格式化 JSON 流

我有一个未缩进的 Json 字符串例如 hash 123 id 456 我想缩进字符串并将其序列化为 JSON 文件天真地我可以使用缩进字符串Newtonsoft如下 using Newtonsoft Json Linq JToken
如何返回 json 结果并将 unicode 字符转义为 \u1234

我正在实现一个返回 json 结果的方法例如 public JsonResult MethodName Guid key var result ApiHelper GetData key Data is stored in db as v
TransientObjectException - 对象引用未保存的瞬态实例 - 在刷新之前保存瞬态实例

对于我的问题我遇到了一些可能的好答案但这是关于从 Hibernate 3 4 0GA 升级到 Hibernate 4 1 8 的问题所以这曾经在以前的版本下工作我已经四处搜索为什么它在这个新版本中中断 I get a org hib
使用 animate() 的简单 jQuery 幻灯片

使用 jQuery 的animate 如何将每个图像滑动一次使用Slick js https github com kenwheeler slick 像CSS动画然后停在最后一个 div class slideshow style he
在 ASP.NET Core 3.1 中使用包含“System.Web.HttpContext”的旧项目

我们有一些用 Net Framework编写的遗留项目应该由由ASP NET Core3 1编写的API项目使用问题是这些遗留项目正在使用 System Web HttpContext 您知道它不再存在于 net core 中现在我们
jQuery UI 自动完成的“源”回调中的“响应”和“请求”参数是什么？

我正在查看自动完成教程我有几个问题 http jqueryui com demos autocomplete option disabled http jqueryui com demos autocomplete option disa
如何在 Silverlight 3 中将 .NET RIA 服务与 MVVM 结合起来？

NET RIA 服务被描述为 Silverlight 的 n 层框架我一直想知道这个框架和模型视图视图模型模式之间有什么关系它们是否存在冲突或者您能看到协同组合的潜力吗 NET RIA 服务和 MVVM 是协同作用的并不冲突例
在数字集合中查找最接近的匹配[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
为什么这些非捕获正则表达式组不能正常工作？

所以我花了很多时间在另一个堆栈溢出问题上同样的问题又出现在上一个问题上非捕获组并没有像我期望的那样工作至少我是这么认为的这是一个愚蠢的例子类似于其他人的 CSS 测试字符串这是我的正则表达式 rgb S 这是测试字符串 1px
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
Doctrine DQL 从 join 返回平面数组

我通过 DQL 中的常规 LEFT JOIN 选择 3 个实体它们通过连接表关联连接表还定义了实体以及带注释的关系查询执行没有问题但我的结果作为平面数组返回我期望一个包含三个实体作为每个索引的数组元素的数组 SELECT e1 e
Android 地理围栏无法正常工作（未调用 IntentService）

这是我的代码安卓清单
OSX bash 最小化窗口

在 Mac 中并使用 bash shell 我想执行一个包含单个命令启动 Jupyter Lab 的文件并立即最小化终端窗口有没有办法在不安装第三方软件的情况下做到这一点是的只需使用osascript https ss64 com
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何绕过Keycloak登录表单直接跳转到IDP登录？

我正在运行saml 经纪人身份验证 https github com keycloak keycloak tree 3 2 1 Final examples broker saml broker authentication例子我在 UI
避免 UIImage 的 imageNamed - 内存管理

我正在经历这个链接 http akosma com 2009 01 28 10 iphone memory management tips 我遇到了一个点避免 UIImage 的 imageNamed 出于什么原因我们应该避免这种情况它会
Android Gradle 同步失败：无法解析配置“：classpath”的所有工件

错误如下 Caused by org gradle api internal artifacts ivyservice DefaultLenientConfiguration ArtifactResolveException Could n
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr

了解 Spark 中的 DAG

了解 Spark 中的 DAG 的相关文章

随机推荐

热门标签