YARN 如何在集群模式下知道 Apache Spark 中的数据局部性

2023-11-25

假设有一个 Spark 作业将从 HDFS 读取一个名为 Records.txt 的文件，并执行一些转换和一个操作（将处理后的输出写入 HDFS）。作业将提交到YARN集群模式

还假设 Records.txt 是一个 128 MB 的文件，并且其 HDFS 复制块之一也在 NODE 1 中

假设 YARN 正在分配的是 NODE 1 内的执行程序。

YARN如何准确地在输入数据所在的节点分配一个执行器呢？

谁告诉 YARN HDFS 复制的records.txt 块之一在 NODE 1 中可用？

Spark 应用程序如何找到数据局部性？它是由在 Application Master 内部运行的 Driver 完成的吗？

YARN 知道数据局部性吗？

这里的基本问题是：

YARN 知道数据局部性吗？

YARN“知道”应用程序告诉它什么，并且它了解集群的结构（拓扑）。当应用程序发出资源请求时，它可以包括特定的局部性限制，在分配资源时可能会或可能不会满足。

如果无法指定约束，YARN（或任何其他集群管理器）将根据其对集群拓扑的了解，尝试提供最佳替代匹配。

那么应用程序如何“知道”?

如果应用程序使用支持某种形式的数据局部性的输入源（文件系统或其他），则它可以查询相应的目录（HDFS 中的名称节点）以获取它想要访问的数据块的位置。

从更广泛的意义上讲，Spark RDD 可以定义preferredLocations，取决于具体的RDD集群管理器（不一定是 YARN）的实现，稍后可以转化为资源约束。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hadoopyarn

YARN 如何在集群模式下知道 Apache Spark 中的数据局部性的相关文章

我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
scalac 编译生成“对象 apache 不是包 org 的成员”

我的代码是 import org apache spark SparkContext 它可以在交互模式下运行但是当我使用 scalac 编译它时出现以下错误消息对象 apache 不是包 org 的成员这似乎是路径的问题但我不知道
最大模式长度 fpgrowth apache Spark

我正在尝试使用 Spark Scala 运行关联规则我首先创建一个 FPGrowth 树并将其传递给关联规则方法但是我希望添加最大模式长度参数以限制我想要在左侧和右侧的项目数量我只想要项目之间的一对一关联 val model ne
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple

随机推荐

WinForms 数据绑定 - 绑定到列表中的对象

我需要一些关于 WinForms 数据绑定的帮助指导但我似乎无法让 Google 帮助我解决这个问题这是我的场景考虑以下与我需要的类似的类 public class Car public string Name get set pu
WPF：文本框文本未更新

我有一个正在使用的用户控件DataTemplate this UserControl包含一个TextBox与Value属性声明为DependencyProperty of my UserControl 在数据模板中我绑定了这个Value财
像在画布上绘制一样对路径进行动画处理

我是 WPF 的新手请指导我解决这个问题的正确方向我构建了一个 WPF 应用程序其中包含路线图视图控件的所有功能 IE 路线图可以使用鼠标键盘和提供的控件进行放大缩小向各个方向平移我已将道路映射为使用 Expression B
哈希表的时间复杂度

我对哈希表的时间复杂度感到困惑很多文章都说它们是摊销 O 1 而不是真正的 O 1 这在实际应用中意味着什么哈希表中操作的平均时间复杂度是多少在实际实现中而不是理论上为什么这些操作不是真正的 O 1 不可能提前知道哈希函数会发生多
实体框架：无法加载指定的元数据资源

我决定搬家Entity Connection String from app config编码但是像这样设置之后 public static string GetConnectionString string connection Sql
通过Annotation填充Spring Bean的File字段

是否可以做这样的事情
一个进程中加载的最大应用程序域数量

由于动态程序集加载需要加载应用程序域才能通过卸载相关的应用程序域来杀死程序集因此要加载的进程中是否有最大数量的应用程序域我正在考虑一个基于服务器的应用程序每个用户都可以动态运行他专有的 C 代码但是如果有 2000 个用户登录
如何在 OpenCV python 中从图片中删除背景

因为我是计算机视觉新手我还想问如何删除该图像的整个背景并仅保留药丸不变我尝试了不同的方法例如更改背景颜色但仍然存在一些小边缘和噪音或者如果所有白色背景都可以是中性色而圆圈之间没有线条这是 Python OpenCV 中的一种方
Python：如何从列表中删除空列表？ [复制]

这个问题在这里已经有答案了我有一个包含空列表的列表 list1 text text2 moreText 如何删除空列表以便我得到 list2 text text2 moreText 我尝试了 list remove 但这不起作用 Try
Swagger 2.0：具有不同路径但相同请求和响应的多个 Path 对象

由于一些向后兼容性的原因我需要支持这两个路径 ab and a b 两条路径的请求和响应对象将是相同的我可以在 Swagger 规范中添加类似以下内容这样我就不必重复两个路径的请求和响应对象定义 paths ab a b post 是
ngModel 发生变化，ngModelChange 未被调用
如何在 .net 上运行 Lucene？

Lucene是一个优秀的搜索引擎但是 NET版本落后于Java官方版本最新的稳定 NET版本是2 0 但是最新的Java Lucene版本是2 4 它具有更多功能你如何解决这个问题我发现一种令人惊讶的可行方法从 Java jar
UITableView 可以与 UICollectionView 一起滚动吗？

我有以下结构我将两个集合视图包装到表视图中一个位于表视图标题集合 1 中另一个位于表视图第一行集合 2 中所有功能都很好两个集合视图 just 当我在 Collection 2 中向上滚动时 Collection 1 不会一起
将 svg 与 angularjs ng-repeat 一起使用

我正在学习 AngularJS 我正在尝试使用ng repeat创建一个 svg 图表我有这个html
ArgumentError：参数数量错误（1 为 2）

我对 Rails MVC 和 CRUD 非常陌生我正在尝试使用更新方法来更改帖子的投票数量我的帖子控制器更新方法中有以下代码 def update post Post find params id if params vote up p
将服务绑定到广播接收器

我有一些Service类注册多个警报 In my 广播接收器类我想要接收时方法来调用某些方法Service class 但是我不知道如何将它们绑定在一起我试着做广播接收器一个内部类但后来我遇到了更多错误根本无法发出警报 Tha
Razor 视图看不到 System.Web.Mvc.HtmlHelper

我正在升级到 MVC4 我已按照以下说明进行操作http www asp net whitepapers mvc4 release notes Toc303253806但在我的 Razor 视图和布局中我有错误例如 System Web
Java 1.5 中是否有相当于 .Net 中 Predicate 方法的方法？

具体来说我正在寻找类似的干净符号Collection
使用 Spring Boot 配置 ActiveMQ

我使用 ActiveMQ 作为 Spring Boot 的嵌入式看来 Broker 是通过 ActiveMQConnectionFactory 创建的据我了解配置代理的方法是在使用代理的查询中设置参数如此处所述 http activ
YARN 如何在集群模式下知道 Apache Spark 中的数据局部性

假设有一个 Spark 作业将从 HDFS 读取一个名为 Records txt 的文件并执行一些转换和一个操作将处理后的输出写入 HDFS 作业将提交到YARN集群模式还假设 Records txt 是一个 128 MB 的文件并

YARN 如何在集群模式下知道 Apache Spark 中的数据局部性

YARN 如何在集群模式下知道 Apache Spark 中的数据局部性 的相关文章

随机推荐

热门标签

YARN 如何在集群模式下知道 Apache Spark 中的数据局部性的相关文章