Spark 使用数据局部性吗？

2024-01-09

我正在尝试了解 Apache Spark 的内部结构。我想知道 Spark 是否使用某些机制来确保从 InputFormat 读取或写入 OutputFormat（或 Spark 本机支持的其他格式而不是从 MapReduce 派生的格式）时的数据局部性。

在第一种情况（阅读）中，我的理解是，当使用InputFormat时，分割与包含数据的主机（或多个主机？？）相关联，因此Spark尝试将任务分配给执行器，以尽可能减少网络传输尽可能。

就写作而言，这样的机制如何运作？我知道从技术上讲，HDFS 中的文件可以本地保存在任何节点中并复制到其他两个节点（因此您使用网络进行 3 个副本中的两个），但是，如果您考虑写入其他系统，例如 NoSQL 数据库（ Cassandra、HBase、其他..），此类系统有自己的数据分发方式。有没有办法告诉spark以一种基于输出接收器（目标NoSQL数据库，本机或通过OutputFormat看到）期望的数据分布优化数据局部性的方式对RDD进行分区？

我指的是 Spark 节点和 NoSQL 节点位于同一物理机器中的环境。

如果您在同一台物理机上使用 Spark 和 Cassandra，则应该查看Spark-Cassandra-连接器 https://github.com/datastax/spark-cassandra-connector它将确保读取和写入的数据局部性。

例如，如果您将 Cassandra 表加载到 RDD 中，连接器将始终尝试在每个节点上本地对该 RDD 执行操作。当您将 RDD 保存到 Cassandra 中时，连接器也会尝试在本地保存结果。

假设您的数据已经在 Cassandra 集群中保持平衡。如果你的 PartitionKey 没有正确完成，你最终会得到一个不平衡的集群。

还要注意 Spark 上的混排作业。例如，如果您在 RDD 上执行 ReduceByKey，那么无论如何您最终都会在网络上传输数据。因此，请务必仔细计划这些工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 使用数据局部性吗？的相关文章

获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
如何使用hbase协处理器实现groupby？

最近学习了hbase协处理器我使用endpoint来累加hbase表的一列例如名为 pendings 的hbase表它的家族是 asset 我累加了 asset amount 的所有值该表还有其他列例如 asset custom
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
如何使用 cqlsh 将 Cassandra 连接到本地主机？

我将 rpc port 设置为公共 IP 地址现在我可以从外部服务器正常连接到 Cassandra 但是我无法使用 cqlsh 从 Cassandra 服务器本身进行连接我收到一个错误即 Connection error Could
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
如何在 Cassandra 中存储无符号整数？

我通过 Datastax 驱动程序在 Cassandra 中存储一些数据并且需要存储无符号 16 位和 32 位整数对于无符号 16 位整数我可以轻松地将它们存储为有符号 32 位整数并根据需要进行转换然而对于无符号 64 位整
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
HIVE - 使用WITH CLAUSE插入覆盖

我有一个生成的查询以WITH子句开头当我在控制台中运行它时当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时该查询工作正常 INSERT OVERWRITE TABLE proc db master
如何配置Hive仓库路径？

我修改了这部分

随机推荐

如何捕获 ASCX 控件（而不是隐藏代码）引发的异常？

我有一个很大的 ASPX 页面其中包含许多 ASCX 控件如果控件引发异常它应该记录异常并仅隐藏其自身所有其他控件仍应呈现如何处理从前端文件 ASCX 而不是代码隐藏引发的各个 ASCX 的异常例如尝试使用以下方法引用无效属
算法 CRC-12

我正在尝试对 12 位 CRC 和算法执行 crc table 但总是得到错误的结果你能帮助我吗要创建 crc 表我尝试 void crcInit void unsigned short remainder int dividend
为什么我的 Perl 代码中会收到“调用得太早以检查原型”警告？

我有一个像这样的 Perl 文件 use strict f1 sub f3 f2 sub f1 sub f2 简而言之 f1在定义之前被调用因此 Perl 发出警告 f1 调用得太早无法检查原型但情况也是如此f2 唯一的区别是它是从另
如何抑制整个命名空间文件的 StyleCop 警告

我正在使用 Style Cop 版本 4 7 全局抑制并不适用于选定命名空间的每个成员我在同一命名空间 StyleCopSample Test 中有两个文件当我在第一个文件中设置抑制消息时仅针对该文件抑制消息但第二个文件仍然会收到警
R 裁剪栅格的无数据

我想裁剪一些栅格的无数据部分图像的示例1 https i stack imgur com hkr4d png其中无数据为黑色无需手动定义范围任何想法您可以使用trim删除只有外部行和列NA values library raster
同时是 Kotlin 成员和扩展

为了更多地了解 Kotlin 并使用它我正在开发一个示例 Android 应用程序我可以在其中尝试不同的事情然而即使在搜索该主题一段时间后我仍无法找到以下问题的正确答案让我们在 View 类上声明一个虚拟扩展函数 fun V
当我的程序出现分段错误时，即使设置了 RUST_BACKTRACE=1，为什么我也得不到回溯？

我想查看随机分段错误的回溯所以我设置了RUST BACKTRACE 1环境变量通常它会打印回溯信息但这次不打印为什么不RUST BACKTRACE work RUST BACKTRACE 1 target debug grin mi
重写 Javascript Map 的相等函数

我想在 Javascript 中创建一个 Map 字典其中键是数字数组值是某个对象我想从地图中检索以前使用相同数组内容存储的值即如果我有一个包含某些内容的数组我想检索以前为具有相同内容的数组存储的值如果有在大多数其他语言中
异步/等待和缓存

我的服务层正在缓存大量对 memcached 的 Db 请求这是否导致无法使用 Async Await 例如我怎么能等待这个 public virtual Store GetStoreByUsername string username
NSString 内部结构 - 长度如何工作？

我有一个关于 NSString 内部结构的问题我想检查字符串长度基本上我想知道 NSString 是否知道它的长度每次计数计数并缓存结果我应该存储它的长度并每次计算或调用长度方法吗为了测试一个字符串我可以测试 nil 或询问它
xml dom解析器在java中按名称查找标签

我有一个 xml 我只想获取城市和温度我尝试了以下方法 HttpParams httpParameters new BasicHttpParams HttpClient httpclient new DefaultHttpClient h
在 Word2Vec 中合并预训练模型？

我已经下载了 1000 亿字的 Google 新闻预训练矢量文件除此之外我还在训练自己的 3GB 数据生成另一个预训练的矢量文件两者都有 300 个特征维度和超过 1GB 的大小我如何合并这两个巨大的预训练向量或者我如何训练一个
C# 中的映射的映射相当于什么

在 C 中我正在使用map
MVP模式（GWT）的优点是什么

我刚刚读过本文 http code google com intl de DE webtoolkit doc latest DevGuideMvpActivitiesAndPlaces html这确实让我很困惑其次此模型允许我们最大限度
什么是控制器类？ [复制]

这个问题在这里已经有答案了什么是控制器类例如 uiviewcontroller uiviewcontroller 和 uiview 有什么区别谢谢 Cocoa 使用面向对象编程中的模型控制器视图概念进行工作在此系统中模型由存储
如何获取 NameValueSectionHandler 类型的 ConfigurationSection 的值

我正在使用 C Framework 3 5 VS 2008 我正在使用ConfigurationManager将配置不是默认的 app config 文件加载到 Configuration 对象中使用 Configuration 类
解析 SDK 1.7.1 无法在 Xcode 6.3 中工作

我的代码在 Xcode 6 2 中运行良好更新到 Xcode 6 3 后我遇到了一些 Nullabilty 错误下载 Parse SDK 1 7 1 后我可以解决这些错误所以我删除了项目中旧的 Parse 框架文件并将新的粘贴到其
将浮点数转换为无符号整数，同时保留顺序

我找到了很多关于 SO 的答案专注于转换float to int 我只处理正浮点值我一直在使用的一种简单方法是 unsigned int float2ui float arg0 float f arg0 unsigned int r u
设计 RESTful 登录服务

我经历过类似的问题here https stackoverflow com questions 4608225 how do i implement login in a restful web service 但我还不清楚概念这是我的场
Spark 使用数据局部性吗？

我正在尝试了解 Apache Spark 的内部结构我想知道 Spark 是否使用某些机制来确保从 InputFormat 读取或写入 OutputFormat 或 Spark 本机支持的其他格式而不是从 MapReduce 派生的格式

Spark 使用数据局部性吗？

Spark 使用数据局部性吗？ 的相关文章

随机推荐

热门标签

Spark 使用数据局部性吗？的相关文章