非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

2024-05-18

我已经实例化了 Hadoop 2.4.1 集群，并且发现运行 MapReduce 应用程序的并行化方式会有所不同，具体取决于输入数据所在的文件系统类型。

使用 HDFS，MapReduce 作业将生成足够的容器，以最大限度地利用所有可用内存。例如，一个172GB内存的3节点集群，每个map任务分配2GB，大约会创建86个应用容器。

在不是 HDFS 的文件系统（例如 NFS 或在我的用例中是并行文件系统）上，MapReduce 作业将仅分配可用任务的子集（例如，对于相同的 3 节点集群，大约有 25-40 个容器）创建）。由于我使用的是并行文件系统，因此我并不关心使用 NFS 时会发现的瓶颈。

是否有 YARN (yarn-site.xml) 或 MapReduce (mapred-site.xml) 配置可以让我有效地最大化资源利用率？

这取决于文件系统.

局部性的工作方式是你必须实施获取块位置，对于给定的文件，在 Hadoop FileSYSstem 接口内部。例如，您可以看到：

一个示例实现，来自glusterfs-hadoop 文件系统实现 https://github.com/gluster/glusterfs-hadoop/blob/master/src/main/java/org/apache/hadoop/fs/glusterfs/GlusterVolume.java，在这儿：

public BlockLocation[] getFileBlockLocations(FileStatus file,long start,long len) throws IOException{
    File f=pathToFile(file.getPath());
    BlockLocation[] result=null;

    result=attr.getPathInfo(f.getPath(), start, len);
    if(result==null){
        log.info("Problem getting destination host for file "+f.getPath());
        return null;
    }

    return result;
}

在上面您可以看到文件的元数据是通过 gluster 特定的包装器提供的，这些包装器调用 gluster 特定的命令来确定哪些节点存储文件的实际内容。然后，BlockLocation[] 数组作为作业调度程序的提示，它将尝试将任务本地化到分片确定其块位置的位置。

但最终，调度程序的工作是处理分割，而不是块。因此，分割可以小于或大于文件系统块。如果它较大，则分割的某些部分很可能会通过网络进行流式传输。如果它小得多，那么您可能会获得更多的局部性，但可能会付出更多总体任务数的代价。

优化时，请记住每个输入分割最终都会馈送到映射器。

在 HDFS 中，默认值往往比其他文件系统更好地调整。

通过在 hadoop 兼容文件系统中实现更细粒度的阻塞 (getBlockLocations)，您可以增加块的数量以及这些块的复制。

增加块的数量可以提高特定块在本地上下文中运行的概率。

此外，您还可以在运行时切换输入拆分数量（最大和最小）作为 MapReduce 作业参数的一部分。通过更新此值，您可能会提高性能（即机器的使用），但也可能会降低局部性（更多的分割意味着，如果某些机器本质上更快，mapreduce 可以将分割流式传输到非本地机器，这可能会抢占很多任务。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化的相关文章

如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个

随机推荐

如何将 kubectl 配置文件与 ~/.kube/config 合并？

有没有一个简单的kubectl命令采取kubeconfig文件包含 cluster context user 并将其合并到 kube config 文件作为附加上下文 Do this export KUBECONFIG kube conf
matlab中更快的插值方法

我正在使用 interp1 来插值一些数据 temp 4 30 4 rand 365 10 depth 1 10 dz 0 5 define new depth interval bthD min depth dz max depth ne
更改 3D 图形颜色 (matplotlib)

我使用以下代码在 matplotlib 中绘制了 3D 图形 Previously defines lists of data to plot fig plt figure ax fig add subplot 111 projection
Redux - 从函数调用操作

我正在尝试从函数调用 redux 操作我调用该函数的组件已连接到商店但是如果我通过以下操作它就不起作用 function myFunc action action 有没有办法通过参数传递动作谢谢 using bindActionC
从 arraylist 和 hashmap 中删除重复项

我有一个数组列表其中包含付款人的姓名另一个数组列表包含每次付款的费用例如 nameArray 尼古拉劳尔洛伦佐劳尔劳尔洛伦佐尼古拉价格数组 24 12 22 18 5 8 1 我需要将每个人的费用相加所以数组必须变成
如何用C++实现自然排序算法？

我正在对由文本和数字组成的字符串进行排序我希望排序将数字部分排序为数字而不是字母数字例如我想要 abc1def abc9def abc10def 而不是 abc10def abc1def abc9def 有谁知道这个的算法特别是在c
p2p 通信中的对等方如何相互验证？

WebRTC 中的对等点如何相互验证 WebRTC 中的 DTLS 使用自签名证书 RFC 5763 https www rfc editor org rfc rfc5763具有详细信息简而言之证书指纹与 SDP 的 a fingerp
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
Java .drawImage：如何“取消绘制”或删除图像？

我需要在程序运行时不断在不同位置重绘某个图像因此我设置了一个 while 循环该循环应该在屏幕上移动图像但它只是一遍又一遍地重新绘制图像我究竟做错了什么有没有办法在将旧图像绘制到新位置之前删除旧图像 JFrame frame b
如何使用 Spring Crud/Jpa Repository 实现 DDD

我想通过使用 Spring 实现 DDD 来创建一个应用程序假设我有一个业务实体 Customer 和一个接口 CustomerRepository 由于春天提供了CrudRepository and JpaRepository默认情况下
为什么我不能在 Realm 属性上使用 private

我正在尝试在 RealmSwift 中存储一个枚举案例但 Realm 不支持枚举本文 https medium com it works locally persisting swift enumerations with realm
SQLite CreateDatabase 不支持错误

我将 Entity Framework 4 2 CF 与 SQLite 一起使用但是当我尝试启动该应用程序时出现提供商不支持 CreateDatabase 错误这是我的模型映射 protected override void OnM
覆盖XMLHttpRequest以实现跨域请求

我想知道是否有一个 JavaScript 库可以覆盖XMLHttpRequest并允许透明地处理所有跨域请求并通过我的同源服务器端代理无缝转发它们我想要的是有一个通用的解决方案可以与any用于发出跨域请求的 JavaScript 库
如何获取 Python 中所有内置函数的列表？

我正在尝试整理一个关于如何获取 Python 中所有内置函数的列表的规范示例该文档很好但我想用可证明的方法来演示它在这里我本质上将内置函数定义为默认命名空间的成员这些成员可用且与旨在在模块中使用的函数的风格特征一致即它们提供一
SQL Server：将表达式转换为数据类型 bigint 时出现算术溢出错误

这是我的查询顺序 SELECT CASE WHEN BarCode IS NOT NULL AND ExternelBarCode IS NULL THEN BarCode WHEN BarCode IS NULL AND Externel
创建 Facebook 测试用户时访问令牌出现问题

我正在尝试为我的 Facebook 应用程序创建测试用户他们在 11 月份的博客文章 http developers facebook com blog post 429 中宣布了此功能并在此处记录了该功能 http developer
如何在使用 ajax 和 JQuery 时加密发布数据？

服务器端我们可以对用户进行身份验证但我希望 ajax 或 JQuery 发送数据时数据安全就像在客户端一样某人只能看到加密格式的任何调用的参数那么我该怎么做呢我在这个网站上看到过这个场景 EDIT 当数据来自服务器时我们可以忽略
SSRS - RDLC Tablix 行不会跨页面拆分

我有一个包含两列数据的 Tablix 部分名称和部分文本对于某些部分部分文本变得如此之大以至于代表该部分的行占据了页面的 2 3 或更多报告打印得很好直到这些大行中的其中一个必须在页面末尾拆分并继续在下一页上在这种情况下并且仅
尝试获取 Google accessToken

看起来无论我做什么谷歌都在竭尽全力阻止我完成这个研究项目我的项目让我使用 Google 电子表格作为数据库并使用所述电子表格中的数据执行程序化的 Google 图片搜索并向最终用户显示一些结果设置说明我开始按照此处的说明进行操
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化 的相关文章

随机推荐

热门标签

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化的相关文章