Hadoop 文件分割：CompositeInputFormat：内连接

2024-02-04

我正在使用 CompositeInputFormat 为 hadoop 作业提供输入。

生成的分割数是作为 CompositeInputFormat（用于连接）输入的文件总数。

该作业完全忽略块大小和最大拆分大小（同时从 CompositeInputFormat 获取输入）。这会导致映射任务长时间运行，并且由于输入文件大于块大小而导致系统变慢。

有谁知道可以通过什么方式来管理 CompositeInputFormat 的拆分数量？

不幸的是，CompositeInputFormat 必须忽略块/分割大小。在 CompositeInputFormat 中，输入文件需要进行相同的排序和分区...因此，Hadoop 无法确定在哪里分割文件以维护此属性。它无法确定在哪里分割文件以保持文件组织有序。

解决此问题的唯一方法是手动将文件拆分并分区为更小的分区。您可以通过使用大量缩减器的映射缩减作业（可能只是身份映射器和身份缩减器）传递数据来实现此目的。只要确保使用相同数量的减速器传递两个数据集即可。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

split

MapReduce

Hadoop 文件分割：CompositeInputFormat：内连接的相关文章

更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
在r中拆分数据并将所有拆分文件保存在csv中

我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
R正则表达式获取第二个下划线之前的所有文本

s lt 1 343 43Hello 2 323 14 fdh 99H 在 R 中我想使用正则表达式来获取第二个下划线之前的子字符串如何使用一个正则表达式来完成此操作另一种方法是用分割然后粘贴前两个一些东西 paste sapp
Bash如何使用awk在空行上分割文件

我有一个文本文件 A in 我想将其拆分为多个文件每次发现空行时都应该进行拆分文件名应该是渐进的 A1 in A2 in I found this https stackoverflow com questions 16483507 s
如何将字符串拆分为新行并保留空白行？

给出 ruby 代码 aaaa nbbbb n n split n 这输出 aaaa bbbb 我希望输出包含由 n n 我想要的结果是 aaaa bbbb 获得这个确切结果的最简单最好的方法是什么我建议使用lines代替split为了
如何使用 Dart 将列表拆分或分块为相等的部分？

假设我有一个类似的列表 var letters a b c d e f g h 我想要一个列表每个列表包含 2 个元素 var chunks a b c d e f g h 使用 Dart 执行此操作的好方法是什么这是另一种方法 var
在 RavenDB 中创建更多类似的内容

我的域中有这些文档 public class Article public string Id get set some other properties public IList
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
为什么 CouchDB 归约函数接收“键”作为参数

使用 CouchDB 减少功能 function keys values rereduce 这被称为这样 reduce key1 id1 key2 id2 key3 id3 value1 value2 value3 false 问题1 将键
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Mongodb 聚合数组中的子文档

我正在使用 mongodb 作为后端实现一个小型应用程序在此应用程序中我有一个数据结构其中文档将包含一个包含子文档数组的字段我使用以下用例作为基础 http docs mongodb org manual use cases inv
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this

随机推荐

Eigen::MatrixXd typedef 的替换

全部更换最简单的方法是什么Eigen MatrixXds and Eigen VectorXd具有向量和矩阵long double元素我的代码中的每个基本浮点变量都是类型long double 另外每次使用矩阵或向量时我都会使用以下类
创建超级用户时 Django 2.1 NOT NULL 约束失败

我已经使用 Django 几个月了没有任何问题但是当我创建一个新项目并添加超级用户时出现以下错误 django db utils IntegrityError NOT NULL constraint failed auth user
.Net 中的多播支持

为了实现使用多播向网络中的其他进程发送小型周期性消息的网络应用程序对于在 Net 框架中使用 API 我有哪些选择除了我当前明显的选择 System net sockets API 之外 WCF 是否提供了更简单的方法或者说WCF纯粹
如何将 POST 数据发送到 phantomjs 脚本

我正在使用 PHP CURL 并希望通过设置下面的 postfields 数组将 POST 数据发送到我的 phantomjs 脚本 ch curl init curl setopt ch CURLOPT COOKIEJAR cookieF
如何在 GitLab 中默认并排视图

如何使 Side by side 成为我的 GitLab 安装项目或配置文件的默认差异 2016 年 2 月更新问题现在位于颁发CE 3071 https gitlab com gitlab org gitlab ce issues 3
如何使用 htaccess 将特定域的 www 和非 www 重定向到 https

我需要将 www 和非 www 重定向到 https 我在 stackoverflow 上到处找过但找不到我想要的东西规则是 example com 和 www example com 以及https example com https
如何在 Erlang 中对字符串进行 XML 编码？

我有一个 erlang 字符串其中可能包含 1 gt Unenc string stuff lt ok 是否有一个 Erlang 函数可以解析字符串并对所有需要的 HTML XML 实体进行编码例如 2 gt Enc xmlencode
如何使用 facebook c# SDK 发送 appsecret_proof？

我想在我的 Facebook 应用程序上使用需要应用程序密钥服务器 API 调用需要应用程序密钥但如果我这样做我会收到以下错误 GraphMethodException 100 未指定 appsecret proof 参数描述执
Spark 任务无法使用简单累加器进行序列化？

我正在运行这个简单的代码 val accum sc accumulator 0 Progress listFilesPar foreach filepath gt accum 1 listFilesPar 是一个RDD String 这会引
将 Excel 文件连接到 CPLEX

我要使用 CPLEX 解决优化问题在我的 file dat 中我使用SheetConnection my sheet ExcelFile xls 将 Excel 文件链接到我的 cplex 程序然后我使用SheetRead 从 Exce
Enumerator.MoveNext() 的奇怪行为

有人可以解释为什么这段代码在无限循环中运行吗为什么MoveNext return true always var x new TempList new List
从 RGB 到 BGRA 的快速矢量化转换

在后续关于将 RGB 转换为 RGBA ARGB 转换为 BGR 的一些问题中我想加快RGB 转 BGRA转换为SSE 假设一台 32 位机器并且想使用内在函数我在对齐源缓冲区和目标缓冲区以使用 128 位寄存器时遇到困难并寻求其他
如何正确地将 OData 与 ASP.net Core 集成

我正在尝试使用 OData 和 EntityFramework 创建一个具有简单 Web api 的新 ASP NET Core 项目我以前曾将 OData 与旧版本的 ASP NET 一起使用我已经设置了一个仅具有简单获取功能的控制
如何在反应和表达应用程序中存储身份验证状态

我有反应节点快递应用程序在客户端我使用这样的react router export default function App return div div
如何在Power 8或PPC64机器上安装pytorch？

我正在尝试安装pytorch using conda on Power 8 IBM 机器虽然我读过来自IBM blog https developer ibm com tutorials install pytorch on power
mongoimport 错误 - 失败：连接到数据库服务器时出错：没有可访问的服务器

我目前正在尝试学习 mongodb 但无法找到该问题的解决方案当我运行 mongoimport 命令时出现以下错误 mongoimport host localhost port 27017 db test collection peo
CGAffineTransform重置

3我有一个可以通过触摸操作的图像假设它是一个向上的箭头图像旋转 180 度后箭头现在指向下方我想重置 CGAffineTransform 属性所以它认为现在又回到了 0 度我想要这个是因为无论图像的角度是 0 还是 180 我都必
应用程序更新后 CoreData 崩溃

我有一个非常烦人的问题我有一个 CoreData 应用程序目前正在生产中一切正常我有该应用程序的更新但是每当在原始应用程序上安装更新时该应用程序就会在下面的代码行处崩溃 persistentStoreCoordinator ad
`go modvendor` 命令的目的是什么？

The 文档 https golang org ref mod go mod vendor says go modvendor命令在目录中构造一个名为vendor的目录主模块的根目录包含所有包的副本支持主模块中包的构建和测试所需的仅
Hadoop 文件分割：CompositeInputFormat：内连接

我正在使用 CompositeInputFormat 为 hadoop 作业提供输入生成的分割数是作为 CompositeInputFormat 用于连接输入的文件总数该作业完全忽略块大小和最大拆分大小同时从 CompositeIn

Hadoop 文件分割：CompositeInputFormat：内连接

Hadoop 文件分割：CompositeInputFormat：内连接 的相关文章

随机推荐

热门标签

Hadoop 文件分割：CompositeInputFormat：内连接的相关文章