Hadoop 文件分割:CompositeInputFormat:内连接

2024-02-04

我正在使用 CompositeInputFormat 为 hadoop 作业提供输入。

生成的分割数是作为 CompositeInputFormat(用于连接)输入的文件总数。

该作业完全忽略块大小和最大拆分大小(同时从 CompositeInputFormat 获取输入)。这会导致映射任务长时间运行,并且由于输入文件大于块大小而导致系统变慢。

有谁知道可以通过什么方式来管理 CompositeInputFormat 的拆分数量?


不幸的是,CompositeInputFormat 必须忽略块/分割大小。在 CompositeInputFormat 中,输入文件需要进行相同的排序和分区...因此,Hadoop 无法确定在哪里分割文件以维护此属性。它无法确定在哪里分割文件以保持文件组织有序。

解决此问题的唯一方法是手动将文件拆分并分区为更小的分区。您可以通过使用大量缩减器的映射缩减作业(可能只是身份映射器和身份缩减器)传递数据来实现此目的。只要确保使用相同数量的减速器传递两个数据集即可。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 文件分割:CompositeInputFormat:内连接 的相关文章

  • 更改 Hadoop 中的数据节点数量

    如何改变数据节点的数量 即禁用和启用某些数据节点来测试可扩展性 说得更清楚一点 我有4个数据节点 我想一一实验1 2 3 4个数据节点的性能 是否可以只更新名称节点中的从属文件 临时停用节点的正确方法 创建一个 排除文件 这列出了您想要删除
  • 无法在 Windows 10 中启动 Spark Master

    我是 Spark 新手 我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
  • Apache Spark 何时发生混洗?

    我正在优化 Spark 中的参数 并且想确切地了解 Spark 是如何对数据进行洗牌的 准确地说 我有一个简单的字数统计程序 并且想知道spark shuffle file buffer kb如何影响运行时间 现在 当我将此参数设置得非常高
  • 在r中拆分数据并将所有拆分文件保存在csv中

    我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
  • Hadoop-reducer 如何获取数据?

    据我所知 映射器为每个减速器生成 1 个分区 减速器如何知道要复制哪个分区 假设有 2 个节点运行用于字数统计程序的映射器 并且配置了 2 个缩减器 如果每个映射节点生成 2 个分区 并且两个节点中的分区都可能包含相同的单词作为键 那么减速
  • R正则表达式获取第二个下划线之前的所有文本

    s lt 1 343 43Hello 2 323 14 fdh 99H 在 R 中 我想使用正则表达式来获取第二个下划线之前的子字符串 如何使用一个正则表达式来完成此操作 另一种方法是用 分割 然后粘贴前两个 一些东西 paste sapp
  • Bash如何使用awk在空行上分割文件

    我有一个文本文件 A in 我想将其拆分为多个文件 每次发现空行时都应该进行拆分 文件名应该是渐进的 A1 in A2 in I found this https stackoverflow com questions 16483507 s
  • 如何将字符串拆分为新行并保留空白行?

    给出 ruby 代码 aaaa nbbbb n n split n 这输出 aaaa bbbb 我希望输出包含由 n n 我想要的结果是 aaaa bbbb 获得这个确切结果的最简单 最好的方法是什么 我建议使用lines代替split为了
  • 如何使用 Dart 将列表拆分或分块为相等的部分?

    假设我有一个类似的列表 var letters a b c d e f g h 我想要一个列表 每个列表包含 2 个元素 var chunks a b c d e f g h 使用 Dart 执行此操作的好方法是什么 这是另一种方法 var
  • 在 RavenDB 中创建更多类似的内容

    我的域中有这些文档 public class Article public string Id get set some other properties public IList
  • Impala:如何查询具有不同模式的多个镶木地板文件

    在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式 也可以加载镶木地板文件的文件夹 然后我使用 SparkSQL 对数据帧执行一些
  • ETL informatica 大数据版(非云版)可以连接到 Cloudera Impala 吗?

    我们正在尝试在 Informatica 大数据版本 不是云版本 上进行概念验证 我发现我们可能能够使用 HDFS Hive 作为源和目标 但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样 我们是否
  • 错误 hive.HiveConfig:无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

    我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
  • 更改spark_temporary目录路径

    是否可以更改 temporarySpark在写入之前保存临时文件的目录 特别是 由于我正在编写表的单个分区 因此我希望临时文件夹位于分区文件夹内 是否可以 由于其实现原因 无法使用默认的 FileOutputCommiter FileOut
  • 为什么 CouchDB 归约函数接收“键”作为参数

    使用 CouchDB 减少功能 function keys values rereduce 这被称为这样 reduce key1 id1 key2 id2 key3 id3 value1 value2 value3 false 问题1 将键
  • sqoop 通过 oozie 导出失败

    我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常 但是当我通过调用oozie 它出现以下错误并失败 我还包括了罐子 没有描述性日志 sqoop脚本 export c
  • Spark/Yarn:HDFS 上不存在文件

    我在 AWS 上设置了 Hadoop Yarn 集群 有 1 个主服务器和 3 个从服务器 我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行 我在客户端部署模式下测试了 Spark 作业 一切正常 当我尝试使用 Spa
  • Mongodb 聚合数组中的子文档

    我正在使用 mongodb 作为后端实现一个小型应用程序 在此应用程序中 我有一个数据结构 其中文档将包含一个包含子文档数组的字段 我使用以下用例作为基础 http docs mongodb org manual use cases inv
  • 为什么 Spark 比 Hadoop MapReduce 更快

    有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面 但我想补充另外两个重要事实 DAG和生态系统 Spark 使用 惰性求值 来形成连续计算阶段的有向无环图 DAG 通过
  • 将数据框中的每个 x 个字符拆分为字符串

    我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符 例如this one https stackoverflow com questions 23208490 split each character in r and this

随机推荐

  • Eigen::MatrixXd typedef 的替换

    全部更换最简单的方法是什么Eigen MatrixXds and Eigen VectorXd具有向量和矩阵long double元素 我的代码中的每个基本浮点变量都是类型long double 另外 每次使用矩阵或向量时 我都会使用以下类
  • 创建超级用户时 Django 2.1 NOT NULL 约束失败

    我已经使用 Django 几个月了 没有任何问题 但是当我创建一个新项目并添加超级用户时 出现以下错误 django db utils IntegrityError NOT NULL constraint failed auth user
  • .Net 中的多播支持

    为了实现使用多播向网络中的其他进程发送小型周期性消息的网络应用程序 对于在 Net 框架中使用 API 我有哪些选择 除了我当前明显的选择 System net sockets API 之外 WCF 是否提供了更简单的方法 或者说WCF纯粹
  • 如何将 POST 数据发送到 phantomjs 脚本

    我正在使用 PHP CURL 并希望通过设置下面的 postfields 数组将 POST 数据发送到我的 phantomjs 脚本 ch curl init curl setopt ch CURLOPT COOKIEJAR cookieF
  • 如何在 GitLab 中默认并排视图

    如何使 Side by side 成为我的 GitLab 安装 项目或配置文件的默认差异 2016 年 2 月更新 问题现在位于颁发CE 3071 https gitlab com gitlab org gitlab ce issues 3
  • 如何使用 htaccess 将特定域的 www 和非 www 重定向到 https

    我需要将 www 和非 www 重定向到 https 我在 stackoverflow 上到处找过 但找不到我想要的东西 规则是 example com 和 www example com 以及https example com https
  • 如何在 Erlang 中对字符串进行 XML 编码?

    我有一个 erlang 字符串 其中可能包含 1 gt Unenc string stuff lt ok 是否有一个 Erlang 函数可以解析字符串并对所有需要的 HTML XML 实体进行编码 例如 2 gt Enc xmlencode
  • 如何使用 facebook c# SDK 发送 appsecret_proof?

    我想在我的 Facebook 应用程序上使用 需要应用程序密钥 服务器 API 调用需要应用程序密钥 但如果我这样做 我会收到以下错误 GraphMethodException 100 未指定 appsecret proof 参数 描述 执
  • Spark 任务无法使用简单累加器进行序列化?

    我正在运行这个简单的代码 val accum sc accumulator 0 Progress listFilesPar foreach filepath gt accum 1 listFilesPar 是一个RDD String 这会引
  • 将 Excel 文件连接到 CPLEX

    我要使用 CPLEX 解决优化问题 在我的 file dat 中我使用SheetConnection my sheet ExcelFile xls 将 Excel 文件链接到我的 cplex 程序 然后我使用SheetRead 从 Exce
  • Enumerator.MoveNext() 的奇怪行为

    有人可以解释为什么这段代码在无限循环中运行吗 为什么MoveNext return true always var x new TempList new List
  • 从 RGB 到 BGRA 的快速矢量化转换

    在后续关于将 RGB 转换为 RGBA ARGB 转换为 BGR 的一些问题中 我想加快RGB 转 BGRA转换为SSE 假设一台 32 位机器 并且想使用内在函数 我在对齐源缓冲区和目标缓冲区以使用 128 位寄存器时遇到困难 并寻求其他
  • 如何正确地将 OData 与 ASP.net Core 集成

    我正在尝试使用 OData 和 EntityFramework 创建一个具有 简单 Web api 的新 ASP NET Core 项目 我以前曾将 OData 与旧版本的 ASP NET 一起使用 我已经设置了一个仅具有简单获取功能的控制
  • 如何在反应和表达应用程序中存储身份验证状态

    我有反应节点快递应用程序 在客户端 我使用这样的react router export default function App return div div
  • 如何在Power 8或PPC64机器上安装pytorch?

    我正在尝试安装pytorch using conda on Power 8 IBM 机器 虽然 我读过来自IBM blog https developer ibm com tutorials install pytorch on power
  • mongoimport 错误 - 失败:连接到数据库服务器时出错:没有可访问的服务器

    我目前正在尝试学习 mongodb 但无法找到该问题的解决方案 当我运行 mongoimport 命令时 出现以下错误 mongoimport host localhost port 27017 db test collection peo
  • CGAffineTransform重置

    3我有一个可以通过触摸操作的图像 假设它是一个向上的箭头图像 旋转 180 度后 箭头现在指向下方 我想重置 CGAffineTransform 属性所以它认为现在又回到了 0 度 我想要这个是因为无论图像的角度是 0 还是 180 我都必
  • 应用程序更新后 CoreData 崩溃

    我有一个非常烦人的问题 我有一个 CoreData 应用程序 目前正在生产中 一切正常 我有该应用程序的更新 但是每当在原始应用程序上安装更新时 该应用程序就会在下面的代码行处崩溃 persistentStoreCoordinator ad
  • `go modvendor` 命令的目的是什么?

    The 文档 https golang org ref mod go mod vendor says go modvendor命令在目录中构造一个名为vendor的目录 主模块的根目录 包含所有包的副本 支持主模块中包的构建和测试所需的 仅
  • Hadoop 文件分割:CompositeInputFormat:内连接

    我正在使用 CompositeInputFormat 为 hadoop 作业提供输入 生成的分割数是作为 CompositeInputFormat 用于连接 输入的文件总数 该作业完全忽略块大小和最大拆分大小 同时从 CompositeIn