合并hdfs文件

2024-01-09

我在 HDFS 中有 1000 多个可用文件，命名约定为1_fileName.txt to N_fileName.txt。每个文件的大小为 1024 MB。我需要将这些文件合并到一个（HDFS）中，并保持文件的顺序。说5_FileName.txt应该只附加在之后4_fileName.txt

执行此操作的最佳和最快方法是什么？

有没有什么方法可以执行这种合并而不在数据节点之间复制实际数据？例如：获取该文件的块位置并使用这些块位置在 Namenode 中创建一个新条目（FileName）？

没有有效的方法可以做到这一点，您需要将所有数据移动到一个节点，然后返回到 HDFS。

用于执行此操作的命令行脚本如下：

hadoop fs -text *_fileName.txt | hadoop fs -put - targetFilename.txt

这会将与 glob 匹配的所有文件捕获到标准输出，然后您将该流传输到 put 命令并将该流输出到名为 targetFilename.txt 的 HDFS 文件

你遇到的唯一问题是你所选择的文件名结构 - 如果你有固定宽度，用零填充数字部分会更容易，但在当前状态下你会得到一个意想不到的词典顺序（1, 10, 100, 1000 、 11、 110 等）而不是数字顺序（1、2、3、4 等）。您可以通过将 scriptlet 修改为以下方式来解决此问题：

hadoop fs -text [0-9]_fileName.txt [0-9][0-9]_fileName.txt \
    [0-9][0-9[0-9]_fileName.txt | hadoop fs -put - targetFilename.txt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

合并hdfs文件的相关文章

Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要

随机推荐

如何在 Windows 中设置 MCR_CACHE_ROOT

我知道这可能是一个简单的问题但如何在 Windows 中设置 MCR CACHE ROOT 可以给我详细的步骤吗我应该在哪里指向 MCR CACHE ROOT 的路径以加快编译的应用程序启动时间对于 Windows 7 您可以将其设置
获取 NSTableView 中内容的高度

有没有办法获得内容的高度NSTableView 在 iOS 中您可以使用 contentSize的方法UIScrollView 但是那 contentSize的方法NSScrollView似乎只返回可见部分的高度NSScrollView
为什么对 UUID 进行 MD5 处理不是一个好主意？

PHP 有一个uniqid https www php net manual en function uniqid php生成某种 UUID 的函数在使用示例中它显示了以下内容 token md5 uniqid 但在评论中有人这么说
如何知道中断是否被禁用？

有什么方法或有用的函数可以知道中断是否被禁用您可以使用irqs disabled 功能 include
在信标上循环

Override public void onBeaconServiceConnect BeaconManager beaconManager BeaconManager getInstanceForApplication this bea
如何处理作为单个指令的操作数的多个溢出值？

我想实施线性扫描寄存器分配Poletto 和 Sarkar 提出的算法 http www seas gwu edu hchoi teaching cs160d linearscan pdf 它非常简单为每个活动间隔分配一个寄存器或堆栈位置
调用未定义的方法 MongoDB\Driver\ReadConcern::isDefault()

我真的不知道问题是什么 https i stack imgur com KeeOb png class RegisterController extends Controller public function store request
更改ckeditor的背景？

如何更改用户键入文本的 CKEditor 的背景颜色我需要动态地执行此操作但找不到需要更改的元素知道如何瞄准它吗您可以尝试 CKEDITOR instances editor1 document getBody setStyle b
检查密码是否包含字母数字和特殊字符

如何检查字符串passwordText是否至少包含 1 个字母字符 1 号 1 个特殊字符符号尝试这个 bool result passwordText Any c gt char IsLetter c passwordText Any
Android 中的无效区域是什么？

在 Android如何绘制视图主题下有这样一句话绘图从根节点开始布局要求测量并绘制布局树绘图是通过走树来处理渲染每个相交的视图这无效区域而且我不太理解无效区域这个词这里是引文的来源文章 http develope
Jquery Mobile 弹出菜单不起作用

我正在尝试构建一个虚拟页面来理解 Jquerymobile 但我无法实现菜单单击页面上的菜单按钮处理以下链接 http jquerymobile com branches popup widget docs pages popup i
使用 gson 错误转换 json 预期为 BEGIN_OBJECT，但在第 1 行第 2 列路径 $ 处为 BEGIN_ARRAY

user id 5633795 username Vorago count300 203483 count100 16021 count50 1517 playcount 1634 ranked score 179618425 total
从字符串中删除换行符

我有一个像这样的字符串 var aString This is a string n n This is the second line of the string n n 文本视图内部如下所示 This is a string This
async wait 与 TcpClient 的使用

我最近开始使用新的 C 5 0 async 和 await 关键字我以为我得到了转折但意识到一件事让我怀疑以下是我如何从远程 TcpClient 异步接收数据一旦我接受连接我就调用这个函数 static async void Re
如何在查询字符串中包含特殊字符？

URL http localhost mysite mypage param 123工作正常但是如果我想在其中添加一些特殊字符param like 那么 URL 就变成了http localhost mysite mypage para
Flutter 中的设备国家/地区

我正在尝试在 Flutter 中获取设备国家地区 Android 我用了本教程 https flutter dev docs development accessibility and localization international
尝试在 Cloud Run 中使用 Google Cloud Storage 时调用者没有权限

我正在尝试使用 Cloud Storage 在 Google Cloud Run 上设置 Node 项目使用创建的服务帐户时我遇到了身份验证问题创建服务帐户时我成功下载了 JSON 令牌并使所有内容在本地开发环境中正常运行问题是
为什么 Rails 的“HashWithIn DifferentAccess”将键存储为字符串而不是符号？

我在用enum将数据库中的整数映射到 ruby 代码中的语义值但是我注意到它使用的键是字符串当我检查哈希的类型时我发现它是一个ActiveSupport HashWithIndifferentAccess 不是一个标准Hash 这是有
django 和 mod_wsgi 的配置问题

我在让 django 使用 mod wsgi 在 apache 2 2 上工作时遇到问题 Django 和 mod wsgi 都已安装我什至可以在访问路径时看到 404 页面并且可以登录 django admin 但如果我想安装标记模块
合并hdfs文件

我在 HDFS 中有 1000 多个可用文件命名约定为1 fileName txt to N fileName txt 每个文件的大小为 1024 MB 我需要将这些文件合并到一个 HDFS 中并保持文件的顺序说5 FileName

合并hdfs文件

合并hdfs文件 的相关文章

随机推荐

热门标签

合并hdfs文件的相关文章