在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

2024-05-27

我正在编写一个 M/R 作业，该作业处理以二进制格式编写的大型时间序列数据文件，如下所示（此处换行以提高可读性，显然，实际数据是连续的）：

TIMESTAMP_1---------------------TIMESTAMP_1
TIMESTAMP_2**********TIMESTAMP_2 
TIMESTAMP_3%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%TIMESTAMP_3
.. etc

其中时间戳只是一个 8 字节结构，可通过前 2 个字节进行识别。实际数据限于重复值时间戳之间，如上所示，并且包含一个或多个预定义结构。我想编写一个自定义输入格式，它将向映射器发出键/值对：

< TIMESTAMP_1, --------------------- >
< TIMESTAMP_2, ********** >
< TIMESTAMP_3, %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% >

从逻辑上讲，我想跟踪当前的情况TIMESTAMP，并汇总所有数据，直到TIMESTAMP再次检测到，然后发送我的<TIMESTAMP, DATA>配对作为记录。我的问题是在内部的拆分之间同步RecordReader，所以如果某个读者收到以下分割

# a split occurs inside my data
reader X: TIMESTAMP_1--------------
reader Y: -------TIMESTAMP_1 TIMESTAMP_2****..

# or inside the timestamp
or even: @@@@@@@TIMES
         TAMP_1-------------- ..

解决这个问题的好方法是什么？我是否有一种简单的方法来访问文件偏移量，以便我的CustomRecordReader可以在拆分之间同步而不丢失数据吗？我觉得我在如何处理分割方面存在一些概念上的差距，所以也许对这些的解释可能会有所帮助。谢谢。

一般来说，创建支持分割的输入格式并不简单，因为您应该能够找出从分割边界移动到哪里以获得一致的记录。 XmlInputFormat 是这样做的格式的一个很好的例子。
我建议首先考虑您是否确实需要可拆分输入？您可以将输入格式定义为不可拆分，这样就不会出现所有这些问题。
如果您的文件通常不会比块大小大很多 - 您不会丢失任何东西。如果他们这样做 - 您将失去部分数据局部性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader 的相关文章

MongoDB - 使用聚合框架或 MapReduce 来匹配文档中的字符串数组（配置文件匹配）

我正在构建一个可以比作约会应用程序的应用程序我有一些结构如下的文档 db profiles find pretty id 1 firstName John lastName Smith fieldValues favouriteColou
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
PyMongo 中的 MapReduce

我的蒙戈收藏 Impressions具有以下格式的文档 uid 10 impressions pos 6 id 123 service furniture pos 0 id 128 service electronics pos
在 RavenDB 中创建更多类似的内容

我的域中有这些文档 public class Article public string Id get set some other properties public IList
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
为什么 CouchDB 归约函数接收“键”作为参数

使用 CouchDB 减少功能 function keys values rereduce 这被称为这样 reduce key1 id1 key2 id2 key3 id3 value1 value2 value3 false 问题1 将键
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Mongodb MapReduce 选择最新日期

我似乎无法让我的 MapReduce 缩减功能正常工作这是我的地图功能 function Map day Date UTC this TimeStamp getFullYear this TimeStamp getMonth this T

随机推荐

使用 Ruby 替换文件中的特定行

我有一个如下所示的文本文件 a txt open close open open close open 我需要找到一种方法将第三行替换为 close 我做了一些搜索大多数方法都涉及搜索该行而不是替换它在这里不能真正做到这一点因为我不想
解析 SWIG 接口文件的结构属性

这是我不久前问过的问题的延续为通过参数返回的函数创建类型映射 https stackoverflow com questions 12793973 create a typemap for a function that returns
在一个数据库请求中连接 IQueryable 集合

我使用实体框架我需要连接两个集合例如 IQueryable
自签名证书到验证码证书？

我们通过 ClickOnce 和我们创建的自签名者证书部署了一个 Windows 应用程序我们现在正在寻求从 VeriSign 等证书颁发机构获取 Authenticode 证书当我们开始使用新证书签署 ClickOnce 清单时我们
在 ADO 查询 (mysql/MyConnector) 中使用参数

今天我下载并安装了 MyConnector 这样我就可以通过 ADO 使用 Mysql 一切都安装好了我可以与 ODBC 连接并从我的 delphi 环境进行连接当我在运行时构建查询时我收到一条错误消息项目 Project1 exe
Kubernetes 上的气流：Errno 13 - 权限被拒绝：'/opt/airflow/logs/scheduler

我在 Kubernetes 上运行 Airflow稳定舵图 https github com helm charts tree master stable airflow 我在 AWS 环境中运行它无论是否安装任何用于日志存储的外部卷都
SecurityContextHolder.getContext().getAuthentication() 返回 null

我想使用以下代码手动绕过 spring Security 的用户 User localeUser new User UsernamePasswordAuthenticationToken auth new UsernamePasswordA
角色和任务可以存在于同一个剧本中吗？

file main yml hosts fotk remote user fakesudo tasks name create a developer user user name user password password shell
Django - 以表单形式访问 request.session

我按如下方式调用表单然后将其传递给模板 f UserProfileConfig request 我需要能够访问表单中的 request session 所以首先我尝试了这个 class UserProfileConfig forms Fo
在无服务器的 Express 应用程序中使用 swagger 多次重定向到 swagger 端点

我正在使用express serverless制作一个应用程序我想在离线开发期间使用swagger jsdoc和swagger ui express 这是我的 swagger 配置 const express require server
我可以在不同的计算机上使用相同的虚拟环境吗

在我的办公室电脑上我做了virtualenv one for rule them all在 Dropbox 文件夹中我想在工作和家庭中使用这个环境这可能吗目前我还没有成功考虑使用relocatablevirtualenv 的选项
需要帮助编写扭曲的代理

我想编写一个简单的代理可以对请求页面正文中的文本进行打乱我已经阅读了 stackoverflow 上的部分扭曲文档和其他一些类似的问题但我有点菜鸟所以我仍然不明白我现在就是这样不知道如何访问和修改页面 from twisted
在 iPhone 应用程序中获取路线和路线导航

我正在开发一款应用程序该应用程序将重点关注在驾驶时为用户提供路线和逐段指示他们在驾驶过程中留在应用程序中非常重要因此我真的不想让他们离开应用程序并转到内置的地图应用程序我最近对如何包含此功能进行了大量研究众所周知这并不容易因为
如何在 G-WAN 中添加 HTTP/2

我想知道是否可以通过使用解决方案 nghttp2 https nghttp2 org https nghttp2 org 很抱歉这么晚才回答出于某种原因 Stackoverflow 没有通知我们这个问题我之所以找到它只是因为收到了更新的
使用 C++20 概念避免 std::function

过去当我想要回调作为函数参数时我通常决定使用std function 在极少数情况下我绝对从不使用捕获我使用了typedef改为函数声明因此通常我的带有回调参数的声明看起来像这样 struct Socket void on re
neo4j：CYPHER查询节点的所有属性

我们正在评估 Neo4J 的未来项目目前只是尝试学习 Cypher 及其功能但到目前为止我认为应该非常简单的一件事却让我无法理解我希望能够查看任何给定节点的所有属性及其值在 SQL 中会是这样的 select from Tabl
无法 HEAD 'https://jcenter.bintray.com/com/facebook/react/react-native/maven-metadata.xml'。从服务器收到状态代码 502：网关错误

我正在尝试为 Android 构建我的 React Native 项目并在 Windows 上收到以下错误但它在 Mac 上工作 react native run android info Running jetifier to mig
使用 WaitHandle.WaitAll 时是否可以对 ThreadPool 中的任务进行分组/隔离？

我面临的情况如下因为 ThreadPool 每个进程有 1 个实例所以我的问题是方法 1 会在 3 秒后取消按方法 2 排队的任务 http请求进来 method 1 gets executed first ThreadPool Que
您的 SQL 语法有错误；检查与您的 MariaDB 服务器版本相对应的手册，了解使用 nea 的正确语法[重复]

这个问题在这里已经有答案了我收到这个错误 ERROR ERRORINSERT INTO new comp reg phno fullname address dept desc VALUES 您的 SQL 语法有错误检查与您的 Mari
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME

在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader 的相关文章

随机推荐

热门标签