Hadoop HDFS：读取正在写入的序列文件

2023-12-01

我使用的是 Hadoop 1.0.3。

我将日志写入 HDFS 中的 Hadoop 序列文件，在每组日志后调用syncFS()，但我从不关闭该文件（除非我执行每日滚动）。

我想保证的是，当文件仍在写入时，读者就可以使用该文件。

我可以通过 FSDataInputStream 读取序列文件的字节，但如果我尝试使用 SequenceFile.Reader.next(key,val)，它会在第一次调用时返回 false。

我知道数据在文件中，因为我可以使用 FSDataInputStream 或 cat 命令读取它，并且我 100% 确定调用了syncFS()。

我检查了namenode和datanode日志，没有错误或警告。

为什么 SequenceFile.Reader 无法读取我当前正在写入的文件？

您无法确保读取完全写入数据节点侧的磁盘。您可以在文档中看到这一点DFSClient#DFSOutputStream.sync()其中指出：

  All data is written out to datanodes. It is not guaranteed that data has
  been flushed to persistent store on the datanode. Block allocations are
  persisted on namenode.

因此它基本上用当前信息更新名称节点的块映射并将数据发送到数据节点。由于您无法将数据刷新到数据节点上的磁盘，而是直接从数据节点读取数据，因此您会遇到数据在某处缓冲且无法访问的时间范围。因此，您的序列文件读取器会认为数据流已完成（或为空），并且无法读取向反序列化过程返回 false 的其他字节。

如果块被完全接收，则数据节点将数据写入磁盘（它是预先写入的，但不能从外部读取）。因此，一旦达到块大小或文件已提前关闭并最终确定块，您就可以从文件中读取数据。这在分布式环境中完全有意义，因为你的编写者可能会死而无法正确完成一个块——这是一个一致性问题。

因此，解决方法是使块大小非常小，以便更频繁地完成块。但这不是那么有效，我希望您应该清楚您的要求不适合 HDFS。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop HDFS：读取正在写入的序列文件的相关文章

2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
如何使用 python 从 Azure Data Lake Gen 2 读取文件

我有一个文件位于 Azure Data Lake gen 2 文件系统中我想读取文件的内容并进行一些低级更改即从记录中的一些字段中删除一些字符更明确地说有些字段的最后一个字符也为反斜杠由于该值包含在文本限定符中因此字段值会转义
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2

随机推荐

如何动态更改样式表内 CSS 属性的值？

如果我有CSS myclass background FF00FF 和 HTML div class myclass etc div div class myotherclass etc div div class myclass etc
Kubernetes 使用 CronJob 运行作业

有没有办法可以使用 CronJob 资源运行现有作业在 CronJob Spec 模板中我们可以使用标签应用选择器像这样的事情职位规格工作文档链接 apiVersion batch v1 kind Job label name p
Android 解析 XML - 标签解析

我正在尝试构建一个应用程序来读取此提要 http loc grupolusofona pt index php format feed 它工作得很好除了当它到达元素时它只是跳过它将其留空这是我得到的 public class And
Cmake 和 QT5 - 包含仅采用一个参数

来自这个主题 Ubuntu CMake 将什么路径添加到 CMAKE MODULE PATH 我尝试在我的项目中运行 QT5 因为 QT4 不允许我包含 QWebView 按照上述主题的指南我现在有了一个 CMakeList txt cm
JSON 对象放入 Mustache.js 表中

我正在尝试使用 Mustache js 创建一个包含 JSON 对象的表我希望它显示两行但它只显示第二行我怀疑当第一行在循环中再次绑定时第一行会被第二行覆盖我该如何解决这个问题或者我应该遵循更好的结构 JavaScript va
如何在选择更改时重定向到特定 URL？

我有一个下拉菜单可以根据 Ajax 调用自动填充我想在选择更改时重定向到特定 URL jQuery Auto Populate the dropdown menu dd append
Flutter如何处理Image.network错误（如404或错误的url）

如何处理Image network当 url 错误或目的地导致 404 时例如尝试 Image network https image tmdb org t p w92 我已经使用 errorBuilder 处理了与 404 相关的网络图
如何用列表理解的形式表达{2n+3m+1|n,m∈N}？（N是包含0的自然数集合）

如何以列表理解形式表达 2n 3m 1 n m N N是自然数的集合包括0 Shortly 1 3
作为字节的 Ansi 转义序列

有人可以告诉我 ansi 转义序列中的字节吗我现在正在用笔和纸编码所有 ansi 教程都将代码列为 ESC 我需要查看流中的实际字节你们中的一位专家是否愿意以无限量的时间致力于像我这样的迟钝者以字节为单位举例说明一两个序列十分感谢
@property(nonatomic)ivar @property(nonatomic,assign)ivar 相同还是不同？

Are property nonatomic ivar and property nonatomic assign ivar相同还是不同如中所述docs 分配指定 setter 使用简单赋值该属性是默认属性所以不据我所知它们是相同
BeautifulSoup，将抓取结果保存在文本文件中

我正在尝试使用 BeautifulSoup 从表中抓取数据并将其保存到文件中我写了这个 import urllib2 from bs4 import BeautifulSoup url http dofollow netsons org
我们可以在 python-flask 中上传之前计算上传文件大小吗

我有一个简单的 Flask 应用程序我正在上传单个文件但文件大小小于 5MB为此我已经定义了if request content length lt 5 250e 6 setting upload limit to 5MB我的烧瓶应用程
如何在 matplotlib 中的子图中选取一个点并在相邻子图中突出显示它（点区域的扩展）

我想创建一个由一些子图组成的散点图矩阵我从 txt 文件中提取了数据并创建了一个形状数组 x y z p1 p2 p3 数组的前三列表示这些数据来自的原始图像的 x y z 坐标最后三列 p1 p2 p3 表示一些其他参数因此在数组
Vuejs 打字稿 this.$refs..value 不存在

在用 TypeScript 重写我的 VueJs 项目时我遇到了 TypeScript 错误这是具有自定义 v 模型的组件的一部分 html 中的输入字段有一个名为 plate 的引用我想访问它的值该字段上的 input 调用下面编
Firestore 更新数组字段中的单个项目

我在 Firebase Firestore 中有一个类似于下面的文档这里的要点是我有一个名为items里面有物体 name Foo items name Bar meta image xyz png description hello w
如何在回发中停止 HtmlEditorExtender 编码 html？

我有一个用户控件其中包含一个文本框一个HtmlEditorExtender和一个按钮用户控件被加载到父页面中使用LoadControl 每当我单击按钮发布表单时文本框中的任何格式化文本都会被编码这不是应该发生的情况例如如果我加
如何使用 jQuery 防止多个下拉列表中出现重复值

我有 5 个下拉菜单供用户选择他们的偏好所有下拉菜单都有相同的选择如果用户为下拉列表 1 选择了一个值则该选项不应适用于其他下拉列表如此下去对于最后一个下拉列表应该有 4 个不可选择的选项这与对此所做的类似link 但现在我们
在 TensorFlow v1 中隐式启用 TensorFlow v2 行为

作为迁移到 TensorFlow 2 的一部分我希望在 TensorFlow v1 特别是 TensorFlow 1 14 中启用 TensorFlow v2 行为我知道我可以打电话tf enable v2 behavior 来执行此操
如何垂直平移一个元素，使其新位置位于其他两个元素之间？

给定一个标题元素和一个主要内容元素我想在这两个元素之间添加一个栏垂直所以这个 header background yellow height 50px bar background green height 50px main con
Hadoop HDFS：读取正在写入的序列文件

我使用的是 Hadoop 1 0 3 我将日志写入 HDFS 中的 Hadoop 序列文件在每组日志后调用syncFS 但我从不关闭该文件除非我执行每日滚动我想保证的是当文件仍在写入时读者就可以使用该文件我可以通过 FSData

Hadoop HDFS：读取正在写入的序列文件

Hadoop HDFS：读取正在写入的序列文件 的相关文章

随机推荐

热门标签

Hadoop HDFS：读取正在写入的序列文件的相关文章