HDFS 自定义实现函数将文件追加到末尾的问题

2023-05-16

HDFS 自定义实现函数将文件追加到末尾的问题：

在这里插入图片描述

一、实验环境：

Ubuntu16.04
Hadoop2.7.1 伪分布式（只有一个DN）
Eclipse

二、解决方案

Java代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.*;

public class HDFSApi {
    /**
     * 判断路径是否存在
     */
    public static boolean test(Configuration conf, String path) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        return fs.exists(new Path(path));
    }

    /**
     * 复制文件到指定路径
     * 若路径已存在，则进行覆盖
     */
    public static void copyFromLocalFile(Configuration conf, String localFilePath, String remoteFilePath) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        Path localPath = new Path(localFilePath);
        Path remotePath = new Path(remoteFilePath);
        /* fs.copyFromLocalFile 第一个参数表示是否删除源文件，第二个参数表示是否覆盖 */
        fs.copyFromLocalFile(false, true, localPath, remotePath);
        fs.close();
    }

    /**
     * 追加文件内容
     */
    public static void appendToFile(Configuration conf, String localFilePath, String remoteFilePath) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        Path remotePath = new Path(remoteFilePath);
        /* 创建一个文件读入流 */
        FileInputStream in = new FileInputStream(localFilePath);
        /* 创建一个文件输出流，输出的内容将追加到文件末尾 */
        FSDataOutputStream out = fs.append(remotePath);
        /* 读写文件内容 */
        byte[] data = new byte[1024];
        int read = -1;
        while ( (read = in.read(data)) > 0 ) {
            out.write(data, 0, read);
        }
        out.close();
        in.close();
        fs.close();
    }

    /**
     * 主函数
     */
    public static void main(String[] args) {
        Configuration conf = new Configuration();
    	conf.set("fs.default.name","hdfs://localhost:9000");
        String localFilePath = "/home/hadoop/text.txt";    // 本地路径
        String remoteFilePath = "/user/hadoop/text.txt";    // HDFS路径
        String choice = "append";    // 若文件存在则追加到文件末尾
//      String choice = "overwrite";    // 若文件存在则覆盖

        try {
            /* 判断文件是否存在 */
            Boolean fileExists = false;
            if (HDFSApi.test(conf, remoteFilePath)) {
                fileExists = true;
                System.out.println(remoteFilePath + " 已存在.");
            } else {
                System.out.println(remoteFilePath + " 不存在.");
            }
            /* 进行处理 */
            if ( !fileExists) { // 文件不存在，则上传
                HDFSApi.copyFromLocalFile(conf, localFilePath, remoteFilePath);
                System.out.println(localFilePath + " 已上传至 " + remoteFilePath);
            } else if ( choice.equals("overwrite") ) {    // 选择覆盖
                HDFSApi.copyFromLocalFile(conf, localFilePath, remoteFilePath);
                System.out.println(localFilePath + " 已覆盖 " + remoteFilePath);
            } else if ( choice.equals("append") ) {   // 选择追加
                HDFSApi.appendToFile(conf, localFilePath, remoteFilePath);
                System.out.println(localFilePath + " 已追加至 " + remoteFilePath);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

报错信息：Failed to replace a bad datanode the existing pipeline to no more good datanodes begin g available to try.

在这里插入图片描述

直观判定为文件在pineline传输中DN被认为是坏的数据节点，需要新的好的数据节点来确保文件在pineline中传输正常。

官网说明：hdfs-default.xml配置文件

如果写入管道中存在数据节点/网络故障，DFSClient 将尝试从管道中删除失败的数据节点，然后继续使用其余数据节点进行写入。因此，管道中的数据节点数会减少。该功能是向管道添加新的数据节点。这是用于启用/禁用该功能的站点范围的属性(dfs.client.block.write.replace-datanode-on-failure.policy)。当集群大小非常小时（例如 3 个节点或更少），集群管理员可能希望在默认配置文件中将策略设置为 NEVER 或禁用此功能。否则，用户可能会遇到异常高的管道故障率，因为无法找到新的数据节点进行替换。

而且，仅当 dfs.client.block.write.replace-datanode-on-failure.enable 的值为 true 时，才使用此属性。ALWAYS：删除现有数据节点时，始终添加新的数据节点。NEVER：从不添加新的数据节点。默认值：让 r 作为复制编号。设 n 为现有数据节点的数量。仅当 r 大于或等于 3 且（1） floor（r/2）大于或等于 n 时，才添加新的数据节点;或（2） r 大于 n，并且块被hflushed/appended。

在这里插入图片描述

方法一：在Java代码main函数中加入以下两行代码：

conf.set("dfs.client.block.write.replace-datanode-on-failure.policy","NEVER"); 
conf.set("dfs.client.block.write.replace-datanode-on-failure.enable","true");

方法二：在hdfs-site.xml中加入以下代码：

<property>
	<name>dfs.client.block.write.replace-datanode-on-failure.policy</name>
	<value>NEVER</value>
</property>

三、注意点

一般来说，如果集群中DN个数小于等于3 （本机器采用伪分布式模式，只有一个DN，但是为了测试方便，直接开启即可）都不建议开启

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HDFS

自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题的相关文章

Hadoop 2.x——如何配置辅助名称节点？

我有一个旧的 Hadoop 安装我希望将其更新到 Hadoop 2 旧的设置我有一个 HADOOP HOME conf masters 文件指定辅助名称节点浏览 Hadoop 2 文档我找不到任何提及 masters 文件或者
是否可以将数据导入Hive表而不复制数据

我将日志文件以文本形式存储在 HDFS 中当我将日志文件加载到 Hive 表中时所有文件都会被复制我可以避免所有文本数据存储两次吗编辑我通过以下命令加载它 LOAD DATA INPATH user logs mylogfile
解析数百万个小 XML 文件

我有 1000 万个小 XML 文件 300KB 500KB 我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据并使用 SAX 解析器进行解析但处理速度非常慢使用输入文件的压缩 lzo 有助于提高性能吗
Hadoop - 重新启动数据节点和任务跟踪器

我想关闭单个数据节点和任务跟踪器以便我在mapred site xml中所做的一些新更改生效例如mapred reduce child java opts等我该怎么做但是我不想关闭整个集群因为我有正在运行的活动作业另外如何确
HDFS如何计算可用块？

假设块大小为 128MB 则集群有 10GB 因此大约 80 个可用块假设我创建了 10 个小文件这些文件总共占用磁盘上 128MB 块文件校验和复制和 10 个 HDFS 块如果我想向HDFS添加另一个小文件那么HDFS使用
如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit（集群模式）？

我有一个 Spark Spark 1 5 2 应用程序它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容例如 Kafka 主题等现在我想在集群中使用spark submit 集
为什么map任务总是运行在单节点上

我有一个具有 4 个节点的完全分布式 Hadoop 集群当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷但奇怪的事情发生了这 12 个映射任务始终在单个节点上运行而不是在整个
Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
使用Spring批处理从HDFS读取文件

我必须编写一个 Spring 批处理它将从 HDFS 读取文件并更新 MySQL DB 中的数据 HDFS 中的源文件包含一些 CSV 格式的报告数据有人能给我举一个从 HDFS 读取文件的例子吗 Thanks The FlatFile
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
如何使用 python 从 Azure Data Lake Gen 2 读取文件

我有一个文件位于 Azure Data Lake gen 2 文件系统中我想读取文件的内容并进行一些低级更改即从记录中的一些字段中删除一些字符更明确地说有些字段的最后一个字符也为反斜杠由于该值包含在文本限定符中因此字段值会转义

随机推荐

和一个已经浙大本科毕业，现已年入百万的高管交流，交流时长一小时，看看我们究竟谈了什么?

今天下午进行聊天 xff0c 收获很多 xff0c 在这里进行总结整理 xff0c 也方便日后查看文章目录一读博还是不读博 xff1f x1f914 二 ChatGPT的用途 x1f496 三考研值得去思考择校 x1f4ab 四
《定理篇》高等数学、线性代数、概率统计

文章目录一高等数学 xff08 第7版 xff09 同济大学1 1 高数上1 2 高数下二线性代数 xff08 第六版 xff09 同济大学三概率统计 xff08 第四版 xff09 浙江大学一高等数学 xff08 第7版 x
蓝桥杯之单片机学习（终）——关于之前文章的错误及更正（附：第十四届蓝桥杯单片机赛题）

文章目录零吐槽一关于自创模板 xff0c 和自写模板库的问题二关于 96 详解A D D A PCF8591 96 这篇文章一些小错误三模板最终版本main cds1302 hds1302 conewire honewire ci
【缺陷管理】12：BUG背后的故事——缺陷技能提升

如果别人发现一个bug xff0c 自己却没有发现 xff0c 这个是为什么 xff1f 是靠运气如果自己发现一个bug xff0c 别人没有发现 xff1f 是运气 xff0c 还是另有一番玄机 xff1f 感觉背后隐隐约约有一些思考的
对于异步编程的使用方法的整理

本文是我给自己的学习做的一个总结 xff0c 不保证正确性 xff0c 请读到本文的朋友谨慎参考 xff0c 欢迎交流 xff0c 谢谢明确一个问题 xff1a 61 61 61 61 61 61 61 61 61 61 61 61 61
接上一篇，主要写task的使用，没办法发表后再修改搞不好就把文本丢了

3 类 Task 参考资料 xff1a 百度安全验证请高手们说说Task和Thread的区别百度知道面试必备 xff1a 请问C 中Task和Thread有区别吗 xff1f 如果有请简述区别 Run task与thread的区别和使
async/await的学习笔记

1 saycn和await的定义资料 xff1a https www jb51 net article 237968 htm await operator C reference Microsoft Docs async C Refere
基于库函数的stm32单片机的外设使用

本文用于自己的学习记录 xff0c 欢迎交流 1 stm32单片机的外设 STM32单片机有很多外设 xff0c 这里进行一下整理 xff0c 常用的外设有GPIO AFIO EXTI NVIC 在stm32技术手册中可以知道这些外设的位置
eclipse在导入一个Web项目后，配置好Tomcat发现项目打红叉，而WebContent和其他内容没有错误，但是右键run并没有run on Server。

eclipse在导入一个Web项目后 xff0c 配置好Tomcat发现项目打红叉 xff0c 而WebContent和其他内容没有错误 xff0c 但是右键run并没有run on Server 问题描述 xff1a eclipse在导入
23.IMU和里程计融合与单独编码器里程计的对比测试

里程计直接会作为建图或者导航的时候的输入 xff0c 所以起着至关重要的做 xff0c 准确性直接影响建图和导航的效果单独使用轮子编码器得到的里程计与融合了IMU数据的里程计最终效果如何 xff0c 我们这里做个测试来对比下有2种方式测
IDEA的Web项目启动Tomcat出现404错误

IDEA的Web项目启动Tomcat出现404错误 Web项目输出路径 xff1a chapter1 Web exploded 先启动Tomcat xff0c 然后就出现404错误 xff08 如下图所示 xff09 xff0c 启动Tom
彻底卸载Google Chrome

彻底卸载Google Chrome 参考链接 https jingyan baidu com article ea24bc39ffb699da63b33147 html 在删除到注册表的时候 xff0c HKEY LOCAL MACHINE
蓝桥杯JavaB组2013年

蓝桥杯JavaB组 2013年 3 振兴中华入门dfs span class token comment 题目描述 xff1a 小明参加了学校的趣味运动会 xff0c 其中的一个项目是 xff1a 跳格子地上画着一些格子 xff0c 每
Ubuntu的ssh免密登录出现错误

Ubuntu的ssh免密登录出现错误 sign and send pubkey signing failed agent refused operation 错误如下 xff1a sign and send pubkey signing f
OracleVirtualBox界面太小，操作界面对用户不友好？如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢？

OracleVirtualBox界面太小 xff0c 操作界面对用户不友好 xff1f 如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢 xff1f 写在前面 xff0c 个人记录学习笔记仅供参考 xff01 xff
flume报错java.net.ConnectException: 拒绝连接；

flume报错记录 java net ConnectException 拒绝连接 For more details see http wiki apache org hadoop ConnectionRefused 文章目录具体信息解决方
虚拟机在桥接模式下，A类IP地址访问不了外网，C类则可以

虚拟机在桥接模式下 xff0c A类IP地址访问不了外网 xff0c C类则可以写在前面 xff0c 个人学习记录 xff0c 有错误请指正 xff01 Ubuntu网络选择 NAT和桥接网卡模式的区别一 NAT模式 xff1a 特点
Java项目——云R记

Java入门级项目云R记文章目录 Java入门级项目云R记 1 项目介绍 2 需求分析 3 环境搭建 3 1 创建项目 3 2 分层思想 3 3 数据库连接 3 4 单元测试 3 5 使用日志 4 用户模块 5 类型模块 6 云记模块
Linux安装Eclipse

Linux安装Eclipse 文章目录 Linux安装EclipseEclipse国内镜像 Eclipse国内镜像中国科学技术大学 xff1a http mirrors ustc edu cn eclipse eclipse downlo
HDFS 自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题 xff1a 一实验环境 xff1a Ubuntu16 04Hadoop2 7 1 伪分布式 xff08 只有一个DN xff09 Eclipse 二解决方案 Java代码 xff1a sp

HDFS 自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题：

一、实验环境：

二、解决方案

三、注意点

HDFS 自定义实现函数将文件追加到末尾的问题 的相关文章

随机推荐

热门标签

HDFS 自定义实现函数将文件追加到末尾的问题的相关文章