【hadoop_读写流程】

2023-05-16

14_hadoop

补充：
解决 linux 网卡丢失问题：

service NetworkManager stop
chkconfig NetworkManager off
重启网络
systemctl restart network

1.HDFS写流程必会技能（面试可能会问）
操作：
hadoop fs -put ./wc.data /
hadoop fs -ls /
HDFS内部操作步骤：三大步
第一步：
client 调用FileSystem.crete(filepath)和老大进行【RPC】通信
nn会去检查这个路径的文件是否已经存在，是否有权限能够创建这个文件，
此时，任然没有写数据，不关联任何的block块

            老大nn需要根据上传的文件的大小，块大小，和副本数
            来计算要上传多少块和块存储在dn上的位置返回给客户端的【FSdataOutputStream】。
    

第二步：
          客户端Client调用【FSdataOutputStream】对象
            的write方法
            将第一个代码块的第一个副本写在DN节点
            写完去第二个DN节点写第二个副本
             依次类推，当第三个副本写完就返回一个 ack package确认包给DN2节点，
             当DN2节点接收到确认包再等自己写完，就返回一个ack package确认包给DN1
            节点，DN1节点收到确认包，在等自己写完，就返回一个确认包给Client的【FSdataOutputStream对象】
            表示三个副本都写完了
            其他块依次类推。
        
第三步：
            当所有的块写完调用Client的【FSdataOutputStrem对象】的close方法 告诉老大文件写完了

2.HDFS写流程：三大步

第一步：
            Client客户端调用FS.open（filepath）
            与老大NN进行【RPC】通讯，返回该文件的
            部分或者全部block列表以【FSdataInputStream对象】输出


第二步：    
            Client调用【FSdataInputStream】对象的
            read方法，去第一个块的最近的DN进行读取，待读取完成，会去check 如果都成功则关闭与DN的
            通信，若读取失败则会记录当前节点及block信息，下次就不会从这个节点读取。那么九总第二个节
            点读取 然后再去与第二个块的最近DN进行读取，依次类推
            假如当block列表全部读取完成，文件还没有读完继续调用FS.open从NN获取下一批次的block列表
            以此类推
        
        
第三步：
            Client调用【FSdataInputStream】对象的close方法关闭输入流。

3.HDFS 副本放置策略【面试，生产都会用到】
机架：rack

前提：副本数3，机架2
生产上读写操作，选择DN节点进行读取
第一副本：
1.放置在client上传的DN节点
2.Client 不一定在DN节点，随机选择一个DN
第二个副本：
放置在第一个副本的不同机架上的某个DN节点
第三个副本：
与第二个副本相同机架的不同节点上

    补充：如果副本数更多，就随机放置
    
    
4.hdfs 安全模式
        1.安全模式什么时候会打开？
            1.启动hadoop时
            2.hdfs故障时【eg：集群文件块带昂丢失，说明集群不稳定，会进入安全模式】
            3.业务需要：集群维护
        2.安全模式下的状态：
            可读不可写    
        3.手动进入安全模式的命令
            语法：hdfs dfsadmin -safemode <enter | leave | get | wait | forceExit>

补充：
linux：
1.app =》 pid
杀死进程：kill -9 pid 暴力杀死
补充：
kill -num pid
kill -15 pid 告诉进程运行完自动关闭
2.部署基础框架
mysql mysql用户
orcale orcale用户
hadoop 、hive hadoop用户

mysql：
1.每个查询命令都有进程
命令：show processlist;
杀死进程： kill id;
2.创建数据库
bigdata bigdata用户去管理
hive 创建一个hive用户

创建数据库流程：
create database dl2262;    
grant all privileges on dl2262.* to dl2262 identified by '123456';
flush privileges;【刷新权限】

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

读写流程

【hadoop_读写流程】的相关文章

Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in

随机推荐

香橙派如何扩容升级内存？超简单迁移系统到新的SD卡，树莓派也适用

香橙派扩容迁移系统到新的SD卡前言迁移系统新系统测试本文博客地址 xff1a 香橙派迁移系统到新的 SD 卡前言刚开始用香橙派的时候 xff0c 用的是一个 16G 的 SD 卡 xff0c 但随着系统上装的软件越来越多 xff0c
博途（TIA）软件安装教程；博途软件安装常见问题解决办法

博途软件安装教程 xff0c 这里有两位前辈写的非常不错 xff0c 但在具体细节不够充分 xff0c 对于第一次接触此类软件的小伙伴来说不太友好 xff0c 于是在此进行补充 xff0c 并对安装中常见的问题进行一个汇总建议安装时主要
zabbix 监控源代码安装

实验环境 192 168 0 108 server端 192 168 0 109 agent端步骤一配置两台虚拟机确保ip能连网配置l两台主机名 vim etc hostname 配置两台主机hosts文件 cat etc hosts
exec函数与fork函数的配合使用

1 实现功能当父进程检测到输入为1的时候 xff0c 创建子进程把配置文件的字段值 LENG 61 1修改为LENG 61 6 修改掉代码如下 xff1a 将该修改配置文件通过gcc o 编译生成可执行文件changeData xff0
java中的Arrays.sort()的几种用法

目录 1 第一种2 第二种方法3 第三种方法4 额外补充 for each的语法结构直奔主题 Arrays sort 有三种用法 1 第一种 Arrays sort int a 查看源码 span class token keyword
Maven:导出war包时报错Failed to execute goal org.apache.maven.plugins:maven-war-plugin解决方法（全）

出现如下问题的时候是因为在target文件夹下没有生成war文件 Failed to execute goal org apache maven plugins maven war plugin 2 2 war default war o
java框架零基础从入门到精通的学习路线附开源项目面经等（超全）

目录前言1 学习路线2 学习方法前言这篇文章主要总结我之前所学过的框架以及学习路线从实打实的零基础到框架再到项目之后实习工作也在这篇博客中记录我的学习笔记以及在笔记中遇到的配置安装代码bug等错误都从零开始摸索并且记录了下
Java抽象类和接口的详细区别（全）

目录前言1 抽象类2 接口3 两者结合4 面试总结前言这两者经常在笔试以及面试中经常问及 xff0c 甚至在项目实战中还在纠结用哪一种类型今天就此问题详细剖析一下以往我的文章中也有稍微提及 xff1a java框架零基础从入门到精
Python 通过ImageDraw.rectangle 画矩形框

目录 1 函数讲解2 示例代码3 补充cv2 rectangle 1 函数讲解源代码如下 xff1a ImageDraw rectangle xy fill 61 None outline 61 None width 61 1 主要的参数
基于迁移深度学习的遥感图像场景分类

前述根据语义特征对遥感图像场景进行分类是一项具有挑战性的任务因为遥感图像场景的类内变化较大 xff0c 而类间变化有时却较小不同的物体会以不同的尺度和方向出现在同一类场景中 xff0c 而同样的物体也可能出现在不同的场景里理论上 x
reStructuredText文档图片表格等自动编号以及名称修改

number figures 61 True numfig 61 True numfig secnum depth 61 1 numfig format 61 39 figure 39 39 图 s 39 39 code block 39
Robocup 2D仿真足球机器人环境搭建（Ubuntu 16.04）

现在很多高校的学生都在搞RoboCup2D仿真足球机器人 xff0c 而平台的搭建便是一大问题本人也在搭建环境中遇到各种奇奇怪怪的问题 xff0c 有些找了许多网页 xff0c 下面是我对环境搭建中遇到的问题以及解决方法的总结希望能帮
Robocup 2D仿真足球机器人环境搭建快速搭建

虽然之前已经写了Robocup 2D仿真足球机器人环境搭建 xff0c 但是后面我找到了更快搭建环境的方法而且现在很多团队都是在agent底层代码的基础上编写的之前的方法配置的环境运行agent球队代码会出现错误通过找资料得知是有些软
Robocup 2D新手导读（入门总结）

目前 xff0c 我们团队接触Robocup 2D比赛也有好几个月了 xff0c 不得不说这个比赛也有一定难度尤其是对于第一次接触这个比赛的我们来说下面是我的一些总结 xff0c 希望能够帮助你们 1 Robocup 2D的比赛基本
Robocup 2D比赛代码导读（agent底层代码指导）

相信刚开始接触Robocup 2D比赛的萌新 xff0c 都清楚agent的代码看起来是很痛苦的 xff0c 而且不知道从何看起我个人观点看代码先看bhv和role这部分的代码 bhv行为动作的类的代码涉及到球员的进攻跑位防守铲球等
python爬虫接单-资料总结

相信看到我这篇文章的朋友们 xff0c 都是奔着赚钱来的当初我也是冲着爬虫接单可以赚钱 xff0c 一下就报了个将近3000元的爬虫班 python爬虫确实可以接单赚钱后来学会了之后就迫不及待地加入了接单行列也确实赚了一些希望这篇
爬虫Scrapy框架的介绍与使用

Scrapy Scrapy介绍爬取网站数据 xff0c 提取结构数据而编写的爬虫应用框架 Scrapy工作流程图 Scrapy命令 span class token number 1 span 创建Scrapy项目 scrapy star
太难为我了，为了这份P7岗offer，我承受了7轮面试

前言今年的大环境非常差 xff0c 互联网企业裁员的现象比往年更严重了 xff0c 可今年刚好是我的第一个五年计划截止的时间点 xff0c 说什么也不能够耽搁了 xff0c 所以早早准备的跳槽也在疫情好转之后开始进行了但是 xff0
云计算与大数据概论第五周

对于大数据 xff08 Big data xff09 研究机构Gartner给出了这样的定义大数据是需要新处理模式才能具有更强的决策力洞察发现力和流程优化能力来适应海量高增长率和多样化的信息资产麦肯锡全球研究所给出的定义是 xf
【hadoop_读写流程】

14 hadoop 补充 xff1a 解决 linux 网卡丢失问题 xff1a service NetworkManager stop chkconfig NetworkManager off 重启网络 systemctl restart

【hadoop_读写流程】

14_hadoop

【hadoop_读写流程】 的相关文章

随机推荐

热门标签

【hadoop_读写流程】的相关文章