V-xin:ruyuanhadeng获得600+页原创精品文章汇总PDF
目录
- 一、前情概要
- 二、背景引入
- 三、问题凸现
- 四、Hadoop的优化方案
一、前情概要
这篇文章给大家聊聊Hadoop在部署了大规模的集群场景下,大量客户端并发写数据的时候,文件契约监控算法的性能优化。
看懂这篇文章需要一些Hadoop的基础知识背景,还不太了解的兄弟,可以先看看之前的文章:《兄弟们给我10分钟,带你了解一下大数据技术的入门原理和架构设计!》
二、背景引入
先给大家引入一个小的背景,假如多个客户端同时要并发的写Hadoop HDFS上的一个文件,大家觉得这个事儿能成吗?
明显不可以接受啊,兄弟们,HDFS上的文件是不允许并发写的,比如并发的追加一些数据什么的。
所以说,HDFS里有一个机制,叫做文件契约机制。
也就是说,同一时间只能有一个客户端获取NameNode上面一个文件的契约,然后才可以写入数据。此时如果其他客户端尝试获取文件契约的时候,就获取不到,只能干等着。
通过这个机制,就可以保证同一时间只有一个客户端在写一个文件。
在获取到了文件契约之后,在写文件的过程期间,那个客户端需要