分布式系统详解--框架(Hadoop-集群搭建)

2023-11-01

                 分布式系统详解--框架(Hadoop-集群搭建)

       前面的文章也简单介绍了,hadoop的环境搭建分为三种,单机版,伪分布式,全分布式。这篇文章为介绍hadoop的全分布式的架构搭建。

一、步骤总纲

二、搭建规划

主机名称 IP地址 功能
MyLinux 192.168.71.233 NameNode、DataNode、resourcemanager、nodemanager
centos01 192.168.71.234 DataNode、nodemanager
centos02 192.168.71.235 DataNode、nodemanager

 

 

 

 

 

三、配置hadoop的相关配置文件

3.1 vi ./etc/hadoop/hadoop-env.sh 告诉hadoop jdk的安装目录。

3.2 vi ./etc/hadoop/core-site.xml 

在<configuration></configuration>里面进行配置。

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://Mylinudfs-->0</value>
</property>
<!--配置操作hdfs的缓冲大小--> 
<property>
<name>io.file.buffer.size</name>
<value>4096</value>
</property>
<!--配置临时数据存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/bigdata/tmp</value>
</property>
</configuration>

3.3 vi ./etc/hadoop/hdfs-site.xml 

在<configuration></configuration>里面进行配置。

<configuration>
<!--副本数也叫副本因子-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--块大小-->
<property>
<name>dfs.block.size</name>
<value>134217728</value>
</property>

<!--hdfs存储的元数据位置-->
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoopdata/dfs/name</value>
</property>
<!--hdfs的数据存放位置-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoopdata/dfs/data</value>
</property>


<!--hdfs的检测目录-->
<property>
<name>fs.checkpoint.dir</name>
<value>/home/hadoopdata/checkpoint/dfs/cname</value>
</property>

<!--hdfs的namenode的web ui地址-->
<property>
<name>dfs.http.address</name>
<value>MyLinux:50070</value>
</property>

<!--hdfs的Secondarynamenode 的web ui地址-->
<property>
<name>dfs.secondary.http.address</name>
<value>MyLinux:50090</value>
</property>

<!--是否开启web操作hdfs-->
<property>
<name>dfs.webhdfs.enabled</name>
<value>false</value>
</property>

<!--是否开启hdfs的权限-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

</configuration>

3.4 vi ./etc/hadoop/mapred-site.xml 

因为在 /etc/hadoop/  下面没有mapred-site.xml 但是有一个 mapred-site.xml.template 

先进行拷贝:

mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

在<configuration></configuration>里面进行配置。

<configuration>
<!--指定mapreduce的运行框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<final>true</final>
</property>

<!--历史服务的通讯地址-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>MyLinux:10020</value>
</property>
<!--历史服务的web ui 通讯地址-->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>MyLinux:19888</value>
</property>

</configuration>

3.5 vi ./etc/hadoop/yarn-site.xml 

在<configuration></configuration>里面进行配置。

<configuration>

<!--指定resouceManager 所启动的服务主机名-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>MyLinux</value>
</property>
<!--指定resouceManager 的shuffle  -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<!--指定resouceManager 的内部通信地址  -->
<property>
<name>yarn.resourcemanager.address</name>
<value>MyLinux:8032</value>
</property>

<!--指定resouceManager的scheduler内部通信地址  -->
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>MyLinux:8030</value>
</property>

<!--指定resouceManager的source-tracker内部通信地址  -->
<property>
<name>yarn.resourcemanager.source-tracker.address</name>
<value>MyLinux:8031</value>
</property>

<!--指定resouceManager的admin内部通信地址  -->
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>MyLinux:8033</value>
</property>

<!--指定resouceManager的web ui监控地址  -->
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>MyLinux:8088</value>
</property>

</configuration>

3.6 vi ./etc/hadoop/slaves

MyLinux
centos01
centos02

四、分发hadoop文件到所有机子上去

4.1 删除其他两台机器的hadoop文件(原来是配置了单机安装)

rm -rf /opt/hadoop-2.7.5

4.2 执行命令复制 

scp -r ../hadoop-2.7.5/ centos01:/opt/

scp -r ../hadoop-2.7.5/ centos02:/opt/

如果出现下面的情况:则需要在/etc/hosts 的文件中添加其他主机IP地址。

五、格式化文件

hadoop namenode -format 成功后

查看文件

六、启动

6.1 启动方式

(1)全启动 start-all.sh

(2)模块启动   

start-dfs.sh

start-yarn.sh

(3)单个进程启动

hadoop-daemon.sh start/stop namenode

hadoop-daemons.sh start/stop datanode

yarn-daemon.sh start/stop namenode

yarn-daemons.sh start/stop datanode

mr-jobhistory-daemon.sh start/stop historyserver

6.2 测试模块启动

进入hadoop-2.7.5 输入 ./sbin/start-dfs.sh 要求输入多次密码

(1)进程按照规划出现

A。输入jps 查看进程分别是 服务器MyLinux、centos01、centos02 

B。在sbin目录下面,启动yarn命令 start-yarn.sh

(2)查看对应模块的web ui监控是否正常。192.168.71.233:50070

可以查看网站图示:

倘若出现该服务器步骤一中,进程均已开启,而在windows下访问该端口却无法访问的情况。进行下面的操作。

第一步:开启防火墙 service iptables start

第二步:关闭防火墙 service iptables stop

(3)检测上传下载文件(hdfs),跑mapreduce作业

A。从任意目录中上传文件到hdfs系统的根目录中。

hdfs dfs -put ./README.txt /

解决方案:关闭datanode的防火墙(所有服务器均关闭)

上传完成

命令 hdfs dfs -cat /README.txt 来查看上传的文件打开详情

命令 hdfs dfs -ls /  来查看该hdfs系统下的文件列表

B。跑一个mapreduce作业查询单词数。

yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /README.txt /out/00

查看命令 hdfs dfs -cat /out/part-r-00000

在这里记录了每一个单词的个数,hdfs集群搭建成功。

欢迎订阅公众号(JAVA和人工智能)

                                                                        获取更过免费书籍资源视频资料

                                                     

 

知识点超级链接:

 1,分布式系统详解--基础知识(概论

 2,分布式系统详解--基础知识(线程)

 3,分布式系统详解--基础知识(通信)

 4,分布式系统详解--基础知识(CAP)

 5,分布式系统详解--基础知识(安全)

 6,分布式系统详解--基础知识(并发)

 7,分布式系统详解--架构简介(微服务)

 8,分布式系统详解--Linux(权限)

 9,分布式系统详解--框架(Hadoop-单机版搭建)

10,分布式系统详解--架构(Hadoop-克隆服务器)

11,分布式系统详解--框架(Hadoop-集群搭建)

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

分布式系统详解--框架(Hadoop-集群搭建) 的相关文章

随机推荐

  • 选特化还是重载

    一个函数模板即有特化版又有重载版 编译器会选哪个 以下代码来自 为什么不要特化函数模版 的例3 1 include lt iostream gt 2 3 using namespace std 4 5 template lt class T
  • open-vm-tools与VMware Tools

    安装VMware Tools经常会出现兼容性不好 系统之间复制文件失灵 并且安装时提示建议使用open vm tools 于是放弃vmware tools的安装 尝试使用open vm tools open vm tools 是 VMwar
  • 浅谈汇编器、编译器和解释器

    作者 硬核老王 简单介绍一下编程方式的历史演变 Erik O shaughnessy 作者 在计算机诞生不久的早期年代 硬件非常昂贵 而程序员比较廉价 这些廉价程序员甚至都没有 程序员 这个头衔 并且常常是由数学家或者电气工程师来充当这个角
  • 大型语言模型(LLMs)的幻觉问题【Answer From chatGPT】

    减轻大型语言模型 LLMs 的幻觉问题是一个重要的研究领域 以下是一些减轻LLMs幻觉的方法和建议 更好的数据筛选和预处理 在训练LLMs之前 可以通过更仔细的数据筛选和预处理来减轻幻觉 删除或修复训练数据中的不准确信息和虚假关联可以有助于
  • 新冠肺炎疫情实时数据查询

    一 接口介绍 本接口数据收集于百度 丁香园 无糖科技等网站 感谢参与收集数据的广大网友 数据均由人工收集 虽经细心筛查但不能保证没有错漏之处 仅可作为参考使用 二 接入点功能 今日肺炎疫情明细 回最新的国内covid 19疫情数据 包括各地
  • C#中,处理JSON文件(解析与生成)

    建议用控制台编译方式 首先 添加引用 System Web Extensions 添加Newtonsoft Json库 并且需要应用命名空间 using System Web Script Serialization using Newto
  • Java 重试机制导致重复消费_RocketMQ重试机制及消息幂代码实例解析

    这篇文章主要介绍了RocketMQ重试机制及消息幂代码实例解析 文中通过示例代码介绍的非常详细 对大家的学习或者工作具有一定的参考学习价值 需要的朋友可以参考下 一 重试机制 1 由于MQ经常处于复杂的分布式系统中 考虑网络波动 服务宕机
  • Ubuntu安装mysql以及配置远程连接

    1 安装mysql apt get install mysql server 查看mysql是否安装成功 dpkg l grep mysql server 2 修改mysql root密码 进入mysql mysql u root p 进入
  • 中文编码杂谈

    中文编码杂谈 桂南 编码问题的例子 在windows自带的notepad 记事本 程序中输入 联通 两个字 保存后再次打开 会发现 联通 不见了 代之以 的乱码 这是windows平台上典型的中文编码问题 即文件保存的时候是按照ANSI编码
  • win10配置系统默认utf-8编码

    最近在使用Gvim打开utf 8文件时 出现了中文乱码 于是想把系统默认编码从gbk修改为utf 8 在Win10设置中 系统设置 gt 时间和语言 gt 语言 gt 管理语言设置 gt 更改系统区域设置 gt 勾选Unicode UTF
  • 98-字节输出流写入数据到文件

    写入数据的原理 内存 gt 硬盘 java程序 JVM java虚拟机 OS 操作系统 OS调用系统自己写数据的方法 把数据写入到文件中 字节输出流的使用步骤 重点 1 创建对象 创建一个FileOutputStream对象 构造方法中传递
  • Linux系统:CentOS编译Linux内核

    目录 一 实验 1 下载内核 2 解压内核源码 3 配置依赖的环境 4 进入源码目录 使用make menuconfig开启菜单选项 手动选择内核功能 5 编译内核 6 安装模块 7 安装内核 8 验证新内核版本 一 实验 1 下载内核 1
  • 爬虫python代码-python爬虫(附源码)

    声明 本文内容皆来自网上 环境 ubuntu19 04 python3 x python包 requests bs4 beautifulsoup re urllib lxml os 下载方式 pip install 包名 ps 部分电脑未安
  • 牛顿柯特斯公式及复合形式、龙贝格求积公式,高斯勒让德求积公式

    数值积分的研究实现 牛顿柯特斯公式 柯特斯系数 各阶对应公式 当n 1时 对应的牛顿 柯特斯公式就是是梯形公式 当n 2时 对应的牛顿 柯特斯公式就是辛普森公式 当n 4时 对应的牛顿 柯特斯公式就是柯特斯公式 柯特斯系数表 核心代码实现
  • 从零开发区块链应用(十二)--以太坊余额查询

    文章目录 一 账户状态stateTrie 1 2 查询余额代码思路 1 3 余额查询流程 二 获取账户余额 2 1 代码解析 2 2 完整代码 三 获取账户代币余额 一 账户状态stateTrie Block Header Root 就是s
  • leetcode第五题-最长回文子字符串

    题目 给定一个字符串 s 找到 s 中最长的回文子串 你可以假设 s 的最大长度为 1000 示例 1 输入 babad 输出 bab 注意 aba 也是一个有效答案 示例 2 输入 cbbd 输出 bb 中心扩展算法 回文中心的两侧互为镜
  • Mysql进阶四:常见函数-分组函数

    Mysql进阶四 常见函数 分组函数 分组函数 常用于统计 1 内容 sum max min count avg 2 特点 sum avg 用于处理数值型 max min 用于处理任何数据类型 count 适用处理任何数据类型 用于计算非空
  • 使用ubuntu系统做程序开发

    本人是在台式机上安装的ubuntu16 04长期稳定版来做的开发环境 ubuntu安装后的操作 由于在安装完后 第一件事就是联网 说下我公司网需要的是固定ip 需要在网络设置ipv4 必须注意 是 设置好了马上生效的 需要重新开启打开后 才
  • 模型预处理层介绍(1) - Discretization

    预处理的作用主要在于将难以表达的string或者数组转换成模型容易训练的向量表示 其中转化过程大多是形成一张查询表用来查询 常见的预处理方式包括 class Discretization Buckets data into discrete
  • 分布式系统详解--框架(Hadoop-集群搭建)

    分布式系统详解 框架 Hadoop 集群搭建 前面的文章也简单介绍了 hadoop的环境搭建分为三种 单机版 伪分布式 全分布式 这篇文章为介绍hadoop的全分布式的架构搭建 一 步骤总纲 二 搭建规划 主机名称 IP地址 功能 MyLi