Hadoop配置

2023-05-16

Hadoop配置

文章目录

- Linux shell
- - 配置环境变量
  - 使环境变量生效
  - Hadoop 集群安装配置到两台阿里云linux主机上
  - - Hadoop集群模式安装
    - 实验环境
    - 实验内容
    - - 1.安装jdk
      - 2.下面来修改环境变量
      - 3.安装hadoop
      - 4.下面来修改环境变量
      - 5.修改hadoop hadoop-env.sh文件配置
      - 6.修改hadoop core-site.xml文件配置
      - 7.修改hadoop hdfs-site.xml文件配置
      - 8.修改hadoop yarn-site.xml文件配置
      - 9.mapred-site.xml文件配置
      - 10.修改hadoop slaves文件配置
      - 11.修改hosts文件
      - 12.创建公钥
      - 13.拷贝公钥
      - 14.拷贝文件到所有从节点
      - 15.格式化分布式文件系统
      - 16.启动Hadoop
      - 17.查看Hadoop进程
      - 18.在命令行中输入以下代码，打开Hadoop WebUI管理界面：
      - 19.测试HDFS集群以及MapReduce任务程序
  - Extra Question

Linux shell

配置环境变量

sudo vim /etc/profile

添加以下的export语句

Eg：PATH=$PATH:$HOME/bin
1，$HOME这个代码表示一个环境变量（$），它代表的是当前登录的用户的主文件夹的意思。（就是目录 ~ 的那个）
2，$HOME/bin这个代码指的就是主文件夹下的bin子目录，代表的是文件夹的内部子目录。（注意不是根目录的那个）
3，PATH=$PATH:$HOME/bin这个代码是设置PATH环境变量，就是设置环境变量用等号。首先:冒号是分割符。记得Windows上面也有PATH环境变量，Windows的路径之间的分隔符是;分号。

使环境变量生效

source /etc/profile

Hadoop 集群安装配置到两台阿里云linux主机上

Hadoop集群模式安装

实验环境

Linux Centos 6

实验内容

在Linux系统的服务器上，安装Hadoop3.0.0集群模式。
1.安装jdk

将/data/hadoop目录下jdk-8u161-linux-x64.tar.gz 解压缩到/opt目录下。
```
sudo tar -xzvf /data/hadoop/jdk-8u161-linux-x64.tar.gz -C /opt
```
其中，tar -xzvf 对文件进行解压缩，-C 指定解压后，将文件放到/opt目录下。

下面将jdk1.8.0_161目录重命名为java，执行：
```
sudo mv /opt/jdk1.8.0_161/ /opt/java
```
修改java目录的所属用户和所属组：
```
sudo chown -R dolphin.dolphin /opt/java
```

2.下面来修改环境变量

sudo leafpad /etc/profile

末端添加如下内容：

#java
export JAVA_HOME=/opt/java
export PATH=$JAVA_HOME/bin:$PATH

保存并关闭编辑器

让环境变量生效。

source /etc/profile

刷新环境变量后，可以通过java的家目录找到java可使用的命令。利用java查看版本号命令验证是否安装成功：

java -version

正常结果显示如下

java version "1.8.0_161"
Java(TM) SE Runtime Environment (build 1.8.0_161-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

3.安装hadoop

将hadoop-3.0.0.tar.gz解压缩到/opt目录下。
```
sudo tar -xzvf /data/hadoop/hadoop-3.0.0.tar.gz -C /opt/
```
为了便于操作，我们也将hadoop-3.0.0重命名为hadoop。
```
sudo mv /opt/hadoop-3.0.0/ /opt/hadoop
```
修改hadoop目录的所属用户和所属组：
```
sudo chown -R dolphin.dolphin /opt/hadoop
```

4.下面来修改环境变量

sudo leafpad /etc/profile

末端添加如下内容：

#hadoop
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

保存并关闭编辑器

让环境变量生效。

source /etc/profile

利用hadoop查看版本号命令验证是否安装成功：

hadoop version

正常结果显示如下

Hadoop 3.0.0
Source code repository https://git-wip-us.apache.org/repos/asf/hadoop.git -r c25427ceca461ee979d30edd7a4b0f50718e6533
Compiled by andrew on 2017-12-08T19:16Z
Compiled with protoc 2.5.0
From source with checksum 397832cb5529187dc8cd74ad54ff22
This command was run using /opt/hadoop/share/hadoop/common/hadoop-common-3.0.0.jar

5.修改hadoop hadoop-env.sh文件配置
```
leafpad  /opt/hadoop/etc/hadoop/hadoop-env.sh
```
末端添加如下内容：
```
export JAVA_HOME=/opt/java/
```
保存并关闭编辑器

6.修改hadoop core-site.xml文件配置

leafpad  /opt/hadoop/etc/hadoop/core-site.xml

添加下面配置到
<configuration>与</configuration>
标签之间。

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>

保存并关闭编辑器

7.修改hadoop hdfs-site.xml文件配置
```
leafpad  /opt/hadoop/etc/hadoop/hdfs-site.xml
```
添加下面配置到
<configuration>与</configuration>
标签之间。
```
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
```
保存并关闭编辑器

8.修改hadoop yarn-site.xml文件配置

leafpad  /opt/hadoop/etc/hadoop/yarn-site.xml

添加下面配置到
<configuration>与</configuration>
标签之间。

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.env-whitelist</name>
   <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>

保存并关闭编辑器

9.mapred-site.xml文件配置

leafpad  /opt/hadoop/etc/hadoop/mapred-site.xml

添加下面配置到
与
标签之间。

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

保存并关闭编辑器

10.修改hadoop slaves文件配置
```
leafpad  /opt/hadoop/etc/hadoop/workers
```
覆盖写入主节点映射名和从节点映射名：
```
master
slave1
```
保存并关闭编辑器
11.修改hosts文件

查看master ip地址
```
ifconfig eth0|sed -n '2p'|awk -F " " '{print $2}'|awk -F ":" '{print $2}'
```
记录下显示的ip

打开slave1 节点，做如上操作，记录下显示的ip

编辑/etc/hosts文件：
```
sudo leafpad /etc/hosts
```
添加master IP地址对应本机映射名和其它节点IP地址对应映射名(如下只是样式，请写入实验时您的正确IP)：
```
172.25.200.236 master
8.129.5.124 slave1
```
12.创建公钥

在dolphin用户下创建公钥：
```
ssh-keygen -t rsa
```
13.拷贝公钥

提示：命令执行过程中需要输入“yes”和密码“dolphin”。三台节点请依次执行完成。
```
ssh-copy-id master
```
```
ssh-copy-id slave1
```
测试连接是否正常：
```
ssh master
```
14.拷贝文件到所有从节点
```
scp -r /opt/java/ /opt/hadoop/ slave1:/tmp/
```
至此，主节点配置完成。
15.格式化分布式文件系统
```
hdfs namenode -format
```
16.启动Hadoop
```
/opt/hadoop/sbin/start-all.sh
```
17.查看Hadoop进程

在hadoop主节点执行：

jps

输出结果必须包含6个进程，结果如下：
```
2529 DataNode
2756 SecondaryNameNode
3269 NodeManager
3449 Jps
2986 ResourceManager
2412 NameNode
```
在hadoop从节点执行同样的操作：

jps

输出结果必须包含3个进程，具体如下：
```
2529 DataNode
3449 Jps
2412 NameNode
```
18.在命令行中输入以下代码，打开Hadoop WebUI管理界面：
```
firefox http://master:8088
```
19.测试HDFS集群以及MapReduce任务程序

利用Hadoop自带的WordCount示例程序进行检查集群；在主节点进行如下操作，创建HDFS目录：

hadoop fs -mkdir /dolphin/

hadoop fs -mkdir /dolphin/input

创建测试文件

leafpad /home/dolphin/test

添加下面文字

dolphin

保存并关闭编辑器

将测试文件上传到到Hadoop HDFS集群目录：

hadoop fs -put /home/dolphin/test /dolphin/input

执行wordcount程序：

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount /dolphin/input/ /dolphin/out/

查看执行结果：

hadoop fs -ls /dolphin/out/

如果列表中结果包含”_SUCCESS“文件，代码集群运行成功。

查看具体的执行结果，可以用如下命令：

hadoop fs -text /dolphin/out/part-r-00000

到此，集群安装完成。

Extra Question

如果出现
Call From master/ip to master:8088 failed on connection exception:…

在master主机的hosts文件必须是：

内网ip master
外网IP slave

/opt/hadoop/sbin/start-dfs.sh

g)
如果列表中结果包含”_SUCCESS“文件，代码集群运行成功。

查看具体的执行结果，可以用如下命令：

hadoop fs -text /dolphin/out/part-r-00000

到此，集群安装完成。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hadoop配置的相关文章

如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
如何用snappy解压hadoop的reduce输出文件尾？

我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件归约输出文件以某种
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是
如何配置Hive仓库路径？

我修改了这部分

随机推荐

Android使用代码进行界面布局和改变图标、标题、名称、主界面

一代码进行界面布局 lt xml version 61 34 1 0 34 encoding 61 34 utf 8 34 gt 二 Android Studio改变图标标题名称主界面注意 xff1a 64 表示是在哪个目录或者是
Linux（Ubuntu）系统如何安装Python

Linux 系统是为编程而生的 xff0c 因此绝大多数的 Linux 发行版 xff08 Ubuntu CentOS 等 xff09 都默认自带了 Python 有的 Linux 发行版甚至还会自带两个版本的 Python xff0c 例
如何用python实现多线程爬虫

当单线程python爬虫已经不能满足企业需求时 xff0c 很多程序员会进行改代码或者增加服务器数量 xff0c 这样虽说也能达到效果 xff0c 但是对于人力物力也是一笔不小的消耗如果是技术牛点的 xff0c 正常都会自己重新改写多线程
## Hive分析疫情数据

拿到的数据部分如下 xff1a 4月27日黑龙江境外输入不详 0 45 0 黑龙江卫健委 https m thepaper cn newsDetail forward 7160075 4月27日内蒙古境外输入不详 0 8 0 央
python --根据windows窗口名称、进程pid打开窗口(pygetwindow详解)

pygetwindow详解简介 pygetwindow是一个Python库 xff0c 用于获取操作和管理当前打开的窗口它提供了一些常用的窗口操作方法 xff0c 包括获取窗口句柄 xff0c 获取窗口位置和大小 xff0c 移动和调
Redhat Linux advance Server V2.１无法进入桌面(转)

Redhat Linux advance Server V2 xff11 无法进入桌面转 64 more 64 在本地调试安装了个Redhat Linux advance Server V2 1 xff0c 一共有5张光盘 xff0c 我
Mac上类似于xshell的远程工具：finalshell 和 royal tsx

FinalShell 国产国产国产自己研发的是一体化的的服务器网络管理软件不仅是ssh客户端还是功能强大的开发运维工具充分满足开发运维需求特色功能免费海外服务器远程桌面加速 ssh加速本地化命令输入框支持自动补全
css查找元素注意事项

一 CSS ID 选择器查找元素 1 注意 xff1a 如果元素的ID不唯一 xff0c 或者是动态的或者name以及linktext属性值也不唯一我们就需要考虑用Xpath来查找元素了 xff0c 然后再对元素执行操作不管用什么方式
OS2.3.7:多生产者，多消费者问题

文章目录 0 问题描述1 问题分析2 实现3 总结 0 问题描述桌子上有一只盘子 xff0c 每次只能向其中放入一个水果爸爸专向盘子中放苹果 xff0c 妈妈专向盘子中放橘子 xff0c 儿子专等着吃盘子中的橘子 xff0c 女儿专等着
java 方法名类名命名规范

一命名规范 1 项目名全部小写 2 包名全部小写 3 类名首字母大写 xff0c 如果类名由多个单词组成 xff0c 每个单词的首字母都要大写大驼峰 xff0c 如 xff1a public class MyFirstClass 4 变
Qt arm环境安装

一相关工作准备 Qt opensource 和 Qt everywhere 下载链接版本为5 9 8 arm linux gcc下载链接版本为4 8 3 tslib 下载链接版本为1 21 ps 可以不安装Qt opensou
STM32驱动ST7789V2 tft屏幕

一简介本次教程使用的是1 54寸240 240像素的tft屏幕 xff0c 其接口协议为SPI协议在使用的过程中仅需要四根数据即可驱动点亮屏幕然后硬件使用的是STM32F103C8T6核心板 xff0c 用的是SPI2 一般购买屏幕
linux设置复杂度策略、登录超时处理功能

1 在字符终端下 xff0c 实现某一用户连续错误登陆N次后 xff0c 就锁定该用户X分钟 pam tally2 执行 vi etc pam d login 在 PAM 1 0 下新起一行 xff0c 加入 auth required p
飞控陀螺仪，磁力计，加速计，四元数姿态结算

MPU6050主要包含陀螺仪和加速度计陀螺仪主要测量角速度 xff0c 即可以测出某一时间段物体转过的角度加速度计测量的是物体的加速度 xff0c 重力加速度即物体受重力作用的情况下具有的加速度 xff0c 物体静止时 xff0c 加速
智慧物业管理系统（Springboot）

开发工具 xff1a IDEA xff0c jdk1 8 数据库 xff1a mysql5 7 前台框架 xff1a layui 后端技术 xff1a springboot 项目描述 xff1a 1 前台住户登录 2 智慧物业管理后台 2
北京大学2020公开课 AVL-Python实现代码

class TreeNode def init self key val left 61 None right 61 None parent 61 None self key 61 key self payload 61 val self
Docker-2020详细教程＜配合千锋Java学习营＞

Docker 2020详细教程 lt 配合千锋Java学习营 gt 2020 Docker最新超详细版教程通俗易懂一 Docker介绍 1 下载Dcoker依的赖环境想安装Docker xff0c 需要先将依赖的环境全部下载下来 xff
使用阿里云部署Flask网页

使用阿里云部署Flask网页前端网页部署阿里云apache CentOS 配置好Apache后 xff0c 将一整个html css js文件全部copy进 var www html目录下之后就可以通过访问IP地址访问到你的index
MapReduce的个人理解

MapReduce的个人理解文章目录 MapReduce模型简介Map和Reduce函数这里给出一个简单实例 MapReduce的工作流程工作流程概述MapReduce的各个执行阶段 Shuffle过程详解Shuffle过程简介Map端的
Hadoop配置

Hadoop配置文章目录 Linux shell配置环境变量使环境变量生效Hadoop 集群安装配置到两台阿里云linux主机上Hadoop集群模式安装实验环境实验内容1 安装jdk2 下面来修改环境变量3 安装hadoop4 下面来修改

Hadoop配置

Hadoop配置

文章目录

Linux shell

配置环境变量

使环境变量生效

Hadoop 集群安装配置到两台阿里云linux主机上

Hadoop集群模式安装

实验环境

实验内容

1.安装jdk

2.下面来修改环境变量

3.安装hadoop

4.下面来修改环境变量

5.修改hadoop hadoop-env.sh文件配置

6.修改hadoop core-site.xml文件配置

7.修改hadoop hdfs-site.xml文件配置

8.修改hadoop yarn-site.xml文件配置

9.mapred-site.xml文件配置

10.修改hadoop slaves文件配置

11.修改hosts文件

12.创建公钥

13.拷贝公钥

14.拷贝文件到所有从节点

15.格式化分布式文件系统

16.启动Hadoop

17.查看Hadoop进程

18.在命令行中输入以下代码，打开Hadoop WebUI管理界面：

19.测试HDFS集群以及MapReduce任务程序

Extra Question

Hadoop配置 的相关文章

随机推荐

热门标签

Hadoop配置的相关文章