Hadoop配置

2023-05-16

Hadoop配置

文章目录

    • Linux shell
      • 配置环境变量
      • 使环境变量生效
      • Hadoop 集群安装配置到两台阿里云linux主机上
        • Hadoop集群模式安装
        • 实验环境
        • 实验内容
          • 1.安装jdk
          • 2.下面来修改环境变量
          • 3.安装hadoop
          • 4.下面来修改环境变量
          • 5.修改hadoop hadoop-env.sh文件配置
          • 6.修改hadoop core-site.xml文件配置
          • 7.修改hadoop hdfs-site.xml文件配置
          • 8.修改hadoop yarn-site.xml文件配置
          • 9.mapred-site.xml文件配置
          • 10.修改hadoop slaves文件配置
          • 11.修改hosts文件
          • 12.创建公钥
          • 13.拷贝公钥
          • 14.拷贝文件到所有从节点
          • 15.格式化分布式文件系统
          • 16.启动Hadoop
          • 17.查看Hadoop进程
          • 18.在命令行中输入以下代码,打开Hadoop WebUI管理界面:
          • 19.测试HDFS集群以及MapReduce任务程序
      • Extra Question

Linux shell

配置环境变量

sudo vim /etc/profile

添加以下的export语句

Eg:PATH=$PATH:$HOME/bin
1,$HOME这个代码表示一个环境变量($),它代表的是当前登录的用户的主文件夹的意思。(就是目录 ~ 的那个)
2,$HOME/bin这个代码指的就是主文件夹下的bin子目录,代表的是文件夹的内部子目录。(注意不是根目录的那个)
3,PATH=$PATH:$HOME/bin这个代码是设置PATH环境变量,就是设置环境变量用等号。首先:冒号是分割符。记得Windows上面也有PATH环境变量,Windows的路径之间的分隔符是;分号。

使环境变量生效

source /etc/profile

Hadoop 集群安装配置到两台阿里云linux主机上

  • Hadoop集群模式安装

    实验环境

    Linux Centos 6

    实验内容

    在Linux系统的服务器上,安装Hadoop3.0.0集群模式。
    image-20210324200229210

  • 1.安装jdk

    将/data/hadoop目录下jdk-8u161-linux-x64.tar.gz 解压缩到/opt目录下。

    sudo tar -xzvf /data/hadoop/jdk-8u161-linux-x64.tar.gz -C /opt
    

    其中,tar -xzvf 对文件进行解压缩,-C 指定解压后,将文件放到/opt目录下。

    下面将jdk1.8.0_161目录重命名为java,执行:

    sudo mv /opt/jdk1.8.0_161/ /opt/java
    

    修改java目录的所属用户和所属组:

    sudo chown -R dolphin.dolphin /opt/java
    
  • 2.下面来修改环境变量
    sudo leafpad /etc/profile
    

    末端添加如下内容:

    #java
    export JAVA_HOME=/opt/java
    export PATH=$JAVA_HOME/bin:$PATH
    
image-20210324200407803 保存并关闭编辑器

让环境变量生效。

source /etc/profile

刷新环境变量后,可以通过java的家目录找到java可使用的命令。 利用java查看版本号命令验证是否安装成功:

java -version

正常结果显示如下
image-20210324200646610

java version "1.8.0_161"
Java(TM) SE Runtime Environment (build 1.8.0_161-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)
  • 3.安装hadoop

    将hadoop-3.0.0.tar.gz解压缩到/opt目录下。

    sudo tar -xzvf /data/hadoop/hadoop-3.0.0.tar.gz -C /opt/
    

    为了便于操作,我们也将hadoop-3.0.0重命名为hadoop。

    sudo mv /opt/hadoop-3.0.0/ /opt/hadoop
    

    修改hadoop目录的所属用户和所属组:

    sudo chown -R dolphin.dolphin /opt/hadoop
    
  • 4.下面来修改环境变量
    sudo leafpad /etc/profile
    

    末端添加如下内容:

    #hadoop
    export HADOOP_HOME=/opt/hadoop
    export PATH=$HADOOP_HOME/bin:$PATH
    

    保存并关闭编辑器

    让环境变量生效。

    source /etc/profile
    

    利用hadoop查看版本号命令验证是否安装成功:

    hadoop version
    

    正常结果显示如下
    image-20210324200549213

    Hadoop 3.0.0
    Source code repository https://git-wip-us.apache.org/repos/asf/hadoop.git -r c25427ceca461ee979d30edd7a4b0f50718e6533
    Compiled by andrew on 2017-12-08T19:16Z
    Compiled with protoc 2.5.0
    From source with checksum 397832cb5529187dc8cd74ad54ff22
    This command was run using /opt/hadoop/share/hadoop/common/hadoop-common-3.0.0.jar
    
  • 5.修改hadoop hadoop-env.sh文件配置
    leafpad  /opt/hadoop/etc/hadoop/hadoop-env.sh
    

    末端添加如下内容:

    export JAVA_HOME=/opt/java/
    

    保存并关闭编辑器

  • 6.修改hadoop core-site.xml文件配置
    leafpad  /opt/hadoop/etc/hadoop/core-site.xml
    

    添加下面配置到
    <configuration>与</configuration>
    标签之间。

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    

    保存并关闭编辑器

  • 7.修改hadoop hdfs-site.xml文件配置
    leafpad  /opt/hadoop/etc/hadoop/hdfs-site.xml
    

    添加下面配置到
    <configuration>与</configuration>
    标签之间。

    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    

    保存并关闭编辑器

  • 8.修改hadoop yarn-site.xml文件配置
    leafpad  /opt/hadoop/etc/hadoop/yarn-site.xml
    

    添加下面配置到
    <configuration>与</configuration>
    标签之间。

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
       <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    

    保存并关闭编辑器

  • 9.mapred-site.xml文件配置
    leafpad  /opt/hadoop/etc/hadoop/mapred-site.xml
    

    添加下面配置到

    标签之间。

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    

    保存并关闭编辑器

  • 10.修改hadoop slaves文件配置
    leafpad  /opt/hadoop/etc/hadoop/workers
    

    覆盖写入主节点映射名和从节点映射名:

    master
    slave1
    

    保存并关闭编辑器

  • 11.修改hosts文件

    查看master ip地址

    ifconfig eth0|sed -n '2p'|awk -F " " '{print $2}'|awk -F ":" '{print $2}'
    

    记录下显示的ip

    打开slave1 节点,做如上操作,记录下显示的ip

    编辑/etc/hosts文件:

    sudo leafpad /etc/hosts
    

    添加master IP地址对应本机映射名和其它节点IP地址对应映射名(如下只是样式,请写入实验时您的正确IP):

    172.25.200.236 master
    8.129.5.124 slave1
    
  • 12.创建公钥

    在dolphin用户下创建公钥:

    ssh-keygen -t rsa
    
  • 13.拷贝公钥

    提示:命令执行过程中需要输入“yes”和密码“dolphin”。三台节点请依次执行完成。

    ssh-copy-id master
    
    ssh-copy-id slave1
    

    测试连接是否正常:

    ssh master
    
  • 14.拷贝文件到所有从节点
    scp -r /opt/java/ /opt/hadoop/ slave1:/tmp/
    

    至此,主节点配置完成。

  • 15.格式化分布式文件系统
    hdfs namenode -format
    
  • 16.启动Hadoop
    /opt/hadoop/sbin/start-all.sh
    

    image-20210328180809748

  • 17.查看Hadoop进程

    在hadoop主节点执行:

    jps

    输出结果必须包含6个进程,结果如下:
    image-20210324200752332

    2529 DataNode
    2756 SecondaryNameNode
    3269 NodeManager
    3449 Jps
    2986 ResourceManager
    2412 NameNode
    

    在hadoop从节点执行同样的操作:

    jps

    输出结果必须包含3个进程,具体如下:

    2529 DataNode
    3449 Jps
    2412 NameNode
    
  • 18.在命令行中输入以下代码,打开Hadoop WebUI管理界面:
    firefox http://master:8088
    
  • 19.测试HDFS集群以及MapReduce任务程序

    利用Hadoop自带的WordCount示例程序进行检查集群;在主节点进行如下操作,创建HDFS目录:

hadoop fs -mkdir /dolphin/
hadoop fs -mkdir /dolphin/input

创建测试文件

leafpad /home/dolphin/test

添加下面文字

dolphin

保存并关闭编辑器

将测试文件上传到到Hadoop HDFS集群目录:

hadoop fs -put /home/dolphin/test /dolphin/input

执行wordcount程序:

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount /dolphin/input/ /dolphin/out/

查看执行结果:

hadoop fs -ls /dolphin/out/

image-20210324202518121
如果列表中结果包含”_SUCCESS“文件,代码集群运行成功。

查看具体的执行结果,可以用如下命令:

hadoop fs -text /dolphin/out/part-r-00000

image-20210324202554101
到此,集群安装完成。


Extra Question

如果出现
Call From master/ip to master:8088 failed on connection exception:…

在master主机的hosts文件 必须是:

  • 内网ip master

  • 外网IP slave

image-20210328180401241

/opt/hadoop/sbin/start-dfs.sh

g)
如果列表中结果包含”_SUCCESS“文件,代码集群运行成功。

查看具体的执行结果,可以用如下命令:

hadoop fs -text /dolphin/out/part-r-00000

到此,集群安装完成。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop配置 的相关文章

  • 如何按行扩展数组值!!使用 Hive SQL

    我有一个有 4 列的表 其中一列 项目 类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
  • HBase、Hadoop:如何估计 HBase 表或 Hadoop 文件系统路径的大小?

    我有多个 HBase 表 如何估计在 java 中使用的表的大致大小 一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹 所有表格信息 将在场 Hadoop 外壳 你可以检查使用hadoop fs du h path
  • 更改 Hadoop 中的数据节点数量

    如何改变数据节点的数量 即禁用和启用某些数据节点来测试可扩展性 说得更清楚一点 我有4个数据节点 我想一一实验1 2 3 4个数据节点的性能 是否可以只更新名称节点中的从属文件 临时停用节点的正确方法 创建一个 排除文件 这列出了您想要删除
  • 无法在 Windows 10 中启动 Spark Master

    我是 Spark 新手 我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
  • 将 Apache Zeppelin 连接到 Hive

    我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来 我使用 zeppelin 0 7 3 所以没有 hive 解释器 只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
  • Python 包安装:pip 与 yum,还是两者一起安装?

    我刚刚开始管理 Hadoop 集群 我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
  • 使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

    使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦 一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
  • 与文件名中的冒号“:”作斗争

    我有以下代码 用于加载大量 csv gz 并将它们转储到其他文件夹中 并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
  • 为什么我们需要将外部表移动到托管 Hive 表?

    我是 Hadoop 新手 正在学习 Hive 在 Hadoop 权威指南第 3 版中 第 12 页 第428章 最后一段 我不明白下面关于 HIVE 中外部表的段落 一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集 由另一个进
  • Hive NVL 不适用于列的日期类型 - NullpointerException

    我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题 如果表的列类型是 日期 类型 则NVL https cwiki apache org confluence display Hive LanguageManual UDF
  • 使用 Java API 在 Hadoop 中移动文件?

    我想使用 Java API 在 HDFS 中移动文件 我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动 但我想将它们保留在 HDFS 中并将它们移动到那里 我错过了一些基本的东西吗 我能想到的唯一方法是从输
  • Impala:如何查询具有不同模式的多个镶木地板文件

    在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式 也可以加载镶木地板文件的文件夹 然后我使用 SparkSQL 对数据帧执行一些
  • 以不同用户身份运行 MapReduce 作业

    我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业 该集群不是一个安全集群 但它使用简单的组身份验证 因此 如果我以自己的身份通过 ssh 连接到它
  • 如何用snappy解压hadoop的reduce输出文件尾?

    我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件 归约输出文件以某种
  • Spark/Yarn:HDFS 上不存在文件

    我在 AWS 上设置了 Hadoop Yarn 集群 有 1 个主服务器和 3 个从服务器 我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行 我在客户端部署模式下测试了 Spark 作业 一切正常 当我尝试使用 Spa
  • MapReduce 中 1 个任务的减速器数量

    在典型的 MapReduce 设置 如 Hadoop 中 1 个任务使用多少个减速器 例如计算单词数 我对 Google MapReduce 的理解意味着只涉及 1 个减速器 那是对的吗 例如 单词计数会将输入分为 N 个块 并且 N 个
  • Spark中如何获取map任务的ID?

    Spark中有没有办法获取map任务的ID 例如 如果每个映射任务都调用用户定义的函数 我可以从该用户定义的函数中获取该映射任务的 ID 吗 我不确定您所说的地图任务 ID 是什么意思 但您可以使用以下方式访问任务信息TaskContext
  • 缺少依赖项 hive-builtins 会导致 Oozie 构建失败,错误代码为 410

    我尝试从源代码构建 oozie 但安装失败 我想安装 oozie 并热切地等待使用它 我在这个阶段失败了 当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
  • 关于 Hadoop 和压缩输入文件的非常基本的问题

    我已经开始研究 Hadoop 如果我的理解是正确的 我可以处理一个非常大的文件 它会被分割到不同的节点上 但是如果文件被压缩 那么文件就无法分割 并且需要由单个节点处理 有效地破坏了运行一个mapreduce 一个并行机器集群 我的问题是
  • 如何配置Hive仓库路径?

    我修改了这部分

随机推荐

  • Android使用代码进行界面布局和改变图标、标题、名称、主界面

    一 代码进行界面布局 lt xml version 61 34 1 0 34 encoding 61 34 utf 8 34 gt 二 Android Studio改变图标 标题 名称 主界面 注意 xff1a 64 表示是在哪个目录或者是
  • Linux(Ubuntu)系统如何安装Python

    Linux 系统是为编程而生的 xff0c 因此绝大多数的 Linux 发行版 xff08 Ubuntu CentOS 等 xff09 都默认自带了 Python 有的 Linux 发行版甚至还会自带两个版本的 Python xff0c 例
  • 如何用python实现多线程爬虫

    当单线程python爬虫已经不能满足企业需求时 xff0c 很多程序员会进行改代码或者增加服务器数量 xff0c 这样虽说也能达到效果 xff0c 但是对于人力物力也是一笔不小的消耗 如果是技术牛点的 xff0c 正常都会自己重新改写多线程
  • ## Hive分析疫情数据

    拿到的数据部分如下 xff1a 4月27日 黑龙江 境外输入 不详 0 45 0 黑龙江卫健委 https m thepaper cn newsDetail forward 7160075 4月27日 内蒙古 境外输入 不详 0 8 0 央
  • python --根据windows窗口名称、进程pid打开窗口(pygetwindow详解)

    pygetwindow详解 简介 pygetwindow是一个Python库 xff0c 用于获取 操作和管理当前打开的窗口 它提供了一些常用的窗口操作方法 xff0c 包括获取窗口句柄 xff0c 获取窗口位置和大小 xff0c 移动和调
  • Redhat Linux advance Server V2.1无法进入桌面(转)

    Redhat Linux advance Server V2 xff11 无法进入桌面 转 64 more 64 在本地调试安装了个Redhat Linux advance Server V2 1 xff0c 一共有5张光盘 xff0c 我
  • Mac上类似于xshell的远程工具:finalshell 和 royal tsx

    FinalShell 国产 国产 国产 自己研发的 是一体化的的服务器 网络管理软件 不仅是ssh客户端 还是功能强大的开发 运维工具 充分满足开发 运维需求 特色功能 免费海外服务器远程桌面加速 ssh加速 本地化命令输入框 支持自动补全
  • css查找元素注意事项

    一 CSS ID 选择器查找元素 1 注意 xff1a 如果元素的ID不唯一 xff0c 或者是动态的 或者name以及linktext属性值也不唯一 我们就需要考虑用Xpath来查找元素了 xff0c 然后再对元素执行操作 不管用什么方式
  • OS2.3.7:多生产者,多消费者问题

    文章目录 0 问题描述1 问题分析2 实现3 总结 0 问题描述 桌子上有一只盘子 xff0c 每次只能向其中放入一个水果 爸爸专向盘子中放苹果 xff0c 妈妈专向盘子中放橘子 xff0c 儿子专等着吃盘子中的橘子 xff0c 女儿专等着
  • java 方法名类名命名规范

    一 命名规范 1 项目名全部小写 2 包名全部小写 3 类名首字母大写 xff0c 如果类名由多个单词组成 xff0c 每个单词的首字母都要大写 大驼峰 xff0c 如 xff1a public class MyFirstClass 4 变
  • Qt arm环境安装

    一 相关工作准备 Qt opensource 和 Qt everywhere 下载 链接 版本为5 9 8 arm linux gcc下载 链接 版本为4 8 3 tslib 下载 链接 版本为1 21 ps 可以不安装Qt opensou
  • STM32驱动ST7789V2 tft屏幕

    一 简介 本次教程使用的是1 54寸240 240像素的tft屏幕 xff0c 其接口协议为SPI协议 在使用的过程中仅需要四根数据即可驱动点亮屏幕 然后硬件使用的是STM32F103C8T6核心板 xff0c 用的是SPI2 一般购买屏幕
  • linux设置复杂度策略、登录超时处理功能

    1 在字符终端下 xff0c 实现某一用户连续错误登陆N次后 xff0c 就锁定该用户X分钟 pam tally2 执行 vi etc pam d login 在 PAM 1 0 下新起一行 xff0c 加入 auth required p
  • 飞控陀螺仪,磁力计,加速计,四元数姿态结算

    MPU6050主要包含陀螺仪和加速度计 陀螺仪主要测量角速度 xff0c 即可以测出某一时间段物体转过的角度 加速度计测量的是物体的加速度 xff0c 重力加速度即物体受重力作用的情况下具有的加速度 xff0c 物体静止时 xff0c 加速
  • 智慧物业管理系统(Springboot)

    开发工具 xff1a IDEA xff0c jdk1 8 数据库 xff1a mysql5 7 前台框架 xff1a layui 后端技术 xff1a springboot 项目描述 xff1a 1 前台住户登录 2 智慧物业管理后台 2
  • 北京大学2020公开课 AVL-Python实现代码

    class TreeNode def init self key val left 61 None right 61 None parent 61 None self key 61 key self payload 61 val self
  • Docker-2020详细教程<配合千锋Java学习营>

    Docker 2020详细教程 lt 配合千锋Java学习营 gt 2020 Docker最新超详细版教程通俗易懂 一 Docker介绍 1 下载Dcoker依的赖环境 想安装Docker xff0c 需要先将依赖的环境全部下载下来 xff
  • 使用阿里云部署Flask网页

    使用阿里云部署Flask网页 前端网页部署 阿里云apache CentOS 配置好Apache后 xff0c 将一整个html css js文件全部copy进 var www html目录下 之后就可以通过访问IP地址访问到你的index
  • MapReduce的个人理解

    MapReduce的个人理解 文章目录 MapReduce模型简介Map和Reduce函数这里给出一个简单实例 MapReduce的工作流程工作流程概述MapReduce的各个执行阶段 Shuffle过程详解Shuffle过程简介Map端的
  • Hadoop配置

    Hadoop配置 文章目录 Linux shell配置环境变量使环境变量生效Hadoop 集群安装配置到两台阿里云linux主机上Hadoop集群模式安装实验环境实验内容1 安装jdk2 下面来修改环境变量3 安装hadoop4 下面来修改