如何在 Ubuntu 13.10 上安装 Hadoop

2023-11-05

先决条件

本教程的唯一先决条件是 VPS乌班图 13.10 x64安装。

您需要从命令行执行命令，可以通过以下两种方式之一执行：

使用 SSH 访问 Droplet。
使用 Digital Ocean Droplet 管理面板中的“控制台访问”

什么是 Hadoop？

Hadoop是一个框架（由软件库组成），它简化了分布在服务器集群上的数据集的处理。 Hadoop 的两个主要组件是HDFS and 映射减少.

HDFS 是 Hadoop 用于存储所有数据的文件系统。该文件系统跨越 Hadoop 使用的所有节点。这些节点可以位于单个 VPS 上，也可以分布在大量虚拟服务器上。

MapReduce 是编排所有 Hadoop 活动的框架。它负责将工作分配给集群中的不同节点。

使用 Hadoop 的好处

Hadoop 的架构允许您根据需要扩展硬件。可以增量添加新节点，而不必担心数据格式的更改或文件系统上应用程序的处理。

Hadoop 最重要的功能之一是，它允许您通过用廉价的商品服务器替换昂贵的服务器来节省大量资金。这是可能的，因为 Hadoop 将容错的责任从硬件层转移到了应用层。

安装Hadoop

安装、启动并运行 Hadoop 非常简单。但是，由于此过程需要编辑多个配置和设置文件，因此请确保正确遵循每个步骤。

1.安装Java

Hadoop 需要安装 Java，所以我们首先安装 Java：

apt-get update
apt-get install default-jdk

这些命令将更新您的 VPS 上的软件包信息，然后安装 Java。执行完这些命令后，执行以下命令来验证Java是否已安装：

java -version

如果已安装 Java，则应显示版本详细信息，如下图所示：

2. 创建和设置 SSH 证书

Hadoop 使用 SSH（访问其节点），这通常要求用户输入密码。但是，可以通过使用以下命令创建和设置 SSH 证书来消除此要求：

ssh-keygen -t rsa -P ''
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

执行这两个命令中的第一个后，可能会要求您输入文件名。只需将其留空并按 Enter 键即可继续。第二个命令将新创建的密钥添加到授权密钥列表中，以便 Hadoop 可以使用 SSH，而无需提示输入密码。

3. 获取并安装 Hadoop

首先，我们使用以下命令从其中一个镜像获取 Hadoop：

wget http://www.motorlogy.com/apache/hadoop/common/current/hadoop-2.3.0.tar.gz

Note: 此命令使用 Hadoop 网站上列出的镜像之一的下载链接。可以找到镜像列表在这个链接上。如果您愿意，您可以选择任何其他镜子。要下载最新的稳定版本，请选择hadoop-X.Y.Z.tar.gz文件来自current or the current2您选择的镜像上的目录。

下载Hadoop包后，执行以下命令解压：

tar xfz hadoop-2.3.0.tar.gz

此命令将将此包中的所有文件提取到名为的目录中hadoop-2.3.0。对于本教程，Hadoop 安装将移至/usr/local/hadoop目录使用以下命令：

mv hadoop-2.3.0 /usr/local/hadoop

Note: 解压文件夹的名称取决于您下载并解压的 Hadoop 版本。如果您的版本与本教程中使用的版本不同，请相应地更改上述命令。

4. 编辑和设置配置文件

要完成 Hadoop 的设置，必须修改以下文件：

～/.bashrc
/usr/local/hadoop/etc/hadoop/hadoop-env.sh
/usr/local/hadoop/etc/hadoop/core-site.xml
/usr/local/hadoop/etc/hadoop/yarn-site.xml
/usr/local/hadoop/etc/hadoop/mapred-site.xml.template
/usr/local/hadoop/etc/hadoop/hdfs-site.xml

我。编辑~/.bashrc

在编辑之前.bashrc文件在你的主目录中，我们需要找到Java的安装路径来设置JAVA_HOME环境变量。让我们使用以下命令来执行此操作：

update-alternatives --config java

这将显示如下内容：

该命令显示的完整路径为：

/usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java

的价值JAVA_HOME是之前的一切/jre/bin/java在上面的路径中 - 在这种情况下，/usr/lib/jvm/java-7-openjdk-amd64。记下这一点，因为我们将在此步骤和其他步骤中使用该值。

Now use nano（或您喜欢的编辑器）使用以下命令编辑 ~/.bashrc：

nano ~/.bashrc

这将打开.bashrc文件在文本编辑器中。转到文件末尾并在其中粘贴/键入以下内容：

#HADOOP VARIABLES START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END

Note 1: 如果值JAVA_HOME您的 VPS 上有所不同，请务必更改第一个export在上述内容中相应声明。

Note 2: 使用 nano 打开和编辑的文件可以使用以下命令保存Ctrl + X。在提示保存更改时，输入Y。如果要求您输入文件名，只需按 Enter 键即可。

的结束.bashrc文件应该看起来像这样：

保存并关闭后.bashrc文件中，执行以下命令，以便您的系统识别新创建的环境变量：

source ~/.bashrc

将以上内容放入.bashrc文件确保这些变量在您的 VPS 启动时始终可用。

二.编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh

打开/usr/local/hadoop/etc/hadoop/hadoop-env.sh使用以下命令使用 nano 文件：

nano /usr/local/hadoop/etc/hadoop/hadoop-env.sh

在此文件中，找到导出JAVA_HOME多变的。将此行更改为以下内容：

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

Note: 如果值JAVA_HOME您的 VPS 上有所不同，请确保相应地更改此行。

The hadoop-env.sh文件应该看起来像这样：

保存并关闭该文件。将上面的语句添加到hadoop-env.sh文件确保的值JAVA_HOME每当 Hadoop 启动时，变量就可供 Hadoop 使用。

三.编辑/usr/local/hadoop/etc/hadoop/core-site.xml

The /usr/local/hadoop/etc/hadoop/core-site.xml文件包含 Hadoop 在启动时使用的配置属性。该文件可用于覆盖 Hadoop 启动时的默认设置。

使用以下命令使用 nano 打开此文件：

nano /usr/local/hadoop/etc/hadoop/core-site.xml

在此文件中，在之间输入以下内容<configuration></configuration> tag:

<property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
</property>

The core-site.xml文件应该看起来像这样：

保存并关闭该文件。

四.编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml

The /usr/local/hadoop/etc/hadoop/yarn-site.xml文件包含 MapReduce 启动时使用的配置属性。该文件可用于覆盖 MapReduce 启动时的默认设置。

使用以下命令使用 nano 打开此文件：

nano /usr/local/hadoop/etc/hadoop/yarn-site.xml

在此文件中，在之间输入以下内容<configuration></configuration> tag:

<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

The yarn-site.xml文件应该看起来像这样：

保存并关闭该文件。

v. 创建和编辑 /usr/local/hadoop/etc/hadoop/mapred-site.xml

默认情况下，/usr/local/hadoop/etc/hadoop/文件夹包含/usr/local/hadoop/etc/hadoop/mapred-site.xml.template必须使用该名称重命名/复制的文件mapred-site.xml。该文件用于指定 MapReduce 使用哪个框架。

这可以使用以下命令来完成：

cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

完成此操作后，使用以下命令使用 nano 打开新创建的文件：

nano /usr/local/hadoop/etc/hadoop/mapred-site.xml

在此文件中，在之间输入以下内容<configuration></configuration> tag:

<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

The mapred-site.xml文件应该看起来像这样：

保存并关闭该文件。

六.编辑/usr/local/hadoop/etc/hadoop/hdfs-site.xml

The /usr/local/hadoop/etc/hadoop/hdfs-site.xml必须为正在使用的集群中的每个主机进行配置。它用于指定将用作namenode和datanode在该主机上。

在编辑此文件之前，我们需要创建两个目录，其中包含namenode和datanode对于此 Hadoop 安装。这可以使用以下命令来完成：

mkdir -p /usr/local/hadoop_store/hdfs/namenode
mkdir -p /usr/local/hadoop_store/hdfs/datanode

Note: 您可以在不同位置创建这些目录，但请确保修改其中的内容hdfs-site.xml因此。

完成此操作后，打开/usr/local/hadoop/etc/hadoop/hdfs-site.xml使用以下命令使用 nano 文件：

nano /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在此文件中，在之间输入以下内容<configuration></configuration> tag:

<property>
   <name>dfs.replication</name>
   <value>1</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/usr/local/hadoop_store/hdfs/namenode</value>
 </property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/usr/local/hadoop_store/hdfs/datanode</value>
 </property>

The hdfs-site.xml文件应该看起来像这样：

保存并关闭该文件。

格式化新的 Hadoop 文件系统

完成上述步骤中概述的所有配置后，需要格式化 Hadoop 文件系统才能开始使用。这是通过执行以下命令来完成的：

hdfs namenode -format

Note: 这只需在开始使用 Hadoop 之前完成一次。如果在使用Hadoop后再次执行该命令，将会破坏Hadoop文件系统上的所有数据。

启动Hadoop

剩下要做的就是启动新安装的单节点集群：

start-dfs.sh

执行此命令时，系统会提示您两次，并显示类似以下内容的消息：

您确定要继续连接吗（是/否）？

Type in yes对于这两个提示，然后按 Enter 键。完成后，执行以下命令：

start-yarn.sh

执行上述两个命令将使 Hadoop 启动并运行。您可以通过输入以下命令来验证这一点：

jps

执行此命令应该会显示类似于以下内容的内容：

如果您可以看到与上面的屏幕截图类似的结果，则意味着您现在在 VPS 上运行了 Hadoop 的功能实例。

下一步

如果您有一个设置为使用 Hadoop 的应用程序，则可以启动该应用程序并开始在新安装中使用它。另一方面，如果您只是尝试和探索 Hadoop，则可以从在新文件系统上添加/操作数据或文件开始，以感受它。

提交者：http://javascript.asia”>周杰伦

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Ubuntu 13.10 上安装 Hadoop 的相关文章

Java EE：如何获取我的应用程序的 URL？

在 Java EE 中如何动态检索应用程序的完整 URL 例如如果 URL 是 localhost 8080 myapplication 我想要一个可以简单地将其作为字符串或其他形式返回给我的方法我正在运行 GlassFish 作为应
如何在 Play java 中创建数据库线程池并使用该池进行数据库查询

我目前正在使用 play java 并使用默认线程池进行数据库查询但了解使用数据库线程池进行数据库查询可以使我的系统更加高效目前我的代码是 import play libs Akka import scala concurrent Ex
在画布上绘图

我正在编写一个 Android 应用程序它可以在视图的 onDraw 事件上直接绘制到画布上我正在绘制一些涉及单独绘制每个像素的东西为此我使用类似的东西 for int x 0 x lt xMax x for int y 0 y lt
在 java 类和 android 活动之间传输时音频不清晰

我有一个android活动它连接到一个java类并以套接字的形式向它发送数据包该类接收声音数据包并将它们扔到 PC 扬声器该代码运行良好但在 PC 扬声器中播放声音时会出现持续的抖动中断安卓活动 public class Sen
INSERT..RETURNING 在 JOOQ 中不起作用

我有一个 MariaDB 数据库我正在尝试在表中插入一行users 它有一个生成的id我想在插入后得到它我见过this http www jooq org doc 3 8 manual sql building sql statemen
多个 Maven 配置文件激活多个 Spring 配置文件

我想在 Maven 中构建一个环境在其中我想根据哪些 Maven 配置文件处于活动状态来累积激活多个 spring 配置文件目前我的 pom xml 的相关部分如下所示
加速代码 - 3D 数组

我正在尝试提高我编写的一些代码的速度我想知道从 3d 整数数组访问数据的效率如何我有一个数组 int cube new int 10 10 10 我用价值观填充其中然后我访问这些值数千次我想知道由于理论上所有 3d 数组都存储在内
反射找不到对象子类型

我试图通过使用反射来获取包中的所有类当我使用具体类的代码本例中为 A 时它可以工作并打印子类信息 B 扩展 A 因此它打印 B 信息但是当我将它与对象类一起使用时它不起作用我该如何修复它这段代码的工作原理 Reflection
操作错误不会显示在 JSP 上

我尝试在 Action 类中添加操作错误并将其打印在 JSP 页面上当发生异常时它将进入 catch 块并在控制台中打印插入异常时出错请联系管理员在 catch 块中我添加了它addActionError 我尝试在jsp页面中打
安装 scrapy 0.22 时出错（在 Ubuntu 12.04 上）：“gcc”失败，退出状态为 1

尝试使用 pip 从命令行安装 Scrapy 时 sudo pip install scrapy我收到以下错误 error command gcc failed with exit status 1 查看错误输出中的几行我发现在尝试安装
Spring @RequestMapping 带有可选参数

我的控制器在请求映射中存在可选参数的问题请查看下面的控制器 GetMapping produces MediaType APPLICATION JSON VALUE public ResponseEntity
Java TestNG 与跨多个测试的数据驱动测试

我正在电子商务平台中测试一系列商店每个商店都有一系列属性我正在考虑对其进行自动化测试是否有可能有一个数据提供者在整个测试套件中提供数据而不仅仅是 TestNG 中的测试我尝试不使用 testNG xml 文件作为机制因为这些属性
如何将 pfx 文件转换为 jks，然后通过使用 wsdl 生成的类来使用它来签署传出的肥皂请求

我正在寻找一个代码示例该示例演示如何使用 PFX 证书通过 SSL 访问安全 Web 服务我有证书及其密码我首先使用下面提到的命令创建一个 KeyStore 实例 keytool importkeystore destkeystore
加密 JBoss 配置中的敏感信息

JBoss 中的标准数据源配置要求数据库用户的用户名和密码位于 xxx ds xml 文件中如果我将数据源定义为 c3p0 mbean 我会遇到同样的问题是否有标准方法来加密用户和密码保存密钥的好地方是什么这当然也与 tomcat
Eclipse Java 远程调试器通过 VPN 速度极慢

我有时被迫离开办公室工作这意味着我需要通过 VPN 进入我的实验室我注意到在这种情况下使用 Eclipse 进行远程调试速度非常慢速度慢到调试器需要 5 7 分钟才能连接到远程 jvm 连接后每次单步执行断点行可能需要 20 30
如何在桌面浏览器上使用 webdriver 移动网络

我正在使用 selenium webdriver 进行 AUT 被测应用程序的功能测试自动化 AUT 是响应式网络我几乎完成了桌面浏览器的不同测试用例现在相同的测试用例也适用于移动浏览器因为可以从移动浏览器访问 AUT 由于它是响
获取 JVM 上所有引导类的列表？

有一种方法叫做findBootstrapClass对于一个类加载器如果它是引导的则返回一个类有没有办法找到类已经加载了您可以尝试首先通过例如获取引导类加载器呼叫 ClassLoader bootstrapLoader ClassLo
有没有办法为Java的字符集名称添加别名

我收到一个异常埋藏在第 3 方库中消息如下 java io UnsupportedEncodingException BIG 5 我认为发生这种情况是因为 Java 没有定义这个名称java nio charset Charset Ch
按日期对 RecyclerView 进行排序

我正在尝试按日期对 RecyclerView 进行排序但我尝试了太多的事情我不知道现在该尝试什么问题就出在这条线上适配器 notifyDataSetChanged 因为如果我不放不会显示错误但也不会更新 recyclerview
使用 xpath 和 vtd-xml 以字符串形式获取元素的子节点和文本

这是我的 XML 的一部分

随机推荐

如何在 Debian 10 上安装 Memcached

Memcached 是一个免费开源的高性能内存键值数据存储它通常用于通过缓存 API 和数据库调用结果中的各种对象来加速应用程序本文介绍如何在 Debian 10 上安装和配置 Memcached 先决条件您需要以以下身份登录具有 s
Linux 中的剪切命令

Linux 和 Unix 系统中有许多实用程序可让您处理和过滤文本文件 cut是一个命令行实用程序允许您从指定文件或管道数据中剪切部分行并将结果打印到标准输出它可用于按分隔符字节位置和字符来剪切行的各个部分在本文中我们将向您展示如
如何在 Ubuntu 12.04 x64 上安装 iRedMail

Status 已弃用本文介绍不再受支持的 Ubuntu 版本如果您当前运行的服务器运行 Ubuntu 12 04 我们强烈建议您升级或迁移到受支持的 Ubuntu 版本升级到Ubuntu 14 04 从 Ubuntu 14 04 升级
Spring框架

Spring 框架是最流行的 Java EE 框架之一在本文中我们将了解以下内容 Spring框架架构 Spring的核心组件 spring 框架下的各种项目我查看了 Spring Framework Servlet JSP 和 JS
如何在 Ubuntu 16.04 上使用 uWSGI 和 Nginx 为 Django 应用程序提供服务

介绍 Django 是一个功能强大的 Web 框架可以帮助您启动 Python 应用程序或网站 Django 包含一个简化的开发服务器用于在本地测试代码但对于任何与生产稍微相关的事情都需要更安全更强大的 Web 服务器在本指南中
ThreadPoolExecutor - Java 线程池示例

Java线程池管理工作线程池它包含一个队列使任务等待执行我们可以用ThreadPoolExecutor在Java中创建线程池 Java线程池管理Runnable线程的集合工作线程执行队列中的可运行线程 java util concu
使用 Docker Compose 将 Node.js 应用程序容器化以进行开发

介绍如果您正在积极开发应用程序请使用Docker可以简化您的工作流程以及将应用程序部署到生产的过程在开发中使用容器可以带来以下好处环境是一致的这意味着您可以为项目选择所需的语言和依赖项而不必担心系统冲突环境是隔离的可以更轻松
在 JavaScript 中使用位运算符

介绍虽然 Javascript 中的按位运算符几乎没有受到任何关注但它们实际上非常强大并且用途广泛它们被认为可以更快地进行数值计算和转换我们可以利用它们来替代某些复杂的编码场景并使我们的代码更具可读性在本教程结束时您将基本了解
命令设计模式

命令模式是行为设计模式之一命令设计模式用于实现松耦合在请求响应模型中命令模式 In command pattern the request is send to the invoker and invoker pass it to
如何在 CentOS 6 上设置 Apache 虚拟主机

Status 已弃用本文介绍不再受支持的 CentOS 版本如果您当前运行的服务器运行 CentOS 6 我们强烈建议您升级或迁移到受支持的 CentOS 版本 Reason CentOS 6 于 2020 年 11 月 30 日达到生
如何在 Ubuntu 18.04 上安装 Anaconda [快速入门]

介绍 Anaconda 专为数据科学和机器学习工作流程而设计是一款开源包管理器环境管理器以及 Python 和 R 编程语言的分发版本教程将指导您在 Ubuntu 18 04 服务器上安装 Anaconda 有关本教程的更详细版本以及
如何在 Ubuntu 14.04 上安装和配置 OSSEC 安全通知

介绍您如何跟踪服务器上的授权和未经授权的活动 OSSEC 是一种可以安装在服务器上以跟踪其活动的工具 OSSEC 是一种开源基于主机的入侵检测系统 HIDS 它执行日志分析完整性检查 Windows 注册表监控 rootkit 检测
如何在 Ubuntu 22.04 上安装和保护 Grafana

介绍 Grafana是一种开源数据可视化和监控工具可与来自以下来源的复杂数据集成普罗米修斯 InfluxDB Graphite and 弹性搜索 Grafana 允许您为数据创建警报通知和临时过滤器同时还可以通过内置共享功能更轻松地与
如何在 Ubuntu 12.10 上使用 Nginx 设置 HTTP 身份验证

什么是Red Means 用户需要输入或自定义的行将位于red在本教程中其余的大部分应该是可复制和粘贴的关于 Nginx Nginx 发音为 engine x 是一个 HTTP 和反向代理服务器以及邮件代理服务器由 Igor Sys
如何在零停机的情况下将 WordPress 从共享主机迁移到云服务器

Status 已弃用本文介绍不再受支持的 Ubuntu 版本如果您当前运行的服务器运行 Ubuntu 12 04 我们强烈建议您升级或迁移到受支持的 Ubuntu 版本升级到Ubuntu 14 04 从 Ubuntu 14 04 升级
如何在 Ubuntu 22.04 上使用 apt 安装 Java

介绍许多软件都需要 Java 和 JVM Java 虚拟机包括Tomcat Jetty 玻璃鱼卡桑德拉 and Jenkins 在本指南中您将使用以下命令安装各种版本的 Java 运行时环境 JRE 和 Java 开发人员工具包 J
如何在 Ubuntu 16.04 上使用 GitLab CI 设置持续集成管道

介绍 GitLab 社区版是一个自托管的 Git 存储库提供商具有帮助项目管理和软件开发的附加功能 GitLab 提供的最有价值的功能之一是内置的持续集成和交付工具称为亚搏体育appGitLab持续集成在本指南中我们将演示如何设置
Linux 中的导出命令

在本指南中我们将了解 Linux 中的导出命令 Export 是 Bash shell 的内置命令它用于标记要传递给子进程的变量和函数基本上变量将包含在子进程环境中而不会影响其他环境为了更清楚地了解我们正在讨论的内容让我们深入
如何在 Ubuntu 20.04 上安装 Node.js

介绍 Node js是用于服务器端编程的 JavaScript 运行时它允许开发人员使用 JavaScript 创建可扩展的后端功能这是许多人在基于浏览器的 Web 开发中已经熟悉的语言在本指南中我们将向您展示在 Ubuntu 20
如何在 Ubuntu 13.10 上安装 Hadoop

先决条件本教程的唯一先决条件是 VPS乌班图 13 10 x64安装您需要从命令行执行命令可以通过以下两种方式之一执行使用 SSH 访问 Droplet 使用 Digital Ocean Droplet 管理面板中的控制台访问什

如何在 Ubuntu 13.10 上安装 Hadoop

我。编辑~/.bashrc

如何在 Ubuntu 13.10 上安装 Hadoop 的相关文章

随机推荐

热门标签