hadoop入门-wordcount

2023-05-16

hadoop是阿帕奇基金会的一个顶级项目，主要用于大量的廉价机器组成的集群去执行大规模运算，主要是海量数据的处理。

在hadoop官网（http://hadoop.apache.org/）hadoop包含了4个模块分别是：

1、Hadoop Common

2、Hadoop Distributed File System (HDFS™)

3、Hadoop YARN

4、Hadoop MapReduce

这四个模块分别对应了4个配置文件1.core-site.xml 2.hdfs-site.xml 3.yarn-size.xml 4.mapred-size.xml

我在这里只是做了最简单的配置

1、core-site.xml
			<property>		 
				<name>fs.default.name</name>
				<value>hdfs://hadoop-yarn.dragon.org:8020</value>
			</property>

			<property>
				<name>hadoop.tmp.dir</name>
				<value>/usr/local/hadoop/hadoop-2.2.0/data/tmp</value>
			</property>
			
2、hdfs-site.xml
			<property>		
				<name>dfs.replication</name>
				<value>1</value>
			</property>
		
3、yarn-site.xml
			<property>
				<name>yarn.nodemanager.aux-services</name>
				<value>mapreduce_shuffle</value>
			</property>
			
4、mapred-site.xml
			<property>	 	        		
				<name>mapreduce.framework.name</name>
				<value>yarn</value>
			</property>

我的hadoop是安装在linux（centOS-6.5）下面。

一、首先启动启动HDFS

1 启动NameNode
sbin/hadoop-daemon.sh start namenode
2 启动DataNode
sbin/hadoop-daemon.sh start datanode
3启动SecondaryNameNode
sbin/hadoop-daemon.sh start secondarynamenode

下面这张图表示已经启动成功三个HDFS节点

二、启动yarn

1/ 启动ResourceManger
sbin/yarn-daemon.sh start resourcemanager
2/启动NodeManager
sbin/yarn-daemon.sh start nodemanager

三、启动刚完毕之后，我们来启动word count程序

1、首先使用在hadoop根目录下面创建一个文件，我这里创建wc.text

2、将文件放到testdata文件夹中

3、查看文件是否在文件中，里面的内容是

4、执行mapreduce命令

5、查看输出结果

至此，haddoop入门wordcount已经全部讲完，本人也是初学者，第一次写hadoop方面的博客，难免有疏漏之处，请大家批评指正。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

wordcount

hadoop入门-wordcount 的相关文章

Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
“客户端”对于 Hadoop/HDFS 究竟意味着什么？

我理解其背后的一般概念但我希望对客户是什么有更多的澄清和明确的定义例如如果我只是在终端上写一个 hdfs 命令它仍然是客户端吗 ClientHadoop中是指用于与Hadoop文件系统通信的接口 Hadoop 可使用不同类型

随机推荐

51单片机三线串行驱动12864液晶

以前写12864的液晶程序都是用的并行的方式 xff0c 这种方式焊接起来很麻烦 xff0c 而且占用的IO口比较多今天尝试使用串行方式来驱动该模块本程序是基于STC89C52的12864串行模式的程序 xff0c 硬件电路连接只需要5
基于形状的模板匹配

前段时间一直在做图像模板匹配需要对旋转模板进行匹配 xff0c 并且对速度精度都有较高的要求 OpenCV里面并没有较好的解决方法 cvMatchTemplate const CvArr image constCvArr templ Cv
相机模型详解

相机模型数码相机图像拍摄的过程实际上是一个光学成像的过程相机的成像过程涉及到四个坐标系 xff1a 世界坐标系相机坐标系图像坐标系像素坐标系以及这四个坐标系的转换理想透视模型针孔成像模型相机模型是光学成像模型的简化 xff
相机镜头工作原理图解

本文目录 xff08 一 xff09 机身 xff08 二 xff09 关于镜头一如何平衡机身与镜头的预算二镜头的作用三镜头的组成部分四关于焦距什么是焦距 xff1f 为什么焦距很重要 xff1f 五变焦与定焦镜头六光圈及最大
【Git】TortoiseGit代码冲突解决方法

TortoiseGit冲突解决方法场景一 xff1a 本地相同文件冲突场景二 xff1a 服务端相同文件冲突场景三 xff1a 服务端不同文件冲突场景四 xff1a 服务端文件名冲突小结场景一 xff1a 本地相同文件冲突冲突场景 x
RTOS系统问答

RTOS 系统区别 RTOS Real Time Operating System 是专门为实时系统设计的操作系统实时系统是指需要在规定的时间内响应某些事件或完成某些任务的系统 RTOS 和一般的操作系统相比 xff0c 具有更高的实时性
VTK与ITK的详细安装指南

1 说明本文来自一个付费下载文档 xff0c 好像是一本图书的第一章的部分内容感觉比网上很多指南写的要详细特整理出来和大家分享 xff0c 向原作者表示感谢 xff01 2 获取安装资源 xff08 1 xff09 CMake 安装资
ROS-gazebo 简介

gazebo 一什么是Gazebo xff1f Gazebo的典型用途Gazebo的一些主要特点二系统要求三安装 1 添加源2 安装Gazebo四用户界面 1 场景2 左右面板3 工具栏4 菜单栏5 鼠标一什么是Gazebo x
Mac Pro安装Python3

用brew install python3报错 xff1a curl 7 Failed to connect to raw githubusercontent com port 443 Operation 问题解决 xff1a https
基于宽度优先爬虫

coding utf 8 from selenium import webdriver import time from bs4 import BeautifulSoup import urllib2 from selenium webdr
LINUX amixer工具及kcontrol使用

网上对amixer工具的使用较多 xff0c 但使用kcontrol coding的例子有限 xff0c 目前比较好的一篇文章如下 xff1a http blog chinaunix net uid 27875 id 5783294 htm
小波部分特征说明和小波特征比较---未写完

小波特征 1 xff1a 多分辨分析可以对信号进行有效的时频分分解 xff0c 但是由于其尺度函数是按二进制变化的 xff0c 因此在高频段器频率分辨率较差 xff0c 对信号的频段进行指数等间隔划分小波包能够为信号提供一种更加精细的分析
《国产嵌入式微系统msOS成型记》之终结篇——嵌入式微系统msOS的出发点：应用

http www eefocus com embedded 329047 msOS设计的本意是为电子类设备及PLC设计的 xff0c 一开始想着仿造西门子的S7 300来设计一套基于CAN通讯的分布式PLC xff0c 然而当设计了几个硬件
Debian10(英文环境)安装中文输入法fcitx

执行 locale 以及 cat etc locale gen 查看当前数据 sudo dpkg reconfigure locales 本身默认已经选择了 en US UTF 8 UTF 8 增加几个zh CN选项然后ok 然后这里继续
小批量数据测试模型容易出现Bug

如果是直接用的原来数据集类的数据 xff0c 截取出来后 xff0c 数据范围为 0 255 xff0c 需要手动实现transform的功能
Windbg介绍

文章目录 1 介绍1 1 相关网站1 2 下载1 3 符号配置 2 常用命令2 1 常用的标准命令2 2 常用的 96 96 命令有2 3 常用的 96 96 命令有 3 调试环境搭建3 1 实时调试进程3 2 调试进程dump3 3 调试
笔记本电脑 (天梯图) 处理器和显卡

游戏本一般是i5 9300H起步 xff0c 低于这个标准的游戏本不建议购买另外需要注意的是不要被10代CPU唬住了 xff0c 拿最近卖的比较火的i5 10210U来说 xff0c 其性能还不如8代的i5 8300H 我们以移动版GTX
ActiveX开发详解

配套源码 http download csdn net detail mingojiang 4743623 转载请注明出自 http blog csdn net MingoJiang 一 ActiveX基础 1 1什么是ActiveX Ac
GNVM - Node.js 多版本管理器

GNVM Node js 多版本管理器 GNVM 是一个简单的 Windows 下 Node js 多版本管理器 xff0c 类似的 nvm nvmw nodist c gt gnvm install latest 1 0 0 x86 1
hadoop入门-wordcount

hadoop是阿帕奇基金会的一个顶级项目 xff0c 主要用于大量的廉价机器组成的集群去执行大规模运算 xff0c 主要是海量数据的处理在hadoop官网 xff08 http hadoop apache org xff09 hadoop

hadoop入门-wordcount

hadoop入门-wordcount 的相关文章

随机推荐

热门标签