SpringBoot +Hadoop3.0.3 mapreduce 实例

2023-11-09

第一步：编码过程

项目结构：

pom.xml 依赖jar文件:

        <!-- mapreduce 核心jar包  -->
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-mapreduce-client-core</artifactId>
			<version>3.1.0</version>
		</dependency>
        <!-- 引入hadoop-common Jar包 -->
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>3.1.0</version>
		</dependency>

map 任务类：

package com.zzg.mapreduce.mapper;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/* 
 * 继承Mapper类需要定义四个输出、输出类型泛型：
 * 四个泛型类型分别代表：
 * KeyIn        Mapper的输入数据的Key，这里是每行文字的起始位置（0,11,...）
 * ValueIn      Mapper的输入数据的Value，这里是每行文字
 * KeyOut       Mapper的输出数据的Key，这里是每行文字中的单词"hello"
 * ValueOut     Mapper的输出数据的Value，这里是每行文字中的出现的次数
 * 
 * Writable接口是一个实现了序列化协议的序列化对象。
 * 在Hadoop中定义一个结构化对象都要实现Writable接口，使得该结构化对象可以序列化为字节流，字节流也可以反序列化为结构化对象。
 * LongWritable类型:Hadoop.io对Long类型的封装类型
 */

public class WordMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
			throws IOException, InterruptedException {
		// 获得每行文档内容，并且进行折分
		String[] words = value.toString().split(" ");

		// 遍历折份的内容
		for (String word : words) {
			// 每出现一次则在原来的基础上：+1
			context.write(new Text(word), new LongWritable(1));
		}
	}

}

Reduce计算类：

package com.zzg.mapreduce.reduce;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/*
 * 继承Reducer类需要定义四个输出、输出类型泛型：
 * 四个泛型类型分别代表：
 * KeyIn        Reducer的输入数据的Key，这里是每行文字中的单词"hello"
 * ValueIn      Reducer的输入数据的Value，这里是每行文字中的次数
 * KeyOut       Reducer的输出数据的Key，这里是每行文字中的单词"hello"
 * ValueOut     Reducer的输出数据的Value，这里是每行文字中的出现的总次数
 */
public class WordReduce extends Reducer<Text, LongWritable, Text, LongWritable>  {

	@Override
	protected void reduce(Text key, Iterable<LongWritable> values,
			Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		long sum = 0;
		for (LongWritable i : values) {
			// i.get转换成long类型
			sum += i.get();
		}
		// 输出总计结果
		context.write(key, new LongWritable(sum));
	}
}

主程序入口：

package com.zzg.mapreduce.test;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.zzg.mapreduce.mapper.WordMapper;
import com.zzg.mapreduce.reduce.WordReduce;

public class WordCount {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// TODO Auto-generated method stub
		// 创建job对象
		Job job = Job.getInstance(new Configuration());
		// 指定程序的入口
		job.setJarByClass(WordCount.class);

		// 指定自定义的Mapper阶段的任务处理类
		job.setMapperClass(WordMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		// 数据HDFS文件服务器读取数据路径
		FileInputFormat.setInputPaths(job, new Path("/hadoop/words.txt"));

		// 指定自定义的Reducer阶段的任务处理类
		job.setReducerClass(WordReduce.class);
		// 设置最后输出结果的Key和Value的类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		// 将计算的结果上传到HDFS服务
		FileOutputFormat.setOutputPath(job, new Path("/hadoop/wordsResult"));

		// 执行提交job方法，直到完成，参数true打印进度和详情
		job.waitForCompletion(true);
		System.out.println("Finished");
	}

}

第二步：编译Jar 包过程

1、选择hadoop-mapreduce项目->右击菜单->Export…，在弹出的提示框中选择Java下的JAR file

2、选择导出jar名称和路径，选择Next>:

3、设置程序的入口，设置完成后，点击Finish：

4、生成word.jar文件，如下截图：

第三步：Hadoop 执行word.jar

1、在centos7 服务器上创建hadoop 文件夹，执行如下指令：

mkdir -p /home/hadoop

并将word.jar 上传至创建的文件夹中。

2、执行计算任务，执行如下指令：

hadoop jar word.jar

3、查看计算文件结果，执行如下指令：

hadoop fs -ls /hadoop/wordsResult

查看计算任务的结果，执行如下指令：

hadoop fs -cat /hadoop/wordsResult/part-r-00000

遇到的问题：Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

原因：yarn-site.xml 中，yarn.application.classpath 未配置

解决过程：切换至hadoop 的安装目录(/usr/local/hadoop/hadoop-3.0.3)，进入etc/hadoop 文件夹，编辑yarn-site.xml 文件

添加以下内容：

        <property>
                 <name>yarn.application.classpath</name>
                 <value>
                        /usr/local/hadoop/hadoop-3.0.3/etc/hadoop,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/common/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/common/lib/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/hdfs/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/hdfs/lib/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/mapreduce/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/mapreduce/lib/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/yarn/*,
                        /usr/local/hadoop/hadoop-3.0.3/share/hadoop/yarn/lib/*
                </value>
        </property>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

SpringBoot +Hadoop3.0.3 mapreduce 实例的相关文章

运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助

随机推荐

./configure之后报错

首先要看报的错误是什么一般从第一条开始解决因为有可能下面的错误是由上面的导致的
js 判断变量类型（完整版），包括ES6 新类型Symbol

欢迎来到Altaba的博客相信大家在开发中遇到需要判断变量类型的问题 js变量按存储类型可分为值类型和引用类型值类型包括Undefined String Number Boolean 引用类型包括object Array Functio
股票和期货的区别（股指期货1个点赚多少钱）

股票和期货的辨别股票的最后含意即是说不妨表明你购置了这家公司的股子而期货则是买卖两边按照各自对目标物的将来价钱预期以此刻的价钱签署的合约观念既是仍旧领会了那咱们就再领会一下这几个的辨别 1 目标物目标物也即是买卖东西菜商场里
【深度学习】SETR：基于视觉 Transformer 的语义分割模型

Visual Transformer Author louwill Machine Learning Lab 自从Transformer在视觉领域大火之后一系列下游视觉任务应用研究也随之多了起来基于视觉Transformer的语义分割正
OpenMMLab AI实战营第二期（2）MMPose初体验

根据MMPose的官方文档学习一下 MMPose文档地址 https mmpose readthedocs io zh CN latest index html 文章目录 1 概述 2 安装 2 1 创建conda环境并激活 2 2 安装p
mysql锁

想要了解锁必须要知道mysql事务以及mysql事务产生的并发问题数据库中的事务隔离级别以及数据展示華同学的博客 CSDN博客 1 Mysql锁的介绍锁是计算机协调多个线程或进程并发访问某一资源的机制除传统的计算机资源 C
sentencepiece原理与实践

1 前言前段时间在看到XLNET Transformer XL等预训练模式时看到源代码都用到sentencepiece模型当时不清楚经过这段时间实践和应用觉得这个方法和工具值得NLP领域推广和应用今天就分享下sentencepi
Vscode + php + xdebug 单步调试

1 确认xdebug已打开 php ini xdebug remote enable 1 xdebug remote autostart 1 xdebug remote host localhost xdebug remote port 9
win32汇编基础概念

一关于寄存器寄存器有EAX EBX ECX EDX EDI ESI ESP EBP等似乎IP也是寄存器但只有在CALL RET在中会默认使用它其它情况很少使用到暂时可以不用理会 EAX是WIN32 API 默认的返回值存放处 E
深入理解机器学习与极大似然之间的联系

似然函数事件A的发生含着有许多其它事件的发生所以我就把这些其它事件发生的联合概率来作为事件A的概率也就是似然函数数据类型的不同离散型和连续性就有不同的似然函数极大似然极大似然估计方法 Maximum Likelihood Es
sqli-labs：less-27（过滤select和union）

div div
eosjs v20 如何通过jsonrpc连接到主网节点

用eosjs连接主网节点很简单只需要在创建JsonRpc对象时指定要连接主网节点的地址就可以了例如下面的代码将创建一个使用eosnewyork io节点RPC旳JsonRpc 对象然后使用get info 方法获取网络总体信息
拆分Nim游戏

拆分Nim游戏给定n堆石子两位玩家轮流操作每次操作可以取走其中的一堆石子然后放入两堆规模更小的石子新堆规模可以为0 且两个新堆的石子总数可以大于取走的那堆石子数最后无法进行操作的人视为失败问如果两人都采用最优策略先手是否必胜
顺序主子式

设有矩阵 a b c d e f g h i 则一阶顺序主子式 a 二阶顺序主子式 a b d e 三阶顺序主子式 a b c d e f g h i 若n阶方阵A的顺序主子式均 0 则A的LU分解A LU存在且唯一转载于 https
微软Xbox One无线手柄控制机器人

ROS中的joy包提供了游戏手柄的驱动并且包含joy node节点这一节点可以发布包含手柄按钮和轴信息的Joy消息在终端中输入下面命令安装joy包 sudo apt get install ros kinetic joy Confi
A卡2023最新AI画图教程：3A主机安装ROCm运行Stable Diffusion画图

硬件平台 3A主机内存16G 显卡 AMD RX6700 XT 12GB 华擎幻影电竞处理器 AMD R5 3500X 6C6T 主板华硕TUF B450M PRO GAMING 安装Ubuntu22 04 2 LTS系统更换系统源
MySQL的索引

MySQL 的索引 1 索引的使用 1 1 什么是索引 1 2 如何创建索引 1 2 1 ALTER TABLE 1 2 2 CREATE INDEX 1 2 3 CREATE TABLE 1 2 4 创建索引的注意事项 1 3 索引类型
Python数据分析-房价预测及模型分析

摘要 Python数据分析房价的影响因素图解https blog csdn net weixin 42341655 article details 120299008 spm 1001 2014 3001 5501 上一篇OF讲述了房价
SpringBoot +Hadoop3.0.3 mapreduce 实例

第一步编码过程项目结构 pom xml 依赖jar文件

SpringBoot +Hadoop3.0.3 mapreduce 实例

SpringBoot +Hadoop3.0.3 mapreduce 实例 的相关文章

随机推荐

热门标签

SpringBoot +Hadoop3.0.3 mapreduce 实例的相关文章