使用Java编写第一个MapReduce程序

2023-05-16

使用Java编写第一个MapReduce程序

演示目标
演示环境
搭建MR工程
- 配置pom.xml
- 编写WordCountMapper.java
- 编写WordCountReducer.java
- 编写启动类Startup.java
- 打包工程
部署MR工程
- 上传jar包到服务器
- 运行jar包

演示目标

编写一个MapReduce，用于计算文章中所有词语的出现次数（WordCount）。

演示环境

基于Hadoop2.6.5；
完整环境请参考以下两篇博客：
- 从0开始搭建Hadoop2.x高可用集群（HDFS篇）
- 从0开始搭建Hadoop2.x高可用集群（YARN篇）
上传MR计算所用的文章到HDFS中；

搭建MR工程

使用 IDEA新建一个Maven工程

配置pom.xml

<properties>
    <hadoop.version>2.6.5</hadoop.version>
</properties>

<dependencies>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>${hadoop.version}</version>
      <exclusions>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>javax.servlet</groupId>
          <artifactId>servlet-api</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>${hadoop.version}</version>
      <exclusions>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>javax.servlet</groupId>
          <artifactId>servlet-api</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
      <exclusions>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>javax.servlet</groupId>
          <artifactId>servlet-api</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
  </dependencies>

编写WordCountMapper.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;

import java.io.IOException;

/**
 * Description ...
 *
 * @author NickZxing
 * @date 2019/7/29 17:36
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] strArray = StringUtils.split(value.toString(), ' ');

        for (String str : strArray) {
            context.write(new Text(str), new IntWritable(1));
        }
    }
}

编写WordCountReducer.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * Description ...
 *
 * @author NickZxing
 * @date 2019/7/29 17:56
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int count = 0;
        for (IntWritable i : values) {
            count += i.get();
        }
        context.write(key, new IntWritable(count));
    }
}

编写启动类Startup.java

import nick.hadoop.mapper.WordCountMapper;
import nick.hadoop.reducer.WordCountReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * Description ...
 *
 * @author NickZxing
 * @date 2019/7/30 9:22
 */
public class Startup {

    public static void main(String[] args) {
        Configuration configuration = new Configuration();
        try {
            FileSystem fileSystem = FileSystem.get(configuration);

            Job job = Job.getInstance(configuration);
            job.setJarByClass(Startup.class);
            job.setJobName("WordCount");
            job.setMapperClass(WordCountMapper.class);
            job.setReducerClass(WordCountReducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);

            FileInputFormat.addInputPath(job, new Path("/input"));

            Path outputPath = new Path("/output");

            if (fileSystem.exists(outputPath))
                fileSystem.delete(outputPath, true);

            FileOutputFormat.setOutputPath(job, outputPath);

            if (job.waitForCompletion(true))
                System.out.printf("Job执行成功");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

打包工程

在IDEA中打开Project Structure（快捷键：Ctrl+Shift+Alt+S）；
依次选择下图中红框部分：
选择入口类（Startup.java），并将META-INF的目录修改为src目录；
依次选择下图中红框部分，选择完毕后，IDEA便开始打包工程：
打包完毕后，可以看到打包好的jar包：

部署MR工程

使用编写好的MR工程jar包完成WordCount任务

上传jar包到服务器

将MR工程上传到Hadoop集群中的服务器：
在这里插入图片描述

运行jar包

使用hadoop jar xxxx.jar运行：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Java编写第一个MapReduce程序的相关文章

Linux 下使用vscode调试C/C++程序记录

Linux 下使用vscode调试C C 43 43 程序记录本文主要介绍了 xff0c 在linux下使用vscode调试工程时的 xff0c 一些经验记录基础配置常用的配置方法网上的材料很多 xff0c 可以直接参照链接 lin
形状特征的提取

物体和区域的形状是图像表达和图像检索中的另一重要的特征但不同于颜色或纹理等底层特征 xff0c 形状特征的表达必须以对图像中物体或区域的划分为基础由于当前的技术无法做到准确而鲁棒的自动图像分割 xff0c 图像检索中的形状特征只能用于某
c语言中全局变量在不同文件中的引用

c语言中全局变量在不同文件中的引用 c语言中在某个文件中定义的全局变量可以在不同的文件中引用 xff0c 对数组和指针这两种全局变量在使用时必须要注意 xff0c 外部引用格式不正确时会出现编译或运行错误下面通过不同的例子来说明数组和指针
Linux上MathGL的安装和使用

Linux上MathGL的安装和使用本人参考http mathgl sourceforge net doc en index html SEC Contents MathGL官网教程第一种方案在Ubuntu上对MathGL进行了编译安装
kvaser在linux下的二次开发

kvaser在linux下的二次开发 linux下kvaser的驱动和SDK包安装下载连接 http www kvaser cn software 7330130980754 V5 13 0 linuxcan tar gz 安装过程解压
linux 交叉编译 C和C++

linux 交叉编译 C和C 43 43 安装编译器Cmake中选择编译器编译运行注意在ubuntu 中搭建arm交叉编译环境的过程记录安装编译器安装aarch64 linux gnu编译器 xff0c 可以参考参考链接安装完成后
vscode中git使用

vscode中git使用目的 xff1a 减少git的命令输出 xff0c 尽量使用vscode可视化完成日常代码提交管理将该过程简单记录创建文件 xff0c 并使用Vscode打开 vscode中打开终端 xff0c 并进行git的
程序调试正常运行错误排查

调试正常运行错误排查检查是否生成core文件输入ulimit a 第一行core file size 如果0 xff0c core文件不会生成 xff0c 需要设置 ulimit c unlimited 生成core文件 xff0c
linux 指定网卡发送UDP数据

问题 xff1a 解决方法1 xff08 有权限要求 xff09 可以使用SO BINDTODEVICE绕过路由表查找 xff0c 解决该问题注意 xff1a 该方法需要程序有cap net raw和cap net bind servic
TortoiseGit的安装与配置方法

目录 1 为什么选择Git 效率历史 TortoiseGit 简介 2 下载安装Git及Tortoisegit 3 Tortoisegit 配置 1 为什么选择Git 效率很多人有一种习惯吧 xff0c 什么软件都要最新的 xff0c
Python isinstance() 函数

描述 isinstance 函数来判断一个对象是否是一个已知的类型 xff0c 类似 type isinstance 与 type 区别 xff1a type 不会认为子类是一种父类类型 xff0c 不考虑继承关系 isinstance 会
uniapp开发微信小程序登录获取openid并解决code无效问题：invalid code

场景 xff1a 实现微信支付的时候需要获取到openid openid需要在登录的时候用登录返回的code获取 1 登录获取code xff0c 用code获取openid uni login success function res l
CSS解决高度塌陷的方法

一什么是高度塌陷当父元素不设置高度的时候靠子元素撑大 xff0c 也就是说子元素有多高 xff0c 父元素就有多高 xff0c 当子元素浮动后 xff0c 父元素就会高度塌陷父元素高度塌陷后 xff0c 父元素下面的元素就会向上移动
mysql中如何查看sql语句是否用到索引，以及分析一条SQL的性能瓶颈

mysql中如何查看sql语句是否用到索引 1 操作步骤 1 1 使用explain xff0c 放在sql前面 2 解释我们只需要注意一个最重要的type 的信息很明显的提现是否用到索引 xff1a type结果值从好到坏依次是 xff
NoMachine配置

NoMachine配置以及连接中遇到的问题 1 软件下载软件官方下载网站 xff1a https www nomachine com xff08 软件下载缓慢 xff0c 请耐心等待下载完成 xff09 xff1b 本人上传了连个下载好的
同星T1014在线回放设置

同星T1014在线回放设置以及常见问题解决方法 1 同星T1014连接硬件进行在线数据回放 1 将同星T1014硬件连接到到电脑中 xff1b 2 打开TSMaster软件 xff0c 在通道选择选项中配置通道 xff0c 该硬件最大支持四
虚拟串口VSPD和XCOM的下载+安装+使用

虚拟串口VSPD和XCOM的下载 43 安装 43 使用 1 软件下载对于上机位开发的伙伴来说 xff0c 上机位软件的调试尤为重要 xff0c 但是上机位软件的调试并不关心硬件 xff0c 只需要关注验证发送的数据的接收情况 xff0c
VCU功能控制

VCU功能控制 VCU具有整车转矩管理电池能量协调管理电机功率协调管理充电管理故障诊断等功能能够对上下电时的高低压控制逻辑进行管理 xff0c 能够根据驾驶员输入对需求转矩做出准确判断 xff0c 能够对车辆当前工况进行判断
车速计算方法-附赠车速快速计算App

车速计算的原理和方法假设车辆配置为 xff1a 发动机WP10 310E40 xff0c 变速箱12JSD160TA 最高挡速比0 78 xff0c 车桥速比 xff1a 4 769 xff0c 轮胎11 00R20 滚动半径为0 527
说说你对模块化的理解(CommonJS、AMD、CMD、ES Module)

模块化的开发方式可以提高代码复用率 xff0c 方便进行代码的管理通常一个文件就是一个模块 xff0c 有自己的作用域 xff0c 只向外暴露特定的变量和函数目前流行的js模块规范有common js AMD CMD ES Module

随机推荐

python使用request+xpath爬取豆瓣电影数据

python使用request 43 xpath爬取豆瓣电影背景话不多说上代码背景由于毕设需要用到电影相关的数据 xff0c 在网上想查找一个可以爬电影的教程 xff0c 但是基本上所有的教程都是爬的豆瓣top250 xff0c 并没
git 报错 error: src refspec master does not match any

这个错误通常表示你的本地仓库中没有与远程仓库对应的分支可能的原因是你还没有进行过任何提交或者还没有将本地分支推送到远程仓库以下是几种可能的解决方法 xff1a 1 检查是否存在本地分支使用git branch命令检查本地是否存在分支
Modbus通信工具学习记录

Modbus通信工具学习记录 Modbus通信方式Serial PortSerial Port调试助手虚拟Serial Port驱动 TCPTCP调试助手 Modbus模拟工具Modbus PollModbus Slave通信测试后记 Mo
HandlerInterceptorAdapter

HandlerInterceptorAdapter是什么 xff1f HandlerInterceptorAdapter是Spring框架提供的一个适配器 xff0c 通过继承它可以很方便的实现一个拦截器 xff1b HandlerInte
我的Chrome插件

1 AdBlock 用来屏蔽广告 xff0c 用过的人都说好 2 Flash Block Plus 用来限制Flash的播放 3 Flash Control 用来限制Flash的播放 4 Full Page Screen Capture 好
网络协议栈基本知识

https www cnblogs com mrlayfolk p 11965347 html 个人觉得原作者把网络协议栈讲解的很好 xff08 生动 xff0c 易理解 xff09 xff0c 所以在这里记录并分享 1 网络协议分层按照
VS code 发送http请求

下载rest http插件 xff0c 重启vscode 发送get请求 span class token annotation punctuation 64 hostname span span class token operator
AD 教程（一）

写在前面 xff1a 本教程源自凡亿教育出品的 AD2019 从入门到精通 xff0c 笔记分为六部分 xff0c 如有错误之处 xff0c 请多指教视频出处一元件库的创建 1 软件的安装2 AD工程的组成及创建3 元件库介绍电阻容
docker 常用删除镜像和容器命令记录

删除镜像命令一通过标签删除镜像通过如下两个都可以删除镜像 xff1a 1 docker rmi image 或者 xff1a 1 docker image rm image 支持的子命令如下 xff1a f force 强制删除镜像
树莓派安装ROS系统【第一篇】

树莓派装ROS系统 xff08 第一篇 xff09 注 xff1a 第一篇主要是撰写了树莓派安装ROS系统 xff0c 远程连接等操作在网上扒拉了一些资料 xff0c 感觉各有优缺 xff0c 作为踩坑者要进行信息的筛选 xff0c 因
使用Scala编写第一个Spark程序

使用Scala编写第一个Spark程序演示目标演示环境创建Spark工程本地运行Spark集群运行安装SparkSpark standaloneSpark on yarnyarn client模式yarn cluster模式运行结果演示
Git常用命令及使用

Git常用命令根据分支名查询分支根据分支名查询分支 span class token comment 根据输入的分支名模糊匹配本地和远程分支 span span class token function git span branch
Elasticsearch的安装与启动

Elasticsearch的安装与启动演示目标安装与启动配置远程服务器访问启动时异常与解决方法演示目标在Linux环境中安装并启动Elasticsearch 7 x版本安装与启动下载ES https www elastic co
各软件下载地址

常用软件下载地址软件备注JDK各版本华为云高速下载
使用VMware创建CentOS7虚拟机并设置网络环境（桥接、NAT、内网）

使用VMware创建CentOS7虚拟机并设置网络环境 xff08 桥接 NAT 内网 xff09 演示目标演示环境创建虚拟机设置外网NAT模式桥接模式设置内网演示目标使用VMware Workstation创建三台CentOS7虚拟
SOAP出现问题：由于 ContractFilter 在 EndpointDispatcher 不匹配，因此 Action 为“”的消息无法在接收方处理(已解决)

场景 SOAPUI在服务器上正常运行 xff1b 用Java的Post请求调用时 xff0c 能够调通接口 xff0c 但出现问题 xff1a lt s Envelope xmlns s 61 http schemas xmlsoap or
从0开始搭建Hadoop2.x高可用集群（HDFS篇）

从0开始搭建Hadoop2 x高可用集群 xff08 HDFS篇 xff09 演示目标演示环境注意事项准备虚拟机关闭防火墙检查系统时间修改host设置免密登录卸载OpenJDK安装软件准备HDFS配置cote site xml配置hdfs
从0开始搭建Hadoop2.x高可用集群（YARN篇）

从0开始搭建Hadoop2 x高可用集群 xff08 YARN篇 xff09 演示目标演示环境准备YARN配置yarn site xml配置mapred site xml拷贝配置启动YARN集群验证高可用 xff08 HA xff09 演
解决Win10菜单栏中搜索框无法搜索应用

解决Win10菜单栏中搜索框无法搜索应用如图 xff0c 在任务管理器中找到Windows资源管理器 xff0c 重新启动即可
使用Java编写第一个MapReduce程序

使用Java编写第一个MapReduce程序演示目标演示环境搭建MR工程配置pom xml编写WordCountMapper java编写WordCountReducer java编写启动类Startup java打包工程部署MR工程上

使用Java编写第一个MapReduce程序

使用Java编写第一个MapReduce程序

演示目标

演示环境

搭建MR工程

配置pom.xml

编写WordCountMapper.java

编写WordCountReducer.java

编写启动类Startup.java

打包工程

部署MR工程

上传jar包到服务器

运行jar包

使用Java编写第一个MapReduce程序 的相关文章

随机推荐

热门标签

使用Java编写第一个MapReduce程序的相关文章