java map reduce 原理_MapReduce工作原理图文详解

2023-05-16

前言：

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。

呵呵，下面我们进入正题，这篇文章主要分析以下两点内容：

1.MapReduce作业运行流程

2.Map、Reduce任务中Shuffle和排序的过程

正文：

1.MapReduce作业运行流程

下面贴出我用visio2010画出的流程示意图：

流程分析：

1.在客户端启动一个作业。

2.向JobTracker请求一个Job ID。

3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本(mapred.submit.replication属性控制)；输入划分信息告诉了JobTracker应该为这个作业启动多少个map任务等信息。

4.JobTracker接收到作业后，将其放在一个作业队列里，等待作业调度器对其进行调度(这里是不是很像微机中的进程调度呢，呵呵)，当作业调度器根据自己的调度算法调度到该作业时，会根据输入划分信息为每个划分创建一个map任务，并将map任务分配给TaskTracker执行。对于map和reduce任务，TaskTracker根据主机核的数量和内存的大小有固定数量的map槽和reduce槽。这里需要强调的是：map任务不是随随便便地分配给某个TaskTracker的，这里有个概念叫：数据本地化(Data-Local)。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地化。

5.TaskTracker每隔一段时间会给JobTracker发送一个心跳，告诉JobTracker它依然在运行，同时心跳中还携带着很多的信息，比如当前map任务完成的进度等信息。当JobTracker收到作业的最后一个任务完成信息时，便把该作业设置成“成功”。当JobClient查询状态时，它将得知任务已完成，便显示一条消息给用户。

以上是在客户端、JobTracker、TaskTracker的层次来分析MapReduce的工作原理的，下面我们再细致一点，从map任务和reduce任务的层次来分析分析吧。

2.Map、Reduce任务中Shuffle和排序的过程

同样贴出我在visio中画出的流程示意图：

流程分析：

Map端：

1．每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小(默认为64M)为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M，由io.sort.mb属性控制)，当该缓冲区快要溢出时(默认为缓冲区大小的80%，由io.sort.spill.percent属性控制)，会在本地文件系统中创建一个溢出文件，将该缓冲区中的数据写入这个文件。

2．在写入磁盘之前，线程首先根据reduce任务的数目将数据划分为相同数目的分区，也就是一个reduce任务对应一个分区的数据。这样做是为了避免有些reduce任务分配到大量数据，而有些reduce任务却分到很少数据，甚至没有分到数据的尴尬局面。其实分区就是对数据进行hash的过程。然后对每个分区中的数据进行排序，如果此时设置了Combiner，将排序后的结果进行Combia操作，这样做的目的是让尽可能少的数据写入到磁盘。

3．当map任务输出最后一个记录时，可能会有很多的溢出文件，这时需要将这些文件合并。合并的过程中会不断地进行排序和combia操作，目的有两个：1.尽量减少每次写入磁盘的数据量；2.尽量减少下一复制阶段网络传输的数据量。最后合并成了一个已分区且已排序的文件。为了减少网络传输的数据量，这里可以将数据压缩，只要将mapred.compress.map.out设置为true就可以了。

4．将分区中的数据拷贝给相对应的reduce任务。有人可能会问：分区中的数据怎么知道它对应的reduce是哪个呢？其实map任务一直和其父TaskTracker保持联系，而TaskTracker又一直和JobTracker保持心跳。所以JobTracker中保存了整个集群中的宏观信息。只要reduce任务向JobTracker获取对应的map输出位置就ok了哦。

到这里，map端就分析完了。那到底什么是Shuffle呢？Shuffle的中文意思是“洗牌”，如果我们这样看：一个map产生的数据，结果通过hash过程分区却分配给了不同的reduce任务，是不是一个对数据洗牌的过程呢？呵呵。

Reduce端： 1．Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的。如果reduce端接受的数据量相当小，则直接存储在内存中(缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制，表示用作此用途的堆空间的百分比)，如果数据量超过了该缓冲区大小的一定比例(由mapred.job.shuffle.merge.percent决定)，则对数据合并后溢写到磁盘中。 2．随着溢写文件的增多，后台线程会将它们合并成一个更大的有序的文件，这样做是为了给后面的合并节省时间。其实不管在map端还是reduce端，MapReduce都是反复地执行排序，合并操作，现在终于明白了有些人为什么会说：排序是hadoop的灵魂。 3．合并的过程中会产生许多的中间文件(写入磁盘了)，但MapReduce会让写入磁盘的数据尽可能地少，并且最后一次合并的结果并没有写入磁盘，而是直接输入到reduce函数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java map reduce 原理_MapReduce工作原理图文详解的相关文章

头条 offer，记一次 JAVA 面试经历和总结

作者 xff1a 想去大厂的小菜鸡本文的我 xff0c 不是我 xff0c 是文中的作者国庆期间公司的项目很闲 xff0c 很多人觉得没意思陆续走了 xff0c 我也考虑到自己的发展 xff0c 从9月底开始面 xff0c 面到11月
Centos6.4部署OpenStack

现在好多公司都使用Openstack xff0c 我做这个也是小菜鸟一个 xff1b 网上看了一些资料说的都是openstack xff0c 但是现在openstack的版本不一样所以亲们安装的时候一定要注意看一下你要安装的是那个版本 x
【论文笔记】多任务学习（Multi-Task Learning）

1 前言多任务学习 xff08 Multi task learning xff09 是和单任务学习 xff08 single task learning xff09 相对的一种机器学习方法在机器学习领域 xff0c 标准的算法理论是一次
常用 API 函数(5): 文本和字体函数

AddFontResource在Windows系统中添加一种字体资源CreateFont用指定的属性创建一种逻辑字体CreateFontIndirect用指定的属性创建一种逻辑字体CreateScalableFontResource为一种T
ElasticSearch笔记系列（7）——删除文档和删除索引

2019独角兽企业重金招聘Python工程师标准 gt gt gt 本文介绍删除文档和删除索引的基本方法本来想把这几篇合成一篇的 xff0c 但最近事情太多 xff0c 好多比较长的文章总是写了一半便束之高阁 xff0c 其中有几篇还日久
经验分享——嵌入式工程师必看书籍(转载)

从事嵌入式研发行业十年 xff0c 认为学习就是要不断的吸纳知识 xff0c 在研发过程中 xff0c 经常会遇到一些问题 xff0c 这种发现问题并解决问题的过程就是进步为什么选择学习嵌入式 xff1f 嵌入式系统无疑是当前最热门最有发
VS好用系列之代码片段

背景 xff1a 同学们 xff0c 我们后台写接口 xff0c 有过没这样的困扰每个接口都需要写这么一串相似的代码 xff0c 正常都是复制粘贴一下 xff0c 如下图代码所示 xff1a 那么我们有没更好更方便快捷方法 xff0c
在虚拟机里面安装Linux操作系统

在这篇文章中以VMware14为例 xff0c Linux操作系统采用CentOS7进行讲解如何在虚拟机中安装Linux操作系统一选择创建新的虚拟机二在选择虚拟机配置界面选择自定义高级选项 xff0c 然后点击下一步三在
[译] OpenStack Pike 版本中的 53 个新功能盘点

原文 xff1a https www mirantis com blog 53 things to look for in openstack pike 作者 xff1a Mirantis Nick Chase 发布日期 xff1a 08
vsftp锁定用户在家目录

vsftpd锁定用户在家目录 1 锁定所有本地用户在家目录 xff1a 更改vsftpd conf配置文件添加 chroot local user 61 YES 2 锁定列表中的用户在家目录更改vsftpd conf 添加 chroot
使用cas-overlay-template搭建cas服务器

背景在多服务统一帐号的应用集中 xff0c 单点登录是必不可少的 CAS就是成熟的单点登录框架之一 Github地址 https github com apereo cas 现在我们就通过一系列快速简单的构建方式实现一个简单的单点登录系统
/var/log目录下的20个Linux日志文件功能详解

如果愿意在Linux环境方面花费些时间 xff0c 首先就应该知道日志文件的所在位置以及它们包含的内容在系统运行正常的情况下学习了解这些不同的日志文件有助于你在遇到紧急情况时从容找出问题并加以解决以下介绍的是20个位于 var log
很喜欢博客园这个平台

经朋友推荐来到博客园的 xff0c 非常喜欢希望在这里能学到更多知识转载于 https www cnblogs com rickons p 4580253 html
被我误解的max_connect_errors

实为吾之愚见望诸君酌之闻过则喜 xff0c 与君共勉第一节什么是 span style font size 10pt line height 50 color 000000 border none 1pt max connect e
ONOS SDN平台之Intent Framework

开放网络操作系统 xff08 ONOS xff09 SDN操作系统有一个组件或子系统叫Intent Framework 那么 xff0c Intent Framework到底能给使用SDN操作系统的服务提供商做什么呢 xff1f Will
论文：Faster R-CNN

Faster R CNN Towards Real Time Object Detection with Region Proposal Networks 论文 xff1a https arxiv org abs 1506 01497 代码
Debian 系统版本说明和国内用的稳定的更新源

Debian 系统版本说明和国内用的稳定的更新源 xff08 1 xff09 发行版 distribution 和套件组别 Section 为了要和 Debian 系统整合 xff0c 大部份 Debian 相关的套件库都会和 Debian
centos mysql远程连接慢_mysql远程连接缓慢

最近项目使用到mysql xff0c 在linux上安装rpm格式的mysql xff0c 前几天访问正常 xff0c 但今天突然发现数据库访问缓慢 xff0c 在网上搜索过后 xff0c 发现可以在 etc my cnf文件中添加 ski
mysql+e+eof_OS + linux crontab / top / ntpdate / nmon

root 64 app01 crontab l 30 usr sbin ntpdate 192 168 118 201 00 00 nmon nmon x86 rhel54 f N m nmon s 60 c 1440 1 opt IBM
ubuntu c语言调用串口,ubuntu 下使用串口工具(呕心沥血整理调试成功)

ubuntu 下使用串口工具 1 安装 sudo apt get install minicom 2 查看所有串口 ls dev tty 3 连接串口线 xff0c 查看正在使用的串口 grep tty 4 修改minicom配置 sudo

随机推荐

计算机汉字中那个有标记,上海交通大学继续教育学院计算机应用基础(二)第一次作业计算机基础知识1上课讲义...

上海交通大学继续教育学院计算机应用基础二第一次作业计算机基础知识1上课讲义由会员分享 xff0c 可在线阅读 xff0c 更多相关上海交通大学继续教育学院计算机应用基础二第一次作业计算机基础知识1上课讲义 19页珍藏版请在人人
惠普179fnw打印机使用说明_惠普HP Color Laser MFP 179fnw 一体打印机驱动下载

惠普HP Color Laser MFP 179fnw 驱动驱动支持系统 Windows 客户端操作系统 32 64 位 Win10 Win8 WIN7 xp MAC 功能 xff1a 打印复印扫描传真接口 xff1a USB 网线 W
单位矩阵的逆矩阵是它本身吗_用初等变换求矩阵的逆矩阵

我们学习了矩阵的数乘加减法 xff0c 矩阵的乘法 xff0c 对于矩阵没有除法 xff0c 只有求逆 xff0c 即求矩阵的逆矩阵矩阵是线性代数的重要内容 xff0c 很多实际问题用矩阵解决既简单又快捷逆矩阵又是线性代数的重要内容
nginx启动不了linux,nginx启动失败问题集锦

1 selinux引起nginx启动失败问题描述 xff1a 修改了nginx的配置文件 xff0c 绑定了监听9089端口 xff0c 重启nginx的时候失败了发现报错 nginx emerg bind to 0 0 0 0 908
html5半径,化学元素原子半径大小比较

化学中 xff0c 原子半径大小的比较 xff1f 离子半径大小的比较 xff1f 简单粒子半径比较从以下四个方面考虑 1原子半径同周期主族元素从左到右原子半径逐渐减小如 xff1a 同主族元素的原子从上到下原子半径逐渐增
计算机系统除了windows,盘点除了Windows和Ubuntu外，更值得你安装的电脑系统！

除了Windows和众人周知的Ubuntu xff0c 电脑系统还是有很多其他选择的 1 凤凰系统 Phoenix OS 这款系统其实就是个深度定制的安卓系统 xff0c 只不过加入了很多电脑的元素它最大的亮点就是能玩手机游戏 xff01
qcow2和vmdk互相转

先安装转换工具 apt install qemu utils qcow2转vmdk qemu img info source name vmdk 查看虚拟机信息 qemu img convert f qcow2 file qcow2 O v
云服务器搭建推流系统,云服务器搭建推流系统

云服务器搭建推流系统内容精选换一换华为云帮助中心 xff0c 为用户提供产品简介价格说明购买指南用户指南 API参考最佳实践常见问题视频帮助等技术文档 xff0c 帮助您快速上手使用华为云服务弹性云服务器操作系统无法正常
win8服务器装虚拟网卡,Win8.1使用VMware虚拟网卡无法安装解决方法

说真的这个问题已经困扰我多时了 xff0c 可以说是从使用 Windows8 1 以来一直都存在的一个问题了吧 xff0c 好不容易今天找到了解决方法 xff0c 让我久久不能平静 xff0c 这才准备在泪雪博客上把这个困扰我多时的问题的解
搭建个人网站服务器绑定github,GitHub建立个人站点并绑定域名

1 Git简介 2 为什么使用Github Pages 3 创建Github Pages 3 1 安装git工具 3 2 两种pages模式 3 3 创建步骤 3 4 常用命令 4 使用Jekyll搭建博客 4 1 什么是jekyll 4
修改服务器lldp的mac地址,FAQ:S交换机LLDP邻居建立后, 查看邻居管理地址有的显示IP地址，有的显示MAC地址，原因及解决方法...

问题描述版本信息 xff1a S5700 V200R003C00SPC300 问题描述 xff1a 多台5700间使能LLDP xff0c 邻居建立后 xff0c display lldp neighbor看到某些邻居管理地址为IP地址
python列表常用操作_Python中列表的常用操作

只整理重要常用的操作 xff1a append xff1a 尾部追加元素 xff0c 参数只能为一个 extend xff1a 用列表扩展列表 xff0c 参数为列表 insert xff1a 在指定位置插入元素 xff0c 第一个参数为插
回退n帧协议c语言代码,[计算机网络]Ch.3 数据链路层

数据链路层 1 DLL层设计问题 1 1 DLL层功能数据链路层使用物理层提供的服务在通信信道上发送和接收比特 1 向网络层提供一个定义良好的接口 2 处理传输错误 3 调节数据流 xff0c 确保慢速的接收方不会被快速的发送方淹没提
php 控制海康摄像头,通过ISAPI http协议控制海康摄像头

一直用海康的SDK进行摄像头控制 xff0c 但有时候非常不灵活 xff0c 必须有X86的主机 xff0c 在嵌入式上面就不行 xff0c 通过写一个HTTPCLIENT可以通过ISAPI来控制海康的摄像头代码如下 xff1a git
linux /etc/aliases,Linux newaliases初始化别名数据库命令详解

名称 xff1a etc aliases 使用权限 xff1a 系统管理者使用方式 xff1a newaliases 说明 xff1a sendmail 会使用一个在 etc aliases 中的档案做使用者名称转换的动作当 sendm
python语法糖是什么意思_Python中的甜蜜语法糖,甜甜的

本文分三部分讲述 python 中常用的语法糖 xff0c 为什么分三部分 xff0c 因为考虑到大家可能对 python 中的一些特有的数据结构不太熟悉 xff0c 所以首先介绍 xff1b 文章的最后将会介绍一些经典的函数语法糖首先解
使用Python破解存储在电脑上的WIFI密码

使用Python破解存储在电脑上的WIFI密码大家可能有过这样的经历 xff0c WIFI密码使用久了 xff0c 自己反而忘了 xff0c 那么 xff0c 可以采用以下Python编程方法去破解 xff0c 非常简单实用 xff01
Nginx + Tomcat 8.5 启用SSL HTTPS

一申请SSL证书阿里云申请证书图文教程 xff1a http www chinaz com web 2017 0105 639110 shtml 腾讯云申请证书二 Nginx 配置SSL span style font size 1
linux 启动smb服务命令,linux下Samba服务和NFS服务配置的方法

linux下Samba服务和NFS服务配置的方法发布时间 xff1a 2012 10 21 15 42 27 作者 xff1a 佚名我要评论本文着重介绍linux下Samba服务和NFS服务配置 linux下Samba服务和NFS服务
java map reduce 原理_MapReduce工作原理图文详解

前言 xff1a MapReduce是一种编程模型 xff0c 用于大规模数据集大于1TB 的并行运算概念 34 Map 映射 34 和 34 Reduce 归约 34 xff0c 和它们的主要思想 xff0c 都是从函数式编程语言里借

java map reduce 原理_MapReduce工作原理图文详解

java map reduce 原理_MapReduce工作原理图文详解 的相关文章

随机推荐

热门标签

java map reduce 原理_MapReduce工作原理图文详解的相关文章