MapReduce框架原理之ReduceTask工作机制

2023-11-13

 

 

一、Reduce Task 并行度决定机制

reduce task的并行度,也就是同时开启了几个reduce task。分为两种情况:

1、如果我们自己定义了分区器,我们能够确定自己的分区器能够形成几个物理分区,加入我们要生成5个分区,那么我们要再driver中设置与分区数量相等的reduce task数量:

//默认值是1,手动设置为5
job.setNumReduceTasks(5);

2、如果我们采用默认的分区器,也就是HashPartitioner,那么只需要根据实际情况在driver中设置若干个reduce task数量。默认的分区器非常智能,可以根据我们设置的reduce task数量产生相应的分区数量。

注意:
(1)如果reducetask=0,则表示没有reduce阶段,输出文件个数和map个数一致。
(2)reducetask默认数量为1,所以默认输出一个文件。
(3)如果数据分布不均匀,就有可能在reduce端产生数据倾斜。
(4)reducetask数量并不是任意设置的,要考虑业务需求。有些情况下需要计算全局结果,只能有一个reducetask。
(5)具体有多少个reducetask数量还需要考虑集群性能而定。
(6)如果分区数不是1,reducetask数量是1,则不执行分区过程,因为在maptask源码中执行分区的条件是reducenum数量大于1,不大于1肯定不执行。
(7)reduce task的数量并非越多越好,设置大量的reduce task数量可能会导致启动他们时间过长,造成矫枉过正,过犹不及。所以我们应该按照实际情况综合分析,设置合适的reduce task数量。

 

二、Reduce Task 工作机制

(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。

(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。

(3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。

(4)Reduce阶段:reduce()函数将计算结果写到HDFS上。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce框架原理之ReduceTask工作机制 的相关文章

随机推荐

  • vscode函数跳转环境搭建(C/C++)

    之前读书学习时 代码量比较小 装个C C 插件就可搞定 但面对比较大的工程 只安装这个插件就不起作用了 就需要建立符号链接 1 基础环境C C 插件 C C 插件是来自微软官方的 C C 插件 必备的插件 是代码跳转 自动补全 代码大纲显示
  • 【教程】制作能在ARM板上直接运行的gcc本地编译器

    编译好的程序的下载链接 百度网盘 请输入提取码 提取码 ocmm 概述 通常情况下 我们是在电脑里面开一个Linux虚拟机 在虚拟机里面用交叉编译工具链编译好可执行文件后 将可执行文件拷贝到板子里面运行 也就是说 我们是用电脑上运行的gcc
  • gateway整合sentinel限流不生效排查

    问题 线上的sentinel 在测试压测时候可以正常被限流 但是在正常的流量中 发现被限流的接口很少 我发誓肯定都配置了限流规则 约定 文中的 服务名称以及地址 都被改写了 排查步骤 1 检查相关配置 以及 pom依赖配置 发现Sentin
  • effective java

    第一章 Java开发中通用的方法和准则 建议1 不要在常量和变量中出现易混淆的字母 i l 1 o 0等 建议2 莫让常量蜕变成变量 代码运行工程中不要改变常量值 建议3 三元操作符的类型务必一致 不一致会导致自动类型转换 类型提升int
  • 谷歌云

    本文由 Cloud Ace 云一整理 越来越多的组织正在Cloud Run上构建应用程序 这是一个完全托管的计算平台 可让您在 Google 的基础架构之上运行容器化应用程序 想想 Web 应用程序 实时仪表板 API 微服务 批量数据处理
  • Hibernate学习笔记(三) --- 映射枚举类型

    对于枚举类型 不能通过org hibernate annotations Type注解来简单的映射对应的数据库字段类型 除非自定义类型 对此 Hibernate提供了javax persistence Enumerated注解 该注解的参数
  • POI 操作word

    关于POI 操作word的基础知识在这个博客 http elim iteye com blog 2049110 中有非常清晰的解释 在这里我就不多解释了 本文研究的内容就是 XWPFParagraph 代表一个段落 XWPFRun 代表具有
  • 深入学习jquery源码之html()与text()和val()

    深入学习jquery源码之html 与text 和val html val fn 概述 取得第一个匹配元素的html内容 这个函数不能用于XML文档 但可以用于XHTML文档 在一个 HTML 文档中 我们可以使用 html 方法来获取任意
  • 均值滤波计算_【从零学习OpenCV 4】均值滤波

    点击上方 小白学视觉 选择 星标 公众号 重磅干货 第一时间送达 经过几个月的努力 小白终于完成了市面上第一本OpenCV 4入门书籍 从零学习OpenCV 4 为了更让小伙伴更早的了解最新版的OpenCV 4 小白与出版社沟通 提前在公众
  • L1-063 吃鱼还是吃肉(Python实现) 测试点全过

    前言 color Blue 前言 前言 本系列题使用的是 PTA中的团体程序设计天梯赛 练习集 的题库 难度有L1 L2 L3三个等级 分别对应团体程序设计天梯赛的三个难度 更新取决于题目的难度 和学校的事情 但尽可能保证每日更新 若没更新
  • Android TextView内容包含中英文时满行居中,不足一行则左对齐,会出现左右空格不一致。

    package com roya shandong view import android content Context import android graphics Canvas import android graphics Pai
  • 一个多模块的Spring Boot项目打成多个jar包在服务器上运行

    最近有个项目 分成了多个模块 如api system business common等 每个模块都打包成jar包 那么如何将他们扔到linux服务器上成功运行呢 重点在于搞清楚多模块之间的依赖关系 在相应的pom xml中配置好依赖模块是哪
  • draft14

    0 什么是凸多边形
  • 回归问题先将特征变成变成正态分布

    为什么 为什么 神经网络中也用到这样的方法 神经网络 注意正态分布化与归一化的不同 怎么做怎样做
  • Caused by: org.apache.ibatis.builder.BuilderException: Error parsing SQL Mapper Configuration. Cause

    Exception in thread main org apache ibatis exceptions PersistenceException Error building SqlSession The error may exist
  • Kids and COVID: why young immune systems are still on top

    亲娘啊 大概8号前后开始 到15号翻译完 除去周末 大概用了6天 每天空的时候花大概一个多小时到两个小时翻译一点点 终于弄完了 nature好难啊 语法倒是没有太多的长难句 生词太多了 看来很有可能要转战扇贝阅读了 Innate immun
  • unity实现场景跳转

    话不多说直接开始操作步骤 1 打开我们的unity创建一个工程 打开后我们先搭一个场景 建立一个Button 添加一个c 脚本 并保存场景为命名为01 结果如下 2 在菜单栏中找到File按钮New Scene新建另一个场景创建一个Butt
  • Face Swapping: Automatically Replacing Faces in Photographs论文阅读

    论文原文 Face Swapping Automatically Replacing Faces in Photographs 题目 人脸交换 自动替换照片中的人脸 图1 我们已经开发了一个系统 它自动地将输入图像中的人脸替换为从大量人脸图
  • Ctfshow web-web6 WP

    Ctfshow web we6 WP 进去看见一个login界面 看上去有点眼熟 好像做过 但是尝试之前做过的方法 回显始终是sql infect error 这样的回显表示输入的值中有非法字符 最后尝试下来是空格被顾虑了 用 代替 原来
  • MapReduce框架原理之ReduceTask工作机制

    一 Reduce Task 并行度决定机制 reduce task的并行度 也就是同时开启了几个reduce task 分为两种情况 1 如果我们自己定义了分区器 我们能够确定自己的分区器能够形成几个物理分区 加入我们要生成5个分区 那么我