hadoop之yarn

2023-10-27

简介

一、YARN是一个通用资源管理系统和调度平台,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
1、通用指不仅支持mr程序,也支持其它计算程序
2、资源管理包括集群的硬件资源、cpu、内存等
3、调度平台指多个程序同时执行时 如何分配计算资源,调度的规则(算法)

二、YARN类似一个分布式的操作系统平台,为MapReduce等计算程序提供运行所需的内存、CPU等资源。

三、yarn在hadoop中的位置
在这里插入图片描述
四、YARN上的应用类型
在这里插入图片描述
在这里插入图片描述

发展史

数据的计算处理过程 = 数据 + 程序 + 运算资源
原始:单机环境,三者的协调不是问题,但是海量数据则需要分布式处理

第0阶段:Ad Hoc集群
没有持久存储数据的需求,也没有共享数据和计算结果的动机。在少量节点上搭建集群环境,将数据保存在hdfs中,运行map reduce任务获得结果,拆掉集群

第1阶段:HOD集群
数据持久存储在hdfs中,并共享。Yahoo开发了HOD平台,在一个大规模的物理集群上供应虚拟hadoop集群系统。在已经分配的节点上,HOD启动mMR和HDFS守护进程来响应用户数据和应用的请求。
缺点:无法支持数据本地化、资源回收率低、无法动态扩容缩容、多租户共享延迟高等
在这里插入图片描述
第2阶段:共享MR
是hadoop1.x中的主要框架模型
在这里插入图片描述
JobTracker 中央守护进程,负责运行集群上的所有作业。
TaskTracker 系统里的从进程,根据JobTracker 指令执行任务
缺点:JobTracker既做计算又管理资源,可扩展性差

第3阶段:YARN集群
mr专项负责计算,yarn负责任务调度和资源管理
yarn可解决以往架构的需求和缺陷

在这里插入图片描述

架构

yarn是标准的主从架构,ResourceManager是Master,NodeManager是Slave。

一主多从集群

在这里插入图片描述
1、Client 向RM提交MR作业
2、RM 接收client提交的作业、给AppMaster分配资源、监听NM节点状态、监听AppMaster运行状态
3、NM 向RM汇报节点状态
4、AppMaster 向RM申请计算资源、监听Container(MR TASK)作业状态
5、Container(MR TASK)向AppMaster汇报MR作业状态

集群角色
在这里插入图片描述
一、RM
1、集群中的主角色,决定系统中所有应用程序之间资源分配的最终权限。
2、RM接受用户提交的作业,并通过NM分配和管理各个机器上的计算资源,资源以Container容器形式给与。
3、RM包含应用程序管理器(Applications Manager ASM)、调度器(Scheduler)等组件
a. 调度器根据容量、队列等限制条件,将系统中的资源分配给各个正在运行的应用程序。
b. 应用程序管理器负责管理整个系统中所有的应用程序,包括应用程序提交、与调度器协商资源以启动Application Manager(AM)、监控AM运行状态并在失败时重新启动它等。

二、NM
1、集群中的从角色,一台机器上部署一个N,负责管理本机器上的资源。
2、 定时向RM汇报本节点上的资源使用情况和各容器的运行状态
3、接受AM的命令启动|停止容器等

三、ApplicationMaster (App Mast)(AM)
1、用户提交的每个应用程序均包含一个AM,是应用程序内的老大,负责程序内部各阶段的资源申请,监控程序执行情况。
2、向RM的ASM 注册或者撤销自己
3、与RM调度器协商获取资源(用容器表示)
4、将得到的任务进一步分配给内部的任务
4、与NM通信以启动/停止任务;
5、监听所有任务运行状态,任务执行失败时重新为任务申请资源以重启任务

四、容器
1、yarn中的资源抽象,封装了某个节点上的多维资源,如内存、cpu、磁盘、网络等等
2、AM向RM申请资源时,RM为AM返回一个Container对象。
3、yarn会为每个任务分配一个Container,给任务只能使用该分配的资源。
4、当前yarn只支持cpu和内存两种资源,底层使用了轻量级资源隔离机制

通信协议
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

YARN HA高可用集群

基于zookeeper集群实现YARN HA,解决RM单点故障问题
在这里插入图片描述

实现HA的关键是主备之间状态数据同步和顺序切换;通过zk存储共享集群的状态数据(zk本质也是小文件存储系统);可手动或者基于zk的ActiveStandyElector来自动实现主备切换;ActiveStandyElector是嵌入在RM中充当故障检查器和leader选举的线程,不是单独的ZKFC守护进程(HDFS运行单独的ZKFC守护进程)

自动切换原理(故障转移原理)
在这里插入图片描述
在这里插入图片描述

YARN交互流程

在这里插入图片描述

部署

一主多从集群

YARN集群通常和HDFS一起搭建,NM通常和HDFS的DN部署在一起,方便数据计算。
在这里插入图片描述

步骤一:服务器基础环境准备
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
步骤二:上传、解压安装包
在这里插入图片描述

步骤三:hadoop安装包目录结构
在这里插入图片描述
步骤四:编辑配置文件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
步骤五:分发同步安装包
在这里插入图片描述
步骤六:配置环境变量
在这里插入图片描述
步骤七:格式化操作
在这里插入图片描述
步骤八:启动
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

YARN HA集群搭建

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

RM重启机制

RM负责资源管理和应用调度,单点部署时可通过重启机制,使RM失败时不被用户发现。
RM的重启机制有两种:Non-work-preserving 和 Work-preserving
Non-work-preserving不保留运行过程产生的数据,只保留应用提交的信息和最终执行状态,重启后重新执行任务
在这里插入图片描述
Work-preserving保留运行过程产生的数据,重启会继续执行。
在这里插入图片描述
RM状态数据的存储介质
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hadoop之yarn 的相关文章

随机推荐

  • 了解关于Hadoop的12个事实

    原文 http os 51cto com art 201206 345249 htm 了解关于Hadoop的12个事实 本文中 分析师给出了关于Hadoop的12点事实 帮助您认识一个真实的Apache Hadoop生态系统 作者 茶一峰
  • uni-app,解决方案, 已存在待跳转页面,请不要连续多次跳转页面问题

    问题的解决思路 设置全局变量flag 以及封装跳转函数 设置定时器不允许几秒钟重复跳转 1 如果采用 uni navigateTo 跳转 jumpFlag function path 跳转开关 if getApp globalData is
  • Arduino基础项目篇-基于Arduino的智能小车

    从这篇开始 后续会陆陆续续写一些自己入门单片机以来做过的一些项目教程 y由于不是现在做的 所以我可能没有调试的照片啥之类的 而且做的东西大多都拆了 我刚入门Arudino时 做的第一个项目 就是Arduino智能小车 做出来的小车具有红外避
  • 华大单片机KEIL报错_WEAK的解决方案

    1 Keil编译无法识别 WEAK时的问题清单如下 在使用Keil编译有时出现无法识别 WEAK的问题 截图如下 提示的错误信息如下 mcu common interrupts hc32l13x c 72 error 77 D this d
  • ACL技术-------访问控制列表

    1 ACL原理 设备根据事先设置好的报文匹配规则对经过该设备的流量进行匹配 然后对报文执行预先设定的处理动作 2 ACL功能 1 访问控制 在流量流入或者流出的接口上匹配流量 动作 允许 permit 拒绝 deny 2 抓取流量 3 AC
  • Error in py_run_file_impl(file, local, convert) : ModuleNotFoundError: No module named ‘igraph‘

    在HPC平台上跑我的R语言代码 结果一直报错说 Error in py run file impl file local convert ModuleNotFoundError No module named igraph 我就知道是我R语
  • 单片机--USART

    目录 1 通信的基础知识 2 USART 3 串口通信协议 4 相关寄存器 串口控制寄存器 波特率寄存器 中断和状态寄存器 编辑 数据发送寄存器 数据接收寄存器 5 USART功能框图 6 串口发送实验 实验要求 1 观察实物 2 分析原理
  • 路由与路由表简介

    路由的概念 从字面上来说 路由 就是路径选择的意思 路由是指网络设备通过网络将信息正确传输到指定目的地的方式 而路由器正是这样的 网络设备 它可以根据目标网络选择 最优 的路径来决定下一跳跳向哪个路由器 但是什么是最优的路径 最优并不意味着
  • Go语言网络编程(socket编程)TCP粘包

    1 TCP粘包 服务端代码如下 socket stick server main go func process conn net Conn defer conn Close reader bufio NewReader conn var
  • 12306登录验证码识别

    最近在研究12306验证码识别 前期的12306查询验证码识别已经上线了 详见http download csdn net download ghost man 10160932的博客 里面的12306查询验证码已经上线了 可以去体验一下
  • linux服务器前后端部署遇到的问题以及解决办法

    nginx部署前端 将静态资源打包上传到自己指定的目录 nginx 配置 到这里 前端就部署完成了 当时访问的时候发现只能加载html页面 所有的js css 图片等等全部404 原因是没有指定静态资源的绝对路径 因为我用的宝塔面板的ngi
  • 如何添加Burp Suite添加https证书

    Burp Suite是一款强大的安全测试工具 可以用来设置代理 抓取http数据包 如果添加了https证书 就可以抓取https数据包 一 前期准备 联网的电脑一台 Burp Suite软件 firefox浏览器 并安装proxy swi
  • 第1195期机器学习日报(2017-12-26)

    机器学习日报 2017 12 26 Moments in Time IBM MIT联合提出最新百万规模视频动作理解数据集 ChatbotsChina 2017深度学习框架大事记 wx SWATS 自动由Adam切换为SGD而实现更好的泛化性
  • HTML与计算机代码

    目录 计算机代码 HTML 计算机代码格式 HTML 键盘格式 实例 HTML 样本格式 实例 HTML 代码格式 实例 实例 实例 HTML 变量格式化 实例 HTML 计算机代码元素 一个完整的实例 计算机代码 var person f
  • 2023年第十四届蓝桥杯单片机开放与设计省赛微析与经验分享

    前言 2023年4月8日 就在昨天 本人刚参与了第十四届蓝桥杯单片机开放与设计省赛 整体做下来 且不谈客观题 今年的程序题 个人感觉有点像大杂烩 题量大 细节多 而且有些要求定义不够清晰 所以本人这次做的不够完美 并且因为时间问题有些小功能
  • 教妹学Java(七):究竟什么是JVM?

    大家好 我是沉默王二 一个和黄家驹一样身高 和刘德华一样颜值的程序员 本篇文章通过我和三妹对话的形式来谈一谈 究竟什么是 JVM 教妹学 Java 没见过这么有趣的标题吧 语不惊人死不休 没错 本篇文章的标题就是这么酷炫 接受不了的同学就别
  • 30天自制操作系统第3天harib00g

    30天自制操作系统 第3天进入32位模式并导入 C 语言 确认操作系统的执行情况 harib00g 准备材料 windows环境 VMware Workstation Visual Studio Code 程序和源代码 https pan
  • openmmlab第五次作业

    MMDetection是商汤和港中文大学针对目标检测任务推出的一个开源项目 它基于Pytorch实现了大量的目标检测算法 把数据集构建 模型搭建 训练策略等过程都封装成了一个个模块 通过模块调用的方式 我们能够以很少的代码量实现一个新算法
  • 解封装(七):av_read_frame读取帧数据函数分析和产生的空间问题分析,以及AVPacket分析

    1 在完成了视频的格式的解析 即音视频编码参数获取之后 我们就可以开始读取具体的音视频帧数据 av read frame 我们要忠实的是 函数调用之后是否应该涉及到清理方法 先看下上面函数的参数 AVFormatContext s 文件格式
  • hadoop之yarn

    简介 一 YARN是一个通用资源管理系统和调度平台 为集群在利用率 资源统一管理和数据共享等方面带来了巨大好处 1 通用指不仅支持mr程序 也支持其它计算程序 2 资源管理包括集群的硬件资源 cpu 内存等 3 调度平台指多个程序同时执行时