spark性能优化调优指导性文件

2023-11-15

1.让我们看一下前面的核心参数设置：

num-executors=10||20，executor-cores=1||2，executor-memory=10||20，driver-memory=20，spark.default.parallelism=64

假设我们的火花队列资源如下：

内存=1T，内核=400

这里有一些关于如何设置参数的技巧。首先，我们必须了解星火资源的配置和使用原则：

在默认的非动态资源分配场景中，spark是一个预应用的资源，在任务开始之前资源被独占，直到整个作业的所有任务都完成。例如，如果你在跳板上启动一个火花壳，并且从不退出或执行任务，它将总是占用所有应用的资源。(如果设置了num-executors，动态资源分配将无效)

注意上面这句话。spark的资源分配方法与mapreduce/hive有很大不同。如果不理解这个问题，会造成参数设置的其他问题。

例如，多少适合执行器核心？没有任务的并行性，整个队列资源将被独占消耗，其他同学的任务无法执行。例如，当num-executors=20个executors-cores=1个executors-memory=10时，上述任务将独占20个内核和200G内存3小时。

那么，根据这种情况下的任务，结合我们现有的资源，如何设置这五个核心参数呢？

executor_cores*num_executors不能太小或太大！一般不超过总队列核心的25%，比如总队列核心400，最大不超过100，最小不低于40，除非日志量很小。
executor_cores不应为1！否则工作过程中的线程数太少，一般2~4个为宜。

executor _ memory通常为6~10g，最大不超过20G，否则会导致GC成本高或资源严重浪费。

spark_parallelism一般是executor_cores*num_executors的1~4倍，系统默认值为64。如果不设置，任务会分批串行执行，或者大量内核闲置，造成资源严重浪费。

5)驱动记忆有个同学之前设置了20G。实际上，驱动程序并不做任何计算和存储，只是发出任务与纱线浏览器和task进行交互。除非你是火花壳，一般1-2g就够了。

火花存储器管理器：

6)spark.shuffle.memoryFraction(默认为0.2)，也称为ExecutionMemory。这个内存区域用于解决混洗、连接、排序和ag等问题。

gregations 过程中为了避免频繁IO需要的buffer。如果你的程序有大量这类操作可以适当调高。

7)spark.storage.memoryFraction(默认0.6)，也叫 StorageMemory。这片内存区域是为了解决 block cache(就是你显示调用dd.cache, rdd.persist等方法), 还有就是broadcasts,以及task results的存储。可以通过参数，如果你大量调用了持久化操作或广播变量，那可以适当调高它。

8)OtherMemory，给系统预留的，因为程序本身运行也是需要内存的， (默认为0.2)。Other memory在1.6也做了调整，保证至少有300m可用。你也可以手动设置 spark.testing.reservedMemory . 然后把实际可用内存减去这个reservedMemory得到 usableMemory。 ExecutionMemory 和 StorageMemory 会共享usableMemory * 0.75的内存。0.75可以通过新参数 spark.memory.fraction 设置。目前spark.memory.storageFraction 默认值是0.5,所以ExecutionMemory，StorageMemory默认情况是均分上面提到的可用内存的。

例如，如果需要加载大的字典文件，可以增大executor中 StorageMemory 的大小，这样就可以避免全局字典换入换出，减少GC，在这种情况下，我们相当于用内存资源来换取了执行效率。

通过执行日志分析性能瓶颈

最后的任务还需要一个小时，那这一个小时究竟耗在哪了?按我的经验和理解，一般单天的数据如果不是太大，不涉及复杂迭代计算，不应该超过半小时才对。

由于集群的 Spark History Server 还没安装调试好，没法通过 spark web UI 查看历史任务的可视化执行细节，所以我写了个小脚本分析了下前后具体的计算耗时信息，可以一目了然的看到是哪个 stage 的问题，有针对性的优化。

怎么进行Spark的性能调优

可以看到优化后的瓶颈主要在最后写 redis 的阶段，要把 60G 的数据，25亿条结果写入 redis，这对 redis 来说是个挑战，这个就只能从写入数据量和 kv 数据库选型两个角度来优化了。

怎么进行Spark的性能调优

其它优化角度

当然，优化和高性能是个很泛、很有挑战的话题，除了前面提到的代码、参数层面，还有怎样防止或减少数据倾斜等，这都需要针对具体的场景和日志来分析，此处也不展开。

2、spark 初学者的一些误区

对于初学者来说 spark 貌似无所不能而且高性能，甚至在某些博客、技术人眼里 spark 取代 mapreduce、hive、storm 分分钟的事情，是大数据批处理、机器学习、实时处理等领域的银弹。但事实确实如此吗?

从上面这个 case 可以看到，会用 spark、会调 API 和能用好 spark，用的恰到好处是两码事，这要求咱们不仅了解其原理，还要了解业务场景，将合适的技术方案、工具和合适的业务场景结合——这世上本就不存在什么银弹。。。

说道 spark 的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU：核心思想就是能用内存 cache 就别 spill 落磁盘，CPU 能并行就别串行，数据能 local 就别 shuffle。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark性能优化调优指导性文件的相关文章

Zabbix 4.0升级5.0 &&ES 6.1升级7.0

Zabbix 4 0升级5 0 一升级方案 1影响范围升级期间不会影响到现有的系统系统将保持正常的运行升级完成后将进行一段时间的可用性测试待系统稳定后将替换生产上的监控 2升级方法本次升级采用蓝绿部署的方式先在测试环境重新
com中abc.h不能修改，只能修改abc.idl，生成abc.h

如题犯了这个错误
小笔记1：在Unity中导入模型后，材质被锁定后无法更改

每天进步一点点小笔记解决方案方法1 在资源里查找到该模型右侧inspector栏 Materials location选择Use External Material 点击Apply导入便可以编辑方法2 在资源里查找到该模型右侧in

随机推荐

opkg软件源设置

opkg软件源定义在 etc opkg distfeeds conf 更新 etc opkg conf并没有什么卵用文件中包含软件源索引的目录路径分为base luci management packages routeing tel
live555 流媒体开源库

live555对每一个从事过流媒体开发的从业者而言都不曾陌生就像每一个从事音视频行业的从业者而言 ffmpeg也不曾陌生随着行业需求的发展 live555也是越见强大因前几天帮朋友项目查找问题重拾live555 没想到时隔10年
树莓派修改国内软件源

编辑sources list文件 sudo nano etc apt sources list 注释掉现有的代码新增以下代码 deb http mirrors tuna tsinghua edu cn raspbian raspbian
精准营销获客如何成为企业未来的发展趋势，运营商大数据

精准营销最大的优势在于精准即在细分市场的基础上对不同的消费者进行详细分析确定目标受众精准营销的主要特点如下 1 数据范围广可以说是全球数据目前中国三大运营商覆盖了数十亿互联网用户可以说是非常全面的可以满足各个行业的需求
并发编程系列之原子操作实现原理

前言上节我们讲了并发编程中最基本的两个元素的底层实现同样并发编程中还有一个很重要的元素就是原子操作原子本意是不可以再被分割的最小粒子原子操作就是指不可中断的一个或者一系列操作那么今天我们就来看看在多处理器环境下Java是如何保证
Kali Linux版本手动更新

Kali Linux版本手动更新前言一查看版本信息二更换apt源三 apt get的使用四查看版本信息总结前言学校这几天在上实训课用到kali 老师推荐下载最新的版本大家纷纷把原有的kali删了再到官网下最新版本的
Sentinel 原理讲解

Blog Posts Sentinel 为 Dubbo 服务保驾护航 by Eric Zhao 在生产环境中使用 Sentinel 控制台 by Eric Zhao Sentinel 与 Hystrix 的对比 by Eric Zhao G
基于51单片机的停车场车位管理系统

具体实现功能由AT89S52单片机 AT24C02数据存储模块按键模块 LCD1602显示报警模块等构成具体功能 1 显示停车场现有车辆数和已停放过车辆数总共16个车位指示灯指示具体的车位占用情况 2 可以手动设置总车位数以及剩
回归算法-概述

回归算法概述 Regression Algorithms Overview 回归概论 Introduction to Regression Regression is another important and broadly used
Upload-labs文件上传漏洞（空格绕过）——Pass06

0 00 题目描述似乎可以使用Pass04文件改写但是感觉应该不会那么简单 0 01 源码分析 is upload false msg null if isset POST submit if file exists UPLOAD PA
jsPDF(高清)，html导出多页pdf（分享）

前言遇到在html导出PDF的需求在csdn找了很多关于PDF导出功能的文章介绍了jsPDF iText和wkhtmltopdf三种方式其中iText的使用对于中文还需要导入特定字体包 wkhtmltopdf需要配置服务器环境综合
程序员绩效总结_华为的研发人员薪酬体系你学不会，不如这4种绩效模式

最近不少研发型企业的学员咨询我们研发人员的薪酬绩效体系怎么做今天我简单为大家介绍一下具体的操作方式提到研发人员薪酬绩效体系绕不开中国一个响当当的高科技企业华为华为的工资体系是怎样的华为的研发团队组织结构发生过两次重大调整从
【详解】指针与函数传参——多图、多例子（c语言）

前言在用c语言实现链表时会有很多朋友无法理解明明传了指针到函数中函数中对指针改变却无法影响原函数中指针的位置事实上这是因为你对形参和实参的关系理解还不够透彻通过这篇文章我将告诉你指针传参时函数的形参到底该选择怎样的类型接收
jquery——zTree, 完美好用的树插件
记一次udp服务性能优化经历

目录概述磁盘io 网络io 减少重复计算减少内存复制减少互斥锁概述手上有个go项目接收udp信息主要是syslog和snmp trap 并查询设备信息将信息结构化设备ip名称匹配了什么规则之类的后发送到kafka和e
哈夫曼编码的实现

2 哈夫曼编码的实现对教材P167中习题5 18 编码实现哈夫曼编码树并对 Chapter Graphs surveys the most important graph processing problems including de
org.hibernate.UnknownEntityTypeException: Unable to locate persister:xxx类

看了网上其他人的解决办法发现出现的错误跟我的并不相同基本就是没有引入映射文件或者映射文件路径错误我的错误是抽取了一个公共的dao 其中 get方法应该传入get x class id 而我写入的是类名所以运行时总是提示找不到这个类
51单片机学习笔记-12LCD1602液晶屏

12 LCD1602液晶屏 toc 注笔记主要参考B站江科大自化协教学视频 51单片机入门教程 2020版程序全程纯手打从零开始入门注工程及代码文件放在了本人的Github仓库 12 1 LCD1602介绍 LCD1602 Liq
ArcSDE 日志文件表（二）

基于会话的或独立的日志文件组成的池 Pools of log file tables 以下为ArcGIS10 1中文帮助归地理数据库管理员所有的日志文件池地理数据库管理员可以创建可由其他用户检出和使用的日志文件池这些日志文件可以是基于
spark性能优化调优指导性文件

1 让我们看一下前面的核心参数设置 num executors 10 20 executor cores 1 2 executor memory 10 20 driver memory 20 spark default parallelis

spark性能优化调优指导性文件

spark性能优化调优指导性文件 的相关文章

随机推荐

热门标签

spark性能优化调优指导性文件的相关文章