sparksql压缩小文件

2023-10-27

SET spark.sql.shuffle.partitions=2;
SET spark.sql.adaptive.enabled=true;
SET spark.sql.adaptive.shuffle.targetPostShuffleInputSize=268435456;
insert overwrite table table_name partition(stat_dt) select * from source_table_name where stat_dt='20160701' distribute by id;

spark.sql.shuffle.partitions :设置的是RDD1做shuffle处理后生成的结果RDD2的分区数,一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。默认值: 200。为了发挥集群效率,一般建议设置初始分区的1.5-2倍之间。这里为了使结果分区数变少,设置得较小。

spark.sql.adaptive.enabled :自适应执行框架的开关。默认false。设置shuffle partition的上下限区间,在这个区间内对不同作业不同阶段的reduce个数进行动态调整。通过区间的设置,一方面可以大大减少调优的成本(不需要找到一个固定值),另一方面同一个作业内部不同reduce阶段的reduce个数也能动态调整。
spark.sql.adaptive.minNumPostShufflePartitions               默认为1     reduce个数区间最小值
spark.sql.adaptive.maxNumPostShufflePartitions              默认为500     reduce个数区间最大值
spark.sql.adaptive.shuffle.targetPostShuffleInputSize        默认为67108864     动态调整reduce个数的partition大小依据,如设置64MB则reduce阶段每个task最少处理64MB的数据
spark.sql.adaptive.shuffle.targetPostShuffleRowCount      默认为20000000     动态调整reduce个数的partition条数依据,如设置20000000则reduce阶段每个task最少处理20000000条的数据
 

spark.sql.adaptive.shuffle.targetPostShuffleInputSize :该参数是用于开启spark的自适应执行,这是spark比较老版本的自适应执行,后面的targetPostShuffleInputSize是用于控制之后的shuffle 阶段的平均输入数据大小,防止产生过多的task

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sparksql压缩小文件 的相关文章

随机推荐

  • 基于MATLAB实现语音信号加噪与去噪的低通滤波器

    基于MATLAB实现语音信号加噪与去噪的低通滤波器 一 概述 在语音信号处理中 由于外界环境的干扰或传输过程中的噪声引入 可能导致语音信号质量下降 为了提高语音信号的清晰度和可懂度 需要对信号进行去噪处理 本文将介绍如何使用MATLAB实现
  • 启明智显分享

    提示 启明智显专为智能产品提供一站式彩屏显示 连接 云端服务 APP软件开发 维护等解决方案 帮厂商快速实现硬件的智能化 作为启明云端旗下方案公司 我们用心整理了开发小伙伴在开发过程中可能会遇到的问题以及快速上手的简明教程 同时也用心整理了
  • 最小二乘法 python实现

    最小二乘法适用于对处理的一堆数据 不必精确的经过每一点 而是根据图像到每个数据点的距离和最小确定函数 最小二乘法逼近的最简单的例子是根据一组观测值对 x1 y1 x2 y2 xn yn 来拟合一条直线 直线的数学表达式为 下面是一元线性拟合
  • Qt版本的选择与安装

    Qt简介 Qt是当下最流行的C 开发库 也是当下最流行的跨平台开发框架之一 可开发桌面端应用 移动端应用以及嵌入式端应用 可以说能支持的系统基本都支持 它可以做GUI但功能远不止GUI 我们用的最多的还是桌面端和嵌入式端的应用 移动端应用流
  • 最新Android Studio解决> No cached version of org.javailable for offline mode.

    问题 A problem occurred configuring root project kaikeba gt Could not resolve all artifacts for configuration classpath gt
  • 报错:Dependency annotations: {@org.springframework.beans.fact}

    我当时检查了下面的所有内容发现都没有错 最后在第五个监听器打错了 这给我气的 大家自己对照下面的内容仔细看看自己哪里错了吧 类检查方面 1 是否在加了 Controller Repository Service 注解 Controller
  • MySQL JDBC编程

    文章目录 什么是JDBC编程 JDBC的工作原理 JDBC的优点 JDBC的使用 插入操作 修改操作 删除操作 查询操作 什么是JDBC编程 JDBC编程就是用Java代码来操作数据库 JDBC即Java Database Connecti
  • STM32 - GPIO 详解

    GPIO 详解 文章目录 GPIO 详解 1 GPIO 是什么 2 STM32 引脚分类 3 GPIO 内部结构 3 1 保护二极管 3 2 上下拉电阻 3 3 P MOS 和 N MOS 3 4 输出数据寄存器 3 5 复用输出功能 3
  • vue2和vue3的区别

    原文地址 https www cnblogs com limou956259 p 17195546 html 1 双向数据绑定原理不同 vue2 vue2的双向数据绑定是利用ES5的一个API Object definePropert 对数
  • C++笔记

    C 中的cast 1 const cast 2 dynamic cast 3 static cast 4 reinterpret cast C 中variable的definition initialization assignment d
  • ‘git‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件

    需要确认自己已经下载了git 如果已经下载了git 就可能是git的路径发生的改变 更改环境变量配置即可 环境变量配置 1 进入电脑设置 关于 高级系统设置 2 点击环境变量 3 双击进入系统变量中的path 4 点击新建 5 根据自己的g
  • Maven解决jar包版本冲突的4种方法

    概念 先解释下maven的依赖传递 a jar包引入了b jar包 如果项目中引入了a jar包 其实也会把a依赖的b jar包引入 那现在有a c这2个jar包 a jar包依赖的是1 0 0版本的b jar包 c jar包也依赖了b j
  • 将图片保存成字符串,以及字符串转换为图片

    将图片保存成字符串的样子保存在excel表格 上代码 public class FileConfig 当前项目目录下的files public static String FILE ADDRESS PATH System getProper
  • C语言入门之工资计算

    include
  • Python 第一章 基础知识(3) 数字和表达式 加减乘除

    第一章 基础知识 3 数字和表达式 运行IDLE 在提示符前输入 加法 gt gt gt 2 2 4 lt 解释器会得出2 2的答案4 除法 gt gt gt 1 2 0 lt 解释器会给出截除掉小数部分的1除以2的商 gt gt gt 1
  • Mybatis-plus:条件查询的方法

    方法1 QueryWrapper
  • windows系统80端口号被System占用

    废话不多说 直入主题 windows系统80端口号被System占用 查找追踪看到是 PID 4 的一个System进程在占用 网上所说的解决方法 方法一 1 Win R 组合快捷键 快速打开运行命令框 在打开后面键入命令 Regedit
  • 码农得用专用的Code字体,推荐几款专业级别的程序员专用字体

    别怀疑 下面的这些字体是程序员专用的编码字体 尤其是带 Code 名字的字体 从名字上看就知道 专门用来Code用的 1 Source Code Pro PS那个公司知道吧 就是这个公司专门为程序员设计的等宽字体 要知道 写代码 一般的字体
  • 光束法空三的计算问题,误差方程的多余观测数,未知数个数、多余观测值的计算

    1 未知数个数 必要观测值个数 未知数个数 t u 3 未知点数目 6 相片数目 3 代表一个未知点的 x y z 6代表一张像片的6个外方位元素 都是待定值 都是未知数 2 观测值个数 1 未知数个数求法 1 观测值个数 n 2 m 的含
  • sparksql压缩小文件

    SET spark sql shuffle partitions 2 SET spark sql adaptive enabled true SET spark sql adaptive shuffle targetPostShuffleI