Spark 3.0.3 源码阅读及 idea 调试环境搭建

2023-11-01

目录

1, 源码下载:

2, 源码解压并编译:

3, 使用 Idea 打开或导入

4, idea 调试环境设置

1, 源码下载:

Downloads | Apache Spark

2, 源码解压并编译:

编译前建议在环境变量中添加以下参数

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1g"

tar -zxvf spark-3.0.3.tgz

cd spark-3.0.3

mvn -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=3.3.0 -DskipTests clean package -X

hadoop版本需指定为你安装的hadoop版本
为了让Spark能跑在yarn上，需要指定-Pyarn参数
如果需要与Hive集成则必须执指定-Phive和-Phive-thriftserver

3, 使用 Idea 打开或导入

如果 pom中出现以下标红, 可先忽略

4, idea 调试环境设置

Master 设置

设置 application conf

尝试启动 Master

无其他任何反应

在 master 中打断点

最终发现异常

java.lang.ClassNotFoundException: com.google.common.cache.CacheLoader

查询可知为CacheLoader类的编译范围不正确引起的，需要修改对应的引用依赖的编译范围：

之后出现新报错

java.lang.NoClassDefFoundError: org/w3c/dom/ElementTraversal

修改对应的引用依赖的编译范围：

启动 Master 成功:

Master 启动于spark://10.160.36.152:7077

WebUI 启动于http://10.160.36.152:8080

Worker 设置

设置 application conf

添加 Worker 配置如下

--webui-port 8081 spark://10.160.36.152:7077

启动 Worker 成功

至此, 环境搭建成功

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据技术栈

spark

Spark 3.0.3 源码阅读及 idea 调试环境搭建的相关文章

spark性能优化调优指导性文件

1 让我们看一下前面的核心参数设置 num executors 10 20 executor cores 1 2 executor memory 10 20 driver memory 20 spark default parallelis
Spark广播变量与累加器

在之前的文章中我介绍了flink广播状态从而了解了flink广播状态实际上就是将一个流广播到下游所有算子之中在本文中我将介绍spark中类似的概念为了方便理解先放张spark应用程序架构图 1 普通spark变量实际上如果我们
SparkStreaming知识总结

一流式计算的概述 1 1 什么是流式计算 1 数据流与静态数据的区别数据流指的就是不断产生的数据是源源不断不会停止静态数据指的就是存储在磁盘中的固定的数据 2 流式计算的概念就是对数据流进行计算由于数据是炼苗不断的产生的所以
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
Spark DataFrame的Join操作和withColumn、withColumnRenamed方法实践案例（Scala Demo代码）

import org apache log4j Level Logger import org apache spark sql SparkSession import org apache spark sql functions obje
学习大数据spark——心得体会

总结与体会 1 项目总结本次项目实现了Spark 单机模式Python版的安装介绍了与Spark编程有关的一些基本概念特别对RDD的创建转换和行动操作做了比较详细的说明对从RDD 到DataFrame的实现进行了案例训练包括
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中我们知道一切的操作都是基于RDD的在使用中 RDD有一种非常特殊也是非常实用的format pair RDD 即RDD的每一行是 key value 的格式这种格式很像Python的字典类型便于针对key进行一些处理
Kafka/Spark消费topic到写出到topic

1 Kafka的工具类 1 1 从kafka消费数据的方法消费者代码 def getKafkaDStream ssc StreamingContext topic String groupId String consumerConfigs
Hadoop完全分布式集群——Hadoop 配置

前面已完成VMware虚拟机安装与配置参考前一篇Hadoop完全分布式集群 VMware虚拟机安装与配置夏雨和阳阳的博客 CSDN博客下面将进行Hadoop 配置一 slave1 slave2节点配置修改 slave1 slave2
深入理解 SQL 中的 Grouping Sets 语句

前言 SQL 中 Group By 语句大家都很熟悉根据指定的规则对数据进行分组常常和聚合函数一起使用比如考虑有表 dealer 表中数据如下 id Int city String car model String quantity
spark算子执行位置研究，driver端？executor端？

参考资料 https cloud tencent com developer article 1545723 前言 spark算子的执行位置 driver端还是executor端这些之前其实没有注意过最近在学流处理发现这个还是很重要
Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

文章目录 1 3 Scala的数据结构 1 3 1 数组数组的遍历数组转换 1 3 2 元组创建元组获取元组中的值拉链操作 1 3 3 集合 List Set Map 1 3 Scala的数据结构对于每一门编程语言来说数组 A
大数据开发必备面试题Spark篇合集

1 Hadoop 和 Spark 的相同点和不同点 Hadoop 底层使用 MapReduce 计算架构只有 map 和 reduce 两种操作表达能力比较欠缺而且在 MR 过程中会重复的读写 hdfs 造成大量的磁盘 io 读写操作
使用Flink1.16.0的SQLGateway迁移Hive SQL任务

使用Flink的SQL Gateway迁移Hive SQL任务前言我们有数万个离线任务主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务当然也有PySpark 打Jar包的Spark和打Jar包的Fl
Spark 任务调度机制

1 Spark任务提交流程 Spark YARN Cluster模式下的任务提交流程如下图所示图YARN Cluster任务提交流程下面的时序图清晰地说明了一个Spark应用程序从提交到运行的完整流程图Spark任务提交时序图提交
Spark的常用概念总结

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
spark hadoop环境及运行

hadoop配置在Ubuntu20 04里安装Hadoop详细步骤图文亲测成功 ubuntu20 04安装hadoop 菜鸡的学习之路的博客 CSDN博客启动hadoop root ubuntu usr local hadoop s
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查
spark相关

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 pandas是什么二使用步骤 1 引入库 2 读入数据总结前言提示这里可以添加本文要记录的大概内容例如随着人工智能的不断发展机器学习这门

随机推荐

java中四大作用域

Java的四大作用域为 PageContext ServletRequest HttpSession ServletContext 下面一起了解一下Java的四大作用域吧首先按照作用范围来算是PageContext jsp页面
路由器从外向内访问（端口转发）及从内向外访问（NAT）的配置

路由器从外向内访问端口转发及从内向外访问 NAT 的配置描述需求最近工作上有一个需求大致意思就是解决路由器内外访问的问题这个问题可以分成两部分一个是外部设备如服务器能主动访问路由器局域网内的主机另一个就是内部的主机需要能
Java基础-反射

反射的基本作用关键反射是在运行时获取类的字节码文件对象然后可以解析类中的全部成分反射的核心思想和关键就是得到编译后的字节码 class 文件对象反射的第一步获取Class类对象如此才可以解析类的全部成分获取Class类的对
（四）PointPillars论文的MMDetection3D代码解读——网络结构篇

四 PointPillars论文的MMDetection3D代码解读网络结构篇 PointPillars 是一个来自工业界的模型整体的思想是基于图片的处理框架直接将点云从俯视图的视角划分为一个个的立方柱体 Pillars 从而构成了伪
php no route to host,解决重启后zerotier无法远程连接，显示”no route to host”

解决重启后zerotier无法远程连接显示 no route to host 第一步禁用桌面环境桌面环境重启时经常会无原无故卡住导致远程连不上 systemctl set default graphical target 第二步
ubuntu 20.04 安装make_ext4fs

制作文件系统发现 sudo make ext4fs command not found 解决方法 sudo apt install android sdk ext4 utils sudo apt install e2fsprogs sudo
使用纯C语言定义通用型数据结构的方法和示例

文章目录前言以实现优先队列来描述实现思想基本类型的包装类型比较函数演示总结前言最近一段时间在复习数据结构和算法用的C语言不得不说不学个高级语言再回头看C语言根本不知道C语言的强大和完美不过相比之下也有许多不便利的地方
历时30个小时更新到了25905.1000 版本 23H2
【Vue3】之vuex的安装与配置

安装 yarn add vuex 4 或 npm install save vuex 4 创建新建store js store js import createStore from vuex export default createSt
Pyinstaller 使用说明

安装 cmd pip install pyinstaller 也可以自己下载安装包解压后通过执行python setup py install 使用 pyinstaller F myPython py 或者用python pyinstal
用IDEA创建第一个SpringBoot程序，并开发一个JSON接口

1 打开idea主界面选择 Create New Project 2 在弹出的页面中我们选择左侧的 Spring Initializr jdk版本选择自己安装的版本 PS jdk版本要1 8以上哦 3 下一个页面在Group栏输入组织名
IDEA代码覆盖率测试

代码覆盖率测试 1 使用idea自带的代码覆盖率工具 1 创建test文档右击将 test 目录设置为测试文档 2 选中需要测试的类按Ctrl shift T 创建测试类并选中要测试的方法在测试案例中编写测试代码点击Edit C
小程序分包实现

目录一使用场景二操作方式 1 建立分包文件夹 2 文件构建 3 文件配置三总结一使用场景微小程序分包常用于代码量较大的小程序发布时会受到大小限制二操作方式 1 建立分包文件夹在项目根目录下创建分包文件夹此处我创建
L1-8 乘法口诀数列

本题要求你从任意给定的两个 1 位数字 a1 和 a2 开始用乘法口诀生成一个数列 an 规则为从 a1 开始顺次进行每次将当前数字与后面一个数字相乘将结果贴在数列末尾如果结果不是 1 位数则其每一位都应成为数列的一项输入格式
ad电阻原理图_光敏电阻的基础知识介绍

39G电子技术电路电子元件等全套资料免费领干货下载十天学会单片机完整版 100个实例 PPT 点击上方红字即可获取一光敏电阻光敏电阻是用硫化隔或硒化隔等半导体材料制成的特殊电阻器表面还涂有防潮树脂具有光电导效应二特
TCP 拥塞窗口原理

学过网络相关课程的都知道TCP中有两个窗口滑动窗口在我们的上一篇文章中有讲接收方通过通告发送方自己的可以接受缓冲区大小这个字段越大说明网络吞吐量越高从而控制发送方的发送速度拥塞窗口也就是本文要讲的概念一个连接的TCP双
element-plus elplus el-tree三种图标自定义并且点击图标展开收起点击文字获取数据

前言公司需求需要实现如下样式的树形列表基于vue3 element plus 当节点展开时显示展开的文件夹图标当节点收起时显示收起的文件夹最后一级显示文件样式废话没有了代码如下
C规范编辑笔记(九)

往期文章 C规范编辑笔记一 C规范编辑笔记二 C规范编辑笔记三 C规范编辑笔记四 C规范编辑笔记五 C规范编辑笔记六 C规范编辑笔记七 C规范编辑笔记八正文今天我们来分享一下C规范编辑笔记第九篇话不多说我们直接来看
树莓派数据远程传输学习记录——TCP/IP协议连接OneNet云平台传输数据的方法

目录项目场景问题描述解决方案 OneNet云平台前期项目搭建准备以网络调试助手模拟树莓派建立连接并发送数据树莓派与OneNet云平台进行对接最后总结项目场景本人在进行树莓派项目开发时进行数据远程传输 4G WiFi通信过程
Spark 3.0.3 源码阅读及 idea 调试环境搭建

目录 1 源码下载 2 源码解压并编译 3 使用 Idea 打开或导入 4 idea 调试环境设置 Master 设置 Worker 设置 1 源码下载 Downloads Apache Spark 2 源码解压并编译编译前建议在环境变量

热门标签