目录
1, 源码下载:
2, 源码解压并编译:
3, 使用 Idea 打开或导入
4, idea 调试环境设置
Master 设置
Worker 设置
1, 源码下载:
Downloads | Apache Spark
2, 源码解压并编译:
编译前建议在环境变量中添加以下参数
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1g"
tar -zxvf spark-3.0.3.tgz
cd spark-3.0.3
mvn -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=3.3.0 -DskipTests clean package -X
- hadoop版本需指定为你安装的hadoop版本
- 为了让Spark能跑在yarn上,需要指定-Pyarn参数
- 如果需要与Hive集成则必须执指定-Phive和-Phive-thriftserver
3, 使用 Idea 打开或导入
如果 pom中出现以下标红, 可先忽略
4, idea 调试环境设置
Master 设置
设置 application conf
尝试启动 Master
无其他任何反应
在 master 中打断点
最终发现异常
java.lang.ClassNotFoundException: com.google.common.cache.CacheLoader
查询可知为CacheLoader类的编译范围不正确引起的,需要修改对应的引用依赖的编译范围:
之后出现新报错
java.lang.NoClassDefFoundError: org/w3c/dom/ElementTraversal
修改对应的引用依赖的编译范围:
启动 Master 成功:
Master 启动于spark://10.160.36.152:7077
WebUI 启动于http://10.160.36.152:8080
Worker 设置
设置 application conf
添加 Worker 配置如下
--webui-port 8081 spark://10.160.36.152:7077
启动 Worker 成功
至此, 环境搭建成功