spark-1.6.0源码编译安装

2023-05-16

环境准备

spark是scala语言写的，scala运行需要jdk,如果通过maven编译，还需要maven环境，因此spark源码编译需要安装jdk,scala,apache-maven这三样环境。这里选择的是spark1.6.0，他需要的scala是2.10+,jdk7+，我的环境配置如下：

验证环境：

相关文件地址：链接: http://pan.baidu.com/s/1eS1j07S 密码: cjqt

下载spark1.6.0源码,并解压，然后进入spark-1.6.0目录，执行编译。为了编译更快，我们可以配置maven仓库为阿里云的maven仓库，只需修改/path/to/maven/conf/settings.xml文件，增加镜像地址。

<mirrors>
        <mirror>
                    <id>nexus-aliyun</id>
                    <mirrorOf>*</mirrorOf>
                    <name>Nexus aliyun</name>
                    <url>http://maven.aliyun.com/nexus/content/groups/public</url>
        </mirror>
</mirrors>

这样配置了之后，编译下载jar包速度非常快，提高编译速度和成功率。

编译命令

$ mvn -Pyarn -Phadoop2.6 -Dhadoop.version=2.6.0 -DskipTests clean package

编译成功

运行spark-shell命令查看编译的结果

编译过程中如果遇到编译mqtt缺少依赖可以通过直接下载jar包，放入repository对应目录，重新编译即可

具体的jar包可以到https://repo.eclipse.org/content/repositories/paho-releases/org/eclipse/paho

/org.eclipse.paho.client.mqttv3/1.0.1/该处下载

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

源码编译安装

spark-1.6.0源码编译安装的相关文章

spark性能优化调优指导性文件

1 让我们看一下前面的核心参数设置 num executors 10 20 executor cores 1 2 executor memory 10 20 driver memory 20 spark default parallelis
Spark广播变量与累加器

在之前的文章中我介绍了flink广播状态从而了解了flink广播状态实际上就是将一个流广播到下游所有算子之中在本文中我将介绍spark中类似的概念为了方便理解先放张spark应用程序架构图 1 普通spark变量实际上如果我们
任务长期不释放和占用单节点持续的cpu，导致hivesever2本身内存泄漏造成

任务长期不释放和占用单节点持续的cpu 导致hivesever2本身内存泄漏造成产生的原因在于查询过于复杂或者数据量过大当有复杂的查询或处理大量数据的请求时 HiveServer2可能会出现高负载这可能涉及大量的计算 IO操作或涉及
Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2

Hudi 搭建 https blog csdn net weixin 46389691 article details 128276527 环境准备一安装 Maven 1 解压 2 配置环境变量 3 修改 Maven 下载源二安装
大数据面试题Spark篇（1）

目录 1 spark数据倾斜 2 Spark为什么比mapreduce快 3 hadoop和spark使用场景 4 spark宕机怎么迅速恢复 5 RDD持久化原理 6 checkpoint检查点机制 7 checkpoint和持久化的区别
pyspark 连接远程hive集群配置

今天本地spark连接远程hive集群直接把配置导入进去本地直接应用远程环境 1 安装spark 设置spark环境变量 2 拿到远程集群配置文件将配置文件放在spark conf 目录下 xml 一共五个文件 3 将mysql co
spark报Got an error when resolving hostNames. Falling back to /default-rack for all

一报错代码如下 21 06 01 20 13 36 INFO yarn SparkRackResolver Got an error when resolving hostNames Falling back to default rac
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
Spark Job写文件个数的控制以及小文件合并的一个优化

文章目录背景说明通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca
【Spark NLP】第 7 章：分类和回归

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
spark中repartition和coalesce的区别

总的来讲两者对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
大数据—— Flink 的优化

目录一 Flink内存优化 1 1 Flink 内存配置二配置进程参数 2 1 场景 2 2 操作步骤三解决数据倾斜 3 1 场景描述 3 2 解决方式 3 2 1 数据源的消费不均匀调整并发度 3 2 2 数据分布不均匀四
Flume之：二、企业开发案例

Flume之二企业开发案例文章目录 Flume之二企业开发案例三企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
数据中台-让数据用起来-6

文章目录第六章数据开发数据价值提炼工厂 6 1 数据计算能力的4种类型 6 1 1 批计算 6 1 2 流计算 6 1 3 在线查询 6 1 4 即席分析 6 2 离线开发 1 作业调度 2 基线控制 3 异构存储 4 代码校验 5
Spark学习(文件读取路径）

在不同的启动模式下加载文件时的路径写法是不一样的对于local模式下默认就是读取本地文件而在standlone或者yarn client 或者cluster模式下默认读的都是hdfs文件系统这几种模式下很难读取本地文件这是很显
Spark的常用概念总结

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
JAVA 安装与简单使用

JAVA简易安装下载安装环境变量进入变量界面设置变量验证JAVA环境运行Java程序个人站 ghzzz cn 还在备案很快就能访问了下载安装第一步当然是从官网下载安装java了网上有很多的教程这里简单的写一下在这里
阿里技术官亲笔力作：Kafka限量笔记，一本书助你掌握Kafka的精髓

前言分布式堪称程序员江湖中的一把利器无论面试还是职场皆是不可或缺的技能而Kafka 这款分布式发布订阅消息队列的璀璨明珠其魅力之强大无与伦比对于Kafka的奥秘我们仍需继续探索要论对Kafka的熟悉程度恐怕阿里的大佬们
spark相关

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 pandas是什么二使用步骤 1 引入库 2 读入数据总结前言提示这里可以添加本文要记录的大概内容例如随着人工智能的不断发展机器学习这门

随机推荐

Oracle 数据误删的恢复措施

Oracle中常见的数据删除操作就三种 xff0c truncate xff0c drop xff0c delete xff0c 下面分类说一下如何恢复 Truncate xff1a 该操作执行后 xff0c 保留表结构 xff0c 清空
Hive使用入门

先介绍一些基本的命令 xff1a 1 进入hive命令行 xff0c 这种方式进入之后 xff0c 操作结果展示时带有执行mapreduce的调试信息 xff1b hive service cli 等同于直接输入hive 2 进入hive命
Hive内部表和外部表的区别

hive作为基于hdfs的数据仓库 xff0c 在构建表的时候 xff0c 会有内部表和外部表 xff0c 这里介绍两者的异同点相同点 xff1a 1 他们都是用mysql或者derby作为元数据存储 xff0c 他们在元数据的组织上是相
hive:For direct MetaStore DB connections, we don't support retries at the client level

hive创建表和导入数据都没有问题 xff0c 在删除表 xff0c 做drop table 时报如题所示的错误有的文章说修改元数据库字符集为latin1 但是元数据库字符集默认创建就是latin1 修改字符集无法解决该问题通过更换my
rhel7安装docker

docker是当下最流行的虚拟化容器技术之一 xff0c 它是基于lxc的一种容器技术 xff0c 该技术已经非常成熟 xff0c 而且在实际应用中已经越来越普遍很多框架都有对docker的支持 xff0c 包括hadoop spark
Openstack使用ubuntu镜像启动虚拟机实例

一般情况下openstack环境搭建好了之后 xff0c 就是测试启动虚拟机通常我们会使用一个最基本的镜像cirros 0 3 3 x86 64 disk img来作为镜像 xff0c 使用glance命令行或者horizon的图形化界
docker使用Dockerfile构建镜像

docker获取镜像 xff0c 除了docker pull docker load之外还可以通过自定义Dockerfile的方式通过命令docker build 来构建新镜像通过这种方式可以很自由的定义想要安装的镜像 xff0c 想要安
django环境搭建

django是python开发框架 xff0c 是一个丰富的web框架第一步 xff1a 安装pip wget https bootstrap pypa io get pip py python get pip py 第二步 xff1a
docker配置国内仓库镜像registry-mirror

Docker在默认安装之后 xff0c 当需要下载镜像时 xff0c 通过命令docker pull learn tutoral拉取示例镜像 xff0c 或者其他镜像时 xff0c 都是访问默认的docker hub上的镜像 xff0c 在
TypeError: object() takes no parameters

python面向对象编程第一个坑 TypeError object takes no parameters 出现这个错误 xff0c 一般就是构造函数 init 书写的不对 xff0c 检查一下是否是少了一个下划线或者是少写了一个i字母 x
windows上Flask环境搭建

Flask是python开发框架用来快速构建web项目下面介绍如何在windows上搭建flask开发环境并运行一个demo 第一步创建项目并构建flask环境 mkdir flaskapp cd flaskapp virtualen
WebSocket 测试工具

一 WebSocket 简介 WebSocket是一种在单个TCP连接上进行全双工通信的协议 WebSocket使得客户端和服务器之间的数据交换变得更加简单 xff0c 允许服务端主动向客户端推送数据在WebSocket API中 xff
利用pipework为docker容器设置固定IP

今天介绍如何在redhat centos7系列机器上使用pipework为docker启动的容器指定一个固定ip 我们知道默认情况下 xff0c docker会使用bridge网络模式为每一个启动的容器动态分配一个IP xff0c 以172
用docker玩坏ubuntu虚拟机容器

当我们装上docker之后 xff0c 自然会pull一个或多个镜像玩玩 xff0c 这时候 xff0c docker hub仓库上有很多系列操作系统镜像 xff0c 每个系列又有很多不同功能的虚拟机镜像 xff0c 比如centos分6还
tornado入门实例

tornado是python web开发的又一个轻量级框架 tornado框架需要安装 xff0c 为了方便 xff0c 我直接安装了Anaconda 2 4 1 里面直接就带了tornado 还有很多python库 numpy scipy
web.py框架入门

web py是python web开发的一个轻量级框架 web py可以通过pip命令安装 xff0c pip install web py 编写官网示例代码 xff1a vi index py import web urls 61 34
graphviz快速上手

graphviz最初是AT amp T实验室用来画流程图的工具 xff0c 使用dot语言其中根据图的类型可以分为有向图 dirgraph 和无向图 graph 我们知道图是由点 node 和边 edge 组成的 xff0c 在有向图中边
mysqld: File './mysql-bin.index' not found (Errcode: 13 - Permission denied)

我们通过yum方式安装mysql 会生成mysql mysql用户组和用户 xff0c 启动mysql默认是使用mysql用户如果我们开启了慢log日志 xff0c 而且我们使用service mysqld start启动mysql 会报
redhat7编译安装php-5.5.38

1 从官网下载php源码包 php 5 5 38 2 安装依赖包 yum install libxml2 libxml2 devel bzip2 devel libcurl devel y yum install openssl opens
spark-1.6.0源码编译安装

环境准备 spark是scala语言写的 xff0c scala运行需要jdk 如果通过maven编译 xff0c 还需要maven环境 xff0c 因此spark源码编译需要安装jdk scala apache maven这三样环境这里

spark-1.6.0源码编译安装

spark-1.6.0源码编译安装 的相关文章

随机推荐

热门标签

spark-1.6.0源码编译安装的相关文章