windows+spark本地运行环境搭建

2023-05-16

spark作为一个内存mapreduce框架，速度是hadoop的10倍甚至100倍。windows下可以通过简单设置，搭建本地运行环境。

1、下载spark预编译版本，spark运行环境依赖jdk,scala，这里下载的最新spark版本是2.3，对应jdk1.8+scala2.11.8。


java -version
java version "1.8.0_151"
Java(TM) SE Runtime Environment (build 1.8.0_151-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.151-b12, mixed mode)

scala -version
Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL

2、下载hadoop-common-2.2工具包，并设置环境变量HADOOP_HOME,PATH。

如果不下载hadoop-common-2.2并设置环境变量，启动spark-shell时，会报如下错误：


ERROR Shell:397 - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binar
ies.

hadoop-common包下有bin目录，bin目录中的内容如下：

3、standalone方式启动spark：进入spark-2.3.0-bin-hadoop2.7目录，按住shift，鼠标右键->在此处打开命令窗口。运行bin\spark-shell

启动成功，会进入scala命令行交互界面，然后就可以进行编码了。


scala> val textFile = sc.textFile("helloSpark.txt");
textFile: org.apache.spark.rdd.RDD[String] = helloSpark.txt MapPartitionsRDD[1] at textFil
e at <console>:24

scala> textFile.foreach(println)
sparkui
hello,java
spark
hello,scala
hello,spark

scala> val counts = textFile.flatMap(line=>line.split(",")).map(x=>(x,1)).reduceByKey((x,y
)=>(x+y))
counts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[10] at reduceByKey at <conso
le>:25

scala> counts.foreach(println)
(spark,2)
(sparkui,1)
(scala,1)
(hello,3)
(java,1)

scala>

这里运行一个最简单的wordcount程序，先导入一个文档，文档五行内容，然后运行flatMap(),将文档内容每一行按照逗号分割，然后运行map(),reduceByKey()。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Windows

spark

本地运行环境搭建

windows+spark本地运行环境搭建的相关文章

python+win32：检测窗口拖动

有没有办法检测何时使用 python pywin32 在窗口中拖动不属于我的应用程序的窗口我想对其进行设置以便当我拖动标题与桌面边缘附近的图案匹配的窗口时当松开鼠标时它会捕捉到边缘我可以编写代码以便在释放鼠标时将所有具有该标题的窗
移动/调整窗口大小时闪烁

我开发了一个显示 jpeg 图像的应用程序它可以显示 4 个图像屏幕的每个象限各一个为此它使用了 4 个窗口窗口没有边框框架也没有标题栏当加载新图像时窗口大小会根据新图像进行调整然后显示该图像尤其是当窗户做得较大时经
由于图形处理单元配置，不支持 Windows Phone 模拟器（Mac 上的 Windows 7）

启动 Windows Phone 模拟器时出现错误不支持 Windows Phone 模拟器因为您的计算机没有所需的图形处理单元配置如果没有图形处理单元 XNA 框架页面将无法运行您想继续启动模拟器吗当我尝试访问网页任何网页时
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
在 Cygwin 软件包列表中找不到 Openssl

这里说的是https github com joyent node wiki Building node js on Cygwin Windows https github com joyent node wiki Building nod
本地推送通知到在应用程序内运行 JS 代码的 Win8 Live Tile

我正在尝试将更新发送到我的应用程序的磁贴当应用程序运行时这可以正常工作例如当用户单击按钮时我可以轻松地将磁贴更新通知发送到磁贴我无法解决的是当应用程序无法运行时如何更新磁贴我找到的唯一选择是使用以下命令从远程 Web 服务器拉
需要 TensorFlow 依赖项。如何在 Windows 上运行 TensorFlow

我有兴趣让 TensorFlow 在 Windows 上运行但目前我意识到这是不可能的因为某些依赖项无法在 Windows 上使用例如巴泽尔之所以出现这种需求是因为据我目前了解从 TensorFlow 访问 GPU 的唯一方法是
Qt 支持 Windows 蓝牙 API 吗？

谁能告诉我 Qt 是否支持 Windows 蓝牙 API 如果是这样您能否分享一些有关如何使用它的信息自上次答复以来这个问题的答案发生了一些变化 Qt 5 2 版为 Linux BlueZ 和 BlackBerry 设备实现了蓝牙 A
如何将 GIT 调用的输出获取到批处理脚本中的变量中？

我有一个 git 命令来获取当前存储库的最新 SHA 如下所示 git log pretty format H n 1 我有一个 Windows 批处理脚本我想按如下方式使用它 SET CURRENT SHA 但我不知道如何将从 git
为什么我只能用管理员权限才能导入Python中的某些模块？

我正在努力解决 Python 2 7 中的一些奇怪问题我写了一个很长的工具在其中导入不同的模块我必须首先使用它安装pip 该工具将在公司内部共享不同的用户在其特定机器上拥有不同的权限当另一个用户登录我的计算机我在那里拥有管理员权
NodeJS Express Windows 最大连接数设置

在哪里设置nodejs的最大连接数用于使用express get 在 Windows 10 中与linux中的最大文件描述符设置有关吗有该设置的 Windows 版本吗最好是在nodejs中进行设置以便在迁移到unix时兼容
Windows C++ 中的键盘钩子还是什么？

我希望构建自己的应用程序它可以将键盘命令消息发送到 Windows 操作系统例如当我按下组合键 ctrl shift n 时我希望启动 notepad exe 我怎样才能做到这一点您对所使用的概念有什么建议吗我读过何时使用
Tensorflow 导入错误：没有名为“tensorflow”的模块

我在 Windows Python 3 5 Anaconda 环境中安装了 TensorFlow 验证成功有警告 tensorflow C gt python Python 3 5 3 英特尔公司默认 2017 年 4 月 27 日 1
如何迭代所有注册表项？

我正在尝试迭代所有注册表项以查找包含并删除 jre1 5 0 14 值有办法做到吗下面的代码只是在特定键下找到jre1 5 0 14 我确实想迭代所有的键顺便说一句 if 子句获取是否等于 jre1 5 0 14 但如果它包含 j
生成尽可能最快的可执行文件

我有一个非常大的程序我一直在 Visual Studio 下编译 v6 然后迁移到 2008 我需要可执行文件尽可能快地运行该程序大部分时间都花在处理各种大小的整数上并且执行很少的 IO 显然我会选择最大优化但似乎可以做很多不属于
将 kinit 与 keytab 文件一起使用时会发生什么

希望对kinit和keytab文件的使用有更多的了解例如如果我已经为某个服务生成了一个密钥表文件该服务通过以下方式注册到活动目录 ktpass mapuser to someuseraccount ktab k mykeytab a
Mac OS X 上的 /proc/self/cmdline / GetCommandLine 等效项是什么？

如何在不使用 argc argv 的情况下访问 Mac OS X 上的命令行在 Linux 上我会简单地阅读 proc self cmdline or use GetCommandLine在 Windows 上但我找不到 Mac OS
npm package.json bin 无法在 Windows 上运行

我正在尝试通过 package json 启动我的 cli 工具bin财产我有以下内容 name mycli bin bin mycli 当我在包路径中打开 cmd 并输入 mycli 时它表示该命令无法识别我应该运行 npm 命令吗
在 Vista 上调用 RPC 时出现“不支持操作”

我的应用程序使用 Microsoft RPC 进行进程间通信当两个进程在同一台机器上运行并且一个进程尝试调用声明为 IDL 表示法的方法时 error status t rpcMethod in pipe byte parameter
无法访问127.0.0.1

我不知道这种情况何时开始发生但结果是 127 0 0 1 无法在任何地方的任何端口上工作例如浏览器显示无法连接以下是我的研究结果 localhost COMPUTER NAME 和实际 IP 地址都工作正常我的主机文件中没有什么特

随机推荐

CentOS7.3安装mesos1.4.0

按照官网一步一步安装mesos 这里选择的版本是1 4 0 download mesos wget http archive apache org dist mesos 1 4 0 mesos 1 4 0 tar gz tar xzf me
redhat7上rpm方式安装mongodb

1 下载相关文件 xff0c 下载地址 xff1a http mirrors aliyun com mongodb yum redhat 7 mongodb org stable x86 64 RPMS mongodb org 3 2 9
mongodb集群搭建之Replica-Set方式

mongodb集群搭建有三种方式 1 Master Slave模式 2 Replica Set方式 3 Sharding方式其中 xff0c 第一种方式基本没什么意义 xff0c 官方也不推荐这种方式搭建另外两种分别就是副本集和分片的方
solr5.5.5入门实例

solr是apache开源的搜索引擎 xff0c 底层基于lucene 将lucene难以使用的api 通过封装 xff0c 为用户提供方便的接口 solr国内下载地址 xff1a https mirrors cnnic cn apache
redis4.0.2版本集群搭建

redhat7下redis源码编译安装 xff0c 需要先安装pcre openssl等依赖 yum install openssl devel pcre devel 然后下载redis 4 0 2 tar gz xff0c 解压 xff0
Redis-Cluster操作详解

redis在2 8版本中支持分布式的部署 xff0c 但不是真正意义上的集群 xff0c 单独操作一台主机获取相应key 如果这个key没有落在该机器上 xff0c 那么就获取不到只有分片在该机器上才能获取到 redis从3 0版本开始支
flink快速入门及采坑记录

apache flink作为第四代mapreduce计算框架 xff0c 已经得到越来越多的应用 xff0c 这里介绍如何快速入门 xff0c 以及记录一个内存错误的问题 1 安装jdk 2 下载flink 并解压 wget https m
没有为扩展名.py找到关联文件解决办法

如题 xff0c 在win7上安装python3 5之后 xff0c 通过pip install awscli命令行 xff0c 最后执行aws命令时总是先提示一句 34 没有为扩展名 py找到关联文件 34 xff0c 然后显示执行结果
No configuration found for this host:tier1

flume启动时 xff0c 如果没有通过参数 name 或者 n 指定代理 xff0c 那么默认使用tier1作为代理名称 xff0c 启动成功后 xff0c 不会报错 xff0c 但是可能会提示如题警告 flume conf配置文件默认
linux下通过pip安装最新uwsgi

通过yum install uwsgi 安装的uwsgi在进行测试的时候 xff0c 发现版本是2 0 15 但是启动uwsgi测试的时候报参数错误 xff0c 后来改用pip安装先yum remove uwsgi删除老的uwsgi 就成
将原有python复制到anaconda虚拟环境后，可以激活但是不显示的问题

第一步参考如何在已安装Python条件下 xff0c 安装Anaconda xff0c 并将原有Python添加到Anaconda中 amazingym 博客园发现conda info e 不显示环境 xff0c 但是用文件夹名称可以顺
pip更改国内源

默认情况下 xff0c pip安装一个工具 xff0c 是通过使用官方的源 https pypi python org simple xff0c 速度上是一个很大的问题 xff0c 例如 xff0c 安装tensorflow 默认第一个下载
win7+vmware12+mac10.10安装过程

win7 43 vmware12安装mac10 11 10 12 10 13均失败 xff0c 最终安装mac10 10成功 xff0c 不知道是不是硬件不支持这里记录一下mac10 10虚拟机安装的过程默认情况下 xff0c vmwa
mac虚拟机安装之后需要做这些

一让mac使用体验更好 mac虚拟机安装完成之后 xff0c 需要让系统用起来顺畅 xff0c 鼠标滑动平稳 xff0c 需要安装vmware tools工具这里需要下载vmwaretools镜像我这里名字叫 VMware 43 To
mac系统pip安装package路径问题

默认情况下 xff0c 通过pip安装会提示Permission Denied 这时候通过sudo pip install xxx可以安装 xff0c 但是安装的路径不是系统默认的路径 xff0c 再次通过pip list列出已经安装过的工
xcrun: error: invalid active developer path解决办法

mac下如果安装过xcode 之后又卸载 xff0c 再使用git等命令时就提示错误 invalid active path Applications Xcode app Contents Developer 一般情况可以通过xcode s
Hue安装与配置

Hue是cloudera提供的hadoop ui 利用它可以很直观的操作和查看hadoop生态应用一般安装cloudera manager之后会自动带有hue管理界面 xff0c 通过http hueserver 8888即可访问另外
aapt查看apk应用信息

aapt是Android asset package tools 利用aapt命令可以很方便的查看app包信息 linux下安装配置aapt 先下载aapt 然后放入 usr bin目录 xff0c 并改变权限为可执行文件 aapt帮助以
Git-TortoiseGit使用报错:cannot spawn xxx\bin\ssh.exe: No such file or directory fatal

一般开发都是用eclipse自带的git插件提交代码 xff0c 今天试了一把TortoiseGit的提交结果报错查看TortoiseGit gt Settings xff1a 发现这里环境变量和设置的环境变量不一致 xff0c 猜测是
windows+spark本地运行环境搭建

spark作为一个内存mapreduce框架 xff0c 速度是hadoop的10倍甚至100倍 windows下可以通过简单设置 xff0c 搭建本地运行环境 1 下载spark预编译版本 xff0c spark运行环境依赖jdk sca

windows+spark本地运行环境搭建

windows+spark本地运行环境搭建 的相关文章

随机推荐

热门标签

windows+spark本地运行环境搭建的相关文章