我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

2024-05-19

我对大数据和相关领域的概念非常陌生，如果我犯了一些错误或拼写错误，我很抱歉。

我想了解阿帕奇火花 http://spark.apache.org/并使用它仅在我的电脑中，在开发/测试环境中。由于Hadoop包含HDFS（Hadoop分布式文件系统）和其他仅对分布式系统重要的软件，我可以放弃它吗？如果是的话，哪里可以下载不需要 Hadoop 的 Spark 版本？Here http://spark.apache.org/downloads.html我只能找到 Hadoop 依赖版本。

我需要什么：

毫无问题地运行 Spark 的所有功能，但在一台计算机（我的家用计算机）上运行。
我在计算机上使用 Spark 所做的一切都应该在未来的集群中运行而不会出现问题。

如果我要在计算机上运行 Spark 进行测试，还有理由使用 Hadoop 或任何其他分布式文件系统吗？

注意 ”apache Spark 可以在没有hadoop 的情况下运行吗？ https://stackoverflow.com/questions/32022334/can-apache-spark-run-without-hadoop“是一个与我不同的问题，因为我确实想在开发环境中运行 Spark。

是的，您可以在没有 Hadoop 的情况下安装 Spark。查阅Spark官方文档：http://spark.apache.org/docs/latest/spark-standalone.html http://spark.apache.org/docs/latest/spark-standalone.html

粗略步骤：

下载预编译的 Spark 或下载 Spark 源并在本地构建
提取焦油
设置所需的环境变量
运行启动脚本。

Spark（不含 Hadoop）- 可在 Spark 下载页面上找到网址：https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

如果此网址不起作用，请尝试从 Spark 下载页面获取它

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？的相关文章

Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
持久性：数据树存储为目录树

我想知道将内存树结构存储为目录树以用于持久性目的的实用性在我的例子中他的目标文件系统将是 ZFS 并且一旦创建该结构它将很少被多个进程访问使用目录树作为数据树的持久性机制的性能如何为了读取和写入树您将在每个节点多次调用文件系统
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
文件系统文件名转义？ C＃

我允许用户选择他想要的任何用户名它可以是任何用户名例如 AC Man 现在我需要为他创建一个目录我使用什么函数来转义文本这样我就不会出现 FS 问题异常无论您替换无效字符还是删除它们总是存在发生冲突的可能性如果我是你我会为
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa

随机推荐

使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
Sonar 中的 javascript 代码覆盖率

我是使用 Sonar 和插件进行 javascript 代码覆盖的新手使用 Sonar 分析时有哪些可能性可以找出 javascript 代码的质量包括代码覆盖率目前我正在使用 karma runner 它提供代码覆盖率报告可以在
我需要在 Spring 中检查每个控制器中的有效会话吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设在 Spring Mvc 的 Web 应用程序中我们是否需要检查每个控制器或 jsps 中的有效会话我该如何解决 MVC 中的
KitKat（及更低版本）设备上的 Android Material Design

我将在我们学校开发一个 Android 应用程序作为一个项目我想使用 Google 的新 Material Design 但我知道它仅适用于 Android L 设备 Jack Underwood 最近发布了名为 Today Calend
如何在 Sequelize ORM 中限制连接行（多对多关联）？

Sequelize 定义了两种模型具有多对多关联的 Post 和 Tag Post belongsToMany db Tag through post tag foreignKey post id timestamps false Tag
VBA在多个文件夹中搜索特定子文件夹并移动其中的所有文件

你能帮助我吗我想要一个宏vba来搜索SPECIFIC例如所有存在并移动其文件的文件夹和子文件夹之间的子文件夹 Xfolder P Desktop Folder1 subfolder SUBFOLDER1 Xfolder 我正在使用 VB
（Ionic 2）尝试回退到 Cordova-lib 执行时发生错误：TypeError：无法读取未定义的属性“then”

Edit 使用 ionic 2 时会发生这种情况我知道它还不稳定但我认为可能有一些解决方案因为其他人似乎没有遇到这个问题 Edit end 由于某种原因我在尝试使用 ionic build android 和 ionic build
Swift 3 中是否提供内置内部函数？

我可以在 Xcode 自动完成弹出窗口中看到各种内置函数如 builtin popount builtin clz 等我不确定这些是从哪里获取的单击命令不会导致快速定义或任何文档 Swift 3 中是否有 builtin 或等效的内部
两者都实现了类。将使用两者之一

我有一个项目它具有使用 SocketRocket 的依赖项通过 CocoaPods 安装并从 HeapAnalytics 导入了静态库显然 HeapAnalytics 库已经使用了 SocketRocket 编译时没有出现错误但在
MySQL JOIN 滥用？情况会变得有多糟糕？

我读了很多关于关系数据库的文章在每个 SELECT 上使用许多 JOIN 语句但是我一直想知道滥用这种方法从长远来看是否会出现任何性能问题例如假设我们有一个users桌子我通常会添加最常用的数据而不是进行任何额外的联接例
使用 GetHashCode 获取 Enum int 值

我有一个枚举 public enum INFLOW SEARCH ON ON ENTITY HANDLE 0 ON LABEL 1 ON NODE HANDLE 2 enum INFLOW SEARCH ON 我必须使用这个枚举在网格列中进
RxJava、Proguard 和 sun.misc.Unsafe

我有以下问题RxJava 1 1 0 使用时Proguard 我没有更改 RxJava 版本或其 pro文件但更新后OkHttp我无法编译使用Proguard因为我有关于sun misc Unsafe不在场 rxJava pro keep
使用实体框架从 2 个表返回数据

我正在使用 MVC3 和实体框架但我需要来自不同表的更多数据通常我会做这样的事情来从表中获取数据 Table Users id username 在代码中我会做这样的事情来获取所有用户 public static IEnumerable
如何以编程方式向 datagridview 添加新行

如果将行添加到DataTable DataRow row datatable1 NewRow row column2 column2 row column6 column6 datatable1 Rows Add row 怎么样DataGr
接近语法错误（代码1）插入Android SQLite

我正在创建一个通讯录应用程序用户可以在其中输入姓名电子邮件地址和号码我希望将此数据保存在数据库中但我似乎无法使插入方法起作用我收到的错误是 android database sqlite SQLiteException near
ElasticBeanstalk Java，Spring 活动配置文件

我正在尝试通过 AWS ElasticBeanstalk 启动 spring boot jar 一切正常配置文件为默认有谁知道如何为 java ElasticBeanstalk 应用程序不是 tomcat 设置活动配置文件 spri
看来我对CSRF的理解有误？

读了很多关于CSRF的文档后我还是有点困惑所以我希望有人能向我解释一下假设我有一个仅适用于经过身份验证的用户的个人资料页面例如 abc com profile 它显示了我所有的私人信息如果我登录然后转到坏网站该网站是否可以
AWS S3 GetObject 是否提供随机访问？

I can 提供 HTTP Range 标头 https docs aws amazon com AmazonS3 latest API API GetObject html API GetObject RequestSyntax到 AWS
`SystemTime::now` 是否受夏令时影响？

在时间 T 我调用SystemTime now duration since UNIX EPOCH 在时间 T 10 当夏令时开始时我调用相同的调用我可以预期这两个实例之间会出现任何奇怪的行为吗 SystemTime本身完全独立于时区
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我需要什么：

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？ 的相关文章

随机推荐

热门标签

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？的相关文章