我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗?

2024-05-19

我对大数据和相关领域的概念非常陌生,如果我犯了一些错误或拼写错误,我很抱歉。

我想了解阿帕奇火花 http://spark.apache.org/并使用它仅在我的电脑中,在开发/测试环境中。由于Hadoop包含HDFS(Hadoop分布式文件系统)和其他仅对分布式系统重要的软件,我可以放弃它吗?如果是的话,哪里可以下载不需要 Hadoop 的 Spark 版本?Here http://spark.apache.org/downloads.html我只能找到 Hadoop 依赖版本。

我需要什么:

  • 毫无问题地运行 Spark 的所有功能,但在一台计算机(我的家用计算机)上运行。
  • 我在计算机上使用 Spark 所做的一切都应该在未来的集群中运行而不会出现问题。

如果我要在计算机上运行 Spark 进行测试,还有理由使用 Hadoop 或任何其他分布式文件系统吗?

注意 ”apache Spark 可以在没有hadoop 的情况下运行吗? https://stackoverflow.com/questions/32022334/can-apache-spark-run-without-hadoop“是一个与我不同的问题,因为我确实想在开发环境中运行 Spark。


是的,您可以在没有 Hadoop 的情况下安装 Spark。 查阅Spark官方文档:http://spark.apache.org/docs/latest/spark-standalone.html http://spark.apache.org/docs/latest/spark-standalone.html

粗略步骤:

  1. 下载预编译的 Spark 或下载 Spark 源并在本地构建
  2. 提取焦油
  3. 设置所需的环境变量
  4. 运行启动脚本。

Spark(不含 Hadoop)- 可在 Spark 下载页面上找到 网址:https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

如果此网址不起作用,请尝试从 Spark 下载页面获取它

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗? 的相关文章

  • Spark SQL 广播提示中间表

    我在使用广播提示时遇到问题 可能是缺乏 SQL 知识 我有一个查询 例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
  • Pyspark显示最大值(S)和多重排序

    感谢这里的一些帮助 使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表 城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
  • 伪模式下没有名称节点错误

    我是hadoop新手 正处于学习阶段 根据 Hadoop Definitve 指南 我已将 hadoop 设置为伪分布式模式 一切正常 昨天我什至能够执行第三章中的所有示例 今天 当我重新启动我的unix并尝试运行start dfs sh然
  • 任务和分区之间有什么关系?

    我能说 么 Spark任务的数量等于Spark分区的数量吗 执行器运行一次 执行器内部的批处理 等于一个任务吗 每个任务只产生一个分区 1 的重复 并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量 配置 每个执行器的
  • 为什么 Spark 比 Hadoop MapReduce 更快

    有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面 但我想补充另外两个重要事实 DAG和生态系统 Spark 使用 惰性求值 来形成连续计算阶段的有向无环图 DAG 通过
  • 如何在Spark结构化流中指定批处理间隔?

    我正在使用 Spark 结构化流并遇到问题 在 StreamingContext DStreams 中 我们可以定义批处理间隔 如下所示 from pyspark streaming import StreamingContext ssc
  • 匿名类上的 NotSerializedException

    我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
  • Java 中的“Lambdifying”scala 函数

    使用Java和Apache Spark 已用Scala重写 面对旧的API方法 org apache spark rdd JdbcRDD构造函数 其参数为 AbstractFunction1 abstract class AbstractF
  • 持久性:数据树存储为目录树

    我想知道将内存树结构存储为目录树以用于持久性目的的实用性 在我的例子中 他的目标文件系统将是 ZFS 并且一旦创建该结构 它将很少被多个进程访问 使用目录树作为数据树的持久性机制的性能如何 为了读取和写入树 您将在每个节点多次调用文件系统
  • 如何使用 SparkR 1.6.0 写入 JDBC 源?

    使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
  • 如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理?

    Spark 2 2引入了Kafka的结构化流源 据我了解 它依赖 HDFS 检查点目录来存储偏移量并保证 恰好一次 消息传递 但是旧码头 比如https blog cloudera com blog 2017 06 offset manag
  • 在 IntelliJ 中运行 Spark 字数统计

    我花了几个小时浏览 You Tube 视频和教程 试图了解如何在 Scala 中运行 Spark 字数统计程序 并将其转换为 jar 文件 我现在完全糊涂了 我运行了 Hello World 并且了解了如何在 Apache spark sp
  • 如何在 apache Spark 作业中执行阻塞 IO?

    如果当我遍历 RDD 时 我需要通过调用外部 阻塞 服务来计算数据集中的值怎么办 您认为如何才能实现这一目标 值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表 但由于
  • 默认情况下,Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么?

    我正在开发一个简单的 ETL 项目 它读取 CSV 文件 执行 对每列进行一些修改 然后将结果以 JSON 格式写出 我想要读取我的结果的下游进程 确信我的输出符合 一个商定的模式 但我的问题是 即使我定义 我的输入模式的所有字段都为 nu
  • Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

    我有一个由两台机器组成的 Spark 集群 当我运行 Spark 流应用程序时 出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
  • 文件系统文件名转义? C#

    我允许用户选择他想要的任何用户名 它可以是任何用户名 例如 AC Man 现在我需要为他创建一个目录 我使用什么函数来转义文本 这样我就不会出现 FS 问题 异常 无论您替换无效字符还是删除它们 总是存在发生冲突的可能性 如果我是你 我会为
  • 如何将 DataFrame 作为输入传递给 Spark UDF?

    我有一个数据框 我想对每一行应用一个函数 该函数依赖于其他数据帧 简化的例子 我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
  • Spark中如何获取map任务的ID?

    Spark中有没有办法获取map任务的ID 例如 如果每个映射任务都调用用户定义的函数 我可以从该用户定义的函数中获取该映射任务的 ID 吗 我不确定您所说的地图任务 ID 是什么意思 但您可以使用以下方式访问任务信息TaskContext
  • 使用 HttpClient 的 .NET Core SPNEGO 身份验证

    我目前正在编写一个简单的基于 NET Core 的客户端 用于通过 WebHCat 与 Hadoop 集群进行交互 并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证 就像在curl 或 Powershell Core 等中一样 使用
  • 如何从spark中的hbase表中获取所有数据

    我在 hbase 中有一个大表 名称为 UserAction 它具有三个列族 歌曲 专辑 歌手 我需要从 歌曲 列族中获取所有数据作为 JavaRDD 对象 我尝试了这段代码 但效率不高 有更好的解决方案来做到这一点吗 static Spa

随机推荐