我对大数据和相关领域的概念非常陌生,如果我犯了一些错误或拼写错误,我很抱歉。
我想了解阿帕奇火花 http://spark.apache.org/并使用它仅在我的电脑中,在开发/测试环境中。由于Hadoop包含HDFS(Hadoop分布式文件系统)和其他仅对分布式系统重要的软件,我可以放弃它吗?如果是的话,哪里可以下载不需要 Hadoop 的 Spark 版本?Here http://spark.apache.org/downloads.html我只能找到 Hadoop 依赖版本。
我需要什么:
- 毫无问题地运行 Spark 的所有功能,但在一台计算机(我的家用计算机)上运行。
- 我在计算机上使用 Spark 所做的一切都应该在未来的集群中运行而不会出现问题。
如果我要在计算机上运行 Spark 进行测试,还有理由使用 Hadoop 或任何其他分布式文件系统吗?
注意 ”apache Spark 可以在没有hadoop 的情况下运行吗? https://stackoverflow.com/questions/32022334/can-apache-spark-run-without-hadoop“是一个与我不同的问题,因为我确实想在开发环境中运行 Spark。
是的,您可以在没有 Hadoop 的情况下安装 Spark。
查阅Spark官方文档:http://spark.apache.org/docs/latest/spark-standalone.html http://spark.apache.org/docs/latest/spark-standalone.html
粗略步骤:
- 下载预编译的 Spark 或下载 Spark 源并在本地构建
- 提取焦油
- 设置所需的环境变量
- 运行启动脚本。
Spark(不含 Hadoop)- 可在 Spark 下载页面上找到
网址:https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
如果此网址不起作用,请尝试从 Spark 下载页面获取它
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)