如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

2023-12-28

我很高兴 HDInsight 切换到 Hadoop 版本 2，它通过 YARN 支持 Apache Spark。对于我想要执行的任务，Apache Spark 是比 MapReduce 更适合的并行编程范例。

但是，我无法找到任何有关如何将 Apache Spark 作业远程作业提交到我的 HDInsight 群集的文档。对于标准 MapReduce 作业的远程作业提交，我知道有几个 REST 端点，例如 Templeton 和 Oozie。但据我所知，通过 Templeton 运行 Spark 作业是不可能的。我确实发现可以将 Spark 作业合并到 Oozie 中，但我读到这是一件非常乏味的事情，而且我还读过一些作业故障检测在这种情况下不起作用的报告。

也许必须有一种更合适的方式来提交 Spark 作业。有谁知道如何将 Apache Spark 作业远程提交到 HDInsight？

提前谢谢了！

您可以在 hdinsight 集群上安装 Spark。你必须在以下时间完成创建自定义集群 http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-customize-cluster/并添加一个操作脚本，该脚本将在为集群创建 VM 时在集群上安装 Spark。

To 使用操作脚本安装 http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-spark-install/集群安装非常简单，您可以通过在标准自定义创建集群脚本/程序中添加几行代码，在 C# 或 powershell 中完成安装。

电源外壳：

# ADD SCRIPT ACTION TO CLUSTER CONFIGURATION
$config = Add-AzureHDInsightScriptAction -Config $config -Name "Install Spark" -ClusterRoleCollection HeadNode -Urin https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1

C#:

// ADD THE SCRIPT ACTION TO INSTALL SPARK
clusterInfo.ConfigActions.Add(new ScriptAction(
  "Install Spark", // Name of the config action
  new ClusterNodeType[] { ClusterNodeType.HeadNode }, // List of nodes to install Spark on
  new Uri("https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1"), // Location of the script to install Spark
  null //because the script used does not require any parameters.
));

然后，您可以通过 RDP 进入头节点并使用 Spark-Shell 或使用 Spark-Submit 来运行作业。我不确定如何运行 Spark 作业而不是 rdp 到头节点，但这是另一个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN 的相关文章

为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
asp.net core / kestrel中的线程管理

我正在解决我们已迁移到 asp net core 2 0 的 asp net 应用程序的性能可扩展性问题我们的应用程序作为应用程序服务托管在 azure 上并且在任何中等流量的情况下都很容易崩溃让我困惑的一件事是如何处理多个并发请求
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
无法在 Azure AD 的 access_token 中获取电子邮件声明

我们已在 Azure 中为 SPA 配置了应用程序注册用于身份验证代码流程 We have added email under optional claims as per below 清单文件配置如下 id
C# 以编程方式设置 azure 函数时间触发器

我想编写一个在时间触发器上工作的 C Azure 函数其中计划是可变的即每个函数运行将确定下一次运行的时间因此应该能够更改下一个触发器的计划时间您可以使用带有队列输出的队列触发器这要归功于NextVisibleTime https
Azure逻辑应用程序计算价格

我有这两个逻辑应用程序逻辑应用1 动作 6 标准连接 2 运行次数每 5 分钟或每 8640 次执行月 12 24 30 逻辑应用2 动作 3 标准连接 2 运行次数每 2 分钟或每 21600 次执行月 30 24 30 定价根
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
Azure 部署未安装requirements.txt 中列出的Python 包

这是我第一次将 Flask Web 应用程序部署到 Azure 我跟着这个tutorial https azure microsoft com en us documentation articles web sites python cr
WCF 5.0 和 oData 3.0 API 不适用于 Azure 表存储

在我迁移 WCF5 0 应用程序以与 azure 集成后我无法将 oData 3 api 与 azure 表存储一起使用我收到这个错误定义了类型 System Data Services Client DataServiceRespo
使用 C++ 访问 Azure blob 存储 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用服务总线触发器在 Azure 函数中参考配置中的主题和订阅名称

我有一个带有服务总线主题触发器的 Azure 服务总线我的功能看起来像这样 FunctionName SbListener public static async Task Run ServiceBusTrigger test topic
使用 python 将 CSV 文件上传到 Microsoft Azure 存储帐户

我正在尝试上传一个 csv使用 python 将文件写入 Microsoft Azure 存储帐户我已经发现C sharp https blogs msdn microsoft com jmstall 2012 08 03 convert
无法访问azure webapp url

实际上我创建了一个 Web 应用程序并成功将我的代码部署到该 Web 应用程序中但是当我尝试通过 URL 访问该 Web 应用程序时它显示如下您无权查看此目录或页面我不知道为什么会这样我尝试创建不同的网络应用程序但仍然重复同样
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
为什么 appcmd.exe 解锁配置在 Azure 模拟器上不起作用？

我最近升级到 Azure 2 1 SDK 现在我的部分功能遇到了问题web config在计算模拟器上运行时处于 Web 角色中我的web config包含这个
如何将翻滚窗口参数传递到数据工厂 UI 中的数据工厂管道？

我已经定义了一个管道Azure Data Factory使用翻滚窗口触发器如下所示我希望我的活动能够接收翻滚窗口参数 trigger outputs windowStartTime and trigger outputs windowE

随机推荐

如何使用 Trello.NET 从 Trello 获取所有图板？

这是我的代码 ITrello trello new Trello MyAppToken trello Authorize MyUserToken Member me trello Members Me var cards trello Ca
为什么此 SVG 图形在 IE9 和 10（预览版）中无法缩放？

根据IE网站 http msdn microsoft com en us ie hh410107 aspx支持 SVG 也根据这个答案什么是支持 SVG 可缩放矢量图形的浏览器 https stackoverflow com questi
在C++中，函数返回类型后面的&是什么意思？

在这样的 C 函数中 int getNumber 什么是意思是它不同于 int getNumber 这不一样 int g test 0 int getNumberReference return g test int getNumber
在 if 块内使用 wait 时，“await”对此表达式的类型没有影响

在我的代码中我有一个用户名数组我试图遍历每个名称检查该用户是否存在于数据库中并创建用户问题是我的 linter 说 await has no effect on the type of this expression在我标记的地
处理空参数的存储过程

我确信这有一个非常简单的答案我没有找到我在数据库中有一个简单的层次结构其中每一行都有一个 ParentId 如果ParentId IS NULL 那么它就是一个根元素我有存储过程 CREATE PROCEDURE GetByPare
使用 JSch 将文件从一台远程服务器发送到另一台使用 JSch 的服务器

我想将文件从我的第一个远程服务器发送到另一个远程服务器 public boolean uploadFile throws JSchException SftpException ChannelSftp channelSftpA create
从 C++ 调用 Swift 函数

我想知道是否可以从 C 调用 Swift 函数如果是怎么办我知道我们可以从 Swift 调用 C 函数但我还没有找到确切的答案虽然没有直接从 C 调用 Swift 函数的官方方法但您可以设置一个可从 C 调用的函数指针这是否有
使用 Qt 判断 PC 是否退出待机状态

有没有一种跨平台的方法使用 Qt 来判断计算机是否已退出待机或休眠状态我需要能够检测计算机何时退出待机状态以便重置继续进程在本例中它是通过串行端口连接到 GPS 基于以下讨论http comments gmane org gma
共享快捷方式/图标

我有几个带有共享文件的 inno 设置使用 Sharedfile 标志可以确保它们仅在不再使用时才被卸载然而这不适用于快捷方式或图标因为它们在 inno 中被调用并指向这些文件即使目标文件没有被卸载快捷方式也总是被删除那么我缺
我可以以这样的方式加载 dll，以便在加载时可以将其删除吗？

标题基本概括了所有内容我想做的是编写一个工具来监视包含插件的 dll 文件当我覆盖它时通过重新编译它应该自动重新加载它我知道我可以制作副本加载副本并监视原始文件但我认为可能有更好的方法如果我理解正确的话 dll 已完全加载到
如何为 Hexo 实现选项卡式代码块标签

我正在尝试在 hexo 中创建选项卡式代码块作为标签插件但我不知道在哪里放置我的 js 函数我想我可以使用加载该函数js 助手 https hexo io api helper html但我不知道在哪里包含助手我尝试将其添加到标签插
如何在android中的操作栏中设置应用程序图标

我想在我的操作栏上设置我的应用程序图标请帮助我我已经尝试过但没有创建任何内容 getSupportActionBar setTitle MukilFM getSupportActionBar setIcon R drawable fm
如何在 Visual Studio for Mac 中启用迁移

我有 Visual Studio for Mac 我正在尝试使用以下教程来学习 Xamarin 和 Azure https adrianhall github io develop mobile apps with csharp and a
如何通过矩阵索引值检索矩阵列和行名称？

假设我有一个矩阵 mdat 并且我只知道索引号如何检索列名和行名例如 gt mdat lt matrix c 1 2 3 11 12 13 nrow 2 ncol 3 byrow TRUE dimnames list c row1 ro
如何从 Wicket 1.5 中的 RequestCycle 获取responsePage？

在 Wicket 1 4 中我使用了我自己的WebRequestCycle在分离时将页面存储在会话中以实现后退链接 getRequestCycleListeners add new AbstractRequestCycleListen
在 java 中读取 Excel 工作表的更好的 API - JXL 或 Apache POI [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 2 个 API 中哪一个更容易读取写入编辑 Excel 工作表这些 API 不支持 CSV 扩展吗对 file xls 和 file x
3D 绘图中的图像叠加

我有一个由 matplotlib 生成的 3D 线条图我想在特定的 xy 或 yz xz 切片上叠加图像我如何使用 python 来做到这一点谢谢我有一个简单的 3d 绘图代码 fig plt figure 1 br ax Axes
更改c指针值的正确方法

抱歉另一个 C 指针问题我有一个函数 func 对数组进行排序然后获取最大和最小整数我试图将它们放入 main 中的指针变量中但这些值仅在 func 函数中正确我不明白为什么 include
在 Django 1.7 中运行单元测试时禁用迁移

Django 1 7介绍数据库迁移 https docs djangoproject com en 1 7 topics migrations 在 Django 1 7 中运行单元测试时它强制migrate 这需要很长时间所以我想跳过
如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

我很高兴 HDInsight 切换到 Hadoop 版本 2 它通过 YARN 支持 Apache Spark 对于我想要执行的任务 Apache Spark 是比 MapReduce 更适合的并行编程范例但是我无法找到任何有关如何将

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN 的相关文章

随机推荐

热门标签