如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

2023-12-28

我很高兴 HDInsight 切换到 Hadoop 版本 2,它通过 YARN 支持 Apache Spark。对于我想要执行的任务,Apache Spark 是比 MapReduce 更适合的并行编程范例。

但是,我无法找到任何有关如何将 Apache Spark 作业远程作业提交到我的 HDInsight 群集的文档。对于标准 MapReduce 作业的远程作业提交,我知道有几个 REST 端点,例如 Templeton 和 Oozie。但据我所知,通过 Templeton 运行 Spark 作业是不可能的。我确实发现可以将 Spark 作业合并到 Oozie 中,但我读到这是一件非常乏味的事情,而且我还读过一些作业故障检测在这种情况下不起作用的报告。

也许必须有一种更合适的方式来提交 Spark 作业。有谁知道如何将 Apache Spark 作业远程提交到 HDInsight?

提前谢谢了!


您可以在 hdinsight 集群上安装 Spark。你必须在以下时间完成创建自定义集群 http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-customize-cluster/并添加一个操作脚本,该脚本将在为集群创建 VM 时在集群上安装 Spark。

To 使用操作脚本安装 http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-spark-install/集群安装非常简单,您可以通过在标准自定义创建集群脚本/程序中添加几行代码,在 C# 或 powershell 中完成安装。

电源外壳:

# ADD SCRIPT ACTION TO CLUSTER CONFIGURATION
$config = Add-AzureHDInsightScriptAction -Config $config -Name "Install Spark" -ClusterRoleCollection HeadNode -Urin https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1

C#:

// ADD THE SCRIPT ACTION TO INSTALL SPARK
clusterInfo.ConfigActions.Add(new ScriptAction(
  "Install Spark", // Name of the config action
  new ClusterNodeType[] { ClusterNodeType.HeadNode }, // List of nodes to install Spark on
  new Uri("https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1"), // Location of the script to install Spark
  null //because the script used does not require any parameters.
));

然后,您可以通过 RDP 进入头节点并使用 Spark-Shell 或使用 Spark-Submit 来运行作业。我不确定如何运行 Spark 作业而不是 rdp 到头节点,但这是另一个问题。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN 的相关文章

  • 为什么 Spark 比 Hadoop MapReduce 更快

    有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面 但我想补充另外两个重要事实 DAG和生态系统 Spark 使用 惰性求值 来形成连续计算阶段的有向无环图 DAG 通过
  • pyspark 中的 Pandas UDF

    我正在尝试在 Spark 数据帧上填充一系列观察结果 基本上我有一个日期列表 我应该为每个组创建缺失的日期 在熊猫中有reindex函数 这是 pyspark 中不可用的 我尝试实现 pandas UDF pandas udf schema
  • fetchsize和batchsize对Spark的影响

    我想通过以下方式控制 RDB 的读写速度Spark直接 但标题已经透露的相关参数似乎不起作用 我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用 或者它们确实会影响阅读和写作方面 因为测量结果基于规模是
  • 使用spark phoenix从表中读取rdd分区号为1

    当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
  • asp.net core / kestrel中的线程管理

    我正在解决我们已迁移到 asp net core 2 0 的 asp net 应用程序的性能 可扩展性问题 我们的应用程序作为应用程序服务托管在 azure 上 并且在任何中等流量的情况下都很容易崩溃 让我困惑的一件事是如何处理多个并发请求
  • 如何为 Spark RDD 中的元素分配唯一的连续编号

    我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中 该算法需要用户和产品是数字 而我的是字符串用户名和字符串SKU 现在 我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
  • 无法在 Azure AD 的 access_token 中获取电子邮件声明

    我们已在 Azure 中为 SPA 配置了应用程序注册 用于身份验证代码流程 We have added email under optional claims as per below 清单文件配置如下 id
  • C# 以编程方式设置 azure 函数时间触发器

    我想编写一个在时间触发器上工作的 C Azure 函数 其中计划是可变的 即每个函数运行将确定下一次运行的时间 因此应该能够更改下一个触发器的计划时间 您可以使用带有队列输出的队列触发器 这要归功于NextVisibleTime https
  • Azure逻辑应用程序计算价格

    我有这两个逻辑应用程序 逻辑应用1 动作 6 标准连接 2 运行次数 每 5 分钟或每 8640 次执行月 12 24 30 逻辑应用2 动作 3 标准连接 2 运行次数 每 2 分钟或每 21600 次执行 月 30 24 30 定价 根
  • 使用 Apache Spark 读取 JSON - `corrupt_record`

    我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
  • Azure 部署未安装requirements.txt 中列出的Python 包

    这是我第一次将 Flask Web 应用程序部署到 Azure 我跟着这个tutorial https azure microsoft com en us documentation articles web sites python cr
  • WCF 5.0 和 oData 3.0 API 不适用于 Azure 表存储

    在我迁移 WCF5 0 应用程序以与 azure 集成后 我无法将 oData 3 api 与 azure 表存储一起使用 我收到这个错误 定义了类型 System Data Services Client DataServiceRespo
  • 使用 C++ 访问 Azure blob 存储 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 使用服务总线触发器在 Azure 函数中参考配置中的主题和订阅名称

    我有一个带有服务总线主题触发器的 Azure 服务总线 我的功能看起来像这样 FunctionName SbListener public static async Task Run ServiceBusTrigger test topic
  • 使用 python 将 CSV 文件上传到 Microsoft Azure 存储帐户

    我正在尝试上传一个 csv使用 python 将文件写入 Microsoft Azure 存储帐户 我已经发现C sharp https blogs msdn microsoft com jmstall 2012 08 03 convert
  • 无法访问azure webapp url

    实际上 我创建了一个 Web 应用程序并成功将我的代码部署到该 Web 应用程序中 但是当我尝试通过 URL 访问该 Web 应用程序时 它显示如下 您无权查看此目录或页面 我不知道为什么会这样 我尝试创建不同的网络应用程序 但仍然重复同样
  • Apache Spark:Yarn 日志分析

    我有一个 Spark streaming 应用程序 我想使用 Elasticsearch Kibana 分析作业的日志 我的工作在纱线集群上运行 因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
  • 如何传递架构以从现有数据帧创建新数据帧?

    要将 schema 传递到 json 文件 我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
  • 为什么 appcmd.exe 解锁配置在 Azure 模拟器上不起作用?

    我最近升级到 Azure 2 1 SDK 现在我的部分功能遇到了问题web config在计算模拟器上运行时处于 Web 角色中 我的web config包含这个
  • 如何将翻滚窗口参数传递到数据工厂 UI 中的数据工厂管道?

    我已经定义了一个管道Azure Data Factory使用翻滚窗口触发器 如下所示 我希望我的活动能够接收翻滚窗口参数 trigger outputs windowStartTime and trigger outputs windowE

随机推荐