从 Composer 在 dataproc 集群上执行 bash 脚本

2024-01-26

我想在使用简单的 shell 脚本创建集群后将 jar 添加到特定位置的 dataproc 集群中。

创建 dataproc 集群后，我想自动执行此步骤以从 Composer 运行，下一步是执行 bash 脚本，该脚本会将 jar 添加到 data proc 集群。

您能否建议使用哪个气流运算符在 dataproc 集群上执行 bash 脚本？

要在主节点上运行简单的 shell 脚本，最简单的方法是使用pig sh https://pig.apache.org/docs/latest/cmds.html#shDataproc 作业，如下所示：

gcloud dataproc jobs submit pig --cluster ${CLUSTER} --execute 'sh echo hello world'

或使用pig fs https://pig.apache.org/docs/latest/cmds.html#fs直接复制jar文件：

gcloud dataproc jobs submit pig --cluster ${CLUSTER} --execute 'fs -cp gs://foo/my_jarfile.jar file:///tmp/localjar.jar'

这些 gcloud 命令的等效 Airflow 操作员设置将使用DataProcPig操作符 https://github.com/apache/airflow/blob/master/airflow/contrib/operators/dataproc_operator.py#L670与query字符串参数

如果您需要将 jar 文件放置在所有节点上，最好只使用初始化动作 https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions在集群启动时复制 jarfiles：

#!/bin/bash
# copy-jars.sh

gsutil cp gs://foo/my-jarfile.jar /tmp/localjar.jar

如果您需要在集群部署后的某个时间动态确定将哪些 jar 文件复制到所有节点上，您可以采用这里描述的方法 https://stackoverflow.com/questions/55739463/cant-add-jars-pyspark-in-jupyter-of-google-dataproc/55859782#55859782使用初始化操作，连续监视某些 hdfs 目录以将 jarfile 复制到本地目录，然后每当您需要 jarfile 出现在所有节点上时，您只需提交一个pig fs将 JAR 文件从 GCS 放入 HDFS 的监视目录中。

通常，您不希望某些内容自动轮询 GCS 本身，因为 GCS 列表请求需要花钱，而轮询 Dataproc 集群的 HDFS 则不需要额外费用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataproc

googlecloudcomposer

从 Composer 在 dataproc 集群上执行 bash 脚本的相关文章

将 Python 项目提交到 Dataproc 作业

我有一个 python 项目其文件夹具有以下结构 main directory lib lib py run script py script py is from lib lib import add two spark SparkSe
我们如何在GCP Composer环境（1.10.6）中使用SFTPToGCSOperator？

这里我想在GCP的composer环境 1 10 6 中使用SFTPToGCSOperator 我知道存在限制因为操作符仅出现在最新版本的气流中而不出现在 Composer 最新版本 1 10 6 中请参阅参考资料 https air
Dataproc导入存储在谷歌云存储（gcs）存储桶中的python模块

我在 GCS 存储桶上有以下结构 my bucket notebooks jupyter modules mymodule py init py 笔记本 1 ipynb 如何在notebook 1 ipynb中导入mymodule note
Airflow 中的 KubernetesPodOperator 特权 security_context

我在 Google 的 Cloud Composer 上运行 Airflow 我正在使用KubernetesPodOperator https airflow apache org api airflow contrib operators
Spark 设置为从最早的偏移量读取 - 在尝试使用 Kafka 上不再可用的偏移量时抛出错误

我目前正在 Dataproc 上运行 Spark 作业在尝试重新加入组并从 kafka 主题读取数据时遇到错误我做了一些挖掘但不确定问题是什么我有auto offset reset set to earliest所以它应该从最早可用
如何在 google dataproc 上运行 Spark 3.2.0？

目前 google dataproc 没有 Spark 3 2 0 作为图像最新可用的是 3 1 2 我想使用 Spark 随 3 2 0 发布的 pandas on pyspark 功能我正在执行以下步骤来使用 Spark 3 2 0
从 Composer 在 dataproc 集群上执行 bash 脚本

我想在使用简单的 shell 脚本创建集群后将 jar 添加到特定位置的 dataproc 集群中创建 dataproc 集群后我想自动执行此步骤以从 Composer 运行下一步是执行 bash 脚本该脚本会将 jar 添加到 d
由于 GCS 中无法重命名错误，Spark Dataproc 作业失败

我有一个 Spark 作业由于以下错误而失败 org apache spark SparkException Job aborted due to stage failure Task 0 in stage 34338 0 failed
如何导入 2.2.5 版本的 Airflow 运算符？

我刚刚将 Airflow 升级到 2 2 5 但无法使用 EmptyOperator 应该很简单from airflow operators empty import EmptyOperator但我得到了错误ModuleNotFoundEr
如何在云监控/stackdriver中按状态显示总dataproc作业？

Dataproc 作业中应该有成功失败待处理状态当然我可以在 Cloud Console 上 Dataproc 下的作业部分中看到该状态但是如何在云监控 stackdriver 中可视化所有这些状态已经尝试过记分卡图表并使用指标
使用 Dataproc 在 Zeppelin 上加载插件 GitHubNotebookRepo 和 GCSNotebookRepo 时出现问题

我尝试将笔记本保存在 GCS 和 GitHub 上但没有成功我有以下错误 INFO 2020 07 23 19 54 59 790 qtp684874119 16 PluginManager java loadNotebookRepo
如何传递动态参数 Airflow 运算符？

我正在使用 Airflow 在 Google Cloud Composer 上运行 Spark 作业我需要创建集群用户提供的YAML参数 Spark 作业列表作业参数也由每个作业 YAML 提供借助 Airflow API 我可以
如何使用 JMX 远程连接到 Dataproc 上的 Spark 工作线程

我可以通过添加以下内容来很好地连接到驱动程序 spark driver extraJavaOptions Dcom sun management jmxremote Dcom sun management jmxremote port 91
使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件

我有一个应用程序可以并行执行 Python 对象这些对象处理要从 Google Storage 我的项目存储桶下载的数据该集群是使用 Google Dataproc 创建的问题是数据从未被下载我编写了一个测试程序来尝试理解这个问题
气流，在 dag 运行之前标记任务成功或跳过它

我们有一个巨大的 DAG 其中有许多小而快速的任务和一些大而耗时的任务我们只想运行 DAG 的一部分我们发现最简单的方法是不添加我们不想运行的任务问题是我们的 DAG 有很多相互依赖关系因此当我们想要跳过某些任务时不破坏 DAG
使用 BigQuery Spark 连接器通过 Datalab 从 Dataproc 连接到 BigQuery 时出错（从元数据服务器获取访问令牌时出错）

我有 BigQuery 表 Dataproc 集群带有 Datalab 并且遵循本指南 https cloud google com dataproc docs tutorials bigquery connector spark exa
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
GCP Dataproc Spark.jar.packages 下载依赖项时出现问题

创建 Dataproc Spark 集群时我们通过 properties spark spark jars packages mysql mysql connector java 6 0 6 to the gcloud dataproc
无法删除 Cloud Composer 环境

我正在尝试删除我只是为了尝试而创建的 Cloud Composer 环境我收到以下错误此环境上的 DELETE 操作在 9 小时前失败原因是以下错误消息为防止删除而放置的留置权由 serviceconsumermanagemen
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud

随机推荐

如何打开没有菜单项的侧边栏？

是否可以打开侧边栏而无需打开菜单并单击某个项目我的意思是我们可以添加一个像按钮一样的菜单并在单击时打开侧边栏吗我知道的最短的方法是将单个项目添加到菜单中 function onOpen e SpreadsheetApp getUi cr
如何在 quill 编辑器中使用 v-model

我用的是Vue 3 我以前用过这个效果很好
mysql：信息架构上的访问被拒绝

当我创建新用户或向现有用户授予权限时出现此错误 ERROR 1045 28000 Access denied for user root localhost using password YES 对除 information schema
迭代范围内的单元格时出现类型不匹配错误

您好我正在尝试在电子表格上运行以下 vb 代码但在范围内出现数据类型不匹配的错误我只是想锁定值为 0 的单元格有些单元格的值为 NA 有什么想法吗 Sub Test Dim Cell As Range Set MyPlage Ran
Maven glassfish 嵌入式插件中的 JSP 热插拔

我正在尝试设置嵌入式 glassfish maven 插件并且成功了但是我无法使 jsp 文件热交换这是我的配置
10k 租户和多租户数据库设计 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们正在尝试为新的 Web 应用程序决定数据库设计我们预计将有近 10 000 个租户并且希望将他们的数据保存在单独的数据库中如
Qt iOS 运行失败

当我尝试在 iOS 模拟器上运行我的应用程序时应用程序输出 I see Starting remote process Run ended 当我尝试在 iPhone 上运行它时 Issues I see xcodebuild failed
如何在休眠中为自身实体添加@onetoone映射

如何为自身实体添加一对一映射就像这个例子一样我想为 Person 本身建立父子关系 Entity Table name PERSON public class Person Id Column name personId private
在 make 中“触及”目标是什么意思？

例如从 mingw32 make exe help 选项 t touch Touch targets instead of remaking them 它只是意味着更新文件修改时间这样下次就不会认为这些文件是旧的
CSS - 在电脑上分屏但在移动设备上堆叠

我试图将我的页面分成 4 个相等的部分我想将左上角水平分成 2 个部分我主要关心的是它在移动设备上的表现我不希望它像在电脑上那样被分割我希望它被堆叠起来块在另一个上面如图所示我想过引导网格但我做不到到目前为止我所拥有的内容
如何使用量角器+角度获取迭代器索引/键？

通过中继器查找元素时有没有办法访问迭代器索引键 protractor By repeater id cat in pets 在本例中我希望访问猫的 id id 不是表中显示为值的列之一它用于导航ng click goto pets c
SSL_connect 返回=1 errno=0 状态=SSLv3 读取服务器证书 B：证书验证失败

我在用Authlogic 连接 https github com viatropos authlogic connect用于第三方登录运行适当的迁移后 Twitter Google yahoo 登录似乎工作正常但 facebook 登录
为什么 Python 中对集合的处理不统一？

Python 中集合和列表的处理方式不同并且似乎没有统一的方法来处理这两者例如将一个项目添加到set是使用完成的add方法并且对于list它是使用完成的append方法我知道这背后有不同的语义但也有共同的语义并且通常与某些集合
用于电子邮件的 JUnit 报告单页 XSLT

我有一个 Junit 进程每天晚上运行大量数据完整性测试我希望它以格式良好的 HTML 电子邮件形式发送结果问题是 JUnit 中内置的 HTML 格式化程序使用框架和外部样式表因此它不适合电子邮件普通格式化程序将结果埋在一堆原本
未捕获的语法错误：计算时出现意外的标识符

我有一些返回一个的代码Uncaught SyntaxError当我运行它但我不明白为什么我尝试将其通过 JSHint 但无济于事这是明显错误的代码 function compute expr x string var whatisx x
Java8计算地图中对象列表的平均值

初始数据 public class Stats int passesNumber int tacklesNumber public Stats int passesNumber int tacklesNumber this passesNu
MongoDB：如何在 C# 中加载带有嵌套数组的集合？

我有一个名为服务器的集合其中包含以下文档 name West ip 123 123 123 123 channels name English port 1234 status 0 name Spanish port 1235 sta
为什么带有空格的 cookie 值到达客户端时会带有引号？

我是一名 NET 开发人员开始涉足 Java 在 NET 中我可以将 cookie 的值设置为其中包含空格的字符串 new HttpCookie myCookieName my value 当我在客户端 JavaScript 读取该值时
批处理文件重复以前的工作程序

我需要有关批处理脚本的帮助它运行得很好但后来当我想运行它时它不断重复我之前显示的结果例如我上周执行了一个名为运行 echo 程序上周首先运行的程序当我今天尝试通过 echo 这是今天运行它时它运行并显示之前的结果 PS 代
从 Composer 在 dataproc 集群上执行 bash 脚本

我想在使用简单的 shell 脚本创建集群后将 jar 添加到特定位置的 dataproc 集群中创建 dataproc 集群后我想自动执行此步骤以从 Composer 运行下一步是执行 bash 脚本该脚本会将 jar 添加到 d

从 Composer 在 dataproc 集群上执行 bash 脚本

从 Composer 在 dataproc 集群上执行 bash 脚本 的相关文章

随机推荐

热门标签

从 Composer 在 dataproc 集群上执行 bash 脚本的相关文章