如何向 GCP 中的 dataproc 集群添加 jar 依赖项？

2024-01-23

特别是，如何添加 Spark-bigquery-connector 以便可以从 dataproc 的 Jupyter Web 界面中查询数据？

关键链接： -https://github.com/GoogleCloudPlatform/spark-bigquery-connector https://github.com/GoogleCloudPlatform/spark-bigquery-connector

目标：为了能够运行类似的东西：

s = spark.read.bigquery("transactions")

s = (s
    .where("quantity" >= 0)
    .groupBy(f.col('date'))
    .agg({'sales_amt':'sum'})
     )

df = s.toPandas()

基本上有两种方法可以实现你想要的：

1 创建集群时: 您必须创建一个初始化脚本（参数--initialization-actions）来安装依赖项。https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions

2 创建集群时: 您可以指定创建集群时要使用的自定义映像。https://cloud.google.com/dataproc/docs/guides/dataproc-images https://cloud.google.com/dataproc/docs/guides/dataproc-images

3 在作业运行时: 您可以在运行作业时使用以下命令传递附加 jar 文件--jars范围：https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/jobs/submit/pyspark#--jars https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/jobs/submit/pyspark#--jars

如果您有一个简单的 .jar 依赖项要运行，例如 scoop.jar，我建议 (3)

如果您在运行作业之前需要安装大量软件包，我建议您使用 (1)。它给你更多的控制权。

选项（2）肯定会给你完全的控制权，但是你必须自己维护图像（应用补丁，升级等），所以除非你真的需要它，否则我不推荐它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何向 GCP 中的 dataproc 集群添加 jar 依赖项？的相关文章

Maven 的默认构建配置文件

我已将分析添加到我的 Maven 项目中
连接超时：Nodejs Google App Engine 到 Cloud MySql

该代码非常基础使用 mysql 的简单 Nodejs 应用程序 Error connect ETIMEDOUT当代码尝试连接到 Google App Engine 上的 Google Cloud MySql 服务器第二代时收到但是应
如何获取 Google Vertex AI 服务的授权令牌？

我正在尝试通过 REST 调用 Google 的 Vertex AI API 如下所示 https us central1 aiplatform googleapis com v1 projects 我无法弄清楚从哪里获取访问令牌 X P
如何强制maven更新本地repo

我在一个项目中编译了一个 jar 文件以便可以在第二个项目中使用它我可以在 m2 文件夹中看到 jar 文件但在第二个项目中它抱怨找不到工件我想我必须强制 Maven 更新索引缓存一些东西但不知道到底是什么任何提示谢谢更
从谷歌云存储桶加载数据

这是一个从谷歌云存储桶加载数据的函数 action dataset folder path action data set zip path actions zip url http console cloud google com sto
Google Cloud Vision 不会自动分割图像进行训练/测试

这很奇怪由于某种原因 GCP Vision 不允许我训练我的模型我已经满足每个标签至少 10 张图像的要求没有未标记的图像并尝试上传一个 CSV 指向其中 3 个标签图像作为验证图像但是我收到此错误您的某些标签例如 Label
org.xml.sax.SAXParseException：schema_reference.4：无法读取模式文档'http://www.springframework.org/schema/beans/spring-beans-3.0.xsd'

我收到异常但无法弄清楚收到此错误的原因实际上我必须生成一个可执行的 jar 当我在 eclipse 中运行我的类时它工作正常但是当我使用 Maven 插件将其导出为可执行 jar 时会出现以下错误以下是供您参考的文件 POM
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
找不到工件 com.sun:tools:jar:1.7 [重复]

这个问题在这里已经有答案了这是我的 pom xml
当请求 Google 驱动器范围权限时，会出现无限加载对话框

我想将 Google Drive 集成到我的应用程序中以在其中存储用户的应用程序数据我尝试过的我已经实现了 Google 登录谷歌开发文档 https developers google com identity sign in an
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
如何将 Cloud Firestore 数据库集合下载到 JSON 或 CSV 文件中？

好的事情是这样的我已经在 Flutter Firebase 项目上工作了一段时间现在我的客户想知道是否有机会从 Cloud Firestore 数据库的某个集合中获取 CSV o JSON 文件以便稍后使用由Power Bi或其他一
如何使用 Google Cloud CDN 访问 Google Cloud Storage 公共对象

我有一些由 Google Cloud Storage GCS 提供的公共二进制文件并且想探索使用 Google Cloud CDN 来降低延迟我通过在创建 GCS 对象时设置适当的 HTTP 标头来使用 GCS 缓存是否可以使用 Go
glassfish-embedded-maven-plugin - 如何部署资源

我为用户提供了一种快速简单的方法来通过 glassfish embedded maven plugin 部署我的 Java EE 6 应用程序因此他们不必安装和配置独立的 glassfish 但是我在资源部署方面遇到了麻烦该应用程序
Firestore 中的多租户

关于基于子集合值查询数据的实际限制在 Firestore 中管理多租户的建议方法是什么我希望能够检索和限制对与用户所属实体公司相关的数据的访问数据结构示例 companies companyId users companies co
M2e 未找到丢失的存储库 - m2e eclipse 插件

当我将鼠标悬停在 Eclipse 中未找到的包上并单击搜索存储库时未找到我正在搜索的依赖项依赖关系存在于官方 Maven 存储库中 http search maven org remotecontent filepath javax
如何默认将 Maven 插件附加到阶段？

我有一个 Maven 插件应该在编译阶段运行所以在项目中consumes我的插件我必须做这样的事情
无法解析插件 Java Spring

我正在使用 IntelliJ IDEA 并且我尝试通过 maven 安装依赖项但它给了我这些错误 Cannot resolve plugin org apache maven plugins maven clean plugin 3 0
无法捆绑适用于 Mac 的 Java 应用程序 1.8

我正在尝试将我的 Java 应用程序导出到 Mac 该应用程序基于编译器合规级别 1 7 我尝试了不同的方法来捆绑应用程序 1 日食我可以用来在 Eclipse 上导出的最新 JVM 版本是 1 6 2 马文看来Maven上也存在同样的
Maven中archetype.xml和archetype-metadata.xml有什么区别

我正在尝试向我的原型添加额外的变量具体来说我的原型包含一个 logback xml 文件我想用我从原型生成的项目的名称填充日志文件名我正在执行此处答案中的说明将额外的属性传递给 Maven archetype generate ht

随机推荐

如何在 Jest 测试中导入 JSON 文件？

我正在使用测试我的应用程序Jest 但出现如下错误 SyntaxError Unexpected token 线路女巫发生的错误是 import something from my json json 我怎样才能导入JSON关于 Jest
使用start-process调用其他powershell文件时出现问题

编辑请参阅最底部以了解问题的当前状态在当前设置中批处理文件使用以下内容调用 powershell 脚本 powershell D path powershellScript v32 ps1 arg1 arg2 arg3 arg4 我想
调用文件选择器时，WKWebview 具有新的 iOS13 模式崩溃

我在 iOS13 上的模态视图控制器中有一个 webview 当用户尝试将图像上传到网络视图时它会崩溃这是我得到的异常 2019 09 30 17 50 10 676940 0900 参与 988 157733 终止应用程序由于未捕获
从 CreateRef 中的 Uri 获取密钥 (.NET Core 6 OData)

升级到 OData 8 时无法找到从导航属性的 URI 获取密钥的方法我正在使用预览包Asp 版本控制 OData https www nuget org packages Asp Versioning OData和以下本指南 http
如何改进我的用户登录方案

问题既简单又基本我多年来一直使用 PHP 会话并且总是以这种方式管理用户登录注销开始会话 session start call 登录在会话中存储一个值即 SESSION user id 34 检查用户登录检查会话值即isse
仅在一侧向 tkinter 小部件添加填充

如何向 tkinter 窗口添加填充而不需要 tkinter 将小部件居中我试过 self canvas l Label self master text choose a color font helvetica 12 self ca
在 R 中从列表转换为数字

我最近遇到一个问题每次读取包含值表的 csv 文件时 R 将其读取为列表格式而不是数字由于没有线程为我提供了针对我的情况的完整答案一旦我能够运行它我决定在此处包含对我有用的脚本希望它对某人有用这里有一些描述和一些选项以防您需要
在 WPF 中绑定图像？

我想在 WPF 中显示由进程创建的图像例如我们有一个名为 createWPFImage 的方法 Image createWPFImage 因此 createWPFImage 的输出是一个图像在 XAML 代码中我们有如下所示的内容
android中如何区分480 * 800和480 * 854屏幕分辨率的布局？

在其中一个应用程序中我需要确保 UI 组件将放置在所有屏幕分辨率设备中的正确位置我已经浏览了 Android 开发者网站上的支持多种屏幕分辨率教程基于此我似乎可能必须为小屏幕普通屏幕和大屏幕设备创建单独的布局文件现在的问题是即
在

我有以下 HTML 代码
iOS 上的 Firebase 崩溃报告出现不可读错误（符号文件）

我正在使用 firebase 崩溃报告来让我的 iphone 项目崩溃但我收到的日志不可读 Exception name EXC BREAKPOINT EXC ARM BREAKPOINT TPC swift 4295841940 284
在 Xamarin 中使用 OnBackPressedCallback

我正在尝试在 Xamarin 的片段中实现类似于 OnBackPressed 的东西但到目前为止我找到的唯一解决方案是针对 Java 的 Here https stackoverflow com questions 5448653 how
如何更正 Invalid Protocol: null 使用 javax.mail 发送邮件

我正在尝试以这种方式发送邮件 Properties props new Properties props setProperty mail transport protocol smtp props setProperty mail hos
使用 Netezza 时差（以秒为单位）？

我想获取 Netezza 中以分钟为单位的时差以秒为单位我有 2 列 Start 2014 06 01 07 45 04 and finish 2014 06 01 07 46 58 events 我尝试过使用DATEDIFF SECO
如何查看设备是iPhone 5？ [复制]

这个问题在这里已经有答案了如何检查应用程序是否在 iPhone 5 上运行然后执行某些操作 define IS IPHONE 5 fabs double UIScreen mainScreen bounds size height do
列表查找比元组更快？

过去当我需要在紧密循环中进行类似数组的索引查找时我通常使用元组因为它们通常看起来性能非常好接近于仅使用 n 个变量然而我今天决定质疑这个假设并得出了一些令人惊讶的结果 In 102 l range 1000 In 103 t
从 GeoPy 地理编码器返回各个地址组成部分（城市、州等）

我正在使用 GeoPy 将地址地理编码为经纬度我还想提取每个地址的逐项地址组成部分街道城市州邮政编码 GeoPy 返回一个带有地址的字符串但我找不到可靠的方法来分离每个组件例如 123 Main Street Los Ange
使用 sklearn 和线性回归时出错：形状 (1,16) 和 (1,1) 未对齐：16 (dim 1) != 1 (dim 0)

我想了解机器学习我偶然发现了 youtube Siraj 和他的 Udacity 视频并想尝试学习一些东西他的视频参考在他的视频中他导入并读取了一个txt文件但是当我尝试重新创建txt文件时它无法正确读取相反我尝试使用相同
将 ruby 变量传递给配置者

我有一个 Vagrant 文件它定义了这样的配置程序 config vm provision shell path gt set rmi hostname sh args gt
如何向 GCP 中的 dataproc 集群添加 jar 依赖项？

特别是如何添加 Spark bigquery connector 以便可以从 dataproc 的 Jupyter Web 界面中查询数据关键链接 https github com GoogleCloudPlatform spark b

如何向 GCP 中的 dataproc 集群添加 jar 依赖项？

如何向 GCP 中的 dataproc 集群添加 jar 依赖项？ 的相关文章

随机推荐

热门标签

如何向 GCP 中的 dataproc 集群添加 jar 依赖项？的相关文章