以有效的方式从 BigQuery 读取到 Spark 中？

2024-05-08

使用时BigQuery 连接器 https://cloud.google.com/hadoop/examples/bigquery-connector-spark-example要从 BigQuery 读取数据，我发现它首先将所有数据复制到 Google Cloud Storage。然后将这些数据并行读取到Spark中，但是当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从 BigQuery 读取到 Spark 中呢？

另一个问题：从 BigQuery 读取由 2 个阶段组成（复制到 GCS、从 GCS 并行读取）。复制阶段是否受 Spark 集群大小影响或者需要固定时间？

也许谷歌员工会纠正我，但据我所知，这是唯一的方法。这是因为它在底层还使用了 BigQuery Connector for Hadoop，根据docs https://cloud.google.com/hadoop/bigquery-connector:

用于 Hadoop 的 BigQuery 连接器会在运行 Hadoop 作业之前将数据下载到您的 Google Cloud Storage 存储桶中。

附带说明一下，使用 Dataflow 时也是如此 - 它也首先将 BigQuery 表导出到 GCS，然后并行读取它们。

WRT 无论复制阶段（本质上是 BigQuery 导出作业）是否受到 Spark 集群大小的影响，或者是否是固定时间 - 不会。 BigQuery 导出作业是不确定的，BigQuery 使用自己的资源导出到 GCS，即不是您的 Spark 集群。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

以有效的方式从 BigQuery 读取到 Spark 中？的相关文章

为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
Google BigQuery 底层架构

所以我大约 10 分钟前才开始摆弄 Google BigQuery 我想知道是否有人知道他们用来存储数据的底层架构例如这只是他们自己的下一代 BigTable 基础设施吗另外他们在索引索引重建等方面使用什么样的策略是否清楚我只是
如何从 BigQuery API 获取列名称？

我可以使用以下代码获取列值 os environ GOOGLE APPLICATION CREDENTIALS C Users xxx Desktop key json bq client Client query SELECT msts
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
BigQuery 类型有多少字节

以下类型在 BigQuery 中占用多少字节时间戳 Datetime Date 我的猜测是日期可以存储在 2 个字节中时间戳可能是 8 个字节但我不确定这一点并且在https cloud google com bigquery do
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
如何通过循环变量在 dbt 中多次运行 SQL 模型？

我有一个 dbt 模型测试模型接受地理变量 zip state region 在配置中我想通过循环变量来运行模型三次每次使用不同的变量运行它问题是我有一个如下所示的宏它将变量附加到输出表名称的末尾即运行测试模型 with z
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

带有 Firebird 的 .NET 实体框架：UTF-8 数据库出现错误“超出实现限制。块大小超出实现限制”

我将 Firebird ADO NET 提供程序版本 5 5 与实体框架 5 结合使用对于 Firebird UTF 8 数据库带有投影的 LINQ to SQL 查询包括有条件地将字符串属性设置为常量会导致错误超出实现限制块
HWND 子级的 WPF 渲染问题

我想可以肯定地说 WPF 将其内容呈现为窗口背景不存在传统 HWND 意义上的子窗口因此当人们在 WPF 应用程序中引入基于 HWND 的东西例如 Web 浏览器时视觉外观方面的事情就开始出错考虑一个窗口有一个带有两个子项的网
使用 Visual Studio 构建 R 包 (C API)

我正在尝试使用 Visual Studio 构建一个简单的 R 包这是我的代码 include
快递+护照+会话。为每个页面加载执行查询

我正在使用 Express 4 2 0 和 Passport 0 2 0 我使用的express session中间件是1 2 1 我对节点身份验证比较陌生所以请耐心等待我注意到对于每个页面加载护照正在执行数据库请求 Executi
尽管手册页有免责声明，为什么“strchr”似乎可以使用多字节字符？

From man strchr char strchr const char s int c strchr 函数返回一个指向字符 c 在字符串 s 中第一次出现的位置的指针这里字符的意思是字节这些函数不适用于宽字符或多字节字符不
如何快速将 Int16 转换为两个 UInt8 字节

我有一些二进制数据将两个字节值编码为有符号整数 bytes 1 255 0xFF bytes 2 251 0xF1 Decoding 这相当简单我可以提取一个Int16这些字节的值 Int16 bytes 1 lt lt 8 Int16
服务层或存储库中的密码哈希等？

作为 MVC 的最佳实践在发送到数据库之前处理密码散列加盐或数据格式化等事务的逻辑应该放在哪里我读到存储库应该仅用于处理数据访问的逻辑这是属于服务层的东西吗控制器这还重要吗我倾向于将散列放在存储库层中如果只是出于实际原因即
Visual Studio 2010 基类扩展编译器错误

我有一个 C 类提供一些简单的类和一些基类扩展例如这个 public static Boolean ToBooleanOrDefault this String s Boolean Default return ToBooleanOrD
Bundler 似乎无法通过 Rbenv 找到正确的 Ruby

多年来我一直使用 RVM 作为 Ruby 版本管理器但由于其简单性我想改用 rbenv 但是我在部署时发现了一些奇怪的问题这似乎是错误的地方 env RBENV ROOT home deploy rbenv PATH home dep
外部硬件指纹扫描仪和 Android 设备集成

我想建立一个android像员工考勤这样的应用程序使用fingerprint scanner 我想知道是否可以使用外部硬件设备进行指纹识别扫描如何将Android应用程序与外部硬件finger集成打印扫描设备如何从外部硬件设备获取
如何使用 Apple Map Kit 实现地址自动完成

我想自动填写用户的地址与 google api 在此链接中提供的地址相同 https developers google com maps documentation javascript places autocomplete hl e
以不同顺序对多列上的结构化 Numpy 数组进行排序

我有一个结构化的 numpy 数组 dtype price float counter int values 35 1 36 2 36 3 a np array values dtype dtype 我想按价格排序如果价格相等则按计数器排
如何删除导航视图不必要的顶部填充？

标题和图中显示的第一个项目之间有不必要的顶部填充如何将其去除你可以在这里找到源代码 https github com chrisbanes cheesesquare https github com chrisbanes cheeses
$mysqli->fetch_object($result) 不起作用

我正在学习mysqli 我正在尝试从表 tbllogin 中获取数据 DATABASE CONNECTION hostname p localhost database dbLogin username user1 password pwd
ansible 用户模块总是显示已更改

我正在努力正确使用 ansible 的用户模块问题是每次我运行我的剧本时我创建的用户always显示为已更改即使我已经创建了它们我在这里发现其他人也有同样的问题 https github com ansible ansible is
不重新渲染

我正在尝试在我的应用程序 Seam RichFaces 中显示购物车并包含从购物车中删除
如何禁用页眉和页脚 Selenium 打印

有谁知道如何在硒中打印时禁用页眉和页脚选项默认情况下设置为 true 有人知道如何解决这个问题吗谢谢你 import json import os from selenium import webdriver setting htm
nodejs googleapis，authClient.request 不是函数

我正在像这样的一个函数中创建一个 oauth2client 并返回它实际上我确实传递了客户端 ID 秘密重定向 URL 和凭据据我检查这些都是正确的 var OAuth2 google auth OAuth2 var oauth2
java.lang.IllegalArgumentException：预期唯一结果或 null，但得到多个！ - Spring Data Mongo

我在用着Spring Boot v2 2 2 RELEASE and Spring Data MongoDB 在此示例中我正在查找按部门代码执行组并获取该组下的所有员工样本数据 firstName Laxmi lastName Para
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G

以有效的方式从 BigQuery 读取到 Spark 中？

以有效的方式从 BigQuery 读取到 Spark 中？ 的相关文章

随机推荐

热门标签

以有效的方式从 BigQuery 读取到 Spark 中？的相关文章