谷歌数据流写入bigquery表性能

2023-12-12

我将处理数据和输出的性能与 Bigquery 表和文件进行了比较，差异显着：

输入：约 600 个文件中的 150 万条记录转换：构造/转换每个记录中的一些字段，构造一个键并发出键、值对；最终每个键的记录都会到达一个目标、一个文件或一张表；

写入 13 个文件花了 7 分钟，写入 13 个 bigquery 表花了 60 多分钟；

尝试了解这是预期的结果还是我没有做对？写入bigquery表时应考虑哪些因素？

请帮忙，这可能会阻碍我想做的事情。

对于批处理作业，Dataflow 将数据写入 BigQuery，方法是将其写入 GCS，然后运行 BigQuery 作业以将该数据导入 BigQuery。如果您想知道 BigQuery 作业需要多长时间，我认为可以查看项目中运行的 BigQuery 作业。

您可以尝试以下命令来获取有关 BigQuery 导入作业的信息。

  bq ls -j <PROJECT ID>:

上面的命令应该向您显示作业列表和持续时间等信息。（注意项目 ID 末尾的冒号，我认为冒号是必需的）。

然后你可以尝试

bq show -j <JOB ID>

获取有关该工作的更多信息。

请注意，您必须是项目的所有者才能查看其他用户运行的作业。这适用于 Dataflow 运行的 BigQuery 作业，因为 Dataflow 使用服务帐户。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

谷歌数据流写入bigquery表性能的相关文章

Apache Beam：为什么全局窗口中聚合值的时间戳是 9223371950454775？

我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化在 Google Dataflow 1 9 中我们将在窗口组合函数之后在 DoFn 中获得正确的时间
java.lang.NoClassDefFoundError：迁移到数据流 2.x 后的 org/apache/beam/sdk/runners/PipelineRunner

获取运行时错误 java lang NoClassDefFoundError org apache beam sdk runners PipelineRunner 即使我的 pom xml 中有以下内容
在 Google Dataflow 中使用 FireStore

我想在带有 python 的数据流模板中使用 FireStore 我做过这样的事情 with beam Pipeline options options as p p Read from PubSub gt gt beam io ReadF
com.google.cloud.dataflow.sdk.coders.CoderException：无法编码空字符串

我在 Google Cloud 数据流中收到以下错误 java lang RuntimeException com google cloud dataflow sdk util UserCodeException java lang Run
具有数据流的 Apache Beam - 从 BigQuery 读取时出现空指针

我正在使用 apache beam 编写的 google 数据流上运行一项作业该作业从 BigQuery 表和文件中读取转换数据并将其写入其他 BigQuery 表中作业通常会成功但有时在从大查询表读取数据时会随机出现空指针异常
Dataflow 作业完成时通知 Google PubSub

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上我们需要通知依赖系统传入数据的处理已完成将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发
Cloud Dataflow 中的作业失败：启用 Dataflow API

我目前正在尝试将 Dataflow 与 Pub Sub 结合使用但收到此错误工作流程失败原因 6e74e8516c0638ca 刷新您的凭据时出现问题请检查 1 为您的项目启用Dataflow API 2 您的项目有一个机器人服务帐
旁加载静态数据

在 ParDo 中处理数据时我需要使用存储在 Google Cloud Storage 上的 JSON 架构我想这可能是侧面加载我读了他们称之为文档的页面 https beam apache org releases pydoc 2
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
从 Dataflow 写入 BigQuery - 作业完成时不会删除 JSON 文件

我们的 Dataflow 作业之一将其输出写入 BigQuery 我对其幕后实现方式的理解是 Dataflow 实际上将 JSON 格式的结果分片写入 GCS 然后启动 BigQuery 加载作业以导入该数据但是我们注意到无论作业
Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti
如何在数据流中正确使用“展平”

我们的管道如下所示 GCS gz 压缩文件 gt ParDo gt BigQuery 我想使用展平从 GCS 中提取多个文件作为管道的输入但它一直因错误而烦恼 Workflow failed Causes 5001e5764f46ac
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降
将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag
bigquery DataFlow 错误：在 EU 中读写时无法在不同位置读写

我有一个简单的 Google DataFlow 任务它从 BigQuery 表中读取数据并写入另一个表如下所示 p beam io Read beam io BigQuerySource query select dia import
Apache Beam：如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”

我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除但是我创建后遇到错误KV
将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作

有没有办法将侧面输入应用于 Apache Beam 中的 BigQueryIO read 操作举例来说我在 PCollection 中有一个值我想在查询中使用该值从 BigQuery 表中获取数据使用侧面输入可以吗或者在这种情况下
我可以从 Jupyter Notebook 使用 Dataflow for Python SDK 吗？

我想玩Python SDK 的数据流 https github com GoogleCloudPlatform DataflowPythonSDK来自 Jupyter 笔记本我不确定需要什么依赖项以及是否可以将代码分布在多个笔记本单元上
在批处理管道中，如何为来自批处理源的数据分配时间戳，例如 Beam 管道中的 csv 文件

我正在批处理管道中从有界源 csv 文件读取数据并希望根据存储为 csv 文件中列的数据为元素分配时间戳如何在 Apache Beam 管道中执行此操作如果您的批量数据源包含每个元素基于事件的时间戳例如您有一个包含元组的点击事件
如何删除 gcloud Dataflow 作业？

数据流作业在我的仪表板上杂乱无章我想从我的项目中删除失败的作业但在仪表板中我没有看到任何删除数据流作业的选项我正在寻找至少像下面这样的东西 gcloud beta dataflow jobs delete JOB ID 要删除所有作

随机推荐

矩阵乘法：为什么非阻塞优于阻塞？

我试图通过阻止循环来提高缓存性能来加速矩阵乘法算法但无论矩阵大小块大小如何非阻塞版本仍然明显更快我已经尝试了 2 到 200 之间的许多值效力 2 及其他和优化级别非阻塞版本 for size t i 0 i lt n i f
HTML 组合框，带有输入条目的选项

我的印象是除了选择列表中已有的任何值之外您还可以在组合框中键入内容但是我似乎无法找到有关如何执行此操作的信息我需要添加一个属性来允许输入文本吗 Before datalist 参见下面的注释您需要提供额外的input供人们输入自
在 iOS 中更新/修改地址簿联系人后的通知

iOS 更新或更改通讯录信息后是否有通知 Use ABAddressBookRegisterExternalChangeCallback收听地址簿中的更新您还可以收听 ABCDataBaseChangedExternallyNotific
为什么 UITextField 在将自身设置为 delegate 时会锁定

我有一个扩展 UITextfield 的类我还将相同的类设置为它自己的委托因此当选择文本字段时我可以更改背景颜色一旦我选择文本字段并输入几个字母应用程序就会锁定并崩溃这是我的 m 文件的样子 implementation MyTe
如何按需启动/停止Delphi监控线程？

我一直在寻找一种方法来监视 Delphi 中的特定注册表更改找一个solution在 about com 上 procedure TRegMonitorThread Execute begin InitThread method omit
dword ptr 和 dword ptr:es 之间的区别

我只是在 VS2010 中检查我的 C 程序的反汇编这里是 int main 00B613A0 push ebp 00B613A1 mov ebp esp 00B613A3 sub esp 0D4h 00B613A9 push ebx 0
iphone如何处理按键事件

你好我正在开发 iphone 应用程序并且想要处理 iphone 中的键盘事件在Mac中有一个类NSEvent可以处理键盘和鼠标事件而在ios iphone ipad 中 NSEvent的对应类是UIEvent 它只处理触摸事件
保留换行符的 C++ 预处理器字符串化？

我需要记录出于审计记录目的在我的代码中传递的 lambda 函数的代码当然 lambda对象也需要保存所以我想出了一个宏观的解决方案如下 define LAMBDA AND STRING lambda lambda lambda
Android 互联网权限被忽略

我有一个需要互联网许可的应用程序但它似乎不适合我 I added
相似度-抛光和包装

我在用着Ploeh SemanticComparison s Likeness作为有效表达映射过程的预期输出的一种方式如中所述Mark Seemann 在 PluralSight 上发表的优秀高级单元测试课程我正在测试一些数据是否已正确
斯坦福-NER定制对软件编程关键字进行分类

我是 NLP 新手我使用斯坦福 NER 工具对一些随机文本进行分类以提取软件编程中使用的特殊关键字问题是我不知道如何更改斯坦福 NER 中的分类器和文本注释器来识别软件编程关键字例如 today Java used in diff
为什么包含空字符串的列表为真？

我在工作中发现了一些返回包含空字符串的列表的内容为了简单起见我创建了一个示例 big ol trickster if big ol trickster foo else print You can t trick me 而且这个条件每次
如何在 Docker Compose V2 中扩展服务？

我有三个不同的项目 ProjectS 依赖于 Project 而 Project 又依赖于 Project 假设您只想开发 ProjectC 因此我想仅在运行时使用具有一个容器的设置项目需要项目所以我必须定义一个带有两个图像的docke
获取 vcproj 文件中 $(ProjectDir)、$(SolutionDir) 的值

是否可以得到的值 ProjectDir or SolutionDir 在 Visual Studio 之外以编程方式我的情况是我需要将 vcproj 文件作为文本文件读取并获取其属性如输出目录等问题是某些属性包含环境变量如 Solu
具有动态大小的 Fortran 数组，与 R 函数 seq() 一样简单

我想编写像 R 函数 seq 一样工作的 Fortran 代码例如 x lt seq 0 1 0 1 将给出向量 x lt c 0 0 1 0 2 1 我将运行几次模拟序列的长度将发生变化在 R 中这很容易完成只需改变 seq 中
如何确保仅当单击按钮时它才重定向到特定网址 javascript

所以我以某种方式构建了它将总计从结账页面转移到索引页面在本例中是付款页面但这是一个问题当进入结帐页面时它会自动转到索引页面但我希望它仅在按钮打开时才这样做单击我尝试使用 addEventListener 执行某些操作但它只是在i
粘性表格标题

我正在用这个plugin在我的中实现粘性表头Table 实际上就像在插件示例和我的页面中一样表头在表中的最后一行稍后消失我希望我的表头在最后一行消失时消失有机会实现这一点吗这是一个工作示例 fiddle 我所改变的只是这一行的结尾
简单赋值时不输出期望值

当我将一些值分配给具有四位的变量时当我简单地输出该值时我会得到意想不到的结果我以前从未见过这个想知道我是否在语法上做错了什么 module main reg 3 0 x initial begin monitor b x x 001
Boot2Docker（在 Windows 上）使用共享文件夹运行 Mongo（不支持此文件系统）

我正在尝试使用 Boot2Docker 在 Windows 上使用共享文件夹启动 Mongo 容器开始使用时run it v c Users 310145787 Desktop mongo data db mongo我在容器内收到一条警告
谷歌数据流写入bigquery表性能

我将处理数据和输出的性能与 Bigquery 表和文件进行了比较差异显着输入约 600 个文件中的 150 万条记录转换构造转换每个记录中的一些字段构造一个键并发出键值对最终每个键的记录都会到达一个目标一个文件或一张表

谷歌数据流写入bigquery表性能

谷歌数据流写入bigquery表性能 的相关文章

随机推荐

热门标签

谷歌数据流写入bigquery表性能的相关文章