分析云数据流 BigQuery 吞吐量/管道

2024-04-13

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳。首先，我刚刚创建了一个简单的流程，从 BigQuery 读取数据（约 25M 行，总共 30GB），执行 JSON 提取，按键进行简单的分组，然后对分组进行聚合（每个约 100 个元素），然后执行另一个操作对每个键进行转换并将其放回到新表中（约 500k 行，总共 25GB）。

总的管道执行时间在 10-18 分钟之间，具体取决于我分配的工作人员数量或我是否使用多核机器等。我无法将其速度加快到低于此速度。我还没有确定确切的阈值，但基本上 20 个单核或 10 个四核之间的差异不再可靠地测量。

所以我的问题是如何进一步调查这个问题并找出哪个步骤花费最多时间以及如何改进它。我认为 DataFlow 本身负责扩展各个步骤并在它们之间进行平衡。但对我来说，现在看到收到的第一条消息和发送的最后一条消息可能很有趣，也许还有每一步随时间变化的吞吐量。这是在某处可用的东西，还是我必须自己开始检测和记录它？有了这些信息，我将开始基于此优化各个步骤，并可能覆盖数据流缩放。

这是正确的方法，还是有更好的方法可用？

** 我的目标时间是将其减少到 2 分钟。

Dataflow 首先执行 BigQuery 导出作业，将数据复制到 GCS，然后再读入并处理数据。同样，Dataflow 将数据写入 GCS，然后执行 BigQuery 导入作业来加载表。

如果您查看作业消息和/或日志，您应该能够看到导出作业何时完成（并且您的代码开始从导出的文件中读取）以及导入作业何时开始（并且您的代码已完成写入所有输出）数据）。如果 10-18 分钟的大部分时间都花在 BigQuery 导入/导出作业上，那么调整管道不会对性能产生重大影响。

其他常见问题是有一两个特别热门的密钥（例如，包含大部分数据）。从您的描述来看，情况似乎并非如此（您提到每个键都有大约 100 个元素）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分析云数据流 BigQuery 吞吐量/管道的相关文章

为什么直接内存“数组”的清除速度比通常的 Java 数组慢？

我建立了一个 JMH 基准来衡量什么会更快Arrays fill与空 System arraycopy从空数组中将 DirectByteBuffer 归零或将unsafe内存块试图回答这个问题question https stackove
按类型进行弹簧接线比按名称接线要慢很多

在我的项目中我试图迁移 Foo foo Foo beanFactory getBean name into Foo foo beanFactory getBean Foo class 好处是显而易见的类型安全更少复杂的代码更少无用的
慢 Eclipse Spring STS 插件

我是 Spring 新手安装了 Eclipse STS 插件使用服务似乎非常慢 CPU 使用率激增笔记本电脑只会变热实际上风扇就像喷气发动机一样运行直接响应服务的启动停止虽然下面的内容确实为我解决了 Spring STS 的所
我们可以使用什么方法来重塑非常大的数据集？

当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
使用map.get()时使用java Map.containsKey()是多余的

一段时间以来我一直想知道在最佳实践中是否允许避免使用containsKey 方法上java util Map而是对结果进行空检查get 我的理由是两次查找值似乎是多余的首先是查找containsKey 然后再次为get 另一方面大多
安全重载流运算符>>

有大量关于超载的信息operator lt lt 模仿一个toString style 方法将复杂对象转换为字符串我对感兴趣also实施逆过程 operator gt gt 将字符串反序列化为对象通过检查STL来源我收集到 ist
在 Python 中使用音频流 RTMP 通过管道和 OpenCV 到 FFmpeg

我正在尝试使用音频流式传输 FFmpeg 我将在下面展示我的代码导入模块 import subprocess as sp 创建变量 rtmpUrl rtmp a rtmp youtube com live2 key camera path
在 C# 中使用(IDisposable obj = new ...) 在流中写入代码块（例如 XML）

我已经开始使用实现 IDisposable 的类通过 using 语句在流中写入块这有助于保持正确的嵌套并避免丢失或错误放置开始结束部件基本上构造函数写入块的开头例如打开 XML 标签 Dispose 写入结束例如关闭 XML
对于双核手机，availableProcessors() 返回 1

我最近购买了一部 Moto Atrix 2 手机当我尝试查看手机中的处理器规格时 Runtime getRuntime availableProcessors 返回 1 proc cpuinfo 也仅包含有关处理器 0 的信息出于好奇
这个 cProfile 结果告诉我需要修复什么？

我想提高Python脚本的性能并且一直在使用cProfile生成性能报告 python m cProfile o chrX prof bgchr py args 我打开这个chrX prof使用 Python 的文件pstats并打印出统计
比较运算符性能 <= 与 !=

让我们首先声明代码可读性胜过微优化我们应该将其留给编译器这只是一个奇怪的案例具体细节似乎与一般建议相比很有趣因此我在搞素数生成器函数并提出了一种奇怪的行为其中人们建议效率最高实际上效率最低而 C private stat
SQLite .NET 性能，如何加快速度？

在我的系统上约 86000 个 SQLite 插入需要长达 20 分钟意味着每秒约 70 个插入我要做数百万我怎样才能加快速度对每一行的 SQLiteConnection 对象调用 Open 和 Close 会降低性能吗交易有帮
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
Google App Engine 如何预编译 Java？

App Engine 对应用程序的 Java 字节码使用预编译过程以增强应用程序在 Java 运行时环境中的性能预编译代码的功能与原始字节码相同有没有详细的信息这是做什么的我在一个中找到了这个谷歌群组消息 http groups
user_pseudo_id 与会话 id 相同吗？如何按会话对所有事件进行分组？ - Firebase BigQuery

我有一个 iOS 应用程序我试图弄清楚用户如何在我的应用程序中移动我正在寻找一种通过某种会话 ID 对所有事件进行分组的方法我假设所有 fireBase 事件都有一个会话 ID 事实似乎并非如此我注意到有一个user pseudo
Streamjs和linqjs有什么关系

读完SICP后我最近发现streamjs https github com dionyziz stream js 开发商参考linqjs http linqjs codeplex com 作为具有不同语法的替代实现但我无法建立连接 St
如何在 JMeter 中显示实际循环计数

我们可以通过以下方式显示实际线程 threadNum 实际循环计数有类似的东西吗您可以使用 jm Thread Group idx 获取当前循环迭代 jm Thread Group idx 请注意这是 JMeter 5 中一般增强功能的
如何使用 BigQuery 有效地选择另一个表中匹配子字符串的记录？

我有一个包含数百万个字符串的表我想将其与包含大约两万个字符串的表进行匹配如下所示 standardSQL SELECT record FROM record JOIN fragment ON record name LIKE CONCA
SignalR 似乎正在减慢我的 MVC/Azure 应用程序的启动速度

我有一个 MVC 应用程序在 Windows Azure 上的 WebRole 上的 NET 4 5 下运行使用 SignalR 1 0 alpha2 并使用 ServiceBus 底板在我的 App Start 文件夹中我有 Reg
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht

随机推荐

使用perl从多表html文件中提取特定表[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有一个包含三个表的 html 文件但我只想提取三张表中的一张我该怎么做呢您可以使用已知的Perl模块如 LWP WWW Mechan
能否在 C++11 中检索线程函数的返回值？

如果一个函数有一个非空返回值并且我使用 join那么函数有没有办法获取它的返回值呢这是一个简化的示例 float myfunc int k return exp k int main std thread th std thread my
从查找公式返回单元格引用而不使用匹配

我有一个电子表格记录一段时间内的每日销售数量我想计算平均每日销售额但排除我们开始销售产品之前的日子因为它们都返回 0 我有下面的查找函数它返回包含大于 0 的值的行中最后一个单元格的值 LOOKUP 2 1 F5 L5 gt 0
maven pom xml 文件中的错误：构建 Android 项目 [重复]

这个问题在这里已经有答案了我在 pom xml 文件中的插件标签中收到错误错误出现在插件标签上 groupId 之前 Error Plugin execution not covered by lifecycle configurati
android：如何禁用开关动画？

最近我正在使用名为 switch 的小部件开关是 Android Studio 的默认小部件问题是当我使用开关添加新项目时它的动画将会运行但我不想看到它我在项目中使用了ListView和Cursor Adapter 开关是一个
使用 BUTTON 标签关闭表单提交上的 Fancybox iframe - 不起作用

根据 Fancybox API 我在 iframe 中使用以下代码
使用 java 反编译器 jd-gui 并获取 // 内部错误 //

我使用 dex2jar 反编译了一个 apk 文件并在 jd gui 中打开了生成的 jar 文件我可以很好地查看几乎所有代码但其中一个部分常量仅显示 INTERNAL ERROR 没有别的有没有办法检索常量任何经过这个问题的
如何从字符串设置 imageView 的图像？

我在 res drawable mdpi 目录中有一个条目列表和一些位图文件我试图通过生成路径字符串并使用位图工厂来加载与从列表中选择的字符串值相对应的图像问题是我认为我的路径不正确因为位图始终为空即使对于默认图像也是如此 Stri
Windows 8（64 位）上 R 中 foreach 循环的内存问题（doParallel 包）

我正在尝试从串行方法转向并行方法以在大型数据集上完成一些多元时间序列分析任务data table 该表包含许多不同组的数据我正在尝试从for循环到一个foreach循环使用doParallel软件包以利用安装的多核处理器我遇到的问题与
在 PixelCopy 中保存离屏视图的图像

我有一个屏幕ScrollView 然后当我点击滚动视图底部的按钮时我会保存视图的图像我遇到的问题是我无法将滚动视图的上部屏幕外保存为图像我在用PixelCopy使用以下代码 fun takeScreenshot view Vie
CSS 中每个
标题下方的水平线/线

我试图在每个实例下方自动放置一条 100 水平线规则 h1 使用 CSS 的标头标签我想看到的示例剪断 8 介绍剪断 8 我的CSS中有这个 mypage headline font family Calibri Helvetica
AntiForgery.GetTokens：oldCookieToken 参数的用途是什么？

我们正在使用 Objective C 编写一个 iOS 移动应用程序用于向我们的 ASP NET MVC 服务器应用程序发送帖子在 iPhone 上 HTTP 堆栈和 cookie 等似乎与 Safari 共享这使我们容易受到 X
Tensorflow 无法获取变量的梯度，但可以获取张量的梯度

我感兴趣的是计算损失的梯度该梯度是根据 TensorFlow 中矩阵乘法与 Eager Execution 的乘积计算得出的如果乘积被计算为张量我可以这样做但如果它是assign ed 到变量中这里是greatly减少代码 imp
如何访问keycloak的自定义用户存储提供程序中原始区分大小写的用户名输入？

我需要将 keycloak 与现有应用程序集成用户使用用户名和密码登录不幸的是该应用程序支持区分大小写的用户名并且必须继续这样做创建自定义用户存储提供程序时在入口点public UserModel getUserByUserna
Azure，存储共享访问签名 2.0 的访问被拒绝

我在获取共享访问签名与 Storage 2 0 一起使用时遇到问题我使用代码 if blob Exists var expires DateTime UtcNow AddMinutes 30 var sas blob GetSharedA
为什么我的设计查看器中的字体在 Android Studio 中变得模糊？

为什么我的 Android 设计查看器中的文本显得模糊我也尝试更改分辨率 DPI 设置但这对我不起作用 Please look at my second picture to let you know which one is I am
域名通过“dig”存在

是否可以通过检查 dig 的输出来检查域名是否存在在绑定源中我发现了这些常量 0 DNS R NOEROR 1 DNS R FORMERR 2 DNS R SERVFAIL 3 DNS R NXDOMAIN 4 DNS R NOTIMP
在 Firefox 扩展中，moment.js 不会在 Chart.js 之前加载

我正在将 Chrome 扩展移植到 Firefox 它将 Chartjs 图表添加到页面中它需要 moment js 并且在 Chrome 上运行得很好但是当我将其移植到 Firefox 时图表无法加载并且出现错误错误 Char
Python TypeError - 尝试创建签名时需要字节但得到“str”

我正在尝试为 API 调用创建签名文档提供了以下说明 timestamp str int time time message timestamp request method request path url request body o
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1

分析云数据流 BigQuery 吞吐量/管道

分析云数据流 BigQuery 吞吐量/管道 的相关文章

随机推荐

CSS 中每个 标题下方的水平线/线 我试图在每个实例下方自动放置一条 100 水平线 规则 h1 使用 CSS 的标头标签 我想看到的示例 剪断 8 介绍 剪断 8 我的CSS中有这个 mypage headline font family Calibri Helvetica

热门标签

分析云数据流 BigQuery 吞吐量/管道的相关文章

CSS 中每个
标题下方的水平线/线

我试图在每个实例下方自动放置一条 100 水平线规则 h1 使用 CSS 的标头标签我想看到的示例剪断 8 介绍剪断 8 我的CSS中有这个 mypage headline font family Calibri Helvetica