在 DataFlow 管道中，按键分组后的简单计数步骤非常慢

2024-03-15

我有一个 DataFlow 管道尝试构建索引（键值对）并计算一些指标（例如每个键的值数量）。输入数据总计约 60 GB，存储在 GCS 上，管道分配了约 126 个工作线程。根据 Stackdriver，所有工作线程的 CPU 利用率约为 6%。

尽管有 126 个工作人员，但管道似乎没有取得任何进展，并且根据挂起时间，瓶颈似乎是分组之后的一个简单计数步骤。虽然所有其他步骤平均花费的时间不到 1 小时，但计数步骤已经花费了 50 天的时间。日志中的所有警告似乎没有有用的信息。

计数步骤是按照 WordCount 示例中的相应步骤实现的：

def count_keywords_per_product(self, key_and_group):
    key, group = key_and_group
    count = 0
    for e in group:
        count += 1

    self.stats.product_counter.inc()
    self.stats.keywords_per_product_dist.update(count)

    return (key, count)

前面的步骤“对关键字进行分组”是一个简单的 beam.GroupByKey() 转换。

请告知可能是什么原因以及如何优化。

Current resource metrics:
Current vCPUs    126
Total vCPU time      1,753.649 vCPU hr
Current memory   472.5 GB
Total memory time    6,576.186 GB hr
Current PD   3.08 TB
Total PD time    43,841.241 GB hr
Current SSD PD   0 B
Total SSD PD time    0 GB hr
Total Shuffle data processed     1.03 TB
Billable Shuffle data processed      529.1 GB

The pipeline steps including the counting one can be seen below:

此处对每个键进行求和的最佳方法是使用组合操作。原因是它可以缓解有热键的问题。

尝试更换你的GroupByKey + ParDo with a beam.combiners.Count.PerKey，或适合您的用例的类似组合变换。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

ApacheBeam

在 DataFlow 管道中，按键分组后的简单计数步骤非常慢的相关文章

使用 Apache Beam 查找 2 个列表的笛卡尔积

我有2个PCollections PCollection
Google Cloud Dataflow (Python)：读取和写入 .csv 文件的函数？

我无法弄清楚 GCP Dataflow Python SDK 中读取和写入 csv 文件或任何非 txt 文件的精确函数对于BigQuery 我已经弄清楚了以下功能 beam io Read beam io BigQuerySourc
安排 Google Cloud Dataflow 作业的最简单方法

我只需要每天运行一个数据流管道但在我看来像 App Engine Cron Service 这样需要构建整个 Web 应用程序的建议解决方案似乎有点太多了我正在考虑仅从 Compute Engine Linux 虚拟机中的 cron
根据行内容指定动态生成的表名

我想设置从 gcs 存储桶中的文件读取数据流管道然后写入 bigquery 表需要注意的是要写入的表应根据从 gcs 文件中读取的行的内容来决定我的问题是这可能吗如果是有人可以给我任何关于如何实现这一目标的提示吗此外必须进
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数
可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗？

我有一个将数据写入 Google Cloud pubsub 的应用程序根据 pubsub 的文档由于重试机制而导致的重复偶尔可能会发生还有消息乱序的问题这在 pubsub 中也得不到保证另外根据文档可以使用 Google Cl
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2
Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案？

根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除有没有办法控制增加数据流 2 1 0 上 DoFns 的并行度当我在 1 9 0 版本的数据流上使用 IntrabundlePa
如何从 Apache Beam 中的 HTTP 响应读取大文件？

Apache Beam 的 TextIO 可用于读取某些文件系统中的 JSON 文件但如何从 Java SDK 中的 HTTP 响应产生的大型 JSON InputStream 中创建 PCollection 我认为 Beam 目前没有通
如何在 python apache beam 中展平多个 Pcollection

应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2
如何使用 Apache Beam 从 Google Pub/Sub 访问消息 ID？

我一直在 Python 2 7 16 上使用 2 13 0 SDK 测试 Apache Beam 以流模式从 Google Pub Sub 订阅中提取简单消息并写入 Google Big Query 表作为此操作的一部分我尝试使用 P
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da
压缩保存在Google云存储中的文件

是否可以压缩已保存在 Google 云存储中的文件这些文件由 Google 数据流代码创建和填充数据流无法写入压缩文件但我的要求是将其保存为压缩格式标准 TextIO Sink 不支持写入压缩文件因为从压缩文件中读取的可扩展性较差
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
在数据流模板中调用 waitUntilFinish() 后可以运行代码吗？

我有一个批处理 Apache Beam 作业它从 GCS 获取文件作为输入我的目标是根据执行后管道的状态将文件移动到两个 GCS 存储桶之一如果管道执行成功则将文件移动到存储桶 A 否则如果管道在执行过程中出现任何未处理的异常则
Spring 与 Apache Beam

我想将 Spring 与 Apache Beam 结合使用它将在 Google Cloud Data flow Runner 上运行数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文我想在 Apache Bea
使用 Apache Beam 的 Dataflow 批量加载的性能问题

我正在对数据流批量加载进行性能基准测试发现与 Bigquery 命令行工具上的相同负载相比加载速度太慢文件大小约为 20 MB 包含数百万条记录我尝试了不同的机器类型并获得了最佳的负载性能n1 highmem 4加载目标 BQ 表的

随机推荐

使用键绑定在 VSCode 中执行预定义的查找替换全部

我似乎找不到可以从 VSCode 键绑定运行的记录命令的良好列表在在线 VSCode 文档中命令指南 https code visualstudio com api extension guides command列出了两种发现命令的方
具有下一个和上一个功能的一张一张显示图像

我已将图像存储在单独的文件夹图像中并创建了一个存储 letterNumber 的数据库并且每个 letterNumber 都关联了多个图像表 animages 如下 letterNo imageNo path height wid
Rails 4 find_by 是否已弃用？

我听说 find by 已被弃用这是真的吗我一直在考虑替代方案例如为每个人创建find另一种方法例如 before Model find by username username 后模型中 class lt lt self def
我可以使用异步函数进行无限递归而不产生堆栈溢出吗

我有一个异步函数我想调用它等待用户操作并在一些处理后解析 async function waitOnUserInput 我想等待用户输入进行一些处理并重复所以我想像这样递归地实现这个 async function actionUser
模态呈现的视图控制器的透明背景

我正在使用 Parse 和 ParseUI 我希望我的 PFLoginViewController 子类具有透明背景将来我想在背景上放置一个模糊的视图但是一旦 PFMLogin ViewController 的动画输入完成背景就会
电子表格函数根据另一列的条件对一列中的所有值求和

我想要一个电子表格函数当 A 列等于时它将生成 B 列中所有值的总和X当它等于Y A B X 10 Y 3 X 7 X 22 Y 4 Y 9 输出应如下所示其中39 and 16是公式的结果 X 39 gt 10 7 22 Y 16
如何在 Spring 中创建默认的可重写组件？

我正在尝试创建一个Component那将是Autowired除非用户创建不同的实现我使用以下代码来尝试隔离问题界面 public interface A 实施 Component ConditionalOnMissingBean A c
当声明这样的指针时，“pointer[restrict static 1]”会带来什么优化好处？

我正在阅读库 QNNPack 的源代码并注意到这一行 https github com pytorch QNNPACK blob 24d57f21503ba8ab0f8bb5d24148754a91266b9c src q8gemm 6x4
用于匹配 C# 字符串文字的正则表达式

我正在尝试写一个正则表达式 http en wikipedia org wiki Regular expression它将匹配包含以下形式的名称值对的字符串
如何在 TypeScript 中向装饰器添加可选参数？

我想创建一个可以选择接受参数的字段装饰器该参数应包含以下任意值无布尔值或函数我知道如何做到这一点但我对结果并不是 100 满意 export class TestClass Required isRequired public t
使用公钥/私钥而不是共享密钥进行 IdentityServer 客户端身份验证

我正在尝试使用公钥私钥而不是 IdentityServer4 的客户端机密的共享机密这种方法有记录here https identityserver4 readthedocs io en latest topics secrets ht
UICollectionView 中的动画滚动到项目并不总是有效

Problem 我想让 UICollectionView 对特定项目进行动画滚动这在大多数情况下都有效但有时我尝试滚动到的项目最终没有显示出来 Code void onClick Possibly recompute the items
如何设置 Docker 容器内的 Wildfly 堆大小？

我正在尝试增加 docker 容器中 Wildfly 的堆大小这可以通过更新轻松完成wildfly bin standalone conf在常规的野蝇设置中我们的 Wildfly 基础 docker 镜像的默认堆大小为512 MB这需要
为什么 POST 重定向到 GET，PUT 重定向到 PUT？

我正在使用快递4 13 3 最新和以下代码 var express require express var app express app get test function req res next res send hello app
在内存中有数百万个六面体的情况下，在结构和类之间做出决定来表示六面体[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 net 4 5 上遇到了一个非常重要的设计问题我有一个应该有数百万个六面体的网格每个六面体有 8 个点和 6 个四边形面每个四
使用Python的xml.etree查找元素开始和结束字符偏移量

我的 XML 数据如下所示
使用 DotnetopenAuth 时报告和记录错误

想要连接 Withings API 我在另一个项目中使用了相同的控制器他在那里工作得很好在站点是 Azure webrole 的项目中不知道这是怎么回事它不起作用首先我得到了 DotNetOpenAuth Reporting 的类
android创建不带_app前缀的内部存储文件夹

我正在使用以下代码成功在内部存储器上创建文件夹但添加了前缀 app 因此如果我创建 applications 文件夹它将被命名为 app aplications 如何关闭它并设置所需的名称谢谢 public class Direct
查找两个非常大的列表之间重叠的最快算法？

我正在尝试用 Python 构建一个算法来过滤大量 RDF 数据我有一个包含大约 70 000 个项目的列表格式如下 lt datum gt 然后我有大约 6GB 的项目三元组格式如下 lt A gt lt B gt lt C gt
在 DataFlow 管道中，按键分组后的简单计数步骤非常慢

我有一个 DataFlow 管道尝试构建索引键值对并计算一些指标例如每个键的值数量输入数据总计约 60 GB 存储在 GCS 上管道分配了约 126 个工作线程根据 Stackdriver 所有工作线程的 CPU 利用率约为 6

在 DataFlow 管道中，按键分组后的简单计数步骤非常慢

在 DataFlow 管道中，按键分组后的简单计数步骤非常慢 的相关文章

随机推荐

热门标签

在 DataFlow 管道中，按键分组后的简单计数步骤非常慢的相关文章