ParDo 中的侧面输出 | Apache Beam Python SDK

2024-04-05

由于该文档仅适用于 JAVA，我无法真正理解它的含义。

它指出 -“虽然 ParDo 始终生成一个主输出 PCollection（作为 apply 的返回值），但您也可以让 ParDo 生成任意数量的附加输出 PCollection。如果您选择有多个输出，您的 ParDo 将返回所有输出 PCollection（包括主输出）捆绑在一起。例如，在 Java 中，输出 PCollections 捆绑在类型安全的 PCollectionTuple 中。

我理解捆绑在一起的含义，但是如果我在 DoFn 中生成一个标签，它是否会生成一个所有其他输出为空的捆绑包，并在代码中遇到它们时生成其他输出？或者它等待所有的产量准备好输入，然后将它们全部打包在一起输出？

文档中对此没有太多说明。虽然我认为它不会等待，只是在遇到时屈服，但我仍然需要了解发生了什么。

回答这个问题的最好方法是举一个例子。这个例子是可用于光束 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/cookbook/multiple_output_pardo.py.

假设您要运行字数统计管道（例如，计算每个单词在文档中出现的次数）。为此，您需要将文件中的行分割成单独的单词。考虑到您还想单独计算单词长度。你的分割变换会像这样：

with beam.Pipeline(options=pipeline_options) as p:

    lines = p | ReadFromText(known_args.input)  # Read in the file

    # with_outputs allows accessing the explicitly tagged outputs of a DoFn.
    split_lines_result = (lines
                          | beam.ParDo(SplitLinesToWordsFn()).with_outputs(
                              SplitLinesToWordsFn.OUTPUT_TAG_CHARACTER_COUNT,
                              main='words'))

    short_words = split_lines_result['words']
    character_count = split_lines_result[
        SplitLinesToWordsFn.OUTPUT_TAG_CHARACTER_COUNT]

在这种情况下，每个都是不同的PCollection，具有正确的元素。这DoFn将负责分割其输出，并通过标记元素来实现。看：

class SplitLinesToWordsFn(beam.DoFn):
  OUTPUT_TAG_CHARACTER_COUNT = 'tag_character_count'

  def process(self, element):
    # yield a count (integer) to the OUTPUT_TAG_CHARACTER_COUNT tagged
    # collection.
    yield pvalue.TaggedOutput(
        self.OUTPUT_TAG_CHARACTER_COUNT, len(element))

    words = re.findall(r'[A-Za-z\']+', element)
    for word in words:
      # yield word to add it to the main collection.
      yield word

正如您所看到的，对于主输出，您不需要标记元素，但对于其他输出则需要标记元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

ApacheBeam

ParDo 中的侧面输出 | Apache Beam Python SDK 的相关文章

根据行内容指定动态生成的表名

我想设置从 gcs 存储桶中的文件读取数据流管道然后写入 bigquery 表需要注意的是要写入的表应根据从 gcs 文件中读取的行的内容来决定我的问题是这可能吗如果是有人可以给我任何关于如何实现这一目标的提示吗此外必须进
Cloud Dataflow 中的作业失败：启用 Dataflow API

我目前正在尝试将 Dataflow 与 Pub Sub 结合使用但收到此错误工作流程失败原因 6e74e8516c0638ca 刷新您的凭据时出现问题请检查 1 为您的项目启用Dataflow API 2 您的项目有一个机器人服务帐
可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗？

我有一个将数据写入 Google Cloud pubsub 的应用程序根据 pubsub 的文档由于重试机制而导致的重复偶尔可能会发生还有消息乱序的问题这在 pubsub 中也得不到保证另外根据文档可以使用 Google Cl
如何从数据流中的PCollection读取bigQuery

我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
旁加载静态数据

在 ParDo 中处理数据时我需要使用存储在 Google Cloud Storage 上的 JSON 架构我想这可能是侧面加载我读了他们称之为文档的页面 https beam apache org releases pydoc 2
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1
Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为
如何在 python apache beam 中展平多个 Pcollection

应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
如何在数据流中正确使用“展平”

我们的管道如下所示 GCS gz 压缩文件 gt ParDo gt BigQuery 我想使用展平从 GCS 中提取多个文件作为管道的输入但它一直因错误而烦恼 Workflow failed Causes 5001e5764f46ac
从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier

当我从 BigQuery 读取数据作为查询结果时我正在运行 GCP Dataflow 作业我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti
Dataflow SQL (GCP) 不支持使用 STRUCT 的嵌套行

使用 Dataflow SQL 我想读取 Pub Sub 主题丰富消息并将消息写入 Pub Sub 主题哪个 Dataflow SQL 查询将创建我想要的输出消息 Pub Sub input消息 event timestamp 1619
在数据流模板中调用 waitUntilFinish() 后可以运行代码吗？

我有一个批处理 Apache Beam 作业它从 GCS 获取文件作为输入我的目标是根据执行后管道的状态将文件移动到两个 GCS 存储桶之一如果管道执行成功则将文件移动到存储桶 A 否则如果管道在执行过程中出现任何未处理的异常则
如何在欧洲使用 Cloud Dataflow 区域终端节点？

是否可以将 Google Cloud Platform Dataflow 作业的区域更改为欧洲我已将管道区域设置为europe west1 d但我无法更改工作本身的区域我尝试更改管道选项中的区域但这会导致错误并且只有默认区域有效 p
Apache Beam：如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”

我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除但是我创建后遇到错误KV
将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作

有没有办法将侧面输入应用于 Apache Beam 中的 BigQueryIO read 操作举例来说我在 PCollection 中有一个值我想在查询中使用该值从 BigQuery 表中获取数据使用侧面输入可以吗或者在这种情况下
使用 GlobalWindow 在 Beam 中进行状态垃圾收集

Apache Beam 最近推出了状态细胞 https beam apache org blog 2017 02 13 stateful processing html 通过StateSpec和 StateId注释在 Apache Fli
Python Apache Beam 端输入断言错误

我对 Apache Beam Cloud Dataflow 还很陌生所以如果我的理解不正确我深表歉意我正在尝试通过管道读取大约 30 000 行长的数据文件我的简单管道首先从 GCS 打开 csv 从数据中提取标题通过 ParDo
在批处理管道中，如何为来自批处理源的数据分配时间戳，例如 Beam 管道中的 csv 文件

我正在批处理管道中从有界源 csv 文件读取数据并希望根据存储为 csv 文件中列的数据为元素分配时间戳如何在 Apache Beam 管道中执行此操作如果您的批量数据源包含每个元素基于事件的时间戳例如您有一个包含元组的点击事件
如何删除 gcloud Dataflow 作业？

数据流作业在我的仪表板上杂乱无章我想从我的项目中删除失败的作业但在仪表板中我没有看到任何删除数据流作业的选项我正在寻找至少像下面这样的东西 gcloud beta dataflow jobs delete JOB ID 要删除所有作

随机推荐

如何避免“WindowsError：[错误5]访问被拒绝”

有重新创建文件夹的脚本 Remove folder if exists with all files if os path isdir str os path realpath my folder shutil rmtree os path
安卓框架

如果有人问我以下问题 Android 框架是什么它有什么作用我该怎么回答呢另外 API 例如活动管理器位置管理器等在框架中的作用是什么 What an Android Framework is What does it do 支持
OpenCV：断言失败（（img.深度（）== CV_8U || img.深度（）== CV_32F）&& img.type（）== templ.type（））

我从上面得到这个错误不知道如何避免它我的目的是获取屏幕截图然后对其进行模板匹配看看此时屏幕上是否显示图标到目前为止这只是图标的位置我的代码 include opencv2 highgui highgui hpp include
download.file 中的错误：不支持方案

我需要从下载一些 csv 文件http www elections state md us http www elections state md us 这是我的代码 url lt http www elections state md
多层次亲子关系

我有一个这样的表我想输出这样的层次结构 a c x1 a c x2 a d y1 a d y2 b e z b f q 我搜索了一些 CTE 示例但它们仅列出了层次结构的 2 2 组合不依赖父子深度如何才能达到这个结果呢您想要使用递
多个requestAnimationFrame性能

如果我要做多个动画添加多个动画在性能方面是否可以 requestAnimationFrame回调 F 例如 function anim1 animate element 1 function anim2 animate element 2
角度拦截器 - 类型“Observable”不可分配给类型“Observable>”

我刚刚从一篇文章中复制了这段代码 import Injectable from angular core import HttpEvent HttpInterceptor HttpHandler HttpRequest HttpErrorR
日期间隔不应超过 20 天

我有起始日期和截止日期如果用户输入起始日期和截止日期它们之间的差距不应超过 20 天即如果用户从 date 30 08 2018 到 date 26 09 2018 输入差距超过 20 天所以我想使用 jquery 显示警报下
移动构造函数和初始化列表

我想为需要成为值类型的特定类型实现移动构造函数无复制构造函数 boost unordered map 我们称这种类型为Composite Composite有以下签名 struct Base Base stuff no default c
如何在 SQL Server 中创建唯一的随机字母数字序列

我想将唯一的随机字母数字序列作为数据库表的主键序列中的每个字符都是字母 a z 或数字 0 9 我想要的示例 kl7jd6fgw zjba3s0tr a9dkfdue3 我想创建一个可以处理该任务的函数您可以使用唯一标识符 https
React Native TouchableOpacity onPress 问题

我有一个简单的图标按钮如下所示 class SideIcon extends Component render return
使用递归将列表分解为子列表

我正在尝试使用类型声明编写一个函数 Int Bool gt Int 我希望该功能仅添加Ints 到同一个嵌套子列表如果布尔值是True 但是如果布尔值是False 我想要Int与下一个相关联True要添加到 a 的布尔值new子列表例如
内存不足，无法继续运行 Java 运行时环境

我的系统有 4 GB RAM 运行 Windows 操作系统我安装了 VMWare 来设置具有 2GB RAM 的 Ubuntu 虚拟机在 Ubuntu 中我打开 Eclipse 并开始编码 Eclipse 开始一次又一次关闭我开始
如何将 HostControl 实例传递给 TopShelf 中的自定义主机服务？

This 问题已在其他地方提出 https stackoverflow com questions 28740658 how to detect if topshelf is running in console mode 但没有迹象表明我
如何更新 SQL 中的选择性字段（保留部分字段不变）？

我想用两个日期更新记录如果没有要更新的新值则保持现有数据不变这是一个示例表记录 id last foo last bar 1 2010 05 30 2010 05 30 我正在使用的查询 UPDATE sampledates SET
Android 使用 P12 证书签署数据

因此我搜索了一段时间但找不到真正需要的东西因为出现的每个结果都与签署实际的包有关所以基本上我所做的就是 Web 服务受到会话管理器的保护为了获取会话号需要将 GUID 发送到 Web 服务在 iOS 方面我们能够获得此设置
通过 AWS API Gateway 集成模板使用 DynamoDB 的 lastEvaluatedKey 进行扫描

我使用 AWS APIGateway 集成模板直接扫描 dynamoDB 而不是编写单独的 lambda 来处理请求响应但是扫描有 1MB 的限制这导致扫描仅限于部分数据根据文档我们应该重新扫描直到找到匹配项或使用 lastE
如何将 .csv 文件导入 R？

我有这个 csv 文件 ID GRADES GPA Teacher State 3 C 2 Teacher3 MA 1 A 4 Teacher1 California 我想做的是使用 R 统计软件读取文件并将标题读入某种列表或数组我是
有没有具有这些功能的轻量级 JDBC 包装器？

命名参数就像 Spring 中的 JdbcTemplate JDBC 连接设置的 XML 配置用于查询的 XML 配置类似休眠的东西
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多

ParDo 中的侧面输出 | Apache Beam Python SDK

ParDo 中的侧面输出 | Apache Beam Python SDK 的相关文章

随机推荐

热门标签