Dataflow 作业完成时通知 Google PubSub

2024-03-20

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上？我们需要通知依赖系统传入数据的处理已完成。将数据写入到接收器后，Dataflow 如何发布？

EDIT:我们希望在管道完成写入 GCS 后发出通知。我们的管道如下所示：


 
Pipeline.create(options)
                .apply(....)
                .apply(AvroIO.Write.named("Write to GCS")
                             .withSchema(Extract.class)
                             .to(options.getOutputPath())
                             .withSuffix(".avro"));
p.run();

如果我们在 pipeline.apply(...) 方法之外添加逻辑，我们会在代码完成执行时收到通知，而不是在管道完成时收到通知。理想情况下我们可以添加另一个.apply(...)在 AvroIO 接收器之后并向 PubSub 发布消息。

您有两种选择可以在管道完成时收到通知，然后发布消息 - 或者在管道完成运行后执行您想要的任何操作：

Use the BlockingPipelineRunner。这将运行您的管道同步地 https://cloud.google.com/dataflow/pipelines/specifying-exec-params#blocking-execution.
Use the DataflowPipelineRunner。这将运行您的管道异步地 https://cloud.google.com/dataflow/pipelines/specifying-exec-params#asynchronous-execution。然后，您可以轮询管道的状态，并等待其完成。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

googlecloudpubsub

Dataflow 作业完成时通知 Google PubSub 的相关文章

计算 Pubsub 主题中未确认消息的数量

我想在来自 pubsub 主题的所有消息都得到确认后执行一项操作我尝试使用 Stackdriver 监控 API 来衡量按云区域细分的未确认消息数但不了解区域过滤器以及为什么需要它在哪里可以查看我的主题使用的区域并且由于某种未知的
Dataflow 作业完成时通知 Google PubSub

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上我们需要通知依赖系统传入数据的处理已完成将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发
安排 Google Cloud Dataflow 作业的最简单方法

我只需要每天运行一个数据流管道但在我看来像 App Engine Cron Service 这样需要构建整个 Web 应用程序的建议解决方案似乎有点太多了我正在考虑仅从 Compute Engine Linux 虚拟机中的 cron
GCP Pub/Sub，如果已经有活动订阅，您可以在新订阅上重播旧消息吗

在 GCP Pub Sub 中我有一个主题和一个Subscription1并已开始发布消息我可以添加另一个订阅吗Subscription2并重播之前发布的旧消息Subscription2被创造了它会允许吗卡夫卡允许在什么时候我会失
Cloud SQL 增量到 BigQuery

我需要针对我正在研究的用例之一提供一些建议使用案例我们在 Cloud SQL 中拥有大约 5 10 个表的数据其中一些被视为查找表另一些则被视为事务性表我们需要将其发送到 BigQuery 以生成 3 4 个表扁平化嵌套或非规
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2
Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为
错误 403：向 Cloud PubSub 发送测试消息时出错：用户无权执行此操作

我想设置推送通知手表但收到错误响应我需要什么授权 Request Google API client getClient POST request ch curl init https www googleapis com gmail
压缩保存在Google云存储中的文件

是否可以压缩已保存在 Google 云存储中的文件这些文件由 Google 数据流代码创建和填充数据流无法写入压缩文件但我的要求是将其保存为压缩格式标准 TextIO Sink 不支持写入压缩文件因为从压缩文件中读取的可扩展性较差
Google Pub/Sub 是否有队列或主题？

我熟悉 JMS 对 Google Pub Sub 还很陌生在 JMS 中有 2 个选项 Queue 只有一个消费者可以接受消息 Topic 每个消费者接受来自主题的每条消息我相信 Google Pub Sub 应该支持这样的东西但是快
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
Spring 与 Apache Beam

我想将 Spring 与 Apache Beam 结合使用它将在 Google Cloud Data flow Runner 上运行数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文我想在 Apache Bea
detectorClassPathResourcesToStage - 无法转换 url

当我在 GCE 中运行 jar 时出现以下错误 java jar mySimple jar project myProjcet Aug 13 2015 1 22 26 AM com google cloud dataflow sdk ru
使用 GlobalWindow 在 Beam 中进行状态垃圾收集

Apache Beam 最近推出了状态细胞 https beam apache org blog 2017 02 13 stateful processing html 通过StateSpec和 StateId注释在 Apache Fli
使用Google Cloud Pub/Sub时如何在AWS/SQS中实现“锁定”功能？

当您想要在 Google Cloud Pub Sub 之上实现生产者消费者模式时您会期望每条消息只能由一个消费者处理但 Google Cloud Pub Sub 会将每条消息发送给所有订阅者但AWS SQS具有以下功能可以轻松保证这
Dataflow sideInput 可以通过读取 gcs 存储桶来更新每个窗口吗？

我目前正在创建一个 PCollectionView 方法是从 gcs 存储桶中读取过滤信息并将其作为侧面输入传递到管道的不同阶段以过滤输出如果 gcs 存储桶中的文件发生更改我希望当前正在运行的管道使用这个新的过滤器信息如果我的过
使用 Apache Beam 的 Dataflow 批量加载的性能问题

我正在对数据流批量加载进行性能基准测试发现与 Bigquery 命令行工具上的相同负载相比加载速度太慢文件大小约为 20 MB 包含数百万条记录我尝试了不同的机器类型并获得了最佳的负载性能n1 highmem 4加载目标 BQ 表的
与谷歌数据流的复杂连接

我是一个新手试图了解我们如何将批量 ETL 流程重写到 Google Dataflow 中我已经阅读了一些文档运行了一些示例我建议新的 ETL 流程将由业务事件即源 PCollection 驱动这些将触发该特定业务实体的 ETL

随机推荐

选择 FTP 和 HTTP 传输的缓冲区大小

在实现低级 HTTP 和 FTP 传输时如何选择缓冲区的大小从套接字读取或写入套接字的字节数以获得最大吞吐量我的应用程序应该在 130 Kbps 到 3 Mbps 的连接上使用 HTTP 或 FTP 传输数据我事先知道预期的速度
Google Now 活动卡 - 如何显示更多信息

我正在通过将架构数据添加到确认电子邮件来测试 Google Now 中的事件卡目前我正在尝试用铁路旅程信息填充事件卡因为不支持铁路旅程模式不幸的是我只能获取 Google Now 卡片中显示的少量信息这是我要添加到电子邮件中的内
如何使用 importlib.resources.path(package, resources)？

我正在使用以下代码创建一个 GeneratorContextManager try import importlib resources as pkg resources except ImportError Try backported
在没有 RequireJS 的情况下使用 Angular Dragula

我很想使用 angular dragula 模块在我的 Angular 项目中实现拖放 https github com bevacqua angular dragula https github com bevacqua angular
switch (true) 作为 else if 的替代品 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我见过多次使用switch true 今天我自己用过它而不是多个else ifs 这是我使用它的案例 var isChrome navigat
如何在 JDK 1.7 OSX 上运行 Eclipse Indigo

Oracle 最近发布了 OSX JDK 7 ea 如何运行 Eclipse Indigo 我收到以下错误消息 echo JAVA HOME Library Java JavaVirtualMachines JDK 1 7 0 Develo
如何在 HTML 中显示变量

我正在使用 Python 制作一个 Web 应用程序并且有一个想要在 HTML 页面上显示的变量我该如何去做呢会使用 VariableName 在 HTML 页面中是正确的方法吗这在 Flask 中解释得非常清楚文档 http fl
在Java中检测USB驱动器

如何检测 USB 驱动器何时连接到 Windows Linux 或 Mac 中的计算机我在网上看到的唯一方法是迭代驱动器但我不认为有一个很好的跨平台方法例如 Linux 中的 File listRoots 仅返回即使在 Window
无法在 Snow Leopard 上安装乘客 3（使用 RVM 和 ruby 1.9.2）

我一直在尝试安装乘客但尚未成功我已经安装了 gem 但是当我运行时 passenger install apache2 module 它告诉我 This installer must be able to write to the fo
如何使用从其他数据帧计算出的值有效地填充数据帧列

我正在尝试填充数据框 elist 与公司的累积回报和累积市场回报这可以通过使用循环遍历 elist 数据框来完成iterrows 看这个link https stackoverflow com questions 42593859 why
如何防止 TFS 将工作项与构建关联？

我正在尝试为我们的测试团队设置自动通知以便他们在准备好测试用户故事时得到通知当前当工作项的固定构建发生更改时会触发通知我们的夜间构建部署到临时服务器我希望此版本更新固定版本此外我们还有一个封闭的签入构建我do no
Angular.js ng-repeat 跨多个元素

这个问题已在这里得到部分解决 Angularjs ng repeat 跨多个trs https stackoverflow com questions 12979205 angular js ng repeat across multipl
mutate_impl(.data,dots) 中的错误：评估错误：Date 类的索引仅允许年、季度、月、周和日周期

我在用Anomalize包来检测异常但即使我已经定义了我还是收到了提到的错误Date作为索引示例代码 x lt as data frame data gt group by date acc id gt summarise count
Java-R 集成？

我有一个 Java 应用程序需要执行偏最小二乘回归似乎没有 PLSR 的 Java 实现 Weka 可能曾经有过类似的东西但它不再出现在 API 中另一方面我发现了一个很好的 R 实现它还有一个额外的好处它是由我想要复制其结果的
压缩数组以对连续元素进行分组

以下代码压缩一个数组以便我可以看到某个值在数组中出现了多少次 var str shopping shopping coupons shopping end var arr str split function compressArray
如何在 sql server 中连接并制作一组文本？ [复制]

这个问题在这里已经有答案了可能的重复在 MS SQL Server 2005 中模拟 group concat MySQL 函数 https stackoverflow com questions 451415 simulating g
“sys.path”报告的顺序是搜索包的顺序吗？

Python 中条目出现的顺序是sys path对应于找到包的顺序例如我有 gt gt gt from pprint import pprint gt gt gt pprint sys path Library Python 2 7 si
无法编辑 xml 文件但可以编辑 .java？

嗨我有一个奇怪的问题我正在开发一个已导入到 eclipse 中的现有项目我可以查看所有文件没有指示任何错误我可以运行该项目它将显示在模拟器上当我尝试更改 xml 文件中的代码时事实上所有 xml 文件都没有输入任何内容没
如何正确引用Strings.xml文件，android

我的 string xml 有一个字符串
Dataflow 作业完成时通知 Google PubSub

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上我们需要通知依赖系统传入数据的处理已完成将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发

Dataflow 作业完成时通知 Google PubSub

Dataflow 作业完成时通知 Google PubSub 的相关文章

随机推荐

热门标签