Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
从 Dataflow 进行流式传输时从 BigQuery 删除数据
从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据 我们的用例是这样的 我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间 从表中删除 3 天前的数据 是否建议这样做 如果是 有
googlebigquery
googleclouddataflow
ApacheBeam
googlecloudpubsub
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException
我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中 它执行 https 调用 想想 REST API 在我的本地环境中 所有这些都可以在 DirectRun 中正常运行 这是我的本地环境 apache beam 2
Java
SSL
googlecloudplatform
googleclouddataflow
ApacheBeam
如何使用 python API 列出所有数据流作业
我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它 更新我的数据流作业的源并重新运行它 我正在尝试使用 python 来实现这一点 直到现在我还没有遇到任何有用的文档 我想到使用 python 的库子进程来执行 gcloud
python
googlecloudplatform
googleclouddataflow
究竟是什么在管理光束中的水印?
Beam 的强大功能来自于它先进的窗口功能 但它也有点令人困惑 在本地测试中看到一些奇怪的情况 我使用rabbitmq作为输入源 其中消息并不总是得到ackd 并修复了不总是关闭的窗口 我开始挖掘 StackOverflow 和 Beam
googleclouddataflow
ApacheBeam
ParDo 中的侧面输出 | Apache Beam Python SDK
由于该文档仅适用于 JAVA 我无法真正理解它的含义 它指出 虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值 但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
googleclouddataflow
ApacheBeam
Apache Beam 中的异步 API 调用
正如标题所说 我想使用 python 在 apache beam 中进行异步 API 调用 目前 我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF
python
pythonrequests
pythonasyncio
googleclouddataflow
ApacheBeam
旁加载静态数据
在 ParDo 中处理数据时 我需要使用存储在 Google Cloud Storage 上的 JSON 架构 我想这可能是侧面加载 我读了他们称之为文档的页面 https beam apache org releases pydoc 2
python3x
googleclouddataflow
ApacheBeam
是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入?
在我的项目中 我希望在 Google Dataflow 中使用流式传输管道来处理 Pub Sub 消息 在清理输入数据时 我还希望获得来自 BigQuery 的侧面输入 这提出了一个问题 将导致两个输入之一无法工作 我在管道选项中设置了st
python
googlecloudplatform
googlebigquery
googleclouddataflow
Cloud SQL 增量到 BigQuery
我需要针对我正在研究的用例之一提供一些建议 使用案例 我们在 Cloud SQL 中拥有大约 5 10 个表的数据 其中一些被视为查找表 另一些则被视为事务性表 我们需要将其发送到 BigQuery 以生成 3 4 个表 扁平化 嵌套或非规
如何从数据流中的PCollection读取bigQuery
我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
googlebigquery
googleclouddataflow
ApacheBeam
可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗?
我有一个将数据写入 Google Cloud pubsub 的应用程序 根据 pubsub 的文档 由于重试机制而导致的重复偶尔可能会发生 还有消息乱序的问题 这在 pubsub 中也得不到保证 另外 根据文档 可以使用 Google Cl
MessageQueue
googleclouddataflow
ApacheBeam
googlecloudpubsub
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用
我有一个数据流作业 我将首先从 bigquery 查询中读取 在标准 sql 中 它在直接运行模式下完美运行 但是 我尝试在数据流运行程序模式下运行此数据流并遇到此错误 响应 content 显然 use standard sql 参数在数
googlebigquery
googleclouddataflow
ApacheBeam
dataflow
是否可以使用 Apache Beam / Google Cloud Dataflow 从 Azure EventHub 主题进行消费?
Problem 我们希望使用 Google Cloud 中的数据流管道来使用 Azure 中的 EventHub 主题 Question 是否知道 KafkaIO 是否允许直接在 Apache Beam Google Cloud 数据流作业
Cloud Dataflow 中的作业失败:启用 Dataflow API
我目前正在尝试将 Dataflow 与 Pub Sub 结合使用 但收到此错误 工作流程失败 原因 6e74e8516c0638ca 刷新您的凭据时出现问题 请检查 1 为您的项目启用Dataflow API 2 您的项目有一个机器人服务帐
googlecloudplatform
googleclouddataflow
根据行内容指定动态生成的表名
我想设置从 gcs 存储桶中的文件读取数据流管道 然后写入 bigquery 表 需要注意的是 要写入的表应根据从 gcs 文件中读取的行的内容来决定 我的问题是 这可能吗 如果是 有人可以给我任何关于如何实现这一目标的提示吗 此外 必须进
googleappengine
googlebigquery
googlecloudstorage
googleclouddataflow
使用 Google Cloud DataFlow python sdk 读取一组 xml 文件
我正在尝试从 GCS 存储桶读取 XML 文件的集合并处理它们 其中集合中的每个元素都是代表整个文件的字符串 但我找不到关于如何完成此操作的合适示例 我也无法理解它来自 Apache Beam 文档 主要是关于 Java 版本的 我当前的管
python
googleclouddataflow
安排 Google Cloud Dataflow 作业的最简单方法
我只需要每天运行一个数据流管道 但在我看来 像 App Engine Cron Service 这样需要构建整个 Web 应用程序的建议解决方案似乎有点太多了 我正在考虑仅从 Compute Engine Linux 虚拟机中的 cron
googleclouddataflow
Google Cloud Dataflow (Python):读取和写入 .csv 文件的函数?
我无法弄清楚 GCP Dataflow Python SDK 中读取和写入 csv 文件 或任何非 txt 文件 的精确函数 对于BigQuery 我已经弄清楚了以下功能 beam io Read beam io BigQuerySourc
googlecloudplatform
googleclouddataflow
Dataflow 作业完成时通知 Google PubSub
有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上 我们需要通知依赖系统传入数据的处理已完成 将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发
googleclouddataflow
googlecloudpubsub
在 Dataflow Python flex 模板中包含另一个文件 ImportError
是否有一个包含多个文件的 Python Dataflow Flex 模板示例 其中脚本导入同一文件夹中包含的其他文件 我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
python
googlecloudplatform
googleclouddataflow
ApacheBeam
«
1
2
3
4
5
6
...10
»