googleclouddataflow

使用 Python 的 Dataflow/Beam 示例

我正在尝试获取以下项目的样本PCollection在 Dataflow Beam 上使用 Python SDK 虽然没有记录 Sample FixedSizeGlobally n 存在测试时它seems返回一个PCollection包含

googleclouddataflow ApacheBeam

数据流进入 Beam Pipeline 时的附加参数

我正在研究 Dataflow 我已经通过 Python SDK 构建了自定义管道我想将数据流 UI 上的参数添加到我的自定义管道中使用附加参数参考者https cloud google com dataflow docs guides

python3x googleclouddataflow ApacheBeam dataflow

如何在数据流中使用memcache？

我想在 dafalow ParDo 中使用 Memcache 有什么想法吗我无法使用现有的 memcahse 库因为它们属于 appengine 并且不可序列化罗希特我的猜测是你的文件中有一个私有变量DoFn类型的Memcache

googleclouddataflow

处理数据流中一对多阶段的正确方法

我有一个 Java 批处理管道它遵循以下模式 FileIO ExtractText gt input 1 file output millions of lines of text ProcessData ProcessData 阶段包含

Java performance onetomany googleclouddataflow ApacheBeam

将 MutationGroup 流式传输到 Spanner 中

我正在尝试使用 SpannerIO 将 MutationGroups 流式传输到扳手中目标是每 10 秒写入新的 MuationGroup 因为我们将使用 Spanner 来查询近期 KPI 当我不使用任何 Windows 时出现以下错

Google-cloud-dataflow：无法使用“BigQueryDisposition.WRITE_TRUNCATE”通过“WriteToBigQuery/BigQuerySink”将 json 数据插入到 bigquery

给定数据集如下 slot reward result 1 rank 1 isLandscape false p type main level 1276 type ba seqNum 42544 slot reward dlg result

googlebigquery googleclouddataflow ApacheBeam

Apache Beam：如何同时创建许多经历相同 PTransform 的 PCollection？

提前致谢问题我在谷歌云上有很多文件对于每个文件我都必须获取文件对每个文件进行一系列 Google Cloud Storage API 调用以对其进行索引例如 name blob name size blob size unzip

python27 googleclouddataflow ApacheBeam

在 Google Dataflow 中使用 FireStore

我想在带有 python 的数据流模板中使用 FireStore 我做过这样的事情 with beam Pipeline options options as p p Read from PubSub gt gt beam io ReadF

python googlecloudplatform googlecloudfirestore googleclouddataflow

读取多个.gz文件并识别哪一行属于哪个文件

我正在读取多个 gz 文件以使用谷歌数据流进行处理数据的最终目的地是BigQuery BigQuery 表对于 gz 文件内的 csv 文件中的每一列都有专用列 BQ 表中还有一个附加列 file name 它给出了该记录所属的文件名我

googleclouddataflow

Google Dataflow（Apache Beam）JdbcIO批量插入mysql数据库

我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati

mysql googleclouddataflow ApacheBeam apachebeamio

java.lang.NoClassDefFoundError：迁移到数据流 2.x 后的 org/apache/beam/sdk/runners/PipelineRunner

获取运行时错误 java lang NoClassDefFoundError org apache beam sdk runners PipelineRunner 即使我的 pom xml 中有以下内容

googleclouddataflow ApacheBeam

在 Google Cloud Bigtable 中填充数据需要很长时间

我使用以下代码将数据填充到 Bigtable 中 CloudBigtableScanConfiguration config new CloudBigtableScanConfiguration Builder withConfigurat

googleclouddataflow googlecloudbigtable

避免重新计算 Beam Python SDK 中所有云存储文件的大小

我正在开发一个从 Google Cloud Storage GCS 目录读取约 500 万个文件的管道我已将其配置为在 Google Cloud Dataflow 上运行问题是当我启动管道时需要几个小时计算所有文件的大小 INFO

python googleclouddataflow ApacheBeam

从 Apache Beam 中的多个文件夹读取文件并将输出映射到文件名

致力于从多个文件夹中读取文件然后使用 python sdk 和数据流运行程序将文件内容文件名文件内容文件名输出到 apache beam 中的 bigquery 最初以为我可以为每个文件创建一个 pcollection 然后将文件

python googlecloudplatform googleclouddataflow ApacheBeam

如何使用 Google Cloud Dataflow 将压缩文件写入 Google Cloud Storage？

我正在尝试将 Gzipped 文件写入 Google Dataflow 程序中的 Google Cloud Storage 存储桶中常见问题解答说 Does the TextIO source and sink support compr

googleclouddataflow

BigQuery 写入时数据流作业失败并出现后端错误

我的工作因最终导入 BigQuery 相关的几个不同错误而失败我已经运行了 5 次每次都失败尽管错误消息有时会有所不同当我在本地针对 SQLite 数据库运行该工作时该工作运行良好因此我认为问题出在 Google 后端一条错误

python googlebigquery googleclouddataflow

Google Cloud Dataflow 中的自动缩放功能未按预期工作

我正在尝试在我的数据流作业中启用自动缩放如中所述本文 https cloud google com dataflow service dataflow service desc autoscaling 我通过以下代码设置相关算法来做到这一

googleclouddataflow

如何将在执行同一数据流管道期间计算的架构写入 BigQuery？

我的场景是此处讨论的场景的一种变体如何使用数据流执行期间计算的架构写入 BigQuery https stackoverflow com questions 29440279 how do i write to bigquery usin

googleclouddataflow

Apache Beam：为什么全局窗口中聚合值的时间戳是 9223371950454775？

我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化在 Google Dataflow 1 9 中我们将在窗口组合函数之后在 DoFn 中获得正确的时间

googleclouddataflow ApacheBeam

仅在另一个管道在谷歌数据流上完成后才执行管道

我想在谷歌数据流上运行一个管道该管道取决于另一个管道的输出现在我只是在本地使用 DirectRunner 运行两个管道 with beam Pipeline options pipeline options as p p beam io

python googleclouddataflow ApacheBeam